Meta揭秘GPT-4o同款技术，华人团队碾压扩散模型 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

根据搜索结果，以下是对“OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者”这一主题的详细分析：

背景概要

文章主要介绍了Meta AI在多模态大语言模型（MLLMs）方面的一项新技术，该技术由华人研究者主导，旨在提高图像生成的分辨率和效率，并声称在某些方面超越了扩散模型。同时，该技术被认为与OpenAI的GPT-4o在自回归图像生成方面有相似之处，但OpenAI并未公开相关技术细节。

Meta的新技术：TokenShuffle

核心思想： 传统自回归模型在图像合成方面效率较低，因为需要处理大量的图像token，限制了训练和推理效率以及图像分辨率。Meta提出的TokenShuffle技术旨在减少计算中的视觉token数量，从而提高效率并支持高分辨率图像合成。
技术细节：

* Token-shuffle操作： 在Transformer输入阶段合并局部空间内的视觉token。
* Token-unshuffle操作： 在推理阶段还原视觉token。
* Token数量会按窗口大小的平方减少，从而大幅降低Transformer的运算量。
* 本质上，新方法在训练和推理过程中并未真正减少序列长度，而是在Transformer计算过程中，有效减少了token数量，从而加速计算，可以支持2048×2048分辨率的图像生成。

性能表现： 基于27亿参数的Llama模型，TokenShuffle在GenEval和GenAI-Bench基准测试中取得了优异的成绩，甚至优于强扩散模型。大规模人类评估也验证了该方法的有效性。
意义： TokenShuffle的效能与效率，揭示了其在赋能多模态大语言模型（MLLMs）实现高分辨率、高保真图像生成方面的巨大潜力，为超越基于扩散的方法开辟了新路径。

与GPT-4o的关联

文章暗示Meta的TokenShuffle技术与GPT-4o在自回归图像生成方面有相似之处，但OpenAI并未公开GPT-4o背后的技术原理。
文章指出，GPT-4o基于自回归技术的生图，让OpenAI的GPU都“融化”了。
Meta的研究者发现在多模态大语言模型（MLLMs）中，视觉词表存在维度冗余：视觉编码器输出的低维视觉特征，被直接映射到高维语言词表空间。

华人一作的背景

该研究的华人一作是美国东北大学工程学院的博士研究生，此前在德克萨斯大学北部分校计算机科学与工程系工作了两年，拥有南京林业大学信息科学与技术学院的学士和硕士学位。
他的研究兴趣包括模型效率、多模态大语言模型（LLM）、生成式人工智能（Generative AI）。

Meta在AI领域的战略布局

开源策略： Meta 积极拥抱开源 AI 模型，希望通过开源降低成本、加速发展，并在 AI 竞赛中追赶其他对手。Meta 首席 AI 科学家杨立昆（Yann LeCun）等高管都希望 Llama 2 能更广泛地开源。
多模态研究： Meta AI研究院（FAIR）最近开源了多项研究成果，包括虚拟人动作控制模型、影片浮水印生成模型、生成框架、LLM社交能力基准测试等。
硬件与AI结合： Meta 计划大举布局 AI 人形机器人，将 AI、传感器和软件整合，构建完整的生态系统。Meta 认为自己在 AR/VR 设备中开发的软件、传感器和计算包正是驱动人形机器人所需的技术。
面临的挑战： 开源 AI 模型可能存在被滥用的风险，同时 Meta 需要找到开源后的盈利模式。

其他相关信息

Scaling Law： 俄亥俄州立大学等机构的研究人员提出了一种全新的WebDreamer框架，它可以利用LLM作为世界模型，来预测网站上的交互结果，使用GPT-4o作为世界模型来支持复杂环境中的规划，潜力巨大。
OpenAI的策略调整： OpenAI 首席执行官 Sam Altman 认为 OpenAI 在开源技术方面“站在了历史的错误一边”，计划在今年夏天发布首个“开源”语言模型，并在推理能力上超越其他同类开源推理模型。
AI伦理与安全： OpenAI 也因匆忙对近期模型进行安全测试，且未公布其他模型的模型卡，而引发了一些 AI 伦理学家的批评。

总结

Meta 通过华人研究者主导的 TokenShuffle 技术，在多模态大语言模型和图像生成领域取得了显著进展，并在一定程度上揭示了 OpenAI 在 GPT-4o 中可能采用但未公开的技术。Meta 的开源战略、多模态研究和硬件 AI 结合的布局，显示了其在 AI 领域的雄心。同时，AI 领域的竞争日益激烈，OpenAI 和 Meta 等公司都在不断调整策略，以期在未来占据领先地位。

Related Articles