根据搜索结果,以下是对“OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者”这一主题的详细分析:
背景概要
文章主要介绍了Meta AI在多模态大语言模型(MLLMs)方面的一项新技术,该技术由华人研究者主导,旨在提高图像生成的分辨率和效率,并声称在某些方面超越了扩散模型。同时,该技术被认为与OpenAI的GPT-4o在自回归图像生成方面有相似之处,但OpenAI并未公开相关技术细节。
Meta的新技术:TokenShuffle
- 核心思想: 传统自回归模型在图像合成方面效率较低,因为需要处理大量的图像token,限制了训练和推理效率以及图像分辨率。Meta提出的TokenShuffle技术旨在减少计算中的视觉token数量,从而提高效率并支持高分辨率图像合成。
- 技术细节:
* Token-shuffle操作: 在Transformer输入阶段合并局部空间内的视觉token。
* Token-unshuffle操作: 在推理阶段还原视觉token。
* Token数量会按窗口大小的平方减少,从而大幅降低Transformer的运算量。
* 本质上,新方法在训练和推理过程中并未真正减少序列长度,而是在Transformer计算过程中,有效减少了token数量,从而加速计算,可以支持2048×2048分辨率的图像生成。
- 性能表现: 基于27亿参数的Llama模型,TokenShuffle在GenEval和GenAI-Bench基准测试中取得了优异的成绩,甚至优于强扩散模型。大规模人类评估也验证了该方法的有效性。
- 意义: TokenShuffle的效能与效率,揭示了其在赋能多模态大语言模型(MLLMs)实现高分辨率、高保真图像生成方面的巨大潜力,为超越基于扩散的方法开辟了新路径。
与GPT-4o的关联
- 文章暗示Meta的TokenShuffle技术与GPT-4o在自回归图像生成方面有相似之处,但OpenAI并未公开GPT-4o背后的技术原理。
- 文章指出,GPT-4o基于自回归技术的生图,让OpenAI的GPU都“融化”了。
- Meta的研究者发现在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余:视觉编码器输出的低维视觉特征,被直接映射到高维语言词表空间。
华人一作的背景
- 该研究的华人一作是美国东北大学工程学院的博士研究生,此前在德克萨斯大学北部分校计算机科学与工程系工作了两年,拥有南京林业大学信息科学与技术学院的学士和硕士学位。
- 他的研究兴趣包括模型效率、多模态大语言模型(LLM)、生成式人工智能(Generative AI)。
Meta在AI领域的战略布局
- 开源策略: Meta 积极拥抱开源 AI 模型,希望通过开源降低成本、加速发展,并在 AI 竞赛中追赶其他对手。Meta 首席 AI 科学家杨立昆(Yann LeCun)等高管都希望 Llama 2 能更广泛地开源。
- 多模态研究: Meta AI研究院(FAIR)最近开源了多项研究成果,包括虚拟人动作控制模型、影片浮水印生成模型、生成框架、LLM社交能力基准测试等。
- 硬件与AI结合: Meta 计划大举布局 AI 人形机器人,将 AI、传感器和软件整合,构建完整的生态系统。Meta 认为自己在 AR/VR 设备中开发的软件、传感器和计算包正是驱动人形机器人所需的技术。
- 面临的挑战: 开源 AI 模型可能存在被滥用的风险,同时 Meta 需要找到开源后的盈利模式。
其他相关信息
- Scaling Law: 俄亥俄州立大学等机构的研究人员提出了一种全新的WebDreamer框架,它可以利用LLM作为世界模型,来预测网站上的交互结果,使用GPT-4o作为世界模型来支持复杂环境中的规划,潜力巨大。
- OpenAI的策略调整: OpenAI 首席执行官 Sam Altman 认为 OpenAI 在开源技术方面“站在了历史的错误一边”,计划在今年夏天发布首个“开源”语言模型,并在推理能力上超越其他同类开源推理模型。
- AI伦理与安全: OpenAI 也因匆忙对近期模型进行安全测试,且未公布其他模型的模型卡,而引发了一些 AI 伦理学家的批评。
总结
Meta 通过华人研究者主导的 TokenShuffle 技术,在多模态大语言模型和图像生成领域取得了显著进展,并在一定程度上揭示了 OpenAI 在 GPT-4o 中可能采用但未公开的技术。Meta 的开源战略、多模态研究和硬件 AI 结合的布局,显示了其在 AI 领域的雄心。同时,AI 领域的竞争日益激烈,OpenAI 和 Meta 等公司都在不断调整策略,以期在未来占据领先地位。