全名:Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
8月22发表的,一个名为Show-o的统一变换器(transformer)
论文地址:2408.12528v2 (arxiv.org)
项目地址:GitHub - showlab/Show-o: Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.
能够同时处理多模态理解和生成任务。Show-o模型的创新之处在于它将自回归(autoregressive)和(离散)扩散(diffusion)建模融合在一起,以适应各种不同和混合模态的输入和输出。
摘要:
我们提出了一个统一的转换器,即 Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o 统一了自回归和(离散)扩散建模,以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务,包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中,它展示了与现有单个模型相当或更好的性能,这些模型具有等效或更多为理解或生成而定制的参数。这显著凸显了其作为下一代基础模型的潜力。
1. 引言 (Introduction)
- 报告首先指出了多模态智能的两个关键支柱:理解和生成,并提到了近期在这两个领域的显著进展。
- 作者提出了一个问题:是否可以用单个变换器处理多模态理解和生成。
本文的主要贡献可以概括为:
• 我们提出了一个统一的模型,即 Show-o,它使用一个转换器统一了多模态理解和生成。
• Show-o 创新性地将自回归和(离散)扩散建模统一在一个转换器中,展示了在独特处理文本和图像方面的多功能性。
• 作为一个统一的模型,Show-o 在多模态理解和生成基准中表现出与具有同等或更多参数的个体基线模型相当甚至更好的性能。
• Show-oinntly 支持各种下游应用程序,如基于文本的修复和外推,无需任何微调。此外,它还展示了混合模态生成的可能性。• 我们探讨了不同类型的表示(离散或连续)对多模态理解的影响,为在统一模型的现有功能下改进多模态提供了有价值的见解。
2. 相关工作 (Related Work)
- 报告回顾了多模态理解、视觉生成以及统一视觉-语言基础模型的研究进展。
3. 方法论 (Methodology)
3.1 标记化 (Tokenization)
- 文本标记化:使用预训练的大型语言模型(LLM)相同的分词器进行文本数据的标记化。
- 图像标记化:使用MAGVIT-v2量化器将图像编码为离散的标记。图像被量化为16x16的标记网格,每个标记对应一个嵌入向量。
-
3.2 架构 (Architecture)
- Show-o模型基于预训练的LLM,并且对架构进行了微小的改动,主要是在每个注意力层前添加了QK-Norm操作,以提高模型的稳定性和性能。
- 模型的嵌入层被扩展,以包含8192个新的可学习嵌入,用于离散图像标记。
3.3 统一提示策略 (Unified Prompting)
- 设计了一种统一的提示格式,将图像和文本标记组合成一个序列,以适应不同类型的任务,如多模态理解、文本到图像的生成等。
- 使用特殊的任务标记和开始/结束标记来明确序列的开始和结束。
-
3.4 全注意力机制 (Omni-Attention Mechanism)
- Show-o采用了一种新颖的注意力机制,能够根据输入序列的类型自适应地应用因果注意力或全注意力。
- 文本标记使用因果注意力,而图像标记使用全注意力,允许每个图像标记与序列中的所有其他标记交互。
3.5 训练目标 (Training Objectives)
- Next Token Prediction (NTP):使用标准的语言表达模型目标,最大化文本标记的预测概率。
- Mask Token Prediction (MTP):采用生成掩码模型的方法,随机掩盖图像标记,并训练模型预测原始值。从未掩码标记和前面的文本标记的掩码标记中重建原始图像标记:
3.6 训练流程 (Training Pipeline)
- 第一阶段:图像标记嵌入和像素依赖性学习。使用RefinedWeb数据集进行语言模型训练,使用ImageNet-1K数据集进行类条件图像生成和图像描述训练。
- 第二阶段:图像-文本对齐训练。在35M图像-文本对上进行文本到图像的生成训练。
- 第三阶段:高质量数据微调。使用过滤的高质量图像-文本对和指令数据进行微调,以提高特定任务的性能。
4. 实验 (Experiments)
- 数据集:使用了三种类型的数据集,包括文本数据、图像数据和图像-文本对。
- 评估:在多个基准上评估Show-o模型,包括多模态理解(如图像描述和视觉问答)和视觉生成(如文本到图像的生成)。
- 实现细节:描述了模型的训练细节,包括使用的优化器、学习率调度、批次大小等。
5. 结论 (Conclusion)
- Show-o模型成功地将多模态理解和生成任务统一到一个变换器框架中,展示了其作为下一代基础模型的潜力。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明原文出处。如若内容造成侵权/违法违规/事实不符,请联系SD编程学习网:675289112@qq.com进行投诉反馈,一经查实,立即删除!