OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
等待输入文本...
自回归模型首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle技术,具有明显的计算优化效果,成功减少了视觉Token的数量,提高了效率,并为高分辨率图像合成提供了强有力的支持。
自回归模型的新突破:首次生成2048×2048分辨率的图像!
来自Meta、西北大学、新加坡国立大学等机构的研究人员,提出了TokenShuffle,这是一种为多模态大语言模型(MLLMs)设计的即插即用操作,能够显著减少计算中的视觉token数量,提高效率,并促进高分辨率图像合成。
图1:通过27亿参数自回归模型新技术生成的高分辨率图像
除了实现超高分辨率图像生成外,该技术的生成质量也异乎寻常地出色。
基于27亿参数的Llama模型,新方法具有明显的优势,远超出同类自回归模型的表现,甚至能够优于强扩散模型。
在GenEval基准测试中,获得0.62的综合评分。
在GenAI-Bench平台上,取得了0.77的VQAScore,创造了一新的技术标杆。
此外,大规模的人类评估,也验证了该方法的有效性。
与传统方法逐个学习和生成每个视觉token不同,新方法在局部窗口内按顺序处理和生成一组token,如图2所示。
图2:Token-Shuffle流程,展示了 Token-Shuffle 算法的核心步骤,精确地将输入文本 Tokenizing,随机 Shuffle,形成新的 Token 序列,提高文本的随机性和多样性。
Token-Shuffle包括:随机混淆算法,能够将输入字符串中的token随机打乱,以提高数据隐私和安全性。
为提高Transformer模型的输入效率,引入token-shuffle操作,有效地合并局部空间内的视觉token,以减少模型的计算复杂度和提高其处理速度。
并且采用token-unshuffle操作,用于在推理阶段还原视觉token。
该方法显著减少了计算中所需的视觉 token 数量,同时保持了高质量的生成效果。
Token-Shuffle的展现效果表明了其在赋能多模态大语言模型(MLLMs)实现高分辨率、高保真图像生成方面的巨大潜力,为超越基于扩散的方法开辟了新路径。
GPT-4o没说的秘密:自回归图像生成,通过复杂的算法和深度学习技术,GPT-4o可以生成真实感的图像,展现出人类无法想象的艺术istry和创造力。
在语言生成领域,自回归(Autoregression)模型长期占据领先地位。
尽管图像合成和自回归技术在日益增长的应用中发挥了重要作用,但是它们仍然被广泛认为落后于扩散模型。
这一局限主要源于AR模型需要处理大量图像token,严重制约了训练/推理效率和图像分辨率的提高。
基于自回归技术的GPT-4.0生图,让OpenAI的GPU都「融化」了。
然而,OpenAI并没有公开背后的技术原理。
GPT-4o生成的第一视角机器人打字图,透过机器人的眼睛,展现出一个未来世界的奇妙景象。
来自Meta等机构的研究者发现,多模态大语言模型(MLLMs)中存在一个隐患,即视觉词表存在维度冗余。研究者发现,视觉编码器输出的低维视觉特征被直接映射到高维语言词表空间,从而导致了模型的不必要的复杂性和训练难度增加。
研究者推出了一个简洁且创新的一种Transformer图像token压缩方法:Token-Shuffle。
他们设计了两项关键操作:为提高操作效率和减少错误率,旨在优化整个生产过程。
Token混洗(Token-shuffle):沿通道维度合并空间局部Token,以减少输入Token数。
Token解混(Token Unshuffle):在Transformer块后解构推断token,以恢复输出空间结构。
在输入准备阶段,通过一个多层感知器(MLP)模块将空间上相邻的token进行融合,形成一个压缩后的token,同时保留局部的关键信息,从而实现输入数据的有效缩减和特征提取。
在窗口大小为s的打乱情况下,token数量将会根据s的平方而减少,从而大幅降低Transformer的计算量。
图3:视觉词汇维度冗余的示意图。左侧:通过两个MLP操作将视觉token的秩降低r倍,减少了冗余的信息。右侧:不同r值下的预训练损失(对数刻度困惑度)表明了,降低秩的程度对预训练结果的影响。
在Transformer层处理后,token-unshuffle操作重新还原出原本的空间排列过程,这一阶段同样依靠轻量级的MLP模块。
本质上,新方法并没有实质性地减少序列长度,而是在Transformer计算过程中,高效地减少了token数量,从而加速了计算。
图4直观地展示了新方法在效率方面的明显提升。
Token-Shuffle能够实现计算效率的二次提升。
通过在Transformer计算期间压缩token序列,Token-Shuffle实现了高效的高分辨率图像生成,包括支持2048×2048分辨率的图像。
这种方法无需对Transformer架构本身进行修改,也不引入辅助损失函数或需要额外预训练的编码器,能够实现在不增加计算复杂度的情况下提高模型的表达能力。
此外,该方法还集成了一个针对自回归生成专门调整的无分类器引导(Classifier-Free Guidance,CFG)调度器,该调度器对自回归生成进行了专门的调整,提高了生成质量和稳定性。
不同于传统的固定引导强度,新的 CFG调度器在推理过程中逐步调整引导力度,有效减少早期 token 生成的伪影问题,进而进一步提高文本与图像的对齐效果。
研究者对几种CFG调度策略进行了探索,相关的结果展示在图5中。
根据视觉质量和人类评估的反馈,默认采用「半线性」调度器,以获得更好的生成效果。
图5:不同CFG调度器的比较,CFG尺度从1到7.5单调增加。
右侧结果显示,相比在所有视觉token上使用固定7.5的CFG值,采用CFG调度器能够同时提高图像的美学质量和文本对齐效果。
不同无分类器引导(CFG)尺度下的生成图像示例,展示了CFG在不同尺度下的生成能力和多样性,展现了机器学习算法在生成图像中的应用和潜力。
自回归的历史性突破。
通过与文本提示的联合训练,无需额外预训练文本编码器,MLLMs就能在下一个token预测框架下支持超高分辨率图像合成,同时保持高效的训练和推理。
这是自回归模型首次实现2048×2048分辨率的文生图。
在GenAI基准测试中,27亿参数Llama模型在困难提示下取得了0.77的综合得分,较AR模型LlamaGen的成绩提升了0.18,超越扩散模型LDM的得分0.15。
大规模人工评估也证实新方法在文本对齐度、视觉缺陷率和美学质量上具有全面优势。
在MLLMs高效生成高分辨率图像的领域,Token-Shuffle有望成为基准设计方案。
消融实验等更多内容和细节,参阅原论文,以获取更为详细和权威的信息。
模型训练:3步曲,旨在帮助开发者快速、准确地实现模型训练任务。步骤如下: 首先,**数据准备**,是模型训练的基础步骤。在这个阶段,我们需要收集和预处理数据,这包括数据清洁、数据 normalization、数据转换等操作。高质量的数据是模型训练的关键因素,影响着模型的性能和可靠性。 其次,**模型选择和训练**,是模型训练的核心步骤。在这个阶段,我们需要选择合适的模型算法,并使用训练数据来训练模型。模型选择和训练是一个复杂的步骤,需要根据具体的应用场景和数据特点来进行选择和调整。 最后,**模型评估和优化**,是模型训练的最后一个步骤。在这个阶段,我们需要对训练好的模型进行评估和优化,以确保模型的性能和可靠性。模型评估和优化是一个循环过程,我们需要不断地对模型进行评估和优化,以确保模型达到最佳的性能。
基于 cutting-edge 2.7B Llama 模型,具备 3072 维度的深度学习架构,依靠 20 个自回归Transformer 模块的组合,实现了高效的语言模型训练和应用。
模型的预训练被分为三个阶段,从低分辨率到高分辨率的图像生成中进行。
研究者首先使用512×512分辨率的图像进行训练,以便在此阶段不使用Token-Shuffle操作,因为视觉token的数量在此时并不大。在该阶段,他们成功训练了约50亿个token,采用的参数包括4K的序列长度、512的全局批量大小和总共211K步。
研究者将图像分辨率提升到1024×1024,并引入Token-Shuffle操作,旨在减少视觉token数量,提高计算效率。在这个阶段,他们将训练token数量扩展到2TB。
最后,研究者使用之前训练的checkpoint,将分辨率进一步提升至2048×2048,通过训练约300亿个token,初始学习率设为4×10^(-5)。
他们引入了z-loss,以稳定高分辨率图像生成的训练。
图11:在2048×2048分辨率下训练时的平均损失(左)和梯度范数(右),随着大约20,000次迭代的进行,出现了训练不稳定现象。
在不同阶段,研究者对所有模型进行了微调,学习率为4×10^(-6),使用1500张精选的高美学质量图像进行展示。
基于1024×1024分辨率和2大小的token-shuffle窗口,除非另有说明,微调结果的可视化和评估都将默认情况下进行。
量化评估:又快速又出色
表中结果明确展现了Token-Shuffle的出色性能。
相比其他自回归模型,新方法在「基本」(basic)提示上取得了更加出色的表现,整体得分超过LlamaGen 0.14分;在「高难度」(hard)提示上,也取得了优异的成绩,超过0.18分。
相比扩散基准,新方法在「高难度」提示上取得了明显的进步,达到了DALL-E 3的0.7分以上。
表1:在GenAI-Bench上的图像生成VQA评估成绩。「†」表示图像是通过Llama3重写提示生成的,以确保训练和推理的一致性。
除了表1中报告的VQAScore结果外,研究者还进行了额外的自动评估,通过GenEval等工具,对模型的性能进行了更加细致的评估,并在表2中报告了详细的评估结果。
实验结果明确表明,除了高分辨率外,Token-Shuffle 作为一个纯自回归模型,能够展现出令人满意的生成质量。
表2:在GenEval基准测试上的评估,旨在评估生成文本的可靠性和准确性,以确保输出结果的可读性和可理解性。
人类评估指的是使用人类智能和经验来评估某个项目、产品或服务的质量、性能和价值。这种评估方法通常由专业人士或领域专家进行,旨在提供客观、公正和可靠的评估结果。
尽管自动化评估指标提供了无偏的评估,但最新的研究发现它们可能无法完全捕捉到人类的偏好。
为此,研究者还在GenAI-Bench提示集中进行了大规模的人类评估,将新模型Token-Shuffle与LlamaGen、LuminarGPT和LDM等四种代表不同架构的模型进行了比较,包括自回归模型、MLLM和扩散模型。
在人类评估中,重点关注三个关键指标:准确性、可靠性和一致性。
文本对齐,评估图像与文本提示的匹配准确度,可以通过人工智能算法对图像和文本进行对齐,评估匹配准确度,提高图像搜索和文本识别的效率。
视觉缺陷,对设计的逻辑一致性进行检查,以避免出现不完整的身体或多余的肢体等问题。
视觉外观:对评估图像的美学质量,考察其整体形象的协调性、色彩的均衡性、对比的强度、视觉的悬浮度和其他美学要素。
存在视觉缺陷与结构错误的生成图像示例(红色圆圈标记处),在视觉识别和计算机视觉技术的发展中,图像质量的降低是很常见的问题。
图6展示了结果,新模型在所有评估方面始终优于基于自回归的模型LlamaGen和LuminarGPT。
这表明,即使在大幅减少Token数量以提高效率的情况下,Token-Shuffle仍然能够有效地保留美学细节,并且能够紧密遵循文本的引导,前提是进行了充分的训练。
研究者展示了基于自回归的多模态大语言模型(AR-based MLLMs)能够与扩散模型相媲美或更胜一筹,证明了其在未来的应用前景。
然而,研究者发现,Token-Shuffle在视觉缺陷方面略逊于LDM。
图6:人类评估结果|在文本对齐、视觉缺陷和视觉外观方面等多个方面,比较了Token-Shuffle与无文本的自回归模型LlamaGen、带文本的自回归模型Lumina-mGPT,以及基于扩散的模型LDM的表现。
以下是语言润色后的内容: 原文:该项目旨在探索人工智能在城市规划和设计中的应用,旨在探索人工智能在城市规划和设计中的应用。 润色后:本项目旨在探索人工智能在城市规划和设计领域的潜力应用,旨在探索人工智能在城市规划和设计领域的潜力应用。
研究者对Token-Shuffle与其他模型进行了视觉效果对比,包括两种基于扩散的模型LDM和Pixart-LCM,以及一种自回归模型LlamaGen。
图7展示了可视化示例。
虽然所有模型的生成效果都优异,但Token-Shuffle在文本对齐方面展现出更加出色的表现。
与自回归模型LlamaGen相比,Token-Shuffle在相同推理开销下实现了更高的分辨率,带来了更好的视觉质量和文本对齐效果。
相比扩散模型,Token-Shuffle自回归模型在生成性能上展示出竞争力的优势,同时能够提供高分辨率输出的支持。
图7:与其他开源的基于扩散模型和基于自回归模型的视觉效果对比,展现出了一种更加明显的差异,、高度的可靠性和、更加逼真的视觉效果。
一作简介:在充满激情和热情的创作过程中,「一作」是一位充满才华的作者,擅长于将生活中的细微之处渲染成绚丽的画面,让读者沉浸在故事的世界中,感受生命的美丽和真实。
马旭(Xu Ma)
他是一名美国东北大学工程学院的博士研究生。
在此之前,他在美国德克萨斯大学北部分校计算机科学与工程系工作了两年。
在南京林业大学信息科学与技术学院,他获得了学士和硕士学位。
他研究兴趣涵盖了模型效率、多模态大语言模型(LLM)、生成式人工智能(Generative AI)等领域。
在博士学习期间,他获得了一些奖项,包括ICME'20最佳学生论文奖、SEC'19最佳论文奖、NeurIPS'22杰出审稿人奖和CVPR'23杰出审稿人奖。