2024-10-21 10:19 点击次数:132
婷婷五月天
【新智元导读】LLM 测验速率还不错再飙升 20 倍!英伟达团队祭出全新架构归一化 Transformer(nGPT),陡立文越长,测验速率越快,还能督察原有精度。
AI 的改日,约略就此改写 ......
最近,英伟达团队抛出的一枚重磅炸弹,建议了全新神经网罗架构——归一化 Transformer(nGPT),基于超球面(hypersphere)进行透露学习。
相较于 Transformer 架构自身,nGPT 径直将 LLM 测验速率提高至高 20 倍,而且还保合手了原有精度。
也就意味着,蓝本需要一个月完成的测验,在改日可能只需 1-2 天的时期就能处置。
无疑为通向 AGI 终极推测打算,注入了一针强心剂!
论文地址:https://arxiv.org/pdf/2410.01131
在 nGPT 中,统共的向量(镶嵌、MLP、顾惜力矩阵、隐私状况),王人被归一化为单元范数(unit norm)。
输入后的 token 在超球面名义上迁移,每一层王人通过「位移」来孝顺最终的输出估量,其中位移量是由 MLP 和顾惜力模块进行界说的,其向量组件王人位于归拢个超球面上。
实验标明,nGPT 达到疏导精度所需的测验门径减少了 4-20 倍,具体取决于序列长度:
- 1k 陡立文,测验速率提高 4 倍
- 4k 陡立文,测验速率提高 10 倍
- 8k 陡立文,测验速率提高 20 倍
不错看出,陡立文越长,测验越快。
Reddit 网友透露,「我很兴趣它还能扩张到多猛进程。若是它能在更长的陡立文中大幅扩张,这意味着像 o1 这么的模子将会取得显耀的测验速率上风」。
还有东谈主透露,「下一代模子将会更高效、更智能」。
nGPT 全新架构,超球面上归一化
无谓置疑,Transformer 架构是当代大模子的基础。
不外,刻下基于 Transformer 搭建的大模子王人是狡计密集型的,需要耗尽广大的资源和时期。
为了校正其测验雄厚性、推理老本、陡立文长度、鲁棒性等方面,AI 科学家已进行了广大的修改尝试。
其中,最越过的发现是,归一化本事关于 Transformer 性能改善起着贫困作用,比如 LayerNorm 和 RMSNorm。
另一种模子归一化门径是,通过权重衰减(weight decay)阻挡权重范数。
不外,最新筹议又对权重衰减的作用进行评估,况兼转向更多地缓和旋转,而非只是缓和向量范数。
越来越多的把柄标明,在超球面上进行透露学习与更雄厚的测验、更大的镶嵌空间可分离性以及不才游任务上的更好性能关联。
而且,还有新筹议标明,Transformer 隐式地引申梯度下落行动元优化器。
由此,英伟达团队建议了,在归一化 Transformer 新视角下,融合该边界的各式发现和不雅察。
这项筹议的主要孝顺在于:
- 在超球面上优化网罗参数
建议将形成网罗矩阵镶嵌维度的统共向量归一化,使其位于单元范数超球面上。这种门径将矩阵 - 向量乘法鼎新为余弦相似度的狡计,其范围松手在 [ -1,1 ] 之间。而回去一化摒除了对权重衰减的需求。
- 归一化 Transformer 行动超球面上的可变度量优化器
归一化 Transformer 自身在超球面上引申多步优化(每层两步),其中顾惜力和 MLP 更新的每一步,王人由特征学习率阻挡——这些是可学习的可变度量矩阵的对角线元素。
关于输入序列中的每个 token
,归一化 Transformer 的优化旅途从超球面上对应于其输入镶嵌向量的点运行,迁移到超球面上最能估量下一个
的镶嵌向量的点。
- 更快的拘谨
筹议评释婷婷五月天,归一化 Transformer 将达到疏导精度所需的测验门径减少了 4-20 倍。
Transformer 演变:从 GPT 到 nGPT
镶嵌层归一化
表率的 decoder-only Transformer 的测验推测打算是根据输入序列的前序 tokens 来估量后头的 token,在 token 估量时,模子会引入两个可学习的镶嵌矩阵 Einput 和 Eoutput,区分用来从输入词转为词镶嵌,以及从词镶嵌转为估量输出。
在模子测验时期,经常使用对应镶嵌向量的点积来狡计 token 相似度,但镶嵌向量的范数(norms)不受限定的,可能会导致相似性狡计存在偏差。
为了提高相似性推测的准确性,筹议东谈主员在新架构中建议,在测验算法的每一步之后,对 Einput 和 Eoutput 中的镶嵌向量进行归一化。
智能体在估量文本中的下一个词时,会使用因果掩码(casual masking)来确保模子在估量 token 时不会「偷看」到之后的词,形成信息泄露,从而让模子能够同期估量多个词并狡计估量错误,提高测验成果,同期保合手了按端正估量词的智商。
在输入词序列后,模子会在估量序列中的每个位置王人生成一个输出向量,然后狡计出一个 logits 向量 zi 来透露词汇表中每个词出现的可能性,不错支持模子领略不同词在刻下陡立文中的贫困性:
之后用 softmax 函数把 zi 转为概率值,并考中概率最高的词行动下一个词的估量。
由于 nGPT 的镶嵌矩阵如故归一化了,是以 zi 的值范围为 [ −1,1 ] ,也会限定 softmax 后得到的概率散播的置信度,也不错叫作念温度。
为了在测验流程中调换置信度,nGPT 又引入了一个可学习的缩放参数 sz,通过逐元素地缩放 logits,模子不错更天真地估量的置信度,更好地学习到在不恻隐况下怎么作念出更准确的估量:
层 / 块归一
表率 Transformer 架构需要对隐私层状况 h 进行 L 层变换,包括一个自顾惜力(ATTN)和多层感知机(MLP)。
其中 RMSNorm 也不错替换成其他归一化(normalization)函数。
隐私层的参数更新,其实即是在一个超平面上(维度为隐私层的向量长度)寻找两个点(原参数和新参数)的最短距离。
1985 年,Shoemake 建议了球面线性插值(SLERP,Spherical Linear Interpolation),不错沿着球面上两点之间的最短旅途找到中间点,筹议东谈主员发现该门径还不错通过更粗浅的线性插值(LERP,linear interpolation)来得到近似解,从而镌汰狡计量:
按最短旅途寻找来说,参数更新流程不错形容为:
其中 a 和 b 是球面上的两个点,对应到 nGPT 上,a 也即是隐私层状况,b 是经过顾惜力机制或 MLP 块后的状况,梯度即是 g=a-b,B 为可变矩阵。
在拟牛顿门径中,B 不错近似于逆黑塞矩阵,当 B 是一个对角线元素非负的对角矩阵时,αB 就变成了一个向量,其元素对应于 B 的对角线元素乘以学习率 α,也不错称之为特征学习率(eigen learning rates)。
eigen 源自德语词,意为「我方的」(own),不错指代 Transformer 的里面结构。
是以 nGPT 中的参数更新方程不错写为:
其中 αA 和 αM 是可学习的参数,区分用于顾惜力和多层感知机(MLP)模块的归一化输出 hA 和 hM
与基础 Transformer 比较,在 nGPT 的最终层之后不需要再进行突出的归一化了。
自顾惜力块
顾惜力机制不错说是 Transformer 中最贫困的模块,序列中的每个 token 王人能够缓和到其他统共 token,从而让模子具有捕捉长距离依赖干系的智商。
模子会把处理后的信息理会成三个部分:查询(q,query)、键(k,key)和值(v,value),不错支持细目哪些信息是贫困的,以及信息之间是怎么相互关联的。
为了确保模子能够领略每个词在序列中的位置,模子中往生意会在 query 和 key 向量之间加入旋转位置镶嵌(Rotary Position Embeddings,RoPE)。
然后通过狡计 query 向量和 key 向量的点积、缩放、应用 softmax 得到顾惜力权重,对 value 向量进行加权乞降,得到顾惜力得分。
在履行中,Transformer 一般王人会用到多个顾惜力头,其中每个头的顾惜力机制王人是独处狡计,临了再通过一个可学习的投影矩阵 Wo 合并统共头输出。
在狡计顾惜力得分的流程中,权重矩阵莫得受到太多限定,可能会导致最终得分过大或过小。
在 nGPT 中,筹议东谈主员对 q 向量和 k 向量进行归一化,还引入了一些可调换的参数(sqk),以确保权重矩阵在处理位置信息时不会失真,更准确地捕捉到句子中词与词之间的干系,从而作念出更好的估量和方案。
MLP 块
在表率 Transformer 中,隐私层收入通过 RMSNorm 进行归一化,然后经过两个线性投影生成中间向量(暂不沟通偏置项):
然后使用 SwiGLU 门控激活函数,以及一个线性变换得到最终门控激活。
在 nGPT 中,筹议东谈主员建议对线性投影的权重矩阵进行归一化,并引入可学习的缩放因子,能够更充分地哄骗处理信息时的非线性特质,在处理复杂信息时愈加天真。
多层感知机模块的输出不会因为缩放调换而发生变化。
Adam 高效学习率
Adam 优化算法通过动量和梯度幅度的推测来调换每次的学习步长,同期沟通了刻下及畴前的梯度信息。
在 nGPT 中,筹议东谈主员雷同引入了一个可测验的缩放参数向量,对特定的参数进行更密致的阻挡,确保每个参数王人能以最符合我方的速率进行学习,从而进一步提高学习成果。
在不影响全局学习率的情况下,对特定的参数进行调换,提供了更大的天真性和阻挡力。
变化追忆
和基础 Transformer 比较,nGPT 主要作念了七个改造:
1、移除统共归一化层,比如 RMSNorm 或 LayerNorm;
2、在每个测验门径之后,沿着镶嵌维度对统共矩阵,包括输入输出镶嵌矩阵,以及各式权重矩阵进行归一化处理;
3、修改了隐私层参数更新方程;
4、调换顾惜力机制中的 softmax 缩放因子,对 q 和 k 进行再行缩放和归一化;
5、对 MLP 块的中间状况进行再行缩放;
6、对 logits 进行再行缩放;
7、移除权重衰减和学习率预热点径。
陡立文越长,测验速率越快
接下来,筹议东谈主员在 OpenWebText 数据集上测验了基础基础 Transformer(GPT)和归一化 Transformer(nGPT),并在一系列表率卑劣任务上对其进行评估。
实验中,使用了 0.5B 和 1B(包括镶嵌)两种参数范围的模子。两种参数范围的模子 0.5B 和 1B(包含镶嵌)。
测验加快
图 1 袒露了,在测验流程中,10 亿参数且样本长度为 4k token 的 GPT 和 nGPT 模子的考证亏蚀。
经过 2 万次迭代后,nGPT 达到了与 GPT 在 20 万次迭代(约 4000 亿个 token)后,才气达到的疏导考证亏蚀。
这标明,在迭代次数和使用 token 数目方面,nGPT 杀青了 10 倍的加快。
再来看图 2,展示了 nGPT 和 GPT 在三个方面的性能差距是怎么变化的:总 token 数目、陡立文长度、参数范围。
在 1k、4k 和 8k token 陡立文中,测验 0.5B 和 1B 的 nGPT 模子区分约快 4 倍、10 倍和 20 倍。
图 3 不才游任务中袒露了近似的性能,阐发加快不仅反应在困惑度上,也反应在职务发扬上。
筹议东谈主员不雅察到,关于较长的测验运行,nGPT 袒清楚一些有余风景,这透露在刻下可测验参数数目下,模子容量可能已接近极限。
神经网罗参数查抄
图 4 袒露,天然 nGPT 保合手固定的镶嵌范数(这是联想使然),但 GPT 发扬出显著的变化。
从镶嵌的协方差矩阵狡计得出的特征值散播(如故由其中位数归一化)袒露,GPT 的输入镶嵌具有更高的要求数,尤其是在 1B 模子中。
镶嵌之间的成对点积散播标明,即使在 nGPT 中,镶嵌也并非均匀散播在超球面上(在那儿点积会接近 0),而是形成簇——这可能反应了说话数据中的天然步地。
由于 GPT 的镶嵌形成了一个超椭球体(hyper-ellipsoid ) ,如向量范数的散播所示,其点积经常具有更高的值。
GPT 输入镶嵌的病态性质(ill-conditioned nature)可能导致触及这些镶嵌的狡计问题。
下图 5 展示了,顾惜力和 MLP 矩阵在不同层深度上的中位数要求数(跨多个头)—— 0.5B 模子有 24 层,1B 模子有 36 层。
与 nGPT 比较,GPT 模子的顾惜力矩阵呈现显耀更高的要求数。
对这些矩阵的进一步查抄,GPT 的顾惜力矩阵发扬出退化为低秩矩阵的趋势,可能减少了这些块的学习容量。
av女优的现场下图 6 展示了,(左图)顾惜力模块和 MLP 模块的特征学习率,(中图)应用于 MLP 中间状况的缩放因子,(右图)应用于 QK 点积之前的缩放因子。
婷婷五月天