栏目分类

热点资讯

XXXX

你的位置：探花porn > XXXX > 婷婷五月天英伟达nGPT重塑Transformer，AI测验速率暴增20倍！文本越长，加快越快

婷婷五月天英伟达nGPT重塑Transformer，AI测验速率暴增20倍！文本越长，加快越快

2024-10-21 10:19 点击次数：132

婷婷五月天英伟达nGPT重塑Transformer，AI测验速率暴增20倍！文本越长，加快越快

婷婷五月天

【新智元导读】LLM 测验速率还不错再飙升 20 倍！英伟达团队祭出全新架构归一化 Transformer（nGPT），陡立文越长，测验速率越快，还能督察原有精度。

AI 的改日，约略就此改写 ......

最近，英伟达团队抛出的一枚重磅炸弹，建议了全新神经网罗架构——归一化 Transformer（nGPT），基于超球面（hypersphere）进行透露学习。

相较于 Transformer 架构自身，nGPT 径直将 LLM 测验速率提高至高 20 倍，而且还保合手了原有精度。

也就意味着，蓝本需要一个月完成的测验，在改日可能只需 1-2 天的时期就能处置。

无疑为通向 AGI 终极推测打算，注入了一针强心剂！

论文地址：https://arxiv.org/pdf/2410.01131

在 nGPT 中，统共的向量（镶嵌、MLP、顾惜力矩阵、隐私状况），王人被归一化为单元范数（unit norm）。

输入后的 token 在超球面名义上迁移，每一层王人通过「位移」来孝顺最终的输出估量，其中位移量是由 MLP 和顾惜力模块进行界说的，其向量组件王人位于归拢个超球面上。

实验标明，nGPT 达到疏导精度所需的测验门径减少了 4-20 倍，具体取决于序列长度：

- 1k 陡立文，测验速率提高 4 倍

- 4k 陡立文，测验速率提高 10 倍

- 8k 陡立文，测验速率提高 20 倍

不错看出，陡立文越长，测验越快。

Reddit 网友透露，「我很兴趣它还能扩张到多猛进程。若是它能在更长的陡立文中大幅扩张，这意味着像 o1 这么的模子将会取得显耀的测验速率上风」。

还有东谈主透露，「下一代模子将会更高效、更智能」。

nGPT 全新架构，超球面上归一化

无谓置疑，Transformer 架构是当代大模子的基础。

不外，刻下基于 Transformer 搭建的大模子王人是狡计密集型的，需要耗尽广大的资源和时期。

为了校正其测验雄厚性、推理老本、陡立文长度、鲁棒性等方面，AI 科学家已进行了广大的修改尝试。

其中，最越过的发现是，归一化本事关于 Transformer 性能改善起着贫困作用，比如 LayerNorm 和 RMSNorm。

另一种模子归一化门径是，通过权重衰减（weight decay）阻挡权重范数。

不外，最新筹议又对权重衰减的作用进行评估，况兼转向更多地缓和旋转，而非只是缓和向量范数。

越来越多的把柄标明，在超球面上进行透露学习与更雄厚的测验、更大的镶嵌空间可分离性以及不才游任务上的更好性能关联。

而且，还有新筹议标明，Transformer 隐式地引申梯度下落行动元优化器。

由此，英伟达团队建议了，在归一化 Transformer 新视角下，融合该边界的各式发现和不雅察。

这项筹议的主要孝顺在于：

- 在超球面上优化网罗参数

建议将形成网罗矩阵镶嵌维度的统共向量归一化，使其位于单元范数超球面上。这种门径将矩阵 - 向量乘法鼎新为余弦相似度的狡计，其范围松手在 [ -1，1 ] 之间。而回去一化摒除了对权重衰减的需求。

- 归一化 Transformer 行动超球面上的可变度量优化器

归一化 Transformer 自身在超球面上引申多步优化（每层两步），其中顾惜力和 MLP 更新的每一步，王人由特征学习率阻挡——这些是可学习的可变度量矩阵的对角线元素。

关于输入序列中的每个 token

，归一化 Transformer 的优化旅途从超球面上对应于其输入镶嵌向量的点运行，迁移到超球面上最能估量下一个

的镶嵌向量的点。

- 更快的拘谨

筹议评释婷婷五月天，归一化 Transformer 将达到疏导精度所需的测验门径减少了 4-20 倍。

Transformer 演变：从 GPT 到 nGPT

镶嵌层归一化

表率的 decoder-only Transformer 的测验推测打算是根据输入序列的前序 tokens 来估量后头的 token，在 token 估量时，模子会引入两个可学习的镶嵌矩阵 Einput 和 Eoutput，区分用来从输入词转为词镶嵌，以及从词镶嵌转为估量输出。

在模子测验时期，经常使用对应镶嵌向量的点积来狡计 token 相似度，但镶嵌向量的范数（norms）不受限定的，可能会导致相似性狡计存在偏差。

为了提高相似性推测的准确性，筹议东谈主员在新架构中建议，在测验算法的每一步之后，对 Einput 和 Eoutput 中的镶嵌向量进行归一化。

智能体在估量文本中的下一个词时，会使用因果掩码（casual masking）来确保模子在估量 token 时不会「偷看」到之后的词，形成信息泄露，从而让模子能够同期估量多个词并狡计估量错误，提高测验成果，同期保合手了按端正估量词的智商。

在输入词序列后，模子会在估量序列中的每个位置王人生成一个输出向量，然后狡计出一个 logits 向量 zi 来透露词汇表中每个词出现的可能性，不错支持模子领略不同词在刻下陡立文中的贫困性：

之后用 softmax 函数把 zi 转为概率值，并考中概率最高的词行动下一个词的估量。

由于 nGPT 的镶嵌矩阵如故归一化了，是以 zi 的值范围为 [ −1，1 ] ，也会限定 softmax 后得到的概率散播的置信度，也不错叫作念温度。

为了在测验流程中调换置信度，nGPT 又引入了一个可学习的缩放参数 sz，通过逐元素地缩放 logits，模子不错更天真地估量的置信度，更好地学习到在不恻隐况下怎么作念出更准确的估量：

层 / 块归一

表率 Transformer 架构需要对隐私层状况 h 进行 L 层变换，包括一个自顾惜力（ATTN）和多层感知机（MLP）。

其中 RMSNorm 也不错替换成其他归一化（normalization）函数。

隐私层的参数更新，其实即是在一个超平面上（维度为隐私层的向量长度）寻找两个点（原参数和新参数）的最短距离。

1985 年，Shoemake 建议了球面线性插值（SLERP，Spherical Linear Interpolation），不错沿着球面上两点之间的最短旅途找到中间点，筹议东谈主员发现该门径还不错通过更粗浅的线性插值（LERP，linear interpolation）来得到近似解，从而镌汰狡计量：

按最短旅途寻找来说，参数更新流程不错形容为：

其中 a 和 b 是球面上的两个点，对应到 nGPT 上，a 也即是隐私层状况，b 是经过顾惜力机制或 MLP 块后的状况，梯度即是 g=a-b，B 为可变矩阵。

在拟牛顿门径中，B 不错近似于逆黑塞矩阵，当 B 是一个对角线元素非负的对角矩阵时，αB 就变成了一个向量，其元素对应于 B 的对角线元素乘以学习率 α，也不错称之为特征学习率（eigen learning rates）。

eigen 源自德语词，意为「我方的」（own），不错指代 Transformer 的里面结构。

是以 nGPT 中的参数更新方程不错写为：

其中 αA 和 αM 是可学习的参数，区分用于顾惜力和多层感知机（MLP）模块的归一化输出 hA 和 hM

与基础 Transformer 比较，在 nGPT 的最终层之后不需要再进行突出的归一化了。

自顾惜力块

顾惜力机制不错说是 Transformer 中最贫困的模块，序列中的每个 token 王人能够缓和到其他统共 token，从而让模子具有捕捉长距离依赖干系的智商。

模子会把处理后的信息理会成三个部分：查询（q，query）、键（k，key）和值（v，value），不错支持细目哪些信息是贫困的，以及信息之间是怎么相互关联的。

为了确保模子能够领略每个词在序列中的位置，模子中往生意会在 query 和 key 向量之间加入旋转位置镶嵌（Rotary Position Embeddings，RoPE）。

然后通过狡计 query 向量和 key 向量的点积、缩放、应用 softmax 得到顾惜力权重，对 value 向量进行加权乞降，得到顾惜力得分。

在履行中，Transformer 一般王人会用到多个顾惜力头，其中每个头的顾惜力机制王人是独处狡计，临了再通过一个可学习的投影矩阵 Wo 合并统共头输出。

在狡计顾惜力得分的流程中，权重矩阵莫得受到太多限定，可能会导致最终得分过大或过小。

在 nGPT 中，筹议东谈主员对 q 向量和 k 向量进行归一化，还引入了一些可调换的参数（sqk），以确保权重矩阵在处理位置信息时不会失真，更准确地捕捉到句子中词与词之间的干系，从而作念出更好的估量和方案。

MLP 块

在表率 Transformer 中，隐私层收入通过 RMSNorm 进行归一化，然后经过两个线性投影生成中间向量（暂不沟通偏置项）：

然后使用 SwiGLU 门控激活函数，以及一个线性变换得到最终门控激活。

在 nGPT 中，筹议东谈主员建议对线性投影的权重矩阵进行归一化，并引入可学习的缩放因子，能够更充分地哄骗处理信息时的非线性特质，在处理复杂信息时愈加天真。

多层感知机模块的输出不会因为缩放调换而发生变化。

Adam 高效学习率

Adam 优化算法通过动量和梯度幅度的推测来调换每次的学习步长，同期沟通了刻下及畴前的梯度信息。

在 nGPT 中，筹议东谈主员雷同引入了一个可测验的缩放参数向量，对特定的参数进行更密致的阻挡，确保每个参数王人能以最符合我方的速率进行学习，从而进一步提高学习成果。

在不影响全局学习率的情况下，对特定的参数进行调换，提供了更大的天真性和阻挡力。

变化追忆

和基础 Transformer 比较，nGPT 主要作念了七个改造：

1、移除统共归一化层，比如 RMSNorm 或 LayerNorm；

2、在每个测验门径之后，沿着镶嵌维度对统共矩阵，包括输入输出镶嵌矩阵，以及各式权重矩阵进行归一化处理；

3、修改了隐私层参数更新方程；

4、调换顾惜力机制中的 softmax 缩放因子，对 q 和 k 进行再行缩放和归一化；

5、对 MLP 块的中间状况进行再行缩放；

6、对 logits 进行再行缩放；

7、移除权重衰减和学习率预热点径。

陡立文越长，测验速率越快

接下来，筹议东谈主员在 OpenWebText 数据集上测验了基础基础 Transformer（GPT）和归一化 Transformer（nGPT），并在一系列表率卑劣任务上对其进行评估。

实验中，使用了 0.5B 和 1B（包括镶嵌）两种参数范围的模子。两种参数范围的模子 0.5B 和 1B（包含镶嵌）。

测验加快

图 1 袒露了，在测验流程中，10 亿参数且样本长度为 4k token 的 GPT 和 nGPT 模子的考证亏蚀。

经过 2 万次迭代后，nGPT 达到了与 GPT 在 20 万次迭代（约 4000 亿个 token）后，才气达到的疏导考证亏蚀。

这标明，在迭代次数和使用 token 数目方面，nGPT 杀青了 10 倍的加快。

再来看图 2，展示了 nGPT 和 GPT 在三个方面的性能差距是怎么变化的：总 token 数目、陡立文长度、参数范围。

在 1k、4k 和 8k token 陡立文中，测验 0.5B 和 1B 的 nGPT 模子区分约快 4 倍、10 倍和 20 倍。

图 3 不才游任务中袒露了近似的性能，阐发加快不仅反应在困惑度上，也反应在职务发扬上。

筹议东谈主员不雅察到，关于较长的测验运行，nGPT 袒清楚一些有余风景，这透露在刻下可测验参数数目下，模子容量可能已接近极限。

神经网罗参数查抄

图 4 袒露，天然 nGPT 保合手固定的镶嵌范数（这是联想使然），但 GPT 发扬出显著的变化。

从镶嵌的协方差矩阵狡计得出的特征值散播（如故由其中位数归一化）袒露，GPT 的输入镶嵌具有更高的要求数，尤其是在 1B 模子中。

镶嵌之间的成对点积散播标明，即使在 nGPT 中，镶嵌也并非均匀散播在超球面上（在那儿点积会接近 0），而是形成簇——这可能反应了说话数据中的天然步地。

由于 GPT 的镶嵌形成了一个超椭球体（hyper-ellipsoid ) ，如向量范数的散播所示，其点积经常具有更高的值。

GPT 输入镶嵌的病态性质（ill-conditioned nature）可能导致触及这些镶嵌的狡计问题。

下图 5 展示了，顾惜力和 MLP 矩阵在不同层深度上的中位数要求数（跨多个头）—— 0.5B 模子有 24 层，1B 模子有 36 层。

与 nGPT 比较，GPT 模子的顾惜力矩阵呈现显耀更高的要求数。

对这些矩阵的进一步查抄，GPT 的顾惜力矩阵发扬出退化为低秩矩阵的趋势，可能减少了这些块的学习容量。

av女优的现场

下图 6 展示了，（左图）顾惜力模块和 MLP 模块的特征学习率，（中图）应用于 MLP 中间状况的缩放因子，（右图）应用于 QK 点积之前的缩放因子。

婷婷五月天

上一篇：婷婷五月天 25款长安启源A07行将上市，能不可霸占东风奕派007的阛阓份额？

下一篇：婷婷五月天客商王人聚广交会 广州港口迎出入境客流岑岭

婷婷五月天 英伟达nGPT重塑Transformer，AI测验速率暴增20倍！文本越长，加快越快

婷婷五月天英伟达nGPT重塑Transformer，AI测验速率暴增20倍！文本越长，加快越快