标签初始化下的文章 - 科学空间|Scientific Spaces

20 Jul

语言模型输出端共享Embedding的重新探索

By 苏剑林 | 2023-07-20 | 52000位读者 | 引用

预训练刚兴起时，在语言模型的输出端重用Embedding权重是很常见的操作，比如BERT、第一版的T5、早期的GPT，都使用了这个操作，这是因为当模型主干部分不大且词表很大时，Embedding层的参数量很可观，如果输出端再新增一个独立的同样大小的权重矩阵的话，会导致显存消耗的激增。不过随着模型参数规模的增大，Embedding层的占比相对变小了，加之《Rethinking embedding coupling in pre-trained language models》等研究表明共享Embedding可能会有些负面影响，所以现在共享Embedding的做法已经越来越少了。

本文旨在分析在共享Embedding权重时可能遇到的问题，并探索如何更有效地进行初始化和参数化。尽管共享Embedding看起来已经“过时”，但这依然不失为一道有趣的研究题目。

点击阅读全文...

分类：数学研究,信息时代标签：语言模型, 初始化阅读全文 12 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

CuddleSabe1: 感觉普通的 flow matching 可以看成 degrade-aware image de...
岁月如书: 受教了，感谢
苏剑林: 是
岁月如书: 哦哦，原来是有实验结论，那是我盲目了。多问一句，你说的attention + output g...
苏剑林: attention sink指的是第一个token的attention普遍不可忽略，不一定是爆...
苏剑林: 这也许是好事呢？SGD倒是保留了模长，但它就普遍不如不保留模长的SignSGD或者Normal...
岁月如书: maxlogit 是attention qk乘积中出现了大值，attention sink等于...
岁月如书: [comment=29016]苏剑林[/comment]他通过Newton-schulz迭代近...
苏剑林: 我好像也就只有把小的放大然后加噪声的思路
苏剑林: 感觉看场景吧，如果是文本llm下感觉没什么必要性。