包含关键字 free palestine themed wallpapers and backgrounds 的文章

31 Jan

Transformer升级之路：8、长度外推性与位置鲁棒性

By 苏剑林 | 2023-01-31 | 44062位读者 | 引用

上一篇文章《Transformer升级之路：7、长度外推性与局部注意力》我们讨论了Transformer的长度外推性，得出的结论是长度外推性是一个训练和预测的不一致问题，而解决这个不一致的主要思路是将注意力局部化，很多外推性好的改进某种意义上都是局部注意力的变体。诚然，目前语言模型的诸多指标看来局部注意力的思路确实能解决长度外推问题，但这种“强行截断”的做法也许会不符合某些读者的审美，因为人工雕琢痕迹太强，缺乏了自然感，同时也让人质疑它们在非语言模型任务上的有效性。

本文我们从模型对位置编码的鲁棒性角度来重新审视长度外推性这个问题，此思路可以在基本不对注意力进行修改的前提下改进Transformer的长度外推效果，并且还适用多种位置编码，总体来说方法更为优雅自然，而且还适用于非语言模型任务。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推阅读全文 19 评论

26 Jan

Transformer升级之路：16、“复盘”长度外推技术

By 苏剑林 | 2024-01-26 | 70789位读者 | 引用

回过头来看，才发现从第7篇《Transformer升级之路：7、长度外推性与局部注意力》开始，“Transformer升级之路”这个系列就跟长度外推“杠”上了，接连9篇文章（不算本文）都是围绕长度外推展开的。如今，距离第7篇文章刚好是一年多一点，在这一年间，开源社区关于长度外推的研究有了显著进展，笔者也逐渐有了一些自己的理解，比如其实这个问题远不像一开始想象那么简单，以往很多基于局部注意力的工作也不总是有效，这暗示着很多旧的分析工作并没触及问题的核心。

在这篇文章中，笔者尝试结合自己的发现和认识，去“复盘”一下主流的长度外推结果，并试图从中发现免训练长度外推的关键之处。

问题定义

顾名思义，免训练长度外推，就是不需要用长序列数据进行额外的训练，只用短序列语料对模型进行训练，就可以得到一个能够处理和预测长序列的模型，即“Train Short, Test Long”。那么如何判断一个模型能否用于长序列呢？最基本的指标就是模型的长序列Loss或者PPL不会爆炸，更加符合实践的评测则是输入足够长的Context，让模型去预测答案，然后跟真实答案做对比，算BLEU、ROUGE等，LongBench就是就属于这类榜单。

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 47 评论

8 Jul

【个人翻译】变暖的地球对冷血动物来说过热？

By 苏剑林 | 2009-07-08 | 32802位读者 | 引用

翻译语录：
这是一篇关于气候变暖对变温动物的影响的文章。原文很长，来自“科学美国人”网站，本文有所删减。
在人类不断报道气候变化对人类所造成的影响的时候，自然界的其他生物也在受着气候的影响。也许，自然界的其他生物才是最大的受害者。无论如何，为了我们，为了自然，为了地球，为了后代，我们都应该自觉地去减少温室效应。只要人人都节约一点点，世界就会多一片绿色、一片蓝天！

点击阅读全文...

分类：生物自然标签：翻译, 地球, 动物, 变暖阅读全文 2 评论

9 Jul

天文马拉松：观测国际空间站

By 苏剑林 | 2009-07-09 | 23492位读者 | 引用

前言：也许你从未见过宇宙飞船，也许你躺在星空下却无所事事，也许你有望远镜却无观测对象，不过，这种心情可以结束了，因为我们可以观测国际空间站！对于这一新闻，无疑是令我们振奋人心的消息！对于天文爱好者来说，更是令人兴奋！不论如何，在繁星中寻找国际空间站是一件无比写意的事情。不仅是能力的挑战，还有耐心！

图片说明：May 22, 2009拍摄到的国际空间站，来源：NASA

点击阅读全文...

分类：天文探索标签：翻译, 国际空间站, 观测, 天文阅读全文抢沙发

17 Jul

初中生活结束了（友谊地久天长）

By 苏剑林 | 2009-07-17 | 32724位读者 | 引用

07.15，是我们作为初中生的最后日子，过了那天，我们就远离了初中。我还清楚地记得，中考那几天，大家的依依不舍在这之前，对于离别，我总是潇潇洒洒，无牵无挂可是，在这一次的分离中，我却有点伤感也许已经长大了，对友谊有着更深的感悟，更加珍惜

愿友谊地久天长！

点击阅读全文...

分类：生活/情感标签：生活, 音乐, 友谊阅读全文抢沙发

18 Jul

日全食多路联合直播频道

By 苏剑林 | 2009-07-18 | 17099位读者 | 引用

正式直播活动计划于北京时间7月22日7时30分开始，11时30分结束，持续约4个小时。

（观看请安装PPlive插件，只能用IE或者IE内核浏览器观看）

简介：

点击阅读全文...

分类：天文探索标签：日食, 直播, 频道阅读全文抢沙发

6 Aug

五种零食揭示宇宙的形状

By 苏剑林 | 2009-08-06 | 20694位读者 | 引用

很久没有翻译过文章了，最近都在偷懒中......不过不能总是偷懒，也要锻炼下了。今天翻译了一篇关于“宇宙模型”的文章，原文来自《新科学家》。原来，宇宙与我们平时吃的零食很相似...... 面包圈、薯片、号角、花生、苹果，这些是你心目中的宇宙吗？让我们来共同见识下！

点击阅读全文...

分类：天文探索标签：宇宙, 模型, 形状阅读全文抢沙发

7 Aug

湖泊沉积物引来争议：是否彗星造成冰期灾难？

By 苏剑林 | 2009-08-07 | 17330位读者 | 引用

笔者：翻译完这篇文章，感觉可以用一个字来形容：累！的确，这篇文章的不少句子都让人很模糊，我也只是意译+请教+google出来的，有任何的错误欢迎指出！翻译过程中，不断地使用了词典、Google，加上向人请教，才勉强完成了。 冰期、史前文明、灭绝、天体撞击，这些被谈论得越来越多了，究竟真相如何呢？又或者会不会发生在我们的将来呢？

点击阅读全文...

分类：生物自然标签：彗星, 翻译, 沉积物, 冰期阅读全文 31 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Transformer升级之路：8、长度外推性与位置鲁棒性

Transformer升级之路：16、“复盘”长度外推技术

问题定义

【个人翻译】变暖的地球对冷血动物来说过热？

天文马拉松：观测国际空间站

初中生活结束了（友谊地久天长）

日全食多路联合直播频道

五种零食揭示宇宙的形状

湖泊沉积物引来争议：是否彗星造成冰期灾难？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接