包含关键字从费马大定理谈起的文章 - 科学空间|Scientific Spaces

13 Sep

大词表语言模型在续写任务上的一个问题及对策

By 苏剑林 | 2023-09-13 | 29643位读者 | 引用

对于LLM来说，通过增大Tokenizer的词表来提高压缩率，从而缩短序列长度、降低解码成本，是大家都喜闻乐见的事情。毕竟增大词表只需要增大Embedding层和输出的Dense层，这部分增加的计算量几乎不可感知，但缩短序列长度之后带来的解码速度提升却是实打实的。当然，增加词表大小也可能会对模型效果带来一些负面影响，所以也不能无节制地增加词表大小。本文就来分析增大词表后语言模型在续写任务上会出现的一个问题，并提出参考的解决方案。

优劣分析

增加词表大小的好处是显而易见的。一方面，由于LLM是自回归的，它的解码会越来越慢，而“增大词表 → 提高压缩率 → 缩短序列长度”，换言之相同文本对应的tokens数变少了，也就是解码步数变少了，从而解码速度提升了；另一方面，语言模型的训练方式是Teacher Forcing，缩短序列长度能够缓解Teacher Forcing带来的Exposure Bias问题，从而可能提升模型效果。

点击阅读全文...

分类：信息时代标签：概率, 问题, 语言模型阅读全文 13 评论

26 Sep

脑洞大开：非线性RNN居然也可以并行计算？

By 苏剑林 | 2023-09-26 | 51906位读者 | 引用

近年来，线性RNN由于其可并行训练以及常数推理成本等特性，吸引了一定研究人员的关注（例如笔者之前写的《Google新作试图“复活”RNN：RNN能否再次辉煌？》），这让RNN在Transformer遍地开花的潮流中仍有“一席之地”。然而，目前看来这“一席之地”只属于线性RNN，因为非线性RNN无法高效地并行训练，所以在架构之争中是“心有余而力不足”。

不过，一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法，它提出了一种迭代算法，宣传可以实现非线性RNN的并行训练！真有如此神奇？接下来我们一探究竟。

求不动点

原论文对其方法做了非常一般的介绍，而且其侧重点是PDE和ODE，这里我们直接从RNN入手。考虑常见的简单非线性RNN：
\begin{equation}x_t = \tanh(Ax_{t-1} + u_t)\label{eq:rnn}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：方程, 迭代, 语言模型, RNN 阅读全文 27 评论

9 Jul

植物拯救了地球，阻止寒冷灭绝之灾！

By 苏剑林 | 2009-07-09 | 21711位读者 | 引用

笔者语录：现在温室效应愈演愈烈。不过，在千万年前，情况正好相反，二氧化碳含量的急剧下降，使地球越来越冷。而一个“救星”的出现挽救了地球！这个伟大的“救星”，就是我们随处可见的植物。现在，就让我们随着《新科学家》的脚步，去看看那远古的“救星”！

图片说明：原始森林。来自搜索引擎，图片有可能经过PS。

点击阅读全文...

分类：生物自然标签：翻译, 植物, 地球, 灭绝, 灾难阅读全文 1 评论

14 Jul

澳洲恐龙洞穴揭示气候变化

By 苏剑林 | 2009-07-14 | 26510位读者 | 引用

笔录：
长文章更能够显示出一个人的翻译能力和翻译耐心——除了要有熟悉的语言处理能力外，还有持之以恒。现在大家来评价下翻译得如何吧！
这一次讲述的是关于恐龙的问题，再次联系到了气候变暖的问题。既然在千万年前气候变暖已经这么严重了，那么恐龙们能够熬过这一关吗？能！因为它们挖洞了。让我们来走近它们！

图片：白垩纪恐龙，图片来自Google搜索。

点击阅读全文...

分类：生物自然标签：翻译, 气候, 澳大利亚, 洞穴, 恐龙阅读全文 1 评论

28 Jul

这样的世界之最你见过没有？

By 苏剑林 | 2009-07-28 | 20190位读者 | 引用

1、说话最快的人︰1995年，加拿大人西恩·夏农用23.8秒背诵完《哈姆雷特》中“生还是死”的独白。

2、被单人拉行100英尺的最重汽车︰今年澳大利亚人德雷克·伯雅单人將30.68吨重的拖车拉行了30.5米。

3、跳浅水的最大高度︰今年一月，美国路易斯安那州的达尼·辛吉伯顿从8.9米的高度跳入30厘米深的水中。

4、憋气时间最长︰1959年，美国的濒B特·福斯特憋气13分零42.5秒。

5、全身与冰接触的最长时间︰今年一月，荷兰的威姆·霍夫在一个装满冰块的管子里呆了1小时零17分。

点击阅读全文...

分类：千奇百怪标签：转载, 世界阅读全文 1 评论

7 Aug

2009年英仙座流星雨观测

By 苏剑林 | 2009-08-07 | 19529位读者 | 引用

首先感谢Shea和叶泉志的努力，文章中引用了他们俩的内容。还有“科学松鼠会”、“中国彗星与流星资讯网”、“牧夫天文论坛”等网站。

注意！！地球正在进入斯威夫特-塔特尔彗星所留下的尘埃带中，这里正是一年一度英仙座流星雨的发源地。虽然英仙座流星雨要到8月11-12日才会达到顶峰，但是好戏已经开始上演了。

之前在8月天象预报中已经介绍过8月的这一场盛大流星雨了。现在我们针对性地来看下！英仙座流星雨被称为“三大”之一。今年英仙座流星雨的传统峰值预计落在8月13日1:30-4:00（北京时间）。全球最佳观测位置是美国的芝加哥和华盛顿等地区。

点击阅读全文...

分类：天文探索标签：流星, 观测, 英仙座阅读全文抢沙发

8 Aug

彗星(非小行星)重创月球

By 苏剑林 | 2009-08-08 | 18966位读者 | 引用

笔者：38亿年前，在太阳系形成之初，发生了一场“惊天动地”的撞击事件，这造成了月球的环形山，找成了很多天体的坑坑洼洼。不过，它同时也可能是生命之源。因为有研究显示，它可能为地球带来了水。
这一次的翻译没有多大困难，不过呢，有一些专有名词很麻烦，就像Giant plumes，一直搞不清楚这是什么，后来向人请教，才知道这是“地幔柱”。希望各位志同道合的朋友，以后遇到一些不清楚的名词，不要那么快下结论，多去Google一下。

点击阅读全文...

分类：天文探索标签：彗星, 翻译, 月球, 小行星阅读全文抢沙发

18 Aug