包含关键字《自然极值》系列的文章 - 科学空间|Scientific Spaces

29 Sep

第1000篇文章

By 苏剑林 | 2020-09-29 | 63219位读者 | 引用

后台提示，本文是科学空间的第1000篇文章。

本想写下一篇文章的，但是看到这个提示，就先瞎写个水文纪念一下。都说人老了就喜欢各种感叹，这话还真不假。看到别人高考来个感想，博客十周年了来个感想，现在第1000篇文章了也来个感想，似乎总想找点理由感叹一下一样。那今天又能扯些啥犊子呢？

1000

首先，自恋一下。1000篇文章，如果要印刷下来，就算每篇文章印一页，那也能印个1000页了，相信不少人都没捧起过1000页的书吧（我还真读过，有文章为证：《哈哈，我的“〈圣经〉”到了》），我居然能写个1000篇，也是挺佩服自己的。当然，早期的文章有部分是转载的，不是全部都自己写的，不过还是坚持了不少原创内容，而且就算是转载的也是经过自己编辑整理的，不算纯Copy，所以也勉强能说的过去吧。

然后，庆幸一下。博客开始的主题是天文和科普，后来慢慢偏向了理论物理和数学，现在则偏向了机器学习，但不管怎样，总算很庆幸地在科学这条路坚持了下来。虽然没有像幼时设想的那样成为一名真正的自然科学家/数学家，但终究有点相关，闲时依然可以做做科学计算，勉强也对得起当初的梦想。

点击阅读全文...

分类：生活/情感标签：生活, 节日, 情感阅读全文 22 评论

27 Oct

TeaForN：让Teacher Forcing更有“远见”一些

By 苏剑林 | 2020-10-27 | 45863位读者 | 引用

Teacher Forcing是Seq2Seq模型的经典训练方式，而Exposure Bias则是Teacher Forcing的经典缺陷，这对于搞文本生成的同学来说应该是耳熟能详的事实了。笔者之前也曾写过博文《Seq2Seq中Exposure Bias现象的浅析与对策》，初步地分析过Exposure Bias问题。

Teacher Forcing示意图

本文则介绍Google新提出的一种名为“TeaForN”的缓解Exposure Bias现象的方案，来自论文《TeaForN: Teacher-Forcing with N-grams》，它通过嵌套迭代的方式，让模型能提前预估到后$N$个token（而不仅仅是当前要预测的token），其处理思路上颇有可圈可点之处，值得我们学习。

（注：为了尽量跟本博客旧文章保持一致，本文的记号与原论文的记号有所不同，请大家以理解符号含义为主，不要强记符号形式。）

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 文本生成阅读全文 9 评论

11 Nov

当GPT遇上中国象棋：写过文章解过题，要不再来下盘棋？

By 苏剑林 | 2020-11-11 | 61880位读者 | 引用

中国象棋

不知道读者有没有看过量子位年初的文章《最强写作AI竟然学会象棋和作曲，语言模型跨界操作引热议，在线求战》，里边提到有网友用GPT2模型训练了一个下国际象棋的模型。笔者一直在想，这么有趣的事情怎么可以没有中文版呢？对于国际象棋来说，其中文版自然就是中国象棋了，于是我一直有想着把它的结果在中国象棋上面复现一下。拖了大半年，在最近几天终于把这个事情完成了，在此跟大家分享一下。

象棋谱式
将军不离九宫内，士止相随不出官。
象飞四方营四角，马行一步一尖冲。
炮须隔子打一子，车行直路任西东。
唯卒只能行一步，过河横进退无踪。

点击阅读全文...

分类：信息时代标签：中国象棋, 语言模型, attention 阅读全文 19 评论

13 Nov

也来谈谈RNN的梯度消失/爆炸问题

By 苏剑林 | 2020-11-13 | 101307位读者 | 引用

尽管Transformer类的模型已经攻占了NLP的多数领域，但诸如LSTM、GRU之类的RNN模型依然在某些场景下有它的独特价值，所以RNN依然是值得我们好好学习的模型。而对于RNN梯度的相关分析，则是一个从优化角度思考分析模型的优秀例子，值得大家仔细琢磨理解。君不见，诸如“LSTM为什么能解决梯度消失/爆炸”等问题依然是目前流行的面试题之一...

经典的LSTM

关于此类问题，已有不少网友做出过回答，然而笔者查找了一些文章（包括知乎上的部分回答、专栏以及经典的英文博客），发现没有找到比较好的答案：有些推导记号本身就混乱不堪，有些论述过程没有突出重点，整体而言感觉不够清晰自洽。为此，笔者也尝试给出自己的理解，供大家参考。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 优化, 深度学习, 梯度阅读全文 32 评论

1 Dec

Performer：用随机投影将Attention的复杂度线性化

By 苏剑林 | 2020-12-01 | 93088位读者 | 引用

Attention机制的$\mathcal{O}(n^2)$复杂度是一个老大难问题了，改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如我们以往介绍过的Sparse Attention以及Google前几个月搞出来的Big Bird，等等；二是走线性化的思路，这部分工作我们之前总结在《线性Attention的探索：Attention必须有个Softmax吗？》中，读者可以翻看一下。本文则介绍一项新的改进工作Performer，出自Google的文章《Rethinking Attention with Performers》，它的目标相当霸气：通过随机投影，在不损失精度的情况下，将Attention的复杂度线性化。

各个Transformer模型的“效果-速度-显存”图，纵轴是效果，横轴是速度，圆圈的大小代表所需要的显存。理论上来说，越靠近右上方的模型越好，圆圈越小的模型越好

说直接点，就是理想情况下我们可以不用重新训练模型，输出结果也不会有明显变化，但是复杂度降到了$\mathcal{O}(n)$！看起来真的是“天上掉馅饼”般的改进了，真的有这么美好吗？

点击阅读全文...

分类：数学研究,信息时代标签：优化, attention 阅读全文 28 评论

7 Dec

【龟鱼记】全陶粒的同程底滤生态缸

By 苏剑林 | 2020-12-07 | 65391位读者 | 引用

最近一段时间入了水族的坑，整了个60cm×40cm的超白缸来玩，主要是龟鱼共养。个人比较追求自然仿生，所以希望能在缸里建立一个相对稳定的仿生态环境。当然，其实这都是借口，根本原因是懒得换水，也不想洗过滤棉，所以就想着依靠生态系统自身的净化能力来延长换水时间。为此，参考网上的资料搞了个同程底滤，并且根据自己的经验做了一些修改。

生态缸-俯视图

点击阅读全文...

分类：生活/情感标签：生活, 龟鱼, 生态阅读全文 14 评论

1 Jan

SPACES：“抽取-生成”式长文本摘要（法研杯总结）

By 苏剑林 | 2021-01-01 | 273265位读者 | 引用

“法研杯”算是近年来比较知名的NLP赛事之一，今年是第三届，包含四个赛道，其中有一个“司法摘要”赛道引起了我们的兴趣。经过了解，这是面向法律领域裁判文书的长文本摘要生成，这应该是国内第一个公开的长文本生成任务和数据集。过去一年多以来，我们在文本生成方面都有持续的投入和探索，所以决定选择该赛道作为检验我们研究成果的“试金石”。很幸运，我们最终以微弱的优势获得了该赛道的第一名。在此，我们对我们的比赛模型做一个总结和分享。

比赛榜单截图

在该比赛中，我们跳出了纯粹炼丹的过程，通过新型的Copy机制、Sparse Softmax等颇具通用性的新方法提升了模型的性能。整体而言，我们的模型比较简洁有效，而且可以做到端到端运行。窃以为我们的结果对工程和研究都有一定的参考价值。

点击阅读全文...

分类：信息时代标签：文本生成, 稀疏, 文本摘要阅读全文 132 评论

14 Dec

Mitchell近似：乘法变为加法，误差不超过1/9

By 苏剑林 | 2020-12-14 | 45636位读者 | 引用

今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》，作者是John N. Mitchell，他在里边提出了一个相当有意思的算法：在二进制下，可以完全通过加法来近似完成两个数的相乘，最大误差不超过1/9。整个算法相当巧妙，更有意思的是它还有着非常简洁的编程实现，让人拍案叫绝。然而，笔者发现网上居然找不到介绍这个算法的网页，所以在此介绍一番。

你以为这只是过时的玩意？那你就错了，前不久才有人利用它发了一篇NeurIPS 2020呢！所以，确定不来了解一下吗？

点击阅读全文...

分类：数学研究标签：模型, 算法, 优化阅读全文 11 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

第1000篇文章

TeaForN：让Teacher Forcing更有“远见”一些

当GPT遇上中国象棋：写过文章解过题，要不再来下盘棋？

也来谈谈RNN的梯度消失/爆炸问题

Performer：用随机投影将Attention的复杂度线性化

【龟鱼记】全陶粒的同程底滤生态缸

SPACES：“抽取-生成”式长文本摘要（法研杯总结）

Mitchell近似：乘法变为加法，误差不超过1/9

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接