自己实现了一个bert4keras
By 苏剑林 | 2019-08-27 | 182103位读者 | 引用分享个人实现的bert4keras:
《为什么现在的LLM都是Decoder-only的架构?》FAQ
By 苏剑林 | 2023-03-20 | 52784位读者 | 引用上周笔者写了《为什么现在的LLM都是Decoder-only的架构?》,总结了一下我在这个问题上的一些实验结论和猜测。果然是热点问题流量大,paperweekly的转发没多久阅读量就破万了,知乎上点赞数也不少。在几个平台上,陆陆续续收到了读者的一些意见或者疑问,总结了其中一些有代表性的问题,做成了本篇FAQ,希望能进一步帮助大家解决疑惑。
回顾
在《为什么现在的LLM都是Decoder-only的架构?》中,笔者对GPT和UniLM两种架构做了对比实验,然后结合以往的研究经历,猜测了如下结论:
1、输入部分的注意力改为双向不会带来收益,Encoder-Decoder架构的优势很可能只是源于参数翻倍;
2、双向注意力没有带来收益,可能是因为双向注意力的低秩问题导致效果下降。
所以,基于这两点推测,我们得到结论:
在同等参数量、同等推理成本下,Decoder-only架构是最优选择。
在生活上,我是一个比较传统的人,因此每到节日我都会尽量回家跟家人团聚。也许会让大家比较吃惊的是,今年的国庆是我第一个不在家的国庆。的确,从小学到高中,上学的地方离家都比较近,每周回去一次都是不成问题的。现在来到了广州,就不能太随心了。虽然跟很多同学相比,我离家还是比较近的,但是来回也要考虑车费、时间等等。国庆假期时间虽然很长,但是中秋已经回去一趟了,所以我决定国庆就不再回去了。
对我来说,中秋跟国庆相比,中秋的意义更大些。所以我选择了国庆不回家。对家人而言,看到自己平安就好,因此哪一天回去他们都会很高兴,当然,对于农村人来说,中秋的味道更浓,更希望团聚。
无穷级数求和的积分审敛法
By 苏剑林 | 2009-08-12 | 42862位读者 | 引用一道从小学到高中都可能考到的题目
By 苏剑林 | 2009-09-20 | 36371位读者 | 引用沉痛悼念钱学森!深切怀恋钱学森!
By 苏剑林 | 2009-11-01 | 20499位读者 | 引用??本文来自“天涯社区”,作者在表达了自己情感的同时,也表达了我的情感。或者说,她表达了每一个中国人的情感!在此向作者致敬
??作为中国航天之父!20世纪中国最伟大的科学家!钱学森不幸于10月31日上午11点与世长辞!享年98岁!
对于现在80,90后的人来说,钱学森也许只是一个科学符号,但对于上世纪五六七十年代出生的人而言,他和陈景润一度成为全体中国人心中的偶像!基本上就和现在年轻人疯狂追捧刘德华一样。所不同的是,他们是以自身的人格魅力和科技才华深深的打动了一代又一代的人!尤其是1955年,钱学森冒着生命危险,抛弃美国优越的社会地位、财富收入和先进的研究实力,毅然回国的壮举,告诉了我们什么才叫真正的“爱国者”!
最近评论