你的CRF层的学习率可能不够大
By 苏剑林 | 2020-02-07 | 100742位读者 | 引用CRF是做序列标注的经典方法,它理论优雅,实际也很有效,如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍(附带纯Keras实现)》。在BERT模型出来之后,也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而,很多实验结果显示(比如论文《BERT Meets Chinese Word Segmentation》)不管是中文分词还是实体识别任务,相比于简单的BERT+Softmax,BERT+CRF似乎并没有带来什么提升,这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。
这两天给bert4keras增加了用CRF做中文分词的例子(task_sequence_labeling_cws_crf.py),在调试过程中发现了CRF层可能存在学习不充分的问题,进一步做了几个对比实验,结果显示这可能是CRF在BERT中没什么提升的主要原因,遂在此记录一下分析过程,与大家分享。
科学空间:2009年12月重要天象
By 苏剑林 | 2009-12-05 | 22394位读者 | 引用行星的逆行,顺行和留(计算公式)
By 苏剑林 | 2010-04-18 | 63476位读者 | 引用把地球放到“宇宙中心”...
By 苏剑林 | 2010-02-21 | 29733位读者 | 引用从牛顿力学角度研究宇宙学
By 苏剑林 | 2010-06-17 | 47527位读者 | 引用不少天文爱好者对宇宙学这方面的内容“听而生畏”,觉得没有爱因斯坦的广义相对论等复杂理论基础是不可理解的。的确,这种观点没有错,当前的宇宙学对宇宙的精确描述,的确是建立在广义相对论和量子力学等理论的基础之上的。BoJone也只是在书上略略浏览,根本谈不上有什么了解。但是,对于一般的天文爱好者来说,只要对牛顿力学和微积分有一定的了解,就可以对我们的宇宙有一个大概的描述,也能够得出很多令人惊喜的结论。相信进行了这项工作之后,很多爱好者都会改观:原来宇宙学也并不是那么难...并且能够得出这样的一个结论:广义相对论虽然对牛顿引力理论进行了彻底的改革,但是从数学的角度来讲,它仅仅对牛顿力学进行了修正。
计算夏至的精确时刻2——提高精确度
By 苏剑林 | 2010-08-29 | 16251位读者 | 引用[春礼]《方程与宇宙》:圆形限制性三体问题(七)
By 苏剑林 | 2011-02-04 | 23858位读者 | 引用平面圆形限制性三体问题运动方程及能量积分
plane circular restricted three-body problem
02.04有重要修正!!
寒假一个很大的目标就是能够在三体问题的周期轨道上有点突破,于是就出动了“向量”、“复分析”、“微分方程”等理论“核武”,遗憾的是,“有心栽花花不开”,到今天还是没有多少进展。不过俗语也说“无心插柳柳成荫”,也不错。今天回看《天体力学引论》中的“圆形限制性三体问题”,经过一番思考,利用这些天的思考方法重新推导出了其运动方程和能量积分,也算是“意外收获”在此作为春节礼物与大家分享。
所谓“圆形限制性三体问题”,就是指两个大质量天体(质点)在它们相互引力作用下做圆周运动,假设第三天体(质量趋于0)只受到这两个天体的引力作用而不影响两个天体运行的一种运动情况。由于普通三体问题无法积分,而这个“限制性模型”能够把问题化简不少(不过还是不能积分出来的),因此也得到了一定应用。它的应用条件是:第三体质量小(如当前航天器与地球、太阳)、短程。注意短程也是相当重要的条件之一,注意短程也是相当重要的条件之一,质量越小应用范围越大。要是质量大的话,就不能计算太长的路程。
最近评论