16
Sep
随机分词浅探:从Viterbi Decoding到Viterbi Sampling
By 苏剑林 | 2023-09-16 | 21968位读者 | 引用上一篇文章《大词表语言模型在续写任务上的一个问题及对策》发布后,很快就有读者指出可以在训练阶段引入带有随机性的分词结果来解决同样的问题,并且已经有论文和实现。经过进一步查阅学习,笔者发现这是一个名为Subword Regularization的技巧,最早应用在NMT(机器翻译)中,目前SentencePiece也有相应的实现。看起来这个技巧确实能缓解前述问题,甚至有助于增强语言模型的容错能力,所以就有了将它加进去BytePiece的想法。
那么问题来了,如何将确定性分词改为随机性分词呢?BytePiece是基于Unigram模型的,它通过Viterbi算法找最大概率的分词方案,既然有概率,是否就可以自然地导出随机采样?本文来讨论这个问题,并分享自己的解决方案。
14
Jul
NASA & 国际空间站 直播频道
By 苏剑林 | 2009-07-14 | 83785位读者 | 引用
5
Sep
【NASA每日一图】超新星遗骸E0102-72
By 苏剑林 | 2009-09-05 | 18188位读者 | 引用
12
Sep
【NASA每日一图】天文城的夏季星空
By 苏剑林 | 2009-09-12 | 32180位读者 | 引用
26
Sep
【NASA每日一图】壮观的银河系
By 苏剑林 | 2009-09-26 | 27872位读者 | 引用
27
Feb
最近评论