16 Sep

随机分词浅探:从Viterbi Decoding到Viterbi Sampling

上一篇文章《大词表语言模型在续写任务上的一个问题及对策》发布后,很快就有读者指出可以在训练阶段引入带有随机性的分词结果来解决同样的问题,并且已经有论文和实现。经过进一步查阅学习,笔者发现这是一个名为Subword Regularization的技巧,最早应用在NMT(机器翻译)中,目前SentencePiece也有相应的实现。看起来这个技巧确实能缓解前述问题,甚至有助于增强语言模型的容错能力,所以就有了将它加进去BytePiece的想法。

那么问题来了,如何将确定性分词改为随机性分词呢?BytePiece是基于Unigram模型的,它通过Viterbi算法找最大概率的分词方案,既然有概率,是否就可以自然地导出随机采样?本文来讨论这个问题,并分享自己的解决方案。

点击阅读全文...

14 Jul

NASA & 国际空间站 直播频道

NASA很早就开始实行不间断直播了,内容包括飞船的发射、最新消息公布等等。而国际空间站直播则是今年3月的事情。据国外媒体报道,美国宇航局已开始在线直播有关国际空间站外景象的视频,但欣赏这种直播是有条件的,网民必须等到空间站工作人员睡觉或者下班的时候。

而在今年,我们将会首次利用这种技术直播日全食,对于我们来说,这将是一次伟大的尝试。届时,“科学空间”将会及时地为大家提供日全食直播欣赏。现在,让我们来看下NASA的杰作!

点击阅读全文...

5 Aug

【NASA每日一图】“蒸发”中的参宿四

参宿四高分辨率图片, 版权:欧洲南方天文台

参宿四高分辨率图片, 版权:欧洲南方天文台

点击阅读全文...

5 Sep

【NASA每日一图】超新星遗骸E0102-72

图片说明:超新星遗骸E0102-72,版权:X-ray - NASA / CXC / MIT / D.Dewey et al., NASA / CXC / SAO / J.DePasquale; Optical - NASA / STScI

图片说明:超新星遗骸E0102-72,版权:X-ray - NASA / CXC / MIT / D.Dewey et al., NASA / CXC / SAO / J.DePasquale; Optical - NASA / STScI

点击阅读全文...

12 Sep

【NASA每日一图】天文城的夏季星空

图片说明:天文城的夏季星空,版权:Babak Tafreshi

图片说明:天文城的夏季星空,版权:Babak Tafreshi

点击阅读全文...

20 Sep

【NASA每日一图】太阳系中的木卫三

图片说明:木卫三,版权:Galileo Project, DLR, JPL, NASA

图片说明:木卫三,版权:Galileo Project, DLR, JPL, NASA

点击阅读全文...

26 Sep

【NASA每日一图】壮观的银河系

图片说明:银河系全景,版权: ESO / Serge Brunier, Frederic Tapissier &Serge Brunier

图片说明:银河系全景,版权: ESO / Serge Brunier, Frederic Tapissier &Serge Brunier

点击阅读全文...

27 Feb

【NASA每日一图】黎明天空中的奋进号太空梭

图片说明:黎明天空中的奋进号太空梭,版权:Malcolm Park

图片说明:黎明天空中的奋进号太空梭,版权:Malcolm Park

点击阅读全文...