27 May

【不可思议的Word2Vec】5. Tensorflow版的Word2Vec

本文封装了一个比较完整的Word2Vec,其模型部分使用tensorflow实现。本文的目的并非只是再造一次Word2Vec这个轮子,而是通过这个例子来熟悉tensorflow的写法,并且测试笔者设计的一种新的softmax loss的效果,为后面研究语言模型的工作做准备。

不同的地方

Word2Vec的基本的数学原理,请移步到《【不可思议的Word2Vec】 1.数学原理》一文查看。本文的主要模型还是CBOW或者Skip-Gram,但在loss设计上有所不同。本文还是使用了完整的softmax结构,而不是huffmax softmax或者负采样方案,但是在训练softmax时,使用了基于随机负采样的交叉熵作为loss。这种loss与已有的nce_loss和sampled_softmax_loss都不一样,这里姑且命名为random softmax loss。

另外,在softmax结构中,一般是$\text{softmax}(Wx+b)$这样的形式,考虑到$W$矩阵的形状事实上跟词向量矩阵的形状是一样的,因此本文考虑了softmax层与词向量层共享权重的模型(这时候直接让$b$为0),这种模型等效于原有的Word2Vec的负采样方案,也类似于glove词向量的词共现矩阵分解,但由于使用了交叉熵损失,理论上收敛更快,而且训练结果依然具有softmax的预测概率意义(相比之下,已有的Word2Vec负样本模型训练完之后,最后模型的输出值是没有意义的,只有词向量是有意义的。)。同时,由于共享了参数,因此词向量的更新更为充分,读者不妨多多测试这种方案。

点击阅读全文...

27 Jun

哈哈,我的“《圣经》”到了

之前已经稍微提及到了MTW的《引力论》,这本由C.W.麦思纳(Charles W.Misner)、K.S.索恩(Kip S.Thorne)、J.A.惠勒(John Archibald Wheeler)联合编写的广义相对论教材,被誉为引力中的“《圣经》”。自从我看到它的信息开始,我就一直对它念念不忘,一直希望能找到那本台湾翻译的中文版。无奈天朝的各种因素,让我难以如愿。通过翻墙到PChome的全球购物,结合各种手段,我终于买到了这本《圣经》!

引力论1

引力论1

点击阅读全文...

21 Jul

中山大学力学网络教程

内容来源于中山大学物理科学与工程技术学院(理工学院)

中山大学力学教程-目录图

中山大学力学教程-目录图

为了避免以后出现资源无法访问的问题,BoJone把这部分内容拷贝到了科学空间的服务器上。

您现在所看到的版本,是位于“科学空间”服务器上的。

点击访问:http://kexue.fm/sci/mechanics/

8 Jul

百科翻译:氢氧化钠(NaOH)的详细介绍

对于我们来说,维基百科是一个难得的资料库,但是与其英文版相比,中文版就相形见绌了,就好像本文中所讲的氢氧化钠,在中文版的资料为http://zh.wikipedia.org/w/index.php?title=NaOH&variant=zh-cn;而在英文版的资料为http://en.wikipedia.org/wiki/NaOH 可见英文版本是多么丰富。为了使大家能够更多地了解到科学,笔者特地翻译了一些英文版的维基百科中一些资料。

点击阅读全文...

8 Jul

【个人翻译】变暖的地球对冷血动物来说过热?

翻译语录:
这是一篇关于气候变暖对变温动物的影响的文章。原文很长,来自“科学美国人”网站,本文有所删减。
在人类不断报道气候变化对人类所造成的影响的时候,自然界的其他生物也在受着气候的影响。也许,自然界的其他生物才是最大的受害者。无论如何,为了我们,为了自然,为了地球,为了后代,我们都应该自觉地去减少温室效应。只要人人都节约一点点,世界就会多一片绿色、一片蓝天!

点击阅读全文...

9 Jul

天文马拉松:观测国际空间站

前言:也许你从未见过宇宙飞船,也许你躺在星空下却无所事事,也许你有望远镜却无观测对象,不过,这种心情可以结束了,因为我们可以观测国际空间站!对于这一新闻,无疑是令我们振奋人心的消息!对于天文爱好者来说,更是令人兴奋!不论如何,在繁星中寻找国际空间站是一件无比写意的事情。不仅是能力的挑战,还有耐心!

图片说明:May 22, 2009拍摄到的国际空间站,来源:NASA

图片说明:May 22, 2009拍摄到的国际空间站,来源:NASA

点击阅读全文...

9 Jul

植物拯救了地球,阻止寒冷灭绝之灾!

笔者语录:现在温室效应愈演愈烈。不过,在千万年前,情况正好相反,二氧化碳含量的急剧下降,使地球越来越冷。而一个“救星”的出现挽救了地球!这个伟大的“救星”,就是我们随处可见的植物。现在,就让我们随着《新科学家》的脚步,去看看那远古的“救星”!

图片说明:原始森林。来自搜索引擎,图片有可能经过PS。

图片说明:原始森林。来自搜索引擎,图片有可能经过PS。

点击阅读全文...

9 Jan

增强typecho的搜索功能

科学空间是使用typecho程序搭建的博客,侧边栏提供了搜索功能,然而typecho内置搜索功能仅仅是基于字符串的全匹配查找,因此导致很多合理的查询都没法得到结果,比如“2018天象”、“新词算法”都没法给出结果,原因就是文章中都不包含这些字符串。

于是就萌生了加强搜索功能的想法,之前也有读者建议过这个事情。这两天搜索了一下,本来计划用Python下的Whoosh库来建立一个全文检索引擎,但感觉整合和后期维护的工作量太大,还是放弃了。后来想到在typecho自身的搜索上加强,在公司同事(大佬)的帮助下,完成了这个改进。

由于是直接修改typecho源文件实现的改进,因此如果typecho升级后就可能被覆盖,因此在这里做个备忘。

探索

通过在Github检索我发现,typecho的搜索功能是在var/Widget/Archive.php中实现的,具体代码大概在1185~1192行:

点击阅读全文...