包含关键字《方程与宇宙》的文章 - 科学空间|Scientific Spaces

26 Jun

OCR技术浅探：8. 综合评估

By 苏剑林 | 2016-06-26 | 25013位读者 | 引用

数据验证

尽管在测试环境下模型工作良好，但是实践是检验真理的唯一标准. 在本节中，我们通过自己的模型，与京东的测试数据进行比较验证.

衡量OCR系统的好坏有两部分内容：(1)是否成功地圈出了文字；(2)对于圈出来的文字，有没有成功识别. 我们采用评分的方法，对每一张图片的识别效果进行评分. 评分规则如下：

如果圈出的文字区域能够跟京东提供的检测样本的box文件中匹配，那么加1分，如果正确识别出文字来，另外加1分，最后每张图片的分数是前面总分除以文字总数.

按照这个规则，每张图片的评分最多是2分，最少是0分. 如果评分超过1，说明识别效果比较好了. 经过京东的测试数据比较，我们的模型平均评分大约是0.84，效果差强人意。

点击阅读全文...

分类：信息时代标签：模型, 图像, OCR 阅读全文 4 评论

1 Jul

从Boosting学习到神经网络：看山是山？

By 苏剑林 | 2016-07-01 | 53800位读者 | 引用

前段时间在潮州给韩师的同学讲文本挖掘之余，涉猎到了Boosting学习算法，并且做了一番头脑风暴，最后把Boosting学习算法的一些本质特征思考清楚了，而且得到一些意外的结果，比如说AdaBoost算法的一些理论证明也可以用来解释神经网络模型这么强大。

AdaBoost算法

Boosting学习，属于组合模型的范畴，当然，与其说它是一个算法，倒不如说是一种解决问题的思路。以有监督的分类问题为例，它说的是可以把弱的分类器（只要准确率严格大于随机分类器）通过某种方式组合起来，就可以得到一个很优秀的分类器（理论上准确率可以100%）。AdaBoost算法是Boosting算法的一个例子，由Schapire在1996年提出，它构造了一种Boosting学习的明确的方案，并且从理论上给出了关于错误率的证明。

以二分类问题为例子，假设我们有一批样本$\{x_i,y_i\},i=1,2,\dots,n$，其中$x_i$是样本数据，有可能是多维度的输入，$y_i\in\{1,-1\}$为样本标签，这里用1和-1来描述样本标签而不是之前惯用的1和0，只是为了后面证明上的方便，没有什么特殊的含义。接着假设我们已经有了一个弱分类器$G(x)$，比如逻辑回归、SVM、决策树等，对分类器的唯一要求是它的准确率要严格大于随机（在二分类问题中就是要严格大于0.5），所谓严格大于，就是存在一个大于0的常数$\epsilon$，每次的准确率都不低于$\frac{1}{2}+\epsilon$。

点击阅读全文...

分类：信息时代标签：神经网络, Boosting, 感情分类阅读全文 10 评论

5 Sep

进驻中山大学南校区，折腾校园网

By 苏剑林 | 2016-09-05 | 70051位读者 | 引用

开始研究僧之旅，希望有一天能企及扫地僧的境界。

进入中山大学后，各种郁闷的事情就来了。首先最郁闷的就是开学时间特早，8月26日开学，感觉至少比一般学校早了一星期，开学这么早有意思么～～接着就是感觉中大的管理制度各种混乱，比我本科的华师差多了。好吧，这些琐事先不吐槽，接下来弄校园网，这是作死的开始。

我们是在南校区的，校园网是通过锐捷客户端来认证的，而我是用macbook的，不过中大这边还很人性化地提供了Mac版的锐捷，体积就1M左右，挺好的。但众所周知，macbook并没有有线网卡，每次我上网都得插着个USB网卡然后连着网线，这该有多郁闷。于是想办法通过路由器拨号。我也不算没经验的了，对openwrt这个系统有过一定研究，以前在本科的时候也是锐捷，可以用mentohust替代拨号，很简单。于是我在这里重复这样的过程，发现一直认证失败，按照网上提示的各种方法，都无法解决。

经过研究，我发现在Windows下，这里就只能用官方提供了锐捷4.90版本，从其他地方下载的更高级或者更低级的锐捷，都无法通过验证。估计就是因为这个机制，导致了mentohust难以通过验证。而且网上流行的mentohust都是基于V2协议的，但4.90是基于V4的。后来我又去下载了V4版本的进行交叉编译，测试发现还不成功。几近绝望的时候，我发现了mentohust-proxy，一个mentohust的改进版，让我找到了希望。（怎么找到它？我是直接到github搜索了，因为实在没辙了～～）

原理很简单，如果直接通过mentohust无法完成认证，那么就通过代理模式，由电脑来完成认证，而mentohust只需要负责发送心跳包维持联网就行。这是个很折中的方案，但应该说是一个很通用的方案，因为它的成功与否，基本就取决于自己电脑的锐捷客户端而已。看到这个方案，我就知道有戏了，于是赶紧补习了一下交叉编译的知识，最后成功编译好了，并且在路由上成功地完成了认证。

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 13 评论

21 Oct

【理解黎曼几何】7. 高斯-博内公式

By 苏剑林 | 2016-10-21 | 34658位读者 | 引用

令人兴奋的是，我们导出黎曼曲率的途径，还能够让我们一瞥高斯-博内公式（ Gauss–Bonnet formula）的风采，真正体验一番研究内蕴几何的味道。

高斯-博内公式是大范围微分几何学的一个经典的公式，它建立了空间的局部性质和整体性质之间的联系。而我们从一条几何的路径出发，结合一些矩阵变换和数学分析的内容，逐步导出了测地线、协变导数、曲率张量，现在可以还可以得到经典的高斯-博内公式，可见我们在这条路上已经走得足够远了。虽然过程不尽善尽美，然而并没有脱离这个系列的核心：几何直观。本文的目的，正是分享黎曼几何的一种直观思路，既然是思路，以思想交流为主，不以严格证明为目的。因此，对于大家来说，这个系列权当黎曼几何的补充材料吧。

形式改写

首先，我们可以将式$(48)$重写为更有几何意义的形式。从

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何阅读全文抢沙发

5 Nov

【外微分浅谈】4. 微分不微

By 苏剑林 | 2016-11-05 | 27857位读者 | 引用

外微分

向量的外积一般只定义于不超过3维的空间。为了在更高维空间中使用反对称运算，我们需要下面描述的微分形式与外微分。

我们知道，任意$x$的函数的微分都可以写成$dx^{\mu}$的线性组合，在这里，各$dx^{\mu}$实则上扮演了一个基的角色，因此，我们不妨把$dx^{\mu}$看成是一组基，并且把任意函数称为微分0形式，而诸如$\omega_{\mu}dx^{\mu}$的式子，称为微分1形式。

在$dx^{\mu}$这组基之上，我们定义外积$\land$，即有反对称的运算$dx^{\mu}\land dx^{\nu}$，并且把诸如$\omega_{\mu\nu}dx^{\mu}\land dx^{\nu}$的式子，称为微分2形式。注意到这是$n$维空间中的外积，$dx^{\mu}\land dx^{\nu}$事实上是一个新空间的基，而不能用$dx^{\mu}$的线性组合来表示。

点击阅读全文...

分类：数学研究标签：向量, 对称, 外微分阅读全文抢沙发

19 Dec

【备忘】Python中断多重循环的几种思路

By 苏剑林 | 2016-12-19 | 55310位读者 | 引用

跳出单循环

不管是什么编程语言，都有可能会有跳出循环的需求，比如枚举时，找到一个满足条件的数就终止。跳出单循环是很简单的，比如

for i in range(10):
    if i > 5:
        print i
        break

然而，我们有时候会需要跳出多重循环，而break只能够跳出一层循环，比如

for i in range(10):
    for j in range(10):
        if i+j > 5:
            print i,j
            break

这样的代码并非说找到一组i+j > 5就停止，而是连续找到10组，因为break只跳出了for j in range(10)这一重循环。那么，怎么才能跳出多重呢？在此记录备忘一下。

点击阅读全文...

分类：信息时代标签：python, 备忘阅读全文 9 评论

7 Jan

基于遗忘假设的平滑公式

By 苏剑林 | 2017-01-07 | 19225位读者 | 引用

统计是通过大量样本来估计真实分布的过程，通常与统计相伴出现的一个词是“平滑”，即对统计结果打折扣的处理过程。平滑的思想来源于：如果样本空间非常大，那么统计的结果是稀疏的，这样由于各种偶然因素的存在，导致了小的统计结果不可靠，如频数为1的结果可能只是偶然的结果，其频率并不一定近似于$1/N$，频数为0的不一定就不会出现。这样我们就需要对统计结果进行平滑，使得结论更为可靠。

平滑的方法有很多，这里介绍一种基于遗忘假设的平滑公式。假设的任务为：我们要从一批语料中，统计每个字的字频。我们模仿人脑遗忘的过程，假设这个字出现一次，我们脑里的记忆量就增加1，但是如果一个周期内（先不管这个周期多大），这个字都没有出现，那么脑里的记忆量就变为原来的$\beta$比例。假设字是周期性出现的，那么记忆量$A_n$就满足如下递推公式
$$A_{n+1} = \beta A_n + 1$$

点击阅读全文...

分类：数学研究标签：统计, 语料, 平滑阅读全文抢沙发

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

By 苏剑林 | 2017-01-13 | 53167位读者 | 引用

之前已经写过用LSTM来做分词的方案了，今天再来一篇用CNN的，准确来说是FCN，全卷积网络。其实这个模型的主要目的并非研究中文分词，而是练习tensorflow。从两年前就开始用Keras了，可以说对它比较熟了，也渐渐发现了它的一些不足，比如处理变长输入时不方便、加入自定义的约束比较困难等，所以干脆试试原生的tensorflow了，试了之后发现其实也不复杂。嗯，都是python，能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务，以中文分词为例，并在最后加入了硬解码，将深度学习与词典分词结合了起来。

CNN

另外，就是关于FCN的。放到语言任务中看，（一维）卷积其实就是ngram模型，从这个角度来看其实CNN远比RNN来得自然，RNN好像就是为序列任务精心设计的，而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享，看上去只是为了降低运算量的一个折中选择，但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果，而不是仅仅是降低运算量的一个选择，试想一下，将一幅图像平移一点点，或者在一个句子前插入一个无意义的空格（导致后面所有字都向后平移了一位），这样应该给出一个相似甚至相同的结果，而这要求卷积必然是权值共享的，即权值不能跟位置有关系。

点击阅读全文...

分类：信息时代标签：深度学习, 分词, 自然语言处理阅读全文 10 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

OCR技术浅探：8. 综合评估

数据验证

从Boosting学习到神经网络：看山是山？

AdaBoost算法

进驻中山大学南校区，折腾校园网

【理解黎曼几何】7. 高斯-博内公式

形式改写

【外微分浅谈】4. 微分不微

外微分

【备忘】Python中断多重循环的几种思路

跳出单循环

基于遗忘假设的平滑公式

【中文分词系列】 6. 基于全卷积网络的中文分词

CNN

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接