包含关键字《方程与宇宙》的文章 - 科学空间|Scientific Spaces

24 Jun

OCR技术浅探：4. 文字定位

By 苏剑林 | 2016-06-24 | 40614位读者 | 引用

经过第一部分，我们已经较好地提取了图像的文本特征，下面进行文字定位. 主要过程分两步：1、邻近搜索，目的是圈出单行文字；2、文本切割，目的是将单行文本切割为单字.

邻近搜索

我们可以对提取的特征图进行连通区域搜索，得到的每个连通区域视为一个汉字. 这对于大多数汉字来说是适用，但是对于一些比较简单的汉字却不适用，比如“小”、“旦”、“八”、“元”这些字，由于不具有连通性，所以就被分拆开了，如图13. 因此，我们需要通过邻近搜索算法，来整合可能成字的区域，得到单行的文本区域.

图13 直接搜索连通区域，会把诸如“元”之类的字分拆开

邻近搜索的目的是进行膨胀，以把可能成字的区域“粘合”起来. 如果不进行搜索就膨胀，那么膨胀是各个方向同时进行的，这样有可能把上下行都粘合起来了. 因此，我们只允许区域向单一的一个方向膨胀. 我们正是要通过搜索邻近区域来确定膨胀方向(上、下、左、右)：

邻近搜索* 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形. 当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向.

既然涉及到了邻近，那么就需要有距离的概念. 下面给出一个比较合理的距离的定义.

距离

图14 两个示例区域

如上图，通过左上角坐标$(x,y)$和右下角坐标$(z,w)$就可以确定一个矩形区域，这里的坐标是以左上角为原点来算的. 这个区域的中心是$\left(\frac{x+w}{2},\frac{y+z}{2}\right)$. 对于图中的两个区域$S$和$S'$，可以计算它们的中心向量差
$$(x_c,y_c)=\left(\frac{x'+w'}{2}-\frac{x+w}{2},\frac{y'+z'}{2}-\frac{y+z}{2}\right)\tag{10}$$
如果直接使用$\sqrt{x_c^2+y_c^2}$作为距离是不合理的，因为这里的邻近应该是按边界来算，而不是中心点. 因此，需要减去区域的长度：
$$(x'_c,y'_c)=\left(x_c-\frac{w-x}{2}-\frac{w'-x'}{2},y_c-\frac{z-y}{2}-\frac{z'-y'}{2}\right)\tag{11}$$
距离定义为
$$d(S,S')=\sqrt{[\max(x'_c,0)]^2+[\max(y'_c,0)]^2}\tag{12}$$
至于方向，由$(x_c,y_c)$的幅角进行判断即可.

然而，按照前面的“邻近搜索*”方法，容易把上下两行文字粘合起来，因此，基于我们的横向排版假设，更好的方法是只允许横向膨胀：

邻近搜索 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形. 当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向，当且仅当所在方向是水平的，才执行膨胀操作.

结果

有了距离之后，我们就可以计算每两个连通区域之间的距离，然后找出最邻近的区域. 我们将每个区域向它最邻近的区域所在的方向扩大4分之一，这样邻近的区域就有可能融合为一个新的区域，从而把碎片整合.

实验表明，邻近搜索的思路能够有效地整合文字碎片，结果如图15.

图15 通过邻近搜索后，圈出的文字区域

分类：信息时代标签：图像, OCR, 文字, 搜索阅读全文 6 评论

24 Jun

OCR技术浅探：5. 文本切割

By 苏剑林 | 2016-06-24 | 46348位读者 | 引用

经过上一步，得到单行的文本区域之后，我们就可以想办法将单行的文本切割为单个的字符了. 因为第三步的模型师针对单个的字符建立的，因此这一步也是必须的.

均匀切割

基于方块汉字的假设，事实上最简单的切割方法是均匀切割，也就是说不加任何判断，直接按照高度来将单行文本切割为一个个的正方形图片. 这种思路可以应对大部分的单行文本，如下图上.

均匀切割成功

均匀切割失效

当然，均匀切割的弊端也是很明显的. 大多数汉字都是方块汉字，但多数英语和数字都不是，因此如果出现中英文混排的时候，均匀切割就失效了，如上图下.

点击阅读全文...

分类：信息时代标签：图像, OCR, 文字阅读全文 8 评论

26 Jun

OCR技术浅探：7. 语言模型

By 苏剑林 | 2016-06-26 | 50852位读者 | 引用

由于图像质量等原因，性能再好的识别模型，都会有识别错误的可能性，为了减少识别错误率，可以将识别问题跟统计语言模型结合起来，通过动态规划的方法给出最优的识别结果.这是改进OCR识别效果的重要方法之一.

转移概率

在我们分析实验结果的过程中，有出现这一案例.由于图像不清晰等可能的原因，导致“电视”一词被识别为“电柳”，仅用图像模型是不能很好地解决这个问题的，因为从图像模型来看，识别为“电柳”是最优的选择.但是语言模型却可以很巧妙地解决这个问题.原因很简单，基于大量的文本数据我们可以统计“电视”一词和“电柳”一词的概率，可以发现“电视”一词的概率远远大于“电柳”，因此我们会认为这个词是“电视”而不是“电柳”.

从概率的角度来看，就是对于第一个字的区域的识别结果$s_1$，我们前面的卷积神经网络给出了“电”、“宙”两个候选字(仅仅选了前两个，后面的概率太小)，每个候选字的概率$W(s_1)$分别为0.99996、0.00004；第二个字的区域的识别结果$s_2$，我们前面的卷积神经网络给出了“柳”、“视”、“规”(仅仅选了前三个，后面的概率太小)，每个候选字的概率$W(s_2)$分别为0.87838、0.12148、0.00012，因此，它们事实上有六种组合：“电柳”、“电视”、“电规”、“宙柳”、“宙视”、“宙规”.

点击阅读全文...

分类：信息时代标签：模型, OCR, 语言, 动态规划阅读全文 9 评论

26 Jun

OCR技术浅探：9. 代码共享(完)

By 苏剑林 | 2016-06-26 | 68745位读者 | 引用

文件说明：

1. image.py——图像处理函数，主要是特征提取；
2. model_training.py——训练CNN单字识别模型（需要较高性能的服务器，最好有GPU加速，否则真是慢得要死）；
3. ocr.py——识别函数，包括单字分割、前面训练好的模型进行单字识别、动态规划提升效果；
4. main.py——主文件，用来调用1、3两个文件。
5、我们的模型中包含的字.txt(UTF-8编码)

点击阅读全文...

分类：信息时代标签：代码, 图像, OCR 阅读全文 18 评论

26 Jun

OCR技术浅探：8. 综合评估

By 苏剑林 | 2016-06-26 | 29360位读者 | 引用

数据验证

尽管在测试环境下模型工作良好，但是实践是检验真理的唯一标准. 在本节中，我们通过自己的模型，与京东的测试数据进行比较验证.

衡量OCR系统的好坏有两部分内容：(1)是否成功地圈出了文字；(2)对于圈出来的文字，有没有成功识别. 我们采用评分的方法，对每一张图片的识别效果进行评分. 评分规则如下：

如果圈出的文字区域能够跟京东提供的检测样本的box文件中匹配，那么加1分，如果正确识别出文字来，另外加1分，最后每张图片的分数是前面总分除以文字总数.

按照这个规则，每张图片的评分最多是2分，最少是0分. 如果评分超过1，说明识别效果比较好了. 经过京东的测试数据比较，我们的模型平均评分大约是0.84，效果差强人意。

点击阅读全文...

分类：信息时代标签：模型, 图像, OCR 阅读全文 4 评论

1 Jul

从Boosting学习到神经网络：看山是山？

By 苏剑林 | 2016-07-01 | 64917位读者 | 引用

前段时间在潮州给韩师的同学讲文本挖掘之余，涉猎到了Boosting学习算法，并且做了一番头脑风暴，最后把Boosting学习算法的一些本质特征思考清楚了，而且得到一些意外的结果，比如说AdaBoost算法的一些理论证明也可以用来解释神经网络模型这么强大。

AdaBoost算法

Boosting学习，属于组合模型的范畴，当然，与其说它是一个算法，倒不如说是一种解决问题的思路。以有监督的分类问题为例，它说的是可以把弱的分类器（只要准确率严格大于随机分类器）通过某种方式组合起来，就可以得到一个很优秀的分类器（理论上准确率可以100%）。AdaBoost算法是Boosting算法的一个例子，由Schapire在1996年提出，它构造了一种Boosting学习的明确的方案，并且从理论上给出了关于错误率的证明。

以二分类问题为例子，假设我们有一批样本$\{x_i,y_i\},i=1,2,\dots,n$，其中$x_i$是样本数据，有可能是多维度的输入，$y_i\in\{1,-1\}$为样本标签，这里用1和-1来描述样本标签而不是之前惯用的1和0，只是为了后面证明上的方便，没有什么特殊的含义。接着假设我们已经有了一个弱分类器$G(x)$，比如逻辑回归、SVM、决策树等，对分类器的唯一要求是它的准确率要严格大于随机（在二分类问题中就是要严格大于0.5），所谓严格大于，就是存在一个大于0的常数$\epsilon$，每次的准确率都不低于$\frac{1}{2}+\epsilon$。

点击阅读全文...

分类：信息时代标签：神经网络, Boosting, 感情分类阅读全文 13 评论

5 Sep

进驻中山大学南校区，折腾校园网

By 苏剑林 | 2016-09-05 | 79652位读者 | 引用

开始研究僧之旅，希望有一天能企及扫地僧的境界。

进入中山大学后，各种郁闷的事情就来了。首先最郁闷的就是开学时间特早，8月26日开学，感觉至少比一般学校早了一星期，开学这么早有意思么～～接着就是感觉中大的管理制度各种混乱，比我本科的华师差多了。好吧，这些琐事先不吐槽，接下来弄校园网，这是作死的开始。

我们是在南校区的，校园网是通过锐捷客户端来认证的，而我是用macbook的，不过中大这边还很人性化地提供了Mac版的锐捷，体积就1M左右，挺好的。但众所周知，macbook并没有有线网卡，每次我上网都得插着个USB网卡然后连着网线，这该有多郁闷。于是想办法通过路由器拨号。我也不算没经验的了，对openwrt这个系统有过一定研究，以前在本科的时候也是锐捷，可以用mentohust替代拨号，很简单。于是我在这里重复这样的过程，发现一直认证失败，按照网上提示的各种方法，都无法解决。

经过研究，我发现在Windows下，这里就只能用官方提供了锐捷4.90版本，从其他地方下载的更高级或者更低级的锐捷，都无法通过验证。估计就是因为这个机制，导致了mentohust难以通过验证。而且网上流行的mentohust都是基于V2协议的，但4.90是基于V4的。后来我又去下载了V4版本的进行交叉编译，测试发现还不成功。几近绝望的时候，我发现了mentohust-proxy，一个mentohust的改进版，让我找到了希望。（怎么找到它？我是直接到github搜索了，因为实在没辙了～～）

原理很简单，如果直接通过mentohust无法完成认证，那么就通过代理模式，由电脑来完成认证，而mentohust只需要负责发送心跳包维持联网就行。这是个很折中的方案，但应该说是一个很通用的方案，因为它的成功与否，基本就取决于自己电脑的锐捷客户端而已。看到这个方案，我就知道有戏了，于是赶紧补习了一下交叉编译的知识，最后成功编译好了，并且在路由上成功地完成了认证。

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 13 评论

21 Oct

【理解黎曼几何】7. 高斯-博内公式

By 苏剑林 | 2016-10-21 | 38776位读者 | 引用

令人兴奋的是，我们导出黎曼曲率的途径，还能够让我们一瞥高斯-博内公式（ Gauss–Bonnet formula）的风采，真正体验一番研究内蕴几何的味道。

高斯-博内公式是大范围微分几何学的一个经典的公式，它建立了空间的局部性质和整体性质之间的联系。而我们从一条几何的路径出发，结合一些矩阵变换和数学分析的内容，逐步导出了测地线、协变导数、曲率张量，现在可以还可以得到经典的高斯-博内公式，可见我们在这条路上已经走得足够远了。虽然过程不尽善尽美，然而并没有脱离这个系列的核心：几何直观。本文的目的，正是分享黎曼几何的一种直观思路，既然是思路，以思想交流为主，不以严格证明为目的。因此，对于大家来说，这个系列权当黎曼几何的补充材料吧。

形式改写

首先，我们可以将式$(48)$重写为更有几何意义的形式。从

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何阅读全文抢沙发

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

OCR技术浅探：4. 文字定位

邻近搜索

距离

结果

OCR技术浅探：5. 文本切割

均匀切割

OCR技术浅探：7. 语言模型

转移概率

OCR技术浅探：9. 代码共享(完)

OCR技术浅探：8. 综合评估

数据验证

从Boosting学习到神经网络：看山是山？

AdaBoost算法

进驻中山大学南校区，折腾校园网

【理解黎曼几何】7. 高斯-博内公式

形式改写

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接