包含关键字 SISv1.0.0.94Al 的文章 - 科学空间|Scientific Spaces

9 Jun

路径积分系列：4.随机微分方程

By 苏剑林 | 2016-06-09 | 32369位读者 | 引用

本章将路径积分用于随机微分方程，并且得到了与不对称随机游走一样的结果，从而证明了它与该模型的等价性.

将路径积分用于随机微分方程的研究，这一思路由来已久. 费曼在他的著作[5]中，已经建立了路径积分与线性随机微分方程的关系. 而对于非线性的情况，也有不少研究，但比较混乱，如文献[8]甚至给出了错误的结果.

本文从路径积分的离散化概念出发，明确地建立了两个路径积分微元的雅可比行列式关系，从而对非线性随机微分方程也建立了路径积分. 本文的结果跟文献[9]的结果是一致的.

概念

本文所研究的仅仅是随机常微分方程，它与一般的常微分方程的区别在于布朗运动项的引入，如常见的一类随机微分方程为
$$dx(t)=p(x(t),t)dt + \sqrt{\alpha} dW_t.\tag{48}$$
其中$W_t$代表着一个标准的布朗运动. 由于引入了随机项，所以解$x(t)$不再是确定的，而是有一定的概率分布.

在对随机微分方程中，感兴趣的量有很多，比如关于$x$的某个量的期望、方差，或者稳定性，等等. 随机微分方程领域中有各种分析的技巧，但是显然，直接求出$x(t)$的概率分布后对概率分布进行研究，是最理想最容易的方案. 路径积分正是给出了求概率分布的一个方法.

点击阅读全文...

分类：数学研究标签：微分方程, 路径积分, 随机阅读全文 2 评论

9 Jun

路径积分系列：5.例子和综述

By 苏剑林 | 2016-06-09 | 24374位读者 | 引用

路径积分方法为解决某些随机问题带来了新视角.

一个例子：股票价格模型

考虑有风险资产(如股票)，在$t$时刻其价格为$S_t$，考虑的时间区间为$[0,T]$，0表示初始时间，$T$表示为到期日. $S_t$看作是随时间变化的连续时间变量，并服从下列随机微分方程:
$$dS_t^0=rS_t^0 dt;\quad dS_t=S_t(\mu dt+\sigma dW_t).\tag{70}$$
其中，$\mu$和$\sigma$是两个常量，$W_t$是一个标准布朗运动.

关于$S_t$的方程是一个随机微分方程，一般解决思路是通过随机微积分. 随机微积分有别于一般的微积分的地方在于，随机微积分在做一阶展开的时候，不能忽略$dS_t^2$项，因为$dW_t^2=dt$. 比如，设$S_t=e^{x_t}$，则$x_t=\ln S_t$
$$\begin{aligned}dx_t=&\ln(S_t+dS_t)-\ln S_t=\frac{dS_t}{S_t}-\frac{dS_t^2}{2S_t^2}\\
=&\frac{S_t(\mu dt+\sigma dW_t)}{S_t}-\frac{[S_t(\mu dt+\sigma dW_t)]^2}{2S_t^2}\\
=&\mu dt+\sigma dW_t-\frac{1}{2}\sigma^2 dW_t^2\quad(\text{其余项均低于}dt\text{阶})\\
=&\left(\mu-\frac{1}{2}\sigma^2\right) dt+\sigma dW_t\end{aligned}
,\tag{71}$$

点击阅读全文...

分类：数学研究标签：微分方程, 微分, 路径积分, 金融阅读全文抢沙发

17 Jun

OCR技术浅探：2. 背景与假设

By 苏剑林 | 2016-06-17 | 41474位读者 | 引用

研究背景

关于光学字符识别(Optical Character Recognition, 下面都简称OCR)，是指将图像上的文字转化为计算机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的OCR技术和产品产生，比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是，ABBYY FineReader不仅正确率高(包括对中文的识别)，而且还能保留大部分的排版效果，是一个非常强大的OCR商业软件.

然而，在诸多的OCR成品中，除了Tesseract OCR外，其他的都是闭源的、甚至是商业的软件，我们既无法将它们嵌入到我们自己的程序中，也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR，但它的识别效果不算很好，而且中文识别正确率偏低，有待进一步改进.

综上所述，不管是为了学术研究还是实际应用，都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面，逐步进行解决，最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别，以判断上面信息的真伪.

研究假设

在本文中，我们假设图像的文字部分有以下的特征：

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR, 文字阅读全文 5 评论

18 Jun

OCR技术浅探：3. 特征提取(1)

By 苏剑林 | 2016-06-18 | 61972位读者 | 引用

作为OCR系统的第一步，特征提取是希望找出图像中候选的文字区域特征，以便我们在第二步进行文字定位和第三步进行识别. 在这部分内容中，我们集中精力模仿肉眼对图像与汉字的处理过程，在图像的处理和汉字的定位方面走了一条创新的道路. 这部分工作是整个OCR系统最核心的部分，也是我们工作中最核心的部分.

传统的文本分割思路大多数是“边缘检测 + 腐蚀膨胀 + 联通区域检测”，如论文[1]. 然而，在复杂背景的图像下进行边缘检测会导致背景部分的边缘过多(即噪音增加)，同时文字部分的边缘信息则容易被忽略，从而导致效果变差. 如果在此时进行腐蚀或膨胀，那么将会使得背景区域跟文字区域粘合，效果进一步恶化.（事实上，我们在这条路上已经走得足够远了，我们甚至自己写过边缘检测函数来做这个事情，经过很多测试，最终我们决定放弃这种思路。）

因此，在本文中，我们放弃了边缘检测和腐蚀膨胀，通过聚类、分割、去噪、池化等步骤，得到了比较良好的文字部分的特征，整个流程大致如图2，这些特征甚至可以直接输入到文字识别模型中进行识别，而不用做额外的处理.由于我们每一部分结果都有相应的理论基础作为支撑，因此能够模型的可靠性得到保证.

图2：特征提取大概流程

点击阅读全文...

分类：信息时代标签：图像, OCR, 特征, 聚类, 文字阅读全文 11 评论

24 Jun

OCR技术浅探：5. 文本切割

By 苏剑林 | 2016-06-24 | 49977位读者 | 引用

经过上一步，得到单行的文本区域之后，我们就可以想办法将单行的文本切割为单个的字符了. 因为第三步的模型师针对单个的字符建立的，因此这一步也是必须的.

均匀切割

基于方块汉字的假设，事实上最简单的切割方法是均匀切割，也就是说不加任何判断，直接按照高度来将单行文本切割为一个个的正方形图片. 这种思路可以应对大部分的单行文本，如下图上.

均匀切割成功

均匀切割失效

当然，均匀切割的弊端也是很明显的. 大多数汉字都是方块汉字，但多数英语和数字都不是，因此如果出现中英文混排的时候，均匀切割就失效了，如上图下.

点击阅读全文...

分类：信息时代标签：图像, OCR, 文字阅读全文 8 评论

26 Jun

OCR技术浅探：8. 综合评估

By 苏剑林 | 2016-06-26 | 31744位读者 | 引用

数据验证

尽管在测试环境下模型工作良好，但是实践是检验真理的唯一标准. 在本节中，我们通过自己的模型，与京东的测试数据进行比较验证.

衡量OCR系统的好坏有两部分内容：(1)是否成功地圈出了文字；(2)对于圈出来的文字，有没有成功识别. 我们采用评分的方法，对每一张图片的识别效果进行评分. 评分规则如下：

如果圈出的文字区域能够跟京东提供的检测样本的box文件中匹配，那么加1分，如果正确识别出文字来，另外加1分，最后每张图片的分数是前面总分除以文字总数.

按照这个规则，每张图片的评分最多是2分，最少是0分. 如果评分超过1，说明识别效果比较好了. 经过京东的测试数据比较，我们的模型平均评分大约是0.84，效果差强人意。

点击阅读全文...

分类：信息时代标签：模型, 图像, OCR 阅读全文 4 评论

13 Aug

两个惊艳的python库：tqdm和retry

By 苏剑林 | 2016-08-13 | 71071位读者 | 引用

Python基本是我目前工作、计算、数据挖掘的唯一编程语言（除了符号计算用Mathematica外）。当然，基本的Python功能并不是很强大，但它胜在有巨量的第三方扩展库。在选用Python的第三方库时，我都会经过仔细考虑，希望能挑选出最简单的、最直观的一个（因为本人比较笨，太复杂用不了）。在数据处理方面，我用得最多的是Numpy和Pandas，这两个绝对称得上王者级别的库，当然不能不提的是Scipy，但我很少直接用它，一般会通过Pandas间接调用了；可视化方面不用说是Matplotlib了；在建模方面，我会用Keras，直接上深度学习模型，Keras已经成为相当流行的深度学习框架了，如果做文本挖掘，通常还会用到jieba（分词）、Gensim（主题建模，包含了诸如word2vec之类的模型），机器学习库还有流行的Scikit Learn，但我很少用；网络方面，写爬虫我用requests，这是个人性化的网络库，如果写网站，我会用bottle，这是个单文件版的迷你框架，一切由自己定义，当然，我也不会去写什么大型网站，我就写一个简单的的接口那样而已；最后如果要并行的话，一般直接用multiprocessing。

不过，以上都不是本文要推荐的，本文要推荐的是两个可以渗透到日常写代码的库，它实现了我们平时很多时候都需要的功能，但是不用增加什么代码，绝对让人眼前一亮。

点击阅读全文...

分类：信息时代标签：python 阅读全文 9 评论

17 Aug

【中文分词系列】 1. 基于AC自动机的快速分词

By 苏剑林 | 2016-08-17 | 107916位读者 | 引用

前言：这个暑假花了不少时间在中文分词和语言模型上面，碰了无数次壁，也得到了零星收获。打算写一个专题，分享一下心得体会。虽说是专题，但仅仅是一些笔记式的集合，并非系统的教程，请读者见谅。

中文分词

关于中文分词的介绍和重要性，我就不多说了，matrix67这里有一篇关于分词和分词算法很清晰的介绍，值得一读。在文本挖掘中，虽然已经有不少文章探索了不分词的处理方法，如本博客的《文本情感分类（三）：分词 OR 不分词》，但在一般场合都会将分词作为文本挖掘的第一步，因此，一个有效的分词算法是很重要的。当然，中文分词作为第一步，已经被探索很久了，目前做的很多工作，都是总结性质的，最多是微弱的改进，并不会有很大的变化了。

目前中文分词主要有两种思路：查词典和字标注。首先，查词典的方法有：机械的最大匹配法、最少词数法，以及基于有向无环图的最大概率组合，还有基于语言模型的最大概率组合，等等。查词典的方法简单高效（得益于动态规划的思想），尤其是结合了语言模型的最大概率法，能够很好地解决歧义问题，但对于中文分词一大难度——未登录词（中文分词有两大难度：歧义和未登录词），则无法解决；为此，人们也提出了基于字标注的思路，所谓字标注，就是通过几个标记（比如4标注的是：single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾），把句子的正确分词法表示出来。这是一个序列（输入句子）到序列（标记序列）的过程，能够较好地解决未登录词的问题，但速度较慢，而且对于已经有了完备词典的场景下，字标注的分词效果可能也不如查词典方法。总之，各有优缺点（似乎是废话～），实际使用可能会结合两者，像结巴分词，用的是有向无环图的最大概率组合，而对于连续的单字，则使用字标注的HMM模型来识别。

点击阅读全文...

分类：信息时代标签：动态规划, AC自动机, 分词, 自然语言处理, 词库阅读全文 26 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

路径积分系列：4.随机微分方程

概念

路径积分系列：5.例子和综述

一个例子：股票价格模型

OCR技术浅探：2. 背景与假设

研究背景

研究假设

OCR技术浅探：3. 特征提取(1)

OCR技术浅探：5. 文本切割

均匀切割

OCR技术浅探：8. 综合评估

数据验证

两个惊艳的python库：tqdm和retry

【中文分词系列】 1. 基于AC自动机的快速分词

中文分词

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接