包含关键字文本相似度的文章 - 科学空间|Scientific Spaces

1 Nov

月底回家看彗星C/2012 S1 (ISON)

By 苏剑林 | 2013-11-01 | 25185位读者 | 引用

今年的天象中的“重头戏”——C/2012 S1 (ISON)彗星将在月底闪亮登场！

ISON_Comet_captured_by_HST,_April_10-11,_2013

先贴出来自scully.cfa.harvard.edu的数据：

Date TT R. A. (2000) Decl. Delta r Elong. Phase m1 m2
2013 11 24 14 45 42.7 -18 53 56 0.8693 0.3002 17.1 104.3 3.0
2013 11 25 15 01 27.3 -20 05 10 0.8819 0.2551 14.3 107.0 2.5
2013 11 26 15 18 04.6 -21 09 58 0.8998 0.2058 11.4 109.3 1.8
2013 11 27 15 35 58.3 -22 05 30 0.9244 0.1502 8.2 110.4 0.7
2013 11 28 15 56 28.2 -22 43 29 0.9594 0.0826 4.6 106.9 -1.3
2013 11 29 16 23 17.5 -19 52 57 0.9762 0.0322 1.8 107.7 -4.5
2013 11 30 16 21 22.4 -16 20 32 0.9125 0.1145 5.3 127.4 -0.2
2013 12 01 16 19 11.8 -13 59 07 0.8681 0.1757 8.1 128.1 1.2
2013 12 02 16 17 23.9 -11 56 02 0.8309 0.2281 10.6 127.3 2.0
2013 12 03 16 15 54.3 -10 00 54 0.7980 0.2754 13.0 126.1 2.5

点击阅读全文...

分类：天文探索标签：彗星, 天象, 天文, 追寻阅读全文 1 评论

25 Dec

前言

今天在QQ群里的讨论中看到了focal loss，经搜索它是Kaiming大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数，利用它改善了图像物体检测的效果。不过我很少做图像任务，不怎么关心图像方面的应用。本质上讲，focal loss就是一个解决分类问题中类别不平衡、分类难度差异的一个loss，总之这个工作一片好评就是了。大家还可以看知乎的讨论：
《如何评价kaiming的Focal Loss for Dense Object Detection？》

看到这个loss，开始感觉很神奇，感觉大有用途。因为在NLP中，也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的，比如在命名实体识别中，显然一句话里边实体是比非实体要少得多，这就是一个类别严重不平衡的情况。我尝试把它用在我的基于序列标注的问答模型中，也有微小提升。嗯，这的确是一个好loss。

接着我再仔细对比了一下，我发现这个loss跟我昨晚构思的一个loss具有异曲同工之理！这就促使我写这篇博文了。我将从我自己的思考角度出发，来分析这个问题，最后得到focal loss，也给出我昨晚得到的类似的loss。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数阅读全文 64 评论

9 Jan

《量子力学与路径积分》习题解答V0.4

By 苏剑林 | 2016-01-09 | 34104位读者 | 引用

流年

《量子力学与路径积分》的习题解答终于艰难地推进到了0.4版本，目前已经基本完成了前7章的习题。

今天已经是2016年1月9号了，2015年已经远去，都忘记跟大家说一声新年快乐了，实在抱歉。在这里补充一句：祝大家新年快乐，事事如意！。

笔者已经大四了，现在是临近期末考，又临近毕业。最近忙的事情有很多，其中之一是我加入了一个互联网小公司的创业队伍中，负责文本挖掘，偶尔也写写爬虫，等等，感觉自己进去之后，增长了不少见识，也增加了不少技术知识，较之我上一次实习，又有不一样的高度。现在里边有好几样事情排队着做，可谓忙得不亦悦乎了。还有，我也开始写毕业论文了，早点写完能够多点时间，学学自己喜欢的东西，毕业论文我写的是路径积分相关的内容，自我感觉写得还是比较清楚易懂的，等时机成熟了，发出来，向大家普及路径积分^_^。此外，每天做点路径积分的习题，也要消耗不少时间，有些比较难的题目，基本一道就做几个早上才能写出比较满意的答案。总感觉想学的想做的事情有很多，可是时间很少。

点击阅读全文...

分类：物理化学标签：节日, 路径积分, 费曼阅读全文 3 评论

15 May

Coming Back...

By 苏剑林 | 2016-05-15 | 40516位读者 | 引用

上一篇博文的发布时间是4月15日，到今天刚好一个月没更新了，但是科学空间的访问量还在。感谢大家对本空间的支持，BoJone对久未更新表示非常抱歉。在恢复更新之前，请允许笔者记记流水账。

在“消失”的一个月中，笔者主要的事情是毕业论文和数据挖掘竞赛。首先毕业论文方面，论文于4月22日交稿，4月29日答辩，答辩完后就意味着毕业论文的事情结束了。我的毕业论文主要写了路径积分在描述随机游走、偏微分方程、随机微分方程的应用。既然是本科论文，就不能说得太晦涩，因此论文整体来看还是比较易读的，可以作为路径积分的入门教程。后面我会略加修改，分开几部分发布在科学空间中的，到时请大家批评指正。

说到路径积分，不得不说到做《量子力学与路径积分》的习题解答这件事情了。很遗憾，这一个多月来，基本没有时间做习题。不过后面我会继续做下去的，已发布的版本，也请有兴趣的读者指出问题。记得年初的时候，朋友问我今年的愿望是什么，我随意地回答了“希望做完一本书的习题”，这本书，当然就是《量子力学与路径积分》了，我相信今年应该能够完成的。

点击阅读全文...

分类：生活/情感标签：路径积分, 数据挖掘阅读全文 7 评论

18 Jun

OCR技术浅探：3. 特征提取(2)

By 苏剑林 | 2016-06-18 | 42233位读者 | 引用

逐层识别

当图像有效地进行分层后，我们就可以根据前面的假设，进一步设计相应的模型，通过逐层处理的方式找出图像中的文字区域.

连通性

8邻接

可以看到，每一层的图像是由若干连通区域组成的，文字本身是由笔画较为密集组成的，因此往往文字也能够组成一个连通区域. 这里的连通定义为8邻接，即某个像素周围的8个像素都定义为邻接像素，邻接的像素则被定义为同一个连通区域.

定义了连通区域后，每个图层被分割为若干个连通区域，也就是说，我们逐步地将原始图像进行分解，如图9.

点击阅读全文...

分类：信息时代标签：图像, OCR, 特征, 文字阅读全文 7 评论

17 Jun

OCR技术浅探：1. 全文简述

By 苏剑林 | 2016-06-17 | 46906位读者 | 引用

写在前面：前面的博文已经提过，在上个月我参加了第四届泰迪杯数据挖掘竞赛，做的是A题，跟OCR系统有些联系，还承诺过会把最终的结果开源。最近忙于毕业、搬东西，一直没空整理这些内容，现在抽空整理一下。

把结果发出来，并不是因为结果有多厉害、多先进（相反，当我对比了百度的这篇论文《基于深度学习的图像识别进展：百度的若干实践》之后，才发现论文的内容本质上还是传统那一套，远远还跟不上时代的潮流），而是因为虽然OCR技术可以说比较成熟了，但网络上根本就没有对OCR系统进行较为详细讲解的文章，而本文就权当补充这部分内容吧。我一直认为，技术应该要开源才能得到发展（当然，在中国这一点也确实值得商榷，因为开源很容易造成山寨），不管是数学物理研究还是数据挖掘，我大多数都会发表到博客中，与大家交流。

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR 阅读全文 7 评论

17 Jun

OCR技术浅探：2. 背景与假设

By 苏剑林 | 2016-06-17 | 40865位读者 | 引用

研究背景

关于光学字符识别(Optical Character Recognition, 下面都简称OCR)，是指将图像上的文字转化为计算机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的OCR技术和产品产生，比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是，ABBYY FineReader不仅正确率高(包括对中文的识别)，而且还能保留大部分的排版效果，是一个非常强大的OCR商业软件.

然而，在诸多的OCR成品中，除了Tesseract OCR外，其他的都是闭源的、甚至是商业的软件，我们既无法将它们嵌入到我们自己的程序中，也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR，但它的识别效果不算很好，而且中文识别正确率偏低，有待进一步改进.

综上所述，不管是为了学术研究还是实际应用，都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面，逐步进行解决，最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别，以判断上面信息的真伪.

研究假设

在本文中，我们假设图像的文字部分有以下的特征：

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR, 文字阅读全文 5 评论

18 Jun

OCR技术浅探：3. 特征提取(1)

By 苏剑林 | 2016-06-18 | 60393位读者 | 引用

作为OCR系统的第一步，特征提取是希望找出图像中候选的文字区域特征，以便我们在第二步进行文字定位和第三步进行识别. 在这部分内容中，我们集中精力模仿肉眼对图像与汉字的处理过程，在图像的处理和汉字的定位方面走了一条创新的道路. 这部分工作是整个OCR系统最核心的部分，也是我们工作中最核心的部分.

传统的文本分割思路大多数是“边缘检测 + 腐蚀膨胀 + 联通区域检测”，如论文[1]. 然而，在复杂背景的图像下进行边缘检测会导致背景部分的边缘过多(即噪音增加)，同时文字部分的边缘信息则容易被忽略，从而导致效果变差. 如果在此时进行腐蚀或膨胀，那么将会使得背景区域跟文字区域粘合，效果进一步恶化.（事实上，我们在这条路上已经走得足够远了，我们甚至自己写过边缘检测函数来做这个事情，经过很多测试，最终我们决定放弃这种思路。）

因此，在本文中，我们放弃了边缘检测和腐蚀膨胀，通过聚类、分割、去噪、池化等步骤，得到了比较良好的文字部分的特征，整个流程大致如图2，这些特征甚至可以直接输入到文字识别模型中进行识别，而不用做额外的处理.由于我们每一部分结果都有相应的理论基础作为支撑，因此能够模型的可靠性得到保证.

图2：特征提取大概流程

点击阅读全文...

分类：信息时代标签：图像, OCR, 特征, 聚类, 文字阅读全文 11 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

月底回家看彗星C/2012 S1 (ISON)

从loss的硬截断、软化到focal loss

前言

《量子力学与路径积分》习题解答V0.4

Coming Back...

OCR技术浅探：3. 特征提取(2)

逐层识别

OCR技术浅探：1. 全文简述

OCR技术浅探：2. 背景与假设

研究背景

研究假设

OCR技术浅探：3. 特征提取(1)

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接