包含关键字让Keras更酷一些的文章 - 科学空间|Scientific Spaces

17 May

变分自编码器（七）：球面上的VAE（vMF-VAE）

By 苏剑林 | 2021-05-17 | 147338位读者 | 引用

在《变分自编码器（五）：VAE + BN = 更好的VAE》中，我们讲到了NLP中训练VAE时常见的KL散度消失现象，并且提到了通过BN来使得KL散度项有一个正的下界，从而保证KL散度项不会消失。事实上，早在2018年的时候，就有类似思想的工作就被提出了，它们是通过在VAE中改用新的先验分布和后验分布，来使得KL散度项有一个正的下界。

该思路出现在2018年的两篇相近的论文中，分别是《Hyperspherical Variational Auto-Encoders》和《Spherical Latent Spaces for Stable Variational Autoencoders》，它们都是用定义在超球面的von Mises–Fisher（vMF）分布来构建先后验分布。某种程度上来说，该分布比我们常用的高斯分布还更简单和有趣～

KL散度消失

我们知道，VAE的训练目标是
\begin{equation}\mathcal{L} = \mathbb{E}_{x\sim \tilde{p}(x)} \Big[\mathbb{E}_{z\sim p(z|x)}\big[-\log q(x|z)\big]+KL\big(p(z|x)\big\Vert q(z)\big)\Big]
\end{equation}

点击阅读全文...

分类：信息时代标签：变分, 无监督, vae, 生成模型阅读全文 58 评论

22 Jul

概率视角下的线性模型：逻辑回归有解析解吗？

By 苏剑林 | 2021-07-22 | 83465位读者 | 引用

我们知道，线性回归是比较简单的问题，它存在解析解，而它的变体逻辑回归（Logistic Regression）却没有解析解，这不能不说是一个遗憾。因为逻辑回归虽然也叫“回归”，但它实际上是用于分类问题的，而对于很多读者来说分类比回归更加常见。准确来说，我们说逻辑回归没有解析解，说的是“最大似然估计下逻辑回归没有解析解”。那么，这是否意味着，如果我们不用最大似然估计，是否能找到一个可用的解析解呢？

逻辑回归示意图

本文将会从非最大似然的角度，推导逻辑回归的一个解析解，简单的实验表明它效果不逊色于梯度下降求出来的最大似然解。此外，这个解析解还易于推广到单层Softmax多分类模型。

点击阅读全文...

分类：数学研究标签：模型, 概率, 优化阅读全文 26 评论

18 Nov

Adam的epsilon如何影响学习率的Scaling Law？

By 苏剑林 | 2024-11-18 | 20387位读者 | 引用

上一篇文章《当Batch Size增大时，学习率该如何随之变化？》我们从多个角度讨论了学习率与Batch Size之间的缩放规律，其中对于Adam优化器我们采用了SignSGD近似，这是分析Adam优化器常用的手段。那么一个很自然的问题就是：用SignSGD来近似Adam究竟有多科学呢？

我们知道，Adam优化器的更新量分母会带有一个$\epsilon$，初衷是预防除零错误，所以其值通常很接近于零，以至于我们做理论分析的时候通常选择忽略掉它。然而，当前LLM的训练尤其是低精度训练，我们往往会选择偏大的$\epsilon$，这导致在训练的中、后期$\epsilon$往往已经超过梯度平方大小，所以$\epsilon$的存在事实上已经不可忽略。

因此，这篇文章我们试图探索$\epsilon$如何影响Adam的学习率与Batch Size的Scaling Law，为相关问题提供一个参考的计算方案。

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 学习率, 优化器阅读全文 4 评论

12 Aug

“Cool Papers + 站内搜索”的一些新尝试

By 苏剑林 | 2024-08-12 | 17616位读者 | 引用

在《Cool Papers更新：简单搭建了一个站内检索系统》这篇文章中，我们介绍了Cool Papers新增的站内搜索系统。搜索系统的目的，自然希望能够帮助用户快速找到他们需要的论文。然而，如何高效地检索到对自己有价值的结果，并不是一件简单的事情，这里边往往需要一些技巧，比如精准提炼关键词。

这时候算法的价值就体现出来了，有些步骤人工来做会比较繁琐，但用算法来却很简单。所以接下来，我们将介绍几点通过算法来提高Cool Papers的搜索和筛选论文效率的新尝试。

域名Sci-Cn.cn转让...

By 苏剑林 | 2009-12-14 | 25721位读者 | 引用

域名已经准备到期了，不打算用了，可以转让给同好们。

点击阅读全文...

分类：生活/情感标签：网站阅读全文 2 评论

28 Aug

让风筝飞

By 苏剑林 | 2014-08-28 | 39810位读者 | 引用

最近的很多篇文章都是数论内容，属于纯数学的范畴了，对于很多只爱好物理或应用数学的读者可能会看得头晕了。今天我们来谈些不那么抽象的东西，我们来谈谈风筝，并来分析一下风筝的飞行力学。

爱情就像放风筝，线不能来得太紧，也不能拉得太松，你只会给对方飞翔的空间，他/她始终会回到你身边，因为有一条线系着双方。

放风筝（来自互联网）

风筝，在我们这个地方叫做纸鸢，相信大家童年时一定会放过。笔者小时候放风筝时，已经是小学五年级之前的事了。这个暑假突然童心一起，凭着小时候的回忆，简单做了个风筝来玩，居然真的飞起来了！兴奋之余，与大家分享一下。如今再来放风筝，真心感觉到放风筝也有很多技巧，让风筝飞，还不是件容易的事情呢，真可谓人生处处皆学问呀。上面关于风筝的比喻，正是放风筝的真实写照吧。

风筝可以说是人类摆脱地球重力的最原始尝试吧，跟发射宇宙飞船的火箭不同，风筝是借助风力来抵抗重力，严格来讲，即便是现在的飞机，也离不开这个原理（我们最后会谈到）。简单来讲，风筝就是用轻的支架撑开一个轻盈的平面，然后系上一个线圈。我们简单做一个风筝，只需要一张报纸，两条竹篾和一点透明胶，十分钟内就可以完成一个。当然，现在已经有各种各样的好看的风筝，甚至还有龙形的风筝，但是，自己动手简单做一个风筝，还是相当好玩的。

风筝自然是借助风力飞起来的，可是为什么风筝得用绳子牵着才能飞得更高、绳断了反而掉下来？风大多时，才适合放风筝？飞机又是怎么飞起来的？下面我们试着分析这些问题。

点击阅读全文...

分类：物理化学,生活/情感标签：生活, 力学, 量纲分析阅读全文 2 评论

17 Jun

OCR技术浅探：2. 背景与假设

By 苏剑林 | 2016-06-17 | 40342位读者 | 引用

研究背景

关于光学字符识别(Optical Character Recognition, 下面都简称OCR)，是指将图像上的文字转化为计算机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的OCR技术和产品产生，比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是，ABBYY FineReader不仅正确率高(包括对中文的识别)，而且还能保留大部分的排版效果，是一个非常强大的OCR商业软件.

然而，在诸多的OCR成品中，除了Tesseract OCR外，其他的都是闭源的、甚至是商业的软件，我们既无法将它们嵌入到我们自己的程序中，也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR，但它的识别效果不算很好，而且中文识别正确率偏低，有待进一步改进.

综上所述，不管是为了学术研究还是实际应用，都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面，逐步进行解决，最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别，以判断上面信息的真伪.

研究假设

在本文中，我们假设图像的文字部分有以下的特征：

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR, 文字阅读全文 5 评论

26 Jun

OCR技术浅探：9. 代码共享(完)

By 苏剑林 | 2016-06-26 | 72446位读者 | 引用

文件说明：

1. image.py——图像处理函数，主要是特征提取；
2. model_training.py——训练CNN单字识别模型（需要较高性能的服务器，最好有GPU加速，否则真是慢得要死）；
3. ocr.py——识别函数，包括单字分割、前面训练好的模型进行单字识别、动态规划提升效果；
4. main.py——主文件，用来调用1、3两个文件。
5、我们的模型中包含的字.txt(UTF-8编码)

点击阅读全文...

分类：信息时代标签：代码, 图像, OCR 阅读全文 18 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

变分自编码器（七）：球面上的VAE（vMF-VAE）

KL散度消失

概率视角下的线性模型：逻辑回归有解析解吗？

Adam的epsilon如何影响学习率的Scaling Law？

“Cool Papers + 站内搜索”的一些新尝试

相关论文

域名Sci-Cn.cn转让...

让风筝飞

OCR技术浅探：2. 背景与假设

研究背景

研究假设

OCR技术浅探：9. 代码共享(完)

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接