包含关键字条件随机场的文章 - 科学空间|Scientific Spaces

3 May

从动力学角度看优化算法（四）：GAN的第三个阶段

By 苏剑林 | 2019-05-03 | 102008位读者 | 引用

在对GAN的学习和思考过程中，我发现我不仅学习到了一种有效的生成模型，而且它全面地促进了我对各种模型各方面的理解，比如模型的优化和理解视角、正则项的意义、损失函数与概率分布的联系、概率推断等等。GAN不单单是一个“造假的玩具”，而是具有深刻意义的概率模型和推断方法。

作为事后的总结，我觉得对GAN的理解可以粗糙地分为三个阶段：

1、样本阶段：在这个阶段中，我们了解了GAN的“鉴别者-造假者”诠释，懂得从这个原理出发来写出基本的GAN公式（如原始GAN、LSGAN），比如判别器和生成器的loss，并且完成简单GAN的训练；同时，我们知道GAN有能力让图片更“真”，利用这个特性可以把GAN嵌入到一些综合模型中。
2、分布阶段：在这个阶段中，我们会从概率分布及其散度的视角来分析GAN，典型的例子是WGAN和f-GAN，同时能基本理解GAN的训练困难问题，比如梯度消失和mode collapse等，甚至能基本地了解变分推断，懂得自己写出一些概率散度，继而构造一些新的GAN形式。
3、动力学阶段：在这个阶段中，我们开始结合优化器来分析GAN的收敛过程，试图了解GAN是否能真的达到理论的均衡点，进而理解GAN的loss和正则项等因素如何影响的收敛过程，由此可以针对性地提出一些训练策略，引导GAN模型到达理论均衡点，从而提高GAN的效果。

点击阅读全文...

分类：信息时代标签：微分方程, 动力学, GAN, 生成模型, 优化器阅读全文 24 评论

10 May

能量视角下的GAN模型（三）：生成模型=能量模型

By 苏剑林 | 2019-05-10 | 57459位读者 | 引用

本文的模型在ImageNet(128x128)上的条件生成效果

今天要介绍的结果还是跟能量模型相关，来自论文《Implicit Generation and Generalization in Energy-Based Models》。当然，它已经跟GAN没有什么关系了，但是跟本系列第二篇所介绍的能量模型关系较大，所以还是把它放到这个系列好了。

我当初留意到这篇论文，是因为机器之心的报导《MIT本科学神重启基于能量的生成模型，新框架堪比GAN》，但是说实在的，这篇文章没什么意思，说句不中听的，就是炒冷饭系列，媒体的标题也算中肯，是“重启”。这篇文章就是指出能量模型实际上就是某个特定的Langevin方程的静态解，然后就用这个Langevin方程来实现采样，有了采样过程也就可以完成能量模型的训练，这些理论都是现成的，所以这个过程我在学习随机微分方程的时候都想过，我相信很多人也都想过。因此，我觉得作者的贡献就是把这个直白的想法通过一系列炼丹技巧实现了。

但不管怎样，能训练出来也是一件很不错的事情，另外对于之前没了解过相关内容的读者来说，这确实也算是一个不错的能量模型案例，所以我论文的整体思路整理一下，让读者能够更全面地理解能量模型。

点击阅读全文...

分类：信息时代标签：概率, 能量, 优化, 生成模型阅读全文 9 评论

3 Jun

基于DGCNN和概率图的轻量级信息抽取模型

By 苏剑林 | 2019-06-03 | 438267位读者 | 引用

背景：前几个月，百度举办了“2019语言与智能技术竞赛”，其中有三个赛道，而我对其中的“信息抽取”赛道颇感兴趣，于是报名参加。经过两个多月的煎熬，比赛终于结束，并且最终结果已经公布。笔者从最初的对信息抽取的一无所知，经过这次比赛的学习和研究，最终探索出在监督学习下做信息抽取的一些经验，遂在此与大家分享。

信息抽取赛道：“科学空间队”在最终的测试结果上排名第七

笔者在最终的测试集上排名第七，指标F1为0.8807（Precision是0.8939，Recall是0.8679），跟第一名相差0.01左右。从比赛角度这个成绩不算突出，但自认为模型有若干创新之处，比如自行设计的抽取结构、CNN+Attention（所以足够快速）、没有用Bert等预训练模型，私以为这对于信息抽取的学术研究和工程应用都有一定的参考价值。

基本分析

信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术，是信息检索、智能问答、智能对话等人工智能应用的重要基础，一直受到业界的广泛关注。... 本次竞赛将提供业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE)，旨在为研究者提供学术交流平台，进一步提升中文信息抽取技术的研究水平，推动相关人工智能应用的发展。
------ 比赛官方网站介绍

点击阅读全文...

分类：信息时代标签：模型, 比赛, 概率图, 信息抽取阅读全文 183 评论

24 Jun

VQ-VAE的简明介绍：量子化自编码器

By 苏剑林 | 2019-06-24 | 348800位读者 | 引用

印象中很早之前就看到过VQ-VAE，当时对它并没有什么兴趣，而最近有两件事情重新引起了我对它的兴趣。一是VQ-VAE-2实现了能够匹配BigGAN的生成效果（来自机器之心的报道）；二是我最近看一篇NLP论文《Unsupervised Paraphrasing without Translation》时发现里边也用到了VQ-VAE。这两件事情表明VQ-VAE应该是一个颇为通用和有意思的模型，所以我决定好好读读它。

个人复现的VQ-VAE在CelebA上的重构效果。可以留意到细节保留得还不错，但稍微放大后能留意到仍有一些模糊感。

点击阅读全文...

分类：信息时代标签：无监督, 生成模型, 编码, 离散化阅读全文 145 评论

29 Jun

基于Bert的NL2SQL模型：一个简明的Baseline

By 苏剑林 | 2019-06-29 | 149829位读者 | 引用

在之前的文章《当Bert遇上Keras：这可能是Bert最简单的打开姿势》中，我们介绍了基于微调Bert的三个NLP例子，算是体验了一把Bert的强大和Keras的便捷。而在这篇文章中，我们再添一个例子：基于Bert的NL2SQL模型。

NL2SQL的NL也就是Natural Language，所以NL2SQL的意思就是“自然语言转SQL语句”，近年来也颇多研究，它算是人工智能领域中比较实用的一个任务。而笔者做这个模型的契机，则是今年我司举办的首届“中文NL2SQL挑战赛”：

首届中文NL2SQL挑战赛，使用金融以及通用领域的表格数据作为数据源，提供在此基础上标注的自然语言与SQL语句的匹配对，希望选手可以利用数据训练出可以准确转换自然语言到SQL的模型。

这个NL2SQL比赛算是今年比较大型的NLP赛事了，赛前投入了颇多人力物力进行宣传推广，比赛的奖金也颇丰富，唯一的问题是NL2SQL本身算是偏冷门的研究领域，所以注定不会太火爆，为此主办方也放出了一个Baseline，基于Pytorch写的，希望能降低大家的入门难度。

抱着“Baseline怎么能少得了Keras版”的心态，我抽时间自己用Keras做了做这个比赛，为了简化模型并且提升效果也加载了预训练的Bert模型，最终形成此文。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, sql, attention 阅读全文 45 评论

16 Jul

“让Keras更酷一些！”：层中层与mask

By 苏剑林 | 2019-07-16 | 157254位读者 | 引用

这一篇“让Keras更酷一些！”将和读者分享两部分内容：第一部分是“层中层”，顾名思义，是在Keras中自定义层的时候，重用已有的层，这将大大减少自定义层的代码量；另外一部分就是应读者所求，介绍一下序列模型中的mask原理和方法。

层中层

在《“让Keras更酷一些！”：精巧的层与花式的回调》一文中我们已经介绍过Keras自定义层的基本方法，其核心步骤是定义build和call两个函数，其中build负责创建可训练的权重，而call则定义具体的运算。

拒绝重复劳动

经常用到自定义层的读者可能会感觉到，在自定义层的时候我们经常在重复劳动，比如我们想要增加一个线性变换，那就要在build中增加一个kernel和bias变量（还要自定义变量的初始化、正则化等），然后在call里边用K.dot来执行，有时候还需要考虑维度对齐的问题，步骤比较繁琐。但事实上，一个线性变换其实就是一个不加激活函数的Dense层罢了，如果在自定义层时能重用已有的层，那显然就可以大大节省代码量了。

点击阅读全文...

分类：信息时代标签：keras 阅读全文 49 评论

21 Jul