包含关键字生成扩散模型的文章 - 科学空间|Scientific Spaces

30 Jan

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

By 苏剑林 | 2019-01-30 | 109673位读者 | 引用

“看那挖坑的人，有啥不一样～”

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

本视角直接受启发于Benjio团队的新作《Maximum Entropy Generators for Energy-Based Models》，这篇文章前几天出现在arxiv上。当然，能量模型与GAN的联系由来已久，并不是这篇文章的独创，只不过这篇文章做得仔细和完善一些。另外本文还补充了自己的一些理解和思考上去，力求更为易懂和完整。

作为第一篇文章，我们先来给出一个直白的类比推导：GAN实际上就是一场前仆后继（前挖后跳？）的“挖坑”与“跳坑”之旅～

总的来说，本文的大致内容如下：

1、给出了GAN/WGAN的清晰直观的能量图像；
2、讨论了判别器（能量函数）的训练情况和策略；
3、指出了梯度惩罚一个非常漂亮而直观的能量解释；
4、讨论了GAN中优化器的选择问题。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 37 评论

22 Feb

巧断梯度：单个loss实现GAN模型

By 苏剑林 | 2019-02-22 | 49322位读者 | 引用

我们知道普通的模型都是搭好架构，然后定义好loss，直接扔给优化器训练就行了。但是GAN不一样，一般来说它涉及有两个不同的loss，这两个loss需要交替优化。现在主流的方案是判别器和生成器都按照1:1的次数交替训练（各训练一次，必要时可以给两者设置不同的学习率，即TTUR），交替优化就意味我们需要传入两次数据（从内存传到显存）、执行两次前向传播和反向传播。

如果我们能把这两步合并起来，作为一步去优化，那么肯定能节省时间的，这也就是GAN的同步训练。

（注：本文不是介绍新的GAN，而是介绍GAN的新写法，这只是一道编程题，不是一道算法题～）

如果在TF中

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, keras, 梯度阅读全文 7 评论

19 Apr

从DCGAN到SELF-MOD：GAN的模型架构发展一览

By 苏剑林 | 2019-04-19 | 86584位读者 | 引用

事实上，O-GAN的发现，已经达到了我对GAN的理想追求，使得我可以很惬意地跳出GAN的大坑了。所以现在我会试图探索更多更广的研究方向，比如NLP中还没做过的任务，又比如图神经网络，又或者其他有趣的东西。

不过，在此之前，我想把之前的GAN的学习结果都记录下来。

这篇文章中，我们来梳理一下GAN的架构发展情况，当然主要的是生成器的发展，判别器一直以来的变动都不大。还有，本文介绍的是GAN在图像方面的模型架构发展，跟NLP的SeqGAN没什么关系。

此外，关于GAN的基本科普，本文就不再赘述了。

棋盘效应图示，体现为放大之后出现如国际象棋棋盘一样的交错效应。图片来自文章《Deconvolution and Checkerboard Artifacts》

点击阅读全文...

分类：信息时代标签：模型, GAN, 生成模型阅读全文 13 评论

3 Jun

基于DGCNN和概率图的轻量级信息抽取模型

By 苏剑林 | 2019-06-03 | 455227位读者 | 引用

背景：前几个月，百度举办了“2019语言与智能技术竞赛”，其中有三个赛道，而我对其中的“信息抽取”赛道颇感兴趣，于是报名参加。经过两个多月的煎熬，比赛终于结束，并且最终结果已经公布。笔者从最初的对信息抽取的一无所知，经过这次比赛的学习和研究，最终探索出在监督学习下做信息抽取的一些经验，遂在此与大家分享。

信息抽取赛道：“科学空间队”在最终的测试结果上排名第七

笔者在最终的测试集上排名第七，指标F1为0.8807（Precision是0.8939，Recall是0.8679），跟第一名相差0.01左右。从比赛角度这个成绩不算突出，但自认为模型有若干创新之处，比如自行设计的抽取结构、CNN+Attention（所以足够快速）、没有用Bert等预训练模型，私以为这对于信息抽取的学术研究和工程应用都有一定的参考价值。

基本分析

信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术，是信息检索、智能问答、智能对话等人工智能应用的重要基础，一直受到业界的广泛关注。... 本次竞赛将提供业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE)，旨在为研究者提供学术交流平台，进一步提升中文信息抽取技术的研究水平，推动相关人工智能应用的发展。
------ 比赛官方网站介绍

点击阅读全文...

分类：信息时代标签：模型, 比赛, 概率图, 信息抽取阅读全文 183 评论

29 Jun

基于Bert的NL2SQL模型：一个简明的Baseline

By 苏剑林 | 2019-06-29 | 155757位读者 | 引用

在之前的文章《当Bert遇上Keras：这可能是Bert最简单的打开姿势》中，我们介绍了基于微调Bert的三个NLP例子，算是体验了一把Bert的强大和Keras的便捷。而在这篇文章中，我们再添一个例子：基于Bert的NL2SQL模型。

NL2SQL的NL也就是Natural Language，所以NL2SQL的意思就是“自然语言转SQL语句”，近年来也颇多研究，它算是人工智能领域中比较实用的一个任务。而笔者做这个模型的契机，则是今年我司举办的首届“中文NL2SQL挑战赛”：

首届中文NL2SQL挑战赛，使用金融以及通用领域的表格数据作为数据源，提供在此基础上标注的自然语言与SQL语句的匹配对，希望选手可以利用数据训练出可以准确转换自然语言到SQL的模型。

这个NL2SQL比赛算是今年比较大型的NLP赛事了，赛前投入了颇多人力物力进行宣传推广，比赛的奖金也颇丰富，唯一的问题是NL2SQL本身算是偏冷门的研究领域，所以注定不会太火爆，为此主办方也放出了一个Baseline，基于Pytorch写的，希望能降低大家的入门难度。

抱着“Baseline怎么能少得了Keras版”的心态，我抽时间自己用Keras做了做这个比赛，为了简化模型并且提升效果也加载了预训练的Bert模型，最终形成此文。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, sql, attention 阅读全文 45 评论

18 Sep

从语言模型到Seq2Seq：Transformer如戏，全靠Mask

By 苏剑林 | 2019-09-18 | 366647位读者 | 引用

相信近一年来（尤其是近半年来），大家都能很频繁地看到各种Transformer相关工作（比如Bert、GPT、XLNet等等）的报导，连同各种基础评测任务的评测指标不断被刷新。同时，也有很多相关的博客、专栏等对这些模型做科普和解读。

单向语言模型图示。每预测一个token，只依赖于前面的token。

俗话说，“外行看热闹，内行看门道”，我们不仅要在“是什么”这个层面去理解这些工作，我们还需要思考“为什么”。这个“为什么”不仅仅是“为什么要这样做”，还包括“为什么可以这样做”。比如，在谈到XLNet的乱序语言模型时，我们或许已经从诸多介绍中明白了乱序语言模型的好处，那不妨更进一步思考一下：

为什么Transformer可以实现乱序语言模型？是怎么实现的？RNN可以实现吗？

本文从对Attention矩阵进行Mask的角度，来分析为什么众多Transformer模型可以玩得如此“出彩”的基本原因，正如标题所述“Transformer如戏，全靠Mask”，这是各种花式Transformer模型的重要“门道”之一。

读完本文，你或许可以了解到：

1、Attention矩阵的Mask方式与各种预训练方案的关系；
2、直接利用预训练的Bert模型来做Seq2Seq任务。

点击阅读全文...

分类：信息时代标签：语言模型, NLP, 文本生成, attention 阅读全文 149 评论

29 Jan

抛开约束，增强模型：一行代码提升albert表现

By 苏剑林 | 2020-01-29 | 88382位读者 | 引用

本文标题看起来有点“标题党”了，不过所作改动放到bert4keras框架下，确实是一行代码的变动，至于是否有提升，这个笔者不敢打包票，不过测了几个算是比较有代表性的任务，均显示持平甚至有提升，所以标题说的也基本是事实。

那究竟是什么改动呢？其实一句话也能讲清楚：

在下游任务中，放弃albert的权重共享的约束，也就是把albert当bert用。

具体思路细节，请接着看下去～

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 23 评论

27 Sep

大家都知道现在GPT3风头正盛，然而，到处都是GPT3、GPT3地推，读者是否记得GPT3论文的名字呢？事实上，GPT3的论文叫做《Language Models are Few-Shot Learners》，标题里边已经没有G、P、T几个单词了，只不过它跟开始的GPT是一脉相承的，因此还是以GPT称呼它。顾名思义，GPT3主打的是Few-Shot Learning，也就是小样本学习。此外，GPT3的另一个特点就是大，最大的版本多达1750亿参数，是BERT Base的一千多倍。

BERT的MLM模型简单示意图

正因如此，前些天Arxiv上的一篇论文《It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners》便引起了笔者的注意，意译过来就是“谁说一定要大的？小模型也可以做小样本学习”。显然，这标题对标的就是GPT3，于是笔者饶有兴趣地点进去看看是谁这么有勇气挑战GPT3，又是怎样的小模型能挑战GPT3？经过阅读，原来作者提出通过适当的构造，用BERT的MLM模型也可以做小样本学习，看完之后颇有一种“原来还可以这样做”的恍然大悟感～在此与大家分享一下。

点击阅读全文...

分类：信息时代标签：无监督, 语言模型, NLP 阅读全文 64 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”

巧断梯度：单个loss实现GAN模型

如果在TF中

从DCGAN到SELF-MOD：GAN的模型架构发展一览

基于DGCNN和概率图的轻量级信息抽取模型

基本分析

基于Bert的NL2SQL模型：一个简明的Baseline

从语言模型到Seq2Seq：Transformer如戏，全靠Mask

抛开约束，增强模型：一行代码提升albert表现

必须要GPT3吗？不，BERT的MLM模型也能小样本学习

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接