包含关键字 GPT 的文章 - 科学空间|Scientific Spaces

2 Feb

更便捷的Cool Papers打开方式：Chrome重定向扩展

By 苏剑林 | 2024-02-02 | 47167位读者 | 引用

一些铺垫

自Cool Papers上线以来，很多用户就建议笔者加入搜索功能，后面也确实在前端用JS简单做了个页面内搜索，解决了部分用户的需求，但仍有读者希望引入更完整的全局搜索。诚然，笔者理解这个需求确实是存在，但Cool Papers的数据是逐天累积的，目前才上线一个月，论文数并不多，建立一个大而全的搜索引擎意义不大，其次做搜索也不是笔者的强项，以及并没有很好的利用LLM优化搜索的思路，等等。总而言之，暂时没有条件实现一个全面而又有特色的搜索，所以不如不做（也欢迎大家在评论区集思广益）。

后来，经过和同事讨论，想出了一个“借花献佛”的思路——写一个Chrome的重定向扩展，可以从任意页面重定向到Cool Papers。这样我们可以用任意方式（如Google搜索或者直接Arxiv官方搜索）找到Arxiv上的论文，然后右击一下就转到Cool Papers了。前两周这个扩展已经在Chrome应用商店上线，上周服务器配合做了一些调整，如今大家可以尝试使用了。

扩展地址：Cool Papers Redirector

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 20 评论

21 Feb

“闭门造车”之多模态思路浅谈（一）：无损输入

By 苏剑林 | 2024-02-21 | 149827位读者 | 引用

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。

最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。

事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？

点击阅读全文...

分类：信息时代标签：生成模型, attention, 扩散, 多模态阅读全文 72 评论

7 May

Cool Papers更新：简单搭建了一个站内检索系统

By 苏剑林 | 2024-05-07 | 42344位读者 | 引用

自从《更便捷的Cool Papers打开方式：Chrome重定向扩展》之后，Cool Papers有两次比较大的变化，一次是引入了venue分支，逐步收录了一些会议历年的论文集，如ICLR、ICML等，这部分是动态人工扩充的，欢迎有心仪的会议的读者提更多需求；另一次就是本文的主题，前天新增加的站内检索功能。

本文将简单介绍一下新增功能，并对搭建站内检索系统的过程做个基本总结。

简介

在Cool Papers的首页，我们看到搜索入口：

Cool Papers（2024.05.07）

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 24 评论

29 May

Transformer升级之路：18、RoPE的底数选择原则

By 苏剑林 | 2024-05-29 | 144265位读者 | 引用

我们知道，在RoPE中频率的计算公式为$\theta_i = b^{-2i/d}$，底数$b$默认值为10000。目前Long Context的主流做法之一是，先在$b=10000$上用短文本预训练，然后调大$b$并在长文本微调，其出发点是《Transformer升级之路：10、RoPE是一种β进制编码》里介绍的NTK-RoPE，它本身有较好长度外推性，换用更大的$b$再微调相比不加改动的微调，起始损失更小，收敛也更快。该过程给人的感觉是：调大$b$完全是因为“先短后长”的训练策略，如果一直都用长文本训练似乎就没必要调大$b$了？

上周的论文《Base of RoPE Bounds Context Length》试图回答这个问题，它基于一个期望性质研究了$b$的下界，由此指出更大的训练长度本身就应该选择更大的底数，与训练策略无关。整个分析思路颇有启发性，接下来我们一起来品鉴一番。

点击阅读全文...

分类：信息时代标签：不等式, attention, 位置编码, rope 阅读全文 11 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

更便捷的Cool Papers打开方式：Chrome重定向扩展

一些铺垫

“闭门造车”之多模态思路浅谈（一）：无损输入

问题背景

Cool Papers更新：简单搭建了一个站内检索系统

简介

Transformer升级之路：18、RoPE的底数选择原则

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接