MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 让炼丹更科学一些(二):将结论推广...
  • 滑动平均视角下的权重衰减和学习率
  • 生成扩散模型漫谈(三十一):预测数...
  • Muon优化器指南:快速上手与关键细节
  • AdamW的Weight RMS的...
  • n个正态随机数的最大值的渐近估计
  • 流形上的最速下降:5. 对偶梯度下降
  • 低精度Attention可能存在有...
  • MuP之上:1. 好模型的三个特征
  • 随机矩阵的谱范数的快速估计

COMMENTS

  • Yifan GUO: 我打脸了,写了代码快速验证了一下,softmax对应的effi...
  • Yifan GUO: 《Efficient Attention: Attention...
  • 岁月如书: muon怎么就丢了奇异值,奇异值用来做weight decay...
  • Yifan GUO: Oh,我貌似理解了,或许我可以这样给自己解释: 如果分母的作用...
  • Yifan GUO: "其中分母的作用主要是保持数值稳定性,另外就是如果我们给O加上...
  • 苏剑林: 嗯,类似的观点我们在 https://kexue.fm/arc...
  • 苏剑林: KL散度希望$p(Z|X)$的log_var接近于0,但由于重...
  • 苏剑林: $p(Z)$是标准正态分布,我们才能从标准正态分布中随机采样生成。
  • 苏剑林: 原则上不必要
  • 苏剑林: [comment=28988]xiaojx[/comment]...

USERLOGIN

  • 登录
科学空间|Scientific Spaces
  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

归档

2025年 (共14篇)

  • 11月19日: Muon优化器指南:快速上手与关键细节 (20)
  • 11月03日: 流形上的最速下降:5. 对偶梯度下降 (4)
  • 09月15日: 重新思考学习率与Batch Size(三):Muon (0)
  • 08月21日: 流形上的最速下降:4. Muon + 谱球面 (4)
  • 08月08日: 流形上的最速下降:3. Muon + Stiefel (5)
  • 08月06日: 流形上的最速下降:2. Muon + 正交 (2)
  • 07月12日: QK-Clip:让Muon在Scaleup之路上更进一步 (60)
  • 06月23日: 通过msign来计算奇异值裁剪mclip(下) (0)
  • 06月13日: msign的导数 (7)
  • 06月07日: 通过msign来计算奇异值裁剪mclip(上) (0)
  • 06月05日: msign算子的Newton-Schulz迭代(下) (7)
  • 05月11日: msign算子的Newton-Schulz迭代(上) (9)
  • 03月24日: 高阶MuP:更简明但更高明的谱条件缩放 (18)
  • 02月27日: Muon续集:为什么我们选择尝试Muon? (57)

2024年 (共1篇)

  • 12月10日: Muon优化器赏析:从向量到矩阵的本质跨越 (55)

科学空间

微信打赏

科学空间

支付宝打赏

因为网站后台对打赏并无记录,因此欢迎在打赏时候备注留言。
你还可以点击这里或在下方评论区留言来告知你的建议或需求。

你也许还对下面的内容感兴趣

  • 【NASA每日一图】武汉上空的日食“钻戒”
  • 勾股数的通解及其推广
  • 《哈勃太空望远镜超高清原始片源》VeryCD资源
  • 太空中的巨影——日食间的月球影子
  • 一道级数求和证明题(非数学归纳法)
  • 开普勒方程求根器(继续VB,继续拙作..)
  • OCR技术浅探:9. 代码共享(完)
  • Bias项的神奇作用:RoPE + Bias = 更好的长度外推性
  • 怎么会这么巧!背后的隐藏信息
  • 【理解黎曼几何】2. 从勾股定理到黎曼度量
8695416

October 13th, 2018

写一篇BERT的?应该很多人都想弄明白…

回复评论
苏剑林 发表于 October 13th, 2018

BERT是什么?

回复评论
丁鹏 发表于 October 13th, 2018

BERT是谷歌最新发表的论文,横扫11项NLP任务记录,苏神赶紧解读一下。论文地址:https://arxiv.org/pdf/1810.04805.pdf

回复评论
苏剑林 发表于 October 13th, 2018

刚看到新闻,没觉得有什么好写的。就是原来是attention模型,层数加深,预训练做得更充分了...

就好比前几天的BigGAN,效果也很火爆,也没有什么好说的,基本是硬件堆起来的。

回复评论
coderaBruce

July 19th, 2025

苏神,你的订阅功能好像bug啦

回复评论
苏剑林 发表于 July 19th, 2025

怎么个bug法?我好像没测出来...

回复评论
gaoyiming 发表于 September 4th, 2025

点进去之后是一堆乱码。

回复评论
苏剑林 发表于 September 5th, 2025

你是指xml代码?那不是乱码,feed就是xml格式,你要自己找工具订阅。

回复评论
取消回复

1. 可以使用LaTeX代码,点击“预览效果”可查看效果;
2. 可以通过点击评论楼层编号来引用该楼层;
3. 网站可能会有点卡,如非确认评论失败,请不要重复点击提交。

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前32岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 网站 梯度 概率 矩阵 转载 优化器 微分方程 分析 天象 深度学习 积分 python 扩散 力学 无监督 几何 节日 生活 文本生成 数论

    随机文章

    • “闭门造车”之多模态思路浅谈(一):无损输入
    • 费曼路径积分思想的发展(四)
    • Transformer升级之路:11、将β进制位置进行到底
    • 科学空间:2010年6月重要天象
    • Transformer升级之路:9、一种全局长度外推的新思路
    • 澳洲恐龙洞穴揭示气候变化
    • 奔向固原,追逐梦想...
    • 《量子力学与路径积分》习题解答V0.4
    • 高一新生活
    • 【随拍】门口的广州塔

    最近评论

    • Yifan GUO: 我打脸了,写了代码快速验证了一下,softmax对应的efficient attn这样妙用so...
    • Yifan GUO: 《Efficient Attention: Attention with Linear Com...
    • 岁月如书: muon怎么就丢了奇异值,奇异值用来做weight decay没有可行性么
    • Yifan GUO: Oh,我貌似理解了,或许我可以这样给自己解释: 如果分母的作用确实只是保持数值稳定性的话,那这...
    • Yifan GUO: "其中分母的作用主要是保持数值稳定性,另外就是如果我们给O加上RMSNorm,那么分母也会自动...
    • 苏剑林: 嗯,类似的观点我们在 https://kexue.fm/archives/11126 也分享了。
    • 苏剑林: KL散度希望$p(Z|X)$的log_var接近于0,但由于重构项的存在,无法达到这个目标,所...
    • 苏剑林: $p(Z)$是标准正态分布,我们才能从标准正态分布中随机采样生成。
    • 苏剑林: 原则上不必要
    • 苏剑林: [comment=28988]xiaojx[/comment]适量的噪声其实有平滑作用,$\s...

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2025 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。