MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 直接以FID为Loss:从梯度计算...
  • 如何更科学地估计矩阵的谱范数?
  • MuP之上:4. 坚守参数的稳定性
  • 基于流式幂迭代的Muon实现:5. 延伸
  • 基于流式幂迭代的Muon实现:4. 原理
  • 基于流式幂迭代的Muon实现:3. 雕琢
  • 中位数(Median)简介
  • 基于流式幂迭代的Muon实现:2. 加速
  • Attention Residua...
  • 基于流式幂迭代的Muon实现:1. 初识

COMMENTS

  • Weining Ren: 感谢老师,我明白了!
  • shuaichao233: 我疑惑的就是这个问题,目前我们单卡的bs 只能设置成1,不知道...
  • Weining Ren: 非常感谢老师!
  • 孙培钦: 我觉得这卡关键还是在你bs得达到一定的大小, 虽然说是解耦了b...
  • sk: 请教个问题,反对称矩阵的分解$B=P \Lambda P^{-...
  • 苏剑林: 你的意思是,原本能跑起来,用FD Loss后就跑不起来了?FD...
  • 苏剑林: “要保留比较大的特征值对应的特征向量”跟“只保留muon的头部...
  • 苏剑林: DeltaNet的递归公式是: $$\boldsymbol{S...
  • 苏剑林: graph?不研究
  • 苏剑林: 1. MuP的动机,我现在理解为找出保证模型不爆炸的规律,比如...

USERLOGIN

  • 登录
科学空间|Scientific Spaces
  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

归档

2026年 (共8篇)

  • 04月24日: MuP之上:4. 坚守参数的稳定性 (0)
  • 04月17日: 基于流式幂迭代的Muon实现:5. 延伸 (0)
  • 04月13日: 基于流式幂迭代的Muon实现:4. 原理 (0)
  • 04月07日: 基于流式幂迭代的Muon实现:3. 雕琢 (6)
  • 03月26日: 基于流式幂迭代的Muon实现:2. 加速 (7)
  • 03月12日: 基于流式幂迭代的Muon实现:1. 初识 (16)
  • 02月15日: MuP之上:2. 线性层与最速下降 (2)
  • 01月20日: 为什么我们偏爱各向同性?基于最速下降的理解 (14)

2025年 (共14篇)

  • 11月19日: Muon优化器指南:快速上手与关键细节 (34)
  • 11月03日: 流形上的最速下降:5. 对偶梯度下降 (4)
  • 09月15日: 重新思考学习率与Batch Size(三):Muon (0)
  • 08月21日: 流形上的最速下降:4. Muon + 谱球面 (4)
  • 08月08日: 流形上的最速下降:3. Muon + Stiefel (5)
  • 08月06日: 流形上的最速下降:2. Muon + 正交 (2)
  • 07月12日: QK-Clip:让Muon在Scaleup之路上更进一步 (71)
  • 06月23日: 通过msign来计算奇异值裁剪mclip(下) (0)
  • 06月13日: msign的导数 (7)
  • 06月07日: 通过msign来计算奇异值裁剪mclip(上) (0)
  • 06月05日: msign算子的Newton-Schulz迭代(下) (7)
  • 05月11日: msign算子的Newton-Schulz迭代(上) (11)
  • 03月24日: 高阶MuP:更简明但更高明的谱条件缩放 (24)
  • 02月27日: Muon续集:为什么我们选择尝试Muon? (57)

2024年 (共1篇)

  • 12月10日: Muon优化器赏析:从向量到矩阵的本质跨越 (55)

科学空间

微信打赏

科学空间

支付宝打赏

因为网站后台对打赏并无记录,因此欢迎在打赏时候备注留言。
你还可以点击这里或在下方评论区留言来告知你的建议或需求。

你也许还对下面的内容感兴趣

  • 矩阵的有效秩(Effective Rank)
  • VQ的旋转技巧:梯度直通估计的一般推广
  • 低秩近似之路(五):CUR
  • AdaFactor优化器浅析(附开源实现)
  • 也来盘点一些最近的非Transformer工作
  • MoE环游记:1、从几何意义出发
  • 两个惊艳的python库:tqdm和retry
  • 圆周率节快乐!|| 原来已经写了十年博客~
  • 跟风玩玩目前最大的中文GPT2模型(bert4keras)
  • f-GAN简介:GAN模型的生产车间
8695416

October 13th, 2018

写一篇BERT的?应该很多人都想弄明白…

回复评论
苏剑林 发表于 October 13th, 2018

BERT是什么?

回复评论
丁鹏 发表于 October 13th, 2018

BERT是谷歌最新发表的论文,横扫11项NLP任务记录,苏神赶紧解读一下。论文地址:https://arxiv.org/pdf/1810.04805.pdf

回复评论
苏剑林 发表于 October 13th, 2018

刚看到新闻,没觉得有什么好写的。就是原来是attention模型,层数加深,预训练做得更充分了...

就好比前几天的BigGAN,效果也很火爆,也没有什么好说的,基本是硬件堆起来的。

回复评论
coderaBruce

July 19th, 2025

苏神,你的订阅功能好像bug啦

回复评论
苏剑林 发表于 July 19th, 2025

怎么个bug法?我好像没测出来...

回复评论
gaoyiming 发表于 September 4th, 2025

点进去之后是一堆乱码。

回复评论
苏剑林 发表于 September 5th, 2025

你是指xml代码?那不是乱码,feed就是xml格式,你要自己找工具订阅。

回复评论
sk

December 30th, 2025

太棒了

回复评论
取消回复

1. 可以使用LaTeX代码,点击“预览效果”可查看效果;
2. 可以通过点击评论楼层编号来引用该楼层;
3. 网站可能会有点卡,如非确认评论失败,请不要重复点击提交。

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前33岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 梯度 矩阵 网站 概率 优化器 转载 微分方程 分析 天象 深度学习 积分 python 几何 扩散 力学 无监督 节日 生活 文本生成 数论

    随机文章

    • RoFormerV2:自然语言理解的极限探索
    • 第一学期结束了
    • 生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪
    • [问题解答]有多少个5?
    • Transformer升级之路:9、一种全局长度外推的新思路
    • 【NASA每日一图】甘姆星云(Gum Nebula)
    • 科学空间:2009年9月重要天象
    • 细水长flow之NICE:流模型的基本概念与实现
    • “二体+恒力”问题
    • MoE环游记:6、最优分配促均衡

    最近评论

    • Weining Ren: 感谢老师,我明白了!
    • shuaichao233: 我疑惑的就是这个问题,目前我们单卡的bs 只能设置成1,不知道小bs的效果还准不准
    • Weining Ren: 非常感谢老师!
    • 孙培钦: 我觉得这卡关键还是在你bs得达到一定的大小, 虽然说是解耦了batch-size 和计算FID...
    • sk: 请教个问题,反对称矩阵的分解$B=P \Lambda P^{-1}$是根据 https://e...
    • 苏剑林: 你的意思是,原本能跑起来,用FD Loss后就跑不起来了?FD Loss确实要多占一些显存,只...
    • 苏剑林: “要保留比较大的特征值对应的特征向量”跟“只保留muon的头部特征值对应的特征向量,会有一定问...
    • 苏剑林: DeltaNet的递归公式是: $$\boldsymbol{S}_t = \boldsymbo...
    • 苏剑林: graph?不研究
    • 苏剑林: 1. MuP的动机,我现在理解为找出保证模型不爆炸的规律,比如RMS不会随模型尺度明显上涨的规...

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2026 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。