MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 让炼丹更科学一些(三):SGD的终...
  • 让炼丹更科学一些(二):将结论推广...
  • 滑动平均视角下的权重衰减和学习率
  • 生成扩散模型漫谈(三十一):预测数...
  • Muon优化器指南:快速上手与关键细节
  • AdamW的Weight RMS的...
  • n个正态随机数的最大值的渐近估计
  • 流形上的最速下降:5. 对偶梯度下降
  • 低精度Attention可能存在有...
  • MuP之上:1. 好模型的三个特征

COMMENTS

  • CuddleSabe1: 感觉普通的 flow matching 可以看成 degrad...
  • 岁月如书: 受教了,感谢
  • 苏剑林: 是
  • 岁月如书: 哦哦,原来是有实验结论,那是我盲目了。多问一句,你说的atte...
  • 苏剑林: attention sink指的是第一个token的atten...
  • 苏剑林: 这也许是好事呢?SGD倒是保留了模长,但它就普遍不如不保留模长...
  • 岁月如书: maxlogit 是attention qk乘积中出现了大值,...
  • 岁月如书: [comment=29016]苏剑林[/comment]他通过...
  • 苏剑林: 我好像也就只有把小的放大然后加噪声的思路
  • 苏剑林: 感觉看场景吧,如果是文本llm下感觉没什么必要性。

USERLOGIN

  • 登录

科学空间|Scientific Spaces

  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

找不到相关内容。


你也许对下面的内容感兴趣

  • 相对论、对称和第四维
  • 集合的划分与贝尔数
  • 日食当天的天气出来了
  • 一道自然数的数学题
  • 一本对称闯物理:相对论力学(二)
  • 关于e是无理数的证明
  • ChildTuning:试试把Dropout加到梯度上去?
  • 《方程与宇宙》:拉格朗日点,复数,向量(五)
  • FLASH:可能是近来最有意思的高效Transformer设计
  • 写在2013年即将逝去之际

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前32岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 网站 梯度 概率 矩阵 优化器 转载 微分方程 分析 天象 深度学习 积分 python 扩散 力学 无监督 几何 节日 生活 文本生成 数论

    随机文章

    • 《虚拟的实在(3)》——相对论动力学
    • 【通知转载】国家天文台信息技术类人才招聘
    • 科学空间相册上线,与你分享科学图片
    • 【NASA每日一图】牧羊卫星Prometheus
    • 开学啦!咱们来做完形填空~(讯飞杯)
    • 生成扩散模型漫谈(二十九):用DDPM来离散编码
    • 有质动力:倒立单摆的稳定性
    • 分享一次专业领域词汇的无监督挖掘
    • Coming Back...
    • 两名美国经济学家同获2009年诺贝尔经济学奖

    最近评论

    • CuddleSabe1: 感觉普通的 flow matching 可以看成 degrade-aware image de...
    • 岁月如书: 受教了,感谢
    • 苏剑林: 是
    • 岁月如书: 哦哦,原来是有实验结论,那是我盲目了。多问一句,你说的attention + output g...
    • 苏剑林: attention sink指的是第一个token的attention普遍不可忽略,不一定是爆...
    • 苏剑林: 这也许是好事呢?SGD倒是保留了模长,但它就普遍不如不保留模长的SignSGD或者Normal...
    • 岁月如书: maxlogit 是attention qk乘积中出现了大值,attention sink等于...
    • 岁月如书: [comment=29016]苏剑林[/comment]他通过Newton-schulz迭代近...
    • 苏剑林: 我好像也就只有把小的放大然后加噪声的思路
    • 苏剑林: 感觉看场景吧,如果是文本llm下感觉没什么必要性。

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2025 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。