Reddit ML - 2026-03-01
1. [R] 微型Transformer(<100参数)能100%准确完成10位数加法
研究显示,少于100个参数的微型Transformer模型能准确进行10位数加法,关键在于使用了数字标记。
作者: /u/LetsTacoooo | 发布于: 2026-02-28 17:15
2. [项目] 微扩散——用约150行纯Python实现离散文本扩散
作者受MicroGPT启发,构建了文本扩散模型的极简实现,包含三个不同复杂度的训练脚本,核心是展示从噪声中迭代生成文本的扩散算法。
作者: /u/Impossible-Pay-4885 | 发布于: 2026-02-28 03:57
3. [讨论] 有没有研究将流匹配的源分布从高斯噪声改为数据集的工作?
讨论流匹配技术是否可以从复杂图像分布映射到另一复杂分布,而非仅限于从简单高斯噪声生成图像。
作者: /u/fliiiiiiip | 发布于: 2026-02-28 14:08
4. 求助:向非机器学习技术团队做技术分享,哪个AI/ML主题最实用?
一位在华外国博士生受邀向一家中国科技公司做AI讲座,寻求关于如何选择既体现学术价值又贴合公司实际应用需求的演讲主题的建议。
作者: /u/Same_Half3758 | 发布于: 2026-02-28 04:19
5. [R] AudioMuse-AI-DCLAP:基于LAION CLAP蒸馏的文本转音乐模型
作者发布了专为音乐优化的AudioMuse-AI-DCLAP模型,可将文本和歌曲映射到同一空间进行搜索,模型体积从295MB缩小至23MB,速度提升2-3倍。
作者: /u/Old_Rock_9457 | 发布于: 2026-02-28 17:12
6. [D] 人工智能/机器学习博士招生委员会
博士生在选择导师委员会时,纠结于选择有名望但难联系的教授,还是更易沟通的教授,并询问这对未来求职的影响。
作者: /u/dead_CS | 发布于: 2026-02-28 16:25
7. [P] 开源大模型的春天之梦:2026年1-2月十大架构前瞻
作者: /u/seraschka | 发布于: 2026-02-28 15:27
8. [D] MICCAI 2026 投稿指南
作者询问MICCAI投稿指南中“研讨会”是否包含仅在OpenReview发布、无正式论文集的工作坊。
作者: /u/burnt-Tacos | 发布于: 2026-02-28 08:38
9. [D] 2026年机器学习工程师的行业预期
作者: /u/AccomplishedCat4770 | 发布于: 2026-02-28 19:57
10. [R] Qwen3.5的MoE架构:是突破还是小修小补?
用户讨论Qwen3.5的MoE架构,质疑其低激活参数是重大突破还是自然迭代。
作者: /u/astrophile_ashish | 发布于: 2026-02-28 06:44
11. [求助] 求审阅ML/CV会议论文的提示词
用户寻求使用LLM检查机器学习会议论文稿中错误的提示词。
作者: /u/Alternative_Art2984 | 发布于: 2026-02-28 10:02