reddit_machinelearning_2026-04-06

Reddit ML - 2026-04-06

1. [讨论] ICML 审稿意见回复确认

作者对ICML审稿结果感到沮丧,三位审稿人未因补充实验和证明而提高评分,第四位则需更多时间。质疑审稿流程是否合理。

作者: /u/Charming-Fail-772 | 发布于: 2026-04-05 10:32


2. [D] ReLU神经网络的哈希表特性

将ReLU层决策视为对角矩阵,探讨下一层权重矩阵与它的乘积可解释为局部敏感哈希表查找或关联记忆。

作者: /u/oatmealcraving | 发布于: 2026-04-05 05:38


3. [项目] Dante-2B:我用2×H200从头训练了一个21亿参数的双语全开源意大利语/英语大语言模型。第一阶段已完成——来看看我的成果。

作者正在从头训练一个专门针对意大利语的2.1B参数开源模型Dante-2B,其核心是优化了意大利语的分词器,以提高处理效率。模型已完成第一阶段训练,能生成流畅的意大利语文本,并计划开源。

作者: /u/angeletti89 | 发布于: 2026-04-05 22:24


4. [讨论] 语义分割领域的研究是否已趋于饱和?

用户询问2D语义分割研究是否饱和,并探讨除开放集分割外的新研究方向。

作者: /u/Hot_Version_6403 | 发布于: 2026-04-05 16:50


5. [P] 纯Triton实现融合MoE调度:在推理批量处理中超越CUDA优化的Megablocks

作者用纯Triton开发了融合MoE调度内核,在推理批次下性能超越Megablocks。核心创新是融合门控与上投影以减少内存流量,以及分组GEMM调度以高效处理变长专家批次。

作者: /u/bassrehab | 发布于: 2026-04-05 18:07


6. [讨论] ICML审稿意见回复相关问题

作者在ICML审稿回复中,针对审稿人质疑方法“缺乏新颖性”寻求建议。其方法结合现有组件并引入新元素,取得了突破性成果,但审稿人仍不认可。

作者: /u/Derpirium | 发布于: 2026-04-05 14:59


7. [R] 通过探针介导自适应审计实现AudiBench模型生物的无参考行为发现

提出无需参考模型的AI行为检测方法,通过分析模型内部激活差异或让其辩论正反观点,可发现植入的特定偏见或RLHF训练导致的广泛倾向。

作者: /u/bmarti644 | 发布于: 2026-04-05 23:24


8. [讨论] 机器学习研究员寻求转投产品公司。

AI研究员因当前公司项目周期长、发展慢,希望跳槽到产品迭代快的公司,但缺乏AB测试实践经验,寻求求职建议。

作者: /u/wonder2man | 发布于: 2026-04-05 13:31


9. [深度] 一篇本社区十分钟就能看懂的论文,让内存芯片市场损失数百亿

作者认为市场对TurboQuant论文反应过度,该技术仅压缩推理内存,不影响占大头的训练内存需求,且实际增益低于宣传,论文已公开一年仍未广泛部署。

作者: /u/Cool-Ad4442 | 发布于: 2026-04-05 18:32