reddit_machinelearning_2026-04-06

Reddit ML - 2026-04-06

作者对ICML审稿结果感到沮丧，三位审稿人未因补充实验和证明而提高评分，第四位则需更多时间。质疑审稿流程是否合理。

_{作者: /u/Charming-Fail-772 | 发布于: 2026-04-05 10:32}

将ReLU层决策视为对角矩阵，探讨下一层权重矩阵与它的乘积可解释为局部敏感哈希表查找或关联记忆。

_{作者: /u/oatmealcraving | 发布于: 2026-04-05 05:38}

作者正在从头训练一个专门针对意大利语的2.1B参数开源模型Dante-2B，其核心是优化了意大利语的分词器，以提高处理效率。模型已完成第一阶段训练，能生成流畅的意大利语文本，并计划开源。

_{作者: /u/angeletti89 | 发布于: 2026-04-05 22:24}

用户询问2D语义分割研究是否饱和，并探讨除开放集分割外的新研究方向。

_{作者: /u/Hot_Version_6403 | 发布于: 2026-04-05 16:50}

作者用纯Triton开发了融合MoE调度内核，在推理批次下性能超越Megablocks。核心创新是融合门控与上投影以减少内存流量，以及分组GEMM调度以高效处理变长专家批次。

_{作者: /u/bassrehab | 发布于: 2026-04-05 18:07}

作者在ICML审稿回复中，针对审稿人质疑方法“缺乏新颖性”寻求建议。其方法结合现有组件并引入新元素，取得了突破性成果，但审稿人仍不认可。

_{作者: /u/Derpirium | 发布于: 2026-04-05 14:59}

提出无需参考模型的AI行为检测方法，通过分析模型内部激活差异或让其辩论正反观点，可发现植入的特定偏见或RLHF训练导致的广泛倾向。

_{作者: /u/bmarti644 | 发布于: 2026-04-05 23:24}

AI研究员因当前公司项目周期长、发展慢，希望跳槽到产品迭代快的公司，但缺乏AB测试实践经验，寻求求职建议。

_{作者: /u/wonder2man | 发布于: 2026-04-05 13:31}

作者认为市场对TurboQuant论文反应过度，该技术仅压缩推理内存，不影响占大头的训练内存需求，且实际增益低于宣传，论文已公开一年仍未广泛部署。

_{作者: /u/Cool-Ad4442 | 发布于: 2026-04-05 18:32}