reddit_machinelearning_2026-04-15

Reddit ML - 2026-04-15

1. “我不知道!”:用HALO损失函数教会神经网络“拒绝回答”。[R]

作者开源了HALO损失函数,替代交叉熵,让神经网络学会在不确定时“拒绝回答”,显著提升了校准性和异常检测能力,且不影响基础准确率。

作者: /u/4rtemi5 | 发布于: 2026-04-14 05:45


2. ICML的投稿指南是什么?(或:ICML问答帖)[D]

作者质疑AC是否施压要求审稿人完成最终意见,并对比自己论文审稿停滞与其他论文进展顺利的情况,表达不满。

作者: /u/WhiteBear2018 | 发布于: 2026-04-14 14:16


3. 可将模型分解为图数据库

将静态LLM模型分解为图数据库,可在各层进行KNN检索,数学等效于矩阵乘法。无需重新训练即可更新模型内部事实知识,且内存占用更少。

作者: /u/Educational_Win_2982 | 发布于: 2026-04-14 21:38


4. ClawBench:AI智能体能完成日常网络任务吗?153项任务,144个实时网站,最佳模型成功率33.3% [R]

ClawBench基准测试显示,AI浏览器代理在144个真实网站上的153项日常任务中表现有限,最佳模型成功率仅33.3%。

作者: /u/Extreme_Play_8554 | 发布于: 2026-04-14 17:21


5. 2000万份印度法律文件,含引用图谱与向量嵌入——法律自然语言处理的潜在应用?[D]

作者构建了包含2000多万印度法律案例的数据集,具备结构化元数据和首个机器可读的引用网络,可用于法律NLP、图神经网络研究和印度语言模型训练。

作者: /u/zriyansh | 发布于: 2026-04-14 14:14


6. 我们测试了TranslateGemma与其他5款大语言模型在6种语言字幕翻译上的表现。初看数据结果清晰明了,但人工质量评估却带来了新的转折。

对六款大语言模型进行多语言字幕翻译评测,TranslateGemma综合排名第一,但人工审核发现其无法正确区分简繁体中文。

作者: /u/ritis88 | 发布于: 2026-04-14 10:36