Reddit ML - 2026-01-10
1. [D] Deepseek发布新的LLM扩展训练方法,有人读过MHC论文吗?
DeepSeek发布新训练方法MHC,旨在解决模型扩展时性能与稳定性的矛盾。分析认为这可能为下一代模型V4铺路,但实际编码能力提升有待验证。
作者: /u/Worldly-Bluejay2468 | 发布于: 2026-01-09 14:04
2. [讨论] 你的AI研究笔记本电脑配置是什么?
深度学习博士生寻求建议:选择MacBook Air M4(续航便携)还是ThinkPad P14s(Linux/CUDA支持),用于日常开发和本地轻量GPU调试。
作者: /u/gradV | 发布于: 2026-01-09 14:55
3. [研究] LLM拼图:评估视觉语言模型的空间推理能力——前沿模型在5×5拼图任务中遭遇瓶颈
一项研究通过拼图任务测试多模态大模型的空间推理能力。结果显示,模型在3x3网格上表现尚可,但随着网格增大(如5x5),成功率骤降至接近0%,且计算成本激增,揭示了当前模型在基础空间推理上存在明显短板。
作者: /u/Qubit55 | 发布于: 2026-01-09 14:49
4. [讨论] 机器学习研究者是否曾将用户群体视为模型有效维度的一部分?
用户探讨是否应将AI模型与其活跃用户群体视为一个耦合系统进行研究,并询问相关文献。
作者: /u/RJSabouhi | 发布于: 2026-01-09 19:18