ai_news_summary_2025-10-14

AINews - 2025-10-14

原文链接

📰 十大AI新闻要点

1. GPT-5 Pro在FrontierMath Tier 4测试中创下新纪录

GPT-5 Pro在计算密集型设置中达到13%准确率，以单一问题优势领先Gemini 2.5 Deep Think（统计上不显著）。Epoch澄清泄漏问题：OpenAI可访问28/48个问题，GPT-5 Pro解决的8个问题中有5个来自保留集。

2. Markovian Thinking方法显著提升推理效率

Mila和微软提出在固定边界”写状态”的训练方法，将推理长度与上下文大小解耦，使推理变为线性计算。R1-Distill 1.5B模型仅用8K上下文推理24K token，以约4倍更低计算量击败在完整24K上训练的LongCoT-RL。

3. 推理训练本质研究：基础模型已包含推理机制

新研究认为基础模型已包含推理机制，”思考模型”学习何时调用它们。在正确时间调用技能可恢复基础模型与推理模型之间高达91%的差距。

4. NVIDIA Blackwell与vLLM在InferenceMAX中获胜

vLLM通过与NVIDIA深度合作实现强大帕累托改进：100+ PRs跨堆栈、FP4/FP8内核、异步调度、图融合和FlashInfer集成。通过推测解码和数据+专家并行，预计吞吐量再提升2-3倍。

5. Together AI推出自适应推测解码系统ATLAS

ATLAS从实时流量中学习，报告比基线快4倍（DeepSeek-V3.1上500 TPS），并随使用改进。早期报告显示通过自适应推测器可减少60%以上RL训练时间。

6. 微软推出首个规模化NVIDIA GB300 NVL72集群

微软/Azure为OpenAI部署首个生产级NVIDIA GB300 NVL72集群，涵盖>4,600个Blackwell Ultra GPU。每个NVL72 VM通过NVLink Switch fabric融合72个GPU，提供37TB统一加速器，每VM提供1.44 exaflops FP4性能。

7. 月度token处理量数据公布

Google每月处理约1.3 quadrillion tokens，OpenAI约260T，Groq约50T。Google的Demis Hassabis重申1.3 quadrillion tokens/月的处理量。

8. OpenAI计算支出估算

Epoch估计OpenAI去年在计算上花费约70亿美元，大部分用于研发（实验/失败运行），最终训练运行花费不到10亿美元。

9. GPT-5训练规格外部估算

粗略外部估算显示约1000亿活跃参数，30-100T tokens，RL占预训练的10-100%，总计约6e25 FLOPs。MoE稀疏性讨论暗示总参数非常高但活跃子集很小。

10. 机器人硬件实现重定向杂技动作

使用OmniRetarget + BeyondMimic最小RL跟踪，人形机器人执行墙翻动作，成功率5/5。训练仅需轻微调整（如放宽终止条件、调整奖励）。Unitree G1复制跆拳道旋转踢，通过调优解决模拟到现实的IMU陀螺仪饱和问题。

🛠️ 十大工具产品要点

1. Qwen3-VL Cookbooks发布

为多模态任务提供精炼的notebook集合，涵盖计算机使用、全方位识别、文档解析/OCR、3D定位、视频理解、移动代理、长文档理解、空间推理等，支持本地/API使用。

2. GPT Realtime Mini语音到语音模型

比旗舰Realtime便宜约7倍，将TTFA降至0.81秒（从1.27秒），上下文加倍至32K，增加图像输入，定位用于WebRTC/WebSocket/SIP上的可扩展代理。

3. Moondream 3小型快速开源视觉模型

90亿参数，64专家MoE，约20亿活跃参数，增加原生指向、改进OCR和32K上下文，针对UI理解和代理工作流优化。

4. KAT-Dev-72B-Exp代理编码模型

在SWE-Bench Verified排名第2，通过中期训练→SFT+RFT→代理RL调优，可在4×RTX 3090 @ 4位量化上运行。

5. Tora统一RL后训练框架

基于torchtune构建，统一GRPO、FSDP、编译支持，支持稳定的4位RL（QLoRA/QDoRA），通过DoRA-Cache将rollouts速度提升2-4倍。

6. ComfyUI集成NVIDIA GPUDirect Storage

通过cuFile DMA直接从NVMe流式传输模型权重到GPU VRAM，使重模型可在仅6GB VRAM的GPU上运行，无需自定义卸载器或量化。

7. AniSora V3.2动漫图像到视频模型

基于Wan2.2 I2V的动漫专注图像到视频模型，直接插入ComfyUI Wan2.2工作流，提供开箱即用的”360°角色旋转”功能。

8. LangSmith支持JS代码评估

除Python外新增JavaScript代码评估支持，实现更快、堆栈原生评估。LangChain v1发布可定制的create_agent和模型/工具调用前后中间件钩子。

9. LlamaIndex增加可解释文档分类

添加具有自定义规则的可解释文档分类功能，增强文档处理和分析能力。

10. Glass Health推出生产级开发者API

推出具有HIPAA合规性和引用元数据的生产级开发者API，为医疗AI应用提供企业级支持。