ai_news_summary_2025-10-20

AINews - 2025-10-20

原文链接

Anthropic推出Agent Skills，这是一种使用Markdown文件和文件夹构建专用代理的新方法。该框架包含可选的脚本和文档，模型可以在运行时加载以完成任务。Claude最近的PDF、Docs和PPT创建功能都是通过Skills实现的。

Anthropic发布价值级模型Claude 4.5 Haiku，定价为每100万输入/输出token 1/5美元。在推理模式下，该模型在Artificial Analysis指数上得分为55，比Sonnet 4.5便宜3倍，在长上下文和编码方面表现强劲。

ChatGPT现在可以自动管理保存的记忆，具有搜索/排序和重新优先级排序功能，解决了”内存已满”问题。Sora 2为Pro用户添加了故事板功能，并将视频长度扩展到所有用户15秒，Pro用户25秒。

vLLM与Google合作开发了重新构想的TPU后端，通过单一JAX到XLA降低路径统一了PyTorch和JAX，具有SPMD-by-default、Ragged Paged Attention v3等功能，吞吐量比2月原型提高了2-5倍。

Meta与合作者发布了”为LLMs扩展强化学习计算的艺术”，这是一个40万GPU小时的系统研究，提出了ScaleRL、CISPO损失、FP32 logits等技术，关键发现是目标计算性能可以从半计算运行中预测。

递归语言模型显示，在无界上下文上的递归自调用/工具可以超越标准GPT-5在长上下文任务上的表现，即使在1000万+token时仍保持成本效益。

Cognition的新模型家族(>2,800 TPS)用于快速多轮代理搜索，定位”正确文件”的速度比Claude 4.5 Haiku快20倍，同时在CodeSearch评估中与前沿模型相媲美。

HuggingChat v2推出”Omni”，基于策略的自动模型选择，涵盖115个开源模型和15个提供商，可以在一个会话中将任务路由到编码和写作模型之间，100%开源。

Windows 11添加了Copilot Voice(“Hey Copilot”)、跨桌面/应用/文档的Vision功能，以及即将推出的本地文件Copilot Actions。

Google TPU现在直接向外部客户销售，与NVIDIA直接竞争，标志着AI硬件市场竞争格局的重大变化。

Anthropic在GitHub上开源了文档技能，包括.pdf、.docx、.xlsx和.pptx文件的创建能力，这些完全使用Skills框架实现。

Cline CLI预览版暴露了一个可编写脚本的、开放的”原始代理循环”，IDE Cline可以编排这些循环，专为子代理和可组合工作流设计。

类似n8n风格的开源画布，连接Firecrawl、LLMs、逻辑节点和MCPs，用于API可部署的工作流。

Sourceful的Riverflow 1在Artificial Analysis的图像编辑”全部”列表中排名第一，结合了VLM和开放扩散，定价为每1000张图像66美元。

mixedbread.ai的mxbai-colbert-edge-v0(17M, 32M)提供可重现的ColBERT训练，17M版本在LongEmbed上排名小于10亿参数模型的第一，Apache 2.0许可。

Alibaba开源了Qwen3Guard组件，包括Qwen3-4B-SafeRL(WildJailbreak从64.7提升到98.1而不影响一般性能)和Qwen3GuardTest用于分类中间”思考”和逐token审核。

Karpathy的nanochat d32(从头开始花费1000美元)将CORE改进到0.31(> GPT-2 ~0.26)，GSM8K达到约20%，发布了完整报告/脚本，社区正在集成到Transformers和vLLM中。

Meta发布MobileLLM-Pro(1B)基础+指令检查点(带有量化变体)，针对高质量、高效的设备上推理，在推理/知识/长上下文检索上优于Gemma 3 1B和Llama 3.2 1B 5.7%和7.9%。

Google发布torchax，探索PyTorch→JAX降低，为跨框架互操作性提供新工具。

World Labs的RTFM是实时、持久、3D一致的自回归扩散变换器，在大规模视频上训练，以H100速度进行交互式流式传输，带有实时演示。