AINews - 2025-12-05
📰 十大AI新闻要点
1. OpenAI开发“Garlic”模型以应对谷歌竞争
据The Information报道,OpenAI正在开发代号为“Garlic”的模型,旨在应对谷歌Gemini 3近期取得的进展,显示出顶级AI公司间竞争加剧。
来源:文章内容
2. Anthropic计划2026年初IPO,估值或达3000亿美元
据报道,Anthropic已聘请Wilson Sonsini律师事务所筹备IPO,目标在2026年初上市,估值可能超过3000亿美元。其Claude Code产品年化收入已接近10亿美元。
来源:文章内容
3. Kling AI 2.6发布:首个原生生成音频的文本到视频模型
Kling AI发布了2.6版本模型,能够一次性生成视频及同步的语音、音效和环境音,实现了连贯的唇形同步和“视听协调”。该模型已在多个平台集成。
来源:https://twitter.com/Kling_ai/status/1996238606814593196
4. DeepSeek V3.2发布,在开源推理模型中排名第二
DeepSeek V3.2采用671B总参数/37B激活参数的MoE架构,并引入了DeepSeek稀疏注意力(DSA)以支持长上下文。根据Artificial Analysis的评估,它在开源“推理”模型中综合排名第二。
来源:https://twitter.com/ArtificialAnlys/status/1996110256628539409
5. OpenAI推出“忏悔”机制以提高模型诚实度
OpenAI训练了一个GPT-5 Thinking变体,使其在输出答案的同时,能“忏悔”自己是否违反了规则或走了捷径。该机制旨在通过奖励诚实来减少模型的隐蔽违规行为。
来源:https://twitter.com/OpenAI/status/1996281172377436557
6. 谷歌发布Nano Banana Pro图像模型
谷歌发布了新的图像模型Nano Banana Pro(基于Gemini 3),支持增强推理和图像合成,每个提示最多可处理14张图像。Synthesia等平台已集成该模型。
来源:https://twitter.com/Google/status/1996263265735749682
7. Anthropic获巨额投资与计算资源
据报道,Anthropic获得了来自微软高达100亿美元和英伟达50亿美元的投资,并从微软购买了价值300亿美元的计算资源,旨在将Claude部署到所有主要云平台。
来源:https://twitter.com/DeepLearningAI/status/1996081964395200773
8. Waymo实现完全无人驾驶运营并快速扩张
Waymo宣布在更多城市实现完全无人驾驶(无安全员)运营,规模同比增长超过500%。在达拉斯,从有安全员到完全无人驾驶的过渡仅用了约4个月。
来源:https://twitter.com/Waymo/status/1996217860440412641
9. 研究揭示CORE-Bench基准测试结果高度依赖“脚手架”
一项研究发现,使用Claude Code与Opus 4.5配合特定“脚手架”在CORE-Bench(科学可复现性代理)上可获得95%的分数,远高于使用中性脚手架报告的42%。这凸显了模型与评估框架耦合对结果的主导影响。
来源:https://twitter.com/sayashk/status/1996334941832089732
10. 中国初创公司宣称开发出性能超越NVIDIA A100的TPU
一家由前谷歌工程师创立的中国初创公司声称,其开发的TPU性能比NVIDIA 2020年发布的A100 GPU快1.5倍,能效高42%,旨在挑战英伟达在AI硬件领域的地位。
来源:文章内容
🛠️ 十大工具产品要点
1. LangSmith Agent Builder实现从提示到生产级工作流的无代码构建
LangChain的LangSmith Agent Builder允许用户通过简单提示构建真实的工作流(如研究简报、GitHub/Linear代理、Slack/Email助手),并提供深度代理评估模式和块级缓存控制以降低成本。
来源:https://twitter.com/LangChainAI/status/1996265192213365080
2. vLLM集成Snowflake的SuffixDecoding技术提升推理性能
vLLM集成了Snowflake的“无模型”后缀解码(SuffixDecoding)技术,在各种并发级别上均优于调优的n-gram推测方法,显著提升了推理效率。
来源:https://twitter.com/vllm_project/status/1996130115856859461
3. 开源MCP Apps SDK实现跨平台AI应用部署
General Intelligence Labs开源了MCP Apps SDK,使最初为ChatGPT构建的、带有UI的MCP驱动应用能够运行在任意聊天机器人和自定义助手上,实现了工具生态的跨平台复用。
来源:https://github.com/General-Intelligence-Labs/mcp-apps-sdk
4. Runway Gen-4.5增强“自动照明”功能
Runway的Gen-4.5模型提升了视觉保真度,并引入了“自动照明”功能,可根据场景氛围自动匹配光线效果,无需复杂的提示词。
来源:https://twitter.com/runwayml/status/1996223569148170665
5. 阿里开源视觉文档检索模型EvoQwen2.5-VL
阿里巴巴开源了EvoQwen2.5-VL(3B/7B)视觉文档检索模型,在ViDoRe v2基准测试中超越了NVIDIA的模型,且采用宽松许可证。
来源:https://twitter.com/mervenoyann/status/1996221079757439374
6. Nous Research发布基于Psyche网络训练的Hermes 4.3模型
Nous Research发布了基于ByteDance Seed 36B的Hermes 4.3模型,声称性能与70B参数的Hermes 4相当。该模型完全在由Solana保障安全的去中心化Psyche网络上训练完成。
来源:https://nousresearch.com/introducing-hermes-4-3/
7. LlamaCloud推出“一键部署”文档工作流
LlamaIndex在LlamaCloud中引入了Click-to-Deploy文档工作流,提供解析、提取、分类等功能以及托管UI,简化了文档处理流程的部署。
来源:https://twitter.com/llama_index/status/1996265747228844178
8. 谷歌推出Workspace Studio快速构建工作流代理
谷歌推出了Workspace Studio,旨在帮助开发者快速构建自动化日常任务的工作流代理,并深度集成在整个Workspace套件中。
来源:https://twitter.com/GoogleWorkspace/status/1996263985985769976
9. 安全平台Falconz提供实时越狱与提示注入检测
开发者展示了Falconz,这是一个统一的AI安全与红队测试平台,可实时检测多个模型的越狱和提示注入攻击,旨在为生产环境中的AI代理提供监控基础设施。
来源:https://huggingface.co/spaces/MCP-1st-Birthday/Falconzz_M.C.P_Hackathon
10. MLX-LM服务器端新增连续批处理功能
MLX-LM在其服务器端增加了连续批处理功能,演示显示可在M2 Ultra上同时处理4个Qwen3-30B的请求,进一步成熟了苹果MLX与CUDA的融合方案。
来源:https://twitter.com/awnihannun/status/1996365940343402596