AINews - 2025-12-06
📰 十大AI新闻要点
1. OpenRouter发布首份《AI现状》报告,揭示行业关键趋势
OpenRouter发布了基于每周代理7万亿令牌数据的首份《AI现状》报告。报告显示,编程用例已占付费模型流量的50%以上,推理模型使用率从0%飙升至超过50%。同时,开源模型超过50%的流量用于角色扮演/创意用途。报告指出,用户更看重质量而非价格,Claude在编程工作负载中占据约60%的份额,平均提示长度超过2万令牌。
来源:OpenRouter《AI现状》报告网页版 及 PDF版
2. Google发布Gemini 3 “Deep Think”模式,推理能力大幅提升
Google为Gemini AI Ultra订阅用户推出了Gemini 3的“Deep Think”模式。该模式采用“并行思维”技术,源自在IMO/ICPC竞赛中达到金牌水平的模型变体。在ARC-AGI-2基准测试中取得了45.1%的成绩,是GPT-5.1(17.6%)的2.5倍以上,展示了Google在推理和推理时计算方面的领先优势。
来源:@GoogleAI 及 @GeminiApp
3. OpenAI发布GPT-5.1-Codex Max,强化智能体编码能力
OpenAI的GPT-5.1-Codex Max现已通过Responses API提供,并推荐在Codex智能体框架内使用。该模型专注于智能体编码,并已集成到VS Code、Cursor、Windsurf和Linear等生态工具中。用户报告称,GPT-5.1在代码查错方面表现优于Gemini 3。
来源:@OpenAIDevs 及 @cursor_ai
4. Mistral Large 3成为开源编码模型新标杆
Mistral AI宣布其Large 3模型在lmarena上成为排名第一的开源编码模型。该模型已通过Ollama Cloud提供云端服务,本地支持即将推出,获得了社区的广泛验证。
来源:@MistralAI 及 @ollama
5. 深度求索DeepSeek市场份额因编码需求崛起而大幅下滑
根据OpenRouter报告,DeepSeek在开源AI模型中的市场份额(曾达50%)急剧下降。主要原因是编程用例兴起,而用户很少使用DeepSeek进行编码。其最流行的使用类别是角色扮演和休闲对话。
来源:文章内容(基于OpenRouter报告图表分析)
6. 谷歌预览“Titans”架构,支持超200万令牌的长上下文记忆
Google在NeurIPS上预览了名为“Titans”的新架构。该架构结合了RNN的效率和Transformer的性能,利用深度神经记忆,可扩展至超过200万令牌的上下文长度,旨在实现长上下文的高效处理。
来源:@GoogleResearch
7. 智能体安全面临严峻挑战,基准测试揭示代码漏洞率高
根据SUSVIBES基准测试,即使像SWE-Agent + Claude Sonnet 4这样的前沿编码智能体,在200个历史上导致漏洞的真实功能请求中,仅能产生10.5%的安全解决方案。这表明AI生成的代码在安全性方面存在重大隐患。
来源:@omarsar0
8. 多家AI公司完成大额融资,验证垂直化与安全测试市场
Antithesis获得由Jane Street领投的1.05亿美元A轮融资,专注于AI生成代码的确定性模拟测试。法律AI公司Harvey完成1.6亿美元F轮融资,估值达80亿美元。这些融资表明市场对代码可信验证和垂直领域专业AI解决方案的需求旺盛。
来源:文章内容(引用自Discord社区关于融资的讨论)
9. 新的AI评估者论坛成立,旨在协调第三方模型评估
AI Evaluator Forum(AEF)正式成立,旨在协调独立的第三方AI模型评估。创始成员包括METR、RAND、SecureBio等机构,以应对当前基准测试中存在的“排行榜幻觉”、私有测试和数据访问差距等问题。
来源:@aievalforum
10. 谷歌DeepMind在新加坡组建新团队,专注高级推理研究
由Yi Tay领导、隶属于Quoc Le组织的新Google DeepMind团队在新加坡成立。该团队专注于高级推理、LLM/RL研究,旨在推动Gemini/Deep Think的发展,并获得Jeff Dean和Demis Hassabis的支持,计划组建一个小型高人才密度团队。
来源:@YiTayML
🛠️ 十大工具产品要点
1. Google Gemini App “Deep Think”模式上线
Gemini 3的“Deep Think”模式已向Google AI Ultra订阅用户开放。用户可在Gemini应用的提示栏中选择“Deep Think”,并在“Thinking”模型下拉菜单中使用该模式,以增强在复杂数学、科学和逻辑问题上的推理能力。
来源:@GeminiApp
2. OpenAI Codex智能体框架与多平台集成
OpenAI的Codex智能体框架现已与多个开发工具深度集成。例如,在Linear中提及或分配任务给Codex,可以触发云端任务执行并将更新发布回Linear,实现了开发工作流的自动化。
来源:@OpenAIDevs
3. 微软发布轻量级实时语音模型VibeVoice-Realtime-0.5B
微软在Hugging Face上开源了VibeVoice-Realtime-0.5B,这是一个专为实时应用设计的轻量级文本转语音模型。它支持流式文本输入,能在约300毫秒内生成初始可听语音,适用于实时TTS服务和实时数据播报,并优化了对英文和中文的支持。
来源:Hugging Face模型页面
4. Hugging Face推出“HF Skills”端到端模型训练平台
Hugging Face推出了“HF Skills”,允许开发者从Claude Code、Codex和Gemini等环境中直接调用,以进行端到端的模型训练、评估和发布。该平台提供脚本、云GPU、进度仪表板以及一键推送至Hub的功能。
来源:@ben_burtenshaw
5. Kling 2.6与Avatar 2.0发布,支持音频对齐视频生成
Kling 2.6推出了音频对齐视频生成功能,并发布了音频挑战赛。Avatar 2.0则支持更长的输入和更好的情感捕捉。这两个模型均在发布当天即可通过fal平台使用。
来源:@Kling_ai 及 @fal
6. Runway Gen-4.5增强美学控制与角色变形能力
Runway Gen-4.5提供了更广泛的美学控制(如照片写实、木偶戏、3D、动漫),并能在多个剪辑片段中保持连贯的视觉语言。“角色变形”成为其一个突出的优势功能。
来源:@runwayml
7. LangChain 1.1新增模型/工具重试中间件
LangChain 1.1为JS和Python版本添加了具有指数退避功能的模型/工具重试中间件,提高了智能体工作流的可靠性。同时,VS Code提示文件可以自动为每个提示选择最合适的模型,以更好地组合工作流。
来源:@sydneyrunkle
8. Together AI推出AutoJudge,实现推理加速
Together AI发布了AutoJudge,该技术通过学习哪些令牌对最终答案重要,实现了比推测解码快1.5-2倍的加速效果,并且可以与其他加速技术叠加使用。
来源:@togethercompute
9. 通义千问展示低资源RL训练,仅需5GB VRAM
通义千问团队展示了仅使用5GB VRAM即可进行FP8强化学习训练的技术,这大大降低了模型微调的计算门槛。
来源:@Alibaba_Qwen
10. 开源评估套件smallevals支持本地RAG评估
Hugging Face社区发布了smallevals,这是一个本地RAG评估套件。它使用基于Natural Questions和TriviaQA训练的0.6B小模型,从用户文档中生成问答对,从而创建“黄金”检索评估数据集,支持离线、低成本的RAG基准测试。
来源:smallevals GitHub仓库