AINews - 2026-01-17
📰 十大AI新闻要点
1. OpenAI发布GPT-5.2-Codex API,定位为最强长周期编码模型
OpenAI通过Responses API正式发布了GPT-5.2-Codex,将其定位为处理长期任务(如功能开发、重构、漏洞查找)的最强编码模型。OpenAI明确指出这是迄今为止“最具网络能力”的模型,能够理解代码库中的安全漏洞。该模型已迅速被Cursor和GitHub Copilot集成。
来源:https://twitter.com/OpenAIDevs/status/2011499597169115219
2. 团队利用GPT-5.2-Codex在Cursor中运行一周,生成300万行Rust代码构建浏览器
有报告称,一个团队在Cursor中使用GPT-5.2-Codex构建了一个浏览器,该代理程序不间断地运行了一周,生成了超过300万行Rust代码,涉及数千个文件(从HTML解析到CSS布局、绘制,再到自定义JS虚拟机)。虽然生成的浏览器“勉强能用”,但这已成为衡量“连续代理运行时间”和自主代码生成实际前沿的参考点。
来源:https://twitter.com/mntruell/status/2011562190286045552
3. OpenAI与Cerebras宣布建立战略计算合作伙伴关系
OpenAI宣布与AI芯片公司Cerebras建立合作伙伴关系。此举被解读为OpenAI在提升推理延迟和吞吐量方面的重要布局,这些指标正日益成为ChatGPT类用户体验的关键差异化因素,也是与Gemini等竞争对手抗衡的关键。
来源:https://twitter.com/cerebras/status/2011531740804964855
4. LangChain发布LangSmith Agent Builder,将“智能体视为文件系统”
LangChain发布了LangSmith Agent Builder,旨在产品化智能体工程。该工具将智能体视为文件系统,内置记忆功能,支持环境智能体触发器,并集成了技能、MCP(模型上下文协议)和子智能体。用户可以通过简单的提示构建无代码的智能体应用,例如将Slack消息自动转换为Linear工单的智能体。
来源:https://twitter.com/LangChain/status/2011501888735494184
5. 研究新方法:丢弃位置编码(DroPE)以提升模型长上下文能力
研究社区讨论了一种名为DroPE的简单方法:取一个预训练好的LLM,丢弃其RoPE位置编码,然后在没有位置嵌入的情况下进行微调。初步报告显示,该方法在标准数据集上性能相当,同时改善了长上下文行为,已在SmolLM-1.7B和Llama2-7B上进行了测试。
来源:https://twitter.com/gabriberton/status/2011326182986564090
6. Airbnb聘请Meta Llama项目负责人Ahmad Al-Dahle担任CTO
Meta Llama项目的负责人Ahmad Al-Dahle宣布将加入Airbnb担任首席技术官。他在声明中肯定了Meta开源Llama的战略(累计12亿次下载,6万多个衍生模型),并将Airbnb视为应用先进模型能力的产品前沿阵地。此举获得了多位行业领袖的认可。
来源:https://twitter.com/Ahmad_Al_Dahle/status/2011440460821320056
7. Google开源通用商务协议(UCP),赋能AI智能体自主处理电商任务
Google开源了通用商务协议,该协议允许AI智能体自主管理产品发现、购物车管理和支付处理等电子商务任务。关键集成包括用于多步骤工作流的Agent2Agent协议、用于安全支付的Agents Payment协议,以及与vLLM、Ollama等现有LLM栈集成的Model Context Protocol。
来源:https://github.com/Universal-Commerce-Protocol/ucp
8. 百度ERNIE-5.0成为首个进入LM Arena文本竞技场前十的中文模型
百度ERNIE-5.0-0110模型在LM Arena的文本竞技场排行榜上位列第八(得分1460),在专家竞技场中位列第十二,成为首个进入前十的中文模型。该模型在数学和职业类别中表现优异,显示了其在通用对话能力上的竞争力。
来源:https://lmarena.ai/leaderboard/text
9. 谷歌发布Gemini“个人智能”功能,连接用户历史数据提供个性化服务
Google宣布为Gemini推出个性化功能,通过连接用户的Gmail、照片、搜索和YouTube历史记录来提供个性化体验,同时强调用户需选择加入并拥有隐私控制权。这一功能在Google和Gemini领导层的账号中获得了高度关注。
来源:https://twitter.com/Google/status/2011473056921706852
10. 谷歌Veo 3.1视频模型升级,支持原生人像模式和4K超分辨率
Google的Veo 3.1视频模型新增了原生人像模式、用户照片生成视频功能,以及在Gemini、YouTube和Google AI Studio中提供先进的1080p/4K超分辨率能力。开发者称赞其移动端优先的叙事角度和更流畅的高保真输出流程。
来源:https://x.com/tulseedoshi/status/2011174465720430612
🛠️ 十大工具产品要点
1. Cursor集成GPT-5.2-Codex,定位为“长周期任务的前沿模型”
Cursor在OpenAI发布后立即集成了GPT-5.2-Codex,并将其框架为处理“长周期任务”的前沿模型。开发者强调其在扩展工作流程中表现出的细致和可靠。
来源:https://twitter.com/cursor_ai/status/2011500027945033904
2. GitHub Copilot (@code) 集成GPT-5.2-Codex,并调整预览/正式版标签以减少企业采用摩擦
GitHub将GPT-5.2-Codex集成到Copilot中,并宣布将调整预览版和正式版的标签策略,旨在降低企业用户采用新功能的门槛和顾虑。
来源:https://twitter.com/code/status/2011503658815668623
3. LangSmith Agent Builder支持技能/MCP/子智能体,实现“无代码”智能体构建
LangChain的新产品LangSmith Agent Builder支持模块化技能、MCP协议和子智能体,允许开发者通过文件系统的方式管理和构建智能体。一个示例是仅通过提示就构建了一个将Slack消息转为Linear工单的环境智能体。
来源:https://twitter.com/docs_plz/status/2011536177556570203
4. CopilotKit添加中间件,将LangChain预建智能体转化为面向UI的应用
CopilotKit发布了一项功能,可以充当中间件,将使用LangChain构建的预置智能体(包括“深度智能体”)转化为具有用户界面的应用程序,简化了智能体产品的开发流程。
来源:https://twitter.com/CopilotKit/status/2011453920321929237
5. Phil Schmid发布“Agent Skills”标准化框架,实现跨平台技能移植
开发者Phil Schmid为
antigravity项目发布了“Agent Skills”框架,定义了标准化的技能文件夹结构,旨在实现技能在Gemini CLI、Claude Code和OpenCode等不同生态系统间的兼容性和可移植性。
来源:https://twitter.com/_philschmid/status/2011345054343053370
6. Vercel发布React最佳实践智能体技能与评估套件
Vercel推出了一个名为
react-best-practices的“智能体技能”及相应的评估套件,旨在帮助智能体理解和遵循React性能最佳实践,该内容获得了开发者社区的高度关注。
来源:https://twitter.com/vercel/status/2011589806250426615
7. 开源混合图像模型GLM-Image发布,专注高保真细节和文本渲染
Zai组织发布了开源的GLM-Image模型,这是一个结合了自回归和扩散模型的混合架构,专注于生成具有高保真细节和强大文本渲染能力的图像。该模型还提供了丰富的图生图工具,如编辑、风格迁移等。
来源:https://github.com/zai-org/GLM-Image
8. 开源视频模型LTX-2可生成20秒4K带音频视频
开源视频模型LTX-2亮相,能够生成长达20秒的4K分辨率视频片段并包含音频。该模型被社区视为进行电影风格样本生成和实验的友好基线。
来源:https://x.com/venturetwins/status/2010878914273697956
9. SprocketLab发布SlopCodeBench,评估智能体在大型编程任务中的表现
SprocketLab发布了SlopCodeBench基准测试,用于评估智能体在大型、分阶段编程任务中的表现。测试显示,智能体经常在早期做出糟糕的设计选择,并且在任务简化后难以泛化,表明当前智能体编码性能仍有很大提升空间。
来源:https://github.com/SprocketLab/slop-code-bench
10. 高质量纯英文数据集发布,适用于SFT和CPT训练
社区成员发布了经过净化处理的纯英文数据集,包括Hermes-3和tulu-3的净化版本。这些数据集使用启发式方法过滤了数学和代码痕迹,并基于MTLD等指标保留高质量文本,适用于指令微调和对话偏好训练。
来源:https://huggingface.co/datasets/enPurified/Hermes-3-Dataset-enPurified-openai-messages