ai_news_summary_2026-03-02

AINews - 2026-03-02

原文链接

📰 十大AI新闻要点

1. Perplexity发布“Computer”：首个以编排为核心的多智能体产品

Perplexity推出名为“Computer”的端到端系统，旨在通过一个界面编排文件、工具、记忆和模型，以完成研究、设计、编码、部署和管理项目。其核心突破在于采用并行、异步的子智能体架构，由协调模型将任务分配给研究、编码等领域的专家模型，而非单一循环。这标志着向“系统级智能体用户体验”的迈进，将智能体工作视为分布式工作流。

2. Karpathy宣称编程智能体自去年12月发生“质变”

AI专家Andrej Karpathy提出，自2024年12月以来，编程智能体已跨越一个质的门槛，从脆弱的演示转变为能够持续、长视野地完成任务，具备连贯性和韧性。他举例说明，智能体在极少人工干预下，即可完成从SSH密钥配置到vLLM部署、模型下载、UI创建、系统服务配置及生成报告的完整本地部署流程。

3. OpenAI发布GPT-5.3-Codex，社区评测反响热烈

OpenAI在API中发布了GPT-5.3-Codex模型。Cline等开发工具宣布支持，并声称其速度比GPT-5.2快约25%，完成任务所需token更少，且在SWE-Bench Pro等编程基准测试中表现强劲。社区评测迅速涌现，但需注意其方法论尚未完全清晰。

4. Qwen3.5 Medium系列模型发布，开源生态工具链迅速跟进

阿里巴巴发布Qwen3.5 Medium系列模型（包括27B、35B-A3B、122B-A10B），声称在量化、长上下文等方面有显著提升。发布当天即获得vLLM、GGUF、LM Studio、Ollama、Jan等主流部署工具链的广泛支持，展示了开源模型生态的快速成熟。技术亮点包括宣称的“近无损”4位量化、支持超百万token的上下文长度，并开源了35B-A3B的基础模型。

5. Anthropic收购Vercept以增强Claude的“计算机使用”能力

Anthropic宣布收购专注于“计算机使用”能力的初创公司Vercept，旨在提升Claude模型代表用户执行操作（尤其是非技术任务）的能力。Vercept创始人表示，其使命是从“告诉用户做什么”转向“为用户行动”。

6. Anthropic被曝面临美国政府压力，要求放宽AI军事使用限制

据Axios等媒体报道，美国国防部长向Anthropic发出最后通牒，要求其移除Claude AI模型中关于禁止用于国内监控和自主武器开发的安全护栏，否则可能动用《国防生产法》或将该公司列为供应链风险。此事引发了关于AI伦理、商业公司与政府关系的广泛讨论。

7. Anthropic调整其“负责任扩展政策”，放弃单边训练限制承诺

据TIME报道，Anthropic放弃了其“负责任扩展政策”中的一个关键承诺，即不再坚持“除非能确保足够安全措施，否则不训练AI系统”。公司首席科学家解释称，鉴于AI发展的快速步伐和竞争对手的行动，单边承诺已不切实际。这被视为在竞争压力下的战略调整。

8. Karpathy剖析AI算力核心矛盾：片上SRAM与片外DRAM的协同难题

Karpathy发表高参与度讨论，指出LLM工作流（特别是长上下文下的解码和紧密的智能体循环）的核心约束在于协调两种内存池：快速但微小的片上SRAM和庞大但缓慢的片外DRAM。他认为，如何以最佳吞吐量、延迟和成本来协调内存与计算，是当前“以HBM为主”（英伟达风格）和“以SRAM为主”（Cerebras风格）阵营共同面临的重大难题。

9. xAI的Grok-4.20-Beta1登顶Arena搜索榜，文本榜表现亦佳

根据Arena排行榜数据，xAI的Grok-4.20-Beta1模型在搜索竞技场（Search Arena）中排名第一，在文本竞技场（Text Arena）中排名第四，与谷歌的Gemini 3.1 Pro得分相当。这显示了该模型在搜索和通用文本任务上的竞争力。

10. AI可靠性研究指出：智能体失败常源于“可靠性”而非“能力”

一项关于“智能体失败”的研究总结指出，智能体经常因微小的、偏离路径的工具调用错误不断累积而失败，一个错误会增加下一个错误发生的可能性，尤其是在长视野任务中。这强调了在模型能力飞速提升的同时，其可靠性（如一致性、鲁棒性）的进步相对有限，且不能简单地用单一“成功率”来衡量。

🛠️ 十大工具产品要点

1. Perplexity Computer采用基于用量的计费与子智能体模型选择

Perplexity Computer首先面向Max订阅用户开放，采用基于使用量的定价模式。用户可以为不同的子智能体（如研究、编码）选择不同的模型，并设置支出上限。Max用户每月包含10,000点积分，并在发布初期获得限时奖励积分。

2. GitHub Copilot CLI正式发布，新增 `/research` 深度研究功能

GitHub Copilot CLI结束测试，进入正式可用阶段。新增的/research命令可以利用GitHub代码搜索和基于MCP的动态抓取，对整个代码库进行深度研究，并可将研究报告导出为Gist分享。

3. Claude Code迎来“一周年”，集成Slack插件与LangSmith追踪

Claude Code作为成熟的编程智能体产品，近期集成了Slack插件，方便在协作环境中使用。同时，通过LangSmith工具链支持追踪，帮助开发者调试智能体在任务路由或“削弱”行为方面的问题。

4. Qwen3.5系列模型获全方位本地部署支持，成智能体编码新宠

开发者实测表明，Qwen3.5-35B-A3B模型在本地运行（如使用llama.cpp）时，在智能体编码任务中表现出色，感觉明显更可靠（工具调用、稳定性）。由于其MoE架构（每token仅激活约30亿参数），它可以在32GB VRAM的消费级GPU上运行，成为Claude Code/Codex之外许多工作流的可行本地替代方案。

5. Trace-Free+：通过优化工具描述文本提升智能体成功率

Intuit AI Research的研究提出，智能体的成功高度依赖于工具接口的文本描述。他们引入了一种课程学习方法，教导模型将工具描述重写为智能体更易使用的形式，且无需在推理时依赖执行轨迹。该方法在StableToolBench/RestBench上报告了性能提升，并在工具数量超过100个时仍保持鲁棒性。

6. ActionEngine：将GUI智能体重构为图遍历，大幅降低LLM调用成本

ActionEngine将GUI自动化智能体重新定义为图遍历问题。通过离线探索生成状态机，运行时只需约1次LLM调用即可生成完整的执行程序，据称相比传统的逐步视觉循环方法，在成功率、成本和延迟方面都有显著改善。

7. Liquid AI发布开源稀疏MoE模型LFM2-24B-A2B

Liquid AI发布了LFM2-24B-A2B，这是一个稀疏混合专家模型，拥有240亿参数，每token激活20亿参数。它设计为可在32GB内存上运行，支持llama.cpp、vLLM和SGLang推理，并提供多种GGUF量化版本，专注于高效部署。

8. Nous Research发布开源Hermes Agent，具备多级记忆与持久机器访问

Nous Research发布了开源的Hermes Agent，这是一个功能强大的智能体，内置多级记忆系统，并具有持久的专用机器访问权限，可直接从命令行运行。早期用户可通过优惠码在Nous门户获取免费试用。

9. Aider编码助手新增 `/ok` 命令，一键批准并执行AI生成的代码编辑

来源：文章内容
流行的编码助手Aider在其主分支中合并了新的/ok命令别名，允许开发者瞬间批准并执行AI生成的代码修改建议，极大简化了人机协作编程的工作流。

10. LM Studio推出LM Link功能，通过Tailscale实现本地模型的远程安全访问

LM Studio团队发布了LM Link功能的文档，该功能利用Tailscale技术，为用户提供无缝、端到端加密的远程访问，使其能够从任何地方安全地连接到家中或办公室的本地LLM服务器。

AINews - 2026-03-02

📰 十大AI新闻要点

1. Perplexity发布“Computer”：首个以编排为核心的多智能体产品

2. Karpathy宣称编程智能体自去年12月发生“质变”

3. OpenAI发布GPT-5.3-Codex，社区评测反响热烈

4. Qwen3.5 Medium系列模型发布，开源生态工具链迅速跟进

5. Anthropic收购Vercept以增强Claude的“计算机使用”能力

6. Anthropic被曝面临美国政府压力，要求放宽AI军事使用限制

7. Anthropic调整其“负责任扩展政策”，放弃单边训练限制承诺

8. Karpathy剖析AI算力核心矛盾：片上SRAM与片外DRAM的协同难题

9. xAI的Grok-4.20-Beta1登顶Arena搜索榜，文本榜表现亦佳

10. AI可靠性研究指出：智能体失败常源于“可靠性”而非“能力”

🛠️ 十大工具产品要点

1. Perplexity Computer采用基于用量的计费与子智能体模型选择

2. GitHub Copilot CLI正式发布，新增 /research 深度研究功能

3. Claude Code迎来“一周年”，集成Slack插件与LangSmith追踪

4. Qwen3.5系列模型获全方位本地部署支持，成智能体编码新宠

5. Trace-Free+：通过优化工具描述文本提升智能体成功率

6. ActionEngine：将GUI智能体重构为图遍历，大幅降低LLM调用成本

7. Liquid AI发布开源稀疏MoE模型LFM2-24B-A2B

8. Nous Research发布开源Hermes Agent，具备多级记忆与持久机器访问

9. Aider编码助手新增 /ok 命令，一键批准并执行AI生成的代码编辑

10. LM Studio推出LM Link功能，通过Tailscale实现本地模型的远程安全访问

2. GitHub Copilot CLI正式发布，新增 `/research` 深度研究功能

9. Aider编码助手新增 `/ok` 命令，一键批准并执行AI生成的代码编辑