AINews - 2026-03-01
📰 十大AI新闻要点
1. Perplexity发布“Computer”端到端AI代理系统
Perplexity推出名为“Computer”的新产品,定位为一个能够“研究、设计、编码、部署和管理”项目的端到端系统。其核心突破在于采用并行、异步的子代理架构,由协调模型将任务分配给专门的研究、编码或媒体模型,而非单一的单体代理循环。这代表了向系统级代理用户体验的迈进,强调多模型路由、隔离/沙箱、持久内存和成本控制。
来源:https://x.com/perplexity_ai/status/2026695550771540489
2. 编码代理能力发生“质变”,GPT-5.3-Codex等新模型发布
Andrej Karpathy声称,自去年12月以来,编码代理已跨越了一个质变的门槛,从脆弱的演示转变为能够持续、长视野地完成任务,具备连贯性和韧性。同期,OpenAI发布了GPT-5.3-Codex API,社区评测显示其在速度和任务完成度上有所提升。GitHub Copilot CLI也进入正式发布阶段,并新增了“/research”功能。
来源:https://x.com/karpathy/status/2026731645169185220
3. 通义千问Qwen3.5 Medium系列模型发布,推动本地代理发展
阿里巴巴发布了Qwen3.5 Medium系列模型(包括35B-A3B、27B、122B-A10B),并获得了vLLM、GGUF、LM Studio、Ollama等工具的当日支持。该系列模型在长上下文(最高支持超100万token)、量化鲁棒性方面表现突出。特别是Qwen3.5-35B-A3B模型,因其在本地运行(约32GB显存)时展现的可靠工具调用能力,被视为本地代理工作流的可行选择。
来源:https://x.com/Alibaba_Qwen/status/2026502059479179602
4. 代理可靠性问题凸显,研究聚焦工具接口优化与失败模式
有观点指出,尽管AI模型能力快速进步,但其可靠性提升有限。代理失败往往源于“可靠性”问题(如微小的工具调用错误不断累积),而非纯粹的“能力”不足。一项来自Intuit AI Research的工作表明,工具描述的文本质量对代理成功至关重要,并提出了一种无需推理时追踪的课程学习方法,以优化工具接口。
来源:https://x.com/omarsar0/status/2026676835539628465
5. 计算与内存架构成为AI推理的关键瓶颈
Andrej Karpathy指出,LLM工作流的核心约束在于协调两种不同的内存池:快速但微小的片上SRAM与庞大但缓慢的片外DRAM。如何为LLM的预填充、解码和训练工作流,尤其是在长上下文和紧密代理循环下的解码任务,实现最佳吞吐量、延迟和成本效益,是当前最大的难题。
来源:https://x.com/karpathy/status/2026452488434651264
6. Anthropic收购Vercept并调整其负责任扩展政策
Anthropic收购了专注于“计算机使用”能力的公司Vercept,以增强Claude的代理行动能力。同时,Anthropic对其“负责任扩展政策”进行了调整,从原先僵化的“达到阈值即停止训练”模式,转向更频繁地发布透明度报告和路线图,并更新威胁模型和外部审查承诺,这被解读为应对竞争压力和风险科学不确定性的举措。
来源:https://x.com/AnthropicAI/status/2026705792033026465
7. AI军事化应用引发伦理与政策争议
据报道,美国国防部向Anthropic发出最后通牒,要求其移除Claude AI模型中关于禁止用于国内监控和自主武器的安全护栏,否则可能动用《国防生产法》或将其列为供应链风险。与此同时,xAI据称已与五角大楼达成协议,将在机密系统中使用Grok。这引发了关于AI军事化、伦理界限和政府监管的广泛讨论。
来源:文章内容(综合多个Reddit讨论帖)
8. 能源消耗成为AI规模扩张的硬性约束
有报告称,由于AI和数据中心需求对电网造成巨大压力,美国政治领导层正在推动主要AI公司自行解决电力供应问题,以避免引起纳税人的反弹。这表明AI的规模扩张正日益成为基础设施和政策问题,而不仅仅是算法问题。
来源:https://x.com/kimmonismus/status/2026720759163298282
9. 大规模可解释性研究取得基础设施进展
Goodfire AI描述了其基础设施工作,使得在万亿参数规模上进行模型可解释性研究成为可能,且推理开销最小。该技术已能实时收集数十亿激活数据,并在至少一个案例研究中实现了对思维链的实时引导。
来源:https://x.com/GoodfireAI/status/2026748839303246238
10. 新型AI基准关注模型对荒谬指令的识别能力
社区提出了“Bullshit Benchmark”,用于测试模型识别并回绝无意义提示的能力,而非自信地给出错误答案。该基准旨在评估模型对上下文的理解和逻辑判断,而不仅仅是数据记忆能力。结果显示,不同模型在此项能力上表现差异显著。
来源:文章内容(源自Reddit讨论)
🛠️ 十大工具产品要点
1. Perplexity Computer:多模型编排的代理工作流平台
Perplexity Computer是一个集文件、工具、内存和模型于一体的界面,采用基于使用的定价模式,并为Max订阅用户提供初始访问。其核心创新是使用并行异步子代理与协调器模型的架构,旨在将“代理工作”视为分布式工作流而非单一聊天会话。
来源:https://x.com/perplexity_ai/status/2026695550771540489
2. GitHub Copilot CLI GA版及“/research”深度研究功能
GitHub Copilot CLI已达到正式发布(GA)状态。新增的“/research”命令可以利用GitHub代码搜索和MCP进行动态抓取,对代码库进行深度研究,并将报告导出为Gist分享,提升了终端内的代码理解和研究效率。
来源:https://x.com/_Evan_Boyle/status/2026458533320077689
3. 通义千问Qwen3.5系列模型的广泛部署支持
Qwen3.5 Medium系列在发布当日即获得了vLLM、GGUF、LM Studio、Ollama、Jan等主流部署工具的支持,展示了当前开源模型部署生态的极高效率。同时,官方开源了FP8权重,并提供了原生vLLM/SGLang支持。
来源:https://x.com/Alibaba_Qwen/status/2026496673179181292
4. ActionEngine:将GUI代理重构为图遍历的离线规划系统
ActionEngine将GUI自动化代理任务重新定义为图遍历问题,通过离线探索生成状态机。在运行时,只需约1次LLM调用即可生成完整执行程序,据称相比逐步视觉循环的方法,在成功率、成本和延迟方面有显著改善。
来源:https://x.com/dair_ai/status/2026678090815123594
5. Liquid AI发布稀疏MoE模型LFM2-24B-A2B
Liquid AI发布了LFM2-24B-A2B,这是一个拥有240亿参数、每次推理激活20亿参数的稀疏混合专家模型。它设计为可在32GB内存上运行,支持通过llama.cpp、vLLM和SGLang进行推理,并提供了多种GGUF量化版本。
来源:文章内容(源自Reddit讨论)
6. Nous Research发布开源Hermes Agent
Nous Research发布了开源Hermes Agent,这是一个具有多级记忆系统和持久专用机器访问权限的强大工具,可直接从CLI运行。用户可通过优惠码在Nous Portal获得免费试用,让AI控制浏览器并自主管理子代理。
来源:https://github.com/nousresearch/hermes-agent
7. Aider编码助手新增一键批准功能
Aider编码助手在其主分支中合并了新的“/ok”命令别名,允许开发者即时批准并执行AI生成的代码编辑。这进一步优化了AI辅助编程的人机协作流程。
来源:文章内容(源自Discord摘要)
8. LM Studio推出LM Link实现远程安全访问本地模型
LM Studio团队发布了LM Link功能文档,该功能利用Tailscale为用户提供无缝、端到端加密的远程访问,使其能够安全地从外部网络连接到本地运行的LLM服务器。
来源:https://link.lmstudio.ai
9. PyTorch集成Flash Attention 3内核
通过在PyTorch中调用
activate_flash_attention_impl(“FA3”),可以安全地将默认的Flash Attention 2内核替换为FA3。这是通过简单的register_fn字典交换实现的,有助于提升注意力计算效率。
来源:文章内容(源自GitHub代码链接)
10. 出现针对COBOL遗产代码现代化的AI工具
Anthropic发布了一款旨在分析和现代化COBOL代码库的AI工具。COBOL是一种仍有大量关键系统(如美国95%的ATM交易)在使用的古老语言,该工具声称能识别风险并降低现代化成本,对IBM等主营遗产系统服务的公司构成潜在挑战。
来源:文章内容(源自Reddit讨论)