ai_news_summary_2026-03-04

AINews - 2026-03-04

原文链接

📰 十大AI新闻要点

1. 阿里发布Qwen 3.5小型模型系列，主打边缘与多模态

阿里巴巴发布了Qwen 3.5小型模型系列，包括0.8B、2B、4B和9B参数版本，提供Base和Instruct模型。该系列定位为“更高智能，更低算力”，具备原生多模态能力和规模化强化学习，明确针对边缘计算和轻量级智能体部署。模型支持高达262K的原生上下文长度（可扩展至1M），并已在Ollama、LM Studio等平台快速集成。

2. 苹果神经引擎（ANE）被逆向工程，可用于模型训练

研究人员成功逆向工程了苹果的神经引擎（ANE），利用未公开的API绕过了CoreML，构建了Transformer训练循环。该研究展示了ANE极高的能效比（M4 ANE达6.6 TFLOPS/W，而A100为0.08 TFLOPS/W），并指出其实际FP16算力约为19 TFLOPS，而非宣传的38 TOPS。这为在苹果设备上进行本地训练/微调打开了可能性。

3. OpenAI与美国国防部合同引发用户强烈反弹

在OpenAI宣布与美国国防部（DoW）达成协议后，ChatGPT移动应用的卸载量在48小时内激增295%。Sam Altman随后公布了合同修正案语言，明确禁止对美国人员进行“故意”的国内监视，并指出情报机构（如NSA）的使用需要后续修改。然而，法律界人士指出“故意”一词可能保留了“附带收集”的法律漏洞。

4. CUDA Agent：基于强化学习的CUDA内核生成取得突破

字节跳动发布“CUDA Agent”研究，利用基于真实性能剖析的奖励机制进行智能体强化学习，以生成高性能CUDA内核。该方法超越了“能编译的代码”，致力于生成“运行快速的代码”，据称在KernelBench上达到SOTA，性能大幅超越torch.compile，并在最难的内核生成任务上与前沿大模型竞争。

5. 报告称超80%的部署代码由Claude Code编写，引发可靠性担忧

一份广为流传的数据点称，在部分组织中“超过80%的所有部署代码由Claude Code编写”。这引发了关于开发速度是否以牺牲代码可靠性为代价的讨论，社区担忧这可能带来回归风险。同时，关于Claude Code在大型公司内部的采用以及“监督编码”取代手动编码的讨论也在进行。

6. GitNexus：浏览器内仓库知识图谱与图RAG智能体

发布了GitNexus工具，它能在浏览器内将代码仓库解析成交互式D3知识图谱，将关系存储在嵌入式KuzuDB中，并通过图遍历查询语言（Cypher）而非传统向量检索来回答问题。该项目完全在浏览器中运行，使用Web Workers，并采用MIT许可证，为代码理解和智能体问答提供了新范式。

7. 智能体可靠性与“可用性”成为新痛点

社区讨论指出，当前AI运维的痛点不仅是模型质量，还包括服务“可用性”和因宕机导致的用户体验降级。Claude等服务的多次中断对生产力造成了实际影响，引发了“我们即将达到1个9的可用性（即90%可用）”的调侃，凸显了AI服务可靠性的重要性。

8. DeepSeek V4发布在即，传闻参数达万亿级

据社区传闻，DeepSeek V4预计于2026年3月3日左右发布。传闻其参数规模将达到约1万亿，上下文窗口为100万token，并引入“印迹条件记忆”和“流形约束超连接”等新架构特性。该模型将是多模态的（能处理文本、图像、视频、音频），并针对华为昇腾和寒武纪硬件进行了优化。

9. 五角大楼将Anthropic列为供应链风险，OpenAI趁势而入

美国国防部将Anthropic指定为“供应链风险”，并禁止军事承包商使用其模型，原因是Anthropic拒绝提供无限制的访问权限。与此同时，OpenAI与国防部签署了一项在机密环境中部署先进AI系统的协议，并声称设置了比以往交易更严格的护栏。

10. Google发布Static框架，将LLM生成式检索解码加速948倍

Google AI发布了Static，一个稀疏矩阵框架，专为基于大语言模型的生成式检索设计。该框架通过利用稀疏矩阵运算，实现了高达948倍的约束解码加速，显著提升了检索效率和性能。

🛠️ 十大工具产品要点

1. Qwen 3.5系列模型已在Ollama上线

Qwen 3.5全系列小型模型（0.8B, 2B, 4B, 9B）已集成至Ollama，用户可通过ollama run qwen3.5:[size]b命令直接运行。该集成支持工具调用、思维链和多模态功能，极大简化了本地部署流程。

2. Docker Desktop新增MLX模型运行器

Docker Desktop的“Model Runner”功能新增对MLX模型的支持，能够以OpenAI兼容的API工作流运行模型。这为Apple Silicon开发者提供了更流畅的本地模型服务体验，简化了开发循环。

3. Stripe推出LLM代币计费代理服务

Stripe推出了面向LLM的计费代理服务，允许开发者选择模型、设置加价，并通过Stripe的LLM代理路由调用，自动记录使用量并计费。这标志着“LLM运维”正被整合进标准的SaaS财务基础设施中。

4. llama.cpp计划提供官方Debian/Ubuntu软件包

llama.cpp作者正在征求关于提供官方Debian/Ubuntu软件包的反馈。这一举措将有助于主流Linux发行版用户更便捷地安装和使用这款流行的本地推理工具，推动其进一步普及。

5. GitNexus：基于Cypher的浏览器内图RAG工具

GitNexus是一个完全在浏览器内运行的工具，能将代码仓库转换为交互式知识图谱，并使用Cypher查询语言进行图遍历检索（Graph RAG），而非传统的基于嵌入向量的检索，为代码库问答提供了新思路。

6. LM Studio支持同时加载多个模型并通过API调用

用户发现LM Studio能够同时加载多个模型，并通过API为特定任务调用不同的模型。这为构建复杂的本地模型工作流提供了便利，例如让不同模型扮演特定角色或处理专门任务。

7. Sakana AI发布“文本生成LoRA”模型

Sakana AI开源了“text-to-lora”模型及其代码，该模型能够根据文本提示直接生成LoRA适配器权重。训练该模型大约需要在一张H100 GPU上连续运行5天，为快速定制化模型微调提供了新工具。

8. Anthropic发布《Claude技能构建完全指南》

Anthropic发布了一份30页的指南，引导开发者从冗长的提示词工程转向构建结构化的“技能”文件。通过将工作流打包成专用文件并进行渐进式披露，可以大幅减少上下文膨胀，提升智能体效率。

9. AMD开源rocprof-trace-decoder工具

AMD开源了rocprof-trace-decoder，提供了SQTT跟踪定义，支持更深层次的指令级时序跟踪。社区认为这标志着AMD的追踪基础设施在某些方面“优于NVIDIA的”，有助于开发者进行性能分析和优化。

10. OpenClaw社区开源其治理政策

OpenClaw社区将其政策与指南在GitHub上开源，以提高透明度。该仓库提供了可访问且最新的社区治理文档，但不包含试用版审核员数据和审核日志。