ai_news_summary_2025-08-30

AINews - 2025-08-30

原文链接

📰 十大AI新闻要点

1. OpenAI Realtime API正式发布

OpenAI Realtime API结束预览阶段正式发布,新增图像输入、远程MCP服务器支持、SIP/PBX支持和提示缓存功能,同时推出新的gpt-realtime模型,价格降低约20%


2. xAI发布Grok Code Fast 1编程模型

xAI推出”速度优先”的经济型编程推理模型Grok Code Fast 1,免费试用一周,集成到GitHub Copilot、Cursor等主流IDE工具中


3. 微软发布首款自研模型MAI系列

微软推出MAI-1-preview文本模型和MAI-Voice-1语音模型,MAI-1-preview在LMArena文本排行榜上排名第13位


4. 腾讯开源视频到音频生成框架HunyuanVideo-Foley

腾讯发布端到端文本/视频到音频框架,采用MMDiT骨干网络和REPA损失函数,在音频质量、视觉语义和时间对齐方面达到SOTA水平


5. 智谱AI GLM-4.5登顶函数调用排行榜

GLM-4.5在伯克利函数调用排行榜V4中排名第一,在实用API调用任务中展现出强大的工具使用能力


6. GPT-5在医学考试中超越医生表现

预印本研究表明GPT-5在美国医学执照考试风格评估中比执业医师表现优异25-30%,但依赖于结构化专家策划的输入数据


7. OpenAI和Oracle计划建设4.5GW数据中心

据报道OpenAI和Oracle正在规划4.5GW的Stargate数据中心建设,软银、微软和NVIDIA作为合作伙伴,传闻年合同价值300亿美元


8. 并行代理成为新的扩展维度

吴恩达指出并行代理编排已成为继数据、训练计算、测试时计算之后的第四大扩展杠杆,预计将出现更多多代理研究


9. Cohere发布专业翻译模型Command A Translate

Cohere推出任务专业化翻译模型,在复杂多领域任务上表现优于前沿通用模型,获得RWS/Language Weaver的第三方验证


10. OpenAI承认扫描用户对话并报告警方

OpenAI隐私政策确认会通过自动化系统和授权人员审查聊天内容,在法律要求或防止伤害的情况下向执法部门披露内容


🛠️ 十大工具产品要点

1. Realtime API新增图像输入功能

OpenAI Realtime API现在支持图像输入,扩展了多模态交互能力,使语音代理能够处理视觉信息


2. 远程MCP服务器支持

Realtime API新增远程模型上下文协议服务器支持,使开发者能够集成自定义工具和功能


3. SIP/PBX电话系统集成

新增SIP电话支持,提供呼叫路由、转移和挂断API,支持生产级呼叫流程


4. 改进的函数调用能力

gpt-realtime模型在函数调用方面有显著改进,支持更复杂的工具使用场景


5. 新语音Cedar和Marin

OpenAI推出两个新语音选项Cedar和Marin,改进了语音控制和韵律表现


6. WebRTC API统一化

新的一体化WebRTC API移除临时令牌步骤,在同一连接上支持视频功能


7. xAI Grok Code Fast 1多IDE集成

Grok Code Fast 1集成到GitHub Copilot、Cursor、Cline、Kilo Code等多个主流开发工具中


8. OpenAI Codex全栈开发集成

Codex现在支持IDE扩展、改进的本地CLI、统一本地+云任务管理和GitHub代码审查


9. 腾讯HunyuanVideo-Foley开源

提供完整的代码、报告和HF权重,支持视频条件音频生成,专注于 Foley/音效生成


10. 微软VibeVoice TTS ComfyUI封装

开源ComfyUI封装支持单说话人和多说话人节点,1.5B模型约需5GB VRAM,7B模型约需17GB VRAM