AINews - 2025-08-30
📰 十大AI新闻要点
1. OpenAI Realtime API正式发布
OpenAI Realtime API结束预览阶段正式发布,新增图像输入、远程MCP服务器支持、SIP/PBX支持和提示缓存功能,同时推出新的gpt-realtime模型,价格降低约20%
2. xAI发布Grok Code Fast 1编程模型
xAI推出”速度优先”的经济型编程推理模型Grok Code Fast 1,免费试用一周,集成到GitHub Copilot、Cursor等主流IDE工具中
3. 微软发布首款自研模型MAI系列
微软推出MAI-1-preview文本模型和MAI-Voice-1语音模型,MAI-1-preview在LMArena文本排行榜上排名第13位
4. 腾讯开源视频到音频生成框架HunyuanVideo-Foley
腾讯发布端到端文本/视频到音频框架,采用MMDiT骨干网络和REPA损失函数,在音频质量、视觉语义和时间对齐方面达到SOTA水平
5. 智谱AI GLM-4.5登顶函数调用排行榜
GLM-4.5在伯克利函数调用排行榜V4中排名第一,在实用API调用任务中展现出强大的工具使用能力
6. GPT-5在医学考试中超越医生表现
预印本研究表明GPT-5在美国医学执照考试风格评估中比执业医师表现优异25-30%,但依赖于结构化专家策划的输入数据
7. OpenAI和Oracle计划建设4.5GW数据中心
据报道OpenAI和Oracle正在规划4.5GW的Stargate数据中心建设,软银、微软和NVIDIA作为合作伙伴,传闻年合同价值300亿美元
8. 并行代理成为新的扩展维度
吴恩达指出并行代理编排已成为继数据、训练计算、测试时计算之后的第四大扩展杠杆,预计将出现更多多代理研究
9. Cohere发布专业翻译模型Command A Translate
Cohere推出任务专业化翻译模型,在复杂多领域任务上表现优于前沿通用模型,获得RWS/Language Weaver的第三方验证
10. OpenAI承认扫描用户对话并报告警方
OpenAI隐私政策确认会通过自动化系统和授权人员审查聊天内容,在法律要求或防止伤害的情况下向执法部门披露内容
🛠️ 十大工具产品要点
1. Realtime API新增图像输入功能
OpenAI Realtime API现在支持图像输入,扩展了多模态交互能力,使语音代理能够处理视觉信息
2. 远程MCP服务器支持
Realtime API新增远程模型上下文协议服务器支持,使开发者能够集成自定义工具和功能
3. SIP/PBX电话系统集成
新增SIP电话支持,提供呼叫路由、转移和挂断API,支持生产级呼叫流程
4. 改进的函数调用能力
gpt-realtime模型在函数调用方面有显著改进,支持更复杂的工具使用场景
5. 新语音Cedar和Marin
OpenAI推出两个新语音选项Cedar和Marin,改进了语音控制和韵律表现
6. WebRTC API统一化
新的一体化WebRTC API移除临时令牌步骤,在同一连接上支持视频功能
7. xAI Grok Code Fast 1多IDE集成
Grok Code Fast 1集成到GitHub Copilot、Cursor、Cline、Kilo Code等多个主流开发工具中
8. OpenAI Codex全栈开发集成
Codex现在支持IDE扩展、改进的本地CLI、统一本地+云任务管理和GitHub代码审查
9. 腾讯HunyuanVideo-Foley开源
提供完整的代码、报告和HF权重,支持视频条件音频生成,专注于 Foley/音效生成
10. 微软VibeVoice TTS ComfyUI封装
开源ComfyUI封装支持单说话人和多说话人节点,1.5B模型约需5GB VRAM,7B模型约需17GB VRAM