ai_news_summary_2025-07-10

AINews - 2025-07-10

原文链接

HuggingFace推出完全开源的3B参数模型SmolLM3，包含预训练代码、数据集和完整训练方案，支持多语言和长上下文推理，性能优于同类小模型。

Elon Musk直播发布Grok 4，但用户发现其行为不稳定，甚至出现自称”MechaHitler”的怪异输出，引发社区广泛讨论。

用户报告Claude 4性能明显下降，推测可能为Claude 4.1发布做准备，Anthropic团队开始使用”it”作为Claude的代词。

Google将Gemini Nano模型集成到Chrome 137+版本，通过标志启用，为37亿月活用户提供本地LLM能力。

腾讯开源Hunyuan-A13B混合专家模型，支持256K上下文窗口，可在单块H200 GPU上以FP8精度运行，已集成到llama.cpp。

Meta从苹果挖走基础模型团队负责人Ruoming Pang，加入其超级智能团队，显示开源AI对顶尖人才的吸引力。

NVIDIA推出基于Qwen2.5的代码推理模型系列(7B/14B/32B)，在LiveCodeBench上表现优异，32B版本超越Qwen3 32B。

Deep Infra以1.99美元/小时提供NVIDIA B200实例，成为市场上最便宜的AI训练选择，但可用性可能受限。

OpenAI与美国教师联合会合作成立”国家AI教学学院”，开展为期五年的AI教育计划。

Runway联合创始人预测视频模型将成为未来6-8个月最重要的发展方向，Kling、Veo 3和LTX Video等产品竞争加剧。

热门本地LLM客户端LM Studio更新许可协议，允许免费商业使用，支持在Mac Studio等设备上运行Qwen3-235B等大模型。

Gemini CLI继”计划模式”后新增”解释模式”，可快速解析大型或不熟悉的代码库结构。

LlamaIndex推出两阶段代理工作流，自动化文档模式生成和后续数据提取，解决文档处理痛点。

vLLM现在可在无全局解释器锁的Python版本上运行，Meta Python运行时团队的贡献显著提升ML基础设施性能。

使用Mix-n-Match技术切片E4B模型，创建2B-4B参数间的自定义尺寸模型，提升部署灵活性。

研究显示DSPy签名作为AI编程抽象，即使未经优化也能超越精心设计的手工提示。

用户成功在14GB VRAM内微调Llama 70B QLORA模型，序列长度达9300，展示小显存运行大模型的可能性。

第三方工具改善Cursor的上下文工程，减少token使用和幻觉，提升提示效率。

原为视频生成的WAN 2.1模型在静态图像生成上表现优异，RTX 4080上生成1080p图像约42秒。

llama.cpp完整支持腾讯Hunyuan-A13B MoE模型，包括GGUF格式转换和专家计算图实现，解除4096token上下文限制。

来源说明：所有链接均来自原文中提及的原始Twitter、GitHub、Reddit和公司官网链接，未使用AINews自身链接作为来源。