豆包离GPT-5.4只差0.95分，国产模型这天拿到第一梯队入场券

5条动态，看清AI的战场已经不在"跑分"了

以前的AI像实习生，只能"帮你想想办法"；现在的AI像老员工，直接"帮你把活干了"。

今天这五条新闻，刚好把这事儿说清楚了。

本日速览

公司/项目	核心事件	关键数据	影响评级
阿里千问	发布全模态大模型Qwen3.5-Omni	215项SOTA，256K上下文	⭐⭐⭐⭐⭐
豆包(字节)	跻身全球第一梯队，与GPT-5.4仅差0.95分	71.53分，智能体任务进前五	⭐⭐⭐⭐⭐
微软	开源语音AI家族VibeVoice	GitHub 27K Star，90分钟多说话人	⭐⭐⭐⭐
企业微信	开源CLI，AI可接管7大办公能力	支持Claude/Codex等4个框架	⭐⭐⭐⭐⭐
智元机器人	第10000台远征A3量产下线	15个月10倍增长，最后翻倍仅几个月	⭐⭐⭐⭐

01｜阿里千问发了全模态模型，还能"看懂视频写代码"

今天早上，阿里千问发布了Qwen3.5-Omni——一个能同时理解文本、图片、音频、视频的全模态大模型。

这不是阿里第一次发多模态模型，但这次有两个点值得看：215项SOTA成绩（在音视频、音频、语音识别等多个方向刷新了最优纪录），以及一个叫"Audio-Visual Vibe Coding"的自然涌现能力。

你给模型扔个视频，它不光能"看懂"，还能直接生成可运行的Python代码或前端原型——从"看"到"做"，一步到位。

其他参数也够硬：256K超长上下文，支持113种语言，最长处理10小时音频或1小时视频。语音交互这块，支持语义打断、音色克隆，能识别咳嗽声、附和声这类背景噪音，只对有效插话作出响应。

📌 对你意味着什么：如果你在做视频内容分析、多模态应用，阿里这套模型已经可以在阿里云百炼上直接调用API，有Plus、Flash、Light三个版本可选。

02｜豆包拿到第一梯队入场券，跟GPT-5.4只差0.95分

SuperCLUE发布了3月评估结果，字节跳动的豆包(Doubao-Seed-2.0-pro)拿到了71.53分，在国内模型里排第一，全球第三——跟OpenAI的GPT-5.4只差0.95分。

这个差距意味着什么？国产模型第一次真正进入了全球顶级阵营。

更值得看的是，豆包在"智能体任务规划"这个维度上，进了全球前五。这不是中文语境理解那种"主场优势"，而是逻辑推理、任务拆解这类"硬核能力"。

同一批评估里，小米的MiMo-V2-Pro在数学推理上拿了84.03分，闭源模型里名列前茅。国产模型已经不再只盯着中文聊天，而是在数学、代码、推理这些通用能力上，跟国际巨头正面刚了。

📌 对你意味着什么：如果你是中文场景为主，豆包的性价比和效果已经足够好，不必非得用ChatGPT。而且这次评估证明，国产模型在"硬核任务"上不再是配角。

03｜微软开源语音AI，GitHub 27K Star不是白来的

微软开源了一个叫VibeVoice的语音AI家族，MIT协议，GitHub上线后很快拿到了27K Star。

这套模型有3个成员：

VibeVoice-ASR-7B（70亿参数）：语音转文本，能一次处理60分钟音频，输出结构化文本（带说话人身份、时间戳）
VibeVoice-TTS-1.5B（15亿参数）：文本转语音，能生成90分钟的连续音频，支持4个不同说话人对话
VibeVoice-Realtime-0.5B（5亿参数）：实时语音合成，300毫秒延迟

免费、本地部署、无云订阅费用。项目地址在GitHub的microsoft/VibeVoice，HuggingFace上也有模型权重。

本地跑需要什么配置？

入门级：RTX 3060（12GB）或RTX 4060 Ti（16GB），能跑TTS和Realtime两个轻量模型
中端配置：RTX 3080（12GB）或RTX 4070 Ti（12GB），可运行全部三个模型
高端配置：RTX 4090/3090（24GB）或A100，推荐给需要处理长音频、追求速度的用户

其他要求：至少32GB内存（推荐64GB），50GB硬盘空间。显存需求上，7B模型约需14-16GB，1.5B模型约3-4GB，0.5B模型只需1-2GB。

这事儿的意义在于，以前你要做长音频转录、多人对话播客，得用收费服务；现在微软直接把这套技术开源了，开发者可以自己搭，成本是零。

📌 对你意味着什么：做播客转录、会议纪要、有声书生成的开发者，这套模型可以直接用。Google Colab上就能快速体验。如果你有RTX 3060及以上显卡，本地部署完全没问题。

04｜企业微信开源CLI，Claude和Codex能直接接管办公流程

企业微信开源了一个CLI项目，让AI智能体能直接调用7大办公能力：消息收发、日程管理、文档编辑、会议发起等。

这次开放最大的变化是：AI从"会聊天"变成了"能干活"。

以前你让AI帮你安排会议，它只能"建议你这么做"；现在通过这个CLI，Claude Code、Codex、WorkBuddy、QClaw这些AI代理，可以直接创建会议、发消息、改文档。

企业微信把自己定位成"AI友好的办公操作系统"，这次开源CLI，相当于把自己的核心能力开放给AI代理，让AI真正"加入"企业，变成能交付实际成果的"员工"。

📌 对你意味着什么：如果你在做企业办公自动化，这个CLI能快速接入企业微信生态，降低AI落地的门槛。开发者可以直接在GitHub上找到项目。

05｜人形机器人不再只是PPT，智元第10000台下线了

智元机器人宣布，第10000台"远征A3"通用具身机器人量产下线。

数字本身不够直观，看看增长曲线：从第1000台到第5000台，用了11个月；从第5000台到第10000台，只用了几个月。

人形机器人这个赛道，最大的难题不是"能不能做出来"，而是"能不能规模化生产"。智元这次证明的是：供应瓶颈正在被打破，人形机器人正从实验室原型走向商业化的深水区。

智元联合创始人彭志辉说过，规模化是这个领域最难的技术挑战之一。15个月10倍增长，至少说明一件事：生产成本在下降，硬件可靠性在提升，数据飞轮在转动。

📌 对你意味着什么：如果你关注具身智能赛道，智元的量产进展是一个信号：人形机器人的商业化落地正在加速，不再是"未来5年"的故事。

写在最后

今天这五条新闻，刚好连成一条线：国产模型在硬核能力上突破，开源工具让开发者成本归零，企业微信让AI真正进入工作流，人形机器人开始规模化生产。

AI的战场，确实不在"跑分"了。下一阶段的关键词，是"落地"、是"干活"、是"规模化"。

明天见。

豆包离GPT-5.4只差0.95分，国产模型这天拿到第一梯队入场券

豆包离GPT-5.4只差0.95分，国产模型这天拿到第一梯队入场券

5条动态，看清AI的战场已经不在"跑分"了

本日速览

01｜阿里千问发了全模态模型，还能"看懂视频写代码"

02｜豆包拿到第一梯队入场券，跟GPT-5.4只差0.95分

03｜微软开源语音AI，GitHub 27K Star不是白来的

04｜企业微信开源CLI，Claude和Codex能直接接管办公流程

05｜人形机器人不再只是PPT，智元第10000台下线了

写在最后

继续阅读