← 返回资讯列表

豆包离GPT-5.4只差0.95分,国产模型这天拿到第一梯队入场券

豆包离GPT-5.4只差0.95分,国产模型这天拿到第一梯队入场券

5条动态,看清AI的战场已经不在"跑分"了

以前的AI像实习生,只能"帮你想想办法";现在的AI像老员工,直接"帮你把活干了"。

今天这五条新闻,刚好把这事儿说清楚了。


本日速览

公司/项目 核心事件 关键数据 影响评级
阿里千问 发布全模态大模型Qwen3.5-Omni 215项SOTA,256K上下文 ⭐⭐⭐⭐⭐
豆包(字节) 跻身全球第一梯队,与GPT-5.4仅差0.95分 71.53分,智能体任务进前五 ⭐⭐⭐⭐⭐
微软 开源语音AI家族VibeVoice GitHub 27K Star,90分钟多说话人 ⭐⭐⭐⭐
企业微信 开源CLI,AI可接管7大办公能力 支持Claude/Codex等4个框架 ⭐⭐⭐⭐⭐
智元机器人 第10000台远征A3量产下线 15个月10倍增长,最后翻倍仅几个月 ⭐⭐⭐⭐

01|阿里千问发了全模态模型,还能"看懂视频写代码"

今天早上,阿里千问发布了Qwen3.5-Omni——一个能同时理解文本、图片、音频、视频的全模态大模型。

这不是阿里第一次发多模态模型,但这次有两个点值得看:215项SOTA成绩(在音视频、音频、语音识别等多个方向刷新了最优纪录),以及一个叫"Audio-Visual Vibe Coding"的自然涌现能力。

你给模型扔个视频,它不光能"看懂",还能直接生成可运行的Python代码或前端原型——从"看"到"做",一步到位。

其他参数也够硬:256K超长上下文,支持113种语言,最长处理10小时音频或1小时视频。语音交互这块,支持语义打断、音色克隆,能识别咳嗽声、附和声这类背景噪音,只对有效插话作出响应。

📌 对你意味着什么:如果你在做视频内容分析、多模态应用,阿里这套模型已经可以在阿里云百炼上直接调用API,有Plus、Flash、Light三个版本可选。


02|豆包拿到第一梯队入场券,跟GPT-5.4只差0.95分

SuperCLUE发布了3月评估结果,字节跳动的豆包(Doubao-Seed-2.0-pro)拿到了71.53分,在国内模型里排第一,全球第三——跟OpenAI的GPT-5.4只差0.95分。

这个差距意味着什么?国产模型第一次真正进入了全球顶级阵营

更值得看的是,豆包在"智能体任务规划"这个维度上,进了全球前五。这不是中文语境理解那种"主场优势",而是逻辑推理、任务拆解这类"硬核能力"。

同一批评估里,小米的MiMo-V2-Pro在数学推理上拿了84.03分,闭源模型里名列前茅。国产模型已经不再只盯着中文聊天,而是在数学、代码、推理这些通用能力上,跟国际巨头正面刚了。

📌 对你意味着什么:如果你是中文场景为主,豆包的性价比和效果已经足够好,不必非得用ChatGPT。而且这次评估证明,国产模型在"硬核任务"上不再是配角。


03|微软开源语音AI,GitHub 27K Star不是白来的

微软开源了一个叫VibeVoice的语音AI家族,MIT协议,GitHub上线后很快拿到了27K Star。

这套模型有3个成员:

  • VibeVoice-ASR-7B(70亿参数):语音转文本,能一次处理60分钟音频,输出结构化文本(带说话人身份、时间戳)
  • VibeVoice-TTS-1.5B(15亿参数):文本转语音,能生成90分钟的连续音频,支持4个不同说话人对话
  • VibeVoice-Realtime-0.5B(5亿参数):实时语音合成,300毫秒延迟

免费、本地部署、无云订阅费用。项目地址在GitHub的microsoft/VibeVoice,HuggingFace上也有模型权重。

本地跑需要什么配置?

  • 入门级:RTX 3060(12GB)或RTX 4060 Ti(16GB),能跑TTS和Realtime两个轻量模型
  • 中端配置:RTX 3080(12GB)或RTX 4070 Ti(12GB),可运行全部三个模型
  • 高端配置:RTX 4090/3090(24GB)或A100,推荐给需要处理长音频、追求速度的用户

其他要求:至少32GB内存(推荐64GB),50GB硬盘空间。显存需求上,7B模型约需14-16GB,1.5B模型约3-4GB,0.5B模型只需1-2GB。

这事儿的意义在于,以前你要做长音频转录、多人对话播客,得用收费服务;现在微软直接把这套技术开源了,开发者可以自己搭,成本是零。

📌 对你意味着什么:做播客转录、会议纪要、有声书生成的开发者,这套模型可以直接用。Google Colab上就能快速体验。如果你有RTX 3060及以上显卡,本地部署完全没问题。


04|企业微信开源CLI,Claude和Codex能直接接管办公流程

企业微信开源了一个CLI项目,让AI智能体能直接调用7大办公能力:消息收发、日程管理、文档编辑、会议发起等。

这次开放最大的变化是:AI从"会聊天"变成了"能干活"

以前你让AI帮你安排会议,它只能"建议你这么做";现在通过这个CLI,Claude Code、Codex、WorkBuddy、QClaw这些AI代理,可以直接创建会议、发消息、改文档

企业微信把自己定位成"AI友好的办公操作系统",这次开源CLI,相当于把自己的核心能力开放给AI代理,让AI真正"加入"企业,变成能交付实际成果的"员工"。

📌 对你意味着什么:如果你在做企业办公自动化,这个CLI能快速接入企业微信生态,降低AI落地的门槛。开发者可以直接在GitHub上找到项目。


05|人形机器人不再只是PPT,智元第10000台下线了

智元机器人宣布,第10000台"远征A3"通用具身机器人量产下线。

数字本身不够直观,看看增长曲线:从第1000台到第5000台,用了11个月;从第5000台到第10000台,只用了几个月

人形机器人这个赛道,最大的难题不是"能不能做出来",而是"能不能规模化生产"。智元这次证明的是:供应瓶颈正在被打破,人形机器人正从实验室原型走向商业化的深水区

智元联合创始人彭志辉说过,规模化是这个领域最难的技术挑战之一。15个月10倍增长,至少说明一件事:生产成本在下降,硬件可靠性在提升,数据飞轮在转动。

📌 对你意味着什么:如果你关注具身智能赛道,智元的量产进展是一个信号:人形机器人的商业化落地正在加速,不再是"未来5年"的故事。


写在最后

今天这五条新闻,刚好连成一条线:国产模型在硬核能力上突破,开源工具让开发者成本归零,企业微信让AI真正进入工作流,人形机器人开始规模化生产。

AI的战场,确实不在"跑分"了。下一阶段的关键词,是"落地"、是"干活"、是"规模化"。

明天见。

继续阅读

查看全部