小米今天扔了个炸弹。
1万亿参数的模型,推理速度达到每秒1000个token。这是什么概念?GPT-4级别的大模型,以前生成一句话要等你喝口水,现在你眼皮都来不及眨。
小米这个叫MiMo v2.5-Pro-UltraSpeed的东西,在Hacker News上第一天就拿走455个赞。不只是因为快——他们自研的TILERT推理引擎用了一套全新的张量并行策略,把KV Cache的优化做到了极致。在保持256K超长上下文的同时,把万亿模型的推理成本压到了能真正商用的级别。
一句话:AI推理的成本拐点,提前到了。
Apple在WWDC上干了件更狠的事——把AI底层全换了。
他们宣布的全新AI架构,核心用的是和Google合作的Foundation Models,也就是Gemini系列的技术。但关键不是用了谁的技术,而是他们做了一件以前没人敢做的事:让AI同时跑在手机芯片上和云端。
新的系统编排器(System Orchestrator)坐在架构中心,根据你当前打开的应用和正在做的事,动态决定哪些计算留在手机、哪些上云。照片编辑、语音生成、视觉问答——全部支持。
苹果管这叫”Core AI框架”,开发者文档已经出来了。这意味着什么?iOS 27的AI能力,第一次真正从Siri的”辅助功能”升级成”系统级基础设施”。
OpenAI悄悄提交了S-1招股书。
别被”confidentially”(保密)这个词骗了。这意味着他们不是在试探——他们是要真的上。CNBC的报道确认,OpenAI估值超过8500亿美元。
更戏剧性的是时间线:Anthropic一周前也交了S-1,SpaceX几天后开始交易。华尔街正在经历AI三巨头同时登陆的历史性时刻。 这仨要是都成功IPO,将包揽美国历史上规模最大的三个IPO。
但也有人泼冷水。
Ed Zitron在Substack上发表了一篇长文,标题直白得吓人:”AI正在减速”。这篇文章在HN上引发了355条评论的热议。核心论点是:尽管大模型在堆参数、堆算力上高歌猛进,但真正的”智能突破”——比如因果推理、自我改进——正在遇到物理瓶颈。
不是技术不行,而是我们可能高估了”更多数据+更大模型”这条路能走多远。
这跟昨天xAI被质疑”更像数据中心REIT而非AI实验室”的讨论形成呼应。当算力投入超过十倍增长、但实际体验提升不到两成时,投资人开始重新评估AI的价值了。
GitHub上值得关注的项目:
- langchain-ai/deepagents(24K⭐)——”开箱即用的AI代理框架”,把LangChain的所有能力打包成一个端到端的agent harness,支持多模型协同和自动工具调用
- microsoft/VibeVoice(49K⭐)——开源的前沿语音AI模型,支持实时语音生成和对话,GitHub上星标数已经超过49000
- xerrors/Yuxi(5.5K⭐)——中国开发者做的多租户Agent平台,集成了知识图谱管理,适合企业级AI知识库场景
我的判断:
2026年6月这个节点,AI行业正在经历一个微妙的转折。一面是小米、Apple、OpenAI在硬件和应用层疯狂推进;另一面是”AI减速论”和xAI被质疑在卖数据中心而非做AI。
短期看,AI应用爆发的窗口没关——推理成本下降让以前不可能的产品现在可以做了。但中期看,单纯堆参数的路线已经碰到天花板了,下一个突破一定来自推理方式、架构设计、或者新范式的出现。
如果你在做技术选型,现在是最该关注”推理效率”和”端到端架构”的时候,而不是盲目追参数量。
📺 更多 AI 工具实战教程,订阅 YouTube 频道 → youtube.com/@duckdblab