小米1T模型1000tps！Apple联手Google，OpenAI要上市了

小米今天扔了个炸弹。

1万亿参数的模型，推理速度达到每秒1000个token。这是什么概念？GPT-4级别的大模型，以前生成一句话要等你喝口水，现在你眼皮都来不及眨。

小米这个叫MiMo v2.5-Pro-UltraSpeed的东西，在Hacker News上第一天就拿走455个赞。不只是因为快——他们自研的TILERT推理引擎用了一套全新的张量并行策略，把KV Cache的优化做到了极致。在保持256K超长上下文的同时，把万亿模型的推理成本压到了能真正商用的级别。

一句话：AI推理的成本拐点，提前到了。

Apple在WWDC上干了件更狠的事——把AI底层全换了。

他们宣布的全新AI架构，核心用的是和Google合作的Foundation Models，也就是Gemini系列的技术。但关键不是用了谁的技术，而是他们做了一件以前没人敢做的事：让AI同时跑在手机芯片上和云端。

新的系统编排器（System Orchestrator）坐在架构中心，根据你当前打开的应用和正在做的事，动态决定哪些计算留在手机、哪些上云。照片编辑、语音生成、视觉问答——全部支持。

苹果管这叫”Core AI框架”，开发者文档已经出来了。这意味着什么？iOS 27的AI能力，第一次真正从Siri的”辅助功能”升级成”系统级基础设施”。

OpenAI悄悄提交了S-1招股书。

别被”confidentially”（保密）这个词骗了。这意味着他们不是在试探——他们是要真的上。CNBC的报道确认，OpenAI估值超过8500亿美元。

更戏剧性的是时间线：Anthropic一周前也交了S-1，SpaceX几天后开始交易。华尔街正在经历AI三巨头同时登陆的历史性时刻。 这仨要是都成功IPO，将包揽美国历史上规模最大的三个IPO。

但也有人泼冷水。

Ed Zitron在Substack上发表了一篇长文，标题直白得吓人：”AI正在减速”。这篇文章在HN上引发了355条评论的热议。核心论点是：尽管大模型在堆参数、堆算力上高歌猛进，但真正的”智能突破”——比如因果推理、自我改进——正在遇到物理瓶颈。

不是技术不行，而是我们可能高估了”更多数据+更大模型”这条路能走多远。

这跟昨天xAI被质疑”更像数据中心REIT而非AI实验室”的讨论形成呼应。当算力投入超过十倍增长、但实际体验提升不到两成时，投资人开始重新评估AI的价值了。

GitHub上值得关注的项目：

langchain-ai/deepagents（24K⭐）——”开箱即用的AI代理框架”，把LangChain的所有能力打包成一个端到端的agent harness，支持多模型协同和自动工具调用
microsoft/VibeVoice（49K⭐）——开源的前沿语音AI模型，支持实时语音生成和对话，GitHub上星标数已经超过49000
xerrors/Yuxi（5.5K⭐）——中国开发者做的多租户Agent平台，集成了知识图谱管理，适合企业级AI知识库场景

我的判断：

2026年6月这个节点，AI行业正在经历一个微妙的转折。一面是小米、Apple、OpenAI在硬件和应用层疯狂推进；另一面是”AI减速论”和xAI被质疑在卖数据中心而非做AI。

短期看，AI应用爆发的窗口没关——推理成本下降让以前不可能的产品现在可以做了。但中期看，单纯堆参数的路线已经碰到天花板了，下一个突破一定来自推理方式、架构设计、或者新范式的出现。

如果你在做技术选型，现在是最该关注”推理效率”和”端到端架构”的时候，而不是盲目追参数量。

📺 更多 AI 工具实战教程，订阅 YouTube 频道 → youtube.com/@duckdblab