检测器

pg电子模拟器网站免费:不用傻等AI回复了！OpenAI前CTO发布「实时交互模型」未来新方向？

发布时间：2026-05-13 16:39:55 来源：pg电子模拟器网站免费 pg模拟器:

5月11日，OpenAI前CTO Mira Murati创立的Thinking Machines的AI实验室发布了一项新研究，公开回应这样的一个问题。他们发布了一套名为交互模型的系统，其核心只有一个：AI应该像人一样参与进正常对话。

你可能会觉得，现在的大模型已经很厉害了。能写代码、能分析报告、能处理复杂任务。

因为一旦它开始回答，你就不能插话。它生成内容的过程是封闭的，所以只能等。等它说完，再看有没有偏差，再重新描述需求，再等它重新回答。

而现实中，真正高效的协作从来不是这样运作的。在真实的工作场景里，两个人坐在一起处理问题，会随时打断、随时确认、随时调整方向。信息是流动的，反馈是即时的。

Thinking Machines的研究团队认为，这才是问题的根本所在。现在的大模型，大多数在智能上已经很强，但交互方式却依然停留在非常落后的阶段。它们被设计成等待指令、处理、输出的线性流程，绝对没为真正的协作留出空间。

Thinking Machines提出的交互模型，核心改变是：把交互能力直接训练进模型本身，而不是靠外部系统拼凑出来。

现在很多看起来实时的AI助手，其实是靠一堆外部模块组合实现的。先用一个检测器判断用户说没说完，再把音频传给模型处理，再调用语音合成模块把文字变成声音输出，里面每个环节都有损耗。

Thinking Machines的做法是，从零开始训练一个原生支持实时交互的模型。

模型每200毫秒处理一小段音视频输入，同时生成200毫秒的输出。输入和输出持续交错运行，不用等你说完，也不用等它答完。

•可以问它帮我看看这段代码有没有bug，它可以边看你敲代码边实时给出反馈•你让它给你做俯卧撑计数，它会真的盯着摄像头，每做一个动作喊一个数•还可以实现同声传译

光有实时还不够，因为有些任务确实需要深度思考和长链条推理，这和快速响应天然是矛盾的。

•前台：交互模型，负责实时对话，始终在线，随时响应•后台：推理模型，负责处理复杂任务，比如调用工具、搜索网页、生成长文档、执行多步骤规划

两套模型共享上下文，后成一部分任务就把结果传回前台，由交互模型在合适的时机自然融入对话，而不是突然打断某一方。

这像一个配合默契的团队，一个人在前台负责接待，另一个人在后台快速处理，信息随时同步。

Thinking Machines公布了一批测评数据。他们的模型在主流实时AI系统的对比中，在交互质量和响应速度两个维度上都处于领先位置。

时间感知测试：让模型在你呼吸练习时，每四秒提醒一次吸气和呼气，要求时间精准，内容正确。

视觉主动响应测试：让模型盯着视频，在特定动作发生的瞬间主动开口回答，而不是等你说话。

他们对比了GPT Realtime和Gemini Live等当前主流实时模型。结论是：现有模型在这些任务上几乎没办法完成，大多数时候保持沉默，或者给出错误答案。

•连续的音视频流会快速积累上下文，如果对话时间非常长，模型的上下文管理会面临压力•低延迟流传输对网络稳定性要求很高，连接质量差的情况验会显而易见地下降•目前发布的是一个276B参数的MoE模型，其中120亿参数处于激活状态•更大规模的版本因为速度问题还没有部署，计划今年晚些时候推出•实时交互场景下的安全性和对齐问题，也是他们正在持续研究的方向OpenAI前CTO的复仇者联盟

2025年2月，Thinking Machines Lab正式成立。创始团队集结了大批OpenAI核心元老，被业内称为AI行业的复仇者联盟。

公司成立仅5个月，便完成20亿美元种子轮融资，由a16z领投，Nvidia、AMD、Jane Street等机构跟投，公司估值达到120亿美元。

即便遭遇大规模创始团队流失，公司仍在成立仅15个月后，推出了这一具有行业定义性的技术Demo。

过去几年，AI能力的竞争集中在一个维度：更聪明。更长的推理链、更强的代码能力、更大的知识库、更准确的输出。

但Thinking Machines的这项工作，指向了另一个可能被低估的领域：AI不只要更聪明，还要更会协作。

上一篇: 2026年全球AI传感器行业深度调研与细分市场数据分析报告下一篇: 瑞典Biotech Fluidics液相色谱检测器

检测器

新闻中心

联系我们

pg电子模拟器网站免费

联系人：张经理

手机：13389282290

电话：029-81616045

邮箱：13389282290@189.cn

地址：陕西自贸区西安国际港务区华南城