pg电子模拟器网站免费专业软启动器及成套控制设备生产厂家

软启动器维修

检测器

pg电子模拟器网站免费:不用傻等AI回复了!OpenAI前CTO发布「实时交互模型」未来新方向?

发布时间:2026-05-13 16:39:55   来源:pg电子模拟器网站免费 pg模拟器:

  5月11日,OpenAI前CTO Mira Murati创立的Thinking Machines的AI实验室发布了一项新研究,公开回应这样的一个问题。他们发布了一套名为交互模型的系统,其核心只有一个:AI应该像人一样参与进正常对话。

  你可能会觉得,现在的大模型已经很厉害了。能写代码、能分析报告、能处理复杂任务。

  因为一旦它开始回答,你就不能插话。它生成内容的过程是封闭的,所以只能等。等它说完,再看有没有偏差,再重新描述需求,再等它重新回答。

  而现实中,真正高效的协作从来不是这样运作的。在真实的工作场景里,两个人坐在一起处理问题,会随时打断、随时确认、随时调整方向。信息是流动的,反馈是即时的。

  Thinking Machines的研究团队认为,这才是问题的根本所在。现在的大模型,大多数在智能上已经很强,但交互方式却依然停留在非常落后的阶段。它们被设计成等待指令、处理、输出的线性流程,绝对没为真正的协作留出空间。

  Thinking Machines提出的交互模型,核心改变是:把交互能力直接训练进模型本身,而不是靠外部系统拼凑出来。

  现在很多看起来实时的AI助手,其实是靠一堆外部模块组合实现的。先用一个检测器判断用户说没说完,再把音频传给模型处理,再调用语音合成模块把文字变成声音输出,里面每个环节都有损耗。

  Thinking Machines的做法是,从零开始训练一个原生支持实时交互的模型。

  模型每200毫秒处理一小段音视频输入,同时生成200毫秒的输出。输入和输出持续交错运行,不用等你说完,也不用等它答完。

  •可以问它帮我看看这段代码有没有bug,它可以边看你敲代码边实时给出反馈•你让它给你做俯卧撑计数,它会真的盯着摄像头,每做一个动作喊一个数•还可以实现同声传译

  光有实时还不够,因为有些任务确实需要深度思考和长链条推理,这和快速响应天然是矛盾的。

  •前台:交互模型,负责实时对话,始终在线,随时响应•后台:推理模型,负责处理复杂任务,比如调用工具、搜索网页、生成长文档、执行多步骤规划

  两套模型共享上下文,后成一部分任务就把结果传回前台,由交互模型在合适的时机自然融入对话,而不是突然打断某一方。

  这像一个配合默契的团队,一个人在前台负责接待,另一个人在后台快速处理,信息随时同步。

  Thinking Machines公布了一批测评数据。他们的模型在主流实时AI系统的对比中,在交互质量和响应速度两个维度上都处于领先位置。

  时间感知测试:让模型在你呼吸练习时,每四秒提醒一次吸气和呼气,要求时间精准,内容正确。

  视觉主动响应测试:让模型盯着视频,在特定动作发生的瞬间主动开口回答,而不是等你说话。

  他们对比了GPT Realtime和Gemini Live等当前主流实时模型。结论是:现有模型在这些任务上几乎没办法完成,大多数时候保持沉默,或者给出错误答案。

  •连续的音视频流会快速积累上下文,如果对话时间非常长,模型的上下文管理会面临压力•低延迟流传输对网络稳定性要求很高,连接质量差的情况验会显而易见地下降•目前发布的是一个276B参数的MoE模型,其中120亿参数处于激活状态•更大规模的版本因为速度问题还没有部署,计划今年晚些时候推出•实时交互场景下的安全性和对齐问题,也是他们正在持续研究的方向OpenAI前CTO的复仇者联盟

  2025年2月,Thinking Machines Lab正式成立。创始团队集结了大批OpenAI核心元老,被业内称为AI行业的复仇者联盟。

  公司成立仅5个月,便完成20亿美元种子轮融资,由a16z领投,Nvidia、AMD、Jane Street等机构跟投,公司估值达到120亿美元。

  即便遭遇大规模创始团队流失,公司仍在成立仅15个月后,推出了这一具有行业定义性的技术Demo。

  过去几年,AI能力的竞争集中在一个维度:更聪明。更长的推理链、更强的代码能力、更大的知识库、更准确的输出。

  但Thinking Machines的这项工作,指向了另一个可能被低估的领域:AI不只要更聪明,还要更会协作。

联系我们

pg电子模拟器网站免费

联系人:张经理

手机:13389282290

电话:029-81616045

邮箱:13389282290@189.cn

地址:陕西自贸区西安国际港务区华南城