GPT-4o类多模态大模型(LMMs)展现出在文本、视觉和语音模态上的卓越能力,其在线语音服务还能实时提供交互过程中的文本转录内容(包括用户输入和模型响应的文字记录),为用户创造"视听同步"的沉浸式体验。这使得构建支持文本、视觉和语音的多模态大模型成为当前研究热点。现有模型通常采用多编码器提取各模态特征,再通过序列拼接方式输入大语言模型基座生成回复。虽然这种拼接方法简化了模态集成流程,但高度依赖海量数据来学习模态对齐,且缺乏GPT-4o那种实时生成中间文本的灵活性。
针对这一挑战,中科院计算所自然语言处理团队创新性地提出Stream-Omni多模态大模型。该模型通过精细化建模模态间关系,实现了更高效的文本-视觉-语音对齐。仅需2.3万小时语音数据训练,Stream-Omni就能支持文本对话、语音交互、视觉引导语音等多种交互方式。其突破性的语音建模技术还能像GPT-4o一样实时输出交互文本,为用户提供完整的跨模态体验。
研究论文:《Stream-Omni:基于大语言-视觉-语音模型的同步多模态交互》
论文地址:https://arxiv.org/abs/2506.13642
开源代码:https://github.com/ictnlp/Stream-Omni
模型下载:https://huggingface.co/ICTNLP/stream-omni-8b
在模态对齐方面,Stream-Omni创新性地采用差异化策略:对于视觉-文本采用序列拼接,语音-文本则采用层级映射。具体实现上,模型以大语言模型(LLM)为核心,通过连接时序分类(CTC)技术建立语音到文本的精准映射。这种设计具有双重优势:既支持语音输入与文本控制的协同工作,又能通过直接监督信号实现小数据下的能力迁移。层级映射机制还赋予了实时文本转录的独特能力。
模型架构上,Stream-Omni以LLM为主体,分阶段整合视觉和语音模态。视觉处理沿用LLaVA的序列拼接方式,语音处理则包含三个关键环节:首先通过CosyVoice Tokenizer将语音离散化;然后利用底部语音层实现语音到文本的CTC映射;最后通过顶部语音层的alignment-based fusion模块实现文本到语音的同步生成。这种模块化设计支持任意模态的自由组合。
实验表明,Stream-Omni在视觉理解任务上达到同类模型水平,在事实性语音交互中表现更优。特别在跨模态一致性方面,相比传统拼接方法容易产生矛盾响应的问题,Stream-Omni凭借精准的语音-文本映射,能确保不同输入模态下回答的一致性。同时还能输出高质量的语音回复(更多案例详见项目主页)。
总结来看,Stream-Omni作为GPT-4o式的多模态大模型,其核心突破在于:1)支持灵活的多模态组合交互;2)实现语音交互中的实时文本反馈;3)通过创新对齐机制降低数据依赖。需要注意的是,本研究聚焦模态对齐基础问题,在语音拟人化等表现力维度仍有提升空间。
吞天剑帝境界等级划分详解(附龙彻5位女主与完整章节列表)
《吞天剑帝》是近年来备受关注的玄幻小说,讲述了少年孙冰凭借神秘剑匣踏上修炼之路的故事。本文将详细介绍该作品的境界等级划分,并附上主要角色龙彻的5位女主信息及关键章节列表。
关于龙彻的感情线,作品中明确出现了5位重要女性角色:凌菲儿、谷惠子、宋钦瑶、李雪雁和林苑清。这些角色在剧情发展中与龙彻有着密切的互动关系。
小说第311-324章包含了多个精彩情节:地下宝库探险、与吞天蟒的战斗、赤青的出场与败亡、燕姬歌的现身、风神腿与排云掌的武学展示,以及拔剑术第四层和雷之意境的突破等关键剧情。
故事背景设定在万族林立的九州大陆,修士修炼到高深境界可搬山填海、手握日月。主角孙冰通过十年磨一剑的坚持,最终锋芒毕露,展现了令人瞩目的成长轨迹。