书生·浦语灵笔2.5-OL多模态实时交互大模型全面开源
上海AI实验室于2024年12月12日发布了多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive),该模型通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并支持通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。
该模型基于书生·浦语2.5大语言模型研发,采用了多模块通专融合的架构方案,通过多模态实时感知及记忆编码的快系统和多模态复杂推理大模型的慢系统协同,实现了多模态实时交互功能。书生·浦语灵笔2.5-OL支持实时视觉感知和语音对话,还创新地提出了多模态长期记忆的功能,可以准确回忆所观察的内容。
目前,该模型已完全开源了模型参数、系统集成推理和前后端应用部署的全套方案,支持免费商用申请。
关键特点:
多模态实时交互:通过视觉和听觉实时观察和理解外部世界,形成长期记忆并支持语音对话。
多模态长期记忆:可以准确回忆所观察的内容。
免费商用申请:模型参数、系统集成推理和前后端应用部署的全套方案已开源。
技术支持:
开源模型地址:https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b
代码仓库地址:https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive
应用部署:
支持LMDeploy部署4-bit实时交互应用,并支持免费商用。
系统流程设计:
前端:使用JavaScript开发,启用摄像头和麦克风捕捉视频和音频流输入。
SRS服务器:负责接收和传输音频流、视频流数据。
后端服务器:启动独立进程分别读取音频和视频,处理语音和视觉数据。
总体而言,书生·浦语灵笔2.5-OL为多模态交互提供了全新的解决方案,适用于具身机器人、可穿戴智能硬件、移动设备等领域的应用。
评论区