Moshi

百科释义

报错

Moshi是由法国Kyutai实验室开发的端到端实时语音生成模型，其核心目标是通过低延迟交互与多模态能力模拟人类对话的动态特征。该模型由8人团队耗时六个月开发，于2024年7月首次发布。采用7.69B参数的Helium语言模型与Mimi神经音频编解码器，支持70种情绪表达和全双工通信技术，能够处理对话中的重叠语音与即时打断。其理论延迟低至160毫秒，实际延迟在200到240毫秒之间，可在MacBook和L4 GPU上运行。Kyutai实验室已开源该模型的代码、权重及技术文档。查看百科

注：百科释义来自于百度百科，由网友自行编辑。