Fun-Audio-Chat_为自然、低延迟语音交互打造的大型音频语言模型

Web前端开发网

fly63.com

首页资源工具文章教程栏目

Fun-Audio-Chat

网站地址:https://funaudiollm.github.io/funaudiochat

GitHub:https://github.com/FunAudioLLM/Fun-Audio-Chat

网站描述:为自然、低延迟语音交互打造的大型音频语言模型

访问官网

GitHub

Fun-Audio-Chat阿里通义开源的端到端语音交互大模型是一个专为自然、低延迟语音交互打造的大型音频语言模型。它引入了双分辨率语音表征（高效的5Hz共享骨干网络 + 25Hz精细化头部），在保持高语音质量的同时大幅降低计算开销，并采用Core-Cocktail训练策略来保持强大的文本LLM能力。该模型在语音问答、音频理解、语音函数调用、语音指令遵循和语音情感共鸣等基准测试中均取得了顶尖成绩。

核心特性

双分辨率语音表征：高效的5Hz帧率（相比其他模型的12.5Hz或25Hz），将GPU训练时间减少近50%，同时保持高语音质量
业界领先性能：在同等规模模型（约8B参数）中，在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMAU-Pro、MMSU、Speech-ACEBench、Speech-BFCL、Speech-SmartInteract、VStyle等评测集上排名领先
全面的能力覆盖：支持语音问答、音频理解、语音函数调用、语音指令遵循、语音情感共鸣

技术原理

端到端S2S架构：Fun-Audio-Chat采用Speech-to-Speech（S2S）端到端架构，直接从语音输入生成语音输出，无需传统的ASR（语音识别）+ LLM（大语言模型）+ TTS（文本转语音）多模块拼接。显著提升了处理效率，降低了系统延迟，实现了更流畅的语音交互体验。
双分辨率设计：模型采用创新的双分辨率处理机制：Shared LLM层以5Hz帧率进行高效语义处理，而SRH（Speech Reconstruction Head）以25Hz帧率生成高质量语音。在保证语音质量的同时，将GPU计算开销降低了近50%，实现了性能与效率的平衡。
百万小时多任务数据训练：模型经过百万小时的多任务数据训练，覆盖了音频理解、语音问答、情感识别、工具调用等真实场景。能更”接地气”地理解用户意图，在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多个权威榜单上，同尺寸模型排名第一，综合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等竞品。
情感感知能力：Fun-Audio-Chat具备出色的情感识别能力，能从用户的语气、语速、停顿等副语言线索中感知情绪，即使用户没有直接表达情绪，也能准确识别并给出恰当的回应。使对话体验更加自然、人性化。
Speech Function Call功能：模型支持自然语音指令下的函数调用，用户只需用语音下达指令，系统能自动调用相关函数完成复杂任务。扩展了模型的应用场景，不仅能聊天，还能真正”干实事”。