SAM-Audio 是 Meta(脸书)研究院开源的一款音频分割模型,就像一个 “音频精准提取
工具”—— 能从杂乱的混合音频里,精准分离出你想要的特定声音。它的核心依赖于 Perception-Encoder Audio-Visual(PE-AV)
技术,支持通过文本、视觉、时间片段三种不同的 “提示方式” 工作,不管是复杂环境里的背景音、歌曲中的乐器声,还是对话里的特定人声,都能想分就分。
这个项目在 GitHub 上提供了完整的运行
代码、预训练模型 checkpoint 下载链接,还有详细的示例笔记本,开发者不用从零搭建
框架,跟着示例就能快速上手使用。而且它支持多种规格的模型(小、中、大尺寸),还针对视觉提示和目标声音正确性做了专门优化的变体版本,能适配不同场景的需求。
核心功能特色
三种灵活的提示分离方式,想用哪种用哪种
- 文本提示:用简单的自然语言描述就行,比如想提取 “雷声”“男人说话声”“汽车鸣笛声”,直接输入对应的短语(注意按要求用小写名词或动词短语,不用复杂句子),模型就能精准定位并分离。
- 视觉提示:如果有对应的视频,只要给视频帧加上掩码(标记出发声的物体),模型就能关联视觉信息,分离出该物体对应的声音,比如视频里点击吉他手,就能提取出吉他的声音。
- 时间片段提示:如果知道目标声音出现的具体时间范围,直接标注出来(比如 6.3 秒到 7.0 秒),模型就会只在这个时间段里分离目标声音,效率更高。
可优化的分离性能,兼顾效果与效率
- 支持自动预测时间片段:如果不确定目标声音的具体时间,开启 “predict_spans=True”,模型会根据文本描述自动判断声音出现的时间段,尤其适合分离非环境类的声音事件(比如突发的咳嗽声、关门声)。
- 候选重排序:可以设置生成多个分离候选结果(比如设置 reranking_candidates=8 就能生成 8 个版本),模型会通过 CLAP、Judge、ImageBind 等评估模型,从相似度、分离精度、忠实度等维度选出最优结果,不过效果提升的同时,会稍微增加一点运行时间和内存占用。
多场景适配的模型版本
项目提供了 small、base、large 三种尺寸的模型,不同模型在通用音效、语音、说话人识别、音乐、乐器(野生 / 专业)等场景下的表现各有侧重,比如 large 模型在专业乐器分离上得分最高(4.49 分),base 模型在语音分离上表现突出(4.25 分),开发者可以根据自己的需求选择。另外还有专门优化了视觉提示和目标声音正确性的 “-tv” 变体版本,适配视听结合的场景。
开源易用,配套资源齐全
- 安装简单:只要电脑满足 Python ≥ 3.11、有兼容 CUDA 的 GPU(推荐,能提升运行速度),通过 pip 命令就能安装依赖。
- 文档详尽:提供了完整的使用示例代码,从模型加载、参数设置到结果保存,每一步都有清晰说明,还标注了关键参数的作用,新手也能快速上手。
- 支持二次开发:项目开源且有明确的贡献指南和行为准则,开发者可以根据自己的需求修改源码、拓展功能。
应用场景
- 音频清理与优化:比如处理播客录音时,去除背景里的交通噪音、狗叫声;整理会议录音时,分离出特定发言人的声音,让音频更清晰易听。
- 创意媒体制作:音乐创作者可以用它从歌曲中提取单独的人声、吉他声、鼓声等,方便重新混音或二次创作;视频剪辑时,结合视频画面分离特定对象的声音,让剪辑更灵活,比如从演唱会视频中单独提取主唱的声音。
- 音频内容分析:研究人员可以用它分离特定的声音事件,比如分析城市环境中的鸟鸣声、工业场景中的设备运行声,助力声音生态学、音频技术研究等领域。
- 辅助工具开发:比如开发听力辅助设备,帮助听力受损人群过滤环境噪音,只聚焦于关键声音(如他人说话声);或者开发语音转文字辅助工具,先分离目标语音再转写,提升转写准确率。
- 自媒体与日常使用:自媒体博主可以快速处理素材音频,去除杂音、提取关键音效;普通用户也能用来处理自己录制的音频,比如从旅行视频的背景音中提取海浪声、风声,制作专属音频片段。
使用注意事项
- 模型 checkpoint 需要先在 Hugging Face 仓库申请访问权限,通过后生成访问令牌并登录,才能下载使用。
- 虽然 CPU 也能运行,但推荐使用 GPU,尤其是处理大文件或开启时间预测、重排序功能时,GPU 能显著降低延迟、节省内存。
- 文本提示尽量遵循小写名词 / 动词短语的格式,和训练数据的格式保持一致,能提升分离准确率。
仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!
链接: https://fly63.com/nav/4876