SAM-Audio_Meta开源的声音分离工具

Web前端开发网

fly63.com

首页资源工具文章教程栏目

SAM-Audio

网站地址:https://ai.meta.com/samaudio

GitHub:https://github.com/facebookresearch/sam-audio

网站描述:Meta开源的声音分离工具

访问官网

GitHub

SAM-Audio 是 Meta（脸书）研究院开源的一款音频分割模型，就像一个 “音频精准提取工具”—— 能从杂乱的混合音频里，精准分离出你想要的特定声音。它的核心依赖于 Perception-Encoder Audio-Visual（PE-AV）技术，支持通过文本、视觉、时间片段三种不同的 “提示方式” 工作，不管是复杂环境里的背景音、歌曲中的乐器声，还是对话里的特定人声，都能想分就分。

这个项目在 GitHub 上提供了完整的运行代码、预训练模型 checkpoint 下载链接，还有详细的示例笔记本，开发者不用从零搭建框架，跟着示例就能快速上手使用。而且它支持多种规格的模型（小、中、大尺寸），还针对视觉提示和目标声音正确性做了专门优化的变体版本，能适配不同场景的需求。

核心功能特色

三种灵活的提示分离方式，想用哪种用哪种
- 文本提示：用简单的自然语言描述就行，比如想提取 “雷声”“男人说话声”“汽车鸣笛声”，直接输入对应的短语（注意按要求用小写名词或动词短语，不用复杂句子），模型就能精准定位并分离。
- 视觉提示：如果有对应的视频，只要给视频帧加上掩码（标记出发声的物体），模型就能关联视觉信息，分离出该物体对应的声音，比如视频里点击吉他手，就能提取出吉他的声音。
- 时间片段提示：如果知道目标声音出现的具体时间范围，直接标注出来（比如 6.3 秒到 7.0 秒），模型就会只在这个时间段里分离目标声音，效率更高。
可优化的分离性能，兼顾效果与效率
- 支持自动预测时间片段：如果不确定目标声音的具体时间，开启 “predict_spans=True”，模型会根据文本描述自动判断声音出现的时间段，尤其适合分离非环境类的声音事件（比如突发的咳嗽声、关门声）。
- 候选重排序：可以设置生成多个分离候选结果（比如设置 reranking_candidates=8 就能生成 8 个版本），模型会通过 CLAP、Judge、ImageBind 等评估模型，从相似度、分离精度、忠实度等维度选出最优结果，不过效果提升的同时，会稍微增加一点运行时间和内存占用。
多场景适配的模型版本
项目提供了 small、base、large 三种尺寸的模型，不同模型在通用音效、语音、说话人识别、音乐、乐器（野生 / 专业）等场景下的表现各有侧重，比如 large 模型在专业乐器分离上得分最高（4.49 分），base 模型在语音分离上表现突出（4.25 分），开发者可以根据自己的需求选择。另外还有专门优化了视觉提示和目标声音正确性的 “-tv” 变体版本，适配视听结合的场景。
开源易用，配套资源齐全
- 安装简单：只要电脑满足 Python ≥ 3.11、有兼容 CUDA 的 GPU（推荐，能提升运行速度），通过 pip 命令就能安装依赖。
- 文档详尽：提供了完整的使用示例代码，从模型加载、参数设置到结果保存，每一步都有清晰说明，还标注了关键参数的作用，新手也能快速上手。
- 支持二次开发：项目开源且有明确的贡献指南和行为准则，开发者可以根据自己的需求修改源码、拓展功能。

应用场景

音频清理与优化：比如处理播客录音时，去除背景里的交通噪音、狗叫声；整理会议录音时，分离出特定发言人的声音，让音频更清晰易听。
创意媒体制作：音乐创作者可以用它从歌曲中提取单独的人声、吉他声、鼓声等，方便重新混音或二次创作；视频剪辑时，结合视频画面分离特定对象的声音，让剪辑更灵活，比如从演唱会视频中单独提取主唱的声音。
音频内容分析：研究人员可以用它分离特定的声音事件，比如分析城市环境中的鸟鸣声、工业场景中的设备运行声，助力声音生态学、音频技术研究等领域。
辅助工具开发：比如开发听力辅助设备，帮助听力受损人群过滤环境噪音，只聚焦于关键声音（如他人说话声）；或者开发语音转文字辅助工具，先分离目标语音再转写，提升转写准确率。
自媒体与日常使用：自媒体博主可以快速处理素材音频，去除杂音、提取关键音效；普通用户也能用来处理自己录制的音频，比如从旅行视频的背景音中提取海浪声、风声，制作专属音频片段。