Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
搜索

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

SAM-Audio

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

网站地址:https://ai.meta.com/samaudio
GitHub:https://github.com/facebookresearch/sam-audio
网站描述:Meta开源的声音分离工具
访问官网
GitHub
SAM-Audio 是 Meta(脸书)研究院开源的一款音频分割模型,就像一个 “音频精准提取工具”—— 能从杂乱的混合音频里,精准分离出你想要的特定声音。它的核心依赖于 Perception-Encoder Audio-Visual(PE-AV)技术,支持通过文本、视觉、时间片段三种不同的 “提示方式” 工作,不管是复杂环境里的背景音、歌曲中的乐器声,还是对话里的特定人声,都能想分就分。
这个项目在 GitHub 上提供了完整的运行代码、预训练模型 checkpoint 下载链接,还有详细的示例笔记本,开发者不用从零搭建框架,跟着示例就能快速上手使用。而且它支持多种规格的模型(小、中、大尺寸),还针对视觉提示和目标声音正确性做了专门优化的变体版本,能适配不同场景的需求。


核心功能特色

  1. 三种灵活的提示分离方式,想用哪种用哪种
    • 文本提示:用简单的自然语言描述就行,比如想提取 “雷声”“男人说话声”“汽车鸣笛声”,直接输入对应的短语(注意按要求用小写名词或动词短语,不用复杂句子),模型就能精准定位并分离。
    • 视觉提示:如果有对应的视频,只要给视频帧加上掩码(标记出发声的物体),模型就能关联视觉信息,分离出该物体对应的声音,比如视频里点击吉他手,就能提取出吉他的声音。
    • 时间片段提示:如果知道目标声音出现的具体时间范围,直接标注出来(比如 6.3 秒到 7.0 秒),模型就会只在这个时间段里分离目标声音,效率更高。
  2. 可优化的分离性能,兼顾效果与效率
    • 支持自动预测时间片段:如果不确定目标声音的具体时间,开启 “predict_spans=True”,模型会根据文本描述自动判断声音出现的时间段,尤其适合分离非环境类的声音事件(比如突发的咳嗽声、关门声)。
    • 候选重排序:可以设置生成多个分离候选结果(比如设置 reranking_candidates=8 就能生成 8 个版本),模型会通过 CLAP、Judge、ImageBind 等评估模型,从相似度、分离精度、忠实度等维度选出最优结果,不过效果提升的同时,会稍微增加一点运行时间和内存占用。
  3. 多场景适配的模型版本
    项目提供了 small、base、large 三种尺寸的模型,不同模型在通用音效、语音、说话人识别、音乐、乐器(野生 / 专业)等场景下的表现各有侧重,比如 large 模型在专业乐器分离上得分最高(4.49 分),base 模型在语音分离上表现突出(4.25 分),开发者可以根据自己的需求选择。另外还有专门优化了视觉提示和目标声音正确性的 “-tv” 变体版本,适配视听结合的场景。
  4. 开源易用,配套资源齐全
    • 安装简单:只要电脑满足 Python ≥ 3.11、有兼容 CUDA 的 GPU(推荐,能提升运行速度),通过 pip 命令就能安装依赖。
    • 文档详尽:提供了完整的使用示例代码,从模型加载、参数设置到结果保存,每一步都有清晰说明,还标注了关键参数的作用,新手也能快速上手。
    • 支持二次开发:项目开源且有明确的贡献指南和行为准则,开发者可以根据自己的需求修改源码、拓展功能。


应用场景

  1. 音频清理与优化:比如处理播客录音时,去除背景里的交通噪音、狗叫声;整理会议录音时,分离出特定发言人的声音,让音频更清晰易听。
  2. 创意媒体制作:音乐创作者可以用它从歌曲中提取单独的人声、吉他声、鼓声等,方便重新混音或二次创作;视频剪辑时,结合视频画面分离特定对象的声音,让剪辑更灵活,比如从演唱会视频中单独提取主唱的声音。
  3. 音频内容分析:研究人员可以用它分离特定的声音事件,比如分析城市环境中的鸟鸣声、工业场景中的设备运行声,助力声音生态学、音频技术研究等领域。
  4. 辅助工具开发:比如开发听力辅助设备,帮助听力受损人群过滤环境噪音,只聚焦于关键声音(如他人说话声);或者开发语音转文字辅助工具,先分离目标语音再转写,提升转写准确率。
  5. 自媒体与日常使用:自媒体博主可以快速处理素材音频,去除杂音、提取关键音效;普通用户也能用来处理自己录制的音频,比如从旅行视频的背景音中提取海浪声、风声,制作专属音频片段。


使用注意事项

  • 模型 checkpoint 需要先在 Hugging Face 仓库申请访问权限,通过后生成访问令牌并登录,才能下载使用。
  • 虽然 CPU 也能运行,但推荐使用 GPU,尤其是处理大文件或开启时间预测、重排序功能时,GPU 能显著降低延迟、节省内存。
  • 文本提示尽量遵循小写名词 / 动词短语的格式,和训练数据的格式保持一致,能提升分离准确率。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4876

更多»
热门资源
fly63工具箱
简单、易用、便捷的在线工具
官网
GitHub
remove.bg
消除图片背景:100% 自动 – 只需 5 秒
官网
阿里云DataV
地图数据
官网
retoucher
在线AI智能抠图去背景工具
官网
飞书多维表格
飞书旗下的一款在线协作与业务管理工具
官网
Apifox
API 文档、API 调试、API Mock、API 自动化测试一体化协作平台
官网
易文档
需求文档、API文档、部署文档到使用手册
官网
mdx-deck
基于MDX的演示文稿
官网
GitHub
YouCompress
在线免费文件压缩工具
官网
iHateRegex
快速搜索并匹配到合适的正则表达式
官网
GitHub
Trilium Notes
层级结构的笔记程序,专注构建个人的大型知识库
点击进入
GitHub
CodeZen
在线源代码转图片工具
官网
类似于SAM-Audio的资源
facehub
免费的在线AI换脸工具网站
官网
在线工具网
网络工作生活好帮手
官网
DLSS Swapper
下载、管理与切换 DLSS、FSR 和 XeSS 的 DLL
点击进入
GitHub
蜜蜂剪辑
简单的操作,丰富的功能,全民都会用的视频工具
官网
atoolbox
一个工具箱,好用的在线工具都在这里
官网
沉浸式翻译
一款免费的(原文/译文)双语对照网页翻译插件
官网
psd2css
Photoshop投影转换为CSS3工具
官网
GitHub
HiSH
在鸿蒙上运行Linux Shell
点击进入
GitHub
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。