Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
即梦AI
一站式智能创作平台,即刻造梦
SpeedAI
一键去重、降AIGC率、数据可视化、论文写作
茅茅虫
茅茅虫AI论文写作助手,AIGC论文查重
任推邦
APP推广项目分发和流量变现平台
我要自学网
免费视频教程,提供全方位软件学习
AiPPT
全智能AI一键生成 PPT
堆友AI
零门槛,多风格AI绘画免费生成,电商海报设计神器
宝塔服务器面板
简单好用的服务器运维面板
豆包AI
字节跳动旗下 AI 智能助手
硅云优惠券
领先的基础云计算服务提供商,PHP云虚拟主机第一品牌

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

SAM-Audio

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

网站地址:https://ai.meta.com/samaudio
GitHub:https://github.com/facebookresearch/sam-audio
网站描述:Meta开源的声音分离工具
访问官网
GitHub
SAM-Audio 是 Meta(脸书)研究院开源的一款音频分割模型,就像一个 “音频精准提取工具”—— 能从杂乱的混合音频里,精准分离出你想要的特定声音。它的核心依赖于 Perception-Encoder Audio-Visual(PE-AV)技术,支持通过文本、视觉、时间片段三种不同的 “提示方式” 工作,不管是复杂环境里的背景音、歌曲中的乐器声,还是对话里的特定人声,都能想分就分。
这个项目在 GitHub 上提供了完整的运行代码、预训练模型 checkpoint 下载链接,还有详细的示例笔记本,开发者不用从零搭建框架,跟着示例就能快速上手使用。而且它支持多种规格的模型(小、中、大尺寸),还针对视觉提示和目标声音正确性做了专门优化的变体版本,能适配不同场景的需求。


核心功能特色

  1. 三种灵活的提示分离方式,想用哪种用哪种
    • 文本提示:用简单的自然语言描述就行,比如想提取 “雷声”“男人说话声”“汽车鸣笛声”,直接输入对应的短语(注意按要求用小写名词或动词短语,不用复杂句子),模型就能精准定位并分离。
    • 视觉提示:如果有对应的视频,只要给视频帧加上掩码(标记出发声的物体),模型就能关联视觉信息,分离出该物体对应的声音,比如视频里点击吉他手,就能提取出吉他的声音。
    • 时间片段提示:如果知道目标声音出现的具体时间范围,直接标注出来(比如 6.3 秒到 7.0 秒),模型就会只在这个时间段里分离目标声音,效率更高。
  2. 可优化的分离性能,兼顾效果与效率
    • 支持自动预测时间片段:如果不确定目标声音的具体时间,开启 “predict_spans=True”,模型会根据文本描述自动判断声音出现的时间段,尤其适合分离非环境类的声音事件(比如突发的咳嗽声、关门声)。
    • 候选重排序:可以设置生成多个分离候选结果(比如设置 reranking_candidates=8 就能生成 8 个版本),模型会通过 CLAP、Judge、ImageBind 等评估模型,从相似度、分离精度、忠实度等维度选出最优结果,不过效果提升的同时,会稍微增加一点运行时间和内存占用。
  3. 多场景适配的模型版本
    项目提供了 small、base、large 三种尺寸的模型,不同模型在通用音效、语音、说话人识别、音乐、乐器(野生 / 专业)等场景下的表现各有侧重,比如 large 模型在专业乐器分离上得分最高(4.49 分),base 模型在语音分离上表现突出(4.25 分),开发者可以根据自己的需求选择。另外还有专门优化了视觉提示和目标声音正确性的 “-tv” 变体版本,适配视听结合的场景。
  4. 开源易用,配套资源齐全
    • 安装简单:只要电脑满足 Python ≥ 3.11、有兼容 CUDA 的 GPU(推荐,能提升运行速度),通过 pip 命令就能安装依赖。
    • 文档详尽:提供了完整的使用示例代码,从模型加载、参数设置到结果保存,每一步都有清晰说明,还标注了关键参数的作用,新手也能快速上手。
    • 支持二次开发:项目开源且有明确的贡献指南和行为准则,开发者可以根据自己的需求修改源码、拓展功能。


应用场景

  1. 音频清理与优化:比如处理播客录音时,去除背景里的交通噪音、狗叫声;整理会议录音时,分离出特定发言人的声音,让音频更清晰易听。
  2. 创意媒体制作:音乐创作者可以用它从歌曲中提取单独的人声、吉他声、鼓声等,方便重新混音或二次创作;视频剪辑时,结合视频画面分离特定对象的声音,让剪辑更灵活,比如从演唱会视频中单独提取主唱的声音。
  3. 音频内容分析:研究人员可以用它分离特定的声音事件,比如分析城市环境中的鸟鸣声、工业场景中的设备运行声,助力声音生态学、音频技术研究等领域。
  4. 辅助工具开发:比如开发听力辅助设备,帮助听力受损人群过滤环境噪音,只聚焦于关键声音(如他人说话声);或者开发语音转文字辅助工具,先分离目标语音再转写,提升转写准确率。
  5. 自媒体与日常使用:自媒体博主可以快速处理素材音频,去除杂音、提取关键音效;普通用户也能用来处理自己录制的音频,比如从旅行视频的背景音中提取海浪声、风声,制作专属音频片段。


使用注意事项

  • 模型 checkpoint 需要先在 Hugging Face 仓库申请访问权限,通过后生成访问令牌并登录,才能下载使用。
  • 虽然 CPU 也能运行,但推荐使用 GPU,尤其是处理大文件或开启时间预测、重排序功能时,GPU 能显著降低延迟、节省内存。
  • 文本提示尽量遵循小写名词 / 动词短语的格式,和训练数据的格式保持一致,能提升分离准确率。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4876

更多»
热门资源
fly63工具箱
简单、易用、便捷的在线工具
官网
GitHub
remove.bg
消除图片背景:100% 自动 – 只需 5 秒
官网
阿里云DataV
地图数据
官网
retoucher
在线AI智能抠图去背景工具
官网
飞书多维表格
飞书旗下的一款在线协作与业务管理工具
官网
Apifox
API 文档、API 调试、API Mock、API 自动化测试一体化协作平台
官网
易文档
需求文档、API文档、部署文档到使用手册
官网
mdx-deck
基于MDX的演示文稿
官网
GitHub
YouCompress
在线免费文件压缩工具
官网
iHateRegex
快速搜索并匹配到合适的正则表达式
官网
GitHub
Trilium Notes
层级结构的笔记程序,专注构建个人的大型知识库
点击进入
GitHub
CodeZen
在线源代码转图片工具
官网
类似于SAM-Audio的资源
JeecgBoot
基于BPM的低代码开发平台
官网
GitHub
regulex
js正则表达式图形展示工具
官网
GitHub
usebubbles
免费的在线屏幕录制共享协作平台
官网
知笔墨
Markdown格式与Git版本控制工具来进行图书的编写、构建与发布工作
官网
Mp3Converter
在线音视频转换工具
官网
Clipchamp
在线视频编辑创作工具
官网
Slazzer
基于 AI 技术,可以在短短几秒钟内自动删除图像背景
官网
Shrinkme
在线免费图片压缩工具
官网
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。