Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
蜂小推
不扣量的项目推广平台
宝塔服务器面板
简单好用的服务器运维面板
硅云优惠券
领先的基础云计算服务提供商,PHP云虚拟主机第一品牌
扣子Coze
职场AI,就用扣子
美图设计室
AI智能一键生成海报,免费平面设计
免费资源下载中心
一站式解决工作学习需求的宝藏网站
堆友AI
零门槛,多风格AI绘画免费生成,电商海报设计神器
fly63工具箱
简单、易用、便捷的在线工具
茅茅虫
茅茅虫AI论文写作助手,AIGC论文查重
LiblibAI
一站式AI内容创作生成平台,原创AI模型分享社区

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

VibeVoice

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/microsoft/VibeVoice
网站描述:微软开源的一个多角色、长对话语音合成框架
GitHub

VibeVoice 是微软开源的一个多角色、长对话语音合成框架,它能把文本转换成自然流畅的多人对话音频,比如播客、有声书或虚拟会议录音。


核心亮点

超长语音生成:可合成长达 90 分钟的音频

多角色支持:最多可同时处理 4 个不同说话人

自然的对话感:能够保持说话人的一致性和自然的对话节奏

高效处理:采用 7.5Hz 的超低帧率处理,既保持音质又提升效率


技术特点

VibeVoice 结合了两种核心技术:

大型语言模型 (LLM):理解文本内容和对话流程

扩散模型:生成高保真度的声学细节

这种组合让它能够处理复杂的对话场景,同时保持声音质量。


可用模型

VibeVoice-1.5B:支持 64K 上下文长度,可生成约 90 分钟音频

VibeVoice-7B-Preview:支持 32K 上下文长度,可生成约 45 分钟音频,稳定性更好

VibeVoice-0.5B-Streaming:即将推出的流式版本


应用场景

播客制作:根据脚本自动生成多主持人对话

有声读物:为小说或非虚构作品创建多角色音频

语言学习:生成自然的多角色对话用于听力练习

内容创作:快速将文本转化为带有多个声音的音频内容

虚拟会议:模拟多参与者讨论


使用示例

你可以通过以下方式体验 VibeVoice:

启动 Gradio 演示

python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

从文本文件生成音频

python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/2p_music.txt --speaker_names Alice Frank


小技巧

使用英文标点符号 (逗号和句号) 即使在中文文本中也能提高稳定性

7B 模型比 1.5B 更稳定,特别是在处理中文或需要控制情绪时

如果觉得语速太快,可以尝试在文本中增加同角色的对话转折点

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4685

更多»
热门资源
fly63工具箱
简单、易用、便捷的在线工具
官网
GitHub
remove.bg
消除图片背景:100% 自动 – 只需 5 秒
官网
阿里云DataV
地图数据
官网
retoucher
在线AI智能抠图去背景工具
官网
飞书多维表格
飞书旗下的一款在线协作与业务管理工具
官网
Apifox
API 文档、API 调试、API Mock、API 自动化测试一体化协作平台
官网
易文档
需求文档、API文档、部署文档到使用手册
官网
mdx-deck
基于MDX的演示文稿
官网
GitHub
YouCompress
在线免费文件压缩工具
官网
iHateRegex
快速搜索并匹配到合适的正则表达式
官网
GitHub
Trilium Notes
层级结构的笔记程序,专注构建个人的大型知识库
点击进入
GitHub
CodeZen
在线源代码转图片工具
官网
类似于VibeVoice的资源
removal.ai
在线AI智能抠图去背景工具
官网
ReplaceGoogleCDN
一个 Chrome 插件:将 Google CDN 替换为国内的
点击进入
GitHub
Postman
强大的HTTP请求Chrome插件
官网
Datatool
视频下载神器,支持多家平台
官网
pxtoem
PX EM 单位换算工具
官网
AutoFigure-Edit
论文配图自动生成可编辑的 SVG
点击进入
GitHub
TypeBoost
专注于写作的书写工具
官网
omarchy
面向Hyprland的极简化Arch开发环境
官网
GitHub
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。