Lazy loaded image
🔥改编不是乱编,让AI合成语音来帮你讲段子
00 分钟
2024-12-18
2024-12-29
type
status
date
slug
summary
tags
category
icon
password
😀
F5-TTS的声音克隆项目,它是上海交通大学推出的一款高性能文本到语音系统,克隆的声音效果确实很炸裂。
支持两个TTS模型的。一个是F5-TTS, 另一个是E2-TTS,他们主要区别是F5生成音频的时间更快,但是声音还原度没那么高,而E2-TTS生成的声音更逼真,那么必然导致生成速度就更慢一点了。
Video preview

📝 小试牛刀

打开 huggingface 模型页面的地址以后,上传需要克隆的声音。
notion image
比如下面这一段:
然后点击 Advanced Settings 展开设置,填入这段声音的参考文本:
晚了,前几任县长把鹅城的税收到九十年以后了,也就是他妈的西历二零一零年了,咱们来错地方了。
notion image
接着填入自己想要生成的话:
坏了,咱爹妈欠的房贷,都要环到三十年以后了,也就是他妈的西历二零五四年,咱们投胎投错地方了。
notion image
稍微等一会,最下方会显示合成出来的语音:
notion image
最后合成出来的效果:
 
💡
有关 AI 克隆声音使用上的问题,欢迎您在我的频道评论区留言,一起交流~
上一篇
什么是BTC?简单聊聊个人的理解
下一篇
小白也能搭建的cloudflare无限流量节点!