type
status
date
slug
summary
tags
category
icon
password
F5-TTS的声音克隆项目,它是上海交通大学推出的一款高性能文本到语音系统,克隆的声音效果确实很炸裂。
支持两个TTS模型的。一个是F5-TTS, 另一个是E2-TTS,他们主要区别是F5生成音频的时间更快,但是声音还原度没那么高,而E2-TTS生成的声音更逼真,那么必然导致生成速度就更慢一点了。

📝 小试牛刀
打开 huggingface 模型页面的地址以后,上传需要克隆的声音。

比如下面这一段:
然后点击
Advanced Settings
展开设置,填入这段声音的参考文本:晚了,前几任县长把鹅城的税收到九十年以后了,也就是他妈的西历二零一零年了,咱们来错地方了。

接着填入自己想要生成的话:
坏了,咱爹妈欠的房贷,都要环到三十年以后了,也就是他妈的西历二零五四年,咱们投胎投错地方了。

稍微等一会,最下方会显示合成出来的语音:

最后合成出来的效果:
有关 AI 克隆声音使用上的问题,欢迎您在我的频道评论区留言,一起交流~
- 作者:阿杰鲁
- 链接:http://blog.zaunist.com/article/1607d549-6f33-8026-b031-c11bb8d18e3d
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。