本教程内容主要来自网络上各位大佬的文章，笔者主要是做了些整理引用的工作，添加了一点点自己的经验，关联的资料都会尽量在文中标出。

一、前言

目前VITS模型在情感、断句模拟方面同真人还存在明显的差距，且训练所需素材量大、消耗算力多，而且部署较为繁琐、相关资料也较少。希望各位在充分理解这些问题并体验过生成的语音效果后再入坑。

【原神】派蒙Vtuber出道计划——基于AI深度学习VITS和VSeeFace的派蒙语音合成/套皮

https://www.bilibili.com/video/BV1w84y1n7Ei/?spm_id_from=333.999.0.0&vd_source=bfa641d744b36c58edc60612da7dfcff

https://www.bilibili.com/video/BV1zy4y197Tz/?vd_source=bfa641d744b36c58edc60612da7dfcff

https://www.bilibili.com/read/cv21153903

https://www.bilibili.com/video/BV1zy4y197Tz/?vd_source=bfa641d744b36c58edc60612da7dfcff

二、基于Google Colab的VITS快速微调

https://www.bilibili.com/video/BV1jo4y1e71H/?vd_source=bfa641d744b36c58edc60612da7dfcff