语音合成TTS(Text-to-Speech)训练数据集是为了开发语音合成技术而采集和标注的一组语音数据。TTS系统通过将文本转换为可听的声音,实现计算机自动生成语音的能力。
1. 数据集的构成与特点
- 语音录音:通常包含不同方言(如卫藏、安多、康巴)的发音人录音,采样率多为16kHz,格式为WAV或MP4。
- 文本转录:与录音对应的藏文文本,使用Unicode编码(如Tibetan Unicode字体),标注可能包括音素、音节或整句转写。
2. 采集与标注挑战
- 方言多样性:三大方言差异显著,需分别采集以确保模型泛化能力。
- 专业标注团队:需精通藏语书面语及方言的标注人员,成本较高。
- 数据稀缺性:相比英语/汉语,藏语数据量有限,影响深度学习效果。
3. 查瓦云藏语语音数据集
西藏查瓦云科技有限公司构建了面向公共领域的语音数据集,含藏语卫藏,安多和康巴三大方言的语音合成数据集。数据集中的音频由专业的播音员录播而成,剪辑长度从2秒到5秒不等。能够保证发音的准确性,通过用专业的音频软件切割播音内容,提供13多小时约9.02 GB的音频及包含藏语中能够发音的所有音节字组成的12586句子组成对应的文本数据。同时,文本经过藏语专业人员审核,能够保证语法的正确性。本数据集对各方言语言特征覆盖率高,且语音现象覆盖均衡。查瓦云藏语卫藏方言合成数据集非常适合用于语音合成任务,尤其是单人语音合成。
录音环境:低噪
国家:中国
语言地区代码:bo-CN
语言:藏语(卫藏方言、安多方言、康巴方言)
语音格式:每个音频文件都是一个单通道16位PCM WAV文件,采样率为22050 Hz。
音频文件和文本文件要一一对应,如音频文件000001.wav,则对应文本文件000001.txt;
句长有20藏文音节字左右组成,最多不超过40个音节字;
收集制作范围:各新闻媒体、影视剧、教材、书本、文章、杂志、法律条文、各种字典和词典等,上下不重复;
基于卫藏口音男生女生录音,为播音主持专业或者符合条件相关专业的在读大学生 ;
所有的藏语语料库编码统一到基于国际标准Unicode 编码,即ISO10646 信息交换用藏文编码字符集(基本集)、GB16959—1997《信息技术信息交换用藏文编码字符集基本集》。
标注特点:标注文本内容、句时间戳、说话人标识、性别;
准确率:词准确率98%。
4. 藏语语音数据集示例
音频文本 | 合成音频 |
ཨ་ཕས་རང་གི་བུ་ཆུང་བོད་ཀྱི་རིག་གནས་སྦྱང་དུ་འགྲོ་རུ་བཅུག | |
དེ་རིང་རྒན་ལགས་ཀྱིས་སློབ་ཕྲུག་ཚོར་གཟིགས་ལྤགས་གྱོན་པའི་བོང་བུ་ཞེས་པའི་སློབ་ཚན་དེ་ངག་སྐྱོར་བྱེད་དུ་བཅུག་སོང་། |