藏语语音合成数据集

语音合成TTS（Text-to-Speech）训练数据集是为了开发语音合成技术而采集和标注的一组语音数据。TTS系统通过将文本转换为可听的声音，实现计算机自动生成语音的能力。

1. 数据集的构成与特点

- 语音录音：通常包含不同方言（如卫藏、安多、康巴）的发音人录音，采样率多为16kHz，格式为WAV或MP4。

- 文本转录：与录音对应的藏文文本，使用Unicode编码（如Tibetan Unicode字体），标注可能包括音素、音节或整句转写。

2. 采集与标注挑战

- 方言多样性：三大方言差异显著，需分别采集以确保模型泛化能力。

- 专业标注团队：需精通藏语书面语及方言的标注人员，成本较高。

- 数据稀缺性：相比英语/汉语，藏语数据量有限，影响深度学习效果。

3. 查瓦云藏语语音数据集

西藏查瓦云科技有限公司构建了面向公共领域的语音数据集，含藏语卫藏，安多和康巴三大方言的语音合成数据集。数据集中的音频由专业的播音员录播而成，剪辑长度从2秒到5秒不等。能够保证发音的准确性，通过用专业的音频软件切割播音内容，提供13多小时约9.02 GB的音频及包含藏语中能够发音的所有音节字组成的12586句子组成对应的文本数据。同时，文本经过藏语专业人员审核，能够保证语法的正确性。本数据集对各方言语言特征覆盖率高，且语音现象覆盖均衡。查瓦云藏语卫藏方言合成数据集非常适合用于语音合成任务，尤其是单人语音合成。

录音环境：低噪

国家：中国

语言地区代码：bo-CN

语言：藏语（卫藏方言、安多方言、康巴方言）

语音格式：每个音频文件都是一个单通道16位PCM WAV文件，采样率为22050 Hz。
音频文件和文本文件要一一对应，如音频文件000001.wav，则对应文本文件000001.txt；
句长有20藏文音节字左右组成，最多不超过40个音节字；
收集制作范围：各新闻媒体、影视剧、教材、书本、文章、杂志、法律条文、各种字典和词典等，上下不重复；
基于卫藏口音男生女生录音，为播音主持专业或者符合条件相关专业的在读大学生；
所有的藏语语料库编码统一到基于国际标准Unicode 编码，即ISO10646 信息交换用藏文编码字符集（基本集）、GB16959—1997《信息技术信息交换用藏文编码字符集基本集》。
标注特点：标注文本内容、句时间戳、说话人标识、性别；
准确率：词准确率98%。

4. 藏语语音数据集示例

音频文本	合成音频
ཨ་ཕས་རང་གི་བུ་ཆུང་བོད་ཀྱི་རིག་གནས་སྦྱང་དུ་འགྲོ་རུ་བཅུག
དེ་རིང་རྒན་ལགས་ཀྱིས་སློབ་ཕྲུག་ཚོར་གཟིགས་ལྤགས་གྱོན་པའི་བོང་བུ་ཞེས་པའི་སློབ་ཚན་དེ་ངག་སྐྱོར་བྱེད་དུ་བཅུག་སོང་།

地址：西藏自治区拉萨市柳梧新区国际总部众创空间12栋6层02号

联系人：次仁桑珠

电话：15002825821

邮箱：cr0821sz@163.com

微信公众号：CWY07081376

客服电话

客服电话：18689191612

商务联系：多布拉

咨询邮箱：2993512686@qq.com

意见反馈及投诉：2993512686@qq.com