语音识别数据集是用于训练和评估语音识别模型的大规模语音数据集合,是支持藏语语音技术发展的关键资源,其构建和应用涉及多个方面:
1. 数据集的构成与特点
- 语音录音:通常包含不同方言(如卫藏、安多、康巴)的发音人录音,采样率多为16kHz,格式为WAV或MP4。
- 文本转录:与录音对应的藏文文本,使用Unicode编码(如Tibetan Unicode字体),标注可能包括音素、音节或整句转写。
2. 采集与标注挑战
- 方言多样性:三大方言差异显著,需分别采集以确保模型泛化能力。
- 专业标注团队:需精通藏语书面语及方言的标注人员,成本较高。
- 数据稀缺性:相比英语/汉语,藏语数据量有限,影响深度学习效果。
3. 查瓦云藏语语音数据集
录音环境:低噪
国家:中国
语言地区代码:bo-CN
语言:藏语(卫藏方言、安多方言、康巴方言)
语音格式: 16kHz,16 bit, wav或mp4,单声道语音
时长:藏语卫藏方言语音数据:1200小时左右;藏语安多方言语音数据:900小时左右;藏语康巴方言语音数据:800小时左右;
音频文件和文本文件要一一对应,如音频文件000001.wav,则对应文本文件000001.txt;
句长有20藏文音节字左右组成,最多不超过40个音节字;
语料来源:影视节目、电视节目、广播电台、歌曲、相声、广告、动画片等中的各种影音、配音、录音、翻译等语音。如:中国西藏新闻网、中国西藏网、中国藏族教育网等网站的资源语料;中央人民广播电台、西藏卫视、拉萨卫视、珠峰云等媒体影像资料
收集范围:各新闻媒体、影视剧、教材、书本、文章、杂志、法律条文、各种字典和词典等,上下不重复;
基于卫藏口音男生女生录音,为播音主持专业或者符合条件相关专业的在读大学生 ;
所有的藏语语料库编码统一到基于国际标准Unicode 编码,即ISO10646 信息交换用藏文编码字符集(基本集)、GB16959—1997《信息技术信息交换用藏文编码字符集基本集》。
标注特点:标注文本内容、句时间戳、说话人标识、性别;
准确率:词准确率98%。
4. 藏语语音数据集示例
音频文本 | 对应音频 | |
ཁྱབ་ཁོངས་ཁག་གི་སྤེལ་རེས་དང་མཉམ་ལས་ཐད་གཡུར་ཟའི་གྲུབ་འབྲས་ཐོབ་ཡོད། | 卫藏方言(女) | |
རྒྱལ་ཁབ་ཀྱི་སྲིད་འཛིན་ལས་ཁུངས་ཀྱིས་རང་ཁོངས་སྲ་བརྟན་ཡོང་བ་བྱ་དགོས། | 卫藏方言(男) | |
གཙོ་གནད་སྲུང་སྐྱོབ་བྱེད་པའི་སྲོག་ཆགས་ལ་རིམ་པ་གང་དང་གང་ཡོད་དམ། | 康巴方言(男) | |
ཉིས་སྟོང་བཅུ་དྲུག་ལོར་འཇམ་དབྱངས་ཕུན་ཚོགས་ཀྱིས་རང་རྟོགས་སྒོས་ཁོར་སྲུང་དང་བླངས་རུ་ཁག་ཅིག་བཙུགས། | 康巴方言(女) | |
སློབ་མའི་སློབ་སྦྱོང་གི་ནུས་པ་གོང་མཐོར་གཏོང་བའི་བྱེད་ཐབས་རིགས་ཤིག་ཡིན། | 安多方言(男) | |
སྙན་ངག་གི་བྲོ་བས་གཞན་སེམས་འགུགས་པ་ཡང་ཡོད་མི་སྲིད། | 安多方言(女) |