多文种光字符识别OCR数据集


    多文种光字符识别OCR 数据集,涵盖汉文、藏文、英文等多语种的OCR图像采集,并支持对OCR图像进行矩形框、四边形框以及斜矩形框等多种标注形式,助力客户训练高质量的OCR识别模型。一般标注格式为(x1,y1,x2,y2,x3,y3,x4,y4),适用于场景文本检测与识别。有以下基本数据。

1、藏文历史文献数据集

2、藏医学文献数据集

2、城市街面汉藏英等多文种店面图像数据集

3、汉藏英多文种字符证件、票据等图像数据集


000012.png

ལུས་   གསུམ་   ་༄༅།།

རླུང་ལ་རྩིགས་པས་གནོད་གྱུར་པ།།   རང་གྱི་སྨན་གྱིས་བོས་བར་བྱ།།   རུལ་པ་འམ་ད་ཏ་ཀྱིའི་མེ་ཏོག། སེང་ལྟེང་སོ་འབྲུ་ཨ་སྗུ་ན།།   མར་དང་སྐོལ་བ་བླུད་པ་འམ།།   ཨ་ས་ན་རྩོགས་བསྐོལ་བ་བླུད།།   ཁུ་ཁྲག་མདུད་འདྲ་ས་ལའི་ཤ།།   ཐལ་བ་སྲུ་སྲུའི་རྩ་བ་ཕན།།   རྣག་འདྲ་པ་ཏུ་ཤ་ཀ་དང་།།   ནྱ་གྲོ་ཏ་རྩོགས་བསྐོལ་བ་བླུད།།   ཁུ་བ་ཟད་ལ་རོ་རྩེའི་སྤྱད།།   གཤང་འདྲ་སློན་ཁྲུས་ཤིང་ཀུན་དང་།།   པུ་ཤེལ་རྩི་ཀྲ་ཀ་བསྐོལ་བླུད།།   ཟླ་མཚན་མདུད་འདྲ་ས་ཐ་དང་།།   ཚ་གསུམ་དུག་མོ་ཡུངས་བསྐོལ་བླུད།།   ཟླ་མཚན་ཏུལ་དང་རྣག་འདྲ་ལ།།   ཙན་དན་བླུད་བྱ་ཕྱིས་བཤད་ པའི།།   གསང་བའི་ནད་སོར་བཤད་ཀུན་དང་།།   འཇམ་རྩེར་བཅས་པ་གང་ཡིན་བྱ།།   ཁུ་བ་དཀར་ཞིང་ལྕེ་བ་དང་།།   དངར་དང་སྐ་དང་མང་བ་དང་།།   མར་དང་སྦྲང་བརྩི་ཏིལ་མར་འདྲ།།   མངལ་དུ་

000010.jpg

རྒྱུད་བཞིའི་འགྲེལ་ཆེནཔབས། དུ་བ་རལ་པ་རྣམས་མར་རྙིང་ལ་སྦྱར་བ་བྱུགཡང་ན། སྔོ་ཡི་ཚ་བ་གསུམ་དང་ར་དུག་པ། ཐར་ནུ། ཆུ་རྩ་རྣམས་མར་དཀར་དང་སྦྱར་བ་བྱུགས་ན་ཤུ་བ་སེལ། སྲིན་ཐོར་ལ་ནི་དྭ་བའི་རྩ་བ་དང་། ཙི་ཏྲ་ཀབྱི་ཏང་ག་བཙན་དུག་བཅས་སྦྱར་བ་ཤ་བའི་ཚིལ་ལ་སྦྱར་བ་བྱུག་པར་བྱའོ། ། ངོ་ཤིག་དང་། ཁབས། ཁྱེ་མ་རྣམས་ལ་སྦྲང་དང་བཙོད་ཀྱི་ལྡེ་གུ་བྱུགཡང་ན་རྟ་དཀར་པོའི་རྨིག་པ་བསྲེགས་པའི་ཐལ་བ་མར་གསར་ལ་སྦྱར་བའམ། ཟི་ར་དཀར་ནགཡུང་དཀར་འོ་མ་ཏིལ་དཀར་རྣམས་སྦྱར་བ་བསྐུ་ཡང་ན་སྐྱེར་པ་དང་། སེང་ཕྲོམ་སྟེ་ཞུ་མཁན། བྲྀ་ཧ་ཏི་ཞེས་ཀཎྜ་ཀ་རི་བཅས་སྦྱར་བའམ། སེང་ཕྲོམ། སྤྲ་ཚིལ། སྤོས་དཀར། པུ་ཤེལ་ཙེ། བུ་རམ། སྦྲང་རྩི། མར་བཅས་སྦྱར་བ་རྣམས་བ་གཅིན་དང་སྦྱར་ཞིང་བསྐོལ་བ་བྱུགས་པས། སྨེ་བ་དང་ངོ་ཁབས། ཁྱེ་མ་རྣམས་སེལ་བར་བྱེད་ཅིང་གདོང་པ་པདྨ་དང་ཟླ་བ་ལྟར་དཀར་ལ་མདངས་དང་ལྡན་ཞིང་དྲི་མ་མེད་པར་འགྱུར་རོ། ། གཞན་ཡང་། ཡུང་བ། སྐྱེར་ཤུན་ཏེ་སེར་པོ་གཉིས་དང་རུ་རྟ། དུག་མོ་ཉུང་། དུད་པ་རལ་པ་བཅས་སྦྱར་བའི་ལྡེ་གུ་བྱུགས་པས་ཤུ་བ་དང་། ཤ་བཀྲ་དང་གཡན་པ་སོགས་པགས་

t1.png T2.png