多文种光字符识别OCR 数据集,涵盖汉文、藏文、英文等多语种的OCR图像采集,并支持对OCR图像进行矩形框、四边形框以及斜矩形框等多种标注形式,助力客户训练高质量的OCR识别模型。一般标注格式为(x1,y1,x2,y2,x3,y3,x4,y4),适用于场景文本检测与识别。有以下基本数据。
1、藏文历史文献数据集
2、藏医学文献数据集
2、城市街面汉藏英等多文种店面图像数据集
3、汉藏英多文种字符证件、票据等图像数据集
![]() | ལུས་ གསུམ་ ་༄༅།། རླུང་ལ་རྩིགས་པས་གནོད་གྱུར་པ།། རང་གྱི་སྨན་གྱིས་བོས་བར་བྱ།། རུལ་པ་འམ་ད་ཏ་ཀྱིའི་མེ་ཏོག། སེང་ལྟེང་སོ་འབྲུ་ཨ་སྗུ་ན།། མར་དང་སྐོལ་བ་བླུད་པ་འམ།། ཨ་ས་ན་རྩོགས་བསྐོལ་བ་བླུད།། ཁུ་ཁྲག་མདུད་འདྲ་ས་ལའི་ཤ།། ཐལ་བ་སྲུ་སྲུའི་རྩ་བ་ཕན།། རྣག་འདྲ་པ་ཏུ་ཤ་ཀ་དང་།། ནྱ་གྲོ་ཏ་རྩོགས་བསྐོལ་བ་བླུད།། ཁུ་བ་ཟད་ལ་རོ་རྩེའི་སྤྱད།། གཤང་འདྲ་སློན་ཁྲུས་ཤིང་ཀུན་དང་།། པུ་ཤེལ་རྩི་ཀྲ་ཀ་བསྐོལ་བླུད།། ཟླ་མཚན་མདུད་འདྲ་ས་ཐ་དང་།། ཚ་གསུམ་དུག་མོ་ཡུངས་བསྐོལ་བླུད།། ཟླ་མཚན་ཏུལ་དང་རྣག་འདྲ་ལ།། ཙན་དན་བླུད་བྱ་ཕྱིས་བཤད་ པའི།། གསང་བའི་ནད་སོར་བཤད་ཀུན་དང་།། འཇམ་རྩེར་བཅས་པ་གང་ཡིན་བྱ།། ཁུ་བ་དཀར་ཞིང་ལྕེ་བ་དང་།། དངར་དང་སྐ་དང་མང་བ་དང་།། མར་དང་སྦྲང་བརྩི་ཏིལ་མར་འདྲ།། མངལ་དུ་ |
![]() | རྒྱུད་བཞིའི་འགྲེལ་ཆེནཔབས། དུ་བ་རལ་པ་རྣམས་མར་རྙིང་ལ་སྦྱར་བ་བྱུགཡང་ན། སྔོ་ཡི་ཚ་བ་གསུམ་དང་ར་དུག་པ། ཐར་ནུ། ཆུ་རྩ་རྣམས་མར་དཀར་དང་སྦྱར་བ་བྱུགས་ན་ཤུ་བ་སེལ། སྲིན་ཐོར་ལ་ནི་དྭ་བའི་རྩ་བ་དང་། ཙི་ཏྲ་ཀབྱི་ཏང་ག་བཙན་དུག་བཅས་སྦྱར་བ་ཤ་བའི་ཚིལ་ལ་སྦྱར་བ་བྱུག་པར་བྱའོ། ། ངོ་ཤིག་དང་། ཁབས། ཁྱེ་མ་རྣམས་ལ་སྦྲང་དང་བཙོད་ཀྱི་ལྡེ་གུ་བྱུགཡང་ན་རྟ་དཀར་པོའི་རྨིག་པ་བསྲེགས་པའི་ཐལ་བ་མར་གསར་ལ་སྦྱར་བའམ། ཟི་ར་དཀར་ནགཡུང་དཀར་འོ་མ་ཏིལ་དཀར་རྣམས་སྦྱར་བ་བསྐུ་ཡང་ན་སྐྱེར་པ་དང་། སེང་ཕྲོམ་སྟེ་ཞུ་མཁན། བྲྀ་ཧ་ཏི་ཞེས་ཀཎྜ་ཀ་རི་བཅས་སྦྱར་བའམ། སེང་ཕྲོམ། སྤྲ་ཚིལ། སྤོས་དཀར། པུ་ཤེལ་ཙེ། བུ་རམ། སྦྲང་རྩི། མར་བཅས་སྦྱར་བ་རྣམས་བ་གཅིན་དང་སྦྱར་ཞིང་བསྐོལ་བ་བྱུགས་པས། སྨེ་བ་དང་ངོ་ཁབས། ཁྱེ་མ་རྣམས་སེལ་བར་བྱེད་ཅིང་གདོང་པ་པདྨ་དང་ཟླ་བ་ལྟར་དཀར་ལ་མདངས་དང་ལྡན་ཞིང་དྲི་མ་མེད་པར་འགྱུར་རོ། ། གཞན་ཡང་། ཡུང་བ། སྐྱེར་ཤུན་ཏེ་སེར་པོ་གཉིས་དང་རུ་རྟ། དུག་མོ་ཉུང་། དུད་པ་རལ་པ་བཅས་སྦྱར་བའི་ལྡེ་གུ་བྱུགས་པས་ཤུ་བ་དང་། ཤ་བཀྲ་དང་གཡན་པ་སོགས་པགས་ |
![]() | ![]() |