《计算机工程》2001年09期 加入收藏    获取最新 
 藏文识别的预处理
 王浩军;赵南元;邓钢轶
   预处理是整个文字识别系统的重要组成部分,预处理性能的优劣将直接影响整个识别系统的性能。根据藏文在字形和书写方式上的特点,实现了一种适用于藏文识别的预处理技术,整个预处理过程包括二值化、版面分析、倾斜校正、字符切分和归一化。在预处理过程中还提取了一些有关字丁的基本特征,这些特征充分反映了藏文的特点,具有良好的稳定性,可以用于识别系统的粗分类和后处理。
【作者单位】:清华大学自动化系 北京100084 (王浩军;赵南元);清华大学自动化系 北京100084(邓钢轶)
【关键词】:藏文识别;预处理;倾斜校正;字符切分;归一化
【分类号】:TP391.1
【DOI】:cnki:ISSN:1000-3428.0.2001-09-035
【正文快照】:
  l 概述 预处理是整个文字识别系统的重要组成部分。印刷体字符识别时,首先将印在纸上的字符经光电扫描转换为数字信号输入计算机。纸张薄厚、洁白度、油墨深浅、印刷质量都会产生污点、断笔、交连等干扰,版面中可能文本与图形共存。字符大小位置不确定,扫描时摆放不正等等
 
 推荐 下载CAJ全文           下载PDF全文
 CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式
 A Preprocessing Algorithm for Tibetan Character Recognition
 WANG Haojun;ZHAO Nanyuan;DENG Gangyi (Dept.of Automation of Tsinghua University;Beijing 100084)
  The preprocessing is an important part of the character recognition system. Its performance will seriously affect the capacity of the system. In this paper, we present a preprocessing algorithm for Tibetan character based on the topology structures and writing habits of Tibetan characters. The entire preprocessing procedure includes binary, page analysis, skew correction, character segmentation and normalization. In addition, some basic features of Tibetan characters are extracted. These features can be used for recognition and postprocessing.
【Keyword】:Tibetan character recognition;Preprocessing;Skew correction;Character segmentation;Normalization
 【引证文献】 共(11)篇 
 中国期刊全文数据库找到 6 条
 
1陈玉忠,俞士汶; 藏文信息处理技术的研究现状与展望 [J];中国藏学; 2003年04期
2马时平,吴学军,毕笃彦; 银行币箱字符识别系统的实现 [J];计算机工程; 2003年20期
3王华,丁晓青; 一种多字体印刷藏文字符的归一化方法 [J];计算机应用研究; 2004年06期
4陈丽娜,祁坤钰,贾彦民,吴健,康丽; 藏文拉丁转写的研究与实现 [J];计算机工程与设计; 2006年01期
5吴刚,德熙嘉措,黄鹤鸣; 印刷体藏文识别技术 [J];青海师范大学学报(自然科学版); 2006年01期
6吴永波,高岩,马利庄,张丘,丁裕锋; 电子表格格式去除系统的研究 [J];系统仿真学报; 2004年11期
 中国优秀硕士学位论文全文数据库找到 3 条
 
1刘涛; 基于机器视觉的汽车桩考系统 [D];合肥工业大学; 2002年
2胡莹; 联机手写数学公式识别系统的研究与实现 [D];广州大学; 2007年
3李刚; 印刷体藏文识别系统的研究与实现 [D];上海交通大学; 2007年
 中国重要会议论文全文数据库找到 2 条
 
1严海林,江荻; 一种基于三级分类器的藏文识别方法 [A];第十届全国少数民族语言文字信息处理学术研讨会论文集 [C]; 2005年
2吴刚,德熙嘉措,黄鹤鸣; 印刷体藏文识别技术 [A];第十届全国少数民族语言文字信息处理学术研讨会论文集 [C]; 2005年
 【共引文献】 共(210)篇 
 中国期刊全文数据库找到 10 条
 
1王贵新,刘建胜,居琰,汪同庆,彭健,杨波; “有效行”特征对手写体字符的识别 [J];电子科技大学学报; 2001年03期
2余楚中,赵学军,蔡雷,潘保昌; 联机手写体汉字识别方法的研究 [J];重庆大学学报(自然科学版); 1998年03期
3李锋,张林,包闻亮; 中文签名真伪识别的拓扑方法 [J];电子与信息学报; 1996年S1期
4陈新,吴宏胜; 神经网络文字识别系统的研制 [J];福州大学学报(自然科学版); 1996年01期
5李文昊; 基于SPCA563B芯片的图像识别系统设计 [J];单片机与嵌入式系统应用; 2006年08期
6唐国维,关学忠,李永军; 印刷体汉字识别预处理技术的研究 [J];大庆石油学院学报; 1996年02期
7戴建秋; 在线汉字识别技术在广播电视实时检测系统中的应用 [J];电视技术; 2005年08期
8于炳琪,陈杰春; 用Delphi开发质谱图扫描图像识别系统 [J];电子器件; 1999年04期
9余成,肖鹏; 分级组合式汉字库的构想和实现 [J];东莞理工学院学报; 1996年02期
10汪益民,梅林,张义超; 基于OCR技术的书写文字识别系统设计 [J];甘肃科技; 2007年08期
 中国优秀硕士学位论文全文数据库找到 10 条
 
1宫淑兰; 手写数字识别的研究与应用 [D];山东大学; 2006年
2万莉; 手写签名模糊识别方法的研究与实现 [D];武汉理工大学; 2006年
3蔡炯熙; 基于旋转不变性的印刷体数字识别 [D];南京理工大学; 2002年
4张捷; 手写数字识别的研究与应用 [D];西安建筑科技大学; 2004年
5孙瀚; 基于指纹识别身份验证的数据采集系统设计与实现 [D];电子科技大学; 2005年
6薛志华; 基于投影图像分布特征和神经网络的车牌识别系统的研究 [D];武汉理工大学; 2006年
7王广松; 脱机汉字签名鉴别研究 [D];华侨大学; 2004年
8董五洲; 基于统计分类的混排字符切分算法的研究 [D];燕山大学; 2006年
9张志彬; 中文版面分析的研究 [D];河北大学; 2002年
10张建勋; 汉字键盘输入和非键盘输入若干问题研究 [D];安徽大学; 2003年
 中国博士学位论文全文数据库找到 6 条
 
1朱宁波; 小类别无限制手写体汉字识别研究 [D];南京理工大学; 2004年
2沈会良; 中低层图像理解算法研究 [D];浙江大学; 2002年
3岳晓峰; 计算机视觉技术及其在工业中应用的研究 [D];吉林大学; 2006年
4左文明; 脱机手写中文签名鉴别的研究 [D];华南理工大学; 2004年
5王秀娟; 文本检索中若干问题研究 [D];北京邮电大学; 2006年
6陈光; 特定领域OCR系统的精度与速度问题研究 [D];北京邮电大学; 2007年
 中国重要会议论文全文数据库找到 1 条
 
1方应谦,张琦; 脱机手写汉字的模糊识别方法 [A];2001年中国智能自动化会议论文集(上册) [C]; 2001年
 【同被引文献】 共(122)篇 
 中国期刊全文数据库找到 10 条
 
1梁立,李必瑾,盛德君; BMP图像通用显示程序的设计技巧 [J];电脑编程技巧与维护; 1997年05期
2张建明; Windows 98/2000中如何获取进程、线程等信息 [J];电脑编程技巧与维护; 2000年11期
3洪华军,乔为民,朱立新; 指纹图像自动识别系统预处理算法的研究 [J];电子技术应用; 2001年01期
4扎西次仁; 《中华大藏经·丹珠尔》藏文对勘本字频统计分析 [J];中国藏学; 1997年02期
5陈玉忠,俞士汶; 藏文信息处理技术的研究现状与展望 [J];中国藏学; 2003年04期
6沈奕,陆霖琳,杨烨; LCD电极检测中定位标记的图像识别 [J];电子技术应用; 2001年09期
7卢强,陈泉林,林康红; 用VC实现位图文件处理 [J];电子技术; 2001年08期
8王海欣,邓中亮; 位图图象的读取及基本操作 [J];计算机应用研究; 2001年02期
9杨必武,郭晓松; 基于有效熵的图象阈值自动设置算法研究 [J];计算机工程; 2002年02期
10晏弼成; 多媒体图象数据的查询与检索 [J];计算机工程; 2001年05期
 中国优秀硕士学位论文全文数据库找到 3 条
 
1汪芳; 模式识别技术及其在文字识别领域的应用研究 [D];西北工业大学; 2004年
2刘涛; 藏文数字图书馆的研究与实践 [D];湖南大学; 2005年
3张隆; 基于信息论的特征选择和分类算法研究 [D];西南农业大学; 2005年
 中国博士学位论文全文数据库找到 1 条
 
1丁世飞; 基于信息理论的数字模式识别及应用研究 [D];山东科技大学; 2004年
 中国重要会议论文全文数据库找到 1 条
 
1陈玉忠,李保利,俞士汶,兰措吉; 基于格助词和接续特征的藏文自动分词方案 [A];第一届学生计算语言学研讨会论文集 [C]; 2002年
 西文参考文献找到 10 条
 
1Hou H, Andrews H; Cubic Splines for Image Interpolation and Digital Filtering [M];IEEE Transactions on Acoustics, Speech, and Signal Processing; 1978年
2Kato N, Suzuki M, Omachi S, et al; A Handwritten Character Recognition System Using Directional Element Feature and Asymmetric Mahalanobis Distance [M];IEEE Transactions on Pattern Analysis and Machine Intelligence; 1999年
3ToruWakahara,,Hiroshimurase,,KazumiOdaka; On-line Handwritting Recofnition [M];Proceedings of the IEEE; 1992年
4ParkH.S,, LeeS.M; Off Line Recognition of Large-set Handwritten Character with Multiple Hidden Markov Models [M];Patten Recognition; 1996年
5Cheng Fanghsuan; Multistroke relaxation matching methed for handwritten Chinese character recognition [M];Pattern Recognition; 1998年
6DerShenLin,,JinJangLeou; A Genetic Algorithm Approach to Chinese Handwritting Normalization. [M];IEEE ransactions on System.Manand Cybernetics -PartB; 1997年
7Shaoping Ma,, Yijiang Jin, ,Zhe Jiang, ,Yu Huang; A Method of Printing Tibetan Character Recognition [M];Proceedings of the World Congress on Intelligent Control and Automation; 2002年
8Hua Wang, ,Xiaoqing Ding; Comprehensive printed Tibetan/English mixed text segmentation method [M];Proc. of SPIE-IS&T Electronic Imaging; 2004年
9Hua Wang,, Xiaoqing Ding; New statistical method for multi-font printedTibetan/English OCR [M];Proc. of SPIE-IS&T Electronic Imaging; 2004年
10Kam-Fai Chan and Dit-Yan Yeung; Recognizing on-line handwritten alphanumeric characters through flexible structural matching [M];Pattern Recognition; 1999年
 【二级引证文献】 共(25)篇 
 中国期刊全文数据库找到 10 条
 
1陈明平,林振天,常福良; 藏文政府办公系统的研究与实现 [J];信息技术与标准化; 2007年08期
2贺胜,卢亚军; 基于藏文编码(基本集)国家暨国际标准的藏文输入法研究 [J];图书与情报; 2007年06期
3张兴亮,芮建武,谢谦,程伟,吴健; 藏文编码字符集的扩充集在Linux上的实现 [J];中文信息学报; 2007年02期
4周祥,李正明,孙俊; 轮胎胎号字符识别系统 [J];计测技术; 2005年04期
5卢亚军; 藏文计算机通用键盘布局与输入法研究 [J];中文信息学报; 2006年02期
6刘真真,李永忠,沈晔华; 基于分形矩的印刷体藏文特征提取方法 [J];江南大学学报(自然科学版); 2007年06期
7刘真真,李永忠,沈晔华; 分形矩在印刷体藏文特征提取中的应用 [J];江苏科技大学学报(自然科学版); 2008年02期
8杨成甫,贾彦民,吴健; Web服务器端藏文字符串长度的近似算法 [J];计算机工程与设计; 2007年05期
9陈丽娜,祁坤钰,贾彦民,吴健,康丽; 藏文拉丁转写的研究与实现 [J];计算机工程与设计; 2006年01期
10孙力; 藏文古籍文献数据库系统建设的探讨 [J];情报杂志; 2006年07期
 中国优秀硕士学位论文全文数据库找到 8 条
 
1周祥; 轮胎胎号自动识别系统的研究与设计 [D];江苏大学; 2005年
2崔政; 基于模糊理论的轮胎编码识别系统研究与实现 [D];郑州大学; 2005年
3彭兴邦; 基于机器视觉的电子桩考系统 [D];合肥工业大学; 2006年
4曾飞; 基于车牌识别的港口地磅管理系统 [D];武汉理工大学; 2007年
5周开军; 复杂环境下的车牌识别研究 [D];武汉理工大学; 2006年
6张洁玮; 车牌识别系统中定位算法的研究 [D];南京航空航天大学; 2007年
7宋恩雨; 基于CIS传感器的纸币鉴伪与清分系统研究 [D];山东科技大学; 2007年
8李刚; 印刷体藏文识别系统的研究与实现 [D];上海交通大学; 2007年
 中国博士学位论文全文数据库找到 1 条
 
1李培峰; 基于语义的多文种信息处理平台SMIPP的研究 [D];苏州大学; 2006年
 中国重要会议论文全文数据库找到 3 条
 
1高定国,龚育昌; 设计OpenType藏文白体字库的技术研究 [A];第十届全国少数民族语言文字信息处理学术研讨会论文集 [C]; 2005年
2江荻; 藏语文本信息处理的历程与进展 [A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集 [C]; 2006年
3刘汇丹,芮建武,吴健; 藏文网页的编码识别与转换 [A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集 [C]; 2006年
 【相似文献】 
 中国期刊全文数据库
 
1王浩军,赵南元,邓钢轶; 藏文识别的预处理 [J];计算机工程; 2001年09期; 93-96
2王维兰 ,丁晓青 ,戴玉刚; 藏文识别后处理研究 [J];术语标准化与信息技术; 2002年02期; 31-35
3王维兰; 藏文基本字符识别算法研究 [J];西北民族学院学报(自然科学版); 1999年03期; 22-25+53
4王维兰,丁晓青,祁坤钰; 藏文识别中相似字丁的区分研究 [J];中文信息学报; 2002年04期; 61-66
5刘刚,丁晓青,彭良瑞,刘长松; 多知识综合判决的字符切分算法 [J];计算机工程与应用; 2002年17期; 62-64+75
6安艳辉,董五洲; 粘连搭接字符切分方法研究 [J];河北师范大学学报(自然科学版); 2005年02期; 33-36
7吴畏,丁茂祥,郝红卫; 通用票据识别系统中的字符切分方法 [J];计算机工程与设计; 2004年01期; 21-23
8刘玲,张兴会; 智能化车牌识别系统研究 [J];仪器仪表学报; 2004年S1期; 577-578+589
9丁莉雅,刘济林; 基于图像处理技术的智能火车字符识别系统 [J];电视技术; 2003年05期; 81-83
10李甦,张俊华,张榆锋,施心陵; 中文斜体印刷字倾斜角度的检测算法 [J];计算机工程; 2003年02期; 236-237
 中国优秀硕士学位论文全文数据库
 
1鲁玉军; 邮政信封的版面分析及字符切分 [D];辽宁工程技术大学; 2002年
2安艳辉; 中英文混排字符切分方法研究 [D];河北大学; 2004年
3吴炜; 基于计算机视觉的车牌识别系统 [D];四川大学; 2003年
4尹令; 车牌自动识别系统的研究及其在VC++中的实现 [D];湘潭大学; 2003年
5董五洲; 基于统计分类的混排字符切分算法的研究 [D];燕山大学; 2006年
6叶霆; 汽车牌照自动识别技术研究 [D];西北工业大学; 2006年
7方凯; 车牌图像识别应用技术研究 [D];合肥工业大学; 2007年
8刘涛; 智能车牌识别技术的研究 [D];天津工业大学; 2007年
9李凌; 汽车牌照识别技术的研究与实现 [D];合肥工业大学; 2006年
10汪涛; 汽车牌照识别技术的研究 [D];西安电子科技大学; 2005年
 中国重要会议论文全文数据库
 
1严海林,江荻; 一种基于三级分类器的藏文识别方法 [A];第十届全国少数民族语言文字信息处理学术研讨会论文集 [C]; 2005年
2刘玲,张兴会; 智能化车牌识别系统研究 [A];第二届全国信息获取与处理学术会议论文集 [C]; 2004年
3岳思聪,方晓芙,赵荣椿,王庆; 电子阅读笔软件系统的算法设计与实现 [A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集 [C]; 2004年
4彦楠,曾丰,张洪刚,郭军; 基于反馈的车牌颜色分类及字符切分 [A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册) [C]; 2007年
5孙俊,黄开竹,于浩,岩见田均; 面向中国市场的文字识别技术研发 [A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集 [C]; 2006年
6玉素甫.艾白都拉,马木提江,木沙江; 维文笔式输入编辑器研究进展 [A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集 [C]; 2006年
7玉素甫.艾白都拉,热孜万,艾斯卡尔; 笔式维文输入电子文稿编辑器的研究 [A];第十届全国少数民族语言文字信息处理学术研讨会论文集 [C]; 2005年
8安永泉,禹健,郭圣权; 基于Hough变换的车辆牌照识别 [A];中国体视学学会图像分析专业、中国体视学学会仿真与虚拟现实专业、中国航空学会信号与信息处理专业第一届联合学术会议论文集 [C]; 2000年
9张兴会,杜升之,陈增强,袁著祉; 基于神经网络的车牌照自动识别系统 [A];中国仪器仪表学会第三届青年学术会议论文集(上) [C]; 2001年
 中国重要报纸全文数据库
 
1左常睿; 计算机也认藏文了 [N];科技日报; 2003年
2彭良瑞; “多字体印刷藏文文档识别系统”通过鉴定 [N];中国社会科学院院报; 2003年
3杨艳群; 标准尚未统一 技术仍需完善 [N];中国交通报; 2001年
4 多字体印刷藏文文档识别系统问世 [N];中国新闻出版报; 2004年