收藏本站
《沈阳航空工业学院学报》 2008年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于中文地址类信息的分词处理

刘哲  夏秀峰  周福才  
【摘要】:数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略,在建立了包含分词规则的元数据库基础上,描述了基于特征字符的分词算法。实验结果表明分词所用的时间随着数据集的增长变化不大。因此,将分词方法应用于中文地址类重复记录的检测,也不会增加检测的时间。

【引证文献】
中国期刊全文数据库 前1条
1 郭文龙;;数据清洗中中文地址分词技术研究[J];齐齐哈尔大学学报(自然科学版);2012年05期
【参考文献】
中国期刊全文数据库 前3条
1 佘春红;数据清理方法[J];计算机应用;2002年12期
2 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
3 刘哲;夏秀峰;宋晓燕;林桐;;一种中文地址类相似重复信息的检测方法[J];小型微型计算机系统;2008年04期
【共引文献】
中国期刊全文数据库 前10条
1 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
2 冯素琴;陈惠明;;利用上下文信息解决汉语组合型歧义[J];电脑开发与应用;2007年01期
3 李明;卢煜;苏振中;;数据预处理中填补空缺值的方法技术[J];电脑知识与技术;2009年07期
4 何国斌;赵晶璐;;汉语文本自动分词算法的研究[J];计算机工程与应用;2010年03期
5 何国斌;赵晶璐;;基于最大匹配的中文分词概率算法研究[J];计算机工程;2010年05期
6 许翔,毛婕;数据清理技术在软件开发中的应用研究[J];计算机时代;2004年08期
7 张严虎;潘璐璐;彭子平;张靖波;于中华;;基于规则挖掘和Nave Bayes方法的组合型歧义字段切分[J];计算机应用;2008年07期
8 纪红;基于数据仓库的电力系统负荷预测研究[J];计算机与现代化;2003年12期
9 冯素琴;陈惠明;;基于语境信息的汉语组合型歧义消歧方法[J];中文信息学报;2007年06期
10 陆凤霞;王静秋;王宁生;;一种开放式数据清理框架[J];南京航空航天大学学报;2006年04期
中国重要会议论文全文数据库 前1条
1 张晓东;王宏志;高宏;李建中;;一个针对电子商务数据的在线实体分类系统[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前2条
1 方洪全;国有商业银行信用风险评估方法及应用研究[D];电子科技大学;2004年
2 袁建良;开发性金融信用风险度量研究[D];中南大学;2008年
中国硕士学位论文全文数据库 前10条
1 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
2 高旻;多源数据清洗策略研究及在财政部门预算中的应用[D];解放军信息工程大学;2009年
3 胡晓程;企业实施ERP系统数据质量管理研究[D];西安科技大学;2011年
4 孙扬民;面向书店的CRM系统及实施[D];黑龙江大学;2003年
5 于益俊;数据仓库技术在金财工程中的研究和实现[D];南京航空航天大学;2004年
6 肖干军;基于XML的异构数据源查询处理研究[D];华中科技大学;2004年
7 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
8 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
9 程扬;基于HIS数据仓库的构建及数据挖掘的研究与应用[D];新疆大学;2006年
10 刘哲;ETL过程中的数据清洗技术研究与应用[D];沈阳航空工业学院;2007年
【同被引文献】
中国期刊全文数据库 前7条
1 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
2 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
3 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
4 刘丹;方卫国;周泓;;基于贝叶斯网络的二元语法中文分词模型[J];计算机工程;2010年01期
5 张聪品;赵理莉;吴长茂;;基于字词分类的层次分词方法[J];计算机应用;2010年08期
6 吴昊;潘无名;王硕;杨博;;一种基于变型B-树的中文自动分词词典机制[J];技术与市场;2007年04期
7 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
【二级参考文献】
中国期刊全文数据库 前6条
1 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
2 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期
3 鲍玉斌;孙焕良;冷芳玲;王大玲;于戈;;数据仓库环境下以用户为中心的数据清洗过程模型[J];计算机科学;2004年05期
4 邱越峰,田增平,季文贇,周傲英;一种高效的检测相似重复记录的方法[J];计算机学报;2001年01期
5 李家福,张亚非;基于EM算法的汉语自动分词方法[J];情报学报;2002年03期
6 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
【相似文献】
中国期刊全文数据库 前10条
1 刘哲;夏秀峰;宋晓燕;林桐;;一种中文地址类相似重复信息的检测方法[J];小型微型计算机系统;2008年04期
2 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
3 张辉丽;孟昭鹏;王慧芝;;汉语自动分词中的歧义处理[J];微计算机应用;2006年06期
4 王永景;刘功申;李生红;荆涛;;用于文本校对的分词与词性标注一体化算法[J];计算机技术与发展;2008年08期
5 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期
6 盛启东;谭守标;徐超;冯二媛;陈军宁;;巧用黑盒法逆推百度中文分词算法[J];计算机技术与发展;2010年04期
7 方冰;张一中;;高性能FTP搜索引擎的设计[J];南京邮电大学学报(自然科学版);2007年03期
8 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
9 赵亚慧;;基于编辑距离的中文机构名简称检索方法研究[J];内蒙古科技与经济;2010年07期
10 周文刚;孙挺;;Web页文本信息语义过滤系统设计与实现[J];周口师范学院学报;2007年02期
中国重要会议论文全文数据库 前10条
1 周芝芬;乐嘉锦;;消除数据仓库中相似重复记录的方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 邱越峰;田增平;季文赟;周傲英;;一种基于N-Gram的检测相似重复记录的高效方法[A];第十六届全国数据库学术会议论文集[C];1999年
3 陈堃;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
4 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 杨文川;郁文生;黄涛;;基于统计数据仓库的元数据库标准的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 缪嘉嘉;李爱平;贾焰;吴泉源;;信息集成中数据获取关键技术的研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 徐春波;;中医药古籍元数据规范研究[A];中华中医药学会第九届中医医史文献学术研讨会论文集萃[C];2006年
8 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 孙立君;仇道霞;方竣峰;宋楠;;浅谈数据仓库中的元数据管理技术[A];中国烟草学会2009年年会论文集[C];2009年
10 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 dwway 余友波;建立一个元数据库[N];中国计算机报;2002年
2 李国辉 张军 汤义;挖掘技术直面多媒体[N];计算机世界;2002年
3 ;真诚的合作 良好的进展[N];中国信息报;2002年
4 杨华庭;“海洋信息共享”专题通过验收[N];中国海洋报;2000年
5 ;国家统计局数据库系统建设取得重要进展[N];中国信息报;2002年
6 本报记者杨永彦;贵州宏观数据库系统初步测试受肯定[N];中国信息报;2009年
7 郭容寰;提高基础地理信息服务水平 推动数字上海建设[N];中国测绘报;2004年
8 张艳梅 张雷;按CWM实现元数据统一管理[N];通信产业报;2004年
9 记者 赵君钱;甘肃启动地理空间信息基础设施建设[N];中国测绘报;2002年
10 立实;确保基础地理信息安全[N];中国测绘报;2004年
中国博士学位论文全文数据库 前10条
1 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
2 王霞;卫生统计调查元数据概念模型的研究[D];第四军医大学;2006年
3 江绵康;“数字城市”的理论与实践[D];华东师范大学;2006年
4 奚砚涛;基于开源技术的煤矿地测数据服务体系研究[D];中国矿业大学;2008年
5 袁燕妮;基于本体的电信产品信息融合服务框架研究与实践[D];北京邮电大学;2008年
6 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
7 朱恒民;领域知识制导的数据挖掘技术及其在中药提取中的应用[D];南京航空航天大学;2006年
8 吴建国;WEB SERVICES构架下的地质信息集成平台研究[D];中国矿业大学;2008年
9 许威;支持数据仓库国际化的ETL技术中若干关键问题研究和实践[D];厦门大学;2007年
10 陈学君;甘肃省气象科学数据共享平台及其应用研究[D];兰州大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘哲;ETL过程中的数据清洗技术研究与应用[D];沈阳航空工业学院;2007年
2 张平;海量数据相似重复记录检测的研究[D];桂林电子科技大学;2011年
3 陈玉强;数字图书馆系统应用技术研究[D];山东大学;2008年
4 戴颖;基于聚类树的相似重复记录检测算法改进研究[D];合肥工业大学;2010年
5 祁利刚;数据仓库数据抽取转换加载系统的研究[D];华北电力大学(河北);2007年
6 谢福成;面向金融行业数据仓库的数据质量控管的研究与实现[D];厦门大学;2009年
7 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年
8 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
9 孟宪明;基于关系数据库的OLAP辅助工具的研究与设计[D];沈阳工业大学;2006年
10 刘建彬;地质调查元数据发布系统[D];中国地质大学(北京);2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026