收藏本站
《计算机工程与应用》 2006年15期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一个面向文本分类的中文特征词自动抽取方法

付德宇  代成琴  
【摘要】:文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 李晓红;;中文文本分类中的特征词抽取方法[J];计算机工程与设计;2009年17期
2 于娟;党延忠;;结合词性分析与串频统计的词语提取方法[J];系统工程理论与实践;2010年01期
中国博士学位论文全文数据库 前1条
1 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前5条
1 彭俊;面向阅读的论文主题标引管理系统研究[D];中南大学;2007年
2 蔡灿民;基于词典的智能分词系统的研究与实现[D];昆明理工大学;2008年
3 李晓红;中文文本分类技术研究[D];兰州理工大学;2009年
4 方玉萍;基于潜语义与遗传算法的中文文本特征获取方法研究[D];云南师范大学;2007年
5 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
【参考文献】
中国期刊全文数据库 前2条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
【共引文献】
中国期刊全文数据库 前10条
1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
2 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
3 高波,眭莉;基于粗糙集的网页训练样本集的分类属性的选择[J];常州工学院学报;2004年02期
4 陈子军;王鑫昱;;基于网页特征的会话识别方法[J];燕山大学学报;2008年01期
5 曾华琳;周昌乐;郑旭玲;;A New Word Detection Method for Chinese Based on Local Context Information[J];Journal of Donghua University(English Edition);2010年02期
6 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
7 丁志勇;杨苹;杨曦;张臻;;基于连续时间段聚类的支持向量机风电功率预测方法[J];电力系统自动化;2012年14期
8 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期
9 王慧慧;;划分“11段”的思想在文本处理方面的研究[J];电脑知识与技术;2009年30期
10 黎昱,黄席樾,周欣,刘涛;一种Web文档在线自适应分类新方法[J];重庆大学学报(自然科学版);2003年07期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
3 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 王世卫;李爱国;;报税欺诈检测研究[A];第三届全国信息获取与处理学术会议论文集[C];2005年
6 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
7 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 韩晓明;基于符号有向图和支持向量机的故障诊断方法的研究[D];太原理工大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
5 刘松华;核矩阵低秩分解与核空间信息能度量研究及应用[D];西安电子科技大学;2011年
6 刘笑嶂;核方法的若干关键问题研究及其在人脸图像分析中的应用[D];中山大学;2010年
7 杨旭;基于核方法的模式分类研究与应用[D];上海交通大学;2011年
8 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
9 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
10 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
中国硕士学位论文全文数据库 前10条
1 张磊;基于支持向量机的反垃圾电话技术研究[D];哈尔滨工程大学;2010年
2 张峰;基于支持向量机的网站发布系统设计与实现[D];大连理工大学;2010年
3 徐晓丹;支持向量机在矿区遥感监测图像分类中的应用研究[D];辽宁工程技术大学;2009年
4 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
5 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
6 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年
7 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
8 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
9 石华;基于系统文件特征属性分析的计算机取证研究[D];大连交通大学;2010年
10 曹云生;基于支持向量机(SVM)的森林生态系统健康评价及预警[D];河北农业大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 丛春瑜;利用Web Services实现网络个性化学习[J];安徽广播电视大学学报;2004年02期
2 台德艺;谢飞;胡学钢;;基于位置权重的文本分类[J];安徽水利水电职业技术学院学报;2008年01期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
5 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
6 刘刚,何麟书;双赌轮选择遗传算法[J];北京航空航天大学学报;2005年08期
7 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
8 王练,李云,汪血焰;高维特征集选择模型研究[J];重庆邮电学院学报(自然科学版);2005年01期
9 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
10 王慧莉,隋丹妮;基于潜在语义分析的文本研究[J];重庆大学学报(社会科学版);2005年05期
中国博士学位论文全文数据库 前9条
1 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
2 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
5 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
6 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
7 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
8 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
9 李景;领域本体的构建方法与应用研究[D];中国农业科学院;2009年
中国硕士学位论文全文数据库 前6条
1 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
2 卢娇丽;基于粗糙集的文本分类方法研究[D];山西大学;2005年
3 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
4 曾慧宏;面向网络学习的知识服务平台及检索方法研究[D];中南大学;2005年
5 于娟;基于本体语言OWL的知识表示及推理算法研究[D];青岛大学;2006年
6 柴宝杰;中文自动分词若干技术的研究[D];燕山大学;2007年
【二级引证文献】
中国期刊全文数据库 前10条
1 刘兴林;郑启伦;马千里;;基于词共现有向图的中文合成词提取算法[J];计算机工程;2011年23期
2 梁丹凝;周书民;;基于文本挖掘的民声通道短信分类研究[J];江西科学;2010年02期
3 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
4 于娟;党延忠;;术语工作中文本挖掘方法的应用探索——信息管理与知识管理科技名词审定工作方法[J];中国科技术语;2011年04期
5 杨云;吴亚男;李健;;基于潜在特征词的文本相似度计算方法[J];计算机工程与设计;2011年02期
6 蒋建洪;赵嵩正;罗玫;;词典与统计方法结合的中文分词模型研究及应用[J];计算机工程与设计;2012年01期
7 孙珠婷;顾倩颐;;概念图构建中概念术语自动提取的研究与实现[J];计算机工程与设计;2012年07期
8 孙珠婷;顾倩颐;;领域概念术语提取中特征项自动抽取方法[J];计算机工程与设计;2012年08期
9 吴亚男;杨云;;一种新型的网络社区高影响力主题提取方法[J];陕西科技大学学报(自然科学版);2011年01期
10 刘萍;胡月红;;领域本体学习方法和技术研究综述[J];现代图书情报技术;2012年01期
中国博士学位论文全文数据库 前2条
1 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
2 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
2 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
3 吴秀梅;基于潜在语义分析和最大熵的中文情感分析研究[D];北京交通大学;2011年
4 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
5 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年
6 靳雪茹;基于机器学习的IPC与CLC类目映射方法[D];北京林业大学;2011年
7 符会涛;基于互信息的文本自动分类特征选择方法研究[D];新疆大学;2011年
8 曾丽辉;稀疏线性判别分析在文本分类中的应用研究[D];华东交通大学;2011年
9 许人升;基于意群的文本分类方法研究[D];北京化工大学;2011年
10 窦汝鹏;基于Web内容挖掘的医药类广告监控系统的实现[D];哈尔滨理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 李晓黎,史忠植;用数据采掘方法获取汉语词性标注规则[J];计算机研究与发展;2000年12期
2 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
3 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
4 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
5 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
6 刘涌泉;再读词的问题[J];中文信息学报;1988年02期
7 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
8 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
9 黄祥喜;书面汉语自动分词的“生成——测试”方法[J];中文信息学报;1989年04期
10 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
【相似文献】
中国期刊全文数据库 前10条
1 苏志响;邵志清;;基于上下文统计反馈的中文特征词抽取方法[J];情报探索;2006年12期
2 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
3 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
4 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
5 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
6 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
7 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
8 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
9 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
10 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前6条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
3 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
4 希安;微软试水信息检索[N];经济日报;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 应晓敏 窦文华;技术架构[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
7 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
10 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026