收藏本站
《北京理工大学学报》 2005年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

中文停用词表的自动选取

顾益军  樊孝忠  王建华  汪涛  黄维金  
【摘要】:通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理.

【引证文献】
中国期刊全文数据库 前8条
1 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
2 杨涛;;基于Web内容挖掘的个性化学习系统[J];科学技术与工程;2009年06期
3 黄魏;高兵;刘异;杨克巍;;基于词条组合的中文文本分词方法[J];科学技术与工程;2010年01期
4 巩政;关高娃;;蒙古文停用词和英文停用词比较研究[J];中文信息学报;2011年04期
5 唐坚刚;熊国萍;;自适应不良网页过滤模式的研究与实践[J];计算机工程与设计;2008年20期
6 崔彩霞;;停用词的选取对文本分类效果的影响研究[J];太原师范学院学报(自然科学版);2008年04期
7 化柏林;;知识抽取中的停用词处理技术[J];现代图书情报技术;2007年08期
8 蒋子龙;高曙;;基于向量空间模型的Web服务描述相似度计算的研究与实现[J];咸阳师范学院学报;2007年06期
中国硕士学位论文全文数据库 前10条
1 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
2 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
3 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
4 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
5 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
6 何晓;模糊聚类算法在汉语文本聚类中的研究[D];天津财经大学;2011年
7 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
8 王霞;文本驱动的表情合成研究[D];西南交通大学;2011年
9 张鹏飞;WEB挖掘技术在网络警情监控中的应用研究[D];华北电力大学;2011年
10 吕斐斐;学位论文预审分配管理系统研究[D];哈尔滨工业大学;2010年
【参考文献】
中国期刊全文数据库 前1条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
3 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
4 白凤凤;;基于不平衡数据集的文本分类技术研究[J];电脑编程技巧与维护;2010年06期
5 张红;;基于语义的中文搜索引擎研究[J];电脑知识与技术;2009年08期
6 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
7 陈炎龙;张志明;;基于向量空间模型的英文文本难度判定[J];电脑知识与技术;2010年12期
8 苏力华;朱章华;白文华;;基于向量空间模型的文本分类特征权重算法研究[J];电脑知识与技术;2010年33期
9 熊小梅;刘永浪;;基于LSA的二次降维法在中文法律案情文本分类中的应用[J];电子测量技术;2007年10期
10 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
中国重要会议论文全文数据库 前4条
1 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
4 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
7 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
2 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
3 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
4 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
5 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
6 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
7 巩军全;文本分类算法的研究与改进[D];西安电子科技大学;2010年
8 黄少冰;基于J2ME的移动网络个性化信息推荐研究[D];西安电子科技大学;2011年
9 杨玉珍;基于统计与规则的特征权重计算方法研究与应用[D];山东师范大学;2011年
10 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
3 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
4 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
5 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
6 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
7 李冠军;陈雪松;徐建锁;;基于模式聚合理论的文本特征降维方法及其在文本分类中的应用[J];北京理工大学学报;2005年12期
8 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
9 刘丽珍,宋瀚涛,陆玉昌;Dimensionality Reduction by Mutual Information for Text Classification[J];Journal of Beijing Institute of Technology(English Edition);2005年01期
10 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 何婷婷;语料库研究[D];华中师范大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
9 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年
2 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
3 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
4 崔争艳;中文短文本分类的相关技术研究[D];河南大学;2011年
5 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年
6 王法波;文本分类的特征选择和分类方法研究[D];山东大学;2011年
7 程苗;云计算技术在web日志挖掘中的应用研究[D];中国科学技术大学;2011年
8 刘玲玲;文本分类中的特征选择研究[D];中国石油大学;2011年
9 刘亚南;KNN文本分类中基于遗传算法的特征提取技术研究[D];中国石油大学;2011年
10 李丹;基于朴素贝叶斯方法的中文文本分类研究[D];河北大学;2011年
【二级引证文献】
中国期刊全文数据库 前10条
1 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
2 罗晖霞;曲晓玲;;基于网络舆情的K-Means算法的改进研究[J];电脑开发与应用;2010年08期
3 熊国萍;唐敏;;智能型文本过滤的创新模式与系统设计[J];电脑知识与技术;2010年12期
4 徐杰;丁振凡;;基于搜索引擎结果由教师过滤的个性化教学推荐[J];电脑知识与技术;2010年34期
5 桑书娟;王敏;;一种结合文档频率和互信息的特征项提取方法[J];电脑知识与技术;2012年11期
6 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
7 桑书娟;王庆喜;;一种结合正向最大匹配法和互信息的中文分词算法[J];计算机光盘软件与应用;2012年07期
8 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
9 骆万文;高飞;周学广;;抗中文主动干扰关键词过滤研究综述[J];吉首大学学报(自然科学版);2011年03期
10 齐保元;曹存根;郑宇飞;岳金朋;;领域知识文档的语义检索方法研究[J];计算机工程与应用;2012年03期
中国博士学位论文全文数据库 前1条
1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
2 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
3 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
4 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
5 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
6 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
7 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
8 郭茜;搜索引擎结果冗余信息消解算法的研究与应用[D];东华大学;2011年
9 李长进;基于中文带权关键词树的受限领域问答系统研究[D];山东经济学院;2011年
10 齐保元;知识文档的语义检索方法研究与实现[D];首都师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
【相似文献】
中国期刊全文数据库 前10条
1 杨则正;计算机编制《中国机械工程文摘》主题索引[J];现代图书情报技术;1984年02期
2 范铮;如何从《工程索引》查找机械工程文献(上)[J];中国机械工程;1988年02期
3 傅兰生;我国词表工作近期发展方向──兼论建立国家主题词库的可行性[J];情报理论与实践;1989年02期
4 周全明;叙词表功能性注释初探[J];情报理论与实践;1994年05期
5 片玉君;情报检索的词表模型[J];现代图书情报技术;1995年01期
6 范炜;邹庆;;词表资源关联化[J];情报理论与实践;2010年05期
7 张惠惠;联机检索中词表使用的有效性[J];现代图书情报技术;1991年03期
8 傅兰生,崔荣英;叙词表的词量控制[J];情报理论与实践;1992年01期
9 朱岩;开发机读词表功能的研究[J];情报理论与实践;1993年01期
10 胡明;分类主题一体化词表的理论及研制述评[J];图书情报工作;1994年05期
中国重要会议论文全文数据库 前10条
1 孙茂松;王洪君;董秀芳;;《信息处理用现代汉语分词词表》规范[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 郗昕;李剑挥;蒋政;冀飞;陈艾婷;赵乌兰;;汉语扬扬格词表的编辑与等价性研究[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
3 李丽;王宁宇;葛晓辉;陈莉;孟伊;李金兰;;正常人背景噪声下言语测听词表的等价性分析[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
4 史中琦;张普;;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 张华;邵广宇;陈静;王硕;张朝慧;李玉玲;韩德民;;普通话单音节完整词表与小词表的比较研究[A];第九届中国语音学学术会议论文集[C];2010年
6 武英;林松;呼红梅;戴更芸;李均同;王怀中;;屠前停用矿物元素对猪生长性能及肉质影响的研究[A];中国畜牧兽医学会2004学术年会暨第五届全国畜牧兽医青年科技工作者学术研讨会论文集(上册)[C];2004年
7 张国亮;郑方;吴文虎;;基于两层词法树的大词表连续语音识别搜索算法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 李腾;李成荣;李鹏;;词表限制下的非母语连续英文字母串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
10 陈忠兵;郑黎峰;沈季雄;迟鸣声;高和利;雷恒海;;一起因停用积水导致的锅炉联箱点腐蚀[A];2011年全国失效分析学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 青锋;停用他汀不良事件增加[N];医药经济报;2002年
2 记者 胡立强 通讯员 雷文明;湖南停用“湘O”特殊号牌[N];人民公安报;2009年
3 山东;排灌机械停用后的养护[N];山西科技报;2001年
4 记者 司文;校舍存安全隐患 停用[N];西安日报;2011年
5 肖甫;不能随意停用的药物[N];农村医药报(汉);2007年
6 记者 孙洪涛;含苯丙醇胺药品下架停用[N];中国医药报;2000年
7 黄海敏 刘翔;阿托莫西汀 肝损伤者应停用[N];中国医药报;2005年
8 胡品福 邵开江;“急刹车”易刹出祸[N];医药经济报;2004年
9 周松坡;另类隐藏光驱一法[N];中国电脑教育报;2003年
10 ;停用三联治疗有何影响[N];中国医药报;2004年
中国博士学位论文全文数据库 前10条
1 崔勇;儿童言语测听词表的设计和人工耳蜗植入对语前聋儿童言语识别的影响[D];复旦大学;2004年
2 甘瑞瑗;国别化“对外汉语教学用词表”制定的研究:以韩国为例[D];北京语言大学;2005年
3 谢海源;Cedemex抗大鼠吗啡依赖性的作用及其机制研究[D];广西医科大学;2007年
4 冯珍;产品级再使用研究[D];西安电子科技大学;2005年
5 毛伟宾;汉语错误记忆通道效应的研究[D];华东师范大学;2009年
6 解恒革;老年男性认知功能衰退与血清睾酮和雌二醇的关系[D];中国人民解放军军医进修学院;2004年
7 姜辉;Smartcare等通气模式对慢性阻塞性肺病患者呼吸力学的影响[D];中国人民解放军军医进修学院;2005年
8 吴晓真;英语为源语言词典编纂中的用户友善问题[D];复旦大学;2004年
9 周楚;错误记忆的理论和实验[D];华东师范大学;2005年
10 武忠定;越南语核心词研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 张志刚;领域本体构建方法的研究与应用[D];大连海事大学;2008年
2 史中琦;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[D];北京语言大学;2005年
3 曾铄然;大学英语词汇对普通英语的词汇覆盖率[D];大连海事大学;2008年
4 刘颖;大学英语四级词汇在轮机英语的语篇覆盖率[D];大连海事大学;2006年
5 王京;基于医学研究论文语料库的医学学术词表的构建[D];第四军医大学;2006年
6 裴冬梅;程序代码相似度中的代码转换技术的研究[D];内蒙古师范大学;2008年
7 李蓓;言语清晰度测试词表与汉语测试词表在听力正常人中言语识别阈的测试比较[D];四川大学;2005年
8 董振燕;服装英语词汇与大学英语四级词汇的对比分析[D];大连海事大学;2007年
9 欧阳晓芳;《汉语水平词汇与汉字等级大纲》动词体系研究[D];华中科技大学;2005年
10 徐华;基于可比较语料库的中英文词表构建研究[D];苏州大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026