收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

文本自动分类系统文本预处理方法的研究

周钦强  孙炳达  王义  
【摘要】:在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 郑苏民,张松顺;一种新的文本预处理方法研究[J];云南大学学报(自然科学版);1995年01期
2 王秀贞;《逻辑设计》多媒体CAI课件的制作[J];枣庄师专学报;2001年02期
3 陆建江,张文献;中文文本分类器的设计[J];计算机工程与应用;2002年15期
4 沈记全,唐菁,杨炳儒;Web文本挖掘系统及其分类算法的研究与实现[J];计算机工程;2003年17期
5 张永奎,赵辄谦,陈鑫卿,白丽君;基于机器学习的网页主题词自动抽取[J];计算机应用;2003年03期
6 段鹏,谷雨,范菁,张天军;Agent技术在网络环境中的应用[J];云南民族学院学报(自然科学版);2003年02期
7 王卫东,王英林;基于企业概念本体的Web知识获取[J];计算机工程与应用;2004年16期
8 孙展,王永成;格式转换在基于仿人摘要系统中的应用[J];计算机仿真;2004年07期
9 刘壁松,李春平;一个可扩展的文本分类系统的设计与实现[J];计算机工程与应用;2004年30期
10 张霄军,张凌岚;基于XML的Web中文文本挖掘系统设计[J];术语标准化与信息技术;2004年03期
中国重要会议论文全文数据库 前2条
1 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前3条
1 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
2 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
3 马蓉平;网站搜索引擎的设计与实现[D];沈阳工业大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978