停用词的选取对文本分类效果的影响研究
【摘要】:考察了2种常用的基于统计方法的停用词选取方法,结合语言学知识,提出了一种统计和语言学结合的停用词选取的方法,以支持向量机作为分类器在复旦语料上做了实验,结果表明该方法在保证文本分类的准确率的基础上,可以大大地降低特征词的维数.
|
|
|
|
1 |
黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期 |
2 |
杨清,杨岳湘,瞿国平;智能文本分类系统的研究与设计[J];计算机应用研究;1999年10期 |
3 |
邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期 |
4 |
李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期 |
5 |
陶兰,申军霞;文本信息自动分类系统ITC98(Ⅰ)──ITC98总体结构与编码子系统[J];中国农业大学学报;1999年04期 |
6 |
陶兰,申军霞;文本信息自动分类系统ITC98(Ⅱ)──基于BP网络的文本分类子系统[J];中国农业大学学报;1999年04期 |
7 |
卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期 |
8 |
邹涛,孙赛;文档自动分类技术及其实现[J];计算机系统应用;1999年04期 |
9 |
王小华,张国煊;基于多元统计分析的电子文本自动分类[J];杭州电子工业学院学报;1999年03期 |
10 |
陈勤!信息工程分院,张国煊!信息工程分院,王小华!信息工程分院;文本自动模糊分类方法的研究[J];杭州电子工业学院学报;1999年04期 |
|