收藏本站
《广西师范大学学报(自然科学版)》 2003年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

文本分类实现技术

王灏  黄厚宽  田盛丰  
【摘要】:文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展.

手机知网App
【引证文献】
中国期刊全文数据库 前4条
1 张玉芳;陈剑敏;熊忠阳;;一种改进的贝叶斯文本分类方法[J];广西师范大学学报(自然科学版);2007年02期
2 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
3 刘华;;改进的简单贝叶斯文本分类[J];暨南大学学报(自然科学版);2007年01期
4 刘华;;基于关键短语的文本分类研究[J];中文信息学报;2007年04期
中国博士学位论文全文数据库 前1条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
2 张玉新;面向专题的信息搜索与过滤技术研究[D];国防科学技术大学;2005年
3 张莉;智能网页信息过滤系统AIFS的研究与实现[D];华中科技大学;2005年
4 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
5 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
6 肖雪;中文文本层次分类研究及其在唐诗分类中的应用[D];重庆大学;2006年
7 吕青普;科技文档的分类与查重[D];天津财经大学;2007年
8 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年
9 常庆;风险主题搜索引擎相关技术的研究与应用[D];西北大学;2008年
10 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
【参考文献】
中国期刊全文数据库 前1条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
3 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
4 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期
5 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
6 刘向东;数据挖掘技术浅析[J];电脑学习;2002年02期
7 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
8 李向伟;仇德成;;数据挖掘技术在Web中的应用研究[J];电脑知识与技术;2006年02期
9 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术;2006年14期
10 陈福集;数据挖掘在Internet信息导航系统中的应用研究[J];电信科学;2000年09期
中国博士学位论文全文数据库 前10条
1 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
4 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
5 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
6 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
7 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
8 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
9 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
10 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
2 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
3 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
4 刘艳青;基于Web的个性化信息检索研究[D];山东大学;2005年
5 雷庆;识别和抽取Web中的关系信息及其出现模式[D];华侨大学;2005年
6 王娜;Web文本挖掘的研究[D];兰州理工大学;2005年
7 黄素珍;并行多元搜索引擎的研究与设计[D];广西大学;2001年
8 杜民;应用神经网络的Internet智能代理的实现[D];暨南大学;2001年
9 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
10 朱燕;基于人工智能与数据挖掘理论的企业决策支持系统[D];广东工业大学;2001年
【同被引文献】
中国期刊全文数据库 前10条
1 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
2 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
3 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
4 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
5 牛伟霞,张永奎;潜在语义索引方法在信息过滤中的应用[J];计算机工程与应用;2001年09期
6 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
7 杨岳湘,田艳芳,王韶红;基于模糊聚类和Naive Bayes方法的文本分类器[J];计算机工程与科学;2002年05期
8 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
9 游荣彦,邓志才,李传宏;向量空间模型中特征词的区分度的定量研究[J];中文信息学报;2002年03期
10 朱靖波,姚天顺;基于FIFA算法的文本分类[J];中文信息学报;2002年03期
中国重要会议论文全文数据库 前1条
1 周雪忠;方青;吴朝晖;;中文文本分类特征表示及分类方法比较研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前10条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
6 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
8 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
9 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
10 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
2 李清;一种基于动态知识库的搜索引擎的技术研究[D];暨南大学;2002年
3 曲建华;Web上的信息过滤问题研究[D];山东师范大学;2003年
4 董建设;基于HTML标记分析及中文切词的网页索引研究与实现[D];兰州理工大学;2003年
5 李正林;中文文本数据分类研究[D];上海师范大学;2004年
6 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
7 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
8 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
9 栾悉道;互联网公开情报收集与处理技术研究[D];国防科学技术大学;2003年
10 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前10条
1 齐丽云;通信行业客户服务系统中知识发现的应用研究[D];大连理工大学;2006年
2 郭峰;面向行业搜索引擎的WEB文本挖掘技术研究[D];兰州大学;2006年
3 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
4 刘冬梅;HTML文本自动分类技术的研究与工具的实现[D];内蒙古大学;2006年
5 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
6 王琪;基于SVM的Web文本分类研究[D];上海海事大学;2007年
7 郭鹏;汉语语法语料库系统的基础设计[D];天津师范大学;2006年
8 张果;短信数据挖掘框架的设计与实现[D];电子科技大学;2007年
9 朱玉丽;基于网格技术的主题爬虫算法优化的研究与实现[D];沈阳工业大学;2007年
10 戴姗;基于DCC三年经济日报语料的面向国际大企业商务领域词语统计方法研究[D];北京语言大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
2 张永波;游录金;陈杰新;;基于模拟退火的多标记数据特征选择[J];计算机工程与设计;2011年07期
3 曾安平;;一种增量式的半监督文本分类算法[J];宜宾学院学报;2011年06期
4 江小平;李成华;向文;张新访;;云计算环境下朴素贝叶斯文本分类算法的实现[J];计算机应用;2011年09期
5 李旻松;段琢华;;基于支持向量机的隐含语意特征选择方法[J];计算机应用;2011年09期
6 许明英;尉永清;赵静;;一种结合反馈信息的贝叶斯分类增量学习方法[J];计算机应用;2011年09期
7 夏火松;刘建;朱慧毅;;中文情感分类挖掘预处理关键技术比较研究[J];情报杂志;2011年09期
8 王雪松;高阳;程玉虎;;基于随机子空间-正交局部保持投影的支持向量机[J];电子学报;2011年08期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
3 张长利;左万利;彭涛;赫枫龄;彭钊;邵慧勇;;基于无监督聚类的PU文本分类方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
6 殷苌茗;陈焕文;谢丽娟;;基于最大期望学习算法的无标识文本分类[A];2002中国控制与决策学术年会论文集[C];2002年
7 陈东亮;白清源;;基于词频向量的关联文本分类[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 陈伟福;冯国灿;;局部光滑主成分分析[A];第十五届全国图象图形学学术会议论文集[C];2010年
9 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
10 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 何力;维数约简中的若干问题[D];复旦大学;2010年
3 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
4 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 吴正江;L模糊粗糙集研究[D];西南交通大学;2009年
7 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
8 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
2 孟祥国;多类文本分类的支持向量机网络[D];山东大学;2007年
3 余从津;非线性维数约减的研究及其应用[D];天津大学;2004年
4 于楠;基于Ontology的领域知识库层次分类体系的构建[D];东北大学;2005年
5 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
6 竭洋;基于模糊支持向量机的多类文本分类方法研究[D];兰州理工大学;2009年
7 谭新;基于语义特征提取的PU文本分类的研究与实现[D];吉林大学;2007年
8 张世荣;支持向量机文本分类算法研究[D];大连理工大学;2007年
9 许晓晴;基于SVM的文本分类算法研究[D];吉林大学;2008年
10 李聪娥;局部线性嵌入在文本分类中的应用[D];河北工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026