收藏本站
《武汉理工大学学报(信息与管理工程版)》 2006年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

VSM在中文文本聚类中的应用及实证分析

马辉民  李卫华  吴良元  
【摘要】:文本聚类是W eb文本挖掘的一个重要分支,而文本表示方法是文本聚类的基础。重点讨论了文本表示方法中最常用到的向量空间模型,分析了其优势和不足,并基于一个文本处理实验,对V SM模型从可实现角度给出改进建议。

【引证文献】
中国期刊全文数据库 前1条
1 周彩兰;冯斌;;Web数据挖掘在搜索引擎中的应用[J];软件导刊;2007年17期
中国硕士学位论文全文数据库 前2条
1 王晓欢;移动通信客户服务中的知识导航方法研究[D];大连理工大学;2007年
2 姜鑫维;基于分布式的智能搜索引擎[D];武汉理工大学;2006年
【参考文献】
中国期刊全文数据库 前2条
1 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
2 牟廉明;数据挖掘中聚类方法比较研究[J];内江师范学院学报;2003年02期
【共引文献】
中国期刊全文数据库 前10条
1 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
2 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
3 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
4 王强,王晓龙,关毅,徐志明;K-NN与SVM相融合的文本分类技术研究[J];高技术通讯;2005年05期
5 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
6 任美睿;郭龙江;李金宝;;基于改进的向量空间模型的自动文本分类[J];哈尔滨商业大学学报(自然科学版);2006年01期
7 刘钢,胡四泉,范植华,王勇,张彤;神经网络在文本分类上的一种应用[J];计算机工程与应用;2003年36期
8 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
9 罗三定,冯元勇,沈德耀,贾维嘉;基于概念的文档评价模型[J];计算机工程;2002年08期
10 康平波,王文杰;基于自动分类的网页机器人[J];计算机工程;2003年21期
中国重要会议论文全文数据库 前8条
1 朱巧明;周志军;李培峰;;中文邮件语料库建设及其分类研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张琼;陈群秀;;基于最大熵模型的语句自动分类研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
4 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 丁伟莉;赵华;郑德权;赵铁军;于浩;;中文Blog热门话题检测与排序技术研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前9条
1 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
4 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
5 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
6 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
7 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
9 夏天;研究性学习支持系统[D];华东师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 洪艳芬;基于网格的垃圾邮件过滤系统的研究与应用[D];南昌大学;2008年
2 朱文轩;Blog文本内容敏感信息的自动提取技术[D];上海交通大学;2008年
3 邬雄崎;物理隔离网闸的过滤技术研究和实现[D];上海交通大学;2007年
4 刘石竹;基于句子级频繁项目集的文本分类方法研究[D];华中科技大学;2006年
5 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
6 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
7 陈林;独立于语种的文本分类方法[D];重庆大学;2007年
8 黎刚;文本分类中词语权重计算方法的改进及应用[D];重庆大学;2007年
9 齐先锋;数据挖掘在电信企业客户细分中的应用研究[D];江西理工大学;2007年
10 齐波;基于短语识别的自然语言理解搜索方法研究[D];重庆大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
2 邹娟,周经野,邓成,高南莎;特征词提取中同义处理的新方法[J];中文信息学报;2005年06期
3 张生太,段兴民;企业集团的隐性知识传播模型研究[J];系统工程;2004年04期
4 宋建元 ,陈劲;企业隐性知识共享的效率分析[J];科学学与科学技术管理;2005年02期
5 赵涛,曾金平;企业隐性知识流动态扩展模型分析[J];科学学研究;2005年04期
6 邓三鸿;金莹;杨建林;;学科知识地图的构建——以图书、情报学为例[J];情报学报;2006年01期
7 马文荣,刘东苏;信息构建与知识构建[J];情报杂志;2004年08期
8 刘海峰;王元元;;基于向量模型的文本检索若干问题研究[J];情报杂志;2006年10期
9 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
10 杨创新,彭宏,杨沛;一种基于主题树模型的Web主题检索算法[J];计算机工程与应用;2004年16期
中国硕士学位论文全文数据库 前5条
1 李世明;专业搜索引擎中信息过滤的研究与实现[D];北京化工大学;2005年
2 王强;面向专业主题的网页分类算法研究[D];国防科学技术大学;2005年
3 王术;面向个性化服务的网页特征描述方法研究[D];重庆大学;2004年
4 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
5 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
【二级参考文献】
中国期刊全文数据库 前1条
1 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
【相似文献】
中国期刊全文数据库 前10条
1 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
2 姜宁,宫秀军,史忠植;高维特征空间中文本聚类研究[J];计算机工程与应用;2002年10期
3 卜东波,白硕,李国杰;文本聚类中权重计算的对偶性策略[J];软件学报;2002年11期
4 徐建锁,王正欧,王莉;一种基于自组织神经网络的中文文本聚类新方法[J];情报学报;2003年06期
5 胡波;聚类方法在警报数据分类与约简中的应用[J];泰山学院学报;2003年03期
6 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
7 王国勇,徐建锁;TCBLSA:一种中文文本聚类新方法[J];计算机工程;2004年05期
8 黄钢石,陆建江,张亚非;基于NMF的文本聚类方法[J];计算机工程;2004年11期
9 林建敏,谢康林;基于PAT-array和模糊聚类的文本聚类方法[J];计算机工程;2004年12期
10 刘立平,易华容,何文斌;一种基于向量空间模型的文本聚类方法[J];株洲师范高等专科学校学报;2004年05期
中国重要会议论文全文数据库 前9条
1 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
5 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
6 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年
中国重要报纸全文数据库 前2条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前4条
1 戈鹏;敏捷化CAPP系统原理、关键技术与应用实践[D];四川大学;2003年
2 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
3 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
3 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
4 袁磊;基于概率模型的文本聚类[D];吉林大学;2005年
5 杨文忠;基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D];湖南大学;2005年
6 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
7 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
8 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
9 齐丽云;通信行业客户服务系统中知识发现的应用研究[D];大连理工大学;2006年
10 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026