收藏本站
《北方交通大学学报》 2003年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的文本自动分类系统的研究与实现

武旭  须德  
【摘要】:分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%.

【引证文献】
中国期刊全文数据库 前10条
1 张红;;基于语义的中文搜索引擎研究[J];电脑知识与技术;2009年08期
2 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
3 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
4 钟茂生;面向用户兴趣的网页信息过滤系统研究[J];科技广场;2004年10期
5 刘新生;厉锟;;基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J];计算机与现代化;2011年07期
6 包金龙;基于向量空间模型的信息检索系统的设计[J];情报杂志;2005年07期
7 张慰;秦新国;;电子作业管理系统的设计与开发[J];软件导刊;2007年07期
8 范灵;;一种改进的基于VSM的文档快速分类方法[J];中国西部科技;2006年17期
9 陈戏墨;谢铉洋;李志铭;李曦;李扬彬;;PACS中诊断文本的SVD聚类研究[J];医学信息;2005年12期
10 张慰;秦新国;;电子作业管理系统的设计与开发[J];中小学电教;2007年10期
中国硕士学位论文全文数据库 前10条
1 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
2 余从津;非线性维数约减的研究及其应用[D];天津大学;2004年
3 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
4 贝雨馨;基于意义信息增益的文本特征项权重计算方法[D];延边大学;2004年
5 田震生;基于文本聚类技术的邮件分类系统的研究与实现[D];河海大学;2005年
6 谢志强;题库系统中试卷生成与分析的研究[D];湘潭大学;2005年
7 凌菁;基于数据挖掘的中文垃圾邮件过滤方法研究与实现[D];广东工业大学;2005年
8 王艳萍;基于XML的移动信息检索模型研究[D];大连理工大学;2006年
9 范重庆;基于动态知识库的高考咨询问答系统研究[D];华中师范大学;2006年
10 张玉新;面向专题的信息搜索与过滤技术研究[D];国防科学技术大学;2005年
【参考文献】
中国期刊全文数据库 前1条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
4 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
5 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
6 王志明;沙莎;;Web文本挖掘技术在新闻主题检测中的应用研究[J];长沙大学学报;2007年05期
7 李淑领;;网络社区中的虚拟身份挖掘[J];沧州师范专科学校学报;2008年03期
8 查志琴;;基于行模式的网页信息提取算法[J];常州工学院学报;2007年04期
9 刘向东;数据挖掘技术浅析[J];电脑学习;2002年02期
10 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
中国重要会议论文全文数据库 前4条
1 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
3 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
4 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
2 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
4 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
5 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
6 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
7 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
8 吴翔;产品4D信息模型的基础技术研究[D];武汉理工大学;2005年
9 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
10 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
4 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
7 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
8 姜晓伟;粒子群算法在查询优化中的应用[D];哈尔滨理工大学;2010年
9 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年
10 程澄;一种舆情数据挖掘平台的研究[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 殷荣庆;题库系统的设计与研究[J];安徽教育学院学报;2004年06期
2 丛春瑜;利用Web Services实现网络个性化学习[J];安徽广播电视大学学报;2004年02期
3 陈键;;浅析常用聚类分析算法[J];安徽电子信息职业技术学院学报;2007年01期
4 倪志伟;;BP网络中激活函数的深入研究[J];安徽大学学报(自然科学版);1997年03期
5 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
6 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
7 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
8 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
9 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
10 李军;孙敬华;;钢铁企业竞争力评价方法比较与借鉴[J];北京科技大学学报(社会科学版);2006年02期
中国重要会议论文全文数据库 前8条
1 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗;;主题Web信息采集的研究与设计[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 王树西;刘群;白硕;;问答系统研究综述[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
3 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前7条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 郑春红;支撑矢量机应用的关键技术研究[D];西安电子科技大学;2005年
3 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
4 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
6 陈海波;云计算平台可信性增强技术的研究[D];复旦大学;2008年
7 石磊;基于数据的学习:埃尔米特算法与黎曼流形上的法向量估计[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 李清;一种基于动态知识库的搜索引擎的技术研究[D];暨南大学;2002年
2 董建设;基于HTML标记分析及中文切词的网页索引研究与实现[D];兰州理工大学;2003年
3 童红霞;ICAI中知识点关系的研究及其应用[D];湘潭大学;2003年
4 韩玲;经验遗传算法及其应用研究[D];北京工业大学;2004年
5 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
6 栾悉道;互联网公开情报收集与处理技术研究[D];国防科学技术大学;2003年
7 刘洋;聚合通信算法测试分析与理论研究[D];中国科学院研究生院(软件研究所);2005年
8 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
9 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
10 朱国华;文本信息处理中汉语句法分析方法研究[D];大连理工大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 赵耀红;;基于向量空间模型的信息检索系统的研究与实现[J];长春大学学报;2009年08期
2 朱征宇;周智;罗颖;李力沛;;基于浏览行为量化分析的兴趣网页提取[J];重庆工学院学报(自然科学版);2009年07期
3 陈瑛琦;雷相波;;改进遗传算法组卷系统的研究与实现[J];电脑编程技巧与维护;2009年S1期
4 陈伟锋;俞国红;;高职院校学生作业管理系统的设计与实现[J];电脑知识与技术;2010年26期
5 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
6 周翔;;XML技术在无线领域中的应用[J];信息技术;2010年01期
7 张晶;;基于语义的信息检索的查询扩展模型[J];河南科学;2009年12期
8 冯少荣;肖文俊;;基于语义距离的高效文本聚类算法[J];华南理工大学学报(自然科学版);2008年05期
9 樊娜;蔡皖东;赵煜;;基于混合模型的文本主题-情感分析方法[J];华中科技大学学报(自然科学版);2010年01期
10 刘伍颖;王挺;;基于词模型索引的短文本在线过滤方法[J];华中科技大学学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前2条
1 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 董华军;;推行消防职业技能鉴定计算机考试的思考[A];2011中国消防协会科学技术年会论文集[C];2011年
中国博士学位论文全文数据库 前5条
1 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
2 于洋;组织知识管理中的知识超网络研究[D];大连理工大学;2009年
3 黄永文;中文产品评论挖掘关键技术研究[D];重庆大学;2009年
4 何杰;多版本开放式地球空间网络服务统一访问方法研究[D];武汉大学;2010年
5 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 颜鲁合;基于.NET与AJAX的智能在线考试系统的设计与实现[D];兰州大学;2010年
3 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
4 郭全;基于MDS-FCM的可视化操作优化方法研究[D];武汉理工大学;2011年
5 凌菁;基于数据挖掘的中文垃圾邮件过滤方法研究与实现[D];广东工业大学;2005年
6 张敏;生物学文献的自动标引系统的研究与开发[D];东华大学;2006年
7 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
8 邱宇红;向量空间模型在医学文献相关性研究中的应用[D];中国医科大学;2006年
9 陈小建;民机区域维修大纲制订方法研究与辅助分析系统开发[D];南京航空航天大学;2005年
10 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
【二级参考文献】
中国期刊全文数据库 前1条
1 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
【相似文献】
中国期刊全文数据库 前10条
1 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
2 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
3 胡泽文;王效岳;白如江;;国内外文本分类研究计量分析与综述[J];图书情报工作;2011年06期
4 李旻松;段琢华;;基于支持向量机的隐含语意特征选择方法[J];计算机应用;2011年09期
5 夏火松;刘建;;文本相似度视角下的虚拟社区评论的可信性分析[J];现代情报;2011年09期
6 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
7 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
8 卢志翔;蒙丽莉;;文本分类中特征项权重算法的改进[J];柳州师专学报;2011年04期
9 刘新生;厉锟;;基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J];计算机与现代化;2011年07期
10 刘海峰;庞秀梅;张学仁;;一种聚类模式下基于密度的改进KNN算法[J];微电子学与计算机;2011年07期
中国重要会议论文全文数据库 前10条
1 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 刘华;周凌燕;张普;;面向词典编撰的词汇聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
6 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
3 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
4 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
5 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
6 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
7 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
8 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
中国博士学位论文全文数据库 前10条
1 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
2 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
3 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
4 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
8 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
9 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
10 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 沈贺丹;核心能力评价系统的分类模块研究[D];辽宁工程技术大学;2006年
2 李聪娥;局部线性嵌入在文本分类中的应用[D];河北工业大学;2007年
3 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
6 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
7 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
8 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
9 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
10 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026