收藏本站
《模式识别与人工智能》 1998年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的文档分类系统

黄萱菁  吴立德  
【摘要】:本文介绍了一个建立在向量空间模型上的文档分类系统.该系统着重解决向量维数压缩和中文专有词汇获取等问题.在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇.实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率.
【作者单位】复旦大学计算机科学系;
【基金】:863计划 国家自然科学基金
【分类号】:TP399

【引证文献】
中国期刊全文数据库 前10条
1 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
2 汤琛;王攀;;基于URL分类库正逆向分类模型的设计实现[J];电信快报;2009年12期
3 徐家良;;个性化服务在WAP中的应用[J];福建电脑;2012年02期
4 刘开袆;江志雄;;基于K-近邻方法的网络信息文本分类[J];贵州大学学报(自然科学版);2009年03期
5 江志雄,丁岳伟;基于K-近邻方法的网络信息文本分类[J];上海理工大学学报;2005年01期
6 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
7 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
8 丁文斌,李斌,罗浩;基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J];计算机工程与应用;2005年18期
9 夏绪虎;杨炳儒;;海量信息搜索共享服务系统的设计与实现[J];计算机工程与应用;2006年28期
10 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
中国重要会议论文全文数据库 前1条
1 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
中国博士学位论文全文数据库 前4条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
3 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
4 张邦佐;基于正例和无标记样例学习研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 许芳芳;基于DBSCAN优化算法的Web文本聚类研究[D];华东师范大学;2011年
2 彭卫华;互联网新闻热点挖掘系统的研究与实现[D];哈尔滨工业大学;2010年
3 唐志文;搜索引擎中数据对象研究[D];湖南大学;2001年
4 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
5 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
6 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
7 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
8 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
9 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
10 张美香;贝叶斯文本分类器的研究与改进[D];太原理工大学;2005年
【参考文献】
中国期刊全文数据库 前2条
1 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
2 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
【共引文献】
中国期刊全文数据库 前10条
1 林雅平;论《中图法》的规范化[J];北京图书馆馆刊;1996年01期
2 刘少武;《中图法》(第4版)传记类目述评[J];北京图书馆馆刊;1999年04期
3 吴开华;《中图法》(四版)TN、TP类修订释析[J];国家图书馆学刊;2000年03期
4 曹玉强,于鹏;关于《中图法》类目复分组配加“0”问题的探讨[J];国家图书馆学刊;2004年01期
5 曹玉强,陆婷;《中图法》(第4版)若干类目辨析[J];国家图书馆学刊;2004年02期
6 刘坤照,白焕海;关于《中图法》多重列类的分析[J];国家图书馆学刊;2005年03期
7 刘少武;《中图法》(第4版)应增设邓小平著作写作年代表[J];国家图书馆学刊;2005年03期
8 刘少武;;《中图法》(第四版)“中国时代表”的修订与不足[J];国家图书馆学刊;2006年03期
9 汪东波;《中图法》第三版存在的问题及对第四版的建议[J];北京图书馆馆刊;1996年03期
10 白国应;纪念《中小型表》出版40周年[J];北京图书馆馆刊;1997年03期
中国重要会议论文全文数据库 前4条
1 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
2 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 吴翔;产品4D信息模型的基础技术研究[D];武汉理工大学;2005年
7 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
8 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
9 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
10 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
2 王茹;交通术语与标准规范的符合性检测技术研究[D];长安大学;2011年
3 李丹丹;基于本体的知识表示及信息检索研究[D];西南交通大学;2011年
4 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
5 刘小荣;基于聚类分析的图模型文本分类[D];内蒙古科技大学;2011年
6 许人升;基于意群的文本分类方法研究[D];北京化工大学;2011年
7 窦汝鹏;基于Web内容挖掘的医药类广告监控系统的实现[D];哈尔滨理工大学;2011年
8 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
9 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
10 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 彭灏;;泛微隆重发布协同软件产品系列[J];办公自动化;2005年08期
2 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
3 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
4 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
5 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
6 刘宗祥,屈文;回眸“知识爆炸”论[J];图书与情报;2002年02期
7 华薇娜;;搜索引擎的最新进展述要[J];图书与情报;2009年06期
8 李业丽;秦臻;;一种改进的k-means算法[J];北京印刷学院学报;2007年02期
9 郝慧珍,傅汝林;基于IP伪装的网络安全技术研究[J];成都理工学院学报;2002年03期
10 别祖杰;;网上导航的指南针——介绍几个著名的搜索引擎[J];重庆石油高等专科学校学报;1999年01期
中国重要会议论文全文数据库 前1条
1 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前5条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 张巍;基于k近邻分类准则的特征变换算法研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
3 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
4 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
7 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
8 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
9 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
10 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
4 胡俊;;基于多重分形的实际信息流的尺度研究[J];成都大学学报(自然科学版);2009年01期
5 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
6 谭金波;;面向网络教育资源的文本自动分类系统的设计与实现[J];中国远程教育;2009年04期
7 章坚民;张自聪;郭峰;谷炜;占震滨;楼坚;王云;;调度大屏输电网潮流图自动生成 (二)自动布线[J];电力系统自动化;2010年01期
8 檀林,张永奎;一种基于迭代学习的文本分类器构造方法[J];电脑开发与应用;2004年02期
9 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
10 周如旗;基于扩展Petri网的文本分类模型[J];电脑与信息技术;2005年04期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
4 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 陈沛;;搜索的未来[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 孙雄勇;罗霄;;中图分类法体系下的自动分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
4 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
5 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
6 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
9 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
10 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
3 李进;基于灰度共生矩阵的森林纹理构造因子确定方法研究[D];浙江农林大学;2010年
4 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
7 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
8 伍红亮;基于最小风险的贝叶斯邮件过滤算法研究[D];华南理工大学;2010年
9 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
10 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前3条
1 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
2 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
3 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
【相似文献】
中国期刊全文数据库 前10条
1 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
2 王春红;张敏;;隐含语义索引模型的分析与研究[J];计算机应用;2007年05期
3 牛玲;;一种基于向量空间模型的改进文本分类算法[J];情报杂志;2006年06期
4 徐衍;蒋运韫;;信息管理中的中文信息检索[J];商场现代化;2008年12期
5 龙军;彭毅;;基于LSI/SVD的文本分类方法研究[J];微计算机信息;2009年30期
6 唐明伟;卞艺杰;陶飞飞;;基于语义向量空间模型的文档检索系统研究[J];情报杂志;2010年05期
7 丁立恺;夏勇明;钱松荣;;基于词关联度的文本检索系统[J];微型电脑应用;2011年03期
8 艾伟;孙四明;张峰;;基于本体的Web文本挖掘与信息检索[J];计算机工程;2010年22期
9 居斌;;潜在语义标引在中文信息检索中的研究与实现[J];计算机工程;2007年05期
10 彭敦陆;周傲英;;基于向量空间的W eb服务发现模糊方法[J];计算机应用;2006年09期
中国重要会议论文全文数据库 前10条
1 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年
2 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维吾尔文Web信息检索中基于改进VSM的文档表示及相似度研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 樊景超;周国民;周义桃;;基于SDD改进算法的中文农业搜索引擎的研究[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
6 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
9 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
2 谭琦;面向跨领域文档分类的异构迁移学习算法研究[D];华南理工大学;2013年
3 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
4 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
5 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
6 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
9 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
10 董道国;高维数据索引结构研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
2 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
3 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年
4 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
5 孔祥凤;企业网搜索引擎的设计与实现[D];辽宁科技大学;2007年
6 张波;个性化Web搜索系统研究[D];燕山大学;2006年
7 肖佳;基于Agent的信息推送技术的研究与应用[D];苏州大学;2006年
8 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
9 王银丽;限定领域内智能问答系统的研究与实现[D];内蒙古大学;2008年
10 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026