收藏本站
《情报理论与实践》 2008年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于TFIDF方法的中文关键词抽取算法

徐文海  温有奎  
【摘要】:本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著。

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
2 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
中国博士学位论文全文数据库 前1条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
【共引文献】
中国期刊全文数据库 前6条
1 杭娟;张冬茉;;一种基于同义词消除的文本过滤方法[J];计算机工程与应用;2006年19期
2 张春元;康耀红;;基于示例的Web信息自动获取系统的设计与实现[J];计算机应用;2005年S1期
3 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
4 侯筱婷;苏变萍;鲁萍;;建设法规政策知识库智能化查询分析与设计[J];微电子学与计算机;2006年06期
5 于海燕;陈晓江;冯健;房鼎益;;Web文本内容过滤方法的研究[J];微电子学与计算机;2006年09期
6 张敏;耿焕同;王煦法;;一种利用BC方法的关键词自动提取算法研究[J];小型微型计算机系统;2007年01期
中国重要会议论文全文数据库 前6条
1 于海燕;陈晓江;冯健;房鼎益;;Web文本内容过滤方法的研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
2 陈希;侯德文;朱祥玉;;基于强化学习的信息过滤模型[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
3 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
4 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前2条
1 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
2 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
中国硕士学位论文全文数据库 前10条
1 王金宝;基于增量学习和阀值优化的自适应信息过滤[D];大连理工大学;2006年
2 杨珂;基于Linux的智能内容过滤防火墙的研究与实现[D];西北大学;2006年
3 陈希;基于混合模式的文本过滤系统的研究[D];山东师范大学;2006年
4 张惠春;面向框架语义的汉语短语自动识别研究[D];山西大学;2006年
5 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
6 王默;基于个性化的石油专业网络信息检索技术研究[D];西南石油大学;2006年
7 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
8 袁新成;基于向量空间模型的自适应文本过滤研究[D];哈尔滨工业大学;2006年
9 李东林;中文信息过滤技术的研究与应用[D];辽宁科技大学;2006年
10 马芳;机器翻译系统中英语从句的识别研究[D];解放军信息工程大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 刘春艳,宋辉,郝立柱;信息综合管理系统控制平台的构建[J];现代图书情报技术;2005年09期
2 刘宝赋,廖志忠,李言俊;故障诊断专家系统知识库编辑和维护系统[J];计算机工程与应用;2002年21期
3 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
4 韦洛霞;李勇;康世勇;罗诗裕;;汉语词组网的组织结构与无标度特性[J];科学通报;2005年15期
5 秦文,苑春法;基于决策树的汉语未登录词识别[J];中文信息学报;2004年01期
6 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
7 刘华;;基于关键短语的文本分类研究[J];中文信息学报;2007年04期
8 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期
9 张敏;耿焕同;王煦法;;一种利用BC方法的关键词自动提取算法研究[J];小型微型计算机系统;2007年01期
10 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
中国博士学位论文全文数据库 前2条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前1条
1 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
【二级参考文献】
中国期刊全文数据库 前4条
1 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
2 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
3 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
4 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 康耀红;情报检索的向量空间模型[J];情报理论与实践;1989年03期
2 刘宁,陈光祚,路学;论全文检索系统[J];现代图书情报技术;1989年04期
3 韦秀先;李正吾;;情报检索向量空间模型的几点补充[J];技术与市场;1993年02期
4 杜林;搜索引擎如何在幕后工作[J];中国计算机用户;1997年34期
5 王娟琴;三种检索模型的比较分析研究——布尔、概率、向量空间模型[J];情报科学;1998年03期
6 冯项云;LSI潜在语义标引方法在情报检索中的应用[J];现代图书情报技术;1998年04期
7 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
8 邵艳秋,刘挺,王开铸;中文科技文献题内自动抽词标引系统[J];电脑学习;1998年02期
9 牛金芳;网上搜寻——一种新的资料搜集方法[J];河南图书馆学刊;1998年04期
10 齐向华;文本信息检索模型[J];晋图学刊;1998年03期
中国重要会议论文全文数据库 前10条
1 白苏华;;科技论文关键词抽取的标准与方法探讨[A];科技期刊编辑研究文集[C];1993年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 鲁松;白硕;;词距离的计算方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 卜东波;白硕;;文摘自动生成中权重计算的对偶性策略[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
10 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前2条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
4 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
5 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
6 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
8 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
9 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
10 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 杜民;应用神经网络的Internet智能代理的实现[D];暨南大学;2001年
2 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
3 周斌;应用于数字图书馆的分布式检索技术的研究与实现[D];国防科学技术大学;2001年
4 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
5 马丽娜;基于Web的数据挖掘技术研究[D];山东师范大学;2002年
6 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
7 高雷;网络智能过滤系统的设计与实现[D];广东工业大学;2003年
8 田萱;基于Internet的信息检索若干问题的研究[D];山东师范大学;2003年
9 董建设;基于HTML标记分析及中文切词的网页索引研究与实现[D];兰州理工大学;2003年
10 孙登峰;XML文档信息检索技术研究与实现[D];中国人民解放军国防科学技术大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026