收藏本站
《装备制造技术》 2009年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于搜索引擎的文本主题识别

石琼  潘广贞  
【摘要】:基于Google搜索引擎获取的结果,并在比较分析各种常用聚类算法的基础上,提出了一种基于Web文档的快速聚类算法,并采用多线程技术加以实现;该方法在保证聚类精度的前提下,提高了文本聚类的速度,适用于对大规模数据进行聚类;实验结果表明,该算法的聚类速度与文档的数量满足线性关系,优于各种常用聚类算法。
【作者单位】中北大学电子与计算机科学技术学院;
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前3条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
3 杨学明;;Web中文文本聚类研究及实现[J];现代图书情报技术;2006年12期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
3 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
4 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
5 原福永,李莉,李红岩;智能信息检索的设计与研究[J];燕山大学学报;2005年04期
6 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
7 王淑敬;;基于Web的个性化信息检索技术研究[J];电脑编程技巧与维护;2010年12期
8 王树锋,张永奎;交叉语言信息检索研究[J];电脑开发与应用;2001年11期
9 殷妮哿;;Internet中的多媒体快速查询[J];电脑开发与应用;2009年09期
10 谢海艇;;Web挖掘研究[J];电脑知识与技术;2009年22期
中国重要会议论文全文数据库 前8条
1 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
3 李雪竹;周国祥;;基于本体的语义网技术在信息检索中的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 曹玮祺;梁华瑞;朱雷;李涓子;王克宏;;基于半结构化信息模型的信息检索[A];第六届全国计算机应用联合学术会议论文集[C];2002年
5 毛颖;周源远;王继成;;信息过滤技术研究[A];第一届学生计算语言学研讨会论文集[C];2002年
6 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 许龙飞;陈小宁;;具有模糊语义的Web信息资源获取技术研究与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
4 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
5 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
6 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
7 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
8 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
9 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
10 温浩宇;制造网格若干关键技术研究[D];西安电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
4 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
5 余璟飞;企业信息网用户决策支持系统设计[D];哈尔滨理工大学;2010年
6 李广翠;视频检索中的场景摘要技术研究[D];江苏大学;2010年
7 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
8 周晓红;基于内容与链接的页面价值算法研究[D];电子科技大学;2010年
9 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
10 王园媛;求解组合优化问题的混合蛙跳算法的研究[D];石家庄经济学院;2010年
【二级参考文献】
中国期刊全文数据库 前7条
1 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
2 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
3 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
4 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
5 吴斌,史忠植;一种基于蚁群算法的TSP问题分段求解算法[J];计算机学报;2001年12期
6 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
7 陈宁,陈安,周龙骧,贾维嘉,罗三定;基于模糊概念图的文档聚类及其在Web中的应用[J];软件学报;2002年08期
【相似文献】
中国期刊全文数据库 前10条
1 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
2 苏武;;基于多线程的网络蜘蛛构建搜索引擎的尝试[J];电脑知识与技术;2009年20期
3 董瑞洪,张秋余,唐静兵,张涛;抢先式多线程Spider在智能搜索引擎中的实现[J];计算机工程;2005年18期
4 李爱国;王月强;;多线程Web图像搜索器的磁盘I/O缓冲方法[J];郑州大学学报(理学版);2010年01期
5 徐荣国;陆晓希;;高效搜索引擎的模型设计与算法实现[J];柳州职业技术学院学报;2008年04期
6 俞立文 ,赵政;搜索引擎的工作机制[J];微型机与应用;2002年09期
7 胡海峰;用C#编写多线程搜索引擎[J];电脑编程技巧与维护;2004年08期
8 ;网站搜索利器——中华搜索宝[J];电脑采购周刊;2003年25期
9 吴亮;;搜索引擎中网络爬虫的设计[J];决策与信息(财经观察);2008年07期
10 杨松梅;;网络爬虫[J];硅谷;2009年15期
中国重要会议论文全文数据库 前10条
1 刘春霞;郭丽虹;;基于多线程和数据库的Web搜索引擎的实现[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 胡晓翠;站点搜索引擎的研究与实现[D];武汉科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026