收藏本站
《北京石油化工学院学报》 2007年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种启发式网络信息采集系统设计与实现

陈爽  陈福  杜天苍  
【摘要】:为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统。用户向系统提交同一个主题的一组关键词后,系统自动合并多个搜索引擎返回的结果,从而构成一个有序的文档集合。对这个集合利用后缀树算法进行聚类,人工对聚类的结果进行有效与垃圾状态标注并生成训练集构造分类器。当用户提交该主题更多的关键词时,系统可以从各成员搜索返回的结果中自动识别并采集有效数据而过滤垃圾信息。实验结果显示,系统对定主题数据的平均有效信息识别率达到92%以上。

【参考文献】
中国期刊全文数据库 前3条
1 钟艳花,余伟红,余永权;Web文本挖掘系统及其关键技术研究[J];计算机工程与应用;2003年34期
2 郭莉,张吉,谭建龙;基于后缀树模型的文本实时分类系统的研究和实现[J];中文信息学报;2005年05期
3 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
【共引文献】
中国期刊全文数据库 前10条
1 何斌,张应利,张立厚,高京广,林红菱;网络环境下的管理实验及其可拓相似建模方法[J];广东工业大学学报(社会科学版);2005年01期
2 李向伟;仇德成;;数据挖掘技术在Web中的应用研究[J];电脑知识与技术;2006年02期
3 邢玲;马建国;李幼平;刘志文;;一种基于UCL的中文网页信息过滤方法[J];电子学报;2006年10期
4 邱均平,张洋;网络信息计量学综述[J];高校图书馆工作;2005年01期
5 杨善林;刘业政;李兴国;;信息管理类专业教学内容与课程体系改革研究[J];合肥工业大学学报(社会科学版);2006年01期
6 卫瑜,曾凡平,蒋凡;基于相似度分析的分布式拒绝服务攻击检测系统[J];计算机辅助工程;2005年02期
7 杨俊柯;杨贯中;杨建学;;基于语义模型的信息检索机制研究[J];计算机工程;2006年12期
8 夏日,程刚;信息污染指标体系的构建研究[J];情报理论与实践;2005年06期
9 李楠,孙济庆;支持语义检索的知识检索模型[J];情报学报;2005年06期
10 潘有能;;XML文档自动聚类研究[J];情报学报;2006年02期
中国重要会议论文全文数据库 前5条
1 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
2 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王辉;左万利;;利用质心向量构建增量式分类器(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
2 钟金宏;教案的有效组织工具[D];合肥工业大学;2004年
3 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
4 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
5 万江波;双语词典的翻译研究[D];上海外国语大学;2005年
6 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
7 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
8 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
9 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
10 潘冠宇;基于粗糙集和群体智能的数据挖掘方法研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
2 贾燕娟;我国排球教练员信息素质现状调查研究[D];苏州大学;2004年
3 任爽;基于XML和SVM的Web文本挖掘研究[D];大连理工大学;2006年
4 吴相智;基于XML的Web数据抽取技术的研究[D];中南大学;2005年
5 庞继芳;基于粗糙集理论的知识获取方法研究[D];山西大学;2006年
6 刘彬;基于服务分类的混合式P2P模型及其服务发现机制的研究[D];山东大学;2006年
7 杨丰玉;第三方物流企业关键客户评判的多方法融合式决策技术研究及应用[D];浙江工业大学;2006年
8 周广城;粒度计算模型及其应用[D];浙江师范大学;2006年
9 陈洁惠;搜索引擎排序算法的研究[D];河海大学;2007年
10 李自强;基于文本挖掘的Web信息检索研究[D];华北电力大学(河北);2007年
【二级参考文献】
中国期刊全文数据库 前6条
1 徐宝文,张卫丰;数据挖掘技术在Web预取中的应用研究[J];计算机学报;2001年04期
2 陈莉,焦李成;Internet/Web数据挖掘研究现状及最新进展[J];西安电子科技大学学报;2001年01期
3 王映,常毅,谭建龙,白硕;基于N元汉字串模型的文本表示和实时分类的研究与实现[J];计算机工程与应用;2005年05期
4 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
5 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
6 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
【相似文献】
中国期刊全文数据库 前10条
1 陈祯培,李继陶,朱自强,钟永碧;激光图象频谱的模糊聚类分析[J];激光杂志;1984年03期
2 顾涛,张兴智;K均值聚类法结果的非确定性实验研究及其改进[J];计算机学报;1984年05期
3 苏建堂;;用TI—59计算器作相似系数标尺的内插计算[J];物探化探计算技术;1984年02期
4 陈界;;美国情报工作现代化点滴(一)[J];情报科学;1984年01期
5 诸青,郁亦明;文献自动分类的分析与研究[J];现代图书情报技术;1985年04期
6 蔡建国;生产流程分析法(PFA法)和聚类分析在生产流程分析法中的应用[J];成组技术与生产现代化;1985年01期
7 H.M.Chan D.A.Milnur,张传忠;形成单元制造的组的直接聚类算法[J];成组技术与生产现代化;1985年04期
8 金忠;一种多目标跟踪算法[J];南京理工大学学报(自然科学版);1985年S1期
9 钟家新;略述《中图法》中的多重列类法与归类方法[J];图书馆论坛;1985年03期
10 郝志航;;宏纹理分析的游程长度直方图方法[J];光学精密工程;1985年04期
中国重要会议论文全文数据库 前10条
1 王琼;朱令人;;PP聚类在地震综合预报中的应用[A];1999年中国地球物理学会年刊——中国地球物理学会第十五届年会论文集[C];1999年
2 颜忠诚;;鼠类形态特征与体表寄生虫群落之间关系的比较分析[A];中国动物科学研究——中国动物学会第十四届会员代表大会及中国动物学会65周年年会论文集[C];1999年
3 何湘藩;庄真;;模糊分级聚类分析方法及其应用[A];企业发展与系统工程——中国系统工程学会第七届年会论文集[C];1992年
4 张列平;唐勇;王浣尘;;基于FMS刀具流的零件静态聚类[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
5 刘思峰;;定权灰色聚类与长葛县综合发展规划评估[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
6 江宝钏;张森;胡兰清;;无指导的模糊聚类的多回波脑部磁共振图像分割[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
7 任文君;苏开娜;;一种复杂背景下基于知识的目标识别方法的研究[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
8 刘复岩;王颖;吕韶义;;KDD在优化控制中的应用[A];发展的信息技术对管理的挑战——99’管理科学学术会议专辑(上)[C];1999年
9 李仲来;;模糊聚类与系统聚类的结合分析[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
10 于东;邹开其;;基于真值流推理的港口货物吞吐量预测模型[A];模糊集理论与应用——98年中国模糊数学与模糊系统委员会第九届年会论文选集[C];1998年
中国重要报纸全文数据库 前10条
1 ;澳洲新移民计划期望“人财两得”[N];中国贸易报;2000年
2 邱平 王昌燧 张居中;矿料来源与社会结构[N];中国文物报;2001年
3 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
4 汤大权 张维明 邓苏 肖卫东 李勇;主动信息服务[N];计算机世界;2001年
5 钟卫东;IPv6协议——下一代互联网的核心[N];人民邮电;2001年
6 赵纪元;数据挖掘在CRM中的应用[N];人民邮电;2001年
7 邱克;BI零售业决胜未来的利器[N];中国商报;2001年
8 李辉柄;瓷器鉴定的内容与年代依据[N];中国文物报;2002年
9 创智集团副总裁 胡乐群博士;数据挖掘在CRM中的应用[N];中国计算机报;2002年
10 中国人民大学数据仓库与BI工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、张新宇、陈红;BI三大支柱—DW、OLAP和DM[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
2 范九伦;模糊聚类新算法与聚类有效性问题研究[D];西安电子科技大学;1998年
3 裴继红;基于模糊信息处理的图像分割方法研究[D];西安电子科技大学;1998年
4 李海民;遗传算法性能及其在聚类分析中应用的研究[D];西安电子科技大学;1999年
5 刘学平;机电产品拆卸分析基础理论及回收评估方法的研究[D];合肥工业大学;2000年
6 韩兆洲;区域经济协调发展统计测度研究[D];厦门大学;2000年
7 陈庆山;大豆灰斑病种质资源遗传多样性的RAPD和SSR分析[D];东北农业大学;2001年
8 龙继蓉;中国家兔遗传多样性研究[D];四川农业大学;2001年
9 赵志辉;鸡下丘脑组织和猪脂肪组织表达序列标签的研究与分析[D];中国人民解放军军需大学;2001年
10 许志兴;粗集理论的若干技术及其应用研究[D];南京航空航天大学;2001年
中国硕士学位论文全文数据库 前10条
1 范涛;基于模糊Hopfield网络的人体染色体聚类分析[D];北京工业大学;2000年
2 张宝晨;ISM规则国内化研究[D];大连海事大学;2000年
3 许明陆;武陵山区玉米自交系的遗传特性与育种潜力的研究[D];四川农业大学;2000年
4 王莹;矮败小麦群体连续二向选择后代的遗传分析[D];首都师范大学;2000年
5 范存丽;星级饭店经济效益差异的分析/来华旅游外国人数总额增长情况分析[D];首都师范大学;2000年
6 郭利平;滇东南99个特困乡的类型研究[D];云南师范大学;2000年
7 欧春平;智能算法在流域洪水预报系统建模中的应用及其软件集成体系[D];大连理工大学;2001年
8 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
9 陈梅;模糊分割方法在医学图像处理中的应用研究[D];曲阜师范大学;2001年
10 杨凌;聚类分析中聚类数的确定问题[D];武汉科技大学;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026