收藏本站
《计算机研究与发展》 2000年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

Web文本挖掘技术研究

王继成  潘金贵  张福炎  
【摘要】:作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 .

知网文化
【引证文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
5 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
6 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
7 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
8 王志明;沙莎;;Web文本挖掘技术在新闻主题检测中的应用研究[J];长沙大学学报;2007年05期
9 李淑领;;网络社区中的虚拟身份挖掘[J];沧州师范专科学校学报;2008年03期
10 孙鸿敏;;Web数据挖掘技术及其在铁通通信中的应用研究[J];科技创新与应用;2012年13期
中国重要会议论文全文数据库 前5条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
5 付延强;韩慧健;;HHME:基于形式概念分析的中文FAQ问答系统[A];第八届和谐人机环境联合学术会议(HHME2012)论文集NCMT[C];2012年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
4 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
5 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
6 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
7 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
8 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
9 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
10 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
4 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
7 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
8 姜晓伟;粒子群算法在查询优化中的应用[D];哈尔滨理工大学;2010年
9 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年
10 程澄;一种舆情数据挖掘平台的研究[D];北京交通大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 陈文;浅谈网络信息建设过程[J];大学图书情报学刊;2001年02期
2 王进常;网络环境下的虚拟馆藏资源建设[J];河北科技图苑;2002年06期
3 王继成,邹涛,杨小江,潘金贵,张福炎;基于Internet的信息资源发现技术与实现[J];计算机研究与发展;1999年11期
4 宋聚平,王永成;搜索引擎中的信息存储技术[J];计算机工程;2000年S1期
5 周海淞,朱茵,陆化普;支撑交通管理综合信息平台的信息挖掘模型[J];交通运输工程与信息学报;2005年02期
6 李智辉;卢苇;;Web文本主题挖掘技术研究[J];计算机教育;2005年11期
7 赵燕平,朱东华;科技信息的网络动态监测和信息自动获取技术研究[J];科学学研究;2003年S1期
8 黎琳;;Web内容挖掘在数字图书馆中的应用[J];深图通讯;2005年04期
9 韩彬斌,王培康;Web网页识别算法研究[J];情报学报;2001年01期
10 宋聚平,王永成;搜索引擎中信息存储结构的改进[J];情报学报;2001年05期
中国重要会议论文全文数据库 前1条
1 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
中国博士学位论文全文数据库 前4条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
3 关沫;复杂网络中的计算迁移问题[D];东北大学;2005年
4 平湖;基于本体的政务信息交换技术的研究[D];东华大学;2007年
中国硕士学位论文全文数据库 前10条
1 邓英;数据仓库与数据挖掘技术理论及应用的研究[D];甘肃工业大学;2001年
2 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年
3 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
4 鲍人世;基于Internet的信息主动服务技术的研究与应用[D];浙江大学;2002年
5 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
6 蔡霞;基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究[D];浙江工业大学;2003年
7 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
8 范勇;Web信息的知识挖掘研究[D];武汉大学;2004年
9 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
10 曾朴;Web日志挖掘研究与挖掘工具lsMiner的设计与实现[D];四川大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
2 陈键;;浅析常用聚类分析算法[J];安徽电子信息职业技术学院学报;2007年01期
3 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
4 欧阳为民,郑诚;KDD研究中的若干问题与方法[J];安徽大学学报(自然科学版);1999年01期
5 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
6 周文;曹琳;;时间序列在干旱区棉花需水量预测中的应用[J];安徽农业科学;2008年23期
7 吕效国;缪雪晴;;用折扣最小二乘法建立线性自回归模型预测粮食产量[J];安徽农业科学;2008年30期
8 陶春明;黄照翠;;Web3.0及其对数字化学习资源的应用展望[J];安徽师范大学学报(自然科学版);2008年03期
9 潘涛;BP神经网络模型中活化函数对网络性能影响的研究[J];安徽师大学报(自然科学版);1998年03期
10 陈文;凤良元;鄢顺琴;;论方剂配伍理论和方法创新[J];安徽中医学院学报;2008年05期
中国重要会议论文全文数据库 前10条
1 张普;;关于大规模真实文本语料库的几点理论思考[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
2 尹斌庸;方世增;;词频统计的新概念和新方法[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 侯士江;刘国华;余靖;褚兵义;;空间网络数据库中的k个最近邻查询算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
4 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 柏晓静;常宝宝;詹卫东;吴拥华;;构建大规模的汉英双语平行语料库[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
7 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
2 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
3 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
4 关志伟;面向用户意图的智能人机交互[D];中国科学院软件研究所;2001年
5 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
6 毛军;Web信息服务中受控语言研究[D];中国科学院研究生院(文献情报中心);2002年
7 马马杜 桑卡雷;基于多智能体的流体动力行业虚拟联盟信息检索的研究[D];浙江大学;2002年
8 刘久富;面向大规模定制产品设计关键技术研究[D];南京航空航天大学;2002年
9 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
10 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年
中国硕士学位论文全文数据库 前10条
1 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
2 闫英春;基于闭频繁项集的Web日志挖掘[D];电子科技大学;2010年
3 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年
4 周君;Web文本挖掘关键技术的研究与实现[D];西安电子科技大学;2009年
5 段晶;朴素贝叶斯分类及其应用研究[D];大连海事大学;2011年
6 郭涛;混合策略的中文文本零水印算法研究[D];兰州大学;2011年
7 朱坤红;基于VSM模型和特征选择算法的中文文本自动分类研究[D];江西师范大学;2011年
8 江叶婵;手机阅读内容研究[D];安徽大学;2011年
9 刘青;基于Web日志挖掘的个性化推荐系统研究[D];天津大学;2010年
10 单大甫;基于网络评论的文本倾向性分类技术的研究与实现[D];国防科学技术大学;2010年
【二级引证文献】
中国期刊全文数据库 前10条
1 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
2 董素芬;滕桂法;高媛;;农业信息化多种接入方式格式转换方法研究[J];安徽农业科学;2010年12期
3 陈蓉芳;郑晓波;王占朝;王海滨;董秀成;;基于“会诊式”推理控制策略的智能型搜索引擎的研究[J];安装;2007年01期
4 叶彩虹;Web挖掘在网上购物中的应用研究[J];安庆师范学院学报(自然科学版);2004年04期
5 耿新青;娄亚斌;张恩胜;;一种基于哈希技术的文本关联规则算法[J];鞍山师范学院学报;2007年06期
6 于华;张文盛;;基于Web日志的网站优化方案的设计与实现[J];办公自动化;2012年12期
7 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
8 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
9 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
10 王知津;张收棉;;网络计量学方法在网站评价中的应用及其理论模型[J];图书与情报;2006年03期
中国重要会议论文全文数据库 前10条
1 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
2 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
3 常智荣;马自卫;邓芳;;基于Web日志的数据挖掘技术的研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
4 万英;蒋梁中;翟敬梅;;虚拟数据库与WEB数据挖掘[A];首届泛珠三角先进制造技术论坛暨第八届粤港机电工程技术与应用研讨会论文专辑[C];2004年
5 姜波;;改进的关联规则挖掘在数字图书馆文献检索的应用[A];华北地区高校图协第二十四届学术年会论文(文章)汇编[C];2010年
6 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 陈书炫;熊孟英;;一种基于Rough集的中文LINGO算法[A];中国企业运筹学[2010(1)][C];2010年
8 张育铭;裘杭萍;朱虹;;基于模糊神经网络的多目标跟踪算法[A];第五届中国不确定系统年会论文集[C];2007年
9 于升峰;;WEB使用挖掘的模式发现[A];信息时代——科技情报研究学术论文集(第二辑)[C];2006年
10 翟海宁;王钢;丁必蛟;;一种多视频流媒体实时转播的新方法[A];中国通信学会第六届学术年会论文集(上)[C];2009年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
3 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
4 李卓卓;信息资源共享系统绩效评估研究[D];武汉大学;2009年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 李晓君;移动政务的功能及评价研究[D];北京交通大学;2011年
7 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
8 叶飞;基于主题图的电子政务门户知识管理研究[D];华中师范大学;2011年
9 杨晓蓉;分布式农业科技信息共享关键技术研究与应用[D];中国农业科学院;2011年
10 薛洋;基于单个加速度传感器的人体运动模式识别[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈志勇;基于刻面描述的分布式构件库系统的研究[D];南昌航空大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
4 蔡宏果;基于基因表达式编程的Web个性化推荐技术研究[D];广西师范学院;2010年
5 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
6 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
7 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
8 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
9 周霞;基于粗糙集的电子商务交易知识获取研究[D];哈尔滨工程大学;2010年
10 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 马辉民 ,胡凌 ,郭潇;文本聚类在Web挖掘系统中的应用[J];统计与决策;2004年06期
2 许高建;;基于Web的文本挖掘技术研究[J];计算机技术与发展;2007年06期
3 张宏松;刘建辉;;面向Web的文本信息挖掘研究[J];计算机系统应用;2006年09期
4 肖湘萍;高玉斌;;Web文本挖掘[J];电脑知识与技术(学术交流);2007年09期
5 赵晓静;;Web文本挖掘综述[J];电脑学习;2008年05期
6 吴育芳;陆春华;;Web文本挖掘研究[J];晋图学刊;2010年03期
7 曾德华;;基于语义和统计特征的中文文本表示方法[J];中国管理信息化;2009年15期
8 李睿,李明;Web数据挖掘技术探讨[J];甘肃科技;2001年03期
9 张珩;;浅析基于BBS数据挖掘的研究[J];科技信息;2009年15期
10 徐海霞;聚类分析在Web文本挖掘中的应用[J];情报杂志;2004年12期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
5 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
6 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
7 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
8 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
10 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前6条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
3 ;Web收获:吸纳有用信息[N];计算机世界;2004年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
6 本报记者 仝仁;数据库网联服务[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
5 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
6 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
7 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
8 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
7 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
8 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
9 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
10 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026