收藏本站
《计算机工程》 2002年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

Web挖掘系统的设计与实现

陈建华  包煊  
【摘要】:介绍了挖掘理论,包括挖掘定义、挖掘任务、挖掘分类个方面,并简单介绍了实现文本挖掘系统WebWebWebWeb3WebWTMiner (的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字和二分查找从而提高了分词速度,分类器Web Text Miner)Hash的设计中考虑到的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。SVM
【作者单位】兰州大学计算机系 兰州大学计算机系
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前2条
1 祁亨年;支持向量机及其应用研究综述[J];计算机工程;2004年10期
2 连远锋,侯锟,张沛露,许建潮;演化计算在特征词条优化中的应用[J];长春工业大学学报(自然科学版);2004年01期
中国博士学位论文全文数据库 前3条
1 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
2 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
3 徐晓燕;企业财务困境的预测方法研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
2 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
3 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
4 迟元森;烟台冰轮销售信息管理平台规划设计[D];对外经济贸易大学;2004年
5 李凤慧;面向电子商务的Web数据挖掘的研究[D];山东科技大学;2004年
6 杨悦;基于内容的多媒体检索系统[D];天津大学;2003年
7 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
8 赵家伟;智能电子商务个性化服务推荐引擎技术的研究与实现[D];南京航空航天大学;2004年
9 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
10 李楠;基于遗传算法的汉语文本主题词提取研究[D];吉林大学;2007年
【参考文献】
中国期刊全文数据库 前3条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
3 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
4 代劲;胡峰;王国胤;;基于不完备信息系统的文本分类研究与应用[J];重庆邮电学院学报(自然科学版);2006年03期
5 刘向东;数据挖掘技术浅析[J];电脑学习;2002年02期
6 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
7 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期
8 李向伟;仇德成;;数据挖掘技术在Web中的应用研究[J];电脑知识与技术;2006年02期
9 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术;2006年14期
10 陈福集;数据挖掘在Internet信息导航系统中的应用研究[J];电信科学;2000年09期
中国重要会议论文全文数据库 前1条
1 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 唐发明;基于统计学习理论的支持向量机算法研究[D];华中科技大学;2005年
2 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
3 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
4 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
5 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
6 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
7 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
8 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
9 解应春;基于Kernel学习机的建模与分类的应用算法研究[D];浙江大学;2003年
10 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
中国硕士学位论文全文数据库 前10条
1 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
2 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
3 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
4 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
5 刘艳青;基于Web的个性化信息检索研究[D];山东大学;2005年
6 黄琼英;支持向量机多类分类算法的研究及应用[D];河北工业大学;2005年
7 刘建波;基于Agent的用户兴趣模型的研究[D];沈阳工业大学;2005年
8 雷庆;识别和抽取Web中的关系信息及其出现模式[D];华侨大学;2005年
9 王娜;Web文本挖掘的研究[D];兰州理工大学;2005年
10 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 李兴生,李德毅;一种基于密度分布函数聚类的属性离散化方法[J];系统仿真学报;2003年06期
2 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
3 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
4 杨桂珍;多元搜索引擎研究[J];情报理论与实践;2001年04期
5 韩晓光,金珩;非线性回归模型及其应用[J];内蒙古统计;1998年05期
6 吴庆涛,普杰信,崔林;基于BBS文本信息的数据挖掘[J];洛阳工学院学报;2002年02期
7 田俊峰,黄建才,杜瑞忠,翟建强;高效的模式匹配算法研究[J];通信学报;2004年01期
8 娄正良,刘昌平,白洪亮,邹明福;汉字串的模糊匹配算法[J];微电子学与计算机;2004年04期
9 蒋良孝,蔡之华;Web挖掘及其应用研究[J];现代计算机;2003年03期
10 王连军;Web文本挖掘浅析[J];现代图书情报技术;2002年06期
中国博士学位论文全文数据库 前10条
1 刘久富;面向大规模定制产品设计关键技术研究[D];南京航空航天大学;2002年
2 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
3 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
4 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
5 周涌;非线性系统的神经网络内模控制研究[D];南京理工大学;2003年
6 孙德山;支持向量机分类与回归方法研究[D];中南大学;2004年
7 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
8 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
9 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 陈晓平;WWW上搜索引擎返回结果的模糊聚类研究[D];河海大学;2002年
2 李雪斌;基于粗糙集理论的规则挖掘方法研究[D];江西师范大学;2002年
3 冶红;基于数据挖掘的Web挖掘系统的研究[D];大连理工大学;2003年
4 刘洋;基于Web的内容挖掘技术研究[D];哈尔滨工程大学;2003年
5 向欣;学习资源元数据的存储和搜索[D];清华大学;2004年
6 王娜;Web文本挖掘的研究[D];兰州理工大学;2005年
7 张兆中;WEB文本挖掘的聚类分析[D];山东科技大学;2005年
8 宋冬梅;论产品及其缺陷[D];山东大学;2005年
9 沈翔;产品缺陷研究[D];苏州大学;2005年
10 汤华丽;SVM中两类常用分类方法的关系研究[D];重庆大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 祁亨年,杨建刚,方陆明;基于多类支持向量机的遥感图像分类及其半监督式改进策略[J];复旦学报(自然科学版);2004年05期
2 辛宪会;赵泳;翟辉琴;叶秋果;;面向分类的高光谱遥感影像数据特性的研究[J];海洋测绘;2005年06期
3 杜新华;陈增强;袁著祉;;基于支持向量机函数逼近的性能研究[J];计算机工程;2006年08期
4 唐耀红,王凤歧,葛秀光;基于大规模定制的夹具通用件的设计[J];机械工程师;2004年05期
5 张根明;向晓骥;;基于支持向量机的上市公司财务预警模型研究[J];科技管理研究;2007年04期
6 陆荣秀;;支持向量机技术及其应用[J];科技情报开发与经济;2006年14期
7 殷天石;孙济庆;;基于树型结构的SVM多类组合分类器在文本分类中的应用[J];情报杂志;2006年02期
8 熊秋芬;顾永刚;王丽;;支持向量机分类方法在天空云量预报中的应用[J];气象;2007年05期
9 徐启华,杨瑞;一种新的软间隔支持向量机分类算法[J];计算机工程与设计;2005年09期
10 王红军;张建民;徐小力;;基于SVM的注水机组状态预示技术研究[J];石油机械;2006年02期
中国博士学位论文全文数据库 前10条
1 郑伟;基于混合推理的骨折智能诊断与治疗系统的研究[D];哈尔滨理工大学;2005年
2 陈桂友;自动指纹识别系统中的关键算法研究及应用[D];山东大学;2005年
3 陈世哲;微电子产品视觉检测中关键技术研究[D];哈尔滨工业大学;2006年
4 胡迎春;甘蔗收获机械的多学科优化理论及关键技术的研究[D];广西大学;2006年
5 方贵盛;面向概念表达的计算机辅助草绘设计关键技术研究[D];浙江大学;2007年
6 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
7 牛文娟;基于系统演化算法的水资源多Agent系统建模仿真研究[D];河海大学;2007年
8 任翔;定制化生产的作业成本及管理模式研究[D];河北工业大学;2006年
9 汪洋;极化合成孔径雷达图像处理及其应用研究[D];安徽大学;2007年
10 高阳;成像制导中的图像预处理及目标识别技术研究[D];西北工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 李璇;基于人脸识别技术的存取控制系统的设计与实现[D];中南大学;2005年
2 谢芳芳;基于支持向量机的故障诊断方法[D];湖南大学;2006年
3 周昆湘;基于矢量量化的与文本无关的说话人确认系统的研究[D];中南大学;2007年
4 高菲;基于机器学习的计算机辅助量刑初探[D];华东政法学院;2005年
5 辛宪会;支持向量机理论、算法与实现[D];中国人民解放军信息工程大学;2005年
6 齐丽云;通信行业客户服务系统中知识发现的应用研究[D];大连理工大学;2006年
7 范明;基于数据仓库的油田财务决策支持系统研究[D];大连理工大学;2006年
8 姬忠良;基于支持向量机的VCM生产过程控制方法研究[D];大连理工大学;2006年
9 蒋汉桥;基于支持向量机的证券投资决策研究[D];武汉大学;2005年
10 鲁继文;基于人体步态特征的身份识别系统研究[D];西安理工大学;2006年
【二级参考文献】
中国期刊全文数据库 前1条
1 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
【相似文献】
中国期刊全文数据库 前10条
1 肖继海;崔晓红;桑莉君;;基于Web挖掘的个性化推荐模型[J];福建电脑;2011年05期
2 戴磊;云晓春;张永铮;吴志刚;;一种基于TCM主动学习的P2P流识别技术[J];高技术通讯;2010年07期
3 东兴;贾宇波;王义;范红丹;;Web挖掘技术在网络结构优化中的应用研究[J];工业控制计算机;2011年08期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前8条
1 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
2 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年
3 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
4 王磊;王丰辉;郑康锋;杨义先;;基于Web挖掘技术的漏洞收集系统研究与设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
5 袁冠;夏士雄;张磊;李月娥;肖经验;;基于兴趣度的Web用户聚类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
6 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 孙铁利;教巍巍;;基于马尔科夫模型的用户兴趣导航模型系统(英文)[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国博士学位论文全文数据库 前3条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
3 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
2 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
3 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
4 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
5 段晓峰;网站日志的数据挖掘[D];重庆大学;2003年
6 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
7 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
8 陈敏;基于Web使用挖掘的知识发现研究[D];合肥工业大学;2005年
9 窦赫男;序列模式挖掘在网站可用性分析研究上的应用[D];大连海事大学;2006年
10 王浩川;Web挖掘与个性化信息服务[D];郑州大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026