收藏本站
《软件学报》 2002年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Bayes潜在语义模型的半监督Web挖掘

宫秀军  史忠植  
【摘要】:随着互联网信息的增长,Web挖掘已经成为数据挖掘研究的热点之一.网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的.网页聚类通过一定的相似性度量,将相关网页归并到一类.然而传统的聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了两阶段的半监督文本学习策略.第1阶段,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第2阶段,利用简单贝叶斯模型,在第1阶段类别标注的基础上,通过EM(expectation maximization)算法对不含有潜在类别主题词变量的文档作类别标注.实验结果表明,该算法具有很高的精度和召回率.

【引证文献】
中国期刊全文数据库 前9条
1 宫秀军,刘少辉,史忠植;一种增量贝叶斯分类模型[J];计算机学报;2002年06期
2 宋枫溪,高林;文本分类器性能评估指标[J];计算机工程;2004年13期
3 刘壁松,李春平;一个可扩展的文本分类系统的设计与实现[J];计算机工程与应用;2004年30期
4 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
5 董德民;何钦铭;;面向电子商务的Web挖掘技术及其应用研究[J];计算机工程与设计;2006年01期
6 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期
7 王小英,赵海,林涛,张文波,尹震宇;基于信任的普适计算服务选择模型[J];通信学报;2005年05期
8 傅向华,冯博琴,马兆丰,韩冰;基于核方法的Web挖掘研究[J];小型微型计算机系统;2005年05期
9 赵鹏;耿焕同;蔡庆生;;一种基于语义和统计特征的中文文本特征表示方法[J];小型微型计算机系统;2007年07期
中国重要会议论文全文数据库 前1条
1 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
2 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
5 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
6 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
7 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
8 胡静;机器学习及其神经网络分类器优化设计[D];合肥工业大学;2007年
9 王晓嘉;旋转对称三角传感器智能信号处理系统研究[D];合肥工业大学;2007年
10 吴科;基于机器学习的文本分类研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
2 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
3 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
4 杨晓东;基于贝叶斯网络的配电网可靠性评估[D];华北电力大学(河北);2004年
5 赵银春;用户浏览内容分析与用户兴趣挖掘[D];重庆大学;2004年
6 段晓峰;网站日志的数据挖掘[D];重庆大学;2003年
7 马晓峰;基于语义网络的病理诊断案例表示及不确定性研究[D];合肥工业大学;2006年
8 唐敏;垃圾邮件过滤技术研究[D];西华大学;2006年
9 孙雪;基于XML的Web实时信息挖掘[D];太原理工大学;2006年
10 钟配蓉;基于Web挖掘的文本预处理研究及应用[D];湖南大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
5 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
6 梁伍七,江克勤;数据挖掘中的模糊聚类分析及其应用[J];安庆师范学院学报(自然科学版);2004年02期
7 韩世威;图书馆员的职业素质[J];鞍山科技大学学报;2003年06期
8 朱宏武,蔡勇,刘自伟;数据库中基于粗糙集的分类和约简[J];兵工自动化;2003年05期
9 李文斌,刘椿年,黄佳进;基于数据挖掘的垃圾E-mail过滤方法[J];北京工业大学学报;2003年02期
10 宋丽哲,牛振东,宋瀚涛,余正涛,师雪霖;数字图书馆个性化服务用户模型研究[J];北京理工大学学报;2005年01期
中国重要会议论文全文数据库 前10条
1 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
2 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
3 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
4 姚正;;关于决策树分类模型的评分函数研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
5 王忠;;制造业中知识管理的模型·工具·环境[A];2007海南机械科技论坛论文集[C];2007年
6 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 孙向军;刘凯龙;;工程装备论证知识管理系统技术分析[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
8 马玉莲;王宇冬;王鑫;;基于解释的分类算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 蔡江辉;张继福;赵旭俊;;一种基于距离支持度的离群数据挖掘算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 陈波;董鹏;邵勇;;基于Apriori算法及其改进算法综述[A];中国通信学会第五届学术年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 朱建生;基于知识管理的现代办公信息系统的研究[D];铁道部科学研究院;2002年
2 高长元;基于Internet高新技术产品评价群决策支持系统研究[D];哈尔滨工程大学;2002年
3 皮德常;CIMS数据库中数据挖掘关键技术的研究[D];南京航空航天大学;2002年
4 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
5 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
6 臧铁钢;先进维修技术资源信息支持系统的研究与开发[D];武汉理工大学;2003年
7 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
8 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
9 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
10 谢小棉;医学序列图象ROI分割与三维可视化方法研究[D];中国人民解放军第一军医大学;2003年
中国硕士学位论文全文数据库 前10条
1 吕文志;基于分类和关联规则的数据挖掘研究及应用[D];大连理工大学;2001年
2 刘燕;储粮昆虫图像模式识别研究[D];成都理工大学;2002年
3 黄超;具有多维限定性约束条件的交易规则模型及采掘算法研究[D];湖南大学;2002年
4 李闻宇;基于事例推理的稿件刊发计划的建模方法研究[D];大连理工大学;2002年
5 叶松云;基于J2EE的数据挖掘系统的设计与实现[D];暨南大学;2002年
6 李军;远程教学中自适应授课平台的模型构建研究[D];西南师范大学;2002年
7 罗飞;移动Agent的安全机制研究[D];西南师范大学;2002年
8 高燕;基于数据挖掘技术的海关执法评估系统的研究与开发[D];武汉理工大学;2002年
9 宋久鹏;汽车方案设计智能决策支持系统的开发技术研究[D];西南交通大学;2002年
10 李尚福;卫星环境智能监控系统设计[D];重庆大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
2 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
3 杜晓东,李岐强;支持向量机及其算法研究[J];信息技术与信息化;2005年03期
4 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
5 高琰;谷士文;唐琎;;基于链接分析的Web社区发现技术的研究[J];计算机应用研究;2006年07期
6 何晓阳,吴强,吴治蓉;HITS算法与PageRank算法比较分析[J];情报杂志;2004年02期
7 王练,李云,汪血焰;高维特征集选择模型研究[J];重庆邮电学院学报(自然科学版);2005年01期
8 黄绪明;一类改进的遗传算法[J];长沙大学学报;2005年05期
9 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
10 乔立岩;彭喜元;马云彤;;基于遗传算法和支持向量机的特征子集选择方法[J];电子测量与仪器学报;2006年01期
中国重要会议论文全文数据库 前8条
1 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
2 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
3 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 姚天昉;娄德成;;汉语语句主题语义倾向分析方法的研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 唐慧丰;谭松波;程学旗;;监督学习方法在语气挖掘中的应用研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 时达明;林鸿飞;;基于内容相关度和情感分析的Blogger声誉度研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 孙德山;支持向量机分类与回归方法研究[D];中南大学;2004年
2 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
3 汪荣贵;Bayes网络理论及其在目标检测中应用研究[D];合肥工业大学;2004年
4 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年
5 冯平;智能位移传感器系统的研究[D];浙江大学;2001年
6 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
7 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
8 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
9 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
2 郭洪;贷款客户分析与信贷风险防范[D];西南财经大学;2000年
3 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
4 杨昂;文本分类算法研究[D];湖南大学;2002年
5 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
6 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
7 石会娟;发达国家政府发展中小企业的经验及其借鉴[D];河北大学;2004年
8 张滨;中文文档分类技术研究[D];武汉大学;2004年
9 陈涛;基于自组织映射神经网络的词自动聚类[D];清华大学;2004年
10 谢嵘;邮件服务器垃圾邮件过滤技术研究及实现[D];广东工业大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
2 胡学钢;郭亚光;;一种基于粗糙集的朴素贝叶斯分类算法[J];合肥工业大学学报(自然科学版);2006年02期
3 李家春,李之棠;分布式入侵告警关联分析[J];计算机研究与发展;2004年11期
4 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
5 杨森,徐海涛,柴乔林;应用支持向量机实现增量入侵检测[J];计算机工程与应用;2004年27期
6 钱玲飞,刘玉树,李侃;朴素贝叶斯分类器在地形评估中的应用方法[J];计算机工程与应用;2005年12期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 张海龙;王莲芝;;自动文本分类特征选择方法研究[J];计算机工程与设计;2006年20期
9 王小英,赵海,林涛,张文波,尹震宇;基于信任的普适计算服务选择模型[J];通信学报;2005年05期
10 胡彩平,倪志伟,卢亦娟;Naive-Bayes模型及其在范例推理中的应用[J];微机发展;2003年05期
中国重要会议论文全文数据库 前3条
1 赖英旭;李征;;未知病毒检测技术的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
2 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
3 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 黄解军;贝叶斯网络结构学习及其在数据挖掘中的应用研究[D];武汉大学;2005年
2 吴介;基于图像内容的手部特征识别研究[D];北京交通大学;2008年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
5 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
6 夏定元;基于内容的图像检索通用技术研究及应用[D];华中科技大学;2004年
7 罗可;数据库中数据挖掘理论方法及应用研究[D];湖南大学;2005年
8 高振国;无线自组网服务发现协议的研究[D];哈尔滨工业大学;2006年
9 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
10 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年
中国硕士学位论文全文数据库 前10条
1 徐缓;网络信息监测与封堵技术的研究[D];南昌大学;2007年
2 赵赟;基于潜在语义分析的自动问答系统[D];华中科技大学;2006年
3 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
4 李悛;基于移动代理的分布式数据挖掘研究[D];浙江工业大学;2005年
5 刘辉;基于贝叶斯分类技术的电信客户欺诈分析[D];西南交通大学;2005年
6 王洪刚;贝叶斯理论在医学图像处理中的研究与应用[D];吉林大学;2006年
7 乔珠峰;基于不完整数据处理方法的贝叶斯分类器研究[D];北京交通大学;2007年
8 茅伟强;贝叶斯量子随机学习算法及应用研究[D];苏州大学;2007年
9 国德峰;基于数字电视节目的相关语义库的实现与应用[D];上海交通大学;2008年
10 郭雨松;一种启发式贝叶斯分类算法及其在铁路货运客户细分中的应用研究[D];北京交通大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国知网广告投放
相关期刊
>软件学报
相关机构
>中国科学院计算技术研究所...
相关作者
>史忠植 >宫秀军
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026