收藏本站
《安徽大学学报(自然科学版)》 2010年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Web的新闻文本分类技术的研究

胡凌云  胡桂兰  徐勇  李龙澍  
【摘要】:从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.

【引证文献】
中国期刊全文数据库 前2条
1 吴国祥;;网络挖掘研究综述[J];电脑知识与技术;2011年32期
2 陈建国;;基于Web结构的网站新闻采集系统的设计与实现[J];井冈山大学学报(自然科学版);2012年02期
中国硕士学位论文全文数据库 前2条
1 戴依若;基于内容的中文流行病新闻主题分类[D];北京邮电大学;2011年
2 刘红红;基于复杂网络的报告文本可视化模型研究[D];中国地质大学(北京);2012年
【参考文献】
中国期刊全文数据库 前9条
1 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
3 许建潮,王颖楠,胥桂仙;Web文本信息抽取与挖掘方法[J];长春工业大学学报(自然科学版);2002年S1期
4 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期
5 李魁;程学旗;郭岩;张凯;;WWW论坛中的动态网页采集[J];计算机工程;2007年06期
6 黄玲;陈龙;;基于网页分块的正文信息提取方法[J];计算机应用;2008年S2期
7 许璐蕾;;面向搜索引擎的文本自动分类系统实现[J];苏州市职业大学学报;2007年04期
8 吕铁强,于满泉,孟庆发,周立德;基于网页分块的个性化信息采集的研究与设计[J];微电子学与计算机;2005年10期
9 杜义华,焦文彬;互联网中XML网页的链接解析与信息采集[J];计算机系统应用;2005年07期
【共引文献】
中国期刊全文数据库 前10条
1 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
2 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
3 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
4 赵晓峰;;基于Web的网站信息采集系统的设计与实现[J];电脑知识与技术;2008年16期
5 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
6 邵良杉;付曙光;薛立军;;企业核心竞争力的Web挖掘[J];辽宁工程技术大学学报;2007年01期
7 王一蕾,林世平;基于Web页面链接结构的挖掘算法[J];福州大学学报(自然科学版);2004年04期
8 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
9 张贵红;;Web使用模式挖掘技术[J];黑龙江科技信息;2008年06期
10 陈天;黄敏;;Web信息抽取中的数据交叉定位[J];华南理工大学学报(自然科学版);2008年05期
中国重要会议论文全文数据库 前6条
1 姜丽华;张宏斌;;基于Multi-Agent的个性化Web信息采集系统[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
2 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 匡海波;陈小荷;;唐诗文本自动分类的算法研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 ;Information Extraction Algorithms and Its Application Based on Word Density in a Webpage[A];Proceedings of 2010 2nd International Conference on Intellectual Technology in Industrial Practice (ITIP2010) Volume 2[C];2010年
中国博士学位论文全文数据库 前6条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
3 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
5 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
6 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
5 孟桂国;基于维基百科的双语语料挖掘技术研究[D];苏州大学;2010年
6 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
7 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
8 刘欣;基于结构信息的中文网页自动分类技术研究[D];南京航空航天大学;2010年
9 薛浩;基于SOM聚类的WEB文本挖掘及其结果的可视化研究[D];南京航空航天大学;2010年
10 汤文平;基于RSS的旅游电子商务平台信息发布系统设计[D];华东交通大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王华;江启成;胡学钢;;数据挖掘在医学上的应用[J];安徽医药;2008年08期
2 王宁;韩胜菊;李怀明;王延章;;基于实体-关系-问题建模体系的信息资源整合建模研究[J];大连理工大学学报;2007年02期
3 胡静芳;沈亚斌;;基于Web的新闻采集系统[J];电脑知识与技术;2009年19期
4 王理达;电子政务中中文文本分类技术的应用[J];大众科技;2005年01期
5 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
6 王强;关毅;王晓龙;;基于标题类别语义识别的文本分类算法研究[J];电子与信息学报;2007年12期
7 张明科;陈政;于长军;朱荣花;权太范;;网络化战争中的复杂网络拓扑建模[J];航天控制;2007年04期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
10 邹博伟;张宇;范基礼;郑伟;刘挺;;基于改进TextTiling方法的用户新兴趣发现的研究[J];计算机研究与发展;2009年09期
中国博士学位论文全文数据库 前2条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前1条
1 王涛;基于HTML标记的主题爬行器的设计与实现[D];电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
2 王颖楠,滕飞,解莉,孙俏;Web挖掘技术[J];吉林工学院学报(自然科学版);2002年01期
3 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
4 谢丹夏;Web上的数据挖掘技术和工具设计[J];计算机工程与应用;2001年06期
5 阳小华;Web站点的超链结构挖掘[J];计算机工程与应用;2001年08期
6 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
7 任仲晟;薛永生;;基于页面标签的Web结构化数据抽取[J];计算机科学;2007年10期
8 蒋澄,马范援,蒋思杰;中英文WWW搜索引擎的信息处理[J];计算机工程;1999年04期
9 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
10 高军 ,王腾蛟 ,杨冬青 ,唐世渭;基于Ontology的Web内容二阶段半自动提取方法[J];计算机学报;2004年03期
【相似文献】
中国期刊全文数据库 前10条
1 寿文卉;范文慧;;电子政务网站智能评估系统的研究与实现[J];系统仿真学报;2011年08期
2 郑亚敏;;从互文性理论析中国古诗文化意象的英译[J];吉林化工学院学报;2011年08期
3 南锋;张小英;;基于高分辨率影像的流域土地利用类型的提取——以乡宁县红土沟流域为例[J];山西农业科学;2011年08期
4 陈芳;;文本、受众与体验——用媒介文化理论解读“新媒体电影”走热的现象[J];东南传播;2011年08期
5 刘晶瑜;;浅析电视民生新闻文本的叙事特点[J];才智;2011年23期
6 邹燕飞;于成尊;赵亮;;基于Lucene的文本搜索引擎的设计和实现[J];计算机与现代化;2011年09期
7 白鹭;;金钱下异化的人性——《真心话大冒险》的电视文化分析[J];学理论;2011年20期
8 ;办公快操作[J];电脑迷;2011年17期
9 刘晖;;从文本角度看电视剧对受众的说服效果[J];中国广播电视学刊;2011年07期
10 陈爱霞;姚文连;;网文表格去留 当然自做主[J];电脑迷;2011年12期
中国重要会议论文全文数据库 前10条
1 李晓栋;胡清华;;汽轮机故障诊断文本支持系统的研究与建立[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
2 赵宬斐;黄丽萍;;浙江外来新居民的生活空间发展检视——以店口为例[A];“秩序与进步:浙江社会发展60年研究”理论研讨会暨2009浙江省社会学年会论文集[C];2009年
3 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 胡洁;;浅谈习作教学中的“对话性格”[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
5 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 张鹏;李国臣;李茹;刘海静;石向荣;;基于FrameNet框架关系的文本蕴含识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 徐代刚;唐常杰;于中华;;从Web文档中采掘语言知识[A];第十五届全国数据库学术会议论文集[C];1998年
9 刘菁菁;林鸿飞;;基于结构和链接扩展的中文网页分类研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
10 刘胜旋;;海底底质分类技术的最新进展[A];中国地球物理学会年刊2002——中国地球物理学会第十八届年会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 记者 孙贤程;新版文本:五大突出问题应调整[N];建筑时报;2011年
2 周平远;文本学研究的创新[N];中华读书报;2005年
3 高红;六方会谈:共同文件最终文本缘何难产?[N];新华每日电讯;2005年
4 安徽 高伟;文本批量替换好帮手[N];电脑报;2004年
5 黄宾堂 (壮族);生气勃勃的文本[N];文艺报;2010年
6 廖令鹏;围炉写作与文本盛宴[N];文艺报;2011年
7 李永波;实现滚动文本一例[N];中国电脑教育报;2004年
8 红桥区教师进修学校 孙晓军;深入解读文本 实现有效教学[N];天津教育报;2010年
9 沈传亮;推动历史大众化的文本途径[N];学习时报;2011年
10 林茨;“纪实”文本《百褶裙》[N];中华读书报;2003年
中国博士学位论文全文数据库 前10条
1 富世平;敦煌变文的口头传统研究[D];四川大学;2005年
2 刘顺利;文本研究[D];中国社会科学院研究生院;2002年
3 李雁南;近代日本文学中的“中国形象”[D];暨南大学;2005年
4 曹海军;文本与语境:罗尔斯正义理论研究[D];吉林大学;2006年
5 彭青龙;“写回”帝国中心[D];华东师范大学;2005年
6 谢登斌;当代美国课程话语研究[D];华东师范大学;2005年
7 张学波;媒体素养教育的课程发展取向研究[D];华南师范大学;2005年
8 吴致远;技术的后现代诠释[D];东北大学;2006年
9 彭国良;顾颉刚史学思想的认识论解析[D];山东大学;2007年
10 石丽琴;科学编史学与认识论解释学[D];华南师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐晴阳;从网页中精确提取链接上下文相关文本[D];吉林大学;2004年
2 何固佳;原语文本的解码模式[D];湖南师范大学;2004年
3 陈晓华;程乃珊笔下上海想象的变迁及其社会文化语境[D];首都师范大学;2004年
4 李旺欣;语文对话教学研究[D];上海师范大学;2006年
5 苏平萍;初中语文对话教学个案研究[D];广西师范大学;2006年
6 杨黎丽;爱的缺失与张爱玲文本的悲剧性[D];郑州大学;2007年
7 任云岚;论《管家》中的不确定性[D];河北师范大学;2009年
8 未怡;论《七姐妹》的重生主题[D];四川外语学院;2011年
9 潘莹;基于需求文本的GIS语义挖掘初步研究[D];南京师范大学;2004年
10 王光阵;玩出来的品牌帝国[D];四川大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026