收藏本站
收藏 | 投稿 | 论文排版

使用特征文本密度的网页正文提取

王少康  董科军  阎保平  
【摘要】:针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 ;让网页“顺眼”起来[J];微电脑世界;1999年40期
2 陈迎祥;让网页更容易阅读的方法[J];微电脑世界;2000年51期
3 朱明,黄云,蔡庆生;基于多知识的Web网页信息抽取方法[J];小型微型计算机系统;2001年09期
4 UVL;巧用Print Screen Deluxe永久保存网页资料[J];微电脑世界;2001年06期
5 伍裕标;网页加速小技巧[J];网络与信息;2004年07期
6 袁军辉;一起来听网页[J];青少年科学探索;2004年08期
7 严亚兰,查先进;Web网页并行爬行研究[J];计算机应用研究;2005年04期
8 朱明,王军,王俊普;基于多层模式的多记录网页信息抽取方法[J];计算机工程;2001年09期
9 黄鸿;科技网页的规划和设计[J];电子出版;2001年04期
10 高建;浏览网页妙用滚轮[J];电脑爱好者;2002年11期
中国重要会议论文全文数据库 前10条
1 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 周剑辉;苑春法;黄锦辉;李文捷;;金融领域内信息抽取规则的自动获取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
3 苏伟斌;周惠民;顾大权;;网页代码漏洞剖析[A];网络安全技术的开发应用学术会议论文集[C];2002年
4 陈志贤;;高校学报编辑现代化[A];学报编辑论丛(第十二集)[C];2004年
5 郁健飞;;档案馆网页建设初探[A];江苏省档案现代化管理与档案信息化建设学术研讨会交流材料[C];2002年
6 邸晓兰;;网上的性心理咨询[A];中国性学会第五届年会学术论文集[C];2003年
7 任丽莉;郑颖;何群;;论利用ASP技术访问web数据库[A];科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C];2008年
8 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
3 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
4 王菁华;文本中知识的获取[D];北京邮电大学;2008年
5 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
6 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
7 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
8 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
9 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
10 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前10条
1 翟蕾;Web文档分类及信息抽取的研究与开发[D];西北工业大学;2001年
2 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
3 涂涛;嵌入式浏览器网页排版技术的研究与实现[D];华中科技大学;2004年
4 张波;PDF文档语义信息抽取研究[D];河北大学;2004年
5 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
6 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
7 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
8 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
9 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
10 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年
中国重要报纸全文数据库 前10条
1 MXC;让网页背景飘起来[N];电脑报;2005年
2 四川 邹波;网页图形处理技巧[N];中国电脑教育报;2001年
3 ;对付“网页仿冒”的四种方法[N];网络世界;2005年
4 王亭;雅虎双I融合昭示WebIM整合变局到来[N];科技日报;2007年
5 陈荣富蒋锦仕;网页游戏,互联网上的下一个金矿?[N];中国税务报;2008年
6 飞宇冰矢;网页游戏不再沉默[N];电脑报;2008年
7 涂莉 尹为;网页著作权纠纷 你未唱罢我登场[N];市场报;2000年
8 ;Sophos:恶意软件美国最多[N];中国计算机报;2008年
9 本报记者 韦鸣飞;网购砍价服务,帮你讨价还价[N];桂林日报;2009年
10 一品黄山;网页图片 化整为“零”[N];电脑报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978