收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于权值优化的网页正文内容提取算法

吴麒  陈兴蜀  谭骏  
【摘要】:目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 李仪;;BOM准确率的数学模型[J];CAD/CAM与制造业信息化;2010年05期
2 李仪;;如何改善BOM准确率[J];CAD/CAM与制造业信息化;2010年06期
3 邹见效;王厚军;舒军;凡时财;;一种基于最小二乘法的FPN与规则权值优化新方法[J];电子测量与仪器学报;2010年07期
4 胡婷;王勇;陶晓玲;;混合模式的网络流量分类方法[J];计算机应用;2010年10期
5 唐孝柱;邵堃;滑培培;;一种基于领域分析的面向Agent需求建模方法[J];微计算机信息;2010年33期
6 黄战华;刘正;朱猛;蔡怀宇;张尹馨;;基于统计特征的轮胎纹理缺陷在线检测[J];光学技术;2009年01期
7 潘昊;颜军;;基于中文分词的文本自动校对算法[J];武汉理工大学学报;2009年03期
8 吴谷;;拣选技术及其应用系列连载之二 精挑细选解其妙(上)[J];物流技术与应用;2009年05期
9 谢丽宽;李钊;胡双演;史德琴;;一种新的红外目标提取算法[J];无线电工程;2009年06期
10 叶海军;;基于统计特征加权的模糊聚类方法及其应用[J];现代电子技术;2009年12期
中国重要会议论文全文数据库 前10条
1 董乃平;欧阳永中;梁逸曾;;低能量CID质谱中脯氨酸裂解行为研究[A];中国化学会第27届学术年会第09分会场摘要集[C];2010年
2 胡蜀雯;杨丽;刘华丽;唐蓉;梁祯;;先天性心脏病超声诊断中常见误诊原因分析[A];第12届中国南方国际心血管病学术会议专刊[C];2010年
3 侯传举;邓东安;朱鲜阳;;多发房间隔缺损经胸超声心动图与经食管超声心动图对比研究[A];第12届中国南方国际心血管病学术会议专刊[C];2010年
4 翟红林;张雅婷;吴治庆;余兆松;;一种癌症检测中样本个体性差异的消除方法[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
5 杨镇澴;孙凤杰;范杰清;;基于PSO和二维OTSU的图像模糊增强算法[A];图像图形技术研究与应用(2010)[C];2010年
6 饶志勇;胡雯;伍晓汀;;健康成人预测静息能量消耗与测定静息能量消耗的差异[A];膳食变迁对民众健康的影响:挑战与应对——第二届两岸四地营养改善学术会议学术报告及论文摘要汇编[C];2010年
7 崔艳丽;程鹏飞;董晓志;刘志华;王双喜;;温室植物病害的图像处理及特征值提取方法的研究——基于色度的特征值提取研究[A];《中国设施农业可持续发展》论坛论文资料汇编[C];2010年
8 陈恒明;庞子琴;陈玥熤;李晓娜;;如何提高电话气象临近天气预报服务[A];第27届中国气象学会年会雷达技术开发与应用分会场论文集[C];2010年
9 李海花;张林梅;唐秀;;阿勒泰地区1984—2009年雪灾的时空统计特征及防御[A];第27届中国气象学会年会重大天气气候事件与应急气象服务分会场论文集[C];2010年
10 刘大锋;李海花;张林梅;;阿勒泰地区1984—2009年低温冷害的统计特征[A];第27届中国气象学会年会气候环境变化与人体健康分会场论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孔德光;结合语义的统计机器学习方法在代码安全中应用研究[D];中国科学技术大学;2010年
2 邓艺;基于选择嵌入域的图像隐写研究[D];中国科学技术大学;2010年
3 马明;基于多元统计方法的城市道路交通事故分析研究[D];武汉理工大学;2010年
4 林平;网络流量的离线分析[D];北京邮电大学;2010年
5 张玮;领导—下属人口统计特征的正向差异对心理契约破裂的作用机制研究[D];复旦大学;2010年
6 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
7 刘首华;畸形波的海浪数值模拟研究[D];中国海洋大学;2010年
8 刘华兴;被动声学测波新方法的实验研究及应用[D];中国海洋大学;2010年
9 黄文军;三维人脸识别及其模板保护算法研究[D];哈尔滨工业大学;2010年
10 汤华茂;基于语义的产业链网络化协同设计模式及关键技术研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 牛增慧;信函图像特征提取和分析[D];华东师范大学;2011年
2 王莹;从互联网上挖掘双语语料的研究与实现[D];华东师范大学;2011年
3 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
4 王颖;基于感知风险和涉入程度的消费者新能源汽车购买意愿研究[D];华东理工大学;2011年
5 涂松高;Web查询分类方法的改进[D];上海交通大学;2011年
6 肖鹏元;基于GPU并行计算的重复文本检测系统[D];浙江大学;2011年
7 沈益舒;搜索语句的时间属性研究及其在检索排序中的应用[D];浙江大学;2011年
8 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年
9 徐爱武;互动问答系统中问题回答者推荐研究[D];浙江大学;2011年
10 钟云云;基于地理信息的内容定向广告投放算法及性能研究[D];浙江大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 徐盈雁;修养:用比赛的精神办好每个案件[N];检察日报;2011年
2 任强 史金松;金陵石化设备管理模块服务采购程序投用[N];中国石化报;2011年
3 本报记者 徐盈雁;修养:用比赛的精神办好每个案件[N];检察日报;2011年
4 任强 史金松;金陵石化设备管理模块服务采购程序投用[N];中国石化报;2011年
5 赵禹;吉林食品安全监管覆盖率达100%[N];中国工商报;2011年
6 傅方明;2010年杭钢焦化厂降低煤炭采购成本1300多万元[N];中国冶金报;2011年
7 本报记者 滕继濮;无损检测技术:不放过一个“坏蛋”[N];科技日报;2011年
8 彭健华;广西梧州市测标普查试点工作通过验收[N];中国测绘报;2011年
9 记者 李长青;辽宁省局启动预报集约化布局调整[N];中国气象报;2011年
10 记者 刘星;我省24小时晴雨预报准确率达84%[N];四川日报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978