收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于条件随机域的Web信息抽取

史庆伟  赵政  鲍虎  
【摘要】:为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 武帅;;基于条件随机域模型的事实信息抽取方法应用[J];现代图书情报技术;2010年10期
2 史庆伟;赵政;鲍虎;;基于条件随机域的Web信息抽取[J];辽宁工程技术大学学报;2007年04期
3 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
4 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
5 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
6 陈玉华;林来宾;;信息抽取在自然语言查询接口中的应用与研究[J];计算机与数字工程;2008年04期
7 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期
8 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
9 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
10 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
中国重要会议论文全文数据库 前10条
1 周剑辉;苑春法;黄锦辉;李文捷;;金融领域内信息抽取规则的自动获取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 龚毅光;梅平;;一种组合本体文本信息抽取技术的研究[A];Proceedings of 2010 International Conference on Broadcast Technology and Multimedia Communication(Volume 4)[C];2010年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 李贵;商鹏程;郑新录;韩子扬;;平坦数据记录列表页的Web信息抽取[A];2010国际信息技术与应用论坛论文集[C];2010年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
中国博士学位论文全文数据库 前10条
1 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
2 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
3 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
4 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
5 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
6 何召卫;受限本体相似[D];北京邮电大学;2008年
7 王菁华;文本中知识的获取[D];北京邮电大学;2008年
8 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
9 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
10 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
2 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
3 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
4 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
5 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
6 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
7 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
8 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
9 李斌;基于文档结构的半监督Blog信息抽取技术[D];哈尔滨工业大学;2009年
10 董锐;基于区域定位的购物网站商品信息抽取方法[D];湖南大学;2009年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 马志彦;悄然而至的EIP[N];中国计算机报;2002年
10 本报记者 于翔;BI:电信业渗透中[N];网络世界;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978