收藏本站
《北京交通大学学报》 2009年05期
加入收藏 投稿

知网的话题更新与跟踪算法研究

焦健  瞿有利  
【摘要】:话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,本文在现有的向量空间描述文档的基础上,实现了一个基于话题更新的话题跟踪算法,提出了基于知网的近义动词分析的跟踪算法及基于知网的近义动词分析和话题更新的话题跟踪算法.实验表明话题更新和同义词近义词的消除提高了话题跟踪算法的性能.
【作者单位】北京交通大学计算机与信息技术学院;
【关键词】自然语言处理 话题跟踪 新闻报道 知网 话题更新
【基金】:教育部科学技术研究重点项目资助(108126)
【分类号】:TP391.1
【正文快照】:
话题跟踪(Topic Tracking)是话题检测与跟踪(Topic Detection and Tracking,TDT)的一项重要的子任务,它可以描述为:根据与某个话题相关的少量训练报道,构造出话题模型,并从新闻报道信息流中识别出和该话题相关的后续报道的过程[1].目前,现有的话题跟踪实现方法大致可分为两类

【共引文献】
中国期刊全文数据库 前10条
1 檀林,张永奎;一种基于迭代学习的文本分类器构造方法[J];电脑开发与应用;2004年02期
2 刘茂旺;林世平;;BOOSTING算法在多类多标签文本分类中的应用[J];福建电脑;2006年03期
3 姚志湘;杨锦瑜;张倩;刘雪颖;陈晓伟;;Boosting算法及其在化学数据挖掘中的应用[J];广西工学院学报;2006年04期
4 肖江,张亚非;Boosting算法在文本自动分类中的应用[J];解放军理工大学学报(自然科学版);2003年02期
5 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
6 莫倩;刘书家;李凯;;主题追踪系统的研究与实现[J];计算机工程与应用;2006年02期
7 莫倩;刘书家;;主题新闻信息门户系统的设计与实现[J];计算机工程;2006年10期
8 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
9 刘风成;黄德根;姜鹏;;基于AdaBoost.MH算法的汉语多义词消歧[J];中文信息学报;2006年03期
10 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国重要会议论文全文数据库 前10条
1 SHI Yong-feng. ZHAO Yan-ping School of Management and Economics, Beijing Institute of Technology , Beijing 100081, China;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
2 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 宋丹;林鸿飞;杨志豪;;一种利用链接分析的Web话题跟踪方法[A];第三届学生计算语言学研讨会论文集[C];2006年
7 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 SHI Yong-feng, ZHAO Yan-ping~+ School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
9 Yongwook Yoon;Changki Lee;Gary Geunbae Lee;;Systematic Construction of Hierarchical Classifier in SVM-based Text Categorization[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
10 Dragomir Radev;;Combining Labeled and Unlabeled Data for Learning Cross-document Structural Relationships[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
中国博士学位论文全文数据库 前10条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
5 沈掌泉;神经网络集成技术及其在土壤学中应用的研究[D];浙江大学;2005年
6 王泉德;机器学习及其在多Agent对策学习中的应用研究[D];武汉大学;2005年
7 陈久军;基于统计学习的图像语义挖掘研究[D];浙江大学;2006年
8 于玲;基于数据的复杂系统集成建模方法及其应用研究[D];浙江大学;2006年
9 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
10 刘悦;神经网络集成及其在地震预报中的应用研究[D];上海大学;2005年
中国硕士学位论文全文数据库 前10条
1 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
2 葛强;亲属关系逻辑推理专家系统的研究[D];河南大学;2005年
3 赵巍;基于聚类的网页相关性挖掘技术研究[D];东北师范大学;2005年
4 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
5 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
6 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
7 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
8 栾悉道;互联网公开情报收集与处理技术研究[D];国防科学技术大学;2003年
9 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
10 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
【同被引文献】
中国期刊全文数据库 前7条
1 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
2 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
3 蒋凯;武港山;;基于Web的信息检索技术综述[J];计算机工程;2005年24期
4 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
6 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
7 周亚东;孙钦东;管晓宏;李卫;陶敬;;流量内容词语相关度的网络热点话题提取[J];西安交通大学学报;2007年10期
中国硕士学位论文全文数据库 前1条
1 陈映;BBS与主流报纸的议题互动[D];暨南大学;2005年
【二级参考文献】
中国期刊全文数据库 前3条
1 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
2 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
3 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期
【相似文献】
中国期刊全文数据库 前10条
1 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
2 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
3 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
4 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
5 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
6 张海军;彭成;栾静;;基于外部排序的字串左右熵快速计算方法[J];计算机工程与应用;2011年19期
7 袁里驰;;基于词聚类的依存句法分析[J];中南大学学报(自然科学版);2011年07期
8 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
9 刘小明;樊孝忠;刘里;;融合事件信息的复杂问句分析方法[J];华南理工大学学报(自然科学版);2011年07期
10 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
中国重要会议论文全文数据库 前10条
1 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
3 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
6 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
8 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
9 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
2 ;开天辟地第一回[N];计算机世界;2002年
3 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
4 运迪;未来电脑什么样[N];山西科技报;2000年
5 Chris Kanaracus沈建苗 编译;企业搜索的未来[N];计算机世界;2008年
6 ;未来十年展望之体验技术[N];中国计算机报;2010年
7 郭莹;全文检索市场空间大[N];中国计算机报;2006年
8 ;搜索引擎将引入人工智能技术[N];人民邮电;2006年
9 ;BI和文本分析的强强联手[N];网络世界;2007年
10 姜靖;信息爆炸引发阅读模式变革[N];科技日报;2009年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
6 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
7 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
8 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
9 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
10 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
7 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
8 陈频;中文科技论文文本分类研究[D];厦门大学;2006年
9 李江;自然语言编程研究[D];北京邮电大学;2008年
10 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026