收藏本站
《模式识别与人工智能》 2014年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于微博内容的新词发现方法

霍帅  张敏  刘奕群  马少平  
【摘要】:新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%.

【参考文献】
中国期刊全文数据库 前4条
1 杨绪明;杨文全;;当代汉语新词新语探析[J];汉语学习;2009年01期
2 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
3 刘华;;一种快速获取领域新词语的新方法[J];中文信息学报;2006年05期
4 黄轩;李熔烽;;博客语料的新词发现方法[J];现代电子技术;2013年02期
【共引文献】
中国期刊全文数据库 前10条
1 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
2 周炜;廖瑛;;从新词到流行语:模因论解释[J];重庆理工大学学报(社会科学);2011年01期
3 王永燕;;三个平面看“男”“女”族词及其产生原因[J];时代教育(教育教学);2010年12期
4 张榕;宋柔;;一种被定义项的识别策略[J];当代语言学;2007年01期
5 胡娟;;“顾问”语族及其社会文化探析[J];德宏师范高等专科学校学报;2011年02期
6 李烯;徐朝军;;基于关键词共现的教育信息化工程发展初探[J];电化教育研究;2010年02期
7 高俊波;杨静;;在线论坛中的意见领袖分析[J];电子科技大学学报;2007年06期
8 胡彧;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期
9 杨绪明;;汉语新词语当代衍变的交往理论阐释[J];四川文理学院学报;2009年06期
10 杨绪明;;新老“晒书”的同异及社会文化心理考辨[J];广东技术师范学院学报;2012年01期
中国重要会议论文全文数据库 前7条
1 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 崔世起 ;刘群 ;林守勋 ;孟遥 ;于浩 ;西野文人;;中文缩略语自动抽取初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 刘知远;孙茂松;;基于WEB的计算机领域新术语的自动检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 黄玉兰;龚才春;许洪波;程学旗;;基于伪相关反馈模型的领域词典生成算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄玉兰;龚才春;许洪波;程学旗;;基于局部性原理的有意义串提取方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 韩艳;林煜熙;姚建民;;基于统计信息的未登录词的扩展识别方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前9条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
3 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
4 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
5 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
6 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
7 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
8 俞永植;中韩新词语的对比研究(1994年-2010年)[D];中国社会科学院研究生院;2013年
9 陈志宇;当代汉语变迁与中国社会发展[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
2 刘芳;汉语新兴族词研究[D];沈阳师范大学;2011年
3 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
4 王乔;现代汉语“X点”族词研究[D];华中师范大学;2011年
5 刘卫秋;专利信息检索系统的研究与实现[D];中南大学;2010年
6 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
7 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
8 吕筱静;2006-2008汉语新词语的研究[D];云南大学;2011年
9 赵希莹;中韩新词语比较研究[D];中国海洋大学;2011年
10 刘菲;网络流行语的认知识解机制研究[D];江西师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 亓华;中国对外汉语教学界文化研究20年述评[J];北京师范大学学报(社会科学版);2003年06期
3 潘勇;陈云香;;新词新语研究中的几个问题[J];西华大学学报(哲学社会科学版);2006年03期
4 罗玉娟;新时期汉语词汇变异管窥[J];大连教育学院学报;2002年01期
5 徐波;新词新语的文化心理透视[J];杭州师范学院学报;1998年04期
6 张福洲;;新词产生的社会因素、心理因素探[J];和田师范专科学校学报;2006年05期
7 杨文全,曹敏;“铿锵玫瑰”喻义的专指与泛化[J];汉语学习;2004年01期
8 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
9 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
10 贺敏;龚才春;张华平;程学旗;;一种基于大规模语料的新词识别方法[J];计算机工程与应用;2007年21期
中国博士学位论文全文数据库 前2条
1 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
2 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
3 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
4 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
5 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
6 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
7 傅立云;刘新;;基于词典的汉语自动分词算法的改进[J];情报杂志;2006年01期
8 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
9 贾君枝;邰杨芳;;FrameNet的语义类型研究[J];情报理论与实践;2007年05期
10 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
5 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
6 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
7 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
7 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
8 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
9 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
10 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026