收藏本站
《山西大学学报(自然科学版)》 2002年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于构词法的网络新词自动识别初探

郑家恒  李文花  
【摘要】:网络新词语的自动识别是中文信息处理中的一个热点研究课题。文章在对加工过的网上文本语料统计的基础上 ,根据汉语构词法建立规则库 ,通过调用“互斥性字串”过滤规则和构词规则来确定新词语。设计并实现了网络新词语的自动识别实验系统 ,经封闭测试 ,准确率为 91.2 % ,召回率为 95 %。
【作者单位】山西大学计算机科学系 山西大学计算机科学系
【基金】:国家 8 6 3项目 (2 0 0 1AA1140 31)
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前4条
1 黄东平,田芳;BBS信息过滤技术研究[J];长江大学学报(自然科学版);2004年01期
2 任禾;曾隽芳;;一种基于信息熵的中文高频词抽取算法[J];中文信息学报;2006年05期
3 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
4 聂颂 ,何丕廉 ,孙越恒;统计与规则结合的一种新词识别方法[J];微型机与应用;2003年10期
中国重要会议论文全文数据库 前5条
1 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
2 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 刘知远;孙茂松;;基于WEB的计算机领域新术语的自动检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
2 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
3 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前6条
1 崔世起;中文新词检测与分析[D];中国科学院研究生院(计算技术研究所);2006年
2 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
3 江慧娜;中文搜索引擎的关键技术研究[D];北京化工大学;2007年
4 李若鹏;互联网舆情信息管控关键技术研究与实现[D];上海交通大学;2008年
5 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
6 蔡灿民;基于词典的智能分词系统的研究与实现[D];昆明理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
3 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
4 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
5 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
6 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
7 谢春发;中文信息处理在智能答疑系统中的应用研究[J];福建广播电视大学学报;2005年02期
8 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
9 黄维金;顾益军;赵勋平;;基于自然语言理解的Web敏感信息监控[J];中国人民公安大学学报(自然科学版);2006年01期
10 邢钧;刘舒;王斌君;;一种基于词与简单路径XML索引系统的设计[J];中国人民公安大学学报(自然科学版);2006年02期
中国重要会议论文全文数据库 前9条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 赫琳;;论“X 从小 Y”的词切分——“从小”语义指向计算机识别的再思考[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
9 余军;陈晓鸥;;命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前9条
1 张蕾;概念结构及其应用[D];西北工业大学;2001年
2 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
3 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
4 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
5 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
6 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
2 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
3 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
4 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
5 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
6 许林杰;中文文本分词研究[D];山东师范大学;2003年
7 由丽萍;动词与动词搭配自动获取方法研究[D];上海师范大学;2003年
8 岑咏华;科技信息门户网站的技术研究[D];南京理工大学;2003年
9 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
10 李盛;面向真实文本的汉语词义排歧系统[D];山西大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 王宝祥;基于ADO NET的数据库访问技术研究[J];计算机应用与软件;2004年02期
2 陆建江,徐宝文;挖掘典型的语言值关联规则[J];东南大学学报(自然科学版);2004年03期
3 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
4 闫友彪,陈元琰;机器学习的主要策略综述[J];计算机应用研究;2004年07期
5 张民,李生,赵铁军;大规模汉语语料库中任意n的n-gram统计算法及知识获取方法[J];情报学报;1997年01期
6 陈任,孙林夫;工程设计知识库管理系统研究[J];西南交通大学学报(自然科学版);1999年06期
7 王清毅,史东辉,何兵,蔡庆生;线性关联规则研究[J];小型微型计算机系统;2001年11期
8 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
9 曹倩,丁艳,王超,潘金贵;汉语自动分词研究及其在信息检索中的应用[J];计算机应用研究;2004年05期
10 郑泽之,张普,杨建国;基于语料库的字母词语自动提取研究[J];中文信息学报;2005年02期
中国重要会议论文全文数据库 前4条
1 侯敏;;语言监测与词语的计量研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 方芳;冯敏萱;;含词尾的三字新词识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 颜伟;;基于动态流通语料库的VSM新词发现策略[A];2004年辞书与数字化研讨会论文集[C];2004年
4 俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前9条
1 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
2 徐艳华;现代汉语实词语法功能考察及词类体系重构[D];南京师范大学;2006年
3 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年
4 尹海良;现代汉语类词缀研究[D];山东大学;2007年
5 刘晓梅;当代汉语新词语研究[D];厦门大学;2003年
6 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
7 任永功;面向聚类的数据可视化方法及相关技术研究[D];东北大学;2006年
8 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
9 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 唐伶;双音节并列式复合词语素序研究[D];东北师范大学;2002年
2 李亚军;九十年代以来旧词新义探析[D];河北师范大学;2004年
3 宋培杰;新时期旧词新义研究[D];华中科技大学;2004年
4 林君峰;现代汉语派生构词研究[D];福建师范大学;2005年
5 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
6 刘志红;说“一A”[D];广西师范大学;2007年
7 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
8 苏东华;当代新词语修辞现象词汇化研究[D];暨南大学;2006年
9 李薇薇;汉语语境下的网络新词语研究[D];汕头大学;2003年
10 骆彬;汉语新词语辅助识别系统的研制[D];中国社会科学院研究生院;2003年
【二级引证文献】
中国期刊全文数据库 前7条
1 胡彧;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期
2 王源媛;何中市;;基于词性探测的中文姓名识别算法[J];计算机科学;2005年04期
3 刘华;;一种快速获取领域新词语的新方法[J];中文信息学报;2006年05期
4 任禾;曾隽芳;;一种基于信息熵的中文高频词抽取算法[J];中文信息学报;2006年05期
5 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
6 何婷婷;朱薏;张勇;任函;;基于词语属性的计算机辅助获取流行词语研究[J];中文信息学报;2006年06期
7 周文刚;王景中;;基于语义的信息过滤算法的设计与实现[J];周口师范学院学报;2006年02期
中国重要会议论文全文数据库 前4条
1 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 崔世起 ;刘群 ;林守勋 ;孟遥 ;于浩 ;西野文人;;中文缩略语自动抽取初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 刘知远;孙茂松;;基于WEB的计算机领域新术语的自动检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 黄玉兰;龚才春;许洪波;程学旗;;基于伪相关反馈模型的领域词典生成算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
2 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
3 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
4 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
5 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 刘涛;藏文数字图书馆的研究与实践[D];湖南大学;2005年
2 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
3 朱薏;流行词语计算机获取模型研究[D];华中师范大学;2006年
4 宋治国;数据挖掘在Internet有害信息过滤中的应用[D];山东师范大学;2006年
5 崔世起;中文新词检测与分析[D];中国科学院研究生院(计算技术研究所);2006年
6 林建;网络不良信息过滤研究[D];华中师范大学;2007年
7 贾丽洁;基于最大熵模型的分词技术研究[D];山东师范大学;2007年
8 江慧娜;中文搜索引擎的关键技术研究[D];北京化工大学;2007年
9 陈珂;构造领域本体概念关系的自动抽取[D];上海交通大学;2008年
10 李若鹏;互联网舆情信息管控关键技术研究与实现[D];上海交通大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 李群;基于N元的候选词库的建立[J];渤海大学学报(自然科学版);2005年02期
2 彭素娟;张健;胡湛;;谈网络词与输入法之关系折射出的网络用语规律[J];科技资讯;2010年05期
3 武湖成;;网络新词语的构成形式及其成因[J];科学之友(B版);2007年10期
4 李淑平;;计算机网络语言的研究[J];吉林省经济管理干部学院学报;2010年03期
5 叶晓菡;;基于.NET的网络用语在线词典软件的设计与实现[J];计算机时代;2010年09期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 刘开瑛;;专有名词与网络词语识别软件技术研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前1条
1 楼向红;论网络语言对语言教学的影响[D];云南师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026