收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

结合文本聚类和文本检索的语料选取方法

何峰  丁晓青  
【摘要】:为了克服用应用相关的文本数据进行语音识别、智能输入等各种自然语言处理中在有些情况下因很难收集到充足的相关数据和缺乏应用相关的训练数据带来的困难,提出了一种通过结合非监督文本聚类和文本检索技术实现相关语料选取的新方法。该方法仅使用少量与特定应用相关的文本,即可从未经整理的大规模语料库中发现更多与此应用相关的文本。利用该方法在手机短信文本和未经整理的大规模语料库上进行了实验,实验结果表明该方法能够有效提取应用相关的文本。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郝剑;高茂庭;;基于模糊相似度的RPCL文本聚类算法[J];电脑知识与技术;2011年18期
2 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
3 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
4 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
5 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
6 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
7 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
8 刘海峰;姚泽清;刘守生;;一种基于模糊加权的改进文本聚类方法[J];微电子学与计算机;2011年09期
9 王海云;刘金岭;;基于查询词扩展的文本检索算法研究[J];计算机与数字工程;2011年06期
10 刘海峰;庞秀梅;张学仁;;一种聚类模式下基于密度的改进KNN算法[J];微电子学与计算机;2011年07期
11 卢志茂;徐森;刘远超;顾国昌;;使用“分裂-合并"策略改进文本聚类集成算法的研究[J];高技术通讯;2010年07期
12 刘晨晨;徐一新;;长尾理论视角下基于DCA的网络自助出版推荐系统[J];计算机系统应用;2011年07期
13 周博;刘奕群;张敏;金奕江;马少平;;锚文本检索有效性分析[J];软件学报;2011年08期
14 刘庆庆;史萍;邵美德;任培明;赵志军;;数字美术馆系统的设计与实现[J];电视技术;2011年09期
15 齐威;刘知一;王仝杰;;面向互联网视频的话题分析技术研究[J];广播与电视技术;2011年07期
16 杜芳芳;;数据挖掘技术在远程教学辅助系统中的应用研究[J];河南科技;2011年12期
17 吴夙慧;成颖;郑彦宁;潘云涛;;K-means算法研究综述[J];现代图书情报技术;2011年05期
18 丁明;熊才权;;群体研讨环境中面向主张的关联规则分析[J];计算机与数字工程;2011年06期
19 刘辉;;基于位置的特征项权重算法[J];中国新技术新产品;2011年14期
20 赵晔;王昌;;基于非精确图匹配的一种工程图检索方法[J];郑州轻工业学院学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 周水庚;胡江滔;胡运发;周傲英;;基于隐含语义索引的中文文本检索[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
7 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
10 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
7 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
8 史庆伟;基于小世界模型的P2P网络文本检索[D];天津大学;2008年
9 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 简艳;基于潜在语义的中文文本聚类及其应用[D];东北大学;2008年
2 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
3 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
4 梁维铿;基于Hadoop的分布式文本聚类研究[D];华南理工大学;2011年
5 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
6 于丽丽;基于DK-Means算法的文本聚类的研究与实现[D];东北大学;2008年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
9 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
中国重要报纸全文数据库 前10条
1 记者 龚杰;IBM推出电子商务数据库[N];计算机世界;2000年
2 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
3 燕舞;大地上的那些往事[N];中华读书报;2008年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 ;IBM DB2:业界一致的选择[N];网络世界;2001年
7 商报记者 江文兵;旅游搜索引擎遭遇寒冬[N];北京现代商报;2005年
8 汪玉凯;政府门户网站存在三大问题[N];中国高新技术产业导报;2003年
9 严恒元;美国:网上政府功能齐全[N];经济日报;2002年
10 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978