收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

带噪声的文本聚类及其在反垃圾邮件中的应用

周鑫  郝志峰  蔡瑞初  温雯  
【摘要】:本文针对垃圾邮件包含较多干扰信息,导致文档相似度度量效果较差的问题,将Needleman-Wunsch算法引入到文本相似度计算中,并针对性地提出一种高效的聚类算法,为反垃圾邮件系统提供了一种有效的垃圾邮件鉴别技术。与传统的仅基于知网、基于语义等聚类算法相比,本方法在算法效率和聚类质量上都有很大的改进。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄承慧;印鉴;侯昉;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
2 王崇国;;以事件为特征的文本聚类方法[J];计算机应用与软件;2010年08期
3 王义;张阳;李书琴;;基于字符串核函数的热点新闻发现系统[J];广西师范大学学报(自然科学版);2007年04期
4 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
5 高茂庭;王正欧;;基于文档标引图模型的文本相似度策略[J];计算机工程;2008年07期
6 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
7 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
8 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
9 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
10 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
11 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
12 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
13 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
14 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
15 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
16 张刚;周昭涛;王斌;;基于主题的分布式信息检索技术研究[J];计算机工程;2006年12期
17 曲皎;李白桦;;基于KL准则层次文本聚类[J];辽宁师范大学学报(自然科学版);2008年01期
18 李华云;;基于潜在语义分析的中文文本聚类方法研究[J];科技情报开发与经济;2008年27期
19 叶阳东;张洁;刘东;;一种优化的顺序IB文本聚类算法[J];模式识别与人工智能;2008年03期
20 张骏;郭慧;;基于文件指纹的Web文本挖掘[J];计算机与信息技术;2009年05期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 徐志明;丛帅;王宇颖;雷萌;;基于仿生模式识别文本分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
8 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
9 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
10 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
5 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
6 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
9 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
10 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
4 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
5 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
6 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
7 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
8 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
9 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
10 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
中国重要报纸全文数据库 前1条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978