收藏本站
《科技信息(科学教研)》 2007年28期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

中文文本的特征抽取和分类算法

周剑  王晓军  杨明珠  
【摘要】:文本分类是根据文本内容自动确定文本类型的过程。介绍现有特征抽取和分类算法,提出用模糊聚类算法FCM确定文本类标签,Boosting算法构造分类器的方法,使文本分类具有更好的分类精度和时效性,以及对未知类标签语料库中文本的自适应性。

【参考文献】
中国期刊全文数据库 前5条
1 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
2 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
3 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
4 张敏,于剑;基于划分的模糊聚类算法[J];软件学报;2004年06期
5 李莹,张晓辉,王华勇,常桂然;一种应用向量聚合技术的KNN中文文本分类方法[J];小型微型计算机系统;2004年06期
【共引文献】
中国期刊全文数据库 前10条
1 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
2 李燕琴;一种生态旅游者的识别与细分方法——以北京市百花山自然保护区为例[J];北京大学学报(自然科学版);2005年06期
3 吕佳;可能性C-Means聚类算法的仿真实验[J];重庆师范大学学报(自然科学版);2005年03期
4 陈治平,林亚平,彭雅,王雷,童调生;基于最小类差异的无关信息预处理算法[J];电子学报;2003年11期
5 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
6 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
7 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
8 钟茂生;WEB页面的模糊聚类[J];华东交通大学学报;2004年05期
9 苏守宝,陈明华;基于佳点集遗传算法的模糊聚类技术[J];合肥工业大学学报(自然科学版);2005年04期
10 张玉叶;李连;刘海见;王春歆;;文本过滤中的特征抽取应用研究[J];海军航空工程学院学报;2005年01期
中国重要会议论文全文数据库 前2条
1 倪茂树;林鸿飞;;基于词共现概念的文本分类研究[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
2 Zhenxing Wang Jingbo Zhu Institute of Computer Software and Theory,Northeastern University Shenyang,China,110004;Improving K-NN Text Categorization by Bootstrap Technique[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
3 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
4 刘仁金;基于商空间的纹理图象分割研究[D];安徽大学;2005年
5 杜民;基于光电检测与信息处理技术的纳米金免疫层析试条定量测试的研究[D];福州大学;2005年
6 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
7 沈掌泉;神经网络集成技术及其在土壤学中应用的研究[D];浙江大学;2005年
8 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
中国硕士学位论文全文数据库 前10条
1 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
2 何映思;模糊控制的模糊推理算法研究[D];西南师范大学;2005年
3 汤赛丽;常识知识问答系统中知识库构建的研究与设计[D];河南大学;2005年
4 黄明明;基于层次的模糊聚类算法[D];青岛大学;2005年
5 邹金凤;基于综合评价理论的多分类器容器[D];大连理工大学;2005年
6 曹渝昆;基于RDF的个性化服务模型[D];重庆大学;2002年
7 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
8 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
9 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
10 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
2 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
3 尹中航,王永成,蔡巍;应用支持向量机进行网上信息自动分类[J];高技术通讯;2001年11期
4 刘晓燕,单晓红;数据挖掘在竞争情报系统中的应用[J];管理学报;2005年S2期
5 白广慧,连浩,许洪波,程学旗;自动分类技术在企业竞争情报系统中的应用[J];计算机工程与应用;2005年18期
6 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
7 赵妍,侯汉清,耿金玉,叶常妍,何群;中文期刊论文自动标引加权设计研究[J];新世纪图书馆;2004年01期
8 范中磊,潘龙法;一种基于呼叫中心和数据挖掘的客户数据库模型[J];计算机应用研究;2002年01期
9 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
10 孙亚明;;建立企业竞争情报系统初探[J];攀枝花学院学报;2007年02期
中国硕士学位论文全文数据库 前10条
1 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
2 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
3 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
4 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
5 钟配蓉;基于Web挖掘的文本预处理研究及应用[D];湖南大学;2006年
6 于歌;搜索引擎中自动分类关键技术研究[D];燕山大学;2006年
7 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
8 旺建华;中文文本分类技术研究[D];吉林大学;2007年
9 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
10 马文娟;文本特征降维与分类规则抽取方法研究与应用[D];大连理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前6条
1 于剑,程乾生;关于FCM算法中的权重指数m的一点注记[J];电子学报;2003年03期
2 于剑;论模糊C均值算法的模糊指标[J];计算机学报;2003年08期
3 高新波,谢维信;模糊聚类理论发展及应用的研究进展[J];科学通报;1999年21期
4 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
5 王梦云,曹素青;基于字频向量的中文文本自动分类系统[J];情报学报;2000年06期
6 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
【相似文献】
中国期刊全文数据库 前10条
1 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
2 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
3 吴谋硕;;基于遗传算法的文本分类技术[J];电脑知识与技术;2011年22期
4 高金勇;徐朝军;冯奕竸;;基于迭代的TFIDF在短文本分类中的应用[J];情报理论与实践;2011年06期
5 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
6 胥桂仙;向春丞;翁彧;赵小兵;杨国胜;;基于栏目的藏文网页文本自动分类方法[J];中文信息学报;2011年04期
7 张国梁;肖超锋;;基于SVM新闻文本分类的研究[J];电子技术;2011年08期
8 刘新生;厉锟;;基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J];计算机与现代化;2011年07期
9 王斌;朴顺姬;邵华清;;基于粗糙集的KNN的WEB文本分类的研究[J];数字技术与应用;2011年08期
10 张春元;;基于条件随机场的文本分类模型[J];计算机技术与发展;2011年07期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 薛永刚;朱靖波;魏刚;;基于核主成分分析的文本分类[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前5条
1 特约撰稿人 郑优军 甄浩;文稿输入让键盘走开[N];电脑报;2001年
2 本报记者 洪奇;手写笔:21世纪的主流输入技术[N];计算机世界;2001年
3 希安;微软试水信息检索[N];经济日报;2004年
4 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
5 徐昕;正在成熟的生物识别技术[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 杨茂龙;相关投影分析在特征抽取中的应用研究[D];南京理工大学;2011年
5 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
6 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 赵才荣;基于图嵌入与视觉注意的特征抽取[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 蒋冀翔;基于非负矩阵分解的信息获取方法研究[D];东南大学;2006年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
6 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
7 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
8 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
9 闫晨;KNN文本分类研究[D];燕山大学;2010年
10 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026