收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Ngram信息的中文文档分类研究

周水庚  关佶红  俞红奇  胡运发  
【摘要】:传统文档分类系统都是基于文档的词属性 ,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N gram信息的中文文档分类 ,使中文文档分类系统摆脱对词典和切词处理的依赖 ,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法 ,实现了一个基于N gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 董元方;李雄飞;李军;李巍;;XML文档分类的IL-AdaBoost算法[J];吉林大学学报(工学版);2011年04期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 胡江滔;周水庚;周傲英;;基于遗传算法的中文WEB文档分类研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 雷景生;康耀红;;基于模糊相关的Web文档分类方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 陈峰;张欣;乐嘉锦;;EKS:XML文档上的关键字查询[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 郭庆军;赵燕平;;一种简单的基于奖励机制的文本分类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 陶剑文;丁佩芬;姚奇富;;FLPI:一种优化的基于LPI的文档索引算法[A];第二十七届中国控制会议论文集[C];2008年
7 刘昌钰;郭颖;唐常杰;翟静;李海宏;;基于潜在语义分析与Bayes分类的BBS文档鉴别[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 杨建武;;Web检索结果的层次聚类研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 伍赛;杨冬青;韩近强;张铭;王文清;冯英;;WCM:一种基于单词相关度的文档聚类新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 陈莉;KDD中的几个关键问题研究[D];西安电子科技大学;2003年
2 袁家政;可伸缩矢量图形(SVG)的数据表示研究[D];北京交通大学;2008年
3 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年
4 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
5 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
6 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
9 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
10 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 徐生良;利用文档分类结构的信息检索技术[D];上海交通大学;2010年
2 成少梅;利用IRF模型丰富文档的语义代表[D];武汉理工大学;2010年
3 张炼;基于图模型的Web文档分类方法研究[D];内蒙古科技大学;2010年
4 陈波;中文WEB文档自动分类的研究与实现[D];武汉理工大学;2005年
5 王晶晶;知识管理平台中的数据智能处理[D];华南理工大学;2012年
6 高媛媛;多层次文档归类在挖掘及处理用户偏好中的应用[D];天津大学;2005年
7 郝晓丽;信息检索系统的算法库研究[D];天津大学;2006年
8 彭超逸;一个面向XML文档的扩展RBAC模型及其应用研究[D];华中科技大学;2006年
9 张亮;基于本体的个性化元搜索引擎[D];天津大学;2006年
10 姜冶;对网页目录的分析以及相关算法的设计[D];吉林大学;2009年
中国重要报纸全文数据库 前4条
1 刘畅;重庆移动建立企业文档管理系统[N];人民邮电;2008年
2 湖北 王金元;小小藏书架BookShelf[N];电脑报;2001年
3 杨洪林;ipresentation发布企业信息的新手段[N];计算机世界;2001年
4 泰山;柯达采集软件 增加输出模块降低成本[N];中国包装报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978