收藏本站
《通信技术》 2019年07期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Python语言的中文分词技术的研究

祝永志  荆静  
【摘要】:Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本进行分词的难度较大。运用Python爬虫对网页数据进行抓取作为实验文本数据,使用python强大的分词库jieba对中文文本进行分词处理。对分词结果分别采用TF-IDF算法和TextRank算法进行提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,使得分词结果一目了然。

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 管华;;对当今Python快速发展的研究与展望[J];信息系统工程;2015年12期
2 顾益军;夏天;;融合LDA与TextRank的关键词抽取研究[J];现代图书情报技术;2014年Z1期
3 唐家渝;孙茂松;;新媒体中的词云:内容简明表达的一种可视化形式[J];中国传媒科技;2013年11期
中国硕士学位论文全文数据库 前2条
1 安子建;基于Scrapy框架的网络爬虫实现与数据抓取分析[D];吉林大学;2017年
2 曹洋;基于TextRank算法的单文档自动文摘研究[D];南京大学;2016年
【共引文献】
中国期刊全文数据库 前1条
1 马运运;孙志一;刘海波;彭勇;;中文专利文档关键词自动提取方法研究进展[J];世界科学技术-中医药现代化;2015年01期
中国硕士学位论文全文数据库 前10条
1 乔佳新;科技信息自动跟踪管理系统研究与实现[D];西安理工大学;2018年
2 陈永杰;面向舆情的网页敏感度分析系统的设计与实现[D];新疆大学;2018年
3 孙小越;基于商务智能的竞品分析系统的设计与实现[D];青岛理工大学;2018年
4 杨红立;垂直分类信息采集及推荐系统的设计与实现[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年
5 许洋溢;计算机课程体系本体系统[D];吉林大学;2018年
6 郭英杰;基于主题的文本挖掘及可视化系统研究与实现[D];西安电子科技大学;2018年
7 胡征;面向网络评论的细粒度意见挖掘的研究与应用[D];东华大学;2018年
8 钟宇;面向网络自媒体的空间数据挖掘研究[D];江西理工大学;2018年
9 张晋博;基于谣言路径树的社交网络抑制谣言研究[D];湘潭大学;2018年
10 于志浩;基于Android和网络爬虫的课外阅读系统设计与实现[D];山东大学;2018年
【二级参考文献】
中国期刊全文数据库 前5条
1 夏天;;词语位置加权TextRank的关键词抽取研究[J];现代图书情报技术;2013年09期
2 刘俊;邹东升;邢欣来;李英豪;;基于主题特征的关键词抽取[J];计算机应用研究;2012年11期
3 夏天;;中心网页中主题网页链接的自动抽取[J];山东大学学报(理学版);2012年05期
4 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
5 石晶;李万龙;;基于LDA模型的主题词抽取方法[J];计算机工程;2010年19期
中国硕士学位论文全文数据库 前1条
1 买哈铺热提·外力;维吾尔语单文档自动文摘算法研究[D];新疆大学;2014年
【相似文献】
中国期刊全文数据库 前10条
1 张浩鹏;范梅花;姜翠霞;杨欣宇;李诚;王红艳;;基于Python的职位画像系统[J];高师理科学刊;2019年06期
2 董彧先;;基于Python的小恐龙游戏设计与分析[J];现代信息科技;2019年12期
3 祝永志;荆静;;基于Python语言的中文分词技术的研究[J];通信技术;2019年07期
4 张怡华;;基于Python的图书馆业务报表自动生成研究[J];智库时代;2018年48期
5 饶东;;Python语言在自动化考卷系统中的应用研究[J];信息与电脑(理论版);2018年23期
6 刘瑞;;Python语言在科学算法中的优势[J];信息与电脑(理论版);2019年04期
7 刘家岐;;利用Python对自然语言进行简单处理[J];现代商贸工业;2019年07期
8 练冬兰;;Python与机械教育初探[J];科技创新导报;2019年01期
9 张誉曜;陈媛媛;;基于Python下的爬虫综述及应用[J];中国新通信;2019年06期
10 武永娇;黄宁;;基于Python技术电影口碑的研究[J];计算机与网络;2019年09期
中国重要会议论文全文数据库 前10条
1 黄佳聪;高俊峰;;基于Python编程语言的空间动态模型集成[A];自然地理学与生态安全学术论文摘要集[C];2012年
2 连高欣;;Python语言在Cimiss中的应用[A];第35届中国气象学会年会 S20 深度信息化:应用支持与智能发展[C];2018年
3 王亚东;;Python在气象数据可视化中的应用[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
4 陈琳;任芳;;基于Python的新浪微博数据爬虫程序设计[A];第33届中国气象学会年会 S13 “互联网+”与气象服务——第六届气象服务发展论坛[C];2016年
5 高绵新;;基于Python的ArcGIS脚本工具在DEM精细化生产中的应用[A];全国测绘科技信息网中南分网第三十次学术信息交流会论文集[C];2016年
6 于文丽;;基于Python的空间自相关模式研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
7 欧阳晓;刘笑;;基于Python的基础测绘DLG元数据处理方法[A];第二十届华东六省一市测绘学会(江苏)学术交流会论文集[C];2018年
8 孙建立;贾卓生;;基于Python网络爬虫的实现及内容分析研究[A];中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集[C];2017年
9 王世华;沈卫超;;用Python和wxPython开发主机安全监控系统[A];第二十次全国计算机安全学术交流会论文集[C];2005年
10 陈轩;吴卫军;耿欣南;;基于ArcGIS利用python脚本对地理数据库中指定同名图层的批量合并[A];云南省测绘地理信息学会2016年学术年会论文集[C];2016年
中国重要报纸全文数据库 前3条
1 ;你使用的Python对象占用了多少内存?(上)[N];电脑报;2019年
2 张俊红 《对比Excel,轻松学习Python数据分析》作者;为什么要写《对比Excel,轻松学习Python数据分析》[N];新华书目报;2019年
3 国家计算机网络与信息安全实验室 鲁松;Icon:回归编程的简单和快乐[N];计算机世界;2002年
中国博士学位论文全文数据库 前1条
1 徐兆桂;Python程序缺陷的自动检测与定位技术[D];南京大学;2017年
中国硕士学位论文全文数据库 前10条
1 钱宇;基于Python的自动化图片特征存取系统的设计与实现[D];北京邮电大学;2019年
2 许晓飞;基于Python的宽带车联网路由层和MAC层的设计与实现[D];厦门大学;2017年
3 马洪跃;面向类型推导的Python类型标注分析[D];南京大学;2019年
4 刘原铭;基于Python的中小学云课堂平台设计与实现[D];北京交通大学;2018年
5 董天聪;Python静态类型分析及其应用[D];南京大学;2015年
6 韩辉;基于Python的私募量化平台的设计与实现[D];浙江工业大学;2018年
7 齐丽花;专利数据分析算法设计与Python包实现[D];河北工程大学;2018年
8 王鸣;基于Python的自动化测试脚本管理平台的设计与实现[D];华中科技大学;2016年
9 王小强;基于操作码的Python程序防逆转算法研究与实现[D];中国科学技术大学;2017年
10 徐彩霞;基于Python的CLI自动化测试方法的研究与实现[D];东华大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026