收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

中文论坛内容监测的方法研究

郝秀兰  胡运发  申情  
【摘要】:互联网上充斥着用户生成文档,如论坛中的帖子。如何对这些杂乱无章的内容进行监控是安全部门所关心的重点之一,话题识别与跟踪(Topic Detection and Tracking,TDT)是监控的有效手段之一。但是,网络论坛帖子的特点是回帖篇幅短、话题转移快,使得面向论坛的话题识别与跟踪变得异常困难。针对其特点,给出了三个TDT模型:首先给出一个基线模型;为了缓解"话题漂移"现象,提出了将一个话题表示为种子向量与后续向量的改进模型;在改进的模型上运用最新的命名实体(NE)权重调节策略。针对论坛帖子格式不规范及TDT系统对处理速度的要求,提出了一种特征提取方法。最后,在真实数据集上给出了所用TDT模型的实验结果,证实了所建模型及特征提取方法的有效性。

知网文化
【相似文献】
中国博士学位论文全文数据库 前1条
1 孔祥维;信息安全中的信息隐藏理论和方法研究[D];大连理工大学;2003年
中国硕士学位论文全文数据库 前4条
1 杨骏;家庭计算机绿色卫士软件的设计与实现[D];电子科技大学;2010年
2 方深;网络出版行政监管中智能化系统的研究[D];厦门大学;2007年
3 李春燕;基于内容的多层次语义视频对象提取技术研究[D];上海交通大学;2007年
4 陈利康;互联网上电子病历系统安全机制[D];华中师范大学;2008年
中国重要报纸全文数据库 前2条
1 本报记者  胡英 本报实习记者 田梦;2006内容监控技术破冰[N];计算机世界;2006年
2 ;全面防止数据泄密[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978