收藏本站
《系统工程》 2005年10期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型文本过滤算法

贺卫红  曹毅  
【摘要】:文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。本文详细地论述了基于向量空间模型的文本过滤算法,该算法由训练和自适应过滤两个阶段组成,在训练阶段,通过主题处理和特征抽取建立初始的过滤模板,设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值,以获得最佳的过滤性能。

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 高庆狮;李莉;刘宏岚;;基于语义单元表示树剪枝的关键字过滤方法[J];北京科技大学学报;2006年12期
2 李中原;杨守文;;基于向量空间模型的网页特征权重计算改进[J];计算机与现代化;2010年06期
中国硕士学位论文全文数据库 前9条
1 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
2 吕金锁;探针技术在网络信息监控系统中的应用[D];哈尔滨工程大学;2007年
3 李晓微;基于内容的中文文本过滤关键技术研究[D];东北师范大学;2008年
4 姬浩;ERP项目实施风险信息挖掘体系构建及运行效果评价研究[D];西安理工大学;2008年
5 曹毅;基于内容和协同过滤的混合模式推荐技术研究[D];中南大学;2007年
6 吕志龙;基于遗传算法的自适应文本过滤方法的研究[D];哈尔滨工程大学;2008年
7 律佳;文本信息过滤器的研究与实现[D];大庆石油学院;2009年
8 葛小培;专利地图的研究及其在生物医药领域中的应用[D];苏州大学;2010年
9 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年
【参考文献】
中国期刊全文数据库 前3条
1 余力,刘鲁;电子商务个性化推荐研究[J];计算机集成制造系统;2004年10期
2 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
3 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
【共引文献】
中国期刊全文数据库 前10条
1 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
2 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
3 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
4 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
5 代劲;胡峰;王国胤;;基于不完备信息系统的文本分类研究与应用[J];重庆邮电学院学报(自然科学版);2006年03期
6 何海江;凌云;;由向量空间相关模型识别博客文章的垃圾评论[J];长沙大学学报;2008年02期
7 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
8 王俊伟;吴纬;;基于支持向量机的装备维修保障专业优化[J];四川兵工学报;2010年09期
9 张宁丹;;Rough Set在垃圾邮件过滤技术中的应用[J];湘南学院学报;2007年02期
10 曹毅;罗新星;;电子商务推荐系统关键技术研究[J];湘南学院学报;2008年05期
中国重要会议论文全文数据库 前10条
1 ;Research on the Frame Structure and Its Implement of a Special Field-based Content Information Mining System on Web[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 8)[C];2005年
2 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
4 杜鲁燕;苗振江;;基于语言模型的中文文本分类系统[A];第十届全国人机语音通讯学术会议暨国际语音语言处理研讨会论文摘要集[C];2009年
5 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
8 石艳荣;孙丹宁;贺永强;;一种基于内容的邮件过滤模型的研究与性能分析[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
9 张璐;王景中;;基于HNC语境框架的文本相似度计算[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
4 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
5 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
6 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
7 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
10 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
2 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 曹萍;Agent电子商务推荐系统下协同过滤技术研究[D];辽宁工程技术大学;2009年
6 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
7 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
8 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
9 董全德;基于双信息源的协同过滤算法及其应用研究[D];合肥工业大学;2010年
10 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
3 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
4 李爱明;张帆;;一种基于向量空间模型的信息过滤系统用户建模研究[J];图书与情报;2007年04期
5 王修力;马利平;;文本信息检索的代数模型综述[J];吉林大学学报(信息科学版);2007年05期
6 何海江;凌云;;由向量空间相关模型识别博客文章的垃圾评论[J];长沙大学学报;2008年02期
7 张宁丹;;Rough Set在垃圾邮件过滤技术中的应用[J];湘南学院学报;2007年02期
8 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
9 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
10 秦志光;罗琴;张凤荔;;一种混合的垃圾邮件过滤算法研究[J];电子科技大学学报;2007年03期
中国博士学位论文全文数据库 前6条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
4 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
5 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
6 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
2 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
3 汪国洋;基于内容过滤和重现的新型防火墙[D];北方工业大学;2003年
4 白丽君;基于内容和协作的科技文献过滤方法研究[D];山西大学;2003年
5 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
6 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
7 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
8 栾悉道;互联网公开情报收集与处理技术研究[D];国防科学技术大学;2003年
9 林震宇;非法互联网网站及服务扫描监管系统[D];四川大学;2004年
10 姜卓彦;大流量主干网络中实时网络监测[D];电子科技大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 胡玥;高小宇;高庆狮;;多语言机译系统中高质量语义单元库形成方法[J];北京科技大学学报;2008年06期
2 曹毅;罗新星;;电子商务推荐系统关键技术研究[J];湘南学院学报;2008年05期
3 桑书娟;王敏;;一种结合文档频率和互信息的特征项提取方法[J];电脑知识与技术;2012年11期
4 帅正化;周学广;;中文网页内容柔性过滤器的研究与实现[J];计算机与数字工程;2009年11期
5 汪霞;郑宁;徐明;陈默;;基于中文变形词匹配的贝叶斯邮件过滤模型[J];计算机应用与软件;2010年01期
6 王景波;郑丽英;;混合推荐技术在Web挖掘中的研究[J];科技信息;2010年33期
7 骆万文;高飞;周学广;;抗中文主动干扰关键词过滤研究综述[J];吉首大学学报(自然科学版);2011年03期
8 李连;朱爱红;苏涛;;一种改进的基于向量空间文本相似度算法的研究与实现[J];计算机应用与软件;2012年02期
9 杨丽;;基于专利地图的专利分析方法及其影响因素探讨[J];图书馆;2011年04期
10 马正华;任超;;基于本体的知识结构拓扑图的智能图书馆模型研究[J];图书馆学研究;2012年01期
中国重要会议论文全文数据库 前2条
1 孙艳;周学广;;恶意夹杂英文的中文关键词挖掘系统的实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
2 朱振方;刘培玉;;求解中文文本信息过滤的自适应遗传算法及收敛性分析[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 方淼;语义单元自动获取研究[D];大连理工大学;2008年
2 关晓薇;基于语义语言的机器翻译系统中若干关键问题研究[D];大连理工大学;2009年
3 浑洁絮;基于语义语言的英汉机器翻译研究[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
2 王向晖;福建电力公司ERP项目实施及风险控制[D];西北大学;2010年
3 胡斌;基于用户和资源权重的协同过滤推荐系统的研究与设计[D];武汉理工大学;2009年
4 杨智奇;协同过滤技术在电子商务个性化推荐系统中的研究与应用[D];电子科技大学;2009年
5 淡寿全;房地产企业实施ERP系统的风险研究[D];重庆大学;2009年
6 姜丽丽;基于潜在语义索引和支持向量机的文本分类过滤技术研究[D];大庆石油学院;2010年
7 邵伟;基于领域知识的协同过滤推荐研究[D];河北大学;2010年
8 张立伟;网络信息过滤中反馈机制的研究及应用[D];山东师范大学;2010年
9 李亚欣;基于协同过滤的电子商务个性化推荐算法研究[D];东北财经大学;2010年
10 丁若尧;基于博客的网络话题发现及追踪的研究[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 赵亮,胡乃静,张守志;个性化推荐算法设计[J];计算机研究与发展;2002年08期
2 王实,高文,李锦涛;基于分类方法的Web站点实时个性化推荐[J];计算机学报;2002年08期
3 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
【相似文献】
中国期刊全文数据库 前10条
1 陈顺强;沙马拉毅;;信息处理用彝文词性研究[J];民族语文;2011年04期
2 刘征;孙汉卿;;机器学习在入侵检测中的应用[J];职业技术;2011年04期
3 徐栋;;机器学习在网络攻击检测中的应用[J];河南科技;2011年13期
4 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
5 陈可佳;;社会网络分析中的机器学习技术综述[J];南京邮电大学学报(自然科学版);2011年03期
6 孙朝云;;基于人工神经网络的预测模型[J];福建电脑;2011年07期
7 邓红;齐名军;李昕;;“信息技术”课程中实践教学的探讨[J];华章;2011年24期
8 俞大升;;变电站图像监控技术的开发和应用[J];宁夏电力;2010年S1期
9 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[J];信息网络安全;2011年09期
10 赵小川;刘子峰;杨立辉;侯保江;;特种机器人运动轨迹规划及其实现[J];计算机测量与控制;2011年08期
中国重要会议论文全文数据库 前10条
1 李鹏;徐波;;单词自动注音方法的研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年
2 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
3 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
6 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
7 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
8 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
9 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
10 张燕;张付志;;跨系统个性化服务方法和用户模型研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
3 本报记者 艾林;信息处理[N];中国质量报;2000年
4 狄国斌徐春花;在信息处理的规律上建立岗责体系[N];江苏经济报;2007年
5 旷健 旷菲;我区民文信息处理技术开发应用硕果累累[N];新疆日报(汉);2006年
6 赵伟;专家热议财务信息处理新技术[N];中国税务报;2006年
7 记者 傅小冰;信息处理驶入快车道[N];中国质量报;2004年
8 本报记者 吴晓伟;缓解电子政务信息处理困境[N];计算机世界;2004年
9 冀邦杰;所校联合科技创新构筑海上钢铁长城[N];科技日报;2006年
10 陈文;号码百事通试水“云南模式”[N];通信产业报;2006年
中国博士学位论文全文数据库 前10条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
3 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
4 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
5 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
6 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
7 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
10 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
中国硕士学位论文全文数据库 前10条
1 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
2 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
3 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
4 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
5 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
6 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
7 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
8 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
9 孟祥山;工作流流程优化技术的应用研究[D];国防科学技术大学;2004年
10 芦明;语义网服务中基于机器学习的本体映射研究[D];大连海事大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026