快速的领域文档关键词自动提取算法
【摘要】:针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||
|