关键词提取

2021-05-12 约 1086 字预计阅读 3 分钟次阅读

文本关键词提取

关键词 是能够表达文档中心内容的词语，常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支，是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。

从算法的角度来看，关键词提取算法主要有两类： 无监督关键词提取 方法和 有监督关键词提取 方法。

无监督关键词提取方法主要有三类：基于统计特征的关键词提取（TF-IDF）；基于词图模型的关键词提取(PageRank,TextRank)；基于主题模型的关键词提取(LDA)

将关键词抽取过程视为二分类问题，先提取出候选词，然后对于每个候选词划定标签，要么是关键词，要么不是关键词，然后训练关键词抽取分类器。当新来一篇文档时，提取出所有的候选词，然后利用训练好的关键词提取分类器，对各个候选词进行分类，最终将标签为关键词的候选词作为关键词。

详见本博客TF-IDF有关内容

详见本博客TextRank算法有关内容

详见本博客LDA主题模型有关内容

点互信息(PMI):

\[ PMI(w, c) = log\frac{P(w,c)}{P(w)P(c)} = log \frac{N(w,c)|(w,c)|}{N(w)N(c)} \]