文本特征提取&表示
概念:文本的特征表示是文本分析的基本问题,将文本中抽取出的特征词进行向量化表示,将非结构化的文本转化为结构化的计算机可以识别处理的信息,然后才可以建立文本的数学模型,从而实现对文本的计算、识别、分类等操作。
简单说,就是把文本中抽取出的「特征词」进行向量化表示。
也就是,把非结构化的文本转化为结构化的数据。然后,才可以建立文本的数学模型。
通常采用的是:向量空间模型来描述文本向量,然后,找出最具代表性的文本特征,相关的方法:TF-IDF、信息增益(Information Gain)和互信息(MI)等。
TF-IDF (Term Frequency-Inverse Document Frequency)
TF-IDF:是一种文本统计的方法。
目的:评估文本中一个词,对语料库中的一篇文档的重要程度。
TF-IDF分成两个部分
1. Term Frequency(词频)
某一个给定的词语,在文件中出现的频率。
假设,文档集合中共有10篇文章,词:''国家'',在文档1中出现了6次,那么对于文档1而言,'国家'这个词的tf值为6。
2. Inverse Document Frequency(逆文档频率)
他的意思就是:例如,某个词,在当前这篇文章中出现的词频较高,但是在其他文章中很少出现,那么,认为这个词更能代表本篇文章的内容,所以,适合作为当前文章的特征词。
或者用英文的例子,比如:几乎所有文本都会出现的"to",词频虽然高,但是重要性却比那些词频低的"China"和“Travel”要低。
IDF:用来反应词的重要性的。
总的来说: IDF反应了一个词在「所有」文本中出现的频率。如果一个词在很多的文本中出现,那么它的IDF值应该低,比如上文中的“to”。反过来,如果一个词在比较少的文本中出现,那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。还有一个极端的情况,如果一个词在所有的文本中都出现,那么它的IDF值应该为0。
例子:
用的方法:CountVectorizer + TfidfTransformer的组合。
总结
使用了IF-IDF标准化以后,就可以使用各个文本的「词特征向量」作为文本的特征,进行分类或者聚类分析。
当然TF-IDF不光可以用于文本挖掘,在信息检索等很多领域都有使用。
信息增益
信息增益:考虑某一特征项,在文本中出现前后的信息熵之差。
在信息增益中,重要性的衡量标准就是:看特征能够为分类系统,带来多少信息,带来的信息越多,该特征越重要。
信息增益和信息熵和条件熵有关。
信息熵:衡量信息量的多少。