在常见的文本处理技术中，文本特征选取和表示是什么？都有哪些方法？

文本特征提取&表示

概念：文本的特征表示是文本分析的基本问题，将文本中抽取出的特征词进行向量化表示，将非结构化的文本转化为结构化的计算机可以识别处理的信息，然后才可以建立文本的数学模型，从而实现对文本的计算、识别、分类等操作。

简单说，就是把文本中抽取出的「特征词」进行向量化表示。

也就是，把非结构化的文本转化为结构化的数据。然后，才可以建立文本的数学模型。

通常采用的是：向量空间模型来描述文本向量，然后，找出最具代表性的文本特征，相关的方法：TF-IDF、信息增益(Information Gain)和互信息(MI)等。

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF：是一种文本统计的方法。

目的：评估文本中一个词，对语料库中的一篇文档的重要程度。

TF-IDF分成两个部分

1. Term Frequency（词频）

某一个给定的词语，在文件中出现的频率。

假设，文档集合中共有10篇文章，词：''国家''，在文档1中出现了6次，那么对于文档1而言，'国家'这个词的tf值为6。

2. Inverse Document Frequency（逆文档频率）

他的意思就是：例如，某个词，在当前这篇文章中出现的词频较高，但是在其他文章中很少出现，那么，认为这个词更能代表本篇文章的内容，所以，适合作为当前文章的特征词。

或者用英文的例子，比如：几乎所有文本都会出现的"to"，词频虽然高，但是重要性却比那些词频低的"China"和“Travel”要低。

IDF：用来反应词的重要性的。

总的来说： IDF反应了一个词在「所有」文本中出现的频率。如果一个词在很多的文本中出现，那么它的IDF值应该低，比如上文中的“to”。反过来，如果一个词在比较少的文本中出现，那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。还有一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。

例子：

用的方法：CountVectorizer + TfidfTransformer的组合。

总结

使用了IF-IDF标准化以后，就可以使用各个文本的「词特征向量」作为文本的特征，进行分类或者聚类分析。

当然TF-IDF不光可以用于文本挖掘，在信息检索等很多领域都有使用。

信息增益

信息增益：考虑某一特征项，在文本中出现前后的信息熵之差。

在信息增益中，重要性的衡量标准就是：看特征能够为分类系统，带来多少信息，带来的信息越多，该特征越重要。

信息增益和信息熵和条件熵有关。

信息熵：衡量信息量的多少。

在常见的文本处理技术中，文本特征选取和表示是什么？都有哪些方法？

相关时空节点

2022卡塔尔世界杯分组抽签仪式完整录像回放

剑灵黑风魂是什么东西

普通人攒够20万要多久？现实扎心了...

在常见的文本处理技术中，文本特征选取和表示是什么？都有哪些方法？

相关时空节点

2022卡塔尔世界杯分组抽签仪式 完整录像回放

剑灵黑风魂是什么东西

普通人攒够20万要多久？现实扎心了...

2022卡塔尔世界杯分组抽签仪式完整录像回放