在常见的文本处理技术中,文本特征选取和表示是什么?都有哪些方法?

分类: 亚洲版365betasia 时间: 2025-08-09 14:03:07 作者: admin 观测: 435
在常见的文本处理技术中,文本特征选取和表示是什么?都有哪些方法?

文本特征提取&表示

概念:文本的特征表示是文本分析的基本问题,将文本中抽取出的特征词进行向量化表示,将非结构化的文本转化为结构化的计算机可以识别处理的信息,然后才可以建立文本的数学模型,从而实现对文本的计算、识别、分类等操作。

简单说,就是把文本中抽取出的「特征词」进行向量化表示。

也就是,把非结构化的文本转化为结构化的数据。然后,才可以建立文本的数学模型。

通常采用的是:向量空间模型来描述文本向量,然后,找出最具代表性的文本特征,相关的方法:TF-IDF、信息增益(Information Gain)和互信息(MI)等。

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF:是一种文本统计的方法。

目的:评估文本中一个词,对语料库中的一篇文档的重要程度。

TF-IDF分成两个部分

1. Term Frequency(词频)

某一个给定的词语,在文件中出现的频率。

假设,文档集合中共有10篇文章,词:''国家'',在文档1中出现了6次,那么对于文档1而言,'国家'这个词的tf值为6。

2. Inverse Document Frequency(逆文档频率)

他的意思就是:例如,某个词,在当前这篇文章中出现的词频较高,但是在其他文章中很少出现,那么,认为这个词更能代表本篇文章的内容,所以,适合作为当前文章的特征词。

或者用英文的例子,比如:几乎所有文本都会出现的"to",词频虽然高,但是重要性却比那些词频低的"China"和“Travel”要低。

IDF:用来反应词的重要性的。

总的来说: IDF反应了一个词在「所有」文本中出现的频率。如果一个词在很多的文本中出现,那么它的IDF值应该低,比如上文中的“to”。反过来,如果一个词在比较少的文本中出现,那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。还有一个极端的情况,如果一个词在所有的文本中都出现,那么它的IDF值应该为0。

例子:

用的方法:CountVectorizer + TfidfTransformer的组合。

总结

使用了IF-IDF标准化以后,就可以使用各个文本的「词特征向量」作为文本的特征,进行分类或者聚类分析。

当然TF-IDF不光可以用于文本挖掘,在信息检索等很多领域都有使用。

信息增益

信息增益:考虑某一特征项,在文本中出现前后的信息熵之差。

在信息增益中,重要性的衡量标准就是:看特征能够为分类系统,带来多少信息,带来的信息越多,该特征越重要。

信息增益和信息熵和条件熵有关。

信息熵:衡量信息量的多少。

← Mac电脑设置hosts的方法(图文步骤) 怎么查qq绑定的手机号 →

相关时空节点

2022卡塔尔世界杯分组抽签仪式 完整录像回放

2022卡塔尔世界杯分组抽签仪式 完整录像回放

07-01 💫 722
剑灵黑风魂是什么东西

剑灵黑风魂是什么东西

07-05 💫 717
普通人攒够20万要多久?现实扎心了...

普通人攒够20万要多久?现实扎心了...

07-23 💫 991