One-hot与Word2Vec

2023-03-02 12:02:02Python08

One-hot与Word2Vec,第1张

one-hot是文本向量化最常用的方法之一。

1.1 one-hot编码

什么是one-hot编码？one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有四个样本（行），每个样本有三个特征（列），如图：

上图中我们已经对每个特征进行了普通的数字编码：我们的feature_1有两种可能的取值，比如是男/女，这里男用1表示，女用2表示。那么one-hot编码是怎么搞的呢？我们再拿feature_2来说明：

这里feature_2 有4种取值（状态），我们就用4个状态位来表示这个特征，one-hot编码就是保证每个样本中的单个特征只有1位处于状态1，其他的都是0。

对于2种状态、三种状态、甚至更多状态都是这样表示，所以我们可以得到这些样本特征的新表示：

one-hot编码将每个状态位都看成一个特征。对于前两个样本我们可以得到它的特征向量分别为

1.2 one-hot在提取文本特征上的应用

one hot在特征提取上属于词袋模型（bag of words）。关于如何使用one-hot抽取文本特征向量我们通过以下例子来说明。假设我们的语料库中有三段话：

我爱中国

爸爸妈妈爱我

爸爸妈妈爱中国

我们首先对预料库分离并获取其中所有的词，然后对每个此进行编号：

1 我； 2 爱； 3 爸爸； 4 妈妈；5 中国

然后使用one hot对每段话提取特征向量：

；

此我们得到了最终的特征向量为

我爱中国　->　1，1，0，0，1

爸爸妈妈爱我->1，1，1，1，0

爸爸妈妈爱中国->0，1，1，1，1

优缺点分析

优点：一是解决了分类器不好处理离散数据的问题，二是在一定程度上也起到了扩充特征的作用（上面样本特征数从3扩展到了9）

缺点：在文本特征表示上有些缺点就非常突出了。首先，它是一个词袋模型，不考虑词与词之间的顺序（文本中词的顺序信息也是很重要的）；其次，它假设词与词相互独立（在大多数情况下，词与词是相互影响的）；最后，它得到的特征是离散稀疏的。

sklearn实现one hot encode

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder() # 创建对象enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]]) # 拟合array = enc.transform([[0,1,3]]).toarray() # 转化print(array)

word2vec得到词向量

word2vec是如何得到词向量的？这个问题比较大。从头开始讲的话，首先有了文本语料库，你需要对语料库进行预处理，这个处理流程与你的语料库种类以及个人目的有关，比如，如果是英文语料库你可能需要大小写转换检查拼写错误等操作，如果是中文日语语料库你需要增加分词处理。这个过程其他的答案已经梳理过了不再赘述。得到你想要的processed corpus之后，将他们的one-hot向量作为word2vec的输入，通过word2vec训练低维词向量（word embedding）就ok了。不得不说word2vec是个很棒的工具，目前有两种训练模型（CBOW和Skip-gram），两种加速算法（Negative Sample与Hierarchical Softmax）。于是我主要理解word2vec如何将corpus的one-hot向量（模型的输入）转换成低维词向量（模型的中间产物，更具体来说是输入权重矩阵），真真切切感受到向量的变化，不涉及加速算法。

1 Word2Vec两种模型的大致印象

刚才也提到了，Word2Vec包含了两种词训练模型：CBOW模型和Skip-gram模型。

CBOW模型根据中心词W(t)周围的词来预测中心词

Skip-gram模型则根据中心词W(t)来预测周围词

抛开两个模型的优缺点不说，它们的结构仅仅是输入层和输出层不同。请看：

CBOW模型

Skip-gram模型

这两张结构图其实是被简化了的，读者只需要对两个模型的区别有个大致的判断和认知就ok了。接下来我们具体分析一下CBOW模型的构造，以及词向量是如何产生的。理解了CBOW模型，Skip-gram模型也就不在话下啦。

2 CBOW模型的理解

其实数学基础及英文好的同学可以参照斯坦福大学Deep Learning for NLP课堂笔记。

当然，懒省事儿的童鞋们就跟随我的脚步慢慢来吧。

先来看着这个结构图，用自然语言描述一下CBOW模型的流程：

CBOW模型结构图

（花括号内{}为解释内容.）

输入层：上下文单词的onehot. {假设单词向量空间dim为V，上下文单词个数为C}

所有onehot分别乘以共享的输入权重矩阵W. {V*N矩阵，N为自己设定的数，初始化权重矩阵W}

所得的向量 {因为是onehot所以为向量} 相加求平均作为隐层向量, size为1*N.

乘以输出权重矩阵W’ {N*V}

得到向量 {1*V} 激活函数处理得到V-dim概率分布 {PS: 因为是onehot嘛，其中的每一维斗代表着一个单词}，概率最大的index所指示的单词为预测出的中间词（target word）

与true label的onehot做比较，误差越小越好

所以，需要定义loss function（一般为交叉熵代价函数），采用梯度下降算法更新W和W’。训练完毕后，输入层的每个单词与矩阵W相乘得到的向量的就是我们想要的词向量（word embedding），这个矩阵（所有单词的word embedding）也叫做look up table（其实聪明的你已经看出来了，其实这个look up table就是矩阵W自身），也就是说，任何一个单词的onehot乘以这个矩阵都将得到自己的词向量。有了look up table就可以免去训练过程直接查表得到单词的词向量了。

这回就能解释题主的疑问了！如果还是觉得我木有说明白，别着急！跟我来随着栗子走一趟CBOW模型的流程！

3 CBOW模型流程举例

假设我们现在的Corpus是这一个简单的只有四个单词的document：

{I drink coffee everyday}

我们选coffee作为中心词，window size设为2

也就是说，我们要根据单词”I”,”drink”和”everyday”来预测一个单词，并且我们希望这个单词是coffee。

假设我们此时得到的概率分布已经达到了设定的迭代次数，那么现在我们训练出来的look up table应该为矩阵W。即，任何一个单词的one-hot表示乘以这个矩阵都将得到自己的word embedding。

在我的新闻分类中由于使用的是自带的60000多词训练出的embedding层而有9000多个词并不在里面所以效果没有达到最佳，值得改进

将离散型特征使用one-hot编码，确实会让特征之间的距离计算更加合理。比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。

one-hot 和 TF-IDF 是提取文本特征的最为常见的方法，下文主要介绍它们主要的思想以及优缺点。

1.1 one-hot编码

one-hot 编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有三个样本（行），每个样本有三个特征（列）：

上表中我们已经对每个特征进行了普通的数字编码：我们的feature_1有两种可能的取值，比如是男/女，这里男用0表示，女用1表示。那么one-hot编码是怎么搞的呢？

我们再拿feature_2来说明：这里feature_2 有4种取值（状态），我们就用4个状态位来表示这个特征，one-hot编码就是保证每个样本中的单个特征只有1位处于状态1，其他的都是0。

对于两种状态、三种状态、甚至更多状态都是这样表示，所以我们可以得到这些样本特征的新表示：

one-hot 编码将每个状态位都看成一个特征。于是我们可以得到它们的特征向量分别为:

1.2 one-hot在提取文本特征上的应用

one-hot 在特征提取上属于词袋模型（bag of words）。关于如何使用 one-hot 抽取文本特征向量我们通过以下例子来说明。假设我们的语料库中有三段话：

我爱中国

爸爸妈妈爱我

爸爸妈妈爱中国

我们首先对语料库分离并获取其中所有的词，然后对每个此进行编号：

1 我； 2 爱； 3 爸爸； 4 妈妈；5 中国

然后使用 one-hot 对每段话提取特征向量：

因此我们得到了最终的特征向量为

优缺点分析：

优点：

缺点：

sklearn实现one hot encode

注意： 假如要进行编码的数据没有出现在对应列中将会出现错误

IF-IDF 是信息检索（IR）中最常用的一种文本表示法。算法的思想很简单，就是统计每个词出现的词频（TF），然后再为其附上一个权值参数（IDF）。举个例子：

现在假设我们要统计一篇文档中的前10个关键词，应该怎么下手？首先想到的是统计一下文档中每个词出现的频率（TF），词频越高，这个词就越重要。但是统计完你可能会发现你得到的关键词基本都是“的”、“是”、“为”这样没有实际意义的词（停用词），这个问题怎么解决呢？你可能会想到为每个词都加一个权重，像这种”停用词“就加一个很小的权重（甚至是置为0），这个权重就是IDF。下面再来看看公式：

优缺点分析

优点：简单快速，结果比较符合实际

缺点：单纯考虑词频，忽略了词与词的位置信息以及词与词之间的相互关系。

sklearn 实现 tfidf

向量特征模型状态语料库

# 上一篇：电竞桌什么牌子的比较好？

# 下一篇：如何快速学会看CAD的图纸？