所以是在求预测概率和实际概率的距离,而不是实际数值的距离
在多分类任务中,经常采用 softmax 激活函数+交叉熵损失函数,因为交叉熵描述了两个概率分布的差异,然而神经网络输出的是向量,并不是概率分布的形式。所以需要 softmax激活函数将一个向量进行“归一化”成概率分布的形式,再采用交叉熵损失函数计算 loss。
好像明白了,softmax函数将神经网络的输出值转换为概率,在交叉熵的公式中, 真实值one-hot编码,使得只有正确的项不为0,这样用来计算的就只是预测值的概率和one-hot中的1。
@一万亿颗星: 嗯嗯,就是这样
所以是在求预测概率和实际概率的距离,而不是实际数值的距离
– ∮坦荡dS 2年前