跳转至

Reddit readlist

[toc]

softmax

[D] 我讨厌 softmax : r/MachineLearning --- [D] I hate softmax : r/MachineLearning

对softmax的一些疑惑

  1. 输出特性:softmax的输出总和为1,且较大的输出相对于较小的输出会被放大,这可能导致某些元素无法获得零输出,从而影响注意力分配。
  2. 大小与比例:在许多应用中,输入的大小和比例是有意义的,但softmax只关注输入之间的差异,这让作者感到困惑。例如,softmax对不同范围的输入(如[0.1, 0.9]与[1000.1, 1000.9])的处理方式使得它们的结果难以比较。
  3. 数值不稳定性和梯度问题:作者提到softmax可能导致数值不稳定、奇怪的梯度以及嵌入规范等问题。