Reddit readlist
[toc]
softmax
[D] 我讨厌 softmax : r/MachineLearning --- [D] I hate softmax : r/MachineLearning
对softmax的一些疑惑
- 输出特性:softmax的输出总和为1,且较大的输出相对于较小的输出会被放大,这可能导致某些元素无法获得零输出,从而影响注意力分配。
- 大小与比例:在许多应用中,输入的大小和比例是有意义的,但softmax只关注输入之间的差异,这让作者感到困惑。例如,softmax对不同范围的输入(如[0.1, 0.9]与[1000.1, 1000.9])的处理方式使得它们的结果难以比较。
- 数值不稳定性和梯度问题:作者提到softmax可能导致数值不稳定、奇怪的梯度以及嵌入规范等问题。