对大量类(例如10k)使用softmax是否有任何概念问题或数值稳定性问题?
Softmax本身不会出现任何问题。但是由于网络的L2范数误差,如果你真的有一个10k类要分类,那么权重上的一小部分数值将导致最新层输出的巨大差异。