代码之家 › 专栏 › 技术社区 › alliedtoasters

在MLSTM概念斗争中嵌入字节

pytorch lstm deep-learning machine-learning python

alliedtoasters · 技术社区 · 7 年前

我正试图跟随 OpenAI "Sentiment Neuron" experiment 通过阅读 PyTorch code posted on Github 从零开始训练模型。

我不理解的一件事是代码中使用的字节级嵌入。我知道lstm为下一个字节的值输出一个概率分布,我假设“嵌入”只是对字节值的一个热编码。

查看代码,我发现在进入模型之前,模型的输入经历了(可训练的)密集嵌入。令人困惑的是,损失的输出是在模型输出和即将到来的字节值之间计算的,即不嵌入的。

我的问题是:
1。如何计算交叉熵损失?n.crossEntropyLoss是否接受其输入的SoftMax并将目标扩展为“引擎盖下”的一个热向量?

2。如果我们想从这个lstm生成字节字符串,我们如何嵌入输出以反馈到模型中,以便进行下一步?我们是嵌入最大的可能性,还是采用输出的SoftMax并使用某种加权嵌入?

我是新来的LSTM,我正在努力学习,但我就是不明白!谢谢你的帮助!

1 回复 | 直到 7 年前

Davis Yoshida 7 年前

即使相同的符号被用于输入和输出,在每一端使用不同的表示也是完全可以接受的。交叉熵是两个概率分布的函数。在这种情况下,这两个分布是模型给出的SoftMax分布,以及“正确”字节上的点质量。

对于问题1,是的,这就是在输入和输出方面正在做的事情(尽管实现可能会被优化)。

要回答问题2,最常见的是在每个步骤形成SoftMax分布,然后从中进行采样。

推荐文章

Ze0ruso · 做模型。eval()在代码中的位置有什么关系?

2 年前

rkraaijveld · sklearn的Coef。线性回归为无

3 年前

Ellis Thompson · 填充一个numpym数组以满足所需的大小

3 年前

Adam · 如何在多个模型上并行运行PyTorch推理?

3 年前

quinlan · 是dgl。nn。皮托克。GraphConv聚合边缘信息?

3 年前

Ofek Nourian · 完全连通的简单自回归模型预测

3 年前

MrThiele1708 · 运行时错误:mat1和mat2形状不能相乘(5400x64和5400x64)

3 年前

Moodhi · 计算GEC的F分数

3 年前

john wang · matlab使用可调用的python函数,但需要输入

3 年前

odbhut.shei.chhele · 如何解决错误:RuntimeError:收到0项ancdata

3 年前