Transformer dropout #544

msperber · 2018-11-14T10:53:41Z

This adds missing dropout operations in 3 places in the self-attention/transformer architecture of example 21, namely after positional encodings, residual connections, and attention matrix (see AIAYN paper). I've confirmed that this improves results when setting these to a conservative value (e.g. 0.1).

msperber added 2 commits November 14, 2018 11:41

positional and residual dropout

cbf1f72

attention dropout

b44e74a

neubig merged commit 3977c4b into master Nov 14, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Transformer dropout #544

Transformer dropout #544

msperber commented Nov 14, 2018

Transformer dropout #544

Transformer dropout #544

Conversation

msperber commented Nov 14, 2018