Extended Data Fig. 11: Performance of transformers with interleaved MLP with varying architecture sizes. | Nature Human Behaviour

Extended Data Fig. 11: Performance of transformers with interleaved MLP with varying architecture sizes.

Search