Transformerens kerne er “self-attention”-mekanismen, der lader modellen fokusere på de mest relevante dele af inputtet, uanset afstand i teksten. Når modellen læser “banken ved floden”, forstår attention at “banken” refererer til en flodbred og ikke en finansiel institution. Denne evne til at behandle hele sekvenser parallelt gjorde transformere langt hurtigere end tidligere arkitekturer.