I adversarial training genereres først et sæt adversarial examples ved hjælp af angrebsalgoritmer som FGSM (Fast Gradient Sign Method) eller PGD (Projected Gradient Descent). Disse eksempler tilføjes til træningsdatasættet, og modellen trænes på den udvidede datamængde. Processen gentages iterativt, så modellen løbende udfordres med nye og mere sofistikerede manipulationer. Der skelnes typisk mellem hvid-boks-angreb, hvor angriberen har fuld viden om modellen, og sort-boks-angreb, hvor kun input og output er kendt. Adversarial training styrker modellen mod begge typer, men kræver mere beregningstid og datamængde end traditionel træning. En udfordring ved metoden er, at en model, der er robust over for ét angrebsmønster, ikke nødvendigvis er det over for et andet. Derfor kombineres adversarial training ofte med andre robusthedsstrategier som dataaugmentering, ensemble-metoder og regularisering. Resultatet er AI-systemer der holder sig stabile og pålidelige, også når de møder fjendtlige eller uventede inputs i virkeligheden.