En Data Lake er et skalerbart datalager, der er designet til at rumme enorme mængder data i deres oprindelige format – uanset om de er struktureret, semi-struktureret eller ustruktureret. I modsætning til et traditionelt data warehouse, hvor data transformeres og struktureres før lagring, accepterer en Data Lake rå data og udskyder strukturering til det tidspunkt, hvor data skal analyseres. Dette princip kaldes schema-on-read og giver enorm fleksibilitet i moderne dataarkitektur. Data Lakes bruges typisk til at samle data fra mange forskellige kilder: transaktionssystemer, IoT-sensorer, sociale medier, logfiler, billeder, video og meget mere. Teknologien bag en Data Lake er ofte cloudbaseret – platforme som AWS S3, Azure Data Lake Storage og Google Cloud Storage er populære valg. En velimplementeret Data Lake er grundlaget for avanceret dataanalyse, business intelligence og især AI-løsninger. Maskinlæringsmodeller har brug for store mængder data for at træne effektivt, og Data Lakes gør det muligt at samle alle virksomhedens data ét sted – klar til brug i modeltræning, realtidsanalyse og datadrevne AI-applikationer.