kurz erklärt

Synthetic Data

Künstlich generierte Daten, die reale Datensätze imitieren — ermöglichen KI-Training ohne Datenschutzrisiken und lösen das Problem fehlender Trainingsdaten.

Synthetic Data sind maschinell erzeugte Datensätze, die statistische Eigenschaften realer Daten nachahmen, ohne echte Personen, Transaktionen oder Ereignisse abzubilden. Sie entstehen durch generative Modelle, Simulationen oder regelbasierte Algorithmen. Das Ergebnis: Trainingsdaten für KI-Modelle, die datenschutzrechtlich unbedenklich sind, in beliebiger Menge produziert werden können und auch seltene Randfälle abdecken — die im realen Datensatz kaum vorkommen.

In der Praxis lösen synthetische Daten drei häufige Engpässe: zu wenig Trainingsdaten, zu sensible Daten (Patientenakten, Finanztransaktionen) und zu wenig Diversität in vorhandenen Datensätzen. Autonomes Fahren nutzt synthetische Fahrsimulationsdaten, Medizin-KI trainiert auf synthetischen Patientendaten, Banken testen Fraud-Detection-Modelle mit synthetischen Transaktionsdaten. Die Qualität synthetischer Daten hängt dabei stark von der Güte der Generierungsmodelle ab.

Für offene Innovationsökosysteme sind synthetische Daten ein Game-Changer: Sie ermöglichen es, KI-Datensätze zu teilen, ohne echte Nutzerdaten preiszugeben. Externe Entwickler, Start-ups und Forschungsinstitute können damit gleichwertige Trainingsdaten erhalten — ohne Datenschutzverträge, die Kooperationen verlangsamen. Synthetic Data demokratisiert damit den Zugang zu KI-Entwicklungsressourcen erheblich.

Synthetic Data ist eng mit Deep Learning verknüpft — Generative Adversarial Networks (GANs) und Diffusionsmodelle sind die zentralen Techniken zur Datengenerierung. Machine Learning profitiert direkt: bessere Datenbasis, weniger Overfitting. Data Science braucht Methoden, um synthetische und reale Daten zu kombinieren. Der EU AI Act fordert Dokumentation von Trainingsdaten — synthetische Daten müssen dabei besonders sorgfältig ausgewiesen werden.


Machine Learning · Deep Learning · EU AI Act · Artificial Intelligence (AI)