Pomiń nawigację

14 października 2025 r.

Czym są i do czego wykorzystuje się dane syntetyczne?

Dane syntetyczne mogą być wykorzystywane w bardzo różnych zastosowaniach – od testowania aplikacji, przez tworzenie modeli AI, aż do użycia w cyfrowych bliźniakach. Choć dokładna liczba nie jest znana, niektóre badania sugerują, że obecnie ponad 60% danych wykorzystywanych w tworzeniu rozwiązań sztucznej inteligencji to dane syntetyczne. Według niektórych prognoz poziom wykorzystania tego typu danych ma ciągle wzrastać.

Czym jednak są dane syntetyczne? Tego typu dane są generowane przez modele i algorytmy na podstawie danych rzeczywistych. Mają one za zadanie jak najwierniejsze odwzorowanie właściwości, złożoności i zależności obserwowanych w oryginalnych danych na podstawie których zostały wygenerowane.

Dane syntetyczne klasyfikowane są według rodzaju danych oryginalnych na bazie których powstały. Pierwszy typ wykorzystuje rzeczywiste zbiory danych, drugi wiedzę zgromadzoną przez analityków, a ostatni typ wykorzystuje oba rodzaje danych źródłowych.

Dane syntetyczne nie są jednak dokładną kopią, ale odzwierciedleniem rzeczywistych danych. Oznacza to, że poddane analizie statystycznej dane syntetyczne i dane oryginalne powinny wykazywać bardzo podobne wyniki.

Należy jednak pamiętać, że wykorzystanie danych syntetycznych ma zarówno zalety, jak i wady. Dlatego też ich wykorzystanie wymaga mechanizmów ewaluacji, planowania i kontroli bezpieczeństwa.

Do zalet związanych z wykorzystaniem tego rodzaju danych zalicza się m.in.:

  • Ograniczanie ryzyka naruszenia prywatności związanego z wykorzystaniem danych – ponieważ dane syntetyczne nie zawierają oryginalnych informacji i danych personalnych, ich wykorzystanie zmniejsza ryzyko naruszenia prywatności. Daje to możliwość szerszego korzystania z danych i ogranicza ryzyko związane z potencjalnym naruszeniem przepisów prawnych.
  • Prowadzenie testów wydajności – dane syntetyczne odzwierciedlające konkretne zachowania czy sytuacje mogą być wykorzystywane w testowaniu nowych aplikacji czy narzędzi przez ich wdrożeniem – np. wygenerowanie dużej liczby transakcji finansowych pozwala na sprawdzenie zdolności systemu płatności do radzenia sobie z dużym obciążeniem.
  • Uzupełnianie zbiorów danych oryginalnych – ponieważ sporadycznie występujące nietypowe zjawiska (np. oszustwa finansowe) mogą nie generować wystarczająco dużego zbioru oryginalnych danych źródłowych pozwalającego na ich wykorzystanie w procesie uczenia modeli AI, dane syntetyczne pozwalają na uzupełnienie i rozszerzenie zakresu danych. Dzięki temu modele sztucznej inteligencji mogą uczyć się na wystarczająco dużych zbiorach danych, co znacząco wpływa na poprawę ich zdolności do wykrywania nietypowych zdarzeń. Co za tym idzie wykorzystanie takich modeli AI może pozwolić firmom na lepsze przygotowanie się na rzadkie zdarzenia, które w innych przypadkach mogły by zostać przeoczone.
  • Obniżenie kosztów i skrócenie czasu potrzebnego na zbieranie danych – uzupełnianie zbiorów danych oryginalnych przez wygenerowane dane może pozwolić na oszczędność czasu i pieniędzy, np. poprzez zmniejszenie liczby przeprowadzonych ankiet.
  • Wykorzystanie w cyfrowych bliźniakach – użycie danych syntetycznych pozwala na symulację zróżnicowanych scenariuszy, pozwalających na testowanie różnych możliwych przypadków i interakcji np. pomiędzy pracownikami i systemami. Pozwala to na opracowywanie, testowanie i doskonalenie m.in. protokołów bezpieczeństwa przed wprowadzeniem ich w życie.

Choć dane syntetyczne mają oczywiste zalety, należy pamiętać o tym, że nie są one pozbawione wad, takich jak np.

  • Konieczność dokładnej ewaluacji wygenerowanych danych syntetycznych – choć istnieją metody pozwalające na ocenę jakości czy poziomu dokładności, z jaką dane syntetyczne odzwierciedlają dane oryginalne, nie da się całkowicie wyeliminować ryzyka, że wyniki uzyskane na podstawie wygenerowanych danych będą prowadzić do błędnych wniosków. Wymaga to dokładnej kontroli w każdym przypadku użycia tego typu danych.
  • Potencjalna tendencyjność (ang. bias) – ponieważ dane syntetyczne generowane są na podstawie niewielkich próbek oryginalnych danych, obecna w nich tendencyjność może zostać przeniesiona do nowych zbiorów danych syntetycznych. Usunięcie potencjalnej stronniczości wymaga odpowiedniego planowania i użycia technik pozwalających na tworzenie odpowiednio skalibrowanych, bardziej sprawiedliwych zbiorów danych.
  • Konieczność pozyskania danych oryginalnych odpowiedniej jakości – jakość danych syntetycznych zależy od jakości danych oryginalnych oraz od algorytmów wykorzystanych do ich wygenerowania. Należy pamiętać, że wygenerowane dane mogą odzwierciedlać tendencyjność oraz braki w danych oryginalnych. Może to prowadzić do uzyskania danych, które nie będą prawidłowo odzwierciedlać rzeczywistości, ale prowadzić do fałszywych wyników i wniosków.

Choć temat generowania i korzystania z danych syntetycznych jest złożony, jest on warty poznania. Użycie tego typu danych może przynieść firmom wymierne korzyści w postaci oszczędności czasu, obniżeniu kosztów zbierania danych oraz tworzenia lepszych rozwiązań i narzędzi, w tym tych opartych na AI. Pozwalają one także na optymalizację działań i poprawę bezpieczeństwa np. poprzez zmniejszone ryzyko naruszenia prywatności.

Źródła:

https://news.mit.edu/2025/3-questions-pros-cons-synthetic-data-ai-kalyan-veeramachaneni-0903

https://mitsmr.pl/innowacja/chcesz-przyspieszyc-innowacje-i-zminimalizowac-ryzyko-zainwestuj-w-dane-syntetyczne/

https://www.edps.europa.eu/press-publications/publications/techsonar/synthetic-data_en

Może Cię zainteresować

Opublikowano: 14.10.2025 18:42
Poprawiono: 13.10.2025 16:45
Modyfikujący: sebastian_lodzinski
Udostępniający: sebastian_lodzinski
Autor dokumentów: