2 grudnia 2025
Big Data a Smart Data – jak zgodnie z prawem wykorzystać je w biznesie?
Udostępnij
Bez wątpienia współczesny świat biznesu, a przede wszystkim technologii, opiera się na danych. Przez lata uwaga skupiała się na Big Data. Obecnie jednak rośnie świadomość, że sama ilość danych nie przekłada się automatycznie na ich jakość.
Kluczowe staje się pytanie, jak przekształcić ten surowy materiał w użyteczną wiedzę. Właśnie w tym kontekście na znaczeniu zyskuje koncepcja Smart Data, tj. wyselekcjonowanego zbioru danych, który ma dostarczać konkretnych i jakościowych informacji.
Aby zrozumieć różnicę między Big Data a Smart Data, należy najpierw przyjrzeć się fundamentalnym cechom Big Data.
W miarę rozwoju technologii, pojawiały się nowe ujęcia Big Data. Na potrzeby tego artykułu przyjmiemy, że można je zdefiniować poprzez 4 podstawowe cechy:
- objętość – dane są po prostu ogromne; ich wielkość często przekracza możliwości tradycyjnych systemów do przetwarzania;
- szybkość – dane napływają w bardzo szybkim tempie, często w czasie rzeczywistym, np. z mediów społecznościowych;
- różnorodność – dane pochodzą z wielu różnych źródeł i mają różny format (mogą to być teksty, obrazy, nagrania audio, pliki wideo itd.);
- veracity (wiarygodność) – czyli pewność co do jakości i prawdziwości danych; dane napływają z wielu źródeł, często są niekompletne, nieprecyzyjne lub zniekształcone; wiele danych może być szumem informacyjnym, stąd tak istotne pozostaje zapewnienie, że dane są rzetelne i prawdziwe[1].
Z czasem jednak okazało się, że samo gromadzenie ogromnych ilości danych nie wystarczy. Właśnie dlatego coraz większe znaczenie zaczęły zyskiwać Smart Data.
Smart Data to zwykle mniejsze zbiory danych, które zostały już przetworzone, przeanalizowane i wyselekcjonowane w taki sposób, aby były bezpośrednio użyteczne i wartościowe, są też bardziej ukierunkowane. W odróżnieniu od surowego Big Data, Smart Data jest:
- wartościowe, ponieważ dostarcza konkretnych informacji, które pomagają w podejmowaniu decyzji;
- ukierunkowane, ponieważ służy do rozwiązywania konkretnych problemów biznesowych lub do osiągania konkretnych celów;
- dostępne, bo jest łatwe do zrozumienia i może być szybko wykorzystane przez użytkowników[2].
W dużym skrócie i dużym uproszczeniu, Smart Data koncentruje się na jakości, z kolei Big Data na ilości.
Big Data i Smart Data a prawa autorskie
Jak chronić bazy danych?
W Polsce mamy podwójny reżim ochronny baz danych. Z jednej strony podlegają one ochronie określonej w ustawie z dnia 27 lipca 2001 r. o ochronie baz danych (u.o.b.d.). Jest to niezależne od ochrony przyznanej na podstawie ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (u.p.a.a.p.) oraz bazom danych spełniającym cechy utworu[3].
Co zatem mówi u.p.a.a.p:
Zbiory, antologie, wybory, bazy danych spełniające cechy utworu są przedmiotem prawa autorskiego, nawet jeżeli zawierają niechronione materiały, o ile przyjęty w nich dobór, układ lub zestawienie ma twórczy charakter, bez uszczerbku dla praw do wykorzystanych utworów[4].
Kluczowe jest więc nie to, jakie dane znajdują się w bazie, ale w jaki sposób zostały one ułożone, powiązane i przedstawione. Twórczość może przejawiać się np. w przyjętym systemie klasyfikacji (założony według określonych słów) czy logice powiązań pomiędzy elementami. Czysto techniczne aspekty, takie jak np. szybkość działania, nie mają tutaj znaczenia.
W praktyce branży – zarówno Big Data, jak i Smart Data – pojedyncze dane nie podlegają ochronie prawnoautorskiej, ponieważ brakuje im twórczej ingerencji człowieka. Są to zwykle jedynie fakty i informacje, które same w sobie nie posiadają indywidualnego charakteru.
Kwestia praw autorskich komplikuje się przy całych zbiorach danych. Stąd też warto w tym miejscu przypomnieć, co w świetle naszego, polskiego prawa jest utworem:
Utworem będzie każdy przejaw działalności twórczej o indywidualnym charakterze, ustalony w jakiejkolwiek postaci, niezależnie od wartości, przeznaczenia i sposobu wyrażenia[5].
Wobec powyższego, niekiedy problematyczne może okazać się spełnienie przesłanki w postaci utrwalenia w jakiejkolwiek postaci, czyli w formie materialnej.
Utrwalenie danych oznacza bowiem, że dana informacja powinna zostać zapisana w konkretnej, namacalnej postaci. Nie ma przy tym znaczenia, jakiego nośnika użyto do zapisu. Ważne jest, żeby taki zapis był konkretny i możliwy do zidentyfikowania.
Z kolei pamiętajmy, że Smart Data i Big Data obejmują zwykle dynamiczne zbiory danych i mogą się opierać zwłaszcza na usługach przetwarzania w chmurze.
Wobec powyższego zbiór danych może być chroniony jako utwór, ale tylko wtedy, gdy jego powstanie było efektem twórczej, intelektualnej działalności człowieka i będzie możliwy do utrwalenia w materialnej postaci.
W praktyce automatycznego zbierania danych na masową skalę, proces ten jest zazwyczaj pozbawiony wyboru, układu i twórczego przedstawienia.
Automatyczne zbieranie danych to proces, w którym liczy się głównie szybkość i efektywność, a nie element twórczości. Cały mechanizm jest zautomatyzowany. Z tego względu, dane zebrane w ten sposób, zwykle jako pozbawione indywidualnego charakteru, nie będą podlegały ochronie prawnoautorskiej.
Idąc dalej i patrząc na kryterium indywidualności można zauważyć, że jest ono trudniejsze do spełnienia w przypadku elektronicznych baz danych, które są tworzone automatycznie. Dane takie są zwykle wybierane przez oprogramowanie, co za tym idzie brakuje tutaj rzeczywistego wkładu człowieka.
Ponadto, nawet jeśli dany zbiór danych zostanie uznany za utwór, ochrona obejmuje jedynie sposób jego twórczego ujęcia, a nie zawarte w nim informacje.
Dlatego ochrona prawnoautorska w przypadku Big Data pojawia się najczęściej dopiero w momencie opracowania wyników lub stworzenia twórczej formy organizacji danych.
W przypadku Smart Data sytuacja może wyglądać nieco inaczej. Tutaj istotną rolę może odgrywać człowiek, choć nie jest to regułą. To on dokonuje selekcji, interpretuje dane i nadaje im określoną formę. Dzięki temu już na etapie tworzenia np. raportu teoretycznie może powstać utwór chroniony prawem autorskim. Trzeba jednak ponownie pamiętać, że ochrona nie będzie obejmowała samych informacji, a jedynie strukturę bazy danych.
W świetle powyższego, w przypadku Big Data i Smart Data może je różnić moment, w którym ewentualnie pojawiłby się element twórczy. W Big Data może to nastąpić dopiero w fazie opracowania lub prezentacji danych, natomiast w Smart Data już na etapie selekcji, nadawania znaczenia itd. Z tego względu to właśnie Smart Data mają teoretycznie większy potencjał, by prowadzić do powstania utworu chronionego prawem autorskim. Warto jednak ponownie podkreślić, że twórcą w rozumieniu prawa autorskiego może być wyłącznie człowiek – dlatego np. automatyczne algorytmy zbierające dane same w sobie nie mogą tworzyć utworów podlegających ochronie prawnoautorskiej.
Ochrona sui generis baz danych w kontekście Big Data i Smart Data
Co w przypadku, gdy baza danych nie podlega ochronie prawnoautorskiej?
Jak już zostało wspomniane, w odniesieniu do baz danych mamy podwójny reżim ochronny. Wobec tego możemy chronić zawartość baz danych prawem sui generis (niezależna ochrona).
Żeby skorzystać z tego rodzaju prawa, twórca bazy danych musi być obywatelem lub rezydentem UE. Ponadto, należy udowodnić, że dokonaliśmy znacznych inwestycji (w postaci zasobów finansowych, materialnych i ludzkich) w celu uzyskania, weryfikacji lub przedstawienia zawartości bazy danych.
Jednocześnie kluczowe jest tutaj, aby baza była zbiorem danych zgromadzonych według konkretnej systematyki lub metodyki i żeby były one dostępne indywidualnie w jakikolwiek sposób. Nie wymaga się przy tym elementu twórczości, ale konieczne jest wykazanie, że uporządkowanie danych wiązało się z nakładem inwestycyjnym w celu sporządzenia, weryfikacji czy prezentacji zawartości. Z kolei przecież Big Data czy Smart Data nie są tworzone w celu weryfikacji czy prezentacji danych. Jak również nie zawsze będą tworzone w celu ich sporządzenia. Mogą bowiem składać się albo z danych już istniejących albo z danych stworzonych na potrzeby samego powstania bazy danych. Trybunał Sprawiedliwości UE wskazał, że z ochrony mogą skorzystać tylko takie bazy danych, które zawierają już istniejące dane. Dlaczego? Ponieważ, jeżeli mamy bazę danych, której elementy zostały stworzone od podstaw, nakłady poczynione na ich stworzenie nie są inwestycją[6].
W praktyce oznacza to, że wiele baz opartych na Big Data lub Smart Data może być pozbawionych ochrony, jeśli stanowią jedynie surowy zbiór automatycznie gromadzonych informacji.
Big Data i Smart Data a tajemnica przedsiębiorstwa
Można także rozważyć, czy Big Data lub Smart Data mogłyby zostać objęte tajemnicą przedsiębiorstwa.
Należy przy tym pamiętać, że z omawianej ochrony mogą skorzystać wyłącznie przedsiębiorcy.
Odnosząc się do pojęcia tajemnicy przedsiębiorstwa należy przyjrzeć się definicji z ustawy z dnia 16 kwietnia 1993 r. o zwalczaniu nieuczciwej konkurencji, zgodnie z którą:
Przez tajemnicę przedsiębiorstwa rozumie się informacje techniczne, technologiczne, organizacyjne przedsiębiorstwa lub inne informacje posiadające wartość gospodarczą, które jako całość lub w szczególnym zestawieniu i zbiorze ich elementów nie są powszechnie znane osobom zwykle zajmującym się tym rodzajem informacji albo nie są łatwo dostępne dla takich osób, o ile uprawniony do korzystania z informacji lub rozporządzania nimi podjął, przy zachowaniu należytej staranności, działania w celu utrzymania ich w poufności[7].
Aby informacje mogły zostać uznane za tajemnicę przedsiębiorstwa, muszą spełniać trzy podstawowe warunki:
- posiadać wartość gospodarczą, czyli ich wykorzystanie przynosi przewagę konkurencyjną lub inne korzyści biznesowe,
- mieć charakter poufny, a więc nie być powszechnie znane ani łatwo dostępne w danej branży,
- być chronione poprzez podjęcie odpowiednich działań przez uprawnionego, np. stosowanie procedur bezpieczeństwa czy wprowadzanie klauzul poufności.
Nie każdy zbiór Big Data będzie spełniał powyższe kryteria. Często dane gromadzone masowo mają charakter ogólnodostępny, np. statystyki ruchu drogowego. Trudno więc mówić o ich poufności. Ponadto, nie zawsze posiadają one bezpośrednią wartość gospodarczą, dopóki nie zostaną odpowiednio opracowane i zinterpretowane. W takich sytuacjach ochrona w reżimie tajemnicy przedsiębiorstwa w ogóle nie wchodzi w grę.
Inaczej wygląda sytuacja w przypadku Smart Data. Dane przetworzone, posegregowane, mogą teoretycznie stanowić istotne know-how przedsiębiorstwa.
Ponadto z pewnością pojawiają się wątpliwości, czy w ogóle dane (zwłaszcza w postaci masowych i nieprzetworzonych Big Data) mogłyby zostać objęte reżimem takiej ochrony. Abstrahując już od tego, czy „dane” mieszczą się w definicji „informacji”, o których mowa w przywołanym artykule dotyczącym tajemnicy przedsiębiorstwa to należy zwrócić uwagę na to, że:
- duże zbiory danych bardzo często są tworzone z materiałów powszechnie dostępnych (open data, dane publiczne, dane pozyskiwane automatycznie z otoczenia, np. sensory pogodowe), a skoro dane są dostępne dla każdego, to nie sposób mówić o spełnieniu przesłanki poufności,
- same zbiory takich danych niekoniecznie mają wartość rynkową.
W nawiązaniu do powyższego, ochrona wydaje się bardziej prawdopodobna w przypadku Smart Data niż Big Data.
Przetwarzanie danych osobowych w projektach AI: od Big Data po Smart Data
W zależności od tego skąd zostały pozyskane, czy też jakiemu celowi mają służyć, informacje zawarte w Big Data mogą stanowić dane osobowe, czyli informacje, które samodzielnie lub w połączeniu z innymi mogą pozwolić na identyfikację konkretnej osoby fizycznej. W takim przypadku, aby działać zgodnie z prawem, konieczne jest stosowanie się do przepisów Ogólnego Rozporządzenia o Ochronie Danych („RODO”)[8]. Chodzi zarówno o te, które odnoszą się do podstaw prawnych przetwarzania danych osobowych, jak również stosowanych zabezpieczeń.
Aby przetwarzanie danych osobowych było legalne, konieczne jest istnienie jednej z przesłanek określonych w art. 6 RODO. W przypadku komercyjnego wykorzystania Big Data zawierającego dane osobowe z pewnością nie będzie można powoływać się na art. 6 ust. 1 lit. c RODO (przetwarzanie danych w celu realizacji obowiązku prawnego), art. 6 ust. 1 lit. d (przetwarzanie danych osobowych w celu ochrony żywotnych interesów podmiotu danych lub innej osoby fizycznej) czy art. 6 ust. 1 lit. e RODO (przetwarzanie danych osobowych w celu realizacji interesu publicznego lub w ramach sprawowania władzy publicznej powierzonej administratorowi).
Analogicznie, nie będzie możliwe posłużenie się najpopularniejszą przesłanką przetwarzania, tj. art. 6 ust. 1 lit. b RODO, legalizującą przetwarzanie danych w przypadku, gdy jest to konieczne do zawarcia i wykonywania umowy zawieranej z osobą fizyczną. Z istoty Big Data wynika bowiem, że jeśli baza danych zawiera dane osobowe, będzie ona obejmować rekordy dotyczące wielu osób fizycznych.
Co za tym idzie podmiotowi, który w ramach Big Data zamierza przetwarzać dane osobowe pozostają tylko dwie przesłanki legalizujące, tj.:
- 6 ust. 1 lit. a RODO, czyli zgoda osoby, której dane dotyczą;
- 6 ust. 1 lit. f RODO, czyli uzasadniony interes administratora, który musi zostać dokładnie określony i jest uzależniony od tego w jakim celu przetwarzane będą dane osobowe zawarte w ramach Big Data.
Oczywiście najbezpieczniejszym sposobem działania jest pozyskiwanie zgód od podmiotów danych. Może to następować w różny sposób, natomiast w praktyce zazwyczaj będzie to proces polegający na zaznaczeniu odpowiedniego checkboxa przez osobę, której dane osobowe mają być przetwarzane.
Należy przy tym pamiętać, że zgodnie z art. 7 RODO, aby zgoda była ważna (a więc umożliwiała na jej podstawie przetwarzanie danych osobowych) musi być ona jednoznaczna i dobrowolna. Oznacza to, że nie jest dozwolone stosowanie domyślnie zaznaczonych checkboxów lub podobnych rozwiązań, jak również, że w ramach procesu pozyskiwania zgody należy wskazać faktyczny cel przetwarzania, który ma obejmować pozyskiwana zgoda na przetwarzanie danych osobowych. Jeśli zgoda nie będzie spełniać tych wymagań, będzie ona po prostu nieważna, a więc przetwarzanie danych osobowych na jej podstawie będzie stanowić naruszenie przepisów dotyczących ochrony i przetwarzania danych osobowych.
Na marginesie należy odnieść się do praktyk biznesowych stosowanych przez niektórych dostawców systemów sztucznej inteligencji. W ostatnim czasie dostawcy systemów takich jak Claude oraz Gemini dokonali zmiany w warunkach użytkowania (czasami tylko w zakresie niektórych rodzajów zawartej umowy czy rodzaju subskrypcji). Zgodnie z ich obecną treścią zgoda na wykorzystywanie inputu wprowadzanego do systemu obejmująca trenowanie modeli jest domniemywana. Użytkownik bowiem wyraża zgodę (nawet jeśli input zawiera dane osobowe) na poziomie regulaminu, bez konieczności złożenia odrębnego oświadczenia. Oczywiście użytkownik może skorzystać z opcji opt-out dostępnej w ramach ustawień prywatności, niemniej opisany wyżej model działania należy uznać za co najmniej wątpliwy w świetle przepisów obowiązujących na obszarze Unii Europejskiej, w szczególności zaś RODO.
Częstą pokusą jest też posłużenie się jako podstawą prawną przetwarzania uzasadnionym interesem administratora. Należy jednak bardzo rozsądnie korzystać z tej możliwości i można to robić wyłącznie wtedy, gdy prawa i wolności osób, których dane dotyczą nie mają charakteru nadrzędnego względem realizowanego celu przetwarzania. W związku z tym każdorazowo konieczne jest dokonanie odpowiedniej oceny w tym zakresie, uwzględniającej ryzyka związane z przetwarzaniem danych osobowych w ramach Big Data.
Niezależnie od tego w jaki sposób i z jakiego źródła pozyskaliśmy dane osobowe zawarte w Big Data (czy to od osoby, której dane dotyczą, czy to od podmiotu trzeciego), co do zasady konieczne będzie zrealizowanie obowiązku informacyjnego względem podmiotów danych. Innymi słowy, jeśli jest to technicznie możliwe, konieczne jest przedstawienie każdej osobie wyczerpujących informacji, o których mowa, w zależności od sytuacji, art. 13 lub art. 14 RODO.
Odnosząc się do kwestii danych osobowych w kontekście Smart Data wskazać należy, że obecnie, o ile to tylko możliwe w ramach przekształcania bazy danych, właśnie w Smart Data podejmowane są działania mające na celu anonimizację danych osobowych, o której szerzej poniżej). Taki proces, jeśli zostanie prawidłowo przeprowadzany, prowadzi do pozbawienia informacji przymiotu danych osobowych, czego konsekwencją jest brak konieczności stosowania się do przepisów RODO. Jeśli jednak z racji przeznaczenia Smart Data zrealizowanie takiego procesu nie jest możliwe, obowiązki podmiotu wykorzystującego Smart Data będą analogiczne jak w przypadku Smart Data.
Big Data i Smart Data – ograniczenie ryzyk prawnych
Jak zostało wcześniej wskazane proces anonimizacji skutkuje brakiem konieczności stosowanie przepisów RODO, dlatego też jest on rekomendowany, jeśli tylko jest on technicznie możliwy i nie wpływa negatywnie na możliwość zrealizowania celów, dla których wykorzystane mają być Big Data lub Smart Data.
Realizacja procesu anonimizacji to jednak nie tylko brak konieczności stosowania przepisów dotyczących ochrony danych osobowych. Przede wszystkim ogranicza on ryzyka związane z ewentualnym wyciekiem lub innym bezprawnym udostępnieniem Big Data oraz Smart Data. W przypadku tego typu incydentu bezpieczeństwa w zakresie zanonimizowanych zasobów, osoby, które bezprawnie pozyskały bazę danych, nie będą miały bowiem możliwości wykorzystania jakichkolwiek danych osobowych, a co za tym idzie – nie zaistnieje ryzyko naruszenia praw i wolności osób fizycznych. Oznacza to zaś, że nie będziemy mieć do czynienia z naruszeniem ochrony danych osobowych w rozumieniu RODO, a w związku z tym zgłoszenie incydentu do PUODO nie będzie konieczne. Oczywiście w zależności od tego jakiego rodzaju będzie to zdarzenie oraz jaki jest rodzaj podmiotu wykorzystuje Big Data/Smart Data obowiązek poinformowania odpowiednich organów może wynikać z innych przepisów.
Co oczywiste anonimizacja nie może być jedynym elementem zabezpieczającym procesy realizowane przy wykorzystaniu Big Data oraz Smart Data. Big Data oraz Smart Data powinny być przetwarzane w odpowiednio zabezpieczonym środowisku informatycznym, najlepiej odseparowanym od zasobów, które są dostępne dla osób spoza organizacji. Nie należy również zapominać o standardowych zabezpieczeniach takich jak firewalle, szyfrowanie danych oraz antywirusy, jak również dobrych praktykach, takich jak praca wyłącznie na legalnie licencjonowanym, zaktualizowanym oprogramowaniu.
Kolejnym, istotnym aspektem zabezpieczenia zasobów w postaci Big Data/Smart Data jest wdrożenie odpowiednich procedur związanych z dostępem do takich zbiorów danych. Przy ich ustanawianiu należy kierować się zasadą, że im mniej osób ma dostęp do zasobów tym lepiej – niezależnie od tego czy Big Data/Smart Data zawiera dane osobowe czy nie. Wynika to z prostego faktu – im mniejszy jest krąg osób z dostępem, tym mniejsze jest ryzyko utraty danych, czy też ich upublicznienia, zarówno w przypadku przypadkowego błędu, jak i świadomego działania.
radczyni prawna Milena Balcerzak
adwokat Bartłomiej Serafinowicz
Artykuł powstał w ramach realizacji projektu Centrum Rozwoju Małych i Średnich Przedsiębiorstw sfinansowanego ze środków Ministerstwa Rozwoju i Technologii.
[1] Big Data vs. Smart Data: Is More Always Better? [dostęp:25.09.2025 r.]
[2] ibidem
[3] Ustawa z dnia 27 lipca 2001 r. o ochronie baz danych (t.j. Dz. U. z 2024 r. poz. 1769).
[4] Ustawa z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (t.j. Dz. U. z 2025 r. poz. 24 z późn. zm.).
[5] Ibidem
[6] Zob. wyrok TSUE z dnia 9 listopada 2005 r. Fixtures Marketing Ltd przeciwko Organismos prognostikon agonon podosfairou AE (OPAP), C-444/02, ECLI:EU:C:2004:697
[7] Ustawa z dnia 16 kwietnia 1993 r. o zwalczaniu nieuczciwej konkurencji (t.j. Dz. U. z 2022 r. poz. 1233 z późn. zm.).
[8] RODO – Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r. w sprawie ochrony osób fizycznych w związku z przetwarzaniem danych osobowych i w sprawie swobodnego przepływu takich danych oraz uchylenia dyrektywy 95/46/WE (ogólne rozporządzenie o ochronie danych).