Big Data

Pół wieku po wejściu komputerów do powszechnego użytku informacje tak zaczęły się kumulować, że powstaje coś nowego i wyjątkowego. Świat nie tylko zalewany jest niespotykaną wcześniej liczbą danych, ale ich ilość coraz szybciej rośnie.

Zmiana ilości doprowadziła do zmiany jakości. Informacje przestano uważać za statyczne. Zrozumiano, że dzięki odpowiedniemu nastawieniu mogą być ponownie inteligentnie wykorzystane, żeby stać się źródłem innowacji i nowych usług. Pojawił się termin Big Data.

Termin Big Data

obejmuje to, co może być realizowane w dużej skali, a nie może być wykonane w małej, w celu uzyskania nowej wiedzy lub stworzenia nowej wartości w sposób, który zmieni rynki, organizacje relacje między ludźmi itp.

Big Data wyznacza początek wielkiej transformacji, napędzanej nowymi technikami i możliwościami gromadzenia i analizowania ogromnych ilości danych, które pomagają nam zrozumieć świat w sposób, który dopiero zaczynamy doceniać.

W swojej istocie Big Data (BD) polega na przewidywaniu. Sednem BD jest zastosowanie matematyki i statystyki do przetwarzania ogromnych ilości danych żeby szacować prawdopodobieństwo „co się stanie w przyszłości”. Istotne jest, że takie systemy (BD) są skuteczne, ponieważ przetwarzają mnóstwo danych, na podstawie których tworzą swoje przewidywania. Co więcej, systemy te są tak zaprojektowane, aby stale się udoskonalać przez monitorowanie sygnałów i wzorców, na które szczególnie należy zwrócić uwagę gdy spływa jeszcze więcej danych.

Niewątpliwie Big Data stanie się źródłem innowacji, ale stawka jest dużo większa. Pojawienie się tego zjawiska odzwierciedla trzy zmiany w modelach analizy informacji, które przekształcą sposób rozumienia i organizacji społeczeństwa przez ludzi.

  • Pierwsza zmiana („więcej danych”) polega na możliwości analizowania dużo większej ilości danych. Nie musimy opierać się na danych wyrywkowych czy próbie losowej (jak miało to miejsce w przeszłości). Użycie wszystkich danych pozwala nam dostrzec szczegóły, z których nie zdawaliśmy sobie sprawy, gdy byliśmy ograniczeni do zawężonych lub małych ilości danych.
  • Druga zmiana („precyzja danych”) polega na tym, że obserwowanie dużo większego spectrum danych, zwalnia nas z konieczności zachowania dużej dokładności To, co w skali mikro (małe próbki) tracimy na mniejszej dokładności, w skali makro (duże zbiory danych) zyskujemy na lepszym rozumieniu określnego zjawiska czy ogólnego trendu.
  • Trzecia zmiana („korelacje i danetyzacja danych”) – wynikająca z dwóch poprzednich – polega na odejściu od poszukiwania przyczyn danego zjawiska, które do tej pory zawsze staraliśmy się poznać. Dla kontrastu w świecie BD nie musimy się na tej przyczynowości skupiać, a zamiast tego w danych możemy dostrzegać i odkrywać schematy i korelacje, które umożliwią nam nowe, bezcenne zrozumienie jakiegoś zjawiska. Odkryte korelacje nie muszą nam ujawniać dlaczego coś się dzieje, ale będą nas informować lub ostrzegać, że to się dzieje. W BD ważna jest odpowiedź CO się dzieje a nie DLACZEGO. W wielu przypadkach nie musimy znać przyczyny jakiegoś zjawiska, możemy po prostu pozwolić danym mówić. Na potrzeby uzupełniania, powiększania ilości danych możliwych potem do analizowania stosuje się tzw. danetyzację. Danetyzacja polega na zbieraniu informacji o wszystkim, na powiększaniu ilości i zakresu informacji, na wydobywaniu lub przekształcaniu danych, tak aby określone zjawisko można było przedstawić w skwantyfikowanej formie, która może być następnie przeanalizowana i użyta np. w analizie prognostycznej.

3 warstwy architektury logicznej

W rezultacie tych trzech głównych zmian – kiedy pozwalamy danym mówić – możemy ujawnić ukrytą, niedostrzegalną wartość informacji, która może być wydobyta z danych i może być uwolniona, dzięki przesunięciu nacisku z przyczynowości na korelację. Duże zbiory danych kryją wyjątkową wartość, która znika, gdy są one mniejsze – to podstawowe założenie Big Data.

Z drugiej strony, rosnąca liczba danych zwiększa niedokładność. Należy pamiętać, że w zbiorach danych zawsze pojawiają się błędne liczby i zniekształcone informacje. Zawsze traktowano je jako problem i usiłowano się ich pozbyć. Na tym właśnie polega jedna z podstawowych zmian korzystania z dużych zbiorów danych, zamiast z małych. W świecie niewielkich zbiorów danych naturalne i ważne było redukowanie liczby błędów i zapewnienie wysokiej jakości danych.

BD zmienia liczby w coś bardziej probabilistycznego niż precyzyjnego.

Czasami okaże się być może, że 2 plus 2 równa się 3,9 ale to wystarcza.

W wielu sytuacjach wolimy mieć więcej czegoś nieuporządkowanego niż mniej czegoś uporządkowanego.

Big Data, gdzie nacisk położony jest na złożone zbiory danych i brak uporządkowana, lepiej pozwala nam zbliżyć się do rzeczywistości, niż robi to uzależnienie od małych zbiorów danych i precyzji.

Chociaż, na początku, może się to wydać sprzeczne z intuicją, traktowanie danych jako czegoś niedoskonałego i niedokładnego pozwala nam zwiększyć dokładność naszych prognoz i lepiej zrozumieć świat.

diagram_bigdata