W tym odcinku zdradzę „sekret”, dzięki któremu lepiej zrozumiesz, jak myśli inżynier Big Data. Jak to się dzieje, że możemy składować tak duże ilości danych? I co zrobić, żeby móc je „obrobić”? O tym w odcinku nr 1!
Ja nazywam się Marek Czuma. Jestem inżynierem oraz instruktorem Big Data. Jestem również założycielem Riotech Data Factory i Akademii Big Data.
Transkrypcja odcinka
Cześć, co u Ciebie? Mam nadzieję, że wszystko okej. Witam w odcinku numer jeden Big Data po polsku. To jest podcast, w którym rozmawiamy o branży Big Data, tylko nieco mniej technicznym językiem, ale co ważniejsze, odkrywamy także świat.
Świat, który jest zbudowany z danych, rządzony jest przez algorytmy. Dzisiaj o tym pierwszym rodzaju porozmawiamy, czyli o branży. Dlaczego? O tym już za chwilę.
Natomiast w dzisiejszym odcinku zdradzę jedną rzecz, dosłownie jedną, która pomoże Ci myśleć jak inżynier Big Data i zrozumieć chociaż troszeczkę naszą branżę. Zanim przejdziemy do sedna, zdradzę moje małe marzenie. No dobra, może nie jest do końca małe, ale bardzo chętnie się nim podzielę.
Co to za marzenie? To jest bardzo istotna rzecz dla mnie, dlatego że na niej zbudowałem, rozpocząłem budowę Realtych Data Factory. To jest właściwie fundament tej firmy. Marzy mi się, żebyśmy za jakiś czas, za jaki to już jest drugorzędna sprawa, może być pięć lat, dziesięć, a może być nawet i dwadzieścia.
Natomiast marzy mi się, żeby każdy w Polsce rozumiał, co to jest Big Data. Nie tylko wiedział, że coś takiego istnieje, nie tylko znał ten termin, ale naprawdę dobrze to rozumiał. I od razu się wytłumaczę.
Nie chodzi mi tutaj o żadne utopijne, nerdowskie spojrzenie, że każdy musi być inżynierem. To byłby raczej dość katastrofalny obraz. Natomiast mam taką wizję w głowie, że kogo nie spytamy, ten mniej lub więcej, ale potrafi wyjaśnić, co to jest Big Data i jak się odnosi do naszego świata.
Ma pewną świadomość tego, w czym żyje. Właśnie z punktu widzenia przetwarzania dużych danych. Już tłumaczę, o co chodzi.
Nie każdy musi być inżynierem, ale każdy z nas styka się z Big Datą. Dlatego mamy możliwość zrozumienia, o co w tym tak naprawdę chodzi, a tak naprawdę mamy konieczność zrozumienia, o co w tym dokładnie chodzi. Żeby zobaczyć, w jakich kategoriach można rozumieć Big Datę, powinniśmy spojrzeć na kilka poziomów.
To znaczy, tak jak powiedziałem, nie każdy musi być inżynierem, ale to jest tylko jeden z poziomów rozumienia, czym jest przetwarzanie bardzo, bardzo dużych danych. Ten najbardziej podstawowy, ten najbardziej fundamentalny. Natomiast inne to przede wszystkim najszerszy kontekst, czyli kontekst społeczny, gdzie rozumiemy ogólnie, w których miejscach nas to dotyczy, gdzie się z tym stykamy, jakie to niesie za sobą zagrożenia, jakie niesie za sobą szanse i mniej więcej rozumiemy, jak my też te szanse możemy wykorzystać.
To jest też poziom kadr. Kadr w firmach przede wszystkim i organizacjach. To jest poziom bardziej taki menedżerski już i w nim zarówno menedżerowie, prezesi, wszelkiego rodzaju doradcy, ale też rekruterzy rozumieją, czym jest Big Data.
To znaczy mają odpowiednie podejście, które pozwoli im lepiej zarządzać i lepiej wykorzystywać to na swoje ukorzyście. I mamy wreszcie czwarty poziom, czyli poziom polityków. Polityka to jest rzecz znów, która wpływa na nas nawet jeżeli tego nie chcemy i dobrze, żeby ludzie, którzy zarządzają państwem miastem, którzy mają duży wpływ na jakiś nasz kawałek naszego życia, zdawali sobie sprawę z tego, jak można wykorzystać przetwarzanie dużych danych.
Marzy mi się, żeby każdy z nas lepiej lub gorzej rozumiał, czym jest Big Data, dlatego że to w mojej ocenie jest kluczowa branża dla naszego świata. To jest branża, którą nazwałem już rdzeniem naszej rzeczywistości. Troszeczkę więcej o tym opowiedziałem w odcinku numer 0. Kto jeszcze nie słuchał tego zapraszam.
Natomiast w dużym skrócie w każdym ważnym miejscu dla współczesnego świata gromadzone są dane i w każdym istotnym miejscu te dane są w odpowiedni sposób przetwarzane i wykorzystywane nierzadko na naszą niekorzyść, a bardzo często na naszą korzyść. I dobrze, żebyśmy rozumieli te procesy, bo bez tego nie jesteśmy w stanie zrozumieć świata. Ja nie mówię tego, bynajmniej z punktu widzenia kogoś, kto już to wszystko zrozumiał, ale raczej z punktu widzenia kogoś, kto dopiero poznaje, jak to wszystko wygląda.
I pomyślmy tylko, co by było w momencie, w którym faktycznie szeroka świadomość zapanowałaby w Polsce. Miejbyśmy gigantyczną przewagę zarówno na polu ekonomicznym, zarówno na polu świadomości przemian społecznych, no bo przecież ogromna część z nich dokonuje się w mediach społecznościowych, na Netflixie. To są miejsca, w których przemiany społeczne się po prostu dokonują i one się dokonują w dużej mierze właśnie dzięki zarządzaniu, bardzo umiejętnemu zarządzaniu ogromnymi danymi.
Mielibyśmy wreszcie możliwość lepszej administracji państwowej, czyli coś, do czego chyba wszyscy chcemy dążyć. To jest też kwestia podejścia do wywiadu, kontrwywiadu. Także jeżeli cały kraj byłby w ten czy inny sposób uświadomiony w kontekście big daty, moglibyśmy zdobyć absolutnie przełomowe absolutnie przełomowe atuty w konkurencji i gospodarczej, i politycznej, i na bardzo wielu innych frontach.
Dlatego marzy mi się, żebyśmy wszyscy wiedzieli coś niecoś na temat big daty. Jedni lepiej będąc ekspertami, inni troszeczkę mniej i po prostu mając ogólną świadomość tego, o co tu chodzi. Tak jak już powiedziałem, są różne poziomy rozumienia i absolutnie nie chodzi o to, żeby każdy był inżynierem.
Natomiast, jeżeli chcemy poznawać świat, który jest zbudowany z danych, to dobrze, żebyśmy mieli chociaż odrobinę świadomości tego, jak branża funkcjonuje pod kątem technicznym. Czyli jak myśleć jak inżynier. Ja się zastanawiałem długo, zresztą teraz akurat prowadzę takie szkolenie kilkutygodniowe, bardzo szerokie, przekrojowe szkolenie i po raz kolejny zastanawiałem się, co zrobić, żeby kursanci kończąc kurs mieli świadomość tego, w czym będą pracować.
Nie chodzi przecież tylko o to, żeby umieć obsługiwać tą technologię, czy inną technologię. Sztuką jest zrozumieć szerszy kontekst i umieć bardzo dobrze posługiwać się tymi technologiami, ale komponując je ze sobą, mając ich głęboką świadomość, to jest naprawdę coś zdecydowanie z tych trudniejszych rzeczy. I zastanawiając się, jaką jedną rzecz mógłbym przekazać, która pomogłaby w lepszym zrozumieniu branży, albo pomogłaby w ogóle zacząć rozumieć tą branżę, doszedłem do wniosku, że istnieje coś takiego.
I zanim przejdę do tego, co to jest, to wyjaśnijmy sobie, żeby nie banalizować całego tematu. Nie chodzi o to, że teraz podam jedno magiczne lekarstwo, które jak za dotknięciem czarodziejskiej różdżki sprawi, że zrozumiesz branżę. Tak tego się nie da zrobić, niestety.
Można natomiast wykorzystać tutaj zasadę Pareto. Zasada Pareto mówi o tym, że mniej więcej oczywiście 80% efektów robione jest przez 20% działania. To są oczywiście takie umowne proporcje, które mają tam pobudzić myślenie, a nie koniecznie jakieś konkretne statystyki.
Chodzi natomiast o to, że nie każde działanie, nie każda wiedza jest tak samo istotna i tak samo warta. Są takie rzeczy, które możemy zrozumieć i jeżeli je zrozumiemy, to nasze całościowe zrozumienie tematu, świadomość tego tematu, umiejętność posługiwania się jakimś narzędziem wzrośnie bardzo, bardzo dynamicznie. Natomiast są też takie rzeczy, które tylko odrobinę nas pchną do celu.
I te małe rzeczy, nie zrozum mnie źle, te małe rzeczy też są bardzo istotne. Natomiast warto zacząć od tych kilku, które pchną nas bardzo mocno do przodu. W zrozumieniu branży Big Data jest dokładnie tak samo.
Mamy kilka rzeczy, które pozwolą wynieść nasze myślenie na zupełnie inny poziom, szczególnie w momencie, w którym nie wiemy jeszcze zbyt wiele. Wybrałem tutaj jedną taką rzecz. Wybrałem jedną rzecz, która jest w mojej opinii najważniejsza w Big Data.
Co to za rzecz? Nie będę trzymał dłużej w tajemnicy, nie będę dłużej Cię niecierpliwił. Chodzi o podejście rozproszone. I uwaga, no tu już wchodzimy w takie troszeczkę techniczne tematy.
Nie przestrasz się. Natomiast podejście rozproszone to jest kluczowa rzecz do zrozumienia tego nie tylko jak działa jakaś technologia, ale też do tego jak pracuje cała branża. Na jakiej filozofii się zasadza cała branża i jak możemy korzystać z tych wszystkich cudów technologii typu Google Maps, Facebook czy jakieś inne nowoczesne rozwiązania, które zawsze oparte są o przetwarzanie czy w ogóle podejście rozproszone.
Zrozummy co to znaczy podejście rozproszone. Wyobraźmy sobie taką sytuację. Żeby nie komplikować to uprośmy sprawę.
Mamy do czynienia z bardzo dużymi danymi. Załóżmy, że to są dziesiątki czy setki terabajtów danych i nie są to dane jakieś szczególnie wyszukane. Załóżmy, że to są dane dotyczące spółek giełdowych, a konkretnie kursu akcji.
Czyli coś strasznie, strasznie nudnego. I chcemy z tego wyciągnąć bardzo proste statystyki. Coś co matematycznie jesteśmy w stanie policzyć sami w głowie albo na kartce.
Jeżeli tylko operujemy na niewielkich danych. Problem polega nie na tym więc, że mamy tutaj do zrobienia jakąś skomplikowaną matematykę. Jakieś bardzo złożone wzory.
To zupełnie nie ten case. W tym miejscu chodzi o to, że te proste wzory musimy zastosować na ogromnych danych. I jak do tego podejść? Inżynierowie Google już około 20 lat temu pomyśleli sobie, że można zasadniczo podejść na dwa sposoby.
Jeden odrzucili, a mianowicie odrzucili pomysł stworzenia superkomputera, który mógłby operować na olbrzymich dyskach z gigantyczną pamięcią RAM i najszybszymi jakiej tylko się da zbudować procesorami. Dlaczego odrzucono taki pomysł? Taki pomysł wydaje się być może na pierwszy rzut oka całkiem fajny, a już na pewno bardzo pociągający i zresztą zbudowanie takiego komputera, nie oszukujmy się, skutkowałoby naprawdę fajnymi artykułami w Forbes, czy Science, czy jakichś innych tego typu biznesowych, naukowych magazynach. Natomiast problem polega na tym, że nawet jeżeli zbudujemy superkomputer do przetwarzania ogromnych danych, to za miesiąc, za pół roku tych danych będzie jeszcze więcej.
I co wtedy? Mamy zbudować nowy superkomputer? Oczywiście nie byłoby to zbyt rozsądne, dlatego zdecydowano się zastosować inne podejście, nowe podejście, a mianowicie podejście rozproszone. Co to oznacza? W skrócie, zamiast jednego superkomputera olbrzymiego możemy przecież połączyć w jedną sieć 200 komputerów takich nawet klasy PC, czyli takich, z jakich możemy korzystać na co dzień. To mogą być nawet laptopy.
I łącząc 5, 10, 100, czy nawet 2000 takich komputerów w jedną sieć, nagle okazuje się, że dysponujemy gigantycznymi możliwościami. Mamy strasznie duże dyski, no bo jak połączymy sobie 10x 500GB, to nagle robi nam się kilka terabajtów. A jak połączymy 100 takich komputerów, to nagle możemy korzystać z kilkudziesięciu, a nawet paruset terabajtów danych, przestrzeni na paruset terabajtów danych, co jest naprawdę bardzo przyzwoitym wynikiem.
To samo jest z pamięcią RAM, to samo jest z możliwością wykorzystania procesorów. I to jest właśnie podejście rozproszone. To jest podejście rozproszone, czyli rozpraszamy na wiele maszyn, czy to dane, które chcemy gdzieś przechowywać, czy to dane, które chcemy gdzieś przetwarzać.
Nie stosujemy więc jednego wielkiego komputera, tylko tworzymy technologie, których głównym zadaniem będzie odpowiednie połączenie i zintegrowanie ze sobą tych wszystkich maszyn. Taką najbardziej podstawową technologią, nie chcę tutaj wchodzić w szczegóły, bo to nie jest podcast, który służy omówieniu technicznemu. Natomiast rzućmy sobie kilka zagadnień.
Poznajmy tą branżę jeszcze troszeczkę bardziej od środka. Najbardziej fundamentalną technologią, czy tak naprawdę ekosystemem technologii, jest Apache Hadoop. I to jest taka technologia, która pozwala, lepiej, to jest ekosystem technologiczny, jak już powiedziałem, który pozwala połączyć ze sobą całą masę komputerów i wykorzystać ją po pierwsze do tego, żeby po prostu składować tam dane w ramach jednego systemu plików, takie jak mamy na swoim komputerze.
Wrzucamy plik, oglądamy jakiś film, chcemy ściągnąć, chcemy ściągnąć muzykę, zdjęcia. Umieszczamy ją przecież na systemie plików, który bazuje na komputerze naszym. I dokładnie to samo jest w Hadoopie, czy właściwie w HDFSie.
Czyli w systemie plików, który z zewnątrz wygląda bardzo, bardzo podobnie. Po prostu jest pod spodem zbudowany w taki sposób, żeby wykorzystywać bardzo wiele maszyn. Co jeżeli skończy się miejsce? Nie ma problemu, możemy dostawić kolejne maszyny i nagle tego miejsca jest więcej.
I to będzie ze sobą bardzo, bardzo ładnie działać. I to jest właśnie podejście rozproszone. Mam nadzieję, że tym sposobem troszeczkę wyjaśniłem.
Nie chciałem tutaj dawać jakiegoś technicznego odcinka, ale co jakiś czas będziemy mieli kilka rozmów, kilka prezentacji w formie podcastu, w których opowiem, jak to i owo działa, że możemy w ogóle ze sobą, że możemy w ogóle w Big Data opowiem o tym, jak to wszystko działa. Na dzisiaj zapamiętajmy, że fundamentem wszystkiego jest podejście rozproszone, czyli mamy dużo komputerów, które nagle z pewnego punktu widzenia stały się jedną wielką maszyną. I dzięki temu możemy rozmawiać przez Messengera.
Dzięki temu możemy korzystać z Google Maps, które przecież nie przetwarzają naszych zapytań na jednym serwerze. Dzięki temu Facebook może dostosowywać najlepsze reklamy do nas i dzięki temu dzieje się cała masa innych rzeczy. Mam nadzieję, że ten odcinek odrobinę rozjaśnił.
Jeżeli tak, zapraszam do tego, żebyś został czy została ze mną na dłużej. To jest podcast Big Data po polsku. Ja nazywam się Marek Czuma.
Dzięki za dzisiaj i do następnego razu. Cześć!
Dodaj komentarz