Było ich trzech. Dominik kończył socjologię na Uniwersytecie Warszawskim, Janek – psychologię, a Paweł – informatykę na Politechnice Warszawskiej. Dominik z Jankiem poznali się na kursie z psychologii internetu, a Paweł pomagał Dominikowi w pisaniu programów potrzebnych do pracy magisterskiej. Całą trójkę połączyło zainteresowanie wpływem nowych technologii na społeczeństwo. W 2008 r. założyli SmartNet Research & Solutions, agencję analizowania danych z internetu. W tym właśnie roku po raz pierwszy pojawiło się na świecie określenie „data science”, czyli badanie danych.

Termin ten ukuło dwóch analityków pracujących w Dolinie Krzemowej dla dwóch wielkich serwisów społecznościowych – LinkedIn i Facebooka. Chwilę później zaczęto coraz poważniej mówić o potencjale drzemiącym w Big Data, Wielkich Danych, które na nieznaną wcześniej skalę zaczęli o sobie produkować internauci.

W tym czasie Jan i Dominik doktoryzowali się, Paweł stał się członkiem International Network for Social Networks Analysis. I znowu wspólnie w 2010 r. dr Dominik Batorski, dr Jan Zając oraz Paweł Kucharski otworzyli nową firmę Sotrander, wyspecjalizowaną w badaniu i analizowaniu danych z sieci. – Rzeczywiście dopełniamy się wspólnie jako obraz data scientist, czyli badacza danych. Tu potrzebne są umiejętności analityczne, zainteresowanie socjologią – szczególnie tą ilościową – i przynajmniej podstawowa wiedza o programowaniu i bazach danych – przyznaje Zając.

Właśnie tacy specjaliści już dziś są poszukiwani, a za chwilę będą wręcz rozchwytywani przez pracodawców. Wszystko z powodu kariery Big Data.

Cztery V

Nie ma jednej oficjalnej i uniwersalnej definicji Big Data. Powszechnie już przyjmuje się, że Wielkie Dane o ludziach – konkretnie ich zdobywanie, przetwarzanie i wyciąganie z nich wniosków – są uważane za wielkie z powodu czterech V: volume (ogromnej ilości), variety (wielkiej różnorodności), velocity (zawrotnej szybkości pojawiania się i konieczności analizowania w czasie rzeczywistym) oraz value (znaczącej wartości). Często myśli się o nich tylko jak o informacjach zostawianych przez nas w internecie. Ale to również dane dotyczące nas, którymi dysponują banki, ubezpieczyciele, służba zdrowia, sklepy (choćby dzięki płatnościom kartami) oraz dziesiątki innych instytucji, w tym rządowych.

Dzisiejszy świat, tłumaczą eksperci od gospodarki cyfrowej, jest jak farma. Nie hoduje się tu jednak owiec ani świń, nie sadzi się marchewki ani ziemniaków, nie zbiera się jaj ani nie doi krów. Na farmie XXI wieku hoduje się, sadzi, zbiera oraz doi ludzi. A konkretnie informacje o nich. Na jakie internetowe strony wchodzą, na jakich portalach czy forach się rejestrują, jakie filmy oglądają, jakiej muzyki słuchają, co kupują i za ile, z kim się kontaktują, gdzie się znajdują. I to jest właśnie Big Data. Ale by z nich skorzystać, potrzebni są ludzie, którzy będą tak wielkie zasoby potrafili zrozumieć.

Jeszcze pięć lat temu nie było nawet zawodu badacza danych. Teraz nie ma dziedziny, by nie było na nich wielkiego zapotrzebowania. W raporcie McKinsey & Company można przeczytać, że za pięć lat tylko w Stanach Zjednoczonych będzie ich brakowało 1,5 mln, a już dziś mniejsze i większe firmy wręcz zabiją się o specjalistów od badania danych. Kursy i szkolenia z przetwarzania danych w USA i Wielkiej Brytanii już pączkują na uczelniach, a Thomas Davenport i D.J. Patil z „Harvard Business Review” ogłosili, że zawód data scientist będzie „najseksowniejszą pracą XXI wieku”.

Zapotrzebowanie jest tak ogromne z prostego powodu: informacje o nas – jako konsumentach i obywatelach – są wręcz bezcenne. Po odpowiednim ich przetworzeniu można z nich wyciągać bardzo cenne wnioski. Jakie? Na przykład klient banku na FB wrzuca zdjęcia z palonymi na imprezach papierosami. Wniosek – nie prowadzi zdrowego trybu życia, więc powinien dostać wyższą podstawę ubezpieczenia na życie przy braniu kredytu mieszkaniowego (do takich planów korzystania z Big Data przyznał się w wywiadzie telewizyjnym wiceprezes polskiego oddziału Alior Banku). Wonga.com, brytyjska firma pożyczkowa, która weszła do Polski, nie ukrywa, że prześwietla na portalach internetowych potencjalnych klientów, choć – jak zapewnia – zawsze za ich zgodą.

Przełomowym wydarzeniem dla świata Big Data okazały się smartfony. Mobilny internet oraz setki aplikacji, które stały się za ich pośrednictwem dostępne, skłoniły ludzi do jeszcze większego udostępniania informacji o sobie. A to zaowocowało kilkukrotnym zwiększeniem zapotrzebowania na specjalistów od danych. Jedne z największych zmasowanych akcji zatrudniania „big fast data engineerów” w ostatnich miesiącach ogłaszały sieć supermarketów Wal-Mart oraz General Electric.

– Duże firmy, jak banki czy ubezpieczyciele, same zatrudniają spore sztaby data managerów, analityków oraz informatyków, którzy przetwarzają informacje o klientach – mówi Maciej Kutak, dyrektor zarządzający Replise Poland. Zapytany o Big Data długo opowiada, jak bardzo zmieniają one sposób prowadzenia biznesów, jak ciekawe i wartościowe wnioski mogą wyciągnąć firmy z informacji, jakie już posiadają i jakie mogą posiadać, jeżeli będą wiedziały, jak skorzystać z internetu, a szczególnie z mediów społecznościowych. Replise, która działa w Niemczech, na Węgrzech i w Polsce, specjalizuje się właśnie w monitoringu social mediów. – Albo zatrudniają zewnętrzne firmy takie jak nasza, które zarządzają i przetwarzają przynajmniej część danych. Część, bo przykładowo taki bank ma dostęp do ogromnych ilości informacji: z call center, z mediów społecznościowych, z kart kredytowych i historii kont klientów, z informacji o kredytach – dodaje Kutak.

Dziś działy zarządzania danymi są najszybciej rozwijającymi się departamentami niemal już we wszystkich firmach, które mają dostęp do informacji czy to o swoich klientach, czy podwykonawcach. Data management teams są pełne świetnych informatyków i fizyków, którzy opracowują algorytmy do obróbki informacji, a socjolodzy, psycholodzy i ekonomiści wiedzą, jak takie pytania zadać i jakie dane z sobą połączyć, by dały one odpowiedzi na pytania zadawane przez przedsiębiorców i rządy.

Firmy planujące zatrudnienie analityków Big Data poszukują osób, które potrafią wykorzystać dane tak, aby pracowały na korzyść biznesu. To nie tylko specjaliści IT, w tym programiści – to także osoby z działów biznesowych, które mają umiejętność podejmowania strategicznych decyzji. One z kolei muszą wiedzieć, jakie pytanie zadać i jak sprawić, aby uzyskana odpowiedź przyniosła firmie jak największą korzyść.

Magister data scientist

Największy serwis aukcyjny świata eBay zatrudnia już 7,5 tys. badaczy danych – co czwarty pracownik zajmuje się analizami codziennych informacji na temat zachowań klientów. Amerykańskie oraz brytyjskie szkoły wyższe jedna za drugą, widząc rosnące zapotrzebowanie na specjalistów od Big Data, otwierają nowe kierunki studiów, organizują kursy i szkolenia podyplomowe z analizy i zarządzania danymi.

Rachel Schutt, wykładająca wstęp do badania danych na Uniwersytecie Columbia, tak opisuje nowy dział badawczy: – To hybryda inżynierii komputerowej z badaniami statystycznymi. To nauka stworzona dla ludzi ciekawych, wręcz ciekawskich, potrafiących zadawać odpowiednie pytania i dających sobie radę w zderzeniu z sytuacjami, wydawać by się mogło, odbiegającymi od normy, ale potrafiących znaleźć sposoby, by do takiej normy je dopasować. Columbia nie jest jedyna. Uniwersytet San Francisco opuszczą wkrótce pierwsi absolwenci studiów nowej analityki, a władze Stanforda chcą uruchomić kurs z data science na wydziale statystyki. Inne uczelnie planują podobne działania w najbliższych miesiącach.

Nic dziwnego, że jest takie poruszenie, skoro Cloudera, firma sprzedająca oprogramowanie do przetwarzania danych, ogłosiła w kwietniu rozpoczęcie współpracy z siedmioma amerykańskimi uczelniami, tak by ich studenci mogli przejść praktyki z pracy z Big Data. Mark Morissey, szef programu edukacyjnego Cloudera, tłumaczy, że ten rynek nie nadąża za zapotrzebowaniem pracodawców. I dlatego średnie zarobki dla początkujących data scientist w Dolinie Krzemowej w ciągu roku wzrosły ze 110 do 120 tys. dol. rocznie.

Na szczycie piramidy wszystkich pracowników zajmujących się analizą danych są data scientist. To creme de la creme inżynierów, statystyków i socjologów, którzy nieustannie poszukują nowych korelacji, które trzeba jak najszybciej włączyć do badań. Andrew Brust, programista i przedsiębiorca branży internetowej z przeszło 25-letnim doświadczeniem, założyciel firmy Blue Badge Insights, podkreśla, że praca data scientist już w samej swojej nazwie niesie za sobą poczucie ekskluzywności, pewnej rezerwy wobec świata i przeświadczenie bycia predestynowanym do pracy w wyższych celach. „Ale tak będzie, dopóki ta praca nie spowszednieje. Gdy już tych badaczy będzie naprawdę dużo, przestaną być tak cenni i świetnie opłacani. Oczywiście za wyjątkiem najlepszych” – pisze Brust w internetowym magazynie ZDNet. Anjul Bhambhri, wiceprezes działu Big Data Products w IBM, idzie jeszcze dalej w swojej ocenie: – To są ludzie współczesnego renesansu, indywidualiści, którzy naprawdę chcą się uczyć i wprowadzać zmiany.

Czynnik białkowy jest niezbędny

Tymczasem dobrego analityka, nie mówiąc już o data scientist, ciężko znaleźć. – Sama znajomość Excela to stanowczo za mało. Data scientist to nie zwykły analityk po matematyce czy socjologii. To jest pracownik interdyscyplinarny, który może pochwalić się analitycznym umysłem i potrafi doskonale przetworzyć i połączyć, np. komentarze z social mediów z danymi z kart kredytowych czy wypowiedziami z call center – przekonuje Maciej Kutak z Replise Poland. – My mamy na razie jednego data scientist. To człowiek, który ma blisko 15-letnie doświadczenie w badaniach i co bardzo ważne – na wielu rynkach, wśród dużej ilości różnych branż. Oprócz tego łącznie dla Replise pracuje kilkudziesięciu analityków, których część bywa przypisana do jednego klienta. Na razie w Polsce zatrudniamy ich tylko kilku, ale to dopiero początki, oprócz nich zatrudniamy jeszcze tzw. koderów, którzy czytają i etykietują wzmianki i komentarze dla zleconych analiz. Jednym z naszych pracowników jest lingwistka, znająca bodajże 10 języków, w tym hiszpański i kataloński, te umiejętności są superprzydatne – zapewnia Kutak.

Na Kaggle, największej na świecie internetowej platformie dla data scientist założonej w 2010 r. przez młodego ekonomistę z Australii Anthony’ego Goldblooma, zarejestrowanych jest prawie 90 tys. takich specjalistów z całego świata. Nie tylko kontaktują się z sobą, podnoszą kompetencje i doszkalają, ale także rywalizują. I co ciekawe, Kaggle także jest samo w sobie źródłem fascynujących informacji. Okazuje się, że wielu analityków ma zaskakujące wykształcenie. To astrofizycy, elektroinżynierowie, nawet politolodzy. Najwyższe miejsce w rankingu analityków prowadzonym przez Kaggle zajmuje 30-letni Charlie Yichuan Tang, doktorant studiów z mechaniki na politechnice w Toronto, magister matematyki i informatyki, z licencjatem z mechatroniki. Najwyżej notowany Polak to tajemniczy Foxtrot – 74. miejsce w rankingu.

Rzeczywiście do zawodu analityka Big Data prowadzi wiele ścieżek. – Kilka miesięcy temu rekrutowaliśmy pracowników i okazało się, że jest sporo studentów SGH, którzy mają ku temu świetne predyspozycje, ale wiedzę wyniesioną ze studiów oraz życiowe doświadczenia funkcjonowania w świecie rządzonym przez dane – opowiada Jan Zając. Potwierdza to Chris Wiggins, profesor matematyki stosowanej z Columbii: – To generacja dzieciaków wychowanych w świecie pełnym danych: Netflix mówi im, jaki film obejrzeć, Amazon – jakie książki czytać. To, co studiują, to tak naprawdę akademickie zainteresowanie prawdziwym światem ich otaczającym. I co ważne, wiedzą, że to może im dać niezłą pracę.

Jeszcze inną ścieżką do zawodu analityka danych podążał 30-letni programista Marek Małachowski pracujący dla firmy Manubia, specjalizującej się przygotowywaniu raportów o sprzedaży w internecie. – Właściwie od małego ciągnęło mnie do komputerów, a więc i wybór kierunku studiów był oczywisty. Najpierw studiowałem na Polsko-Japońskiej Wyższej Szkole Technik Komputerowych informatykę, potem media cyfrowe we Wrocławiu. Wprawdzie studiów nie skończyłem, ale analityczne myślenie zaszczepione podczas nich zacząłem wykorzystywać w pracy – opowiada. Małachowski współtworzył jeszcze jako 25-latek start-up Chce.to, czyli serwis o social shoppingu, gdzie można tworzyć listy wymarzonych produktów, np. prezentów ślubnych. – I to już była kopalnia informacji o ludziach. Jednak jeszcze więcej zbieramy i przetwarzamy w Manubia. My, czyli ludzie, bo nie ma co się oszukiwać – komputer wciąż nie jest w stanie zastąpić człowieka, szczególnie jeżeli chodzi o zrozumienie innych ludzi. To maszyna musi się uczyć ludzi, to człowiek pozostaje wzorem – tłumaczy Małachowski. I dodaje, że stąd zapotrzebowanie nie tyle na umysły ścisłe, ile raczej na interdyscyplinarne, łączące umiejętności matematyczne z wiedzą społeczną, psychologiczną, humanistyczną. – W Big Data nie chodzi o to, by zebrać jak największą ilość danych, ale by z tego ogromu wyciągnąć prawdziwe wnioski – dodaje

– Maszyny? Komputer może tylko zebrać dane i uporządkować je w strumień danych. Ale to ludzie są najważniejsi – potwierdza Maciej Kutak z Replise i dalej tłumaczy, że nie ma systemu ani algorytmu, który byłby doskonały. – Maszyna nie jest w stanie np. zrozumieć i wyłapać ironii. Dla człowieka zdanie „Pięknie nas firma XXX wyrolowała” jest pełne sarkazmu, dla komputera przymiotnik określający wskazuje na pozytywny charakter tej treści. Nie wierzę, że maszyny zastąpią ludzi przy analizie. Czynnik białkowy jest niezbędny – dodaje Kutak. I dlatego zapotrzebowanie na statystyków ery 2.0 w najbliższych dziesięcioleciach na pewno się nie zmniejszy.

Dzisiejszy świat, tłumaczą eksperci od gospodarki cyfrowej, jest jak farma. Nie hoduje się tu jednak owiec ani świń, nie sadzi się marchewki ani ziemniaków. Nie zbiera się jaj ani nie doi krów. Na farmie XXI wieku hoduje się, sadzi, zbiera oraz doi ludzi. A konkretnie informacje o nich