Jak Big Data rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem? dr Łukasz Bolikowski ICM, Uniwersytet Warszawski Big Data Summit, 26 listopada 2014
Czwarty paradygmat Cztery paradygmaty w nauce (Jim Gray, 2007): 1 Empiryczny opis zjawisk naturalnych (ostatnie tysiąclecia) 2 Teoretyczny budowa modeli i uogólnień (ostatnie stulecia) 3 Obliczeniowy symulacje złożonych zjawisk (ostatnie dekady) 4 Eksploracja danych badania data-intensive (ostatnie lata)
Duże dane w nauce Duży rozmiar 1000 Genomes Project 200 TB danych genomicznych NASA Earth Exchange 20 TB danych o Ziemi Duże tempo zmian Wielki Zderzacz Hadronów (CERN) 1 PB/s (w szczycie) Sekwenatory DNA setki GB tygodniowo Duża różnorodność Archiwum prognozy pogody ICM 1000+ rodzajów pól
Przyczyny zmiany paradygmatu Przejście od analogowego do cyfrowego dramatycznie zwiększyło podaż danych: książki, komunikacja naukowa dane medyczne Pojawiły się technologie generujące duże dane: urządzenia mobilne sieci społecznościowe sieci czujników (inteligentne miasta) Naukowcy uświadomili sobie, że eksploracja dużych zbiorów danych może prowadzić do odkryć: dane informacja wiedza
Skutki zmiany paradygmatu Potrzebujemy...... nowych infrastruktur obliczeniowych duże klastry do badań opartych o dane systemy do publikacji i dzielenia się danymi... nowych metod i algorytmów przetwarzania algorytmy w modelu MapReduce szybkie rozwiązania in-memory... nowych umiejętności i kompetencji przetwarzanie dużych danych, programowanie uczenie maszynowe, statystyka, matematyka wizualizacja informacji, prezentacja wyników ciekawość, pasja, żyłka eksploratora
ICM, Uniwersytet Warszawski Początki trzeci paradygmat Założone 20 lat temu jako centrum superkomputerowe prowadzące symulacje złożonych zjawisk przy użyciu modeli matematycznych i superkomputerów. Prawdziwie interdyscyplinarny zespół 150+ naukowców i programistów tworzących rozwiązania w obszarach tak różnych jak: transport lotniczy, bioinformatyka, modelowanie klimatu, medycyna wspomagana komputerowo, kosmologia, biblioteki cyfrowe, projektowanie leków, epidemiologia, rolnictwo, fizyka wysokich energii, uczenie maszynowe, projektowanie materiałów, neurobiologia, analiza sieci społecznych, prognozowanie pogody,... i wiele innych.
ICM, Uniwersytet Warszawski Przyszłość czwarty paradygmat ICM staje się centrum danych badawczych. W ramach projektu OCEAN o początkowym budżecie 80 mln zł do końca 2015 roku powstanie infrastruktura zdolna przetwarzać dziesiątki PB danych oraz centrum kompetencji skupiające doświadczone zespoły data scientists. (text mining, analiza sieci społecznych, analiza obrazów, uczenie maszynowe)
Wybrane projekty ICM UW oparte o analizę danych 1 Alzheimer s Disease Big Data DREAM Challenge Cel: identyfikacja biomarkerów pozwalających diagnozować i leczyć chorobę Alzheimera Dane: obrazowe (m.in. MRI mózgu), genetyczne (m.in. SNP), oceny funkcji poznawczych 2 Szacowanie krzywych laktacji i obserwacji odstających Cel: przewidywanie użytkowości mlecznej krów Dane: 80M+ rekordów opisujących krowy (np. geny, stado) i historię ich udojów (np. ilość i skład mleka) 3 SciVis Contest 2015 Cel: wizualizacja ewolucji wszechświata Dane: bilion (10 12 ) obiektów (położenia i prędkości) 100 klatek (oś czasu) = 3 PB danych (3 PB oznacza 9 m-cy kopiowania po Ethernecie, 1 tonę dysków HDD)
Nauka a biznes Biznes ma dane i pytania, cierpi na brak data scientists. Nauka ma kompetencje i infrastrukturę, szuka ciekawych wyzwań. Podobne zagadnienia, metody, metodologie: rozumienie wartości (dużych) danych, potencjału w nich tkwiącego metody statystyczne, uczenie maszynowe, wizualizacja informacji przetwarzanie dużych danych przy użyciu Apache Hadoop/Spark metodologie prowadzenia projektów data-miningowych, np. CRISP-DM Wniosek pasujemy do siebie jak nigdy dotąd! Zapraszam do współpracy.
Dziękuję za uwagę i zapraszam do kontaktu! linkedin.com/in/bolikowski twitter.com/bolikowski lukasz.bolikowski@icm.edu.pl +48 22 8749419
Licencja c 2014 ICM, Uniwersytet Warszawski. Pewne prawa zastrzeżone. Prezentacja udostępniona na licencji CC BY-ND 3.0 PL. Wykorzystane zostały materiały graficzne z następujących źródeł: http://research.microsoft.com/en-us/collaboration/fourthparadigm/ (str. 2, cała książka na CC BY-SA 3.0, tu dozwolony użytek okładki) https://www.flickr.com/photos/petrifiedforestnps/13808113813 (str. 3, CC BY 2.0) https://www.flickr.com/photos/11304375@n07/2046228644 (str. 3, CC BY 2.0) https://www.flickr.com/photos/mollyali/2518828977 (str. 4, CC BY 2.0) https://www.flickr.com/photos/kewl/8475764430 (str. 6, CC BY 2.0) https://www.flickr.com/photos/iwannt/8596885627 (str. 6, CC BY 2.0) https://www.flickr.com/photos/canyonjam/111754387 (str. 8, CC BY 2.0) https://www.flickr.com/photos/usdagov/9042954477 (str. 8, CC BY 2.0)