22-24 września, Gdynia

Podobne dokumenty
R-PEARSONA Zależność liniowa

Sposoby prezentacji problemów w statystyce

Gdzie szukać klientów?"

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Wprowadzenie do analizy korelacji i regresji

Optymalizacja ciągła

Metody numeryczne w przykładach

Metody probabilistyczne

Niezwykłe tablice Poznane typy danych pozwalają przechowywać pojedyncze liczby. Dzięki tablicom zgromadzimy wiele wartości w jednym miejscu.

Analiza zależności liniowych

Model procesu dydaktycznego

Akwizycja i przetwarzanie sygnałów cyfrowych

JAKIEGO RODZAJU NAUKĄ JEST

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Ekonomiczny Uniwersytet Dziecięcy

Technologie informacyjne - wykład 12 -

Jak działa Brandle? Narzędzie online do organizacji i sprawdzania efektów marketingu dyskusji w internecie

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Algorytmy genetyczne

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 1: O statystyce i analizie danych

Warsztat: Randomizacja w programie Excel

TREŚCI NAUCZANIA z przedmiotu pracowania ekonomiczno - informatyczna na podstawie programu nr 341[02]/MEN/ klasa 3 TE

Algorytm genetyczny (genetic algorithm)-

Zmiana czasu a obciążenia KSE

Metody Prognozowania

Adaptive wavelet synthesis for improving digital image processing

Klucz do skutecznej sprzedaży swoich kompetencji podczas rozmowy kwalifikacyjnej

Algorytm. Algorytmy Marek Pudełko

Problemy społeczne i zawodowe informatyki

Zwiększ swoją produktywność

Metody Ilościowe w Socjologii

Poznaj swojego klienta Stwórz AVATAR

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

Przetwarzanie obrazów wykład 4

Polityka prywatności

KONSPEKT ZAJĘĆ KOŁA INFORMATYCZNEGO LUB MATEMATYCZNEGO W KLASIE III GIMNAZJUM LUB I LICEUM ( 2 GODZ.)

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

ANALIZA WYNIKÓW BADANIA

Informatyka wspomaga przedmioty ścisłe w szkole

Szkolenie Regresja liniowa

Tematyka seminariów z informatyki dla studentów I roku kierunku lekarsko-dentystycznego w roku akademickim 2017/2018.

Fabryka i3 Machine Learning w analizie ryzyka kredytowego

Rozkład materiału do zajęć z informatyki. realizowanych według podręcznika

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Pozycjonowanie. Co to takiego?

O ISTOTNYCH OGRANICZENIACH METODY

Słuchacze poznają: definicję oceniania kształtującego wybrane elementy OK opinie nauczycieli stosujących OK

Wykład z dnia 8 lub 15 października 2014 roku

Agnieszka Nowak Brzezińska

Liczby losowe i pętla while w języku Python

Raport Specjalny: 3 Największe Mity. Skutecznej Komunikacji w Języku Obcym

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,

Zakładanie konta w serwisie Canva i opcje interfejsu

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Przykładowe sprawozdanie. Jan Pustelnik

Wykład 2: Tworzenie danych

JAK SKUTECZNIE WYPROMOWAĆ IMPREZĘ BIEGOWĄ NA

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Otrzymaliśmy w ten sposób ograniczenie na wartości parametru m.

Analiza ilościowa w przetwarzaniu równoległym

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Publikacje nauczycieli Ewa Goszczycka Gimnazjum w Polesiu

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Jakie dane zbiera Sklep Internetowy w sposób automatyczny podczas korzystania z Witryny?

Algorytm. Krótka historia algorytmów

Weryfikacja hipotez statystycznych

Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE

Programowanie w Baltie klasa VII

Scenariusz lekcji Ozobot w klasie: Spacer losowy po układzie współrzędnych

O LICZBACH NIEOBLICZALNYCH I ICH ZWIĄZKACH Z INFORMATYKĄ

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Środowiska programistyczne dla szkoły podstawowej Jak zachęcić uczniów do startu w konkursach informatycznych

Iteracyjne rozwiązywanie równań

Inteligentna analiza danych

9. ILE TO KOSZTUJE CZYLI OD ZAGADKI DO ZADANIA TEKSTOWEGO, CZ. III

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

WEBINAR. Kiedy kody kreskowe, kiedy RFID a kiedy technologia głosowa?

MANIPULACJA W COACHINGU

Agnieszka Nowak Brzezińska Wykład III

WYKRESY FUNKCJI LINIOWEJ

Sposoby przedstawiania algorytmów

AKADEMIA DLA MŁODYCH PRZEWODNIK TRENERA. PRACA ŻYCIE UMIEJĘTNOŚCI

Finanse dla sprytnych

Zarządzanie procesami i dokumentami w kontekście obowiązku JPK oraz e-sprawozdań finansowych

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

JAK WYKORZYSTAĆ STORYTELLING DO SPRZEDAŻY W SOCIAL MEDIACH? STRESZCZENIE VIDEO SZKOLENIA

Metody numeryczne i statystyka dla in»ynierów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

M T E O T D O ZI Z E E A LG L O G R O Y R TM

Poradnik. Jak zrobić biżuterie krok po kroku Jovitart

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Prawdopodobieństwo i statystyka

Dwie szkoły oceny 360 stopni. Sprawdź różnicę pomiędzy klasycznym a nowoczesnym podejściem

Transkrypt:

22-24 września, Gdynia data Marek Zmuda, PhD Software Architect @ Intel Corporation

Agenda (1) Czym są dane a czym informacja? (2) Klasyczne podejście do analizy danych (3) Dlaczego stare metody nie wystarczają? (4) Big Data - o co tu chodzi? (5) Korelacja pomiędzy danymi kluczem do sukcesu (6) Big? czyli właściwie ile tych danych ma być? (7) data jakie dane nas interesują? (8) Życiowe przykłady wykorzystania technologii Big Data (9) Zagrożenia (10) Jak Ty możesz zacząć swoją przygodę z Big Data?

Czym są dane, czym informacja? Informacja (łac. łac. informatio przedstawienie, wizerunek; informare kształtować, przedstawiać) właściwość pewnych obiektów, relacja między elementami zbiorów pewnych obiektów, której istotą jest zmniejszanie niepewności (nieokreśloności) Dane (ang. data, łac. datum) zbiór liczb, tekstów, znaków, wykresów, sygnałów dostarczających informację Uwaga! Zbiory danych mogą zawierać informację Jeśli nie wiemy co reprezentują zbiory danych, nie możemy wydobyć z nich informacji

Klasyczne podejście do zbierania danych Pierwsze spisy ludności Pierwsze udokumentowane spisy ludności 7000 lat pne Uzyskiwano przybliżone dane Były bardzo kosztowne Czas zbierania danych był bardzo długi (cykl ~5 10 lat) Finalne dane były. już nieaktualne Przełomowe podejście Londyn XVII wiek, epidemia dżumy podejście statystyczne Opanowano problem przetwarzania dużych ilości danych wybierając jedynie małą, losową próbę Kluczowy wniosek: jakość danych znacznie szybciej rośnie wraz ze wzrostem losowości próby niż z jej wielkością Przeprowadzano częściowe wpisy zmniejszyło to czas i koszt

Klasyczne podejście do zbierania danych Pierwsze spisy ludności Pierwsze udokumentowane spisy ludności 7000 lat pne Uzyskiwano przybliżone dane Były bardzo kosztowne Czas zbierania danych był bardzo długi (cykl ~5 10 lat) Finalne dane były. już nieaktualne Przełomowe podejście Londyn XVII wiek, epidemia dżumy podejście statystyczne Opanowano problem przetwarzania dużych ilości danych wybierając jedynie małą, losową próbę Kluczowy wniosek: jakość danych znacznie szybciej rośnie wraz ze wzrostem losowości próby niż z jej wielkością Przeprowadzano częściowe wpisy zmniejszyło to czas i koszt Próba losowa jest jednak tylko uproszczeniem problemu. Najbardziej wiarygodne rezultaty uzyskuje się przetwarzając wszystkie dane

Klasyczne podejście do zbierania danych Wady podejścia klasycznego: Proces jest długotrwały i pracochłonny Zamknięty zbiór pytań/pomiarów Jak określić reprezentatywną próbę losową? Brak możliwości post-analiz np. sub-kategorii (inicjalna próba przestaje być reprezentatywna) Brak możliwości tworzenia analiz w czasie rzeczywistym

Klasyczne podejście do analizy danych 8 maja 2016r, słoneczny poniedziałek, o godzinie 7:30 rano, 25-letni matematyk, ubrany w żółtą koszulkę, niebieskie jeansy i pomarańczowe trampki, wyrusza swoim dwuletnim granatowym Fordem Mondeo z przedmieścia Sopotu do oddalonego o 13km centrum Gdańska. Na miejsce dojeżdża o godzinie 8:00. W tą samą trasę w kierunku przeciwnym wyrusza o godzinie 16:00 i dojeżdża do Sopotu o godzinie 16:20. O której godzinie Adam dotrze z Sopotu do Gdańska w czwartek 11 sierpnia 2016 jeśli wyjedzie o 8:00? O której godzinie Adam dotrze z Gdańska do Sopotu w środę 21 września 2016 jeśli wyjedzie o 19:00?

Klasyczne podejście do analizy danych 8 maja 2016r, słoneczny poniedziałek, o godzinie 7:30 rano, 25-letni matematyk, ubrany w żółtą koszulkę, niebieskie jeansy i pomarańczowe trampki, wyrusza swoim dwuletnim granatowym Fordem Mondeo z przedmieścia Sopotu do oddalonego o 13km centrum Gdańska. Na miejsce dojeżdża o godzinie 8:00. W tą samą trasę w kierunku przeciwnym wyrusza o godzinie 16:00 i dojeżdża do Sopotu o godzinie 16:20. O której godzinie Adam dotrze z Sopotu do Gdańska w czwartek 11 sierpnia 2016 jeśli wyjedzie o 8:00? O której godzinie Adam dotrze z Gdańska do Sopotu w środę 21 września 2016 jeśli wyjedzie o 19:00?

Klasyczne podejście do analizy danych Strategia: (1) Zrozumienie natury zjawiska (2) Określenie minimalnego modelu matematycznego opisującego problem (3) Wyłuskanie dokładnych danych i podanie ich do modelu (4) Wyznaczenie rozwiązania na podstawie modelu i podanych danych Ograniczenia: (1) Musimy dobrze rozumieć naturę zjawiska nie zawsze jest to możliwe!!! (2) Model musi uwzględniać wszystkie istotne czynniki - nie zawsze jest to możliwe!!! (3) Potrzebne są dokładnie określone dane

Big Data A gdyby tak zbierać, analizować, archiwizować wszystkie dostępne dane? Nowe podejście: N = całość video

Big Data Cechy: (1) Przetwarzanie danych o rozmiarach bliskich n=całość pozwala nam dostrzec zjawiska, których nie dostrzegaliśmy przy analizie metodą próby losowej (2) Nie musimy być zbyt dokładni przy zbieraniu i porządkowaniu danych, gdy w grę wchodzi n=całość (3) Inicjalne odejście od poszukiwania przyczyn na rzecz zrozumienia tego co się dzieje

Podejście Big Data 8 maja 2016r, słoneczny poniedziałek, o godzinie 7:30 rano, 25-letni matematyk, ubrany w żółtą koszulkę, niebieskie jeansy i pomarańczowe trampki, wyrusza swoim dwuletnim granatowym Fordem Mondeo z przedmieścia Sopotu do oddalonego o 13km centrum Gdańska. Na miejsce dojeżdża o godzinie 8:00. W tą samą trasę w kierunku przeciwnym wyrusza o godzinie 16:00 i dojeżdża do Sopotu o godzinie 16:20. O której godzinie Adam dotrze z Sopotu do Gdańska w czwartek 11 sierpnia 2016 jeśli wyjedzie o 8:00? O której godzinie Adam dotrze z Gdańska do Sopotu w środę 21 września 2016 jeśli wyjedzie o 19:00?

Podejście Big Data Strategia: (1) Zebrać jak najwięcej danych (historyczne statystyki ruchu drogowego o różnych porach dnia, roku, informacje o wydarzeniach itp) (2) Badanie korelacji pomiędzy zebranymi danymi znalezienie kluczowych czynników dla rozwiązania problemu (3) Stworzenie prototypowego algorytmu do rozwiązania problemu (4) Kalibracja i sprawdzenie poprawności działania algorytmu na podstawie danych historycznych (5) Zastosowanie algorytmu do rozwiązania problemu (przewidywanie) Warunki: (1) Musimy mieć dużo danych (2) Potrzebujemy sporych zasobów obliczeniowych

Big Data - korelacja Współczynnik korelacji - współczynnik określający poziom zależności liniowej między zmiennymi losowymi. Zwyczajowo normalizowany <-1, 1>: -1 zupełna korelacja ujemna 0 brak korelacji +1 zupełna korelacja dodatnia

Big Data - korelacja Współczynnik korelacji - współczynnik określający poziom zależności liniowej między zmiennymi losowymi. Zwyczajowo normalizowany <-1, 1>: -1 zupełna korelacja ujemna 0 brak korelacji +1 zupełna korelacja dodatnia Korelacja to nie przyczynowość!!!

data jakie dane są ciekawe? Dedykowane zbiory danych: Dane zaprojektowane specjalnie do rozwiązania problemu Dane resztkowe: Dane zebrane w celu wykonania innych analiz i właśnie tutaj zaczyna się robić ciekawie

Big Data - przykłady 2009 pojawia się nowy wirus grypy H1N1

Big Data - przykłady 2009 pojawia się nowy wirus grypy H1N1 Google Flu Trends Ocena aktualnego zagrożenia wirusem grypy na świecie, na podstawie analizy zapytań użytkowników do wyszukiwarki Google wyodrębniono 45 istotnych elementów we frazach zapytań i wykorzystano je do analizy

Big Data - przykłady Płatności

Big Data - przykłady Transport

Big Data - przykłady Translatory i sprawdzanie pisowni

Big Data - przykłady Giełda Nowojorska 2/3 z 7mld operacji jest wykonywana przez komputery

Big Data - przykłady Nie jestem robotem - Captcha

Big Data - przykłady Branża rozrywkowa

Big Data - przykłady Zagrożenia. Naruszenia prywatności jakie dane możemy udostępniać? Dane osobowe stają się towarem Czy można kogoś karać za coś czego (jeszcze) nie zrobił?

Big Data jak Ty możesz zacząć? (1) Dane wiele ogólnodostępnych, otwartych baz danych 93% danych na świecie jest w postaci cyfrowej duża część na www (2) Zasoby obliczeniowe Wiedza. www.coursera.com Twój komputer być może wystarczy Darmowe konta edukacyjne Python, R, Excel (3) Problemy do rozwiązania

Podsumowanie (1) Przetwarzanie zbiorów danych liczności n=całość pozwala nam na zaobserwowanie zjawisk niedostrzegalnych przy analizach klasycznych (2) Dokładność zbierania danych nie jest tak istotna jak w metodach klasycznych. (3) BigData pozwala nam dokładnie powiedzieć co się dzieje zamiast dlaczego (4) Analiza BigData bazuje na określeniu korelacji poszczególnych danych (5) BigData sukcesywnie dociera do wszystkich obszarów gospodarki i naszego życia (6) Ty też możesz zacząć!