DATA BIZNES. Adam Wiatkowski Algorytmy uczenia maszynowego w zastosowaniach maszynowych

Transkrypt

1 DATA BIZNES Adam Wiatkowski Algorytmy uczenia maszynowego w zastosowaniach maszynowych

2 AGENDA 1. Wiadomości ogólne problemy uczenia maszynowego 2. Charakterystyka algorytmów 3. Analiza regresji liniowej istotna czy nie? 4. Confusion matrix główny element kontrolny algorytmy 5. PCA - redukcja wymiarowości a odkrywanie wiedzy 6. Analiza koszyka zakupowego prosta a skuteczna 7. System rekomendacji produktowej

3 WIADOMOŚCI OGÓLNE PROBLEMY UCZENIA MASZYNOWEGO

4 Problemy: Ilość danych Skalowanie Ogrom wiedzy Wielowymiarowość Potrzeby biznesowe Wydajność sprzętu Brak know-how Budżety Niekompatybilne CMS-y i inne narzędzia Prawo Wielokanałowość realny wpływ na sprzedaż?

5 KARTKA PAPIERU AŻ DO KSIĘŻYCA VS. ALGORYTM

6 PARADOKS MORAVECA Paradoks Moraveca odkrycie z dziedziny sztucznej inteligencji i robotyki, mówiące, że wbrew tradycyjnym przeświadczeniom, wysokopoziomowe rozumowanie wymaga niewielkiej mocy obliczeniowej, natomiast niskopoziomowa percepcja i zdolności motoryczne wymagają olbrzymiej mocy obliczeniowej. Sformułowali je w latach 80. XX wieku m.in. Hans Moravec, Rodney Brooks i Marvin Minsky. Moravec napisał: Stosunkowo łatwo sprawić, żeby komputery przejawiały umiejętności dorosłego człowieka w testach na inteligencję albo w grze w warcaby, ale jest trudne albo wręcz niemożliwe zaprogramowanie im umiejętności rocznego dziecka w percepcji i mobilności. Psycholog Steven Pinker określił to jako najważniejsze odkrycie, jakiego dokonano w dziedzinie sztucznej inteligencji. W swojej książce The Language Instinct napisał: Główną lekcją, wyniesioną z trzydziestu pięciu lat badań nad SI jest to, że trudne problemy są łatwe, a łatwe problemy są trudne. Umysłowe zdolności czterolatka, które uważamy za oczywiste rozpoznanie twarzy, podniesienie ołówka, przejście przez pokój faktycznie rozwiązują jedne z najtrudniejszych inżynieryjnych problemów... Gdy pojawi się nowa generacja inteligentnych urządzeń, to analitycy giełdowi, inżynierowie i ławnicy sądowi mogą zostać zastąpieni maszynami. Ogrodnicy, recepcjoniści i kucharze są bezpieczni w najbliższych dekadach

7 Biznes a uczenie maszynowe W którym miejscu jesteśmy? Dokąd zmierzamy? Czy powinniśmy inwestować? Czy nam się to opłaca? Ile to będzie kosztowało? Najważniejsze pytania, na które sobie odpowiesz Ale czy Twój szef to zrozumie?

8 Skala wartości i opłacalności analityki 20 % wartości analitycznej Wielowymiarowość Automatyzacja uczenia Uczenie maszynowe Automatyzacja pracy, integracja źródeł, Logi 80 % wartości analitycznej Dwa wymiary Business Intelligence, raportowanie

9 Google Trends prawdę Nam powie

10

11 CHARAKTERYSTYKA ALGORYTMÓW

12 UCZENIE MASZYNOWE - SCHEMAT Uczenie maszynowe Metod nadzorowane (z nauczycielem) Metody nienadzorowane (bez nauczyciela) Klasyfikacja Regresja Klastrowanie -Support Vector Machine -Discriminant Analysis -Naive Bayes -Nearest Neighbor -Neural Networks -Linear Regression, GLM -SVR, GPR -Ensemble Methods -Decision Trees -Neural Networks -K-means, K-medoids -Hierarchical -Gaussian mixture -Hidden Markov Model -Neural Networks

13 UCZENIE Z NADZOREM

14 UCZENIE BEZ NADZORU

15 ZASTOSOWANIA UCZENIA MASZYNOWEGO Robotyka, inteligentne samochody Identyfikacja spamu w wiadomościach Prognozowanie pogody Segmentacja klientów w kontekście spersonalizowanej reklamy Ograniczenia nadużyć związanych z transakcjami kredytowymi Przewidywanie zachowań konsumenta, podejmowania decyzji Identyfikacja sekwencji genetycznych w powiązaniu z chorobami Optymalizacja zużycia energii czy procesów logistycznych Wykrywanie usterek w maszynach Przewidywanie liczby wypadków na drogach Systemy sterujące ruchem drogowym Rozwój inteligencji w grach komputerowych

16 ANALIZA REGRESJI LINIOWEJ ISTOTNA CZY NIE?

17 METODY LINIOWE - REGRESJA Zalety Nie są kosztowne obliczeniowo Proste do nauczenie się Łatwe do zrozumienia Wyraźnie pokazuje wartości odstające Wady Nie są tak skuteczne jak algorytmy nieliniowe

18 ANALIZA REGRESJI LINIOWEJ WZORY Prosta regresja liniowa jednej zmiennej Regresja liniowa wielu zmiennych

19 METODA NAJMNIEJSZYCH KWADRATÓW W regresji liniowej wyznaczamy linię prostą, której suma reszt (błędów) Jest maksymalnie najmniejsza

20 FUNKCJA KOSZTU GRADIENT DESCENT Jedną z metod wyznaczania prostej o sumie Najmniejszych błędów jest metoda zwana Gradientem. Bazuje na własności pochodnej cząstkowej

21 METODA GRADIENTOWA Metoda ta pozwala na uzyskanie wykresu punktów, Których minimum lokalne będzie najbliższe zeru będą to parametry najbardziej pasujące do naszego modelu

22 METODA GRADIENTOWA Dla więcej niż jednej zmiennej trudniej jest znaleźć minima lokalne

23 CONFUSION MATRIX GŁÓWNY ELEMENT KONTROLNY ALGORYTMU

24 WERYFIKACJA KLASYFIKATORA Na podstawie danych z tabeli Klasyfikacji, można obliczyć Różne miary dopasowania algorytmu

25 TABELA KLASYFIKACJI - WRAŻLIWOŚĆ

26 TABELA KLASYFIKACJI - SPECYFICZNOŚĆ

27 TABELA KLASYFIKACJI POPRAWNE SUCKESY

28 TABELA KLASYFIKACJI POPRAWNE PORAŻKI

29 TABELA KLASYFIKACJI PRAWIDŁOWA PREDYKCJA

30 TABELA KLASYFIKACJI BŁĄD KLASYFIKACJI

31 PCA - REDUKCJA WYMIAROWOŚCI A ODKRYWANIE WIEDZY

32 ANALIZA GŁÓWNYCH SKŁADOWYCH Analizy czynnikowe metody służące do Grupowania informacji znajdujących się w dużych zbiorach danych PCA szuka kierunków dla których wartość wariancji (informacji) jest największa. Kolejne wektory są prostopadłe względem Poprzednich Algorytm ten nie zawsze musi być interpretowalny Potrzebujemy przynajmniej 20 obserwacji na zmienną

33 SKŁADOWE GŁÓWNE Algorytm buduje nowe zmienne (składowe), które składają się z informacji zawartych w zmiennych z pierwszej kolumny Jak wykorzystujemy? Chcemy odkryć związki pomiędzy zmiennymi Weryfikujemy hipotezy co do przypuszczalnych związków między zmiennymi Chcemy poprawić działania innych algorytmów (regresja, segmentacja) Chcemy zredukować wymiary danych (łatwiejsza analiza, wizualizacja)

34 ROTACJA VARIMAX Wyodrębnianie składowych głównych jest równoznaczne z rotacją maksymalizującą wariancję (varimax)wyjściowej przestrzeni zmiennych. Sprawia że interpretacja wyników PCA jest łatwiejsze, polega na odwróceniu procesu PCA tak aby wyodrębnić czynniki tworzące poszczególne składowe Wyświetlając ładunki w sposób ograniczony (z odcięciem) i posortowany, można zinterpretować wpływ zmiennych na czynniki

35 ANALIZA KOSZYKA ZAKUPOWEGO PROSTA A SKUTECZNA

36 ALGORYTM APRIORI Analiza koszykowa (asocjacji) służy do powiązań, skojarzeń pomiędzy konkretnymi wartościami zmiennych Klienci dokonują zakupów różnych produktów w supermarkecie. Każdy z nich komponuje własną listę zakupów. Interesuje nas, jakie są powiązania między kupowanymi produktami oraz przewidzeniem (z pewnym prawdopodobieństwem), jakie produkty klient może kupić mając w koszyku inne, tzn. mając zakupione np. mleko, pytamy się, czy klient kupi także np. banany. Innymi słowy "Jakie produkty kupowane są najczęściej razem".

37 ANALIZA REGRESJI LINIOWEJ ISTOTNA CZY NIE? wsparcie reguły - odsetek transakcji, które zawierają wybraną regułę. Wsparcie jest liczbą z przedziału [0,1]. zaufanie - zwane też pewnością reguły, jest to odsetek transakcji zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły. Wielkość ta również należy do przedziału [0,1] - odpowiada bowiem odpowiedniemu prawdopodobieństwu warunkowemu. przyrost - jest z kolei miarą, która określa nam, czy fakt wystąpienia jednego produktu wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednej transakcji.

38 PROSTE LICZENIE REGUŁ

39 JAK TO ZROBIĆ W R? R to darmowe narzędzie/język programowania, w którym skorzystać z tysięcy bibliotek do analiz statystycznych, data miningu czy uczenia maszynowego Jest to jeden z głównych języków zawodowego data scientist

40 Odwieczna wojna Python vs. R

41 PRZEKSZTAŁCENIE DANYCH 1 red white green 2 white orange 3 white blue 4 red white orange 5 red blue 6 white blue 7 white orange 8 red white blue green 9 red white blue 10 yellow Transaction red white blue orange green yellow Lista produktów Macierz zero - jedynkowa

42

43 WYKORZYSTAĆ KREATYWNIE ASOCJACJĘ Analiza zdarzeń na stronie internetowej oraz określenie, które elementy na stronie www są powiązane ze sprzedażą oraz w jakim stopniu są powiązane Wykorzystanie takich danych do budowy algorytmu dla silnika rekomendacji cross-sellowej. Np. jeżeli użytkownik Kupił książkę z gatunku fantasy, książka ta ma wysoki współczynnik wsparcia z produktem np. płyta dvd, algorytm może Takiemu użytkownikowi rekomendować tę płytę. Algorytm może więc rekomendować produkty w cross-sellingu w zależności od wysokiego współczynnika wsparcia czy Ufności dla danej sekwencji produktowej.

44 Hipoteza analityczna Realny wpływ

45

46 SYSTEM REKOMENDACJI PRODUKTOWEJ

47 SILNIKI REKOMENDACJI PRODUKTOWEJ Systemy rekomendacji próbują przewidzieć ocenę danego produktu przez użytkownika (czy będzie on zainteresowany danym produktem, czy nie). Wykorzystują do tego informacje o produktach, cechach użytkownika czy przyszłych preferencjach i zachowaniach użytkownika Warto wiedzieć, że ponad 60% filmów oglądanych w Netflix pochodzi z silników rekomendacji Google News: wiadomości, które są rekomendowane mają CTR wyższy o blisko 40% W Amazonie ponad 30% sprzedawanych produktów pochodzi z silników rekomendacji

48 SILNIKI REKOMENDACJI - MODELE Istnieje wiele koncepcji budowy silników rekomendacji: Collaborative Filtering Content-Knowledge-based Filtering Context Aware Recommendation Personalized Learning to Rank Deep Lerning Models Hybrid System

49 COLLABORATIVE FILTERING Systemy bazujące na powiązaniach pomiędzy użytkownikami. Odnajduje wspólne cechy użytkowników i na ich podstawie rekomenduje produkty (podobny gust filmowy, muzyczny, produktowy) Zakłada, że użytkownicy mają wspólne gusta. Będzie użytkownikowi rekomendował produkty, które kupił inny użytkownik o bardzo zbliżonym guście/cechach Relacje między użytkownikami budowane są na podstawie historii zakupów czy ocen Nie potrzebujemy dodatkowych informacji o klientach ani produktach Wady: Nie zarekomenduje produktu, który jeszcze nie był oceniany Wymaga czasu na naukę Potrzebuje danych

50 COLLABORATIVE FILTERING

51 CONTENT BASE FILTERING Content Base Filtering - Systemy bazujące na powiązaniach cech produktów bądź usług. Algorytm opiera swoje działanie jedynie na atrybutach/cechach charakterystycznych danego filmu. Rekomenduje przedmioty podobne do tych, którymi interesował się użytkownik. Wady: Ograniczanie się jedynie do suchych atrybutów filmów. Nie jest brany pod uwagę czynnik ludzki. Zalety: Algorytm jest szybki Algorytm nie potrzebuje zbyt dużo czasu na naukę

52 CONTENT BASE FILTERING