DATA SCIENCE @ BIZNES Adam Wiatkowski Algorytmy uczenia maszynowego w zastosowaniach maszynowych
AGENDA 1. Wiadomości ogólne problemy uczenia maszynowego 2. Charakterystyka algorytmów 3. Analiza regresji liniowej istotna czy nie? 4. Confusion matrix główny element kontrolny algorytmy 5. PCA - redukcja wymiarowości a odkrywanie wiedzy 6. Analiza koszyka zakupowego prosta a skuteczna 7. System rekomendacji produktowej
WIADOMOŚCI OGÓLNE PROBLEMY UCZENIA MASZYNOWEGO
Problemy: Ilość danych Skalowanie Ogrom wiedzy Wielowymiarowość Potrzeby biznesowe Wydajność sprzętu Brak know-how Budżety Niekompatybilne CMS-y i inne narzędzia Prawo Wielokanałowość realny wpływ na sprzedaż?
KARTKA PAPIERU AŻ DO KSIĘŻYCA VS. ALGORYTM
PARADOKS MORAVECA Paradoks Moraveca odkrycie z dziedziny sztucznej inteligencji i robotyki, mówiące, że wbrew tradycyjnym przeświadczeniom, wysokopoziomowe rozumowanie wymaga niewielkiej mocy obliczeniowej, natomiast niskopoziomowa percepcja i zdolności motoryczne wymagają olbrzymiej mocy obliczeniowej. Sformułowali je w latach 80. XX wieku m.in. Hans Moravec, Rodney Brooks i Marvin Minsky. Moravec napisał: Stosunkowo łatwo sprawić, żeby komputery przejawiały umiejętności dorosłego człowieka w testach na inteligencję albo w grze w warcaby, ale jest trudne albo wręcz niemożliwe zaprogramowanie im umiejętności rocznego dziecka w percepcji i mobilności. Psycholog Steven Pinker określił to jako najważniejsze odkrycie, jakiego dokonano w dziedzinie sztucznej inteligencji. W swojej książce The Language Instinct napisał: Główną lekcją, wyniesioną z trzydziestu pięciu lat badań nad SI jest to, że trudne problemy są łatwe, a łatwe problemy są trudne. Umysłowe zdolności czterolatka, które uważamy za oczywiste rozpoznanie twarzy, podniesienie ołówka, przejście przez pokój faktycznie rozwiązują jedne z najtrudniejszych inżynieryjnych problemów... Gdy pojawi się nowa generacja inteligentnych urządzeń, to analitycy giełdowi, inżynierowie i ławnicy sądowi mogą zostać zastąpieni maszynami. Ogrodnicy, recepcjoniści i kucharze są bezpieczni w najbliższych dekadach
Biznes a uczenie maszynowe W którym miejscu jesteśmy? Dokąd zmierzamy? Czy powinniśmy inwestować? Czy nam się to opłaca? Ile to będzie kosztowało? Najważniejsze pytania, na które sobie odpowiesz Ale czy Twój szef to zrozumie?
Skala wartości i opłacalności analityki 20 % wartości analitycznej Wielowymiarowość Automatyzacja uczenia Uczenie maszynowe Automatyzacja pracy, integracja źródeł, Logi 80 % wartości analitycznej Dwa wymiary Business Intelligence, raportowanie
Google Trends prawdę Nam powie
CHARAKTERYSTYKA ALGORYTMÓW
UCZENIE MASZYNOWE - SCHEMAT Uczenie maszynowe Metod nadzorowane (z nauczycielem) Metody nienadzorowane (bez nauczyciela) Klasyfikacja Regresja Klastrowanie -Support Vector Machine -Discriminant Analysis -Naive Bayes -Nearest Neighbor -Neural Networks -Linear Regression, GLM -SVR, GPR -Ensemble Methods -Decision Trees -Neural Networks -K-means, K-medoids -Hierarchical -Gaussian mixture -Hidden Markov Model -Neural Networks
UCZENIE Z NADZOREM
UCZENIE BEZ NADZORU
ZASTOSOWANIA UCZENIA MASZYNOWEGO Robotyka, inteligentne samochody Identyfikacja spamu w wiadomościach email Prognozowanie pogody Segmentacja klientów w kontekście spersonalizowanej reklamy Ograniczenia nadużyć związanych z transakcjami kredytowymi Przewidywanie zachowań konsumenta, podejmowania decyzji Identyfikacja sekwencji genetycznych w powiązaniu z chorobami Optymalizacja zużycia energii czy procesów logistycznych Wykrywanie usterek w maszynach Przewidywanie liczby wypadków na drogach Systemy sterujące ruchem drogowym Rozwój inteligencji w grach komputerowych
ANALIZA REGRESJI LINIOWEJ ISTOTNA CZY NIE?
METODY LINIOWE - REGRESJA Zalety Nie są kosztowne obliczeniowo Proste do nauczenie się Łatwe do zrozumienia Wyraźnie pokazuje wartości odstające Wady Nie są tak skuteczne jak algorytmy nieliniowe
ANALIZA REGRESJI LINIOWEJ WZORY Prosta regresja liniowa jednej zmiennej Regresja liniowa wielu zmiennych
METODA NAJMNIEJSZYCH KWADRATÓW W regresji liniowej wyznaczamy linię prostą, której suma reszt (błędów) Jest maksymalnie najmniejsza
FUNKCJA KOSZTU GRADIENT DESCENT Jedną z metod wyznaczania prostej o sumie Najmniejszych błędów jest metoda zwana Gradientem. Bazuje na własności pochodnej cząstkowej
METODA GRADIENTOWA Metoda ta pozwala na uzyskanie wykresu punktów, Których minimum lokalne będzie najbliższe zeru będą to parametry najbardziej pasujące do naszego modelu
METODA GRADIENTOWA Dla więcej niż jednej zmiennej trudniej jest znaleźć minima lokalne
CONFUSION MATRIX GŁÓWNY ELEMENT KONTROLNY ALGORYTMU
WERYFIKACJA KLASYFIKATORA Na podstawie danych z tabeli Klasyfikacji, można obliczyć Różne miary dopasowania algorytmu
TABELA KLASYFIKACJI - WRAŻLIWOŚĆ
TABELA KLASYFIKACJI - SPECYFICZNOŚĆ
TABELA KLASYFIKACJI POPRAWNE SUCKESY
TABELA KLASYFIKACJI POPRAWNE PORAŻKI
TABELA KLASYFIKACJI PRAWIDŁOWA PREDYKCJA
TABELA KLASYFIKACJI BŁĄD KLASYFIKACJI
PCA - REDUKCJA WYMIAROWOŚCI A ODKRYWANIE WIEDZY
ANALIZA GŁÓWNYCH SKŁADOWYCH Analizy czynnikowe metody służące do Grupowania informacji znajdujących się w dużych zbiorach danych PCA szuka kierunków dla których wartość wariancji (informacji) jest największa. Kolejne wektory są prostopadłe względem Poprzednich Algorytm ten nie zawsze musi być interpretowalny Potrzebujemy przynajmniej 20 obserwacji na zmienną
SKŁADOWE GŁÓWNE Algorytm buduje nowe zmienne (składowe), które składają się z informacji zawartych w zmiennych z pierwszej kolumny Jak wykorzystujemy? Chcemy odkryć związki pomiędzy zmiennymi Weryfikujemy hipotezy co do przypuszczalnych związków między zmiennymi Chcemy poprawić działania innych algorytmów (regresja, segmentacja) Chcemy zredukować wymiary danych (łatwiejsza analiza, wizualizacja)
ROTACJA VARIMAX Wyodrębnianie składowych głównych jest równoznaczne z rotacją maksymalizującą wariancję (varimax)wyjściowej przestrzeni zmiennych. Sprawia że interpretacja wyników PCA jest łatwiejsze, polega na odwróceniu procesu PCA tak aby wyodrębnić czynniki tworzące poszczególne składowe Wyświetlając ładunki w sposób ograniczony (z odcięciem) i posortowany, można zinterpretować wpływ zmiennych na czynniki
ANALIZA KOSZYKA ZAKUPOWEGO PROSTA A SKUTECZNA
ALGORYTM APRIORI Analiza koszykowa (asocjacji) służy do powiązań, skojarzeń pomiędzy konkretnymi wartościami zmiennych Klienci dokonują zakupów różnych produktów w supermarkecie. Każdy z nich komponuje własną listę zakupów. Interesuje nas, jakie są powiązania między kupowanymi produktami oraz przewidzeniem (z pewnym prawdopodobieństwem), jakie produkty klient może kupić mając w koszyku inne, tzn. mając zakupione np. mleko, pytamy się, czy klient kupi także np. banany. Innymi słowy "Jakie produkty kupowane są najczęściej razem".
ANALIZA REGRESJI LINIOWEJ ISTOTNA CZY NIE? wsparcie reguły - odsetek transakcji, które zawierają wybraną regułę. Wsparcie jest liczbą z przedziału [0,1]. zaufanie - zwane też pewnością reguły, jest to odsetek transakcji zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły. Wielkość ta również należy do przedziału [0,1] - odpowiada bowiem odpowiedniemu prawdopodobieństwu warunkowemu. przyrost - jest z kolei miarą, która określa nam, czy fakt wystąpienia jednego produktu wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednej transakcji.
PROSTE LICZENIE REGUŁ
JAK TO ZROBIĆ W R? R to darmowe narzędzie/język programowania, w którym skorzystać z tysięcy bibliotek do analiz statystycznych, data miningu czy uczenia maszynowego Jest to jeden z głównych języków zawodowego data scientist
Odwieczna wojna Python vs. R
PRZEKSZTAŁCENIE DANYCH 1 red white green 2 white orange 3 white blue 4 red white orange 5 red blue 6 white blue 7 white orange 8 red white blue green 9 red white blue 10 yellow Transaction red white blue orange green yellow 1 1 1 0 0 1 0 2 0 1 0 1 0 0 3 0 1 1 0 0 0 4 1 1 0 1 0 0 5 1 0 1 0 0 0 6 0 1 1 0 0 0 7 0 1 0 1 0 0 8 1 1 1 0 1 0 9 1 1 1 0 0 0 10 0 0 0 0 0 1 Lista produktów Macierz zero - jedynkowa
WYKORZYSTAĆ KREATYWNIE ASOCJACJĘ Analiza zdarzeń na stronie internetowej oraz określenie, które elementy na stronie www są powiązane ze sprzedażą oraz w jakim stopniu są powiązane Wykorzystanie takich danych do budowy algorytmu dla silnika rekomendacji cross-sellowej. Np. jeżeli użytkownik Kupił książkę z gatunku fantasy, książka ta ma wysoki współczynnik wsparcia z produktem np. płyta dvd, algorytm może Takiemu użytkownikowi rekomendować tę płytę. Algorytm może więc rekomendować produkty w cross-sellingu w zależności od wysokiego współczynnika wsparcia czy Ufności dla danej sekwencji produktowej.
Hipoteza analityczna Realny wpływ
SYSTEM REKOMENDACJI PRODUKTOWEJ
SILNIKI REKOMENDACJI PRODUKTOWEJ Systemy rekomendacji próbują przewidzieć ocenę danego produktu przez użytkownika (czy będzie on zainteresowany danym produktem, czy nie). Wykorzystują do tego informacje o produktach, cechach użytkownika czy przyszłych preferencjach i zachowaniach użytkownika Warto wiedzieć, że ponad 60% filmów oglądanych w Netflix pochodzi z silników rekomendacji Google News: wiadomości, które są rekomendowane mają CTR wyższy o blisko 40% W Amazonie ponad 30% sprzedawanych produktów pochodzi z silników rekomendacji
SILNIKI REKOMENDACJI - MODELE Istnieje wiele koncepcji budowy silników rekomendacji: Collaborative Filtering Content-Knowledge-based Filtering Context Aware Recommendation Personalized Learning to Rank Deep Lerning Models Hybrid System
COLLABORATIVE FILTERING Systemy bazujące na powiązaniach pomiędzy użytkownikami. Odnajduje wspólne cechy użytkowników i na ich podstawie rekomenduje produkty (podobny gust filmowy, muzyczny, produktowy) Zakłada, że użytkownicy mają wspólne gusta. Będzie użytkownikowi rekomendował produkty, które kupił inny użytkownik o bardzo zbliżonym guście/cechach Relacje między użytkownikami budowane są na podstawie historii zakupów czy ocen Nie potrzebujemy dodatkowych informacji o klientach ani produktach Wady: Nie zarekomenduje produktu, który jeszcze nie był oceniany Wymaga czasu na naukę Potrzebuje danych
COLLABORATIVE FILTERING
CONTENT BASE FILTERING Content Base Filtering - Systemy bazujące na powiązaniach cech produktów bądź usług. Algorytm opiera swoje działanie jedynie na atrybutach/cechach charakterystycznych danego filmu. Rekomenduje przedmioty podobne do tych, którymi interesował się użytkownik. Wady: Ograniczanie się jedynie do suchych atrybutów filmów. Nie jest brany pod uwagę czynnik ludzki. Zalety: Algorytm jest szybki Algorytm nie potrzebuje zbyt dużo czasu na naukę
CONTENT BASE FILTERING