DATA BIZNES. Adam Wiatkowski Algorytmy uczenia maszynowego w zastosowaniach maszynowych
|
|
- Halina Markowska
- 6 lat temu
- Przeglądów:
Transkrypt
1 DATA BIZNES Adam Wiatkowski Algorytmy uczenia maszynowego w zastosowaniach maszynowych
2 AGENDA 1. Wiadomości ogólne problemy uczenia maszynowego 2. Charakterystyka algorytmów 3. Analiza regresji liniowej istotna czy nie? 4. Confusion matrix główny element kontrolny algorytmy 5. PCA - redukcja wymiarowości a odkrywanie wiedzy 6. Analiza koszyka zakupowego prosta a skuteczna 7. System rekomendacji produktowej
3 WIADOMOŚCI OGÓLNE PROBLEMY UCZENIA MASZYNOWEGO
4 Problemy: Ilość danych Skalowanie Ogrom wiedzy Wielowymiarowość Potrzeby biznesowe Wydajność sprzętu Brak know-how Budżety Niekompatybilne CMS-y i inne narzędzia Prawo Wielokanałowość realny wpływ na sprzedaż?
5 KARTKA PAPIERU AŻ DO KSIĘŻYCA VS. ALGORYTM
6 PARADOKS MORAVECA Paradoks Moraveca odkrycie z dziedziny sztucznej inteligencji i robotyki, mówiące, że wbrew tradycyjnym przeświadczeniom, wysokopoziomowe rozumowanie wymaga niewielkiej mocy obliczeniowej, natomiast niskopoziomowa percepcja i zdolności motoryczne wymagają olbrzymiej mocy obliczeniowej. Sformułowali je w latach 80. XX wieku m.in. Hans Moravec, Rodney Brooks i Marvin Minsky. Moravec napisał: Stosunkowo łatwo sprawić, żeby komputery przejawiały umiejętności dorosłego człowieka w testach na inteligencję albo w grze w warcaby, ale jest trudne albo wręcz niemożliwe zaprogramowanie im umiejętności rocznego dziecka w percepcji i mobilności. Psycholog Steven Pinker określił to jako najważniejsze odkrycie, jakiego dokonano w dziedzinie sztucznej inteligencji. W swojej książce The Language Instinct napisał: Główną lekcją, wyniesioną z trzydziestu pięciu lat badań nad SI jest to, że trudne problemy są łatwe, a łatwe problemy są trudne. Umysłowe zdolności czterolatka, które uważamy za oczywiste rozpoznanie twarzy, podniesienie ołówka, przejście przez pokój faktycznie rozwiązują jedne z najtrudniejszych inżynieryjnych problemów... Gdy pojawi się nowa generacja inteligentnych urządzeń, to analitycy giełdowi, inżynierowie i ławnicy sądowi mogą zostać zastąpieni maszynami. Ogrodnicy, recepcjoniści i kucharze są bezpieczni w najbliższych dekadach
7 Biznes a uczenie maszynowe W którym miejscu jesteśmy? Dokąd zmierzamy? Czy powinniśmy inwestować? Czy nam się to opłaca? Ile to będzie kosztowało? Najważniejsze pytania, na które sobie odpowiesz Ale czy Twój szef to zrozumie?
8 Skala wartości i opłacalności analityki 20 % wartości analitycznej Wielowymiarowość Automatyzacja uczenia Uczenie maszynowe Automatyzacja pracy, integracja źródeł, Logi 80 % wartości analitycznej Dwa wymiary Business Intelligence, raportowanie
9 Google Trends prawdę Nam powie
10
11 CHARAKTERYSTYKA ALGORYTMÓW
12 UCZENIE MASZYNOWE - SCHEMAT Uczenie maszynowe Metod nadzorowane (z nauczycielem) Metody nienadzorowane (bez nauczyciela) Klasyfikacja Regresja Klastrowanie -Support Vector Machine -Discriminant Analysis -Naive Bayes -Nearest Neighbor -Neural Networks -Linear Regression, GLM -SVR, GPR -Ensemble Methods -Decision Trees -Neural Networks -K-means, K-medoids -Hierarchical -Gaussian mixture -Hidden Markov Model -Neural Networks
13 UCZENIE Z NADZOREM
14 UCZENIE BEZ NADZORU
15 ZASTOSOWANIA UCZENIA MASZYNOWEGO Robotyka, inteligentne samochody Identyfikacja spamu w wiadomościach Prognozowanie pogody Segmentacja klientów w kontekście spersonalizowanej reklamy Ograniczenia nadużyć związanych z transakcjami kredytowymi Przewidywanie zachowań konsumenta, podejmowania decyzji Identyfikacja sekwencji genetycznych w powiązaniu z chorobami Optymalizacja zużycia energii czy procesów logistycznych Wykrywanie usterek w maszynach Przewidywanie liczby wypadków na drogach Systemy sterujące ruchem drogowym Rozwój inteligencji w grach komputerowych
16 ANALIZA REGRESJI LINIOWEJ ISTOTNA CZY NIE?
17 METODY LINIOWE - REGRESJA Zalety Nie są kosztowne obliczeniowo Proste do nauczenie się Łatwe do zrozumienia Wyraźnie pokazuje wartości odstające Wady Nie są tak skuteczne jak algorytmy nieliniowe
18 ANALIZA REGRESJI LINIOWEJ WZORY Prosta regresja liniowa jednej zmiennej Regresja liniowa wielu zmiennych
19 METODA NAJMNIEJSZYCH KWADRATÓW W regresji liniowej wyznaczamy linię prostą, której suma reszt (błędów) Jest maksymalnie najmniejsza
20 FUNKCJA KOSZTU GRADIENT DESCENT Jedną z metod wyznaczania prostej o sumie Najmniejszych błędów jest metoda zwana Gradientem. Bazuje na własności pochodnej cząstkowej
21 METODA GRADIENTOWA Metoda ta pozwala na uzyskanie wykresu punktów, Których minimum lokalne będzie najbliższe zeru będą to parametry najbardziej pasujące do naszego modelu
22 METODA GRADIENTOWA Dla więcej niż jednej zmiennej trudniej jest znaleźć minima lokalne
23 CONFUSION MATRIX GŁÓWNY ELEMENT KONTROLNY ALGORYTMU
24 WERYFIKACJA KLASYFIKATORA Na podstawie danych z tabeli Klasyfikacji, można obliczyć Różne miary dopasowania algorytmu
25 TABELA KLASYFIKACJI - WRAŻLIWOŚĆ
26 TABELA KLASYFIKACJI - SPECYFICZNOŚĆ
27 TABELA KLASYFIKACJI POPRAWNE SUCKESY
28 TABELA KLASYFIKACJI POPRAWNE PORAŻKI
29 TABELA KLASYFIKACJI PRAWIDŁOWA PREDYKCJA
30 TABELA KLASYFIKACJI BŁĄD KLASYFIKACJI
31 PCA - REDUKCJA WYMIAROWOŚCI A ODKRYWANIE WIEDZY
32 ANALIZA GŁÓWNYCH SKŁADOWYCH Analizy czynnikowe metody służące do Grupowania informacji znajdujących się w dużych zbiorach danych PCA szuka kierunków dla których wartość wariancji (informacji) jest największa. Kolejne wektory są prostopadłe względem Poprzednich Algorytm ten nie zawsze musi być interpretowalny Potrzebujemy przynajmniej 20 obserwacji na zmienną
33 SKŁADOWE GŁÓWNE Algorytm buduje nowe zmienne (składowe), które składają się z informacji zawartych w zmiennych z pierwszej kolumny Jak wykorzystujemy? Chcemy odkryć związki pomiędzy zmiennymi Weryfikujemy hipotezy co do przypuszczalnych związków między zmiennymi Chcemy poprawić działania innych algorytmów (regresja, segmentacja) Chcemy zredukować wymiary danych (łatwiejsza analiza, wizualizacja)
34 ROTACJA VARIMAX Wyodrębnianie składowych głównych jest równoznaczne z rotacją maksymalizującą wariancję (varimax)wyjściowej przestrzeni zmiennych. Sprawia że interpretacja wyników PCA jest łatwiejsze, polega na odwróceniu procesu PCA tak aby wyodrębnić czynniki tworzące poszczególne składowe Wyświetlając ładunki w sposób ograniczony (z odcięciem) i posortowany, można zinterpretować wpływ zmiennych na czynniki
35 ANALIZA KOSZYKA ZAKUPOWEGO PROSTA A SKUTECZNA
36 ALGORYTM APRIORI Analiza koszykowa (asocjacji) służy do powiązań, skojarzeń pomiędzy konkretnymi wartościami zmiennych Klienci dokonują zakupów różnych produktów w supermarkecie. Każdy z nich komponuje własną listę zakupów. Interesuje nas, jakie są powiązania między kupowanymi produktami oraz przewidzeniem (z pewnym prawdopodobieństwem), jakie produkty klient może kupić mając w koszyku inne, tzn. mając zakupione np. mleko, pytamy się, czy klient kupi także np. banany. Innymi słowy "Jakie produkty kupowane są najczęściej razem".
37 ANALIZA REGRESJI LINIOWEJ ISTOTNA CZY NIE? wsparcie reguły - odsetek transakcji, które zawierają wybraną regułę. Wsparcie jest liczbą z przedziału [0,1]. zaufanie - zwane też pewnością reguły, jest to odsetek transakcji zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły. Wielkość ta również należy do przedziału [0,1] - odpowiada bowiem odpowiedniemu prawdopodobieństwu warunkowemu. przyrost - jest z kolei miarą, która określa nam, czy fakt wystąpienia jednego produktu wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednej transakcji.
38 PROSTE LICZENIE REGUŁ
39 JAK TO ZROBIĆ W R? R to darmowe narzędzie/język programowania, w którym skorzystać z tysięcy bibliotek do analiz statystycznych, data miningu czy uczenia maszynowego Jest to jeden z głównych języków zawodowego data scientist
40 Odwieczna wojna Python vs. R
41 PRZEKSZTAŁCENIE DANYCH 1 red white green 2 white orange 3 white blue 4 red white orange 5 red blue 6 white blue 7 white orange 8 red white blue green 9 red white blue 10 yellow Transaction red white blue orange green yellow Lista produktów Macierz zero - jedynkowa
42
43 WYKORZYSTAĆ KREATYWNIE ASOCJACJĘ Analiza zdarzeń na stronie internetowej oraz określenie, które elementy na stronie www są powiązane ze sprzedażą oraz w jakim stopniu są powiązane Wykorzystanie takich danych do budowy algorytmu dla silnika rekomendacji cross-sellowej. Np. jeżeli użytkownik Kupił książkę z gatunku fantasy, książka ta ma wysoki współczynnik wsparcia z produktem np. płyta dvd, algorytm może Takiemu użytkownikowi rekomendować tę płytę. Algorytm może więc rekomendować produkty w cross-sellingu w zależności od wysokiego współczynnika wsparcia czy Ufności dla danej sekwencji produktowej.
44 Hipoteza analityczna Realny wpływ
45
46 SYSTEM REKOMENDACJI PRODUKTOWEJ
47 SILNIKI REKOMENDACJI PRODUKTOWEJ Systemy rekomendacji próbują przewidzieć ocenę danego produktu przez użytkownika (czy będzie on zainteresowany danym produktem, czy nie). Wykorzystują do tego informacje o produktach, cechach użytkownika czy przyszłych preferencjach i zachowaniach użytkownika Warto wiedzieć, że ponad 60% filmów oglądanych w Netflix pochodzi z silników rekomendacji Google News: wiadomości, które są rekomendowane mają CTR wyższy o blisko 40% W Amazonie ponad 30% sprzedawanych produktów pochodzi z silników rekomendacji
48 SILNIKI REKOMENDACJI - MODELE Istnieje wiele koncepcji budowy silników rekomendacji: Collaborative Filtering Content-Knowledge-based Filtering Context Aware Recommendation Personalized Learning to Rank Deep Lerning Models Hybrid System
49 COLLABORATIVE FILTERING Systemy bazujące na powiązaniach pomiędzy użytkownikami. Odnajduje wspólne cechy użytkowników i na ich podstawie rekomenduje produkty (podobny gust filmowy, muzyczny, produktowy) Zakłada, że użytkownicy mają wspólne gusta. Będzie użytkownikowi rekomendował produkty, które kupił inny użytkownik o bardzo zbliżonym guście/cechach Relacje między użytkownikami budowane są na podstawie historii zakupów czy ocen Nie potrzebujemy dodatkowych informacji o klientach ani produktach Wady: Nie zarekomenduje produktu, który jeszcze nie był oceniany Wymaga czasu na naukę Potrzebuje danych
50 COLLABORATIVE FILTERING
51 CONTENT BASE FILTERING Content Base Filtering - Systemy bazujące na powiązaniach cech produktów bądź usług. Algorytm opiera swoje działanie jedynie na atrybutach/cechach charakterystycznych danego filmu. Rekomenduje przedmioty podobne do tych, którymi interesował się użytkownik. Wady: Ograniczanie się jedynie do suchych atrybutów filmów. Nie jest brany pod uwagę czynnik ludzki. Zalety: Algorytm jest szybki Algorytm nie potrzebuje zbyt dużo czasu na naukę
52 CONTENT BASE FILTERING
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
data mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Wprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line
Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line Paweł Wyborski - Agenda Kim jesteśmy Czym są personalizowane rekomendacje Jak powstają rekomendacje,
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
StatSoft profesjonalny partner w zakresie analizy danych
Analiza danych Data mining Sterowanie jakością Analityka przez Internet StatSoft profesjonalny partner w zakresie analizy danych StatSoft Polska Sp. z o.o. StatSoft Polska Sp. z o.o. ul. Kraszewskiego
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2
Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Scoring kredytowy w pigułce
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110
Wprowadzenie do technologii informacyjnej.
Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Podstawy Sztucznej Inteligencji (PSZT)
Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12
ANALIZA CZYNNIKOWA Przykład 1
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Inteligentne systemy informacyjne
Filip Graliński Inteligentne systemy informacyjne Rekomendacje założenia n użytkowników (widzów, czytelników, słuchaczy etc.) m obiektów (filmów, książek, piosenek etc.) opinie wyrażone za pomocą liczb
Odkryj w danych to, co najważniejsze
Odkryj w danych to, co najważniejsze W erze data lake ów posiadanie bazy danych jest absolutnym minimum dla efektywnego prowadzenia biznesu, szczególnie w Sieci. Każda dobrze zarządzana, nowo utworzona
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Metody Optymalizacji: Przeszukiwanie z listą tabu
Metody Optymalizacji: Przeszukiwanie z listą tabu Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: wtorek
Ewelina Dziura Krzysztof Maryański
Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Digital Analytics vs Business Analytics Jak łączyć by osiągnąć maksimum korzyści? Maciej Gałecki
Digital Analytics vs Business Analytics Jak łączyć by osiągnąć maksimum korzyści? Maciej Gałecki Jak Digital Analytics może wpływać na biznes? 2 Jak rozumiem Digital Analytics? Digital Analytics to na
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych Tomasz Demski StatSoft Polska www.statsoft.pl Analiza danych Zaawansowana analityka, data
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.
GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski
Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,
Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań
TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:
Filip Graliński. Sztuczna inteligencja. Klasyfikacja i rekomendacja
Filip Graliński Sztuczna inteligencja Klasyfikacja i rekomendacja Wyszukiwanie Odkrywanie wzorców Inteligentne systemy informacyjne Eksploracja Predykcja Opis Wyszukiwanie Odkrywanie wzorców Inteligentne
1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda
Sieci neuropodobne 1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN Agenda Trochę neurobiologii System nerwowy w organizmach żywych tworzą trzy
Modelowanie glikemii w procesie insulinoterapii
Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą
w ekonomii, finansach i towaroznawstwie
w ekonomii, finansach i towaroznawstwie spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, przekopywanie danych, męczenie danych proces wykrywania zależności w zbiorach danych poprzez
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010
Materiały/konsultacje Automatyczna predykcja http://www.ibp.pwr.wroc.pl/kotulskalab Konsultacje wtorek, piątek 9-11 (uprzedzić) D1-115 malgorzata.kotulska@pwr.wroc.pl Co to jest uczenie maszynowe? Uczenie
Transformacja wiedzy w budowie i eksploatacji maszyn
Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces
Jak nie tylko być zgodnym z regulacją, ale wyciągnąć korzyści biznesowe z lepszego dopasowania oferty
Jak nie tylko być zgodnym z regulacją, ale wyciągnąć korzyści biznesowe z lepszego dopasowania oferty 5.10.2017 Copyright Sollers Consulting 2017 Jak być zgodnym z regulacją? Ale nie o tym jest ta prezentacja
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
WYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Trendy BI z perspektywy. marketingu internetowego
Trendy BI z perspektywy marketingu internetowego BI CECHUJE ORGANIZACJE DOJRZAŁE ANALITYCZNIE 2 ALE JAKA JEST TA DOJRZAŁOŚĆ ANALITYCZNA ORGANIZACJI? 3 Jaka jest dojrzałość analityczna organizacji? Zarządzanie
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji Filip Wójcik Wydział Zarządzania, Informatyki i Finansów Instytut Informatyki Ekonomicznej
Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Kurs Chemometrii Poznań 28 listopad 2006
Komisja Nauk Chemicznych Polskiej Akademii Nauk Oddział w Poznaniu Wydział Technologii Chemicznej Politechniki Poznańskiej w Poznaniu GlaxoSmithKline Pharmaceuticals S.A. w Poznaniu Stowarzyszenie ISPE
Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.
Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DATAMINING 1 S t r o n a WSTĘP Czyli jak zastąpić wróżenie z fusów i przysłowiowego nosa, statystyką i modelami ekonometrycznymi. Niniejszy dokument,
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
netsprint Firma i produkty artur.banach@netsprint.eu 1
netsprint Firma i produkty artur.banach@netsprint.eu 1 Oferta artur.banach@netsprint.eu 2 Sieć kontekstowo-behawioralna Adkontekst największa polska sieć reklamy kontekstowej umożliwiająca emisję reklam
Ewolucja sieci Sztuczna inteligencja i uczenie maszynowe
Ewolucja sieci Sztuczna inteligencja i uczenie maszynowe Piotr Chołda Katedra Telekomunikacji AGH 11 kwietnia 2018 r. Plan prezentacji 1 O co chodzi? 2 Podstawowe definicje 3 Przegląd metod Ewolucja sieci:
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 5 czerwca 2017 Pytania stawiane przez biznes 1 Jaka jest aktualnie sytuacja w firmie? 2 Na czym jeszcze możemy zarobić? Które procesy możemy usprawnić?
SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie
SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści
Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Moc personalizacji oferty obuwia sportowego
Moc personalizacji oferty obuwia sportowego Jak rekomendacje pomagają wyznaczać trendy mody ulicznej QuarticON case study od 2011 roku wyznacza trendy i współtworzy sportową modę uliczną, starannie selekcjonując
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Model procesu dydaktycznego
Model procesu dydaktycznego w zakresie Business Intelligence Zenon Gniazdowski 1,2), Andrzej Ptasznik 1) 1) Warszawska Wyższa Szkoła Informatyki, ul. Lewartowskiego 17, Warszawa 2) Instytut Technologii
Proces odkrywania wiedzy z baz danych
Proces odkrywania wiedzy z baz danych Wydział Informatyki Politechnika Białostocka Marcin Czajkowski email: m.czajkowski@pb.edu.pl Świat pełen danych Świat pełen danych Możliwości analizowania i zrozumienia
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
O badaniach nad SZTUCZNĄ INTELIGENCJĄ
O badaniach nad SZTUCZNĄ INTELIGENCJĄ Jak określa się inteligencję naturalną? Jak określa się inteligencję naturalną? Inteligencja wg psychologów to: Przyrodzona, choć rozwijana w toku dojrzewania i uczenia
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Szkolenie Analiza dyskryminacyjna
Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
O badaniach nad SZTUCZNĄ INTELIGENCJĄ
O badaniach nad SZTUCZNĄ INTELIGENCJĄ Wykład 7. O badaniach nad sztuczną inteligencją Co nazywamy SZTUCZNĄ INTELIGENCJĄ? szczególny rodzaj programów komputerowych, a niekiedy maszyn. SI szczególną własność