Rozwiązania Machine Learning



Podobne dokumenty
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Co to jest Business Intelligence?

Usługi analityczne budowa kostki analitycznej Część pierwsza.

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

Informacja o firmie i oferowanych rozwiązaniach

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Rola analityki danych w transformacji cyfrowej firmy

Zapisywanie algorytmów w języku programowania

omnia.pl, ul. Kraszewskiego 62A, Jarosław, tel

Dokument Detaliczny Projektu Temat: Księgarnia On-line Bukstor

IBM DATASTAGE COMPETENCE CENTER

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

HP Service Anywhere Uproszczenie zarządzania usługami IT

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Widzenie komputerowe (computer vision)

Mateusz Kurleto NEOTERIC. Analiza projektu B2B Kielce, 18 października 2012

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Szkolenia SAS Cennik i kalendarz 2017

ALGORYTM RANDOM FOREST

Spectrum Spatial. Dla systemów BI (Business Intelligence)

Leonard G. Lobel Eric D. Boyd. Azure SQL Database Krok po kroku. Microsoft. Przekład: Marek Włodarz. APN Promise, Warszawa 2014

Efekt kształcenia. Wiedza

Analiza danych i data mining.

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Narzędzia Informatyki w biznesie

Portale raportowe, a narzędzia raportowe typu self- service

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Projektowanie baz danych za pomocą narzędzi CASE

DESIGNER APPLICATION. powered by

REFERAT PRACY DYPLOMOWEJ

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Curtis D. Frye. Microsoft Excel Krok po kroku. Przekład: Leszek Biolik

Rozpocznij swój pierwszy projekt IoT i AR z Transition Technologies PSC

NALITYKA IZNESOWA WYDZIAŁ ORGANIZACJI I ZARZĄDZANIA POLITECHNIKA ŚLĄSKA NOWY KIERUNEK STUDIÓW.

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Workplace by Facebook. Twoja bezpieczna, firmowa sieć społecznościowa

Oferta szkoleniowa Yosi.pl 2012/2013

O mnie

Jak założyć konto? Co znajdziesz na FWF? Strona Narzędzia Jak dokonać płatności? Lista autorów... 12

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Twoje Business Intelligence.

Rozwiązania SCM i Portal dla handlu i przemysłu

Internetowy system e-crm do obsługi biura podróży. Marek Bytnar, Paweł Kraiński

Logotec App Studio - zalety

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

IBM Business Analytics

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

INSTRUKCJA UŻYTKOWNIKA. Wielkopolski system doradztwa. edukacyjno-zawodowego

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

System Informatyczny dla Administracji Samorządowej SIDAS - narzędzie zarządzania dokumentacją, procesami i budżetem w jst Kuba Lewicki

Zarządzanie testowaniem wspierane narzędziem HP Quality Center

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA

AUREA BPM HP Software. TECNA Sp. z o.o. Strona 1 z 7

ActiveXperts SMS Messaging Server

Procesowa specyfikacja systemów IT

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Podsumowanie wyników ankiety

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Microsoft Class Server. Waldemar Pierścionek, DC EDUKACJA

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Narzędzia mobilne w służbie IT

Warsztaty prowadzone są w oparciu o oficjalne wytyczne firmy Microsoft i pokrywają się z wymaganiami

Platforma e-learning Beyond45. Przewodnik użytkownika

Sage ACT! Twój CRM! Zdobywaj, zarządzaj, zarabiaj! Zdobywaj nowych Klientów! Zarządzaj relacjami z Klientem! Zarabiaj więcej!

Program szkolenia EXCEL PRZEKROJOWY ZAAWANSOWANY.

Zarządzaj projektami efektywnie i na wysokim poziomie. Enovatio Projects SYSTEM ZARZĄDZANIA PROJEKTAMI

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

OFERTA SZKOLENIOWA PROGRESS SOFTWARE

System zarządzający grami programistycznymi Meridius

Business Intelligence

Case Study: Migracja 100 serwerów Warsaw Data Center z platformy wirtualizacji OpenSource na platformę Microsoft Hyper-V

E-commerce. Genialnie proste tworzenie serwisów w PHP i MySQL.

Dokumentacja Końcowa

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

EasyInput EasyInput wydajniejsza praca użytkownika dzięki integracji SAP z MS Excel. Prezentacja produktu

WYMAGANIA EDUKACYJNE. Informatyka Szkoła Podstawowa Klasa 4 NA ŚRÓDROCZNĄ I ROCZNĄ OCENĘ KLASYFIKACYJNĄ

Microsoft SharePoint Współpraca bez barier oraz organizacja portalu intranetowego i obiegu dokumentów

Sprawozdanie z realizacji programu Kodowanie z klasą dla uczniów klasy II i IV Szkoły Podstawowej nr 7

ZARZĄDZANIE DOKUMENTACJĄ. Tomasz Jarmuszczak PCC Polska

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.

The Binder Consulting

2.8. Algorytmy, schematy, programy

MDW. (Moduł Dystrybucji Wysyłek) (Moduł Magento) v Strona 1 z 11

WYMAGANIA NA POSZCZEGÓLNE OCENY Z INFORMATYKI /GIMNAZJUM W SŁAWĘCINIE/

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

INŻYNIERIA OPROGRAMOWANIA

PRZEDMIOTY REALIZOWANE W RAMACH KIERUNKU INFORMATYKA I STOPNIA STUDIA STACJONARNE

Transkrypt:

Webinarium: Rozwiązania Machine Learning Prelegenci: Paweł Potasiński Product Manager, Microsoft Włodzimierz Bielski Business Intelligence Architect, ITmagination Paulina Schab Business Intelligence Consultant, ITmagination Streszczenie webinarium Rozwiązania Machine Learning Coraz więcej instytucji na świecie interesuje się analizą predykcyjną. Technologia ta stosowana jest w wielu obszarach m.in. do rozpoznawania obrazu, ale aby możliwe było korzystanie z niej potrzebna jest sprawna, dobrze zasilana informacjami hurtownia danych, na podstawie której można przygotować odpowiednią analizę, a następnie predykcję. Rodzący się nowy trend w naukach informatycznych zyskał miano Data Science i jest dziedziną wymagającej perspektywicznego spojrzenia, interdyscyplinarną. Ze względu na szeroki zakres umiejętności potrzebnych w tym obszarze wiedzy niewiele jest obecnie osób przygotowanych do wykonywania zawodu Data Scientist. Data Science wykorzystuje procesy Machine Learning, które wymagały dotychczas specjalistycznej wiedzy z dziedziny języków programowania. Na szczęście to się zmienia i próg wymagań w tym zakresie dla specjalistów obniża się, dzięki czemu mogą oni skupić się na analizowaniu problemu i szukaniu jego rozwiązania, zamiast poświęcać czas kodowaniu w specyficznych językach programowania. Usługa Azure Machine Learning (Azure ML) ułatwia pracownikom Data Scientist projektowanie procesów Machine Learning. Uwalnia specjalistów od konieczności samodzielnego lub wspomaganego przez deweloperów, programowania algorytmów. Azure ML zawiera własny zestaw algorytmów, umożliwiających tworzenie modeli oraz porównywanie ich ze sobą. Dzięki usłudze Azure ML Data Scientist mogą w łatwy sposób tworzyć własne, nowe modele, udostępniać je wielu użytkownikom poprzez dowolną przeglądarkę i tym samym przyczynić się do poprawy wyników finansowych i zwiększania wartości organizacji.

Wprowadzenie. Eksplozja danych szanse i wyzwania W ostatnich latach ilość gromadzonych danych staje się coraz większa, a zjawisko to można określić jako swoistą eksplozję danych. Ilość informacji jest już liczona w zetabajtach. Jednostki terabajtów są odnoszone obecnie praktycznie do pojedynczego użytkownika. danymi tradycyjnymi, ale również z danymi nowych typów. Wszystko to sprawia, że analityka staje się dużym wyzwaniem, chociaż sam trend Big Data nie jest już uznawany na rynku za nowy. Drugim ważnym czynnikiem występującym obecnie jest zmienność tych danych. Co roku obserwujemy około 20 procentowy przyrost w stosunku do wszystkich danych, które istniały w historii do tego czasu. Zależność ta więc nie jest już nawet nie liniowa, lecz wykładnicza. Wiąże się z tym trend Big Data. Trzecim ważnym czynnikiem determinującym naszą rzeczywistość jest różnorodność danych, które otrzymujemy do analizy. Mamy do czynienia z Nowa nauka: Data Science Nowością na rynku stał się trend Data Science. Wywodzi się on z pojęcia angielskiego, dobrze znanego w świecie informatyki Computer Science. W Computer Science interesują nas algorytmy. Data Science jest nauką o danych, o wszelkich ich aspektach, metodach zbierania i porządkowania danych, analizowania, uzyskiwania na ich podstawie wiedzy i wnioskowania o zależnościach między zdarzeniami. Data Science jest dziedziną interdyscyplinarną. Nie wiąże się wyłącznie z obszarem matematyki i informatyki. Nie polega tylko na obróbce danych w sposób informatyczny - warto podkreślić, że Data Science ma ścisły związek z biznesem, którego dotyczą dane. Bez znajomości meritum danego biznesu nie sposób zajmować się Data Science. Data Scientist zawód przyszłości? Samo pojęcie Data Science jest na tyle nowe, że jeszcze nie zostało ustalone jak powinna nazywać się osoba, która się zajmuje tą dziedziną wiedzy. Data Scientist to po polsku Naukowiec Danych lub Mistrz Danych można zakładać, że dopiero z czasem okaże się, która nazwa przyjmie się w powszechnym użyciu. Kluczową cechą tego specjalisty są zdolności matematyczno-statystyczne, ale również potrzebna jest mu wiedza biznesowa, doświadczenie oraz znajomość algorytmów, które Data Scientist może potem wykorzystywać. Bardzo ważna dla tego zawodu jest zdolność przekazywania wiedzy i jej zapisywania. Liczą się zdolności interpersonalne, a 2 S t r o n a http://e-webinaria.azurewebsites.net

także znajomość języków programowania. Z tych powodów Data Scientist musi być osobą posiadającą zdolności interdyscyplinarne. Zapewne też dlatego obserwujemy deficyt takich specjalistów na rynku pracy. W branży IT zmniejsza się w pewnym stopniu zapotrzebowanie na deweloperów, a zwiększa zapotrzebowanie na konsultantów, którzy potrzeby biznesowe potrafią odwzorować w kodzie oprogramowania. Najczęściej stosowane przez specjalistów Data Science narzędzia informatyczne wymienione są na rycinie obok. Popularnymi w tej dziedzinie są języki SQL, R oraz narzędzia takie jak Python, Excel i Hadoop. Ze względu na szeroki zakres umiejętności potrzebnych w tej branży niewiele jest obecnie osób przygotowanych do wykonywania tego zawodu. Czym jest Machine Learning? Zagadnienie w jaki sposób działa Machine Learning najlepiej jest wyjaśnić na przykładzie. Jeśli chcielibyśmy nauczyć automat rozpoznawania cyfr, na przykład w celu sortowania przesyłek pocztowych, pierwszym krokiem będzie dostarczenie automatowi danych, na których będzie on mógł "uczyć się". Aby można było ocenić porażkę i sukces klasyfikacji dokonanej przez uczący się algorytm, powinniśmy również dostarczyć poprawne zbiory danych - pary składające się z zeskanowanego obrazu przesyłki i poprawnej cyfry będącej faktycznym numerem przesyłki. W efekcie automat będzie mógł "uczyć się" porównując te dwa zbiory danych. Gdy dostarczymy nowy zbiór danych będziemy mogli posłużyć się wyuczonym klasyfikatorem, który będzie w stanie przyporządkować obrazom nauczone wartości w postaci cyfr. Jest to najbardziej klasyczny przykład Machine Learning wzięty z rzeczywistości. Nie da się całkowicie rozdzielić Machine Learning od Data Mining i sztucznej inteligencji. Machine Learning jest w pewnym stopniu analizą predykcyjną. Coraz więcej klientów jest zainteresowanych analizą predykcyjną, np. w obszarze rozpoznawania obrazu, ale do realizacji tego zadania potrzebna jest sprawna hurtownia danych, zasilana dużą ilością aktualnych danych. Dopiero na tej podstawie można przygotować odpowiednią analizę, a następnie wykonywać predykcję. Paweł Potasiński Product Manager, Microsoft 3 S t r o n a http://e-webinaria.azurewebsites.net

Proces Data Science Proces Data Science został przedstawiony na poniższej rycinie. Rozpoczyna się on od zdefiniowania problemu, poprzez zbudowanie modelu, a najczęściej kilku modeli, aż po rozwiązania. Do porównania modeli potrzebna jest metryka, która pozwoli na odróżnianie ich, wybór najlepszego i w dalszym etapie - zbudowanie rozwiązań. Po pobraniu danych z jednego lub wielu źródeł należy je "wyczyścić". Tzw. czyszczenie może odbywać się za pomocą narzędzi technicznych, które będą odrzucać dane, np. dane niekompletne lub posiadające niespójne wartości. Z drugiej strony "czyszczenie danych" wymaga specjalistycznej wiedzy z danej dziedziny. Tylko Data Scientist zna źródła danych i wie, że konkretne źródło posiada wiadome mu przekłamania, które tylko człowiek jest w stanie zidentyfikować i poprawić. Jakość danych, na podstawie których budowany jest model i rozwiązanie ma kluczowe znaczenie, dlatego coraz więcej klientów zaczyna przywiązywać odpowiednio dużą wagę do jakości informacji. Ponieważ w większości firm ładowanie danych nie stanowi już problemu, większą wagę przywiązuje się do ich jakości oraz zagadnienia Master Data - zarządzania danymi. Jakość danych jest kluczową kwestią dla Machine Learning. Drugą tak ważnym zagadnieniem dla dziedziny Data Science jest wkład ludzki inteligencja, intuicja i doświadczenie, których to cech nie zastąpi żadna maszyna. Kolejnym etapem postępowania w Data Science jest podział danych na zbiór uczący i zbiór testowy. Zbiory te będą konieczne do procesu tzw. trenowania modelu. 4 S t r o n a http://e-webinaria.azurewebsites.net

Następnym etapem jest dokonanie wstępnego wyboru atrybutów i oceny modelu. Liczba iteracji w algorytmie zależy od dziedziny oraz od tego jak bardzo ogólnie lub szczegółowo został zdefiniowany problem. Im problem jest bardziej ogólny tym więcej iteracji wymaga algorytm. Na liczbę iteracji w algorytmie wpływa również wiedza Data Scientist na temat danego problemu. Kwestią, na którą należy zwrócić uwagę jest możliwość przetrenowania modelu czyli zbyt dobre dopasowanie modelu do wprowadzonych danych. Wiedza i doświadczenie z tej dziedziny mówi, że model przetrenowany nie będzie dobrze przewidywał rozwiązań dotyczących przyszłości. 5 S t r o n a http://e-webinaria.azurewebsites.net

Machine Learning w Microsoft Firma Microsoft wprowadziła w ostatnich latach różne narzędzia, które wykorzystują Machine Learning. Narzędzia te obrazuje rycina powyżej. Algorytmy data mining zostały wykorzystane w wielu produktach, m.in. w SQL Server 2005. Uczenie maszynowe zostało zastosowane także w oprogramowaniu Microsoft Kinect, wyłapującym gesty graczy. Usługi Machine Learning w chmurze są oparte na wielu różnorodnych doświadczeniach firmy Microsoft zdobytych przy tworzeniu wcześniejszych aplikacji. Wszystkie te wieloletnie doświadczenia zostały zebrane i wykorzystane do stworzenia Azure Machine Learning. Paulina Schab Business Intelligence Consultant, ITmagination oraz Włodzimierz Bielski Business Intelligence Architect, ITmagination 6 S t r o n a http://e-webinaria.azurewebsites.net

Azure Machine Learning (AzureML) Usługa Azure Machine Learning jest usługą platformy Azure i z punktu widzenia dewelopera, składa się z 3 części: 1. standardowego portalu administracyjnego Azure, który służy do zarządzania machine learning, poprzez tworzenie work spaces czyli obszarów roboczych, 2. narzędzia ML Studio graficznego edytora przepływów, 3. ML API Service. Usługa Azure integruje się z funkcjami języka R i Python, a także Azure Data Factory. Może również integrować przepływy danych z SQL Data Base, Hadoop, i źródłami dodatkowymi tzw. on premise. Z architektury tej wynika bogactwo zastosowań Azure: dla Data Scientist, dla klasycznego dewelopera oraz możliwość integracji danych z web serwisów. Najważniejszą cechą Azure jest ułatwienie dla użytkownika procesu machine learning. Azure Machine Learning jest usługą płatną. Płatność za usługę Azure zależy od liczby godzin wykorzystanych na uruchamianie procesów w ML Studio i odwołań z API do gotowych modeli. ML Studio jak zakładać przestrzeń roboczą - czyli work spaces ML Studio posiada szereg funkcjonalności. Jest to aplikacja działająca w chmurze. Służy do tworzenia modeli i ich trenowania. Można do tego narzędzia ładować własne dane, można też korzystać z przykładowych danych, dzielić dane, pracować na meta danych. Cały proces w ML Studio kończy się 7 S t r o n a http://e-webinaria.azurewebsites.net

stworzeniem wytrenowanego modelu, który możemy zapisać i wykorzystywać rozwiązaniu problemu. Można także porównywać użyteczność różnych modeli dla danego problemu. Stworzone modele nadają się automatycznie do użycia w web serwisach, poprzez które będziemy wykorzystywać stworzone modele do zadań praktycznych na danych rzeczywistych. Usługa Azure integruje się również z aplikacjami takimi jak Power BI, co gwarantuje łatwy dostęp do wyników poprzez dowolną przeglądarkę w każdym miejscu i z każdego urządzenia. Podstawową kwestią w procesie Machine Learning są źródła danych. Można korzystać z własnych danych lokalnych, które załadujemy do chmury. Z uwagi na pracę z dużymi źródłami danych może być zastosowana usługa Hadoop lub Azure Storage. W wymienionych narzędziach Microsoft można dane zarówno czytać jak i zapisywać, a następnie wykorzystywać w późniejszym okresie do tworzenia modeli w usłudze Azure. 8 S t r o n a http://e-webinaria.azurewebsites.net

Algorytmy w Azure ML Część algorytmów znana jest użytkownikom, którzy korzystali wcześniej z SQL Servera. Inne, nowe algorytmy są bardzo nowoczesne a dodatkowo,, ponieważ jest to usługa działająca w chmurze, kolejne algorytmy będą stopniowo dodawane do usługi Azure ML. Algorytmy te występują w grupach: regresja, klasyfikacja i grupowanie. Występuje m.in. kilka odmian drzew decyzyjnych. W Azure można porównywać różne algorytmy ze sobą, co ułatwia Data Scientist tworzenie nowych modeli. Usługa Azure Machine Learning ma tę zaletę, że nie wymaga samodzielnego programowania. Można budować modele wykorzystując gotowe algorytmy i dzięki temu w łatwy i szybki sposób tworzyć modele i wizualizować je w postaci tabel, wykresów lub nawet map. Szybkość budowania, nawet skomplikowanych, modeli w Azure ML silnie zależy od doświadczenia Data Scientist. Automatyzacja procesu tworzenia i korzystania z modeli w Microsoft Azure jest tak daleko posunięta, że może zająć czasami tylko kilkanaście minut, co pokazują demonstracje. 9 S t r o n a http://e-webinaria.azurewebsites.net

Demonstracja Sieć sklepów planuje rozwój. Należy wybrać najlepsze lokalizacje dla nowych sklepów. Dostępne są dane: parametry istniejących sklepów, lista dostępnych lokalizacji i dane demograficzne. Logowanie na platformę Microsoft Azure Wybór z listy dostępnych usług rozwiązań Machine Learning 10 S t r o n a http://e-webinaria.azurewebsites.net

Stworzenie środowiska roboczego i nadanie uprawnień dla właściciela obszaru roboczego Właściciel obszaru, po zalogowaniu się może stworzyć nowy eksperyment korzystając z puli dostępnych eksperymentów. 11 S t r o n a http://e-webinaria.azurewebsites.net

Tworzenie nowego eksperymentu w taki sposób, by wyuczony model był w stanie przewidywać zysk (stworzyć predykcję zysku). Wczytanie i połączenie danych w modelu. 12 S t r o n a http://e-webinaria.azurewebsites.net

Filtrowanie istotnych danych (Project Columns) i podział danych na dwa zbiory (Split) - zbiór, którym będziemy maszynę uczyć i zbiór na podstawie którego będziemy oceniać wyniki predykcji przez nauczony model. Uruchomienie gotowego modelu przyciskiem Run. 13 S t r o n a http://e-webinaria.azurewebsites.net

Wizualizacja wyników predykcji modelu czyli prognozowanego przez model zysku dla danej lokalizacji. Korzystając z tak wytrenowanego modelu możemy uzyskiwać wyniki predykcji dla nowych - proponowanych lokalizacji oceniając ich przydatność dla sieci sklepów na podstawie szacowanego przez model zysku. Z wcześniejszego drzewa usuwamy dane, na podstawie których trenowaliśmy model i wstawiamy w jego miejsce wytrenowany model. 14 S t r o n a http://e-webinaria.azurewebsites.net

Zapisane w Azure Storage wyniki możemy obejrzeć w Microsoft Excel korzystając z danych dostępowych (nazwa konta, klucz). 15 S t r o n a http://e-webinaria.azurewebsites.net

Wizualizacja danych. 16 S t r o n a http://e-webinaria.azurewebsites.net

Demonstracja 2 Scoring klientów i ocena ryzyka kredytowego na podstawie historycznych danych scoringowych o klientach. Przygotowanie danych wejściowych i nadanie nazw poszczególnym kolumnom tabeli. Podgląd na nazwy kolumn po poprawnym zintegrowaniu pliku z danymi z plikiem z nazwami kolumn. W komunie Credit risk podane jest ryzyko kredytowe: 1 - niskie, 2 - wysokie. 17 S t r o n a http://e-webinaria.azurewebsites.net

Implementujemy uczenie z nadzorowaniem w proporcjach 70:30. Dodajemy blok z językiem R, który używamy w celu zmiany zbioru danych. Dane poprzez ten skrypt w języku R są modyfikowane w taki sposób, by zwiększyć wagę danych mówiących o zagrożeniu ryzykiem kredytowym i niewypłacalnością klienta. 18 S t r o n a http://e-webinaria.azurewebsites.net

Wybieramy 2 algorytmy, którymi uczyć będziemy model. Docelowo wybierzemy ten, który okaże się efektywniejszy przy rozwiązywaniu tego problemu. Dodajemy blok normalizacji danych wejściowych czyli transformacji ich zakresu na zakres od 0 do 1. 19 S t r o n a http://e-webinaria.azurewebsites.net

Dodajemy blok ewaluacji czyli oceny stworzonych przez nas modeli. Uruchomienie obliczeń modelu. Obydwa modele są trenowane na danych służących do nauki, a następnie wyniki, które zwracają modele dla danych testowych podlegają ocenie (są ewaluowane). 20 S t r o n a http://e-webinaria.azurewebsites.net

Wizualizacja procesu ewaluacji danych. Na podstawie tych danych dokonujemy wyboru lepszego algorytmu dla naszego problemu. Decydujemy się na algorytm drzewa decyzyjnego. Wyuczony model łączymy z docelowymi danymi scoringowymi, po to by zyskać ocenę kredytową nowych klientów. Następnie publikujemy rezultaty w celu otrzymania do nich dostępu za pomocą web serwisu. 21 S t r o n a http://e-webinaria.azurewebsites.net

Narzędzie w portalu Azure samo przygotowuje kod w języku R, który odpytuje web serwis możemy go użyć do dalszego przetwarzania otrzymanych danych w RStudio. W RStudio podstawiamy do otrzymanego kodu klucz API, po to by móc korzystać ze stworzonego na platformie Azure web serwisu. Podobny zabieg możemy wykonać jeżeli korzystamy z innych języków np. Python. 22 S t r o n a http://e-webinaria.azurewebsites.net

W Excelu korzystamy ze stworzonego przez społeczność bezpłatnego dodatku, który odpytuje web serwis i podaje wynik. Używamy funkcji, która jest dostępna w tym dodatku i otrzymujemy w komórce, w której stosowana jest ta funkcja gotowy wynik w postaci wartości scoringu: 1 lub 2. Integracja AzureML z językiem R Azure ML posiada wbudowane zadanie Execute R Script oraz prawie 400 pakietów z CRAN w standardzie. Narzędzie Microsoft pozwala wykorzystywać dotychczasowe osiągnięcia naukowców w języku R. 23 S t r o n a http://e-webinaria.azurewebsites.net

Kluczową zaletą Azure ML jest integracja różnych rozwiązań, niewidoczna infrastruktura ukryta w chmurze, łatwość tworzenia modeli, dostępność gotowych rozwiązań dla osób, które nie znają programowania w języku R. Machine Learning może być wykorzystywane m.in. do (rycina powyżej) : 1. Rozpoznawania i klasyfikacji obrazów, np. wykorzystywania ich do badania dostępności produktów klienta w sklepach, 2. Wykrywania nadużyć, 3. Klasyfikacji klientów, 4. Klasyfikacji zainteresowań klientów proponowanie klientom nowych, dodatkowych produktów, którymi podobni do nich klienci byli zainteresowani. Narzędzie Azure ML jest dużym ułatwieniem dla Data Scientist - analityków, którzy nie muszą już angażować innych osób, w tym deweloperów, do realizacji własnych pomysłów analitycznych. Dzięki usłudze Azure ML mogą oni w łatwy sposób tworzyć własne, nowe modele i tym samym zwiększać swoją wartość dla organizacji. 24 S t r o n a http://e-webinaria.azurewebsites.net