Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska
|
|
- Patryk Stachowiak
- 6 lat temu
- Przeglądów:
Transkrypt
1 Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska
2 Big data Strumienie danych Założenia i ograniczenia Praktyczne problemy Przykłady algorytmów strumieniowych Narzędzia do przetwarzania dużych zbiorów danych i strumieni J. Gantz, D. Reinsel, Extracting Value from Chaos, IDC, 2011.
3 Termin bardziej marketingowy niż naukowy Do dziś brak konsensusu co do definicji Większość naukowców zgadza się na od 3 do 5 V : Volume (setki terabajtów) Velocity (wciąż napływają nowe dane) Variety (dane pochodzą z różnych źródeł i są w większości nieustrukturyzowane) Varacity (dane są niepewne lub zmienne w czasie) Value (korelacje, statystyki, zdarzenia)
4 Data Mining Big Data Mining Big Data Science
5 Big data mining is not about data mining per se Jimmy Lin (Univ. Maryland, Twitter) Big data is data that doesn t fit in a servers memory Hadley Wickham (Rice University) To sterta małych uciążliwych zadań Dużo atrybutów i przykładów (large-p, large-n) Próba zrozumienia i czyszczenia danych Lepsza dobra integracja niż wymyślne algorytmy Lepsza skalowalność niż własny algorytm
6 Analityka gry 4,6 miliardów godzin 6,5 tryliona strzałów 227 miliardów granatów 386 miliardów killów 30 milionów graczy Równoważenie map i broni Wykrywanie i automatyczne uczenie się Boostingu Feature engineering i skalowanie procesu Zastosowali w końcu Gradient Boosting Machines Machine Learning and Data Mining in Call of Duty, Arthur von Eschen, ECML (Nie ma niestety slajdów, podsumowanie można znaleźć tutaj:
7 Monitorowanie sieci komputerowych, telekomunikacyjnych i transakcji bankowych Systemy rekomendacyjne Zastosowania biomedyczne Systemy nawigacyjne w sztucznej inteligencji Monitorowanie ruchu drogowego Badanie opinii w czasie rzeczywistym Inne wymagania niż wobec tradycyjnych metod eksploracji danych!
8 Strumień danych sekwencja elementów, które napływają w sposób ciągły w zmiennych interwałach czasu Wymagania wobec przetwarzania strumieni: ograniczony czas ograniczona pamięć reakcja na zmiany Concept drift zmiany definicji klas przewidywanych przez model w czasie
9 S {( P( K ), p( x K1)),...,( P( K ), p( x K 1 l l ))} Zmiany w prawdopodobieństwach wystąpień klas P K ),..., P( K ) ( 1 l Zmiany w rozkładzie przykładów p( x Ki ), i 1,..., l Zmiany prawdopodobieństw warunkowych klas p( Ki x), i 1,..., l
10
11 Przetwarzanie blokowe Przetwarzanie przyrostowe
12 Okna przesuwne Detektory dryftu Klasyfikatory złożone Klasyfikatory pojedyncze: DDM, EDDM, CVFDT, OVFDT, FISH, FLORA, ADWIN, ECCD Klasyfikatory złożone: SEA, AWE, AUE, DWM, ACE, HOT, Bag, Lev, OAUE, Learn ++
13 Metoda pozwalająca przystosować dowolny algorytm do przetwarzania strumieniowego Prosty mechanizm zapominania Typy okien o określonej liczbie przykładów/interwałowe o stałej/zmiennej długości o stałej wadze/wygaszające starsze przykłady Przykładowe algorytmy: EWMA, ADWIN, FISH, FLORA
14 Mining High-Speed Data Streams, P. Domingos, G. Hulten; KDD 2000 Główna idea: Mała próbka danych często może wystarczyć do określenia optymalnego atrybutu podziału drzewa decyzyjnego Zebranie odpowiednich statystyk z próbki strumienia Estymacja wartości funkcji oceny podziału dla każdego atrybutu Wykorzystanie granicy Hoeffdinga* do zagwarantowania optymalnego wyboru atrybutu podziału
15 R 2 ln(1/ ) 2n R zakres wartości estymowanej funkcji δ dopuszczalny błąd estymacji n rozmiar próbki 1-δ prawd. że x jest w zakresie ε od Granica Hoeffdinga jest prawdziwa dla dowolnego rozkładu danych
16 Właściwości algorytmu: Każdy przykład przetwarzany tylko raz Klasyfikator budowany przyrostowo - może klasyfikować w dowolnej chwili Zbieżność trafności VFDT do drzewa decyzyjnego zbudowanego na wszystkich przykładach Możliwość dodania mechanizmów zapominania i obsługi atrybutów numerycznych W pierwotnej propozycji źle zastosowano granicę Hoeffdinga, dopiero niedawno zaczęto nagłaśniać ten problem i sugerować nierówność McDiarmida
17
18 Mining concept-drifting data streams using ensemble classifiers, H. Wang et al.; KDD 2003 Główna idea: Nadawać wagi klasyfikatorom bazowym zgodnie z aktualnym rozkładem danych Formalny dowód, że tak ważone klasyfikatory są równie lub bardziej trafne od pojedynczego klasyfikatora zbudowanego na wszystkich przykładach Klasyfikator przetwarzający strumień blokami Estymacja rozkładu danych na ostatnim bloku Klasyfikator bazowy Klasyfika tor bazowy Klasyfikator bazowy Predykcja
19 Z każdym blokiem danych tworzony jest nowy klasyfikator Wcześniej utworzone klasyfikatory są oceniane na najnowszym bloku: w ij MSE r MSE ij, MSE Ocena krzyżowa dla najnowszego klasyfikatora ij Tylko najlepsze klasyfikatory ze wszystkich utworzonych Uzyskiwane wyniki mocno uzależnione od rozmiaru bloku Podobne algorytmy: SEA, AUE, Learn++.NSE 1 B i { x, y} B (1 i f j y ( x)) 2, MSE r y p( y)(1 p( y)) 2
20 Online Ensemble Learning, N. C. Oza; AAAI 2000 Główna idea: Stworzyć klasyfikator złożony z algorytmów przyrostowych i podawać przykłady zgodnie z rozkładem Poissona Klasyfikator przetwarzający strumień przykład po przykładzie Zamiast losować przykłady prezentowane każdemu klasyfikatorowi składowemu, każdy przykład jest prezentowany zgodnie z rozkładem Poissona Istnieje szereg modyfikacji oraz podobne rozwią- zania dla boostingu Klasyfikator bazowy Klasyfikato r bazowy Klasyfikator bazowy Predykcja
21 Learning with Drift Detection Joao Gama et al., Proc. SBIA, Główna idea: Śledzić błąd klasyfikatora i porównywać z oczekiwaną wartością odchylenia standardowego, reagować na niepokojące poziomy błędu Porównanie z rozkładem normalnym Zbieranie przykładów po osiągnięciu stanu ostrzegawczego Odrzucenie dotychczasowego klasyfikatora i budowanie nowego w momencie osiągnięcia stanu alarmowego p t t p min 2 min p t t p min 3 min
22 Analiza najlepszego miejsca podziału Jeśli da się podzielić okno przesuwne na dwa wystarczająco duże i wystarczająco różne podokna, nastąpiła zmiana Porównanie dwóch okien przesuwnych: krótkoterminowego i długoterminowego Jeśli wybrane statystyki dla tych dwóch okien mocno się od siebie różnią, nastąpiła zmiana Przegląd istniejących metod: A Survey on Concept Drift Adaptation, Gama et al.; ACM Computing Surveys, 2014, 46(4): 44:1--44:37.
23 Locality Sensitive Hashing i minhashing Podobne obiekty dostają taki sam hash => skupienie Działa w stałym czasie Fast knn Graph Construction with Locality Sensitive Hashing, Yan-Ming Zhang, Kaizhu Huang, Guanggang Geng, and Cheng-Lin Liu Follow the leader Algorytm tworzy skupienia zgodnie z trendem danych Skupienia pojawiają się i znikają W połączeniu z LSH i minhashing grupuje online Implementacje na platformę Storm Zastosowanie w śledzeniu wiadomości na twitterze High-Throughput Continuous Clustering of Message Streams, Oisin Boydell, Marek Landowski, Guangyu Wu and Padraig Cunningham
24 Wszystkie miary Macierz pomyłek Dodatkowe informacje (niepewność, macierz kosztów) Alternate Information Klasyfikatory deterministyczne Klasyfikatory rangujące Regresory i klasyfikatory z odpowiedzią ciągłą Wiele klas Jedna klasa Narzędzia graficzne Statystyki Miary odleglości/błędu Miary z teorii informacji Bez poprawki na losowość Accuracy Error Rate Poprawka na losowość Cohen s Kappa Fleiss Kappa Roc Curves PR Curves DET Curves Lift Charts Cost Curves AUC H Measure Area under ROCcost curve RMSE KL divergence K&B IR BIR TP/FP Rate Precision/Recall Sens./Spec. F-measure Geom. Mean Dice Miary atrakcyjności
25 Holdout [e.g., Kirkby 2007] Test-then-train [e.g., Kirkby 2007] Block-based evaluation [e.g., Brzezinski & Stefanowski 2010] Prequential [e.g., Gama et al. 2013] Windowing Fading factors
26 Skąd wziąć etykiety do wszystkich przykładów? Jak uczyć się gdy nie ma etykiet? Czy istnieje sposób na jawne potwierdzenie zmiany definicji klas? Jak oceniać algorytmy strumieniowe? Jak radzić sobie z niezrównoważeniem danych? Jak wybrać algorytm? Jak czyścić dane? Staging a środowisko produkcyjne?
27 Eksploracja danych Rozproszona Lokalna Wsadowa Strumieniowa Wsadowa Strumieniowa Hadoop Storm, S4, Samza Mahout, Spark Samoa, Spark streaming, Flink R, Scikit-learn, Rapid miner, Orange, Weka, KNIME MOA, Streams framework
28 Środowisko do implementowania i testowania algorytmów do eksploracji strumienie danych Integruje się z Weką, potrafi czytać pliki ARFF Zawiera sporo algorytmów strumieniowych oraz pozwala na łatwe implementowanie nowych Integracja ze środowiskiem ADAMS
29 Rozproszone implementacje algorytmów eksploracji danych: Klasyfikacja Grupowanie Systemy rekomendacyjne Hadoop Map-reduce Projekt Apache
30 Środowisko do rozproszonego przetwarzania danych Acykliczne grafy przetwarzania Efektywne wykorzystanie pamięci daje przewagę nad implementacji bezpośrednio na Hadoop Można pisać aplikacje w językach: Java, Scala, Python, R Dobrze współpracuje z innymi projektami Apache jak: Storm, Kafka, Cassandra, Hadoop czy HBase Spark streaming potrafi przetwarzać dane strumieniowo ale tylko blokami (micro-batching)
31 Rozproszona MOA Działa w środowiskach: Storm S4 Samza Lokalnie Zawiera nie tylko algorytmy, ale również łatwe API i narzędzia do testowania/porównywania algorytmów Brak interfejsu graficznego
32 Apache Flink następca Sparka przetwarzanie strumieniowe (online) integracja np. z Kafką, Flume czy Twitterem HeteroSpark Spark na komputery zwykłe i karty graficzne Amazon Kinesis PaaS to przetwarzania danych
33 Druid ultra-szybka hurtownia danych przystosowana do współpracy z systemami strumieniowymi SAP HANA komercyjne rozwiązanie od SAPa oprogramowanie + sprzęt + baza danych + raporty TensorFlow graf obliczeń wsparcie dla kart graficznych Wykorzystywany do tworzenia głębokich sieci neuronowych
Dariusz Brzeziński. Politechnika Poznańska
Dariusz Brzeziński Politechnika Poznańska Klasyfikacja strumieni danych Algorytm AUE Adaptacja klasyfikatorów blokowych do przetwarzania przyrostowego Algorytm OAUE Dlasze prace badawcze Blokowa i przyrostowa
Bardziej szczegółowomgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.
mgr inż. Magdalena Deckert Poznań, 01.06.2010r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas. Plan prezentacji Wstęp Concept drift Typy zmian Podział algorytmów stosowanych w uczeniu
Bardziej szczegółowoOrganizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) DANE W CZASIE RZECZYWISTYM 3 Tryb analizowania danych 4 Okno analizowania 5 Real-time: Checkpointing
Bardziej szczegółowoDni: 2. Partner merytoryczny. Opis: Adresaci szkolenia
Kod szkolenia: Tytuł szkolenia: BIGDATA/STR Strumieniowe przetwarzanie Big Data Dni: 2 Partner merytoryczny Opis: Adresaci szkolenia Szkolenie jest przeznaczone głównie dla programistów i analityków danych,
Bardziej szczegółowoProjektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family
Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz
Bardziej szczegółowomgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Bardziej szczegółowoRILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk
Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy
Bardziej szczegółowoWprowadzenie do Apache Spark. Jakub Toczek
Wprowadzenie do Apache Spark Jakub Toczek Epoka informacyjna MapReduce MapReduce Apache Hadoop narodziny w 2006 roku z Apache Nutch open source składa się z systemu plików HDFS i silnika MapReduce napisany
Bardziej szczegółowoAnaliza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Bardziej szczegółowoBlokowe i przyrostowe klasyfikatory złożone dla strumieni danych ze zmienną definicją klas
Politechnika Poznańska Wydział Informatyki Streszczenie rozprawy doktorskiej mgr inż. Dariusz Brzeziński Blokowe i przyrostowe klasyfikatory złożone dla strumieni danych ze zmienną definicją klas Promotor:
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoOrganizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Automatyzacja Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 4 Automatyzacja
Bardziej szczegółowoWprowadzenie do Hurtowni Danych
Wprowadzenie do Hurtowni Danych BIG DATA Definicja Big Data Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia
Bardziej szczegółowodr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Bardziej szczegółowoIntegracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining
Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK
Bardziej szczegółowoPODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Bardziej szczegółowoSZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie
SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowoAnalityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych
XI Konferencja Naukowa Bezpieczeostwo w Internecie. Analityka danych Analityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych Ewa Marzec UKSW Uwagi historyczne Rosnące rozmiary
Bardziej szczegółowoLEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Bardziej szczegółowoTematy projektów Edycja 2014
Tematy projektów Edycja 2014 Robert Wrembel Poznan University of Technology Institute of Computing Science Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Reguły Projekty zespołowe max. 4
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoSYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Bardziej szczegółowoTematy prac dyplomowych inżynierskich
inżynierskich Oferujemy możliwość realizowania poniższych tematów w ramach projektu realizowanego ze środków Narodowego Centrum Badań i Rozwoju. Najlepszym umożliwimy realizację pracy dyplomowej w połączeniu
Bardziej szczegółowoWprowadzenie do Hurtowni Danych. Mariusz Rafało
Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl CYKL OODA Płk John 40 sekund Boyd Instruktor kultowej szkoły myśliwskiej Fighter Weapons School w bazie lotniczej Nellis Twórca koncepcji
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe
Bardziej szczegółowoProjektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family
Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Partner merytoryczny Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów,
Bardziej szczegółowoDariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki
Dariusz Brzeziński Politechnika Poznańska, Instytut Informatyki Język programowania prosty bezpieczny zorientowany obiektowo wielowątkowy rozproszony przenaszalny interpretowany dynamiczny wydajny Platforma
Bardziej szczegółowoAnaliza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Bardziej szczegółowoModelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS
Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowoWidzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Bardziej szczegółowoHadoop i Spark. Mariusz Rafało
Hadoop i Spark Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest
Bardziej szczegółowoInstytut Informatyki Politechniki Warszawskiej
Instytut Informatyki Politechniki Warszawskiej Cele Stworzenie korzystnych warunków rekrutacyjnych dla uczestników oraz partnerów biznesowych projektu Dostarczenie w krótkim czasie umiejętności w obszarach
Bardziej szczegółowow ekonomii, finansach i towaroznawstwie
w ekonomii, finansach i towaroznawstwie spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, przekopywanie danych, męczenie danych proces wykrywania zależności w zbiorach danych poprzez
Bardziej szczegółowoINFORMATYKA Pytania ogólne na egzamin dyplomowy
INFORMATYKA Pytania ogólne na egzamin dyplomowy 1. Wyjaśnić pojęcia problem, algorytm. 2. Podać definicję złożoności czasowej. 3. Podać definicję złożoności pamięciowej. 4. Typy danych w języku C. 5. Instrukcja
Bardziej szczegółowoWprowadzenie do klasyfikacji
Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator
Bardziej szczegółowoAnalityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 27 czerwca 2017 Hadoop i Business Intelligence - wyzwania 1 Ładowane danych do Hadoop-a jest trudne 2 Niewielu specjalistów dostępnych na rynku Dostęp
Bardziej szczegółowoPython : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści
Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop. 2017 Spis treści O autorach 9 0 recenzencie 10 Wprowadzenie 11 Rozdział 1. Pierwsze kroki 15 Wprowadzenie do nauki o danych
Bardziej szczegółowoSztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Bardziej szczegółowoBig Data MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE. Agenda
Big Data str. 1 Agenda 1. Co to jest Big Data? 2. Źródła Big Data 3. Model 3V 4. Typy Big Data 5. Big Data w biznesie 6. Platforma IBM Big Data 1 Co oznacza Big Data? Zbiór danych tak duży, że jego przetwarzanie
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoJak skutecznie budować i wdrażać zabezpieczenia do walki z wyłudzeniami?
Jak skutecznie budować i wdrażać zabezpieczenia do walki z wyłudzeniami? Tomasz Imbiorowski, Dyrektor Departamentu Bezpieczeństwa, Bank Pocztowy SA Dariusz Wojtas, Head of Product Management, IMPAQ Warszawa,
Bardziej szczegółowoZalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Bardziej szczegółowoAlgorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Bardziej szczegółowoWykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
Bardziej szczegółowoCZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO
Spis treści Przedmowa Podziękowania O książce Rozdział 1. Nowy paradygmat dla Big Data 1.1. Zawartość książki 1.2. Skalowanie tradycyjnej bazy danych 1.2.1. Skalowanie za pomocą kolejki 1.2.2. Skalowanie
Bardziej szczegółowo4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Bardziej szczegółowoPrezentacja specjalności Inżynieria Systemów Informatycznych
Prezentacja specjalności Inżynieria Systemów Informatycznych Kierownik specjalności: Prof. nzw. Marzena Kryszkiewicz Konsultacje: piątek, 16:15-17:45, pok. 318 Sylwetka absolwenta: inżynier umiejętności
Bardziej szczegółowodata mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
Bardziej szczegółowoAnalityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017
Analityka danych w środowisku Hadoop Piotr Czarnas, 5 czerwca 2017 Pytania stawiane przez biznes 1 Jaka jest aktualnie sytuacja w firmie? 2 Na czym jeszcze możemy zarobić? Które procesy możemy usprawnić?
Bardziej szczegółowoWprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 16 listopada 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Bardziej szczegółowoObliczenia równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz
Obliczenia równoległe i rozproszone Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz 15 czerwca 2001 Spis treści Przedmowa............................................
Bardziej szczegółowoModelowanie interakcji helis transmembranowych
Modelowanie interakcji helis transmembranowych Witold Dyrka, Jean-Christophe Nebel, Małgorzata Kotulska Instytut Inżynierii Biomedycznej i Pomiarowej, Politechnika Wrocławska Faculty of Computing, Information
Bardziej szczegółowoStatystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Bardziej szczegółowoZagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ
(INT) Inżynieria internetowa 1.Tryby komunikacji między procesami w standardzie Message Passing Interface. 2. HTML DOM i XHTML cel i charakterystyka. 3. Asynchroniczna komunikacja serwerem HTTP w technologii
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoMetody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Bardziej szczegółowoSpis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Bardziej szczegółowoBig Data to skalowalność i prostota obsługi wielkich ilości danych!
Obsługa aplikacji, które operują na ogromnych zbiorach danych, czyli na przykład portali społecznościowych, przekracza możliwości zwykłych relacyjnych baz. Praca ze złożonymi zbiorami danych wymaga architektury
Bardziej szczegółowoHURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Bardziej szczegółowoDodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.
Spis Treści 1. Wprowadzenie... 2 1.1 Wstęp... 2 1.2 Cel pracy... 2 1.3 Zakres pracy... 2 1.4 Użyte technologie... 2 1.4.1 Unity 3D... 3 2. Sztuczna inteligencja w grach komputerowych... 4 2.1 Zadanie sztucznej
Bardziej szczegółowoAUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Bardziej szczegółowoPlan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble
Bardziej szczegółowoOrganizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Data Camp Architektura Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o
Bardziej szczegółowoData Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Bardziej szczegółowoOpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Bardziej szczegółowoZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja
Kierunek Informatyka Rok akademicki 2016/2017 Wydział Matematyczno-Przyrodniczy Uniwersytet Rzeszowski ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH Technika cyfrowa i architektura komputerów
Bardziej szczegółowoProblemy niezawodnego przetwarzania w systemach zorientowanych na usługi
Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi Jerzy Brzeziński, Anna Kobusińska, Dariusz Wawrzyniak Instytut Informatyki Politechnika Poznańska Plan prezentacji 1 Architektura
Bardziej szczegółowoZastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym
POLITECHNIKA WARSZAWSKA Instytut Technik Wytwarzania Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym Marcin Perzyk Dlaczego eksploracja danych?
Bardziej szczegółowoSystemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Bardziej szczegółowoKlasyfikacja i regresja Wstęp do środowiska Weka
Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoWyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Bardziej szczegółowoStruktury systemów operacyjnych
Struktury systemów operacyjnych Jan Tuziemski Część slajdów to zmodyfiowane slajdy ze strony os-booi.com copyright Silberschatz, Galvin and Gagne, 2013 Cele wykładu 1. Opis usług dostarczanych przez OS
Bardziej szczegółowoSprawozdanie z zadania Modele predykcyjne (2)
Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Bardziej szczegółowodr inż. Maciej Kiewra Prezentacja wygłoszona na konferencji BI vs Big Data podczas Kongresu GigaCon Warszawa, 16.04.2014 r.
dr inż. Maciej Kiewra Prezentacja wygłoszona na konferencji BI vs Big Data podczas Kongresu GigaCon Warszawa, 16.04.2014 r. Big Data w praktyce, z perspektywy konsultanta Business Intelligence Parę słów
Bardziej szczegółowoOracle Data Mining 10g
Oracle Data Mining 10g Zastosowanie algorytmu Support Vector Machines do problemów biznesowych Piotr Hajkowski Oracle Consulting Agenda Podstawy teoretyczne algorytmu SVM SVM w bazie danych Klasyfikacja
Bardziej szczegółowo9. Praktyczna ocena jakości klasyfikacji
Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)
Bardziej szczegółowoSystemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Bardziej szczegółowoS YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy
S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne Nazwa modułu: Moduł B - Statystyka z elementami matematyki Rodzaj modułu/przedmiotu Wydział PUM Kierunek studiów Specjalność Poziom studiów Forma studiów
Bardziej szczegółowoPriorytetyzacja przypadków testowych za pomocą macierzy
Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.
Bardziej szczegółowoProgramowanie w Javie nazwa przedmiotu SYLABUS A. Informacje ogólne
Programowanie w Javie nazwa SYLABUS A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej kierunek Nazwa kierunku studiów Poziom kształcenia Profil studiów Forma studiów Kod Język
Bardziej szczegółowoINŻYNIERIA OPROGRAMOWANIA
INSTYTUT INFORMATYKI STOSOWANEJ 2013 INŻYNIERIA OPROGRAMOWANIA Inżynieria Oprogramowania Proces ukierunkowany na wytworzenie oprogramowania Jak? Kto? Kiedy? Co? W jaki sposób? Metodyka Zespół Narzędzia
Bardziej szczegółowoNarzędzia IT we współczesnych strategiach utrzymaniowych
Narzędzia IT we współczesnych strategiach utrzymaniowych - NAJNOWSZE TRENDY - Piotr Rzepakowski, CEO Decitum Sp. z o.o. Od predykcji churn, przez analizę retencji do optymalizacji utrzymania Przyszła Analityczny
Bardziej szczegółowoOptymalizacja optymalizacji
7 maja 2008 Wstęp Optymalizacja lokalna Optymalizacja globalna Algorytmy genetyczne Badane czasteczki Wykorzystane oprogramowanie (Algorytm genetyczny) 2 Sieć neuronowa Pochodne met-enkefaliny Optymalizacja
Bardziej szczegółowoWeryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoSystemy agentowe. Sieci neuronowe. Jędrzej Potoniec
Systemy agentowe Sieci neuronowe Jędrzej Potoniec Perceptron (Rossenblat, 1957) A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017 Perceptron { 1 z 0 step(z) = 0 w przeciwnym przypadku
Bardziej szczegółowoElementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej
Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoScoring w oparciu o Big Data. 8 kwietnia 2014 roku
Scoring w oparciu o Big Data 8 kwietnia 2014 roku Od początków ludzkości do roku 2003 wygenerowano 5 eksabajtów informacji tyle samo ludzkość generuje dziś co dwa dni. - Eric Schmidt, Google CEO 2 Dlaczego
Bardziej szczegółowoPODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Bardziej szczegółowoSystemy agentowe. Sieci neuronowe. Jędrzej Potoniec
Systemy agentowe Sieci neuronowe Jędrzej Potoniec Złe wieści o teście To jest slajd, przy którym wygłaszam złe wieści. Perceptron (Rossenblat, 1957) A. Géron, Hands-On Machine Learning with Scikit-Learn
Bardziej szczegółowoSzczegółowy opis przedmiotu zamówienia
ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowoAlgorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
Bardziej szczegółowo