Big Data: nowe wyzwanie dla systemów uczących się
|
|
- Barbara Jankowska
- 8 lat temu
- Przeglądów:
Transkrypt
1 Big Data: nowe wyzwanie dla systemów uczących się Jacek Koronacki Instytut Podstaw Informatyki, PAN Jerzy Stefanowski Instytut Informatyki, Politechnika Poznańska Częstochowa, 14 kwietnia 2016
2 Big Data dlaczego? Popularne buzzwords :. Data mining przełom lat 80/90 Big Data obecnie Coraz częściej rozmawiamy, lecz czy. Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it [Dan Ariely] Spojrzenie badacza ML zróżnicowane: I have been doing Big Data for years (though I didn t call it that and didn t know that it would, one day, be called that) Is Big Data Analysis a game changer?
3 Nowe źródła danych Rozwój technologiczny Rosnąca wielkość tradycyjnych repozytoriów Nowe żródła danych i wzrost złożoności danych: Internet, media społecznościowe Sieci sensorów, urządzenia mobilne, dane generowane maszynowo In many fieds costs of data acquisition are now lower, much lowerr than costs of data analysis [Canadian Statistical Sci. Inst 2015] Wzrost przekonania o roli Big Data i pytania czy następuję rewolucyjna zmiana?
4 Kilka uwag historycznych Dyskusja rosnących rozmiarów danych vs. pojęcie Big Data Massive Data mining, Very Large Databases inne spojrzenie Big Data jako termin na amer. konf. pojawia się pod koniec lat 90tych: J.Mashey seminarium SGI, 1998 S. Weiss, N.Indrukhya: Predictive data mining. A practical guide 1998 Rozdział 1.1. Big Data. duża część rozdziału 1 dyskutuje też problemy Massive data. Doświadczenia wielkich projektów badawczych NASA
5 Definicje Big Data I shall not further attempt to define Big Data, but I know it when I see it [Bell 2015] Zbiór danych, które z uwagi na wielkość i złożoność nie mogą być przetwarzanie tradycyjnymi środkami informatycznymi Big Data to dane, których skala, zróżnicowanie i złożoność wymaga nowych technologii i algorytmów w celu odkrycia wartościowej wiedzy [J.Gama 2015] Przegląd różnych definicji: W.Fan, A.Bifet: Mining Big Data: Current status and forecast to the future. SIGKDD Explorations, vol. 14 (2), 1-15, 2012 A de Mauro, M. Greco, M. Grimaldi: What is Big Data? A consensual definition and a review of key research topics. Proc. 4th Conf. on Integrated Information 2014.
6 Wiele V charakterystyka Big Data 3 V High volume, velocity and variety [Doug Laney 2001] 2012 IBM Solutions presentation Kolejne V s stopniowo dodawano do definicji (Value, Variability, )
7 Volume - wielkość Big Data Age wykładniczy wzrost danych elektronicznych Terabytes, petabytes, exabytes, The size of Big Data is a moving target what is considered to be Big today will not be so years ahead Wymagania wydajnościowe Ograniczenia na czas przetwarzania, odpowiedzi systemu Trudności z przechowywaniem danych Nowe wyzwania dla algorytmów eksploracji danych!
8 Charakterystyka Big Data połączenie niejednorodnych i złożonych źródeł danych HACE Theorem: Big Data starts with large-volume, heterogeneous, autonomous data sources with distributed and decentralized control, and seeks to explore complex and evolving relationships among data [Xindong Wu et al. 2013]
9 Variety złożone, niejednorodne reprezentacje danych Różne formaty, typy i struktura danych Strukturalne - podstawowe typy danych (relacje baz danych) Semi-strukturalne XML, JSON, Bib Teksty, blogi, dokumenty, obrazy, video, audio, sygnały, dane lokalizacyjne, Wiele aplikacji generuje dane w różnych formatach Tylko 10% Big Data dobrze ustrukturalizowana Variety złożoność danych Lecz również zróżnicowana wielo-wymiarowość Trudności przetwarzania takich danych, ich integracji, Czy integrować, czy analizować niezależnie w locie?
10 Variety zmiany wymiarowości danych Niejednorodne, złożone reprezentacje (poza tabela n p) Lecz również (Diverse Dimensionality) różne liczności atrybutów Przykłady danych medycznych Często wysoko wymiarowe (large p) Obrazy (statyczne, video) Teksty Sygnały Nietypowe opisy grafów Dane biomedyczne p większe niż n Genetyka (p >> n) Wiele problemów dla klasycznych metod (n rośnie przy stałym p) Potrzeba nowych algorytmów eksploracji danych!
11 Velocity czas, prędkość i zmienność Big Data generowane z dużą szybkością i wymagają odpowiednio szybkiego przetwarzania Online Data Analytics Spóźnione decyzje nieakceptowane straty Przykłady e-marketing oferty we właściwym czasie Monitorowanie stanu zdrowia Decyzje finansowe Wykrywanie defraudacji, zagrożeń Wiele problemów strumienie danych Przyrostowe przetwarzanie Zmienność rozkładów danych concept drift Potrzeba nowych algorytmów eksploracji danych!
12 Veracity jakość, pewność i pochodzenie danych Dane pochodzą z wielu źródeł, których jakość jest różna Często odbiega od standardów, zawiera błędy, np. posty w social media Proces łączenia wielu źródeł danych, których się nie kontroluje Niepewność dostępnych danych inna niż w klasycznej statystycznej analizie danych Niespójności elementów danych Niekompletności Niejednoznaczności opisów Trust / Provenance Poprzednio staranne wstępne przygotowanie danych, udokumentowanie ich pochodzenia oraz wykonanych operacji przetwarzania Obecnie trudności w udokumentowaniu drogi pozyskania danych Trust ocena wiarygodności źródeł danych i ich etapów przetwarzanie Rezultaty eksploracji danych silnie zależą od jakości danych!
13 Studium przypadku analiza mobilności ludzi Unveiling the complexity of human mobility by querying and mining massive trajectory data. Fosca Giannotti, Mirco Nanni, Dino Pedreschi, Fabio Pinelli, Chiara Renso, Salvatore Rinzivillo, Roberto Trasarti KDD Lab, University of Pisa Złożone niejednorodne repozytoria danych w tym eksploracja b. wielu zapisów (trajektorii) ruchu pojazdów (GPS) oraz pasażerów trasport. (mobile phones) Przykładowe pytania i zadania: Odkryj wzorce podróży Gdzie są obszary intensywne ruchu samochodowego? Jak się zmieniają w czasie? Co wpływa na zmiany ruchu? Powiązanie danych z samochodów z danymi demograficznymi. M-Atlas wizualna eksploracja odkrytych wzorców
14 Automatyczne tłumaczenie tekstów Projekt Google Translate Statystyczna eksploracja olbrzymich repozytoriów danych pozwala na tłumaczenie (nie wszystkich) tekstów lepiej niż tradycyjne modele oparte na wyrafinowanych algorytmach Dostęp do nowych repozytoriów Angielskie vs. inne języki tłumaczenia różnych publicznie dostępnych tekstów UE dokumenty, prawo tłumaczone na języki krajów europejskich Specjalne projekty digitalizacja książek, tekstów (Google Books) The bigger the corpus, or body of parallel texts, the better the result Halevey A., Norvig P., Pereira F. The unreasonable effectiveness of data
15 Predykcja awarii studzienek sieci elektrycznej Podziemna sieć elektryczna Nowego Jorku (90tys mil kabli, ponad 100 lat) zbyt częste pożary i wybuchy w tunelach i studzienkach predykcja miejsca potencjalnych awarii C. Rudin et al + Con Edison Różnorodne repozytoria danych w tym duże ilości raportów, protokołów (np. trouble tickets dok. tekstowy) Różnorodność reprezentacji danych Konieczność NLP i analizy tekstów Intensywny pre-processing, ocena wiarygodności i pochodzenia danych Interakcja z ekspertami Con Edison w celu etykietyzacji opisów uszkodzeń Algorytmy UM (SVM + ranking learning) Stwórz ranking niebezpieczeństwa studzienek Wytyczne dla ekip kontrolnych Rudin, C., Passonneau, R., Radeva, A., Jerome, S., Issac, D.: 21st century data miners meet 19-th century electrical cables. IEEE Computer, , (June 2011).
16 Inne zastosowania Popularny (zbyt!) przegląd: Viktor Mayer-Schönberger, Kenneth Cukier. Big Data: a revolution that will transform how we live, work and think. Eamon, Dolan/ Houghton Mifflin Harcourt (2013) Polskie tłumaczenie (2014) Oraz wiele innych artykułów przeglądowych Big data provides us with more detailed information often in real time making it possible to measure properties and patterns of human behavior that formerly could not be measured [Gaffield 2015] Big Data, on the other hand, gives us the opportunity not to aggregate the behavior of millions, but instead to take it into consideration at the micro-level [Alex Pentland]
17 Powiązania dziedzin i Statystyczna Analiza Danych Analiza dyskryminacyjna Sztuczna Inteligencja Big Data termin pojawia się pod koniec XX w. Diebold (2000) ; Weiss & Indrukhya 1998 Metody wielo wymiarowe Rozpoznawanie Wzorców Uczenie maszynowe Bazy danych Eksploracyjna Analiza Danych Stat. systemy uczacę się Odkrywanie Wiedzy z Danych - KDD Hurtownie danych Wizualizacja danych Masywne Dane Przetwarzanie rozproszone i równoległe Analiza Big Data KDD proces poszukiwania nowych, interesujących, potencjalnie użytecznych (i zrozumiałych) wzorców z danych G.Piatesky-Shapiro (1989)
18 3 bliskie dziedziny Konstruowanie systemów, które doskonalą swoje działanie na podstawie uogólniania doświadczenia. Badanie podstaw teoretycznych procesu uczenia się: Odkrywanie nowych, interesujących, potencjalnie użytecznych (i potencjalnie zrozumiałych) wzorców z danych Powiązanie i różnice między nimi dyskutowane od lat przez wielu autorów
19 KDD/Data Mining vs Analiza Big Data Zagadnienie Tradycyjne Data Mining Analiza Big Data Dostęp do pamięci Architektura oblicz. Dane Jakość danych Bezpieczeństwo i prywatność Przetwarzanie danych Analiza rezultatów Centralna pamięć operacyjna, łatwiejsze wielokrotne operacje odczyt / zapis Centralna pojedyncza jednostka (skalowalna) Dobra strukturalizacja (rel. DB), jednorodne, statyczne / integracja DW Dobrze przygotowane lub popr. wiele technik korekcji Udokumentowane pochodzenie Wiarygodne próbkowanie Wyselekcjonowane dobre dane Nie są wymagane Proste metody anonimizacji Klasyczne (batch); może być off-line Brak konieczności próbkowania Prędkość nie tak krytyczna Rozwinięte metody oceny wyników oraz wizualizacji Dane często rozproszone Minimalizowanie zapamiętanych elementów i dostępu do nich Rozproszone przetwarzanie Grona (clusters) słabszych komputerów Zróżnicowane źródła; brak struktury; Zmienne / dynamika i czas Słaba jakość danych, niepewność i niedokładność; Słabo dokument. pochodzenie i preprocessing; Użyteczne dane mogą być połączone z wieloma bezużytecznymi Krytyczny problem Współdzielenie danych; łączenie danych Możliwość wymagania on-line; szybkość; Wydajność alg. ma znaczenie Dane nie mieszczą się w pamięci Kompresja i próbkowanie danych Niebezpieczeństwa odkrycia nieznaczących rezultatów Trudności wizualizacji Więcej w N.Japkowicz, J.Stefanowski: A Machine Learning Perspective on Big Data Analysis (2016)
20 Big Data znane metody w innym kontekście Standard metod Data Mining Klasyfikacja nadzorowana Regresja / ANN Analiza skupień Asocjacje (zbiory częste, reguły asocjacyjne) Wzorce sekwencji Szeregi czasowe Wykrywanie anomalii i obserwacji nietypowych Statystyka opisowa Statystyka wielowymiarowa Dekompozycja macierzy (PCA, MDS, ) Klasyfikacja i predykcja Drzewa decyzyjne Reguły Naive Bayes (+ sieci Bayesowskie) K-NN Sztuczne sieci neuronowe Analiza dyskryminacyjna Metoda wektorów wspierających SVM Zespoły klasyfikatorów Spójrz: P. Tan, M. Steinbach, V. Kumar: An Introduction to Data Mining J.Berman: Principles of Big Data Analysis
21 Large Scale Machine Learning Large n, large p, large k (number of outputs) Czasami inne zależności (large p, smaller n,k) The computing resources available do not grow faster than the volume of data Needs for linear time learning algorithms Ideal O(pn+kn) Leon Bottou Francis Bach i inni: Rozwijajmy prostsze metody: Stochastic gradient methods (Robbins and Monro, 1951) Mixing statistics and optimization Spójrz do: F.Bach: Stochastic gradient methods for machine learning 2013 Także prace Michael I. Jordan, np., On statistics, computation and scalability, 2013.
22 Poprawa czasu obliczeń wybranych algorytmów Za Alexander Grey: Machine learning on massive data
23 Drzewa klasyfikacyjne i (regresji ) 80 s 90 end. 90 ID3 C4.5 Mega-induction, Sampling, splits CHAID Oblique trees Data pre-sorting / reduce disc acc. SLIQ SPRINT Incremental trees ID4, ID5R, ITL KDD generalizations CART Approx. representations Samples, Histograms BOAT CLOUDS SPIES Data streams + drifts VFDT -> CVFDT; VFDTc Random Forests Rotation Forests Massive incremental tress Hoeffding trees, VFDT Ensembles Bagging Ivotes Parallel versions Stream ensembles Online / block based Boosting Gradient Boosted Machines MOA, SAMOA Rozwój implementacji w MapReduce, Hadoop / SPARK
24 Big Data z punktu widzenia uczenia maszynowego Nowe problemy badawcze Analiza grafów Social networks Integracja lub przetwarzanie online różnorodnych reprezentacji danych Eksploracja danych strumieniowych Analiza danych czasoworozproszonych Obliczenia mobilne (IoT) Wizualizacja danych Privacy data mining Data trust + provenance Inne problemy Interakcja z ekspertem Ocena wiedzy Etyka analizy Big Data Wpływ na społeczeństwo Sprawdź: N.Japkowicz and J.Stefanowski (Eds), Big Data Analysis: New Algorithms for a New Society, Springer (2016).
25 Eksploracja grafów Grafy (wierzchołki, krawędzie) Lata 80 Lata 90 Kilkadziesiąt wierzchołków Setki wierzchołków Obecnie (Internent, social networks) Tysiące, setki tysięcy, miliony
26
27 Zmienne strumienie danych (data streams) Źródła generują dane w postaci nieprzerwanego strumienia Trudności z przechowywaniem wszystkich elementów danych Konieczność przetwarzania szybkiego strumienia w ograniczonym czasie Przyrostowe działanie algorytmów W wielu zastosowaniach zmienność danych (także definicji klas) wraz z upływem czasu Tzw. concept drift Nowe metody oceny klasyfikatorów przyrostowych Statyczne Strumień No. odczytów wielokrotne pojedyncze Czas nie jest krytyczny ograniczony Uzycie PAO b. elastyczne ograniczone Rezultaty dokładne przybliżone Przetwarz. Rozproszne zwykle nie tak Statyczne algorytmy eksploracji danych nie mogą być stosowane!
28 Klasyfikacja zmiennych strumieni Zarządzanie pamięcią i zapominanie sliding? windows Inne spojrzenie na ocenę Miary oceny Interleaved test-then-train or prequential techniques Pełny lub częściowy dostęp do prawdziwych etykiet Częściowo-nadzorowane podejścia (micro-clustering) Strategie aktywnego uczenia się Wykrywanie zmian drift detection methods Trudniej w nieetykietowanych danych Spójrz na prace przeglądowe J.Gama: Knowledge discovery from data streams. CRC, (2010) J.Gama, I.Zliobaite, A.Bifet, M.Pechenizkiy, A.Bouchachia: A survey on concept drift adaptation. ACM Comp. Surveys (2013) G.Ditzler, M.Roveri, C.Alippi, R.Polikar: Learning in nonstationary environments a survey IEEE Comput. Intel. (2015)
29 Specjalizowane zespoły klasyfikatorów (ensembles) Block-based ones: Streaming Ensemble Algorithm (SEA) Street & Kim 2001 Accuracy Weighted Ensemble (AWE) Wang et al 2003 BWE - Deckert 2011, Weighted Aging Ensemble (Wozniak et al 2013) Learn++.NSE Polikar et al Others, e.g., EAE (Jackowski 2014) Recurring concepts CCP Katakis et al RCD Goncalvas et al FAE Diaz et al 2015 Block processing also in some semisupervised or novel class detection Masud et al. 2009; Farid et al 2013 On-line (instance based) WinNow, Weighted Majority Alg. Littlestone 1988, L & Warmuth 1994 Dynamic Weighted Majority (DWM) Kolter & Maloof 2003 AddExp (2005) On-line bagging and on-line boosting [Oza] BagADWIN, Leverage bagging Bifet et al Using in DDD (Minku, Yao) Hoeffding Option Trees (HOT) UFFT (Gama at al. 2005) ADACC Jaber 2013 Boosting classifiers for drifting concepts Scholtz & Klinkenberg more Hybrid approaches ACE Nishida 2009, OBWE, AUE OAUE [Brzeziński, Stefanowski]
30 Rozwiązania obliczeniowe Przetwarzanie rozproszone i równoległe Hadoop i MapReduce Spec. software Apache (Pig, Hive,Hbase) Spark NoSQL bazy danych (Google, Facebook, Amazon, ) Google BigTable Dynamo, Casandra, MongoDB, Nowe środowiska programowe Mahout (scalable machine learning) Spark MLBase / Mlib Vowpal Wabbit h2o MOA SAMOA
31 Decyzje o zrównoleglaniu obliczeń Nie zawsze konieczne: Cytat za Yann LeCun (KDnuggets News 14:n05) I have seen people insisting on using Hadoop for datasets that could easily fit on a flash drive and could easily be processed on a laptop. The reality is that most companies or researchers don t need that much data (Blog) Decyzja zależna od kontekstu zastosowania Lecz także od algorytmu Many easy tasks on one computer become difficult in a distributed environment For example, subsampling is easy on one machine, but may not be in a distributed system [C.Lin 2014]
32 Naturalne przyspieszenie obliczeń Random Forests / MapReduce Za S.Rio in. On the use of MapReduce for imbalanced big data using Random Forest 2014
33 Inne aspekty algorytmów Big Data Poza przyspieszeniem i zrównoleglaniem działania (np. jak speed up Deep Learning Networks?) Konstruowanie wersji przyrostowych dla rozwiązań statycznych Inne metody losowania Bag of little bootstraps [Kleiner in 2012] Nowe podejście do wstępnego przetwarzanie danych, np., outliers detection; nowe metody dekompozycji macierzy [M.Jordan i in. 2012] Sparse, incomplete, linked data repositories Uczenie się z niezbalansowanych danych Uczenie sie częściowo nadzorowane Active learning, [Krempl 2015] Rozwój systemów rekomendacyjnych Intensywniejsze wykorzystywanie knowledge bases Privacy data mining [Matwin]
34 Big Data z perspektywy statystycznych systemów uczących się Metody statystyczne stanowią podzbiór ogromnej wagi i niezbywalny metod uczenia maszynowego Jakkolwiek statystyczna meta-analiza i np. metody probabilistycznego łączenia rekordów z różnych baz danych są stale rozwijane, to w obszarze Big Data rozwój metod uczenia statystycznego dotyczy głównie analizy danych masywnych z jednego źródła Niezbywalność metod uczenia statystycznego wynika z mocy wyjaśnień/rozwiązań, których dostarczają, oraz ich metodologicznej przejrzystości i czystości
35 Big Data z perspektywy statystycznych systemów uczących się, c.d. Statystyk dobrze wie, że potrzebuje powtarzalnych danych i że dane, którymi dysponuje, mogą odpowiedzieć tylko na pewne, dobrze określone pytania narzuca to specyficzny reżim analizowania tych danych Metody statystycznego uczenia dostarczają modeli przyczynowo-skutkowych, gdy to osiągalne (możliwe), i pozwalają zadowolić się podejściem algorytmicznym/predykcyjnym/behawiorystycznym, gdy głębsze poznanie jest nieosiągalne
36 Big Data z perspektywy statystycznych systemów uczących się, c.d. Paradoksalnie, to rozwój technik komputerowych pozwolił statystykom wyjść z Tukeyowskiego więzienia eksploracyjnej analizy danych (EDA), nad bramą którego widniał napis: Pozwólmy przemówić danym niech same mówią za siebie W 1979 roku nie tak słynny jak John Tukey, za to bardziej radykalny i też znakomity statystyk, William Eddy napisał: The data analytic method denies the existence of "truth"; the only knowledge is empirical. [...] If we can make without models, I think we should.
37 Big Data z perspektywy statystycznych systemów uczących się, c.d. Dzisiaj, w powodzi Big Data, niektórzy badacze powiadają właściwie to samo: mając Big Data nie musimy już wyjaśniać, wystarczy znać korelacje, które pozwalają przewidywać por. odnośne uwagi w: N.Japkowicz and J.Stefanowski (Eds.), Big Data Analysis: New Algorithms for a New Society, Springer (2016), rozdz. 1 i 2 Każdy pretekst jest dobry, by opowiedzieć się za głupotą, ale lepiej chcieć pozostać rozumnym i starać się rozumieć (a nie tylko przewidywać)
38 Big Data z perspektywy statystycznych systemów uczących się, c.d. Gdy mówimy o metodach statystycznego uczenia w kontekście danych masywnych warto najpierw rozróżnić dwie sytuacje: wielkiej liczby obserwacji (large n) i małej liczby zmiennych (cech) objaśniających (opisujących każdą obserwację) wielkiej liczby cech opisujących każdą obserwację (large p) i niekiedy jednocześnie małej liczby obserwacji (small n large p) UWAGA: Od tego slajdu aż do końca omawiania metod statystycznego uczenia ograniczamy się do problemów uczenia pod nadzorem
39 Big Data z perspektywy statystycznych systemów uczących się, c.d. W przypadku wielkiej liczby obserwacji (large n) i małej liczby zmiennych (cech ) objaśniających niezbędne może być podzielenie zadania na mniejsze podzadania, rozwiązanie podzadań i na tej podstawie zbudowanie rozwiązania dla całego zadania por. odnośne uwagi w: N.Japkowicz and J.Stefanowski (Eds.), Big Data Analysis: New Algorithms for a New Society, Springer (2016), podrozdz. 2.4
40 Big Data z perspektywy statystycznych systemów uczących się, c.d. W przypadku zadań o wielkiej liczbie cech i zwłaszcza problemów znanych jako small n large p problems można ich omówienie podzielić na trzy części: metody oparte na podejściu Monte Carlo metody z regularyzacją (karą za złożoność modelu) metody bayesowskie UWAGA: Podział ten jest w pewnym stopniu umowny, ponieważ wymienione części nie są rozłączne np. kara za złożoność modelu może mieć bayesowski charakter (jak bayesowskie kryterium informacyjne BIC) i mamy wówczas do czynienia z bayesowską regularyzacją. Co więcej, metody różnych typów mają często podobny fundament matematyczny
41 Big Data z perspektywy statystycznych systemów uczących się, c.d. Metody oparte na podejściu Monte Carlo, o których tu wspomnimy, to: metoda wyboru modelu regresji liniowej (i logistycznej) przez analizę modeli budowanych na losowo wybranych podzbiorach cech objaśniających; p. Mielniczuk i Teisseyre (2011) i (2013) metoda selekcji cech objaśniających istotnych dla zadanego problemu klasyfikacji oraz odkrywania współzależności między tymi cechami; p. Dramiński i in. (2008) i (2016)
42 Big Data z perspektywy statystycznych systemów uczących się, c.d. Metody z regularyzacją (karą za złożoność modelu), to przede wszystkim: metoda LASSO i jej rozwinięcia; p. Hastie, Tibshirani i Wainwright (2015); Bühlmann i van de Geer (2011); Pokarowski i Mielniczuk (2015), gdzie LASSO służy do przesiania cech (potem poddanych rankingowi; ostatnim etapem jest wybór modelu z ich zagnieżdżonej rodziny); Bogdan i in. (2015) maszyny wektorów podpierających i metody pokrewne; p. np. Tan i in. (2014), gdzie metoda wyboru cech dopuszcza ich ogromną liczbę; Priyadarshini i Agarwal (2015), gdzie mamy propozycję implementacji SVM na platformie Hadoop MapReduce
43 Big Data z perspektywy statystycznych systemów uczących się, c.d. Metody bayesowskie mają bardzo długą historię, ale w kontekście nas interesującym należy wspomnieć przynajmniej o: Nurcie wyrastającym z analizy regresji liniowej z bayesowską regularyzacją; p. Browman i Speed (2002) i rozwinięcia tej idei (Bogdan i in.; Frommlet i in.; Chen i Chen) Niezwykle ciekawym nieparametrycznym podejściu bayesowskim; p., np., Rasmussen i Williams (2006), gdzie podstawą są procesy gaussowskie, a zatem macierze kowariancji najczęściej o wyrazach będących jądrami gaussowskimi, oraz Yang (2014), gdzie rozwiązuje się zadanie minimaksowe dla ryzyka w L₂; też Tokdar (2011)
44 Big Data z perspektywy statystycznych systemów uczących się, c.d. UWAGA: Nieco dłuższe omówienie zasygnalizowanych trzech typów metod uczenia statystycznego oraz szerszy wykaz literatury można zaleźć w oddzielnej prezentacji
45 Don t..., it is not over! Kilka uwag, jeśli starczy Nam czasu,
46 Trochę o mitach Big Data Analysis odkrywanie prostych współzależności o silniejsze modele Nie podzielamy tezy Anderson C. (The end of the Theory / Wired Mag. 2008) Korelacja jest wystarczająca, nie potrzebujemy modelu przyczynowoskutkowego Przykłady negatywne Google Flue Trends (początkowy sukces analiza zapytań / szybsza predykcja; zawiodła w 2012, konieczność przebudowy i dostrojenia modelu) When to act on a correlation, and when not to, Ritter 2014 Gra dwóch czynników (1) przekonania o powtarzalności zależności (2) przetargu pomiędzy kosztem braku działania a potencjalnym zyskiem Confidence in a correlation is a function of not only the statistical frequency but also the explanations of what is causing that correlation Prace metodologiczne o powiązaniach teorii i danych The model shapes the data in trying to best fit it, and the data shapes the model in that it helps us to use models with the appropriate assumptions [R. Sparks, H.Lenz] A Statistician s insight on Big Data Analysis, 2016 Spójrz także: Wolfgang Pietsch: Big Data? The new science of complexity [2014]
47 Czy dostęp do wystarczających wielkości? Mit Big Data N = całość / N = All Tylko w nielicznych zastosowaniach dostęp do pełnej zbiorowości Nawet popularne media społecznościowe obejmują tylko ograniczoną część ludności Ograniczenia danych Twitter (Tufekci) Błędy w zastosowaniu projektu Boston Street Bump smartphones (Tim Harford) N = całość - często pobożne życzenie lub iluzja, a nie rzeczywistość! Więcej dyskusji w: Boyd, D., Crawford, K.: Critical questions for Big Data. Information, Communication and Society (2012). Boyd, D., Crawford, K.: Six provocations for Big Data Symposium on the Dynamics of the Internet and Society. Oxford Internet Institute, Sept. 21 (2011). Harford, T.: Big Data: are we making a big mistake? Financial Times, March 28, Tufekci, Z.: Big Data: Pitfalls, methods and concepts for an emergent field. SSRN (March 2013)
48 Lekcje ze statystyki nie mogą być zapomniane Mity More data is better data lub Better knowledge can be extracted from large data sets than small ones nie zawsze poprawne! Doświadczenia statystyczne nt. reprezentatywności i obciążenia prób Niepoprawnie pozyskane próby prowadzą do błędnych predykcji Im więcej danych, tym zwiększona szansa na pozorne zależności lub wzorce [Michael Jordan] Spurious Correlations pozorne zależności Nakładające się błędy pomiarów, wielokrotne testowanie,... Pomijanie dodatkowych źródeł wiedzy i powierzchowność analiz na podstawie zbyt prostych danych Analiza stopnia zażyłości osób na podstawie połączeń telefonicznych (Danah Boyd - przykład i krytyka)
49 Czy Big Data to wielka zmiana? Big Data, which started as a technological innova5on in distributed compu5ng, is now a cultural movement by which we con@nue to discover how humanity interacts with the world and each other at large- scale. Drew Conway Big data represents a cultural shia in which more and more decisions are made by algorithms with transparent logic, opera5ng on documented immutable evidence. I think Big refers more to the pervasive nature of this change than to any par5cular amount of data. Daniel Gillick (Google Senior Resercher) Analiza Big Data prowadzi do rewolucyjnych I fundamentalnych zmian, gdyż ( ): Viktor Mayer- Schönberger, Kenneth Cukier Porozmawiajmy o aspektach społecznych
50 Prywatność i anonimowość = nowe wyzwania Ludzie są źródłem danych Nie przestrzegają zasad ochrony Świadomie kuszeni usługami Lecz świat Big Data jest bardziej skomplikowany i pełen pułapek Klasyczne metody anonimizacji są nieskuteczne [Barabasi et al. 2008] ukryta tożsamość zidentyfikowana na podstawie wzorców poruszania się osoby z danych lokalizacyjnych urządzeń mobilnych Odkrycie nazwiska osób na podstawie analizy zapytań w logach AOL połączonych z extra danymi [Barbaro, Zeller 2006] Poszukanie współzależności rankingów anonimowych użytkowników Netflix z dodatkowymi recenzjami [2008]
51 Maszyny / algorytmy podejmują decyzję Wyniki algorytmów systemy wspomagania decyzji w odniesieniu do ludzi Decyzje kredytowe, ubezpieczenia, ofert pracy, Czy wiemy dlaczego? Większość algorytmów - black box i słaba zdolność wyjaśnienie okoliczności podjęcia decyzji W niektórych dziedzinach musimy otrzymać objaśnienie procesu podejmowania decyzji Niebezpieczeństwo false positive pomyłek Czy i kogo zaskarżyć za błędną decyzję? Czy szczegóły stosowanego algorytmu są tajemnicą firmy?
52 Transparentność analizy Big Data Zagrożenia stosowania algorytmów wobec ludzi Wiemy co jutro będziesz robić Profilowanie osób i działania wobec osób przed ich akcją Ponadto problem dostępu danych Kto wykorzystuje i do czego moje dane? Kto jest właścicielem danych? Powtórne wykorzystywanie danych. Przejrzystość wykorzystywania danych i stosowanych algorytmów Badacze vs firmy komercyjne Lecz kto ma to kontrolować? Big Data ethics is huge, messy and personal topic, which cannot be easily settled [Kord Davis]
53 Podsumowując Więcej w rozdziałach książki Nathalie Japkowicz, Jerzy Stefanowski: Big Data Analysis: New Algorithms for a New Society, Springer 2016: A Machine Learning Perspective on Big Data Analysis Final Remarks on Big Data Analysis and Its Impact on Society and Science
54 Dziękujemy za uwagę Pytania lub komentarze? Kontakt:
Analityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych
XI Konferencja Naukowa Bezpieczeostwo w Internecie. Analityka danych Analityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych Ewa Marzec UKSW Uwagi historyczne Rosnące rozmiary
Big Data i ich eksploracja: spojrzenia z perspektywy statystyki i uczenia maszynowego
Big Data i ich eksploracja: spojrzenia z perspektywy statystyki i uczenia maszynowego Jacek Koronacki Instytut Podstaw Informatyki, PAN Jerzy Stefanowski Instytut Informatyki, Politechnika Poznańska Poznań,
Dariusz Brzeziński. Politechnika Poznańska
Dariusz Brzeziński Politechnika Poznańska Klasyfikacja strumieni danych Algorytm AUE Adaptacja klasyfikatorów blokowych do przetwarzania przyrostowego Algorytm OAUE Dlasze prace badawcze Blokowa i przyrostowa
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.
mgr inż. Magdalena Deckert Poznań, 01.06.2010r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas. Plan prezentacji Wstęp Concept drift Typy zmian Podział algorytmów stosowanych w uczeniu
Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Zaliczenie: Praca na zajęciach Egzamin Projekt/esej zaliczeniowy Plan zajęć # TEMATYKA ZAJĘĆ
BigData. 2014 PILAB S.A./Krystian Piećko/CTO/krystian.piecko@pilab.pl/ / Wstęp. / Co to jest BigData? / Co to jest Hadoop?
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it / Wstęp / Co to jest BigData? /
Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)
Zakopane, plan miasta: Skala ok. 1:15 000 = City map (Polish Edition) Click here if your download doesn"t start automatically Zakopane, plan miasta: Skala ok. 1:15 000 = City map (Polish Edition) Zakopane,
Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis
Machine Learning for Data Science (CS4786) Lecture11 5 Random Projections & Canonical Correlation Analysis The Tall, THE FAT AND THE UGLY n X d The Tall, THE FAT AND THE UGLY d X > n X d n = n d d The
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Tychy, plan miasta: Skala 1: (Polish Edition)
Tychy, plan miasta: Skala 1:20 000 (Polish Edition) Poland) Przedsiebiorstwo Geodezyjno-Kartograficzne (Katowice Click here if your download doesn"t start automatically Tychy, plan miasta: Skala 1:20 000
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Hard-Margin Support Vector Machines
Hard-Margin Support Vector Machines aaacaxicbzdlssnafiyn9vbjlepk3ay2gicupasvu4iblxuaw2hjmuwn7ddjjmxm1bkcg1/fjqsvt76fo9/gazqfvn8y+pjpozw5vx8zkpvtfxmlhcwl5zxyqrm2vrg5zw3vxmsoezi4ogkr6phieky5crvvjhriqvdom9l2xxftevuwcekj3lktmhghgniauiyutvrwxtvme34a77kbvg73gtygpjsrfati1+xc8c84bvraowbf+uwnipyehcvmkjrdx46vlykhkgykm3ujjdhcyzqkxy0chur6ax5cbg+1m4bbjptjcubuz4kuhvjoql93hkin5hxtav5x6yyqopnsyuneey5ni4keqrxbar5wqaxbik00icyo/iveiyqqvjo1u4fgzj/8f9x67bzmxnurjzmijtlybwfgcdjgfdtajwgcf2dwaj7ac3g1ho1n4814n7wwjgjmf/ys8fenfycuzq==
data mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec
Systemy agentowe Uwagi organizacyjne i wprowadzenie Jędrzej Potoniec Kontakt mgr inż. Jędrzej Potoniec Jedrzej.Potoniec@cs.put.poznan.pl http://www.cs.put.poznan.pl/jpotoniec https://github.com/jpotoniec/sa
Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science
Proposal of thesis topic for mgr in (MSE) programme 1 Topic: Monte Carlo Method used for a prognosis of a selected technological process 2 Supervisor: Dr in Małgorzata Langer 3 Auxiliary supervisor: 4
STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie
STATYSTYKA OD PODSTAW Z SYSTEMEM SAS wersja 9.2 i 9.3 Szkoła Główna Handlowa w Warszawie Spis treści Wprowadzenie... 6 1. Podstawowe informacje o systemie SAS... 9 1.1. Informacje ogólne... 9 1.2. Analityka...
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści
Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop. 2017 Spis treści O autorach 9 0 recenzencie 10 Wprowadzenie 11 Rozdział 1. Pierwsze kroki 15 Wprowadzenie do nauki o danych
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Kraków, 14 marca 2013 r.
Scenariusze i trendy rozwojowe wybranych technologii społeczeństwa informacyjnego do roku 2025 Antoni Ligęza Perspektywy rozwoju systemów eksperckich do roku 2025 Kraków, 14 marca 2013 r. Dane informacja
ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.
ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS. Strona 1 1. Please give one answer. I am: Students involved in project 69% 18 Student not involved in
Linear Classification and Logistic Regression. Pascal Fua IC-CVLab
Linear Classification and Logistic Regression Pascal Fua IC-CVLab 1 aaagcxicbdtdbtmwfafwdgxlhk8orha31ibqycvkdgpshdqxtwotng2pxtvqujmok1qlky5xllzrnobbediegwcap4votk2kqkf+/y/tnphdschtadu/giv3vtea99cfma8fpx7ytlxx7ckns4sylo3doom7jguhj1hxchmy/irhrlgh67lxb5x3blis8jjqynmedqujiu5zsqqagrx+yjcfpcrydusshmzeluzsg7tttiew5khhcuzm5rv0gn1unw6zl3gbzlpr3liwncyr6aaqinx4wnc/rpg6ix5szd86agoftuu0g/krjxdarph62enthdey3zn/+mi5zknou2ap+tclvhob9sxhwvhaqketnde7geqjp21zvjsfrcnkfhtejoz23vq97elxjlpbtmxpl6qxtl1sgfv1ptpy/yq9mgacrzkgje0hjj2rq7vtywnishnnkzsqekucnlblrarlh8x8szxolrrxkb8n6o4kmo/e7siisnozcfvsedlol60a/j8nmul/gby8mmssrfr2it8lkyxr9dirxxngzthtbaejv
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych Tomasz Demski StatSoft Polska www.statsoft.pl Analiza danych Zaawansowana analityka, data
deep learning for NLP (5 lectures)
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 6: Finish Transformers; Sequence- to- Sequence Modeling and AJenKon 1 Roadmap intro (1 lecture) deep learning for NLP (5
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2
Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2 aaaklnictzzjb9tgfmcnadpg7oy0lxa9edva9kkapdarhyk2k7gourinlwsweyzikuyiigvyleiv/cv767fpf/5crc1xt9va5mx7w3m/ecuqw1kuztpx/rl3/70h73/w4cog9dhhn3z62d6jzy+yzj766txpoir9nzszisjynetqr+rvlfvyoozu5xbybpsxb1wahul8phczdt2v4zgchb7uecwphlyigrgkjcyiflfyci0kxnmr4z6kw0jsokvot8isntpa3gbknlcufiv/h+hh+eur4fomd417rvtfjoit5pfju6yxiab2fmwk0y/feuybobqk+axnke8xzjjhfyd8kkpl9zdoddkazd5j6bzpemjb64smjb6vb4xmehysu08lsrszopxftlzee130jcb0zjxy7r5wa2f1s2off2+dyatrughnrtpkuprlcpu55zlxpss/yqe2eamjkcf0jye8w8yas0paf6t0t2i9stmcua+inbi2rt01tz22tubbqwidypvgz6piynkpobirkxgu54ibzoti4pkw2i5ow9lnuaoabhuxfxqhvnrj6w15tb3furnbm+scyxobjhr5pmj5j/w5ix9wsa2tlwx9alpshlunzjgnrwvqbpwzjl9wes+ptyn+ypy/jgskavtl8j0hz1djdhzwtpjbbvpr1zj7jpg6ve7zxfngj75zee0vmp9qm2uvgu/9zdofq6r+g8l4xctvo+v+xdrfr8oxiwutycu0qgyf8icuyvp/sixfi9zxe11vp6mrjjovpmxm6acrtbia+wjr9bevlgjwlz5xd3rfna9g06qytaoofk8olxbxc7xby2evqjmmk6pjvvzxmpbnct6+036xp5vdbrnbdqph8brlfn/n/khnfumhf6z1v7h/80yieukkd5j0un82t9mynxzmk0s/bzn4tacdziszdhwrl8x5ako8qp1n1zn0k6w2em0km9zj1i4yt1pt3xiprw85jmc2m1ut2geum6y6es2fwx6c+wlrpykblopbuj5nnr2byygfy5opllv4+jmm7s6u+tvhywbnb0kv2lt5th4xipmiij+y1toiyo7bo0d+vzvovjkp6aoejsubhj3qrp3fjd/m23pay8h218ibvx3nicofvd1xi86+kh6nb/b+hgsjp5+qwpurzlir15np66vmdehh6tyazdm1k/5ejtuvurgcqux6yc+qw/sbsaj7lkt4x9qmtp7euk6zbdedyuzu6ptsu2eeu3rxcz06uf6g8wyuveznhkbzynajbb7r7cbmla+jbtrst0ow2v6ntkwv8svnwqnu5pa3oxfeexf93739p93chq/fv+jr8r0d9brhpcxr2w88bvqbr41j6wvrb+u5dzjpvx+veoaxwptzp/8cen+xbg==
Gradient Coding using the Stochastic Block Model
Gradient Coding using the Stochastic Block Model Zachary Charles (UW-Madison) Joint work with Dimitris Papailiopoulos (UW-Madison) aaacaxicbvdlssnafj3uv62vqbvbzwarxjsqikaboelgzux7gcaeywtsdp1mwsxeaepd+ctuxcji1r9w5984bbpq1gmxdufcy733bcmjutn2t1fawl5zxsuvvzy2t7z3zn29lkwyguktjywrnqbjwigntuuvi51uebqhjlsdwfxebz8qiwnc79uwjv6mepxgfcoljd88uiox0m1hvlnzwzgowymjn7tjyzertmvpareju5aqkndwzs83thawe64wq1j2httvxo6eopirccxnjekrhqae6wrkuuykl08/gmnjryqwsoqurubu/t2ro1jkyrzozhipvpz3juj/xjdt0ywxu55mina8wxrldkoetukairuekzbubgfb9a0q95fawonqkjoez/7lrdi6trzbcm7pqvwrio4yoarh4aq44bzuwq1ogcba4be8g1fwzjwzl8a78tfrlrnfzd74a+pzb2h+lzm=
Badania w sieciach złożonych
Badania w sieciach złożonych Grant WCSS nr 177, sprawozdanie za rok 2012 Kierownik grantu dr. hab. inż. Przemysław Kazienko mgr inż. Radosław Michalski Instytut Informatyki Politechniki Wrocławskiej Obszar
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Presented by. Dr. Morten Middelfart, CTO
Meeting Big Data challenges in Leadership with Human-Computer Synergy. Presented by Dr. Morten Middelfart, CTO Big Data Data that exists in such large amounts or in such unstructured form that it is difficult
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
w ekonomii, finansach i towaroznawstwie
w ekonomii, finansach i towaroznawstwie spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, przekopywanie danych, męczenie danych proces wykrywania zależności w zbiorach danych poprzez
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Stargard Szczecinski i okolice (Polish Edition)
Stargard Szczecinski i okolice (Polish Edition) Janusz Leszek Jurkiewicz Click here if your download doesn"t start automatically Stargard Szczecinski i okolice (Polish Edition) Janusz Leszek Jurkiewicz
MaPlan Sp. z O.O. Click here if your download doesn"t start automatically
Mierzeja Wislana, mapa turystyczna 1:50 000: Mikoszewo, Jantar, Stegna, Sztutowo, Katy Rybackie, Przebrno, Krynica Morska, Piaski, Frombork =... = Carte touristique (Polish Edition) MaPlan Sp. z O.O Click
Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)
Katowice, plan miasta: Skala 1:20 000 = City map = Stadtplan (Polish Edition) Polskie Przedsiebiorstwo Wydawnictw Kartograficznych im. Eugeniusza Romera Click here if your download doesn"t start automatically
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Wprowadzenie do Hurtowni Danych
Wprowadzenie do Hurtowni Danych BIG DATA Definicja Big Data Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia
SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like
SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1 I SSW1.1, HFW Fry #65, Zeno #67 Benchmark: Qtr.1 like SSW1.2, HFW Fry #47, Zeno #59 Benchmark: Qtr.1 do SSW1.2, HFW Fry #5, Zeno #4 Benchmark: Qtr.1 to SSW1.2,
Szczegółowy opis przedmiotu zamówienia
ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów
Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej
1 Zastosowania Metod Inteligencji Obliczeniowej Tomasz Pawlak 2 Plan prezentacji Sprawy organizacyjne Wprowadzenie do metod inteligencji obliczeniowej Studium wybranych przypadków zastosowań IO 3 Dane
Klasyfikacja z milionami etykiet
Klasyfikacja z milionami etykiet Krzysztof Dembczyński Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Big Data: Przetwarzanie i eksploracja Poznań, 22 kwietnia 2016 r. Geoff
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition) J Krupski Click here if your download doesn"t start automatically Karpacz, plan miasta 1:10 000: Panorama
ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL
Read Online and Download Ebook ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL DOWNLOAD EBOOK : ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA Click link bellow and free register
Deep Learning na przykładzie Deep Belief Networks
Deep Learning na przykładzie Deep Belief Networks Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych PW 20 V 2014 Jan Karwowski (MiNI) Deep Learning
Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów
Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.
Uczenie się klasyfikatorów ze strumieni danych Jerzy Stefanowski
Uczenie się klasyfikatorów ze strumieni danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Sem. PTS, UAM, Poznan, 14 grudnia 2016 Plan wykładu Część 1: Wstęp 1. Klasyfikacja nadzorowana
Opis efektów kształcenia dla modułu zajęć
Nazwa modułu: Eksploracja danych Rok akademicki: 2030/2031 Kod: MIS-2-105-MT-s Punkty ECTS: 5 Wydział: Inżynierii Metali i Informatyki Przemysłowej Kierunek: Informatyka Stosowana Specjalność: Modelowanie
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie
Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni
Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre Selekcja modelu liniowego i predykcja 1 / 29 Plan
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING WSTĘP I TAKSONOMIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra
Wymagania na podstawie Podstawy programowej kształcenia ogólnego dla szkoły podstawowej język obcy oraz polecanego podręcznika New Exam Challanges 4 *, wyd. Pearson Cele z podstawy programowej: rozumienie
What kind of. Data Scientist do you need?
What kind of Data Scientist do you need? About Me Agnieszka Zdebiak @AZdebiak Agnieszka.Zdebiak.com 15 years experience software designer data scientist Prokom Software Asseco Poland Unizeto Technologies
Helena Boguta, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Składają się na
Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski
Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,
Revenue Maximization. Sept. 25, 2018
Revenue Maximization Sept. 25, 2018 Goal So Far: Ideal Auctions Dominant-Strategy Incentive Compatible (DSIC) b i = v i is a dominant strategy u i 0 x is welfare-maximizing x and p run in polynomial time
Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout
Machine Learning for Data Science (CS4786) Lecture 24 Differential Privacy and Re-useable Holdout Defining Privacy Defining Privacy Dataset + Defining Privacy Dataset + Learning Algorithm Distribution
Współczesna problematyka klasyfikacji Informatyki
Współczesna problematyka klasyfikacji Informatyki Nazwa pojawiła się na przełomie lat 50-60-tych i przyjęła się na dobre w Europie Jedna z definicji (z Wikipedii): Informatyka dziedzina nauki i techniki
MoA-Net: Self-supervised Motion Segmentation. Pia Bideau, Rakesh R Menon, Erik Learned-Miller
MoA-Net: Self-supervised Motion Segmentation Pia Bideau, Rakesh R Menon, Erik Learned-Miller University of Massachusetts Amherst College of Information and Computer Science Motion Segmentation P Bideau,
Szkolenia SAS Cennik i kalendarz 2017
Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS
Rola badań statystycznych w naukach ekonomicznych w świetle nowych możliwości określanych mianem big data
Mirosław Szreder Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański miroslaw.szreder@ug.edu.pl Rola badań statystycznych w naukach ekonomicznych w świetle nowych możliwości określanych mianem big
Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering
Machine Learning for Data Science (CS4786) Lecture 11 Spectral Embedding + Clustering MOTIVATING EXAMPLE What can you say from this network? MOTIVATING EXAMPLE How about now? THOUGHT EXPERIMENT For each
Monitorowanie sytuacji drogowej w oparciu o dane z sieci GSM. promotor: dr hab. inż. Andrzej Jaszkiewicz
Monitorowanie sytuacji drogowej w oparciu o dane z sieci GSM promotor: dr hab. inż. Andrzej Jaszkiewicz Plan prezentacji motywacje i cele etapy projektu: dane wejściowe wizualizacja danych model statystyczny
Hadoop i Spark. Mariusz Rafało
Hadoop i Spark Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition) Piotr Maluskiewicz Click here if your download doesn"t start automatically Miedzy
SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie
SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU
Ogólnopolski Próbny Egzamin Ósmoklasisty z OPERONEM. Język angielski Kartoteka testu. Wymagania szczegółowe Uczeń: Poprawna odpowiedź 1.1.
Język angielski Kartoteka testu Rozumienie ze słuchu 1.1. I.6) żywienie II. Rozumienie wypowiedzi. Uczeń rozumie proste wypowiedzi ustne artykułowane wyraźnie, w standardowej odmianie języka 1.2. II.5)
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych
Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska
Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska Big data Strumienie danych Założenia i ograniczenia Praktyczne problemy Przykłady algorytmów strumieniowych Narzędzia do przetwarzania dużych
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Blow-Up: Photographs in the Time of Tumult; Black and White Photography Festival Zakopane Warszawa 2002 / Powiekszenie: Fotografie w czasach zgielku
Blow-Up: Photographs in the Time of Tumult; Black and White Photography Festival Zakopane Warszawa 2002 / Powiekszenie: Fotografie w czasach zgielku Juliusz and Maciej Zalewski eds. and A. D. Coleman et
Ankiety Nowe funkcje! Pomoc magda.szewczyk@slo-wroc.pl. magda.szewczyk@slo-wroc.pl. Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students
Ankiety Nowe funkcje! Pomoc magda.szewczyk@slo-wroc.pl Back Twoje konto Wyloguj magda.szewczyk@slo-wroc.pl BIODIVERSITY OF RIVERS: Survey to students Tworzenie ankiety Udostępnianie Analiza (55) Wyniki
JĘZYK ANGIELSKI POZIOM PODSTAWOWY
EGZAMIN MATURALNY W ROKU SZKOLNYM 2013/2014 JĘZYK ANGIELSKI POZIOM PODSTAWOWY ROZWIĄZANIA ZADAŃ I SCHEMAT PUNKTOWANIA MAJ 2014 ZADANIA ZAMKNIĘTE Zadanie 1. Obszar standardów Rozumienie ze słuchu 1.1. 1.2.
Analiza i wizualizacja danych Data analysis and visualization
KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013
Kryteria i zasady w badaniach społecznych
Kryteria i zasady w badaniach społecznych Dobra definicja obszaru i problemu Problem powinien być nowy, nietrywialny, istotny i interesujący. Należy się upewnić, że nie był wcześniej badany. Powinno dać
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Data Camp Architektura Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o
RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk
Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania
Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie
Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI
Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI O tym, dlaczego warto budować pasywnie, komu budownictwo pasywne się opłaca, a kto się go boi, z architektem, Cezarym Sankowskim, rozmawia
Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli
Automatyczne generowanie testów z modeli Numer: 1 (33) Rozkmina: Projektowanie testów na podstawie modeli (potem można je wykonywać ręcznie, lub automatycznie zwykle chce się automatycznie) A ja mówię
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info
Opis efektów kształcenia dla modułu zajęć
Nazwa modułu: Metody eksploracji danych Rok akademicki: 2015/2016 Kod: OWT-1-607-s Punkty ECTS: 4 Wydział: Odlewnictwa Kierunek: Wirtotechnologia Specjalność: - Poziom studiów: Studia I stopnia Forma i
DODATKOWE ĆWICZENIA EGZAMINACYJNE
I.1. X Have a nice day! Y a) Good idea b) See you soon c) The same to you I.2. X: This is my new computer. Y: Wow! Can I have a look at the Internet? X: a) Thank you b) Go ahead c) Let me try I.3. X: What
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania