Język nowoczesnej analizy danych BARTOSZ SĘKIEWICZ



Podobne dokumenty
Wprowadzenie do er(k)a

Poz. 15 UCHWAŁA NR 15 RADY WYDZIAŁU NAUK EKONOMICZNYCH UW. z dnia 1 marca 2017 roku. w sprawie

Dostawa oprogramowania. Nr sprawy: ZP /15

Szkolenia SAS Cennik i kalendarz 2017

Repetytorium z matematyki 3,0 1,0 3,0 3,0. Analiza matematyczna 1 4,0 2,0 4,0 2,0. Analiza matematyczna 2 6,0 2,0 6,0 2,0

Architektura dużych projektów bioinformatycznych

WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) MK_1. Analiza matematyczna

Odniesienie symbol II/III [1] [2] [3] [4] [5] Efekt kształcenia. Wiedza

Kierunek: Informatyka Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne. Wykład Ćwiczenia

Kierunek: Informatyka Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne. Wykład Ćwiczenia

Kierunek: Inżynieria i Analiza Danych Poziom studiów: Studia I stopnia Forma studiów: Stacjonarne. audytoryjne. Wykład Ćwiczenia

Kierunek Informatyka stosowana Studia stacjonarne Studia pierwszego stopnia

Kierunek: Informatyka Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne. Wykład Ćwiczenia

KOMPLEKSOWA OFERTA SZKOLEŃ MS EXCEL W FINANSACH. z konsultacjami

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa i multimedia

Minimum programowe dla studentów MIĘDZYWYDZIAŁOWYCH INDYWIDUALNYCH STUDIÓW SPOŁECZNO-HUMANISTYCZNYCH - studia magisterskie II stopnia

LearnIT project PL/08/LLP-LdV/TOI/140001

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa

1. Informatyka w zarządzaniu, 2. Grafika komputerowa i budowa systemów internetowych,

PLAN STUDIÓW STACJONARNYCH PIERWSZEGO STOPNIA DLA KIERUNKU INŻYNIERIA DANYCH

Kierunek: Informatyka Poziom studiów: Studia I stopnia Forma studiów: Stacjonarne. audytoryjne. Wykład Ćwiczenia

PLAN STUDIÓW STACJONARNYCH PIERWSZEGO STOPNIA DLA KIERUNKU MATEMATYKA NA WYDZIALE MATEMATYKI, INFORMATYKI I EKONOMETRII UNIWERSYTETU ZIELONOGÓRSKIEGO

StatSoft profesjonalny partner w zakresie analizy danych

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

Internetowy system e-crm do obsługi biura podróży. Marek Bytnar, Paweł Kraiński

I rok. semestr 1 semestr 2 15 tyg. 15 tyg. Razem ECTS. laborat. semin. ECTS. konwer. wykł. I rok. w tym. Razem ECTS. laborat. semin. ECTS. konwer.

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Ankieta zatrudnienia studentów. Wydział Zastosowań Informatyki i Matematyki SGGW w Warszawie Analizował dr Paweł Jankowski

Kurs wybieralny: Zastosowanie technik informatycznych i metod numerycznych w elektronice

PLAN STUDIÓW STACJONARNYCH PIERWSZEGO STOPNIA DLA KIERUNKU MATEMATYKA NA WYDZIALE MATEMATYKI, INFORMATYKI I EKONOMETRII UNIWERSYTETU ZIELONOGÓRSKIEGO

w ekonomii, finansach i towaroznawstwie

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Specjalizacja magisterska Bazy danych

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Kierunek: Informatyka i Ekonometria Poziom studiów: Studia I stopnia Forma studiów: Niestacjonarne. audytoryjne. Wykład Ćwiczenia

Informatyka wspomaga przedmioty ścisłe w szkole

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Wstęp. Nasze marki BV Holding Sp. z o.o. Strona 2 z 8

Efekt kształcenia. Wiedza

Obliczenia Naukowe. Wykład 11:Pakiety do obliczeń: naukowych i inżynierskich Przegląd i porównanie. Bartek Wilczyński

Analityk ds. Zarządzania Cenami

Systemy Informatyki Przemysłowej

Statystyka I z R. Bartosz Maćkiewicz. 2 października 2017

Antyk w kulturze popularnej

II. MODUŁY KSZTAŁCENIA

Kierunek: Inżynieria Obliczeniowa Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne. Wykład Ćwiczenia

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

PLAN STUDIÓW STACJONARNYCH PIERWSZEGO STOPNIA DLA KIERUNKU INFORMATYKA I EKONOMETRIA

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa

Wyjdź z ram, przełam szablon i daj się zauważyć

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Przewodnik do planowania programu kształcenia na II roku studiów I stopnia. Kierunek: Bioinformatyka. 17 czerwca 2013 r.

OBIEG INFORMACJI I WSPOMAGANIE DECYZJI W SYTUACJACH KRYZYSOWYCH

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

tel.: (+48) mail.

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Kierunek studiów: EKONOMIA Specjalność: Analityka gospodarcza

Nowoczesne i praktyczne metody wdrażania optymalnie działających procesów i zarządzania dokumentami elektronicznymi w narzędziach BPMS/DMS

Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny) podstawowy (podstawowy / kierunkowy / inny HES)

Agenda. O firmie. Wstęp Ksavi. Opis funkcjonalności systemu Ksavi Auditor. Podsumowanie

Naukowiec Web 2.0. Marek Szepski Krakowska Akademia

PROGRAM SZKOLENIA. Excel w Analizach danych.

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI

PROGRAM STUDIÓW. WYDZIAŁ: Podstawowych Problemów Techniki KIERUNEK: Matematyka stosowana

Kierunek studiów: EKONOMIA Moduł analiz rynkowych

nieograniczona możliwość dodawania filmów z 1,5 miliona unikalnych użytkowników dlastudenta miesięcznie integracja profilu z

PLAN STUDIÓW STACJONARNYCH PIERWSZEGO STOPNIA DLA KIERUNKU MATEMATYKA

INFORMATYKA i FINANSE KATEDRA INFORMATYKI TEORETYCZNEJ

firmy produkty intranet handel B2B projekty raporty notatki

Kierunek: Matematyka, rok I specjalność: Informatyczna, Analiza danych, Nauczycielska

HARMONOGRAM EGZAMINÓW

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

ANALITYKA GOSPODARCZA, STUDIA LICENCJACKIE WIEDZA

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Efekty kształcenia dla kierunku studiów GEOINFORMATYKA studia pierwszego stopnia - profil praktyczny

KIERUNKOWE EFEKTY KSZTAŁCENIA

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 4.3

Canva - bezpłatny program do projektowania efektownych grafik, zarówno do druku, jak i internetu

Informatyka Zapraszamy na studia!

Program szkolenia EXCEL PRZEKROJOWY ZAAWANSOWANY.

SEO / SEM PREZENTACJA OFERTY

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

Dwuletnie studia indywidualne II stopnia na kierunku fizyka, specjalność Metody fizyki w ekonomii (ekonofizyka)

EFEKTY KSZTAŁCENIA ORAZ MACIERZE POKRYCIA KIERUNKU ANALITYKA GOSPODARCZA STUDIA LICENCJACKIE

Naukowe Koło Nowoczesnych Technologii

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

SPIS TREŚCI. Do Czytelnika... 7

Co matematyka może dać bankowi?

Zamieszczanie ogłoszenia: obowiązkowe. Ogłoszenie dotyczy: zamówienia publicznego.

Ankieta. Informacje o uczestniku. Imię i nazwisko: Stanowisko : Warsztat Innowacyjne metody dydaktyczne (np. learning by doing, design thinking)

Rozpocznij swój pierwszy projekt IoT i AR z Transition Technologies PSC

Przewodnik dla każdego po: Dla każdego coś miłego Microsoft Excel 2010

Rok akademicki: 2013/2014 Kod: STC s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

PRZEWODNIK PO PRZEDMIOCIE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM

Rok akademicki: 2014/2015 Kod: CCB s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Transkrypt:

Język nowoczesnej analizy danych BARTOSZ SĘKIEWICZ PIOTR OCALEWICZ

AGENDA Wprowadzenie do R Bartosz Sękiewicz Kto używa R? Piotr Ocalewicz

Wprowadzenie do R

Czym jest R? Jedno z najczęściej używanych narzędzi do analizy danych

www.google.com/trends

Czym jest R? Jedno z najczęściej używanych narzędzi do analizy danych Platforma do tworzenia pięknych i unikalnych wizualizacji danych

www.facebook.com

www.smarterpoland.pl

Czym jest R? Jedno z najczęściej używanych narzędzi do analizy danych Platforma do tworzenia pięknych i unikalnych wizualizacji danych Społeczność

Społeczność R Ogromna liczba stron w języku angielskim: www.r-bloggers.com www.stackoverflow.com/questions/tagged/r www.stats.stackexchange.com Liczne spotkania społeczności R: user! (od 2004 roku z pominięciem 2005) lokalne konferencje grupy na www.meetup.com

www.r-bloggers.com/where-are-the-r-users/

Społeczność R w Polsce SER Spotkania Entuzjastów R w Warszawie: http://beta.icm.edu.pl/ser/ Spotkania od lutego 2014 Organizowane przez profesora Przemysława Biecka PAZUR Poznański Akademicki Zlot Użytkowników R: http://thinking-in-r.blogspot.com/ Spotkania od marca 2012 Organizowane przez studenckie koło naukowe Grupa QU Spotkania Entuzjastów R we Wrocławiu http://grupa-qu.pl/ Organizowane przez firmę QuantUp

Społeczność R w Polsce www.smarterpoland.pl (blog fundacji) www.statystycy.pl/ (moduł na forum dedykowany R) www.goldenline.pl/grupy/komputery_internet/r/ (grupa R)

Społeczność R w Polsce Projekt ERKA Entuzjastów R Krakowska Alternatywa www.erkakrakow.pl lub www.facebook.com/erkakrakow Spotkania od listopada 2014 Od marca 2015 roku projekt działa w ramach fundacji INIME

Czym jest R? Jedno z najczęściej używanych narzędzi do analizy danych Platforma do tworzenia pięknych i unikalnych wizualizacji danych Społeczność Potężne statystyczne środowisko programowania

Wszechstronność R jest głównym narzędziem używanym w dydaktyce na dobrych uczelniach. Zdominował prowadzenie badań naukowych w wielu dziedzinach, takich jak bioinformatyka czy genetyka. Jest bardzo popularny w zastosowaniach medycznych, finansowych i wielu innych. Od kilkunastu lat rośnie popularność R w przemyśle. Jedną z przyczyn jest to, że jest to narzędzie bezpłatne, ale popularność swoją zawdzięcza też temu, że coraz więcej analityków zostało wykształconych na programie R oraz ten program zna. Rośnie liczba ofert pracy dla osób znających język R. Małe firmy często wybierają R by ciąć koszty, ale R jest również używany przez gigantów. Zarówno przez firmy analityczne (jako silnik analityczny), jak i przez media. Jest używany w Google, Facebook, NY Times, New Scientist i wielu innych firmach. R doskonale też integruje się z innymi rozwiązaniami informatycznymi, takimi jak Python, Java, C, C++, Hadoop, bazy danych. www.pogromcydanych.icm.edu.pl/

Siła R to pakiety Siła R tkwi w tysiącach pakietów tworzonych przez społeczność R CRAN (The Comprehensive R Archive Network) Bioconductor Własne repozytoria (np. GitHub) Ponad 2 miliony użytkowników powoduje, że zarówno kod źródłowy, jak i popularne pakiety są ciągle sprawdzane i poprawiane

http://r4stats.com/articles/popularity/

Bayesian ChemPhys ClinicalTrials Cluster DifferentialEquations Distributions Econometrics Environmetrics ExperimentalDesign Finance Genetics Graphics HighPerformanceComputing MachineLearning MedicalImaging MetaAnalysis Wnioskowanie bayesowskie Chemometria i fizyka komputerowa Badania kliniczne Klasyfikacja Równania różniczkowe Rozkłady prawdopodobieństwa Ekonometria Analiza danych z ekologii i ochrony środowiska Projektowanie eksperymentów i analiza danych doświadczalnych Finanse empiryczne Genetyka statystyczna Grafika Wysoka wydajność obliczeń i obliczenia równoległe Uczenie maszynowe Analiza zdjęć medycznych Meta analizy http://cran.r-project.org/web/views/

Multivariate Statystyki wielowymiarowe NaturalLanguageProcessing Język naturalny NumericalMathematics Matematyka numeryczna OfficialStatistics Statystyka Optimization Optymalizacja Pharmacokinetics Analiza danych farmakokinetycznych Phylogenetics Filogenetyka Psychometrics Modele i metody psychometryczne ReproducibleResearch Powtarzalne badania Robust Solidne metody statystyczne SocialSciences Nauki społeczne Spatial Analiza danych przestrzennych SpatioTemporal Obsługa i analiza danych czasoprzestrzennych Survival Analiza przeżycia TimeSeries Analiza szeregów czasowych WebTechnologies Technologie i usługi sieci Web http://cran.r-project.org/web/views/

KRÓTKA PREZENTACJA

Dlaczego R? R jest dojrzałym językiem programowania zaprojektowanym z myślą o analizie danych oraz wizualizacji danych dostępnym bezpłatnie na otwartej licencji GPL. www.pogromcydanych.icm.edu.pl/

Dlaczego R? R jest językiem programowania. Oznacza to, że nie jest ograniczony do kilku algorytmów, które przewidzieli twórcy, ale każdy może napisać w nim własny algorytm. Co więcej, wiele osób korzysta z tej opcji i tworzy nowe algorytmy, które inni użytkownicy R mogą wykorzystywać. Dzięki temu liczba algorytmów i funkcji dostępnych w R bardzo szybko się zwiększa. R jest dojrzałym językiem programowania. Jest rozwijany od ponad 21 lat, dzięki czemu zdążył nabrać masy krytycznej. Pewne usterki projektowe wczesnych wersji R (np. ograniczenie do 4GB RAM) zostały dostrzeżone i wyeliminowane. Dziś jest to narzędzie rozwijane i przez dużą grupę statystyków, i inżynierów oprogramowania, co jest gwarancją stabilnego rozwoju. www.pogromcydanych.icm.edu.pl/

Dlaczego R? R jest dojrzałym językiem programowania zaprojektowanym z myślą o analizie danych. Dojrzałych języków programowania jest wiele, ale niewiele z nich nadaje się do interaktywnej pracy z danymi. W języku R połączono wybrane cechy języków funkcyjnych oraz obiektowych, a nacisk położono na pracę interaktywną z danymi. Dodatkowe biblioteki wspierają łatwe tworzenie raportów z wynikami. Dzięki tym cechom R jest stworzony do analizy danych. R jest dojrzałym językiem programowania zaprojektowanym z myślą o wizualizacji. W języku R można wykonać grafiki statystyczne o publikacyjnej jakości. Oznacza to, że bez dodatkowych narzędzi można stworzyć profesjonalny wykres. Co więcej, jest wiele pakietów, dzięki czemu tworzenie takich wykresów jest proste. www.pogromcydanych.icm.edu.pl/

Dlaczego R? R jest dojrzałym językiem programowania dostępnym bezpłatnie na otwartej licencji GPL. Program R jest dostępny bezpłatnie do każdych zastosowań. Czy to na uczelni, czy w działalności komercyjnej, możemy go wykorzystywać bez żadnych opłat. Program R, jest dostępny na otwartej licencji, co oznacza, że każdy ma dostęp do źródeł, każdy element można zobaczyć jak funkcjonuje, można sprawdzić czy nie zawiera błędów i ewentualnie usprawnić. www.pogromcydanych.icm.edu.pl/

A dlaczego nie? Jest to język programowania a nie środowisko klikane Ogranicza nas pamięć komputera Wymaga podstawowej znajomości j. angielskiego

Gdzie szukać? Kilkadziesiąt książek po angielsku, między innymi seria Use R! (Springer) Polskie pozycje (m.in. Przewodnik po pakiecie R. Przemysław Biecek, ale jest tego znacznie więcej) Czasopisma poświęcone R (Journal of Statistical Software, The R Journal) www.rseek.org (wyszukiwarka)

Kto korzysta z R?

1. Jedna z największych instytucji finansowych na świecie 2. Dotychczas w bankowości dominacja narzędzi MS Excel i SAS 3. Przeniesienie części raportowania z komercyjnych rozwiązań do R 4. Dużo bardziej rozbudowane możliwości graficznej prezentacji danych niż w dotychczas wykorzystywanych narzędziach

1. R to podstawowe narzędzie analizy danych i obliczeń statystycznych w Google Inc. 2. Zwiększenie efektywności wyświetlania reklam 3. Badanie ruchu i kluczowych fraz 4. Prognozowanie i przewidywanie przyszłych zachowań klientów 5. R jest w stanie obsłużyć bazy danych o pojemności terabajtów

1. Jedna z największych firm ubezpieczeniowych na świecie 2. Wykorzystanie możliwości graficznych R do prezentacji wyników analiz

1. Jedna z najbardziej opiniotwórczych gazet na świecie 2. Duża część wykresów i wizualizacji danych tworzona jest w R 3. Prognozowanie wyników wyborów do Senatu w USA

1. Analiza statusów użytkowników i wykorzystywanych fraz (text mining) 2. Dostępne bazy danych ponad 1 mld użytkowników (!) 3. Badanie powiązań i wzajemnych relacji użytkowników

1. Jeden z najpopularniejszych portali randkowych w USA 2. Przejście z arkuszy Excela do środowiska R 3. Lepsze profilowanie i dopasowanie użytkowników portalu

1. Największa firma windykacyjna w Polsce 2. R służy do budowania modeli predykcyjnych 3. Większa automatyzacja dotychczasowych analiz 4. Skrócenie czasu przygotowania modeli nawet o połowę

1. Wykorzystanie R w obszarze scoringu kredytowego 2. Budowa, walidacja i utrzymanie kart scoringowych 3. Prognozowanie szeregów czasowych 4. Analizy ekonometryczne i analizy ad-hoc

Jakie jeszcze instytucje finansowe w Polsce korzystają z R?

Czy są oferty pracy z językiem R? www.indeed.com

Dziękujemy za uwagę Bartosz Sękiewicz: b.sekiewicz@erkakrakow.pl Piotr Ocalewicz: p.ocalewicz@erkakrakow.pl