Machine learning Lecture 4

Podobne dokumenty
Machine learning Lecture 6

Machine learning Lecture 3

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Machine learning Lecture 2

A Zadanie

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Hard-Margin Support Vector Machines

Metody klasyfikacji Danych wielowymiarowych by mgr inz. Marcin Kurdziel and mgr inz. Tomasz Arodz

7. Maszyny wektorów podpierajacych SVMs

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Stargard Szczecinski i okolice (Polish Edition)

Machine learning Lecture 5

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Optymalizacja kryteriów selekcji dla rozpadu Λ+c pμ+μza pomocą wielowymiarowej analizy danych

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Elementy inteligencji obliczeniowej

SVM: Maszyny Wektorów Podpieraja cych

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

W ostatnim wykładzie doszliśmy do tego, że problem znalezienia klasyfikatora optymalnego pod względem marginesów można wyrazić w następujący sposób:

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH

Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr.

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Klasyfikacja LDA + walidacja

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Maszyny wektorów podpierajacych w regresji rangowej


TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Laboratorium 11. Regresja SVM.

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Sterowanie optymalne

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Testowanie modeli predykcyjnych

Tychy, plan miasta: Skala 1: (Polish Edition)

SPOTKANIE 9: Metody redukcji wymiarów

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

System optymalizacji produkcji energii

FILTROWANIE SPAMU Z UŻYCIEM MASZYNY WEKTORÓW WSPIERAJĄCYCH

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Installation of EuroCert software for qualified electronic signature

Metody Sztucznej Inteligencji II

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

MATLAB Neural Network Toolbox przegląd

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Elementy modelowania matematycznego

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Oracle Data Mining 10g

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

Metody klasyfikacji danych - część 1 p.1/24

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

TEORETYCZNE PODSTAWY INFORMATYKI

What kind of. Data Scientist do you need?

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

Popularne klasyfikatory w pakietach komputerowych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

KADD Minimalizacja funkcji

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Wprowadzenie do statystyki oraz analizy danych

Uczenie sieci typu MLP

Podstawy sztucznej inteligencji

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Wprowadzenie do Sieci Neuronowych Laboratorium 04 Algorytmy konstrukcyjne dla sieci skierowanych

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

deep learning for NLP (5 lectures)

Inteligentne systemy przeciw atakom sieciowym

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

Wybór modelu i ocena jakości klasyfikatora

Klasyfikatory SVM. Przemysław Klęsk. 1 Wiadomości ogólne 1. 2 Margines separacji Wzór na odległość punktu od płaszczyzny...

KLASYFIKACJA. Słownik języka polskiego

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Układy równań nieliniowych (wielowymiarowa metoda Newtona-Raphsona) f(x) = 0, gdzie. dla n=2 np.

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

WYKŁAD: Perceptron Rosenblatta. Maszyny wektorów podpierających (SVM). Empiryczne reguły bayesowskie. Zaawansowane Metody Uczenia Maszynowego

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Klaps za karę. Wyniki badania dotyczącego postaw i stosowania kar fizycznych. Joanna Włodarczyk

Estimation and planing. Marek Majchrzak, Andrzej Bednarz Wroclaw,

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Transkrypt:

Machine learning Lecture 4 Marcin Wolter IFJ PAN 7 kwietnia 2017 Support Vector Machines (SVM). Omówienie zadania zaliczeniowego. 1

Support Vector Machines Główne założenie: należy zbudować model używając minimalną liczbę wektorów z danych treningowych (Support Vectors). Przestrzeń: może modelować dowolną funkcję. Funkcjonalnie algorytm podobny do sieci neuronowej, metod jądrowych Parzena itp. 2

Trochę historii Wczesne lata sześćdziesiąte została opracowana metoda support vectors w celu konstruowania hiperpłaszczyzn do rozpoznawania obrazu ( Vapnik i Lerner 1963, Vapnik i Czervonenkis 1964) liniowa SVM. Początek lat 1990-siątych: uogólnienie metody pozwalające na konstruowanie nieliniowych funkcji separujących (Boser 1992, Cortes i Vapnik 1995). 1995: dalsze rozszerzenie pozwalające otrzymać estymację funkcji ciągłej na wyjściu regresja (Vapnik 1995). 3

Klasyfikator Liniowy x oznacza +1 f yest f(x,w,b) = sign(w*x - b) oznacza -1 Każda z tych linii (klasyfikatorów) jest dobra......ale która najlepiej oddziela sygnał od tła? 4

Ta z największym marginesem! x f f(x,w,b) = sign(w x - b) oznacza yi=+1 Maximum margin linear classifier oznacza yi=-1 Support Vectors Najprostszy rodzaj SVM, zwany LSVM (liniowa SVM) -punkty ograniczające margines, czyli te na których on się wspiera. Intuicyjnie najlepiej. i y i w x i b 1 0 w x b=0 równanie prostej 2 margin= w yest Nieczuły na błędy w położeniu klasyfikatora. Separacja zależy tylko od wektorów wspierających. Działa w praktyce! 5

Trochę matematyki oznacza yi=+1 Warunek jaki musi spełniać prosta: oznacza yi=-1 opisana wzorem: i y i w x i b 1 0 w x b=0 Support Vectors Margines określony jest wzorem: 2 margin= w Musimy maksymalizować margines, czyli minimalizować w 2. Klasyfikator zależy tylko od części danych wektorów wspierających. Używamy tylko podzbioru wszystkich danych aby zoptymalizować separację. 6

Co zrobić jeśli dane nie są separowalne? Dodajemy dodatkowy człon do naszych równań ( slack variable ): i =0 x i poprawnie sklasyfikowane i =odległość x i sklasyfikowane niepoprawnie oznacza +1 oznacza -1 3 I uzyskujemy: i y i w x i b 1 C i 0 Dla klasyfikatora liniowego (prostej) w x b=0 1 2 1 2 minimalizuj : w C i 2 i gdzie C jest arbitralnym parametrem. Funkcja straty jest liniowa, nie kwadratowa! 7

Przykład jednowymiarowy Super łatwe!!! Wektor wspierający Wektor wspierający 8

Trudniejszy przykład jednowymiarowy Te dane nie są liniowo separowalne!??? x=0 9

A może przejść do przestrzeni 2-wymiarowej? x -> (x, x2) W tej przestrzeni punkty są liniowo separowalne! x=0 10

W przestrzeni 2-wymiarowej Teraz mamy separację x=0 11

Jeśli dane nie są liniowe Należy dokonać transformacji do przestrzeni o większej liczbie wymiarów, gdzie dane będą liniowo separowalne. W naszym przykładzie dane separowalne przez krzywą eliptyczną w R2 będą separowalne liniowo w R3. Potrzebna jest uniwersalna metoda transformacji do przestrzeni o większej liczbie wymiarów. 12

Mnożniki Lagrange'a (przypomnienie) Mnożniki Lagrange a metoda obliczania ekstremum warunkowego funkcji różniczkowalnej wykorzystywana w teorii optymalizacji. Dla przypadku dwuwymiarowego problem optymalizacji polega na maksymalizacji L(x, y) przy spełnieniu warunku G(x, y)= 0. W tym celu wprowadzamy nową zmienną α zwaną mnożnikiem Lagrange a oraz budujemy funkcję pomocniczą: F(x, y, α) = L(x, y) + αg(x, y). Wszystkie punkty, które mogą być ekstremami warunkowymi są rozwiązaniami układu równań: Problem n zmiennych z k więzami jest redukowany do problemu n+k zmiennych bez więzów. 13

Trochę matematyki Wprowadzamy Lagrangian i mnożniki Lagrange'a: L w =1/2 w i yi [ w, b,, x b ] 1 2 i 0 yi [ w, x b] 1 0 i nasze więzy Lagrangian musi być minimalizowany ze względu na w i b oraz maksymalizowany ze względu na αi. yi [ w, x b] 1 0 i=0 bez znaczenia yi [ w, x b] 1=0 support vectors w punkcie ekstremum: L L =0, =0 b w i yi =0 w = i y i x i i i podstawiamy do L i mamy maksymalizację funkcji W(α) w przestrzeni α i 1 y y x, x 2 i j i j i j i j i 0, y i i=0 W = i i i f x = sgn w, x b = sgn y x, x b i i i W tej przestrzeni W jest funkcją iloczynów xi*xj f funkcja dyskryminująca i 14

Trik zastosowanie jądra (kernel) Funkja Ф przeprowadza przestrzeń wektorów wejściowych do nowej przestrzeni w której dane są separowalne przez hiperpłaszczyznę: n x : input ℜ ℜ N N n Wtedy x i, x j x i, x j = K x i, x j I możemy używać tych samych równań. Nie musimy znać funkcji Ф, wystarczy znać jądro (kernel) i można pracować w nowej przestrzeni. 1 y y K x i, x j 2 i j i j i j i 0, y i i =0 W = i i i f x =sgn y K x, x b i i i i 15

Typowo stosowane jądra Jądro musi spełniać warunek: K x i, x j = K x j, x i 16

Lagrangian Lagrangian w przypadku danych nieseparowalnych: 17

Nieliniowe jądro (I) Przykład: SVM z jądrem wielomianowym 2-go stopnia 18

Nieliniowe jądro (II) Jądro: funkcja Gaussa 19

Applet pokazujący działanie SVM http://cs.stanford.edu/people/karpathy/svmjs/demo/ 20

Regresja ε insensitive loss L(f,y) Mamy dane wejściowe: X = {(x1,d1),., (xn,dn)} Chcemy znaleźć funkcję f(x) która ma odchylenie od wartości d nie większe niż oraz będącą jak najbardziej gładką. 21

Regresja Zadanie: przeprowadzić uogólnienie algorytmu klasyfikacji tak, aby uzyskać regresję. Zachować wszystkie właściwośći SVM Definiujemy funkcję: Minimalizacja: I powtarzamy procedurę przejścia do wyższych wymiarów, stosujemy funkcję jądra itd... 22

SVM w pakiecietmva Algorytm SVM został zaimplementowany do pakietu TMVA Andrzej Zemła, praca magisterska. Dostępne funkcje jądra: Liniowa zapewnia tylko separację liniową RBF (funkcja Gaussa) dowolny kształt powierzchni separującej Wielomianowa Rozwiązanie problemu kwadratowego - SMO (Sequential Minimal Optimization - J. Platt, Microsoft) z modyfikacjami Keerthi'ego: rozbicie problemu minimalizacji na wiele małych kroków znalezienie optymalnej pary wektorów, redukcja do problemu dwóch zmiennych i rozwiązanie analityczne iteracyjne powtarzanie procedury aż do znalezienia minimum. 23

Porównanie SMO z innymi algorytmami Z prezentacji J. Platt 24

Przykład (pakiet TMVA): Identyfikacja leptonów τ w eksperymencie ATLAS Eksperyment ATLAS jeden z eksperymentów (CMS, ALICE, LHCb) budowanych obecnie na akceleratorze LHC w laboratorium CERN (start 2008). Dane do analizy: hadronowe rozpady τ zrekonstruowane za pomocą algorytmu tau1p3p (z danych Monte-Carlo) 1-prong (1 ślad hadronowy) 2-prong (2 ślady hadronowe) 3-prong (3 ślady hadronowe) Identyfikacja zrekonstruowane zmienne: rozpady 1p 9 zmiennych Dane 3-prong rozpady 2p i 3p 11 zmiennych Żadna zmienna samodzielnie nie pozwala na dobre rozróżnienie sygnału od tła. 25

Optymalizacja punktu pracy dane 3-prong Nauka: trening na części danych, sprawdzenie na pozostałych danych (kontrola przeuczenia). SVM z gaussowską funkcja jądrową optymalizacja σ funkcji gaussa oraz parametru C. Optymalizacja wielokrotny trening, wybór najlepszej pary {σ,c} (największa całka z krzywej ROC). Zależność odrzucania tła oraz czasu treningu od liczby wektorów treningowych. Dla małych zbiorów treningowych prawie optymalna klasyfikacja (skraca czas treningu, często nie mamy dużych zbiorów danych treningowych). 26

Separacja sygnału i tła dane 3-prong Wyniki dla funkcji jądrowych: liniowej, gausa Porównanie SVM z wielowarstwową siecią neuronową i wielomianowej 9 stopnia. Trening na zbiorze zawierającym po 5000 przypadków sygnału i tła. Testowanie: ~62000 p. sygnału ~264000 p. tła Sieć MLP z pakietu TMVA 2 ukryte warstwy mające po 20 nodów Krzywa ROC Sieć MLP oraz SVM z funkcją jądrową gausa dają zbliżone rezultaty 27

SVM <-> multilayer perceptron (sieć neuronowa) Fundamentalne różnice MLP stopień skomplikowania kontrolowany poprzez liczbę ukrytych nodów SVM stopień skomplikowania kontrolowany niezależnie od liczby wymiarów SVM mapowanie powoduje, że płaszczyzna separująca jest konstruowana w przestrzeni wielo (często nieskończenie) wymiarowej. Problem z wielka liczbą wymiarów jest rozwiązywany poprzez użycie funkcji jądra (kernel). Jianfeng Feng, Sussex University 28

Mocne strony SVM Stopień skomplikowania/pojemność jest niezależny od liczby wymiarów. Dobra podbudowa statystyczna. Znajdowanie minimum. Minimalizujemy funkcję kwadratową co gwarantuje zawsze znalezienie minimum. Algorytm jest wydajny i SVM generuje prawie optymalny klasyfikator. Nie jest tez czuły na przetrenowanie. Dobre uogólnianie dzięki wielowymiarowej feature space. Najważniejsze: poprzez użycie odpowiedniej funkcji jądra SVM automatycznie dobiera wszystkie parametry sieci (liczbę ukrytych nodów, wagi). Jianfeng Feng, Sussex University 29

Słabe strony SVM Powolny trening minimalizacja funkcji, szczególnie dokuczliwy przy dużej ilości danych użytych do treningu. Rozwiązania też są skomplikowane (normalnie >60% wektorów użytych do nauki staje się wektorami wspierającymi), szczególnie dla dużych ilości danych. Przykład (Haykin): poprawa o 1.5% ponad wynik osiągnięty przez MLP. Ale MLP używał 2 ukrytych nodów, SVM 285. Trudno dodać własną wiedzę (prior knowledge) Jianfeng Feng, Sussex University 30

Zadanie dla ambitnych https://www.kaggle.com/c/higgs-boson Open Higgs challenge!!!!!!!!!!!!!! 31

Machine Learning and HEP 90 ies - Neural Nets used by LEP experiments BDT (Adaboost) invented in 97 Machine Learning used extensively at D0/CDF (mostly BDT, also Neural Nets) in the 00 ies Last years mostly BDT built in TMVA ROOT package (popular among physicists). Neural Nets and other techniques treated as obsolete. Not much work within LHC experiments on studying possible better MVA techniques. Enormous development of Machine Learning in the outside world in the last 10 years ( Big Data, Data Science, even Artificial Intelligence is back). We have to catch up and learn from computer scientists: Make an open Higgs challenge! Task: identify H->tau tau signal out of background in the simulated data.

How did it work? People register to Kaggle web site hosted https://www.kaggle.com/c/higgsboson. (additional info on https://higgsml.lal.in2p3.fr). download training dataset (with label) with 250k events train their own algorithm to optimize the significance (à la s/sqrt(b)) download test dataset (without labels) with 550k events upload their own classification The site automatically calculates significance. Public (100k events) and private (450k events) leader boards update instantly. (Only the public is visible) 1785 teams (1942 people) have participated most popular challenge on the Kaggle platform (until a few weeks ago) 35772 solutions uploaded Funded by: Paris Saclay Center for Data Science, Google, INRIA

Final leaderboard 7000$ 4000$ 2000$ Best physicist HEP meets ML award XGBoost authors Free trip to CERN

The winners See http://atlas.ch/news/2014/machine-learning-wins -the-higgs-challenge.html 1 : Gabor Melis (Hungary) software developer and consultant : wins 7000$. 2 : Tim Salimans (Neitherland) data science consultant: wins 4000$ 3 : Pierre Courtiol (nhlx5haze) (France)? : wins 2000$ HEP meets ML award: (team crowwork), Tianqi Chen (U of Washington PhD student in Data Science) and Tong He (graduate student Data Science SFU). Provided XGBoost public software used by many participants. https://github.com/dmlc/xgboost?

Rank distribution after bootstrap Distribution of rank of participant of rank i after 1000 bootstraps of the test sample.! Gabor clearly better rank 1 rank 2 rank 4 rank 7 rank 5 rank 8 David Rousseau rank 3 rank 6 rank 9 HiggsML visits CERN, 19th May 2015

What did we learn from ML experts? Very successful satellite workshop at NIPS (on of the two major Machine Learning conferences) in Dec 2014 @ Montreal: https://indico.lal.in2p3.fr/event/2632/ 20% gain w.r.t. to untuned Boosted Decision Tree from the TMVA package Deep Neural Nets rule (but marginally better than BDT) Ensemble methods (random forest, boosting) rule careful cross-validation - very (human) time consuming...but this could be automatized! Complex software suites using routinely multithreading, etc (e.g. XGBoost)

Deep neural network Hierarchical feature extraction first build abstract objects, than find dependencies between them. Deep neural network (DNN)- an artificial neural network with multiple hidden layers of units between the input and output layers. Extra layers - composition of features from lower layers, potential of modeling complex data with fewer units than a similarly performing shallow network. Challenge winning Gabor's deep neural network (from Gabor's presentation) Remark: Few years ago some experts claimed neural networks are an obsolete tool :)

Automatic optimization of hyperparameters Manual optimization of NN (or any other method) is time consuming. Fortunately the Bayesian optimization methods can rival and surpass human domain experts in finding good hyperparameter settings. SMAC, SPEARMINT, TPE (and others) are doing that with great success: http://www.cs.ubc.ca/~hutter/papers/13-bayesopt_empiricalfoundation.pdf

Analiza podczas praktyk studenckich Próbowaliśmy powtórzyć HiggsChallenge podczas praktyk studenckich. Udało się za pomocą TMVA (konwersja danych do formatu root) oraz pakietu XGBoost Optymalizacja parametrów XGBoost za pomocą programu hyperopt

Zadanie drugie ATLAS Z tau tau selection Dane: mc12/ztautau.root Powheg_ttbar.root - sygnał - tło Wenu.root Wmunu.root Wtaunu.root Zee.root - tło - tło - tło - tło Zmumu.root - tło Zmienne: preselekcja: if(!( evtsel_is_dilepveto > 0 && evtsel_is_tau > 0 && fabs(evtsel_tau_eta) < 2.47 && evtsel_is_conf_lep_veto == 1 && evtsel_tau_numtrack == 1 && evtsel_lep_pt > 26 && fabs(evtsel_lep_eta) < 2.4 && evtsel_transversemass < 70)) continue; 42

ATLAS Z tau tau selection Zmienne użyte do treningu: evtsel_tau_et evtsel_dphisum evtsel_tau_pi0_n evtsel_transversemass sum_cos_dphi Spectator vis_mass Program: TMVAClassificationMW.C i TMVAClassificationMW.h Wykonuje podstawowy trening. 43

ATLAS Z tau tau selection Zainstalować pakiet root i TMVA Ściągnąć dane i przykładowy program: Uruchomić przykładowy program: root -l.l TMVAClassificationMW.C++ TMVAClassificationMW t t.loop() Zmodyfikować go: Spróbować zoptymalizować parametry wybranej metody Spróbować usunąć jakieś zmienne a może dodać? Spróbować użyć indywidualnych zmiennych wchodzących w skład np. sum_cos_dphi Użyć wszystkich rodzajów tła użyć wag WeightLumi Zaaplikować wyuczony klasyfikator do danych (data12/muons.physcont.grp14.root), można się wzorować na przykładzie TMVAClassificationApplication dostępnym na stronie TMVA. 44

ATLAS Z tau tau selection Wykonać tego typu rysunek np. dla masy widzialnej 45

ATLAS Z tau tau selection Cięcia zastosowane w analizie polaryzacji tau pochodzących z rozpadu Z taut tau Czy używając uczenia maszynowego udało nam się poprawić wynik? 46