Próba zbadania zaleŝności występujących w Premier League Autorzy: Rafał Stępień Tomasz Woźnica
Wstęp Premier League (nazywana takŝe Barclays Premier League od nazwy sponsora) zawodowa liga piłkarska znajdująca się na najwyŝszym szczeblu rozgrywek piłkarskich w Anglii. Gra w niej 20 klubów. W lidze tej obowiązuje reguła awansu i spadku. Premier League jest korporacją, której 20 zespołów w niej grających są akcjonariuszami. Sezon rozgrywek rozpoczyna się w sierpniu, a kończy się w maju. KaŜdy klub rozgrywa 38 meczów w tym czasie ze wszystkich 380 spotkań ligowych. Premier League jest sponsorowana przez Barclays Bank i z tego powodu jest oficjalnie nazywana Barclays Premier League. Liga została załoŝona jako FA Premier League 20 lutego 1992 roku po tym jak zespoły Football League First Division zdecydowały stać się niezaleŝne od The Football League powstałej w 1888 roku. Czerpała ona zyski z praw telewizyjnych. Od tego czasu Premier League jest najchętniej oglądaną ligą sportową na świecie. Są to takŝe najbardziej dochodowe rozgrywki piłkarskie. W sezonie 2007/2008 obroty klubów wyniosły 1,93 miliardów funtów (3,15 miliardów dolarów). Premier League zajmuje takŝe pierwsze miejsce w rankingu UEFA, w którym liczą się występy zespołów z danych lig w europejskich pucharach z ostatnich pięciu lat. Od czasu załoŝenia w rozgrywkach Premier League brały udział 43 kluby, cztery z nich zostały mistrzem Anglii: Manchester United, Blackburn Rovers, Arsenal, i Chelsea. W sezonie 2008/2009 Manchester United wygrał rozgrywki Premier League, dokonał tego po raz jedenasty.
Projekt Projekt ten został stworzony na potrzeby laboratoriów z przedmiotu Statystyka, na I semestrze uzupełniających studiów magisterskich. Przedmiotem naszych badań i rozwaŝań jest Premier League (pierwsza liga angielskiej piłki noŝnej), a w szczególności tabela końcowa sezonu 08/09, oraz wyniki osiągnięte w tym sezonie przez 4 czołowe kluby (Manchaster United, Chelsea London, Arsenal London, F.C. Liverpool), czyli tzw. Big Four biorący udział w lidze mistrzów. Dane zaczerpneliśmy z oficjalnej strony rozgrywek dostępnej pod adresem: http://www.premierleague.com/page/statistics/0,,12306,00.html. Celem projektu było analiza zaleŝności miejsca w lidze od poszczególnych czynników, do których zaliczyliśmy: - Ilość meczy - Ilość zwycięstw - Ilość poraŝek - Ilość remisów - Ilość bramek strzelonych - Ilość bramek straconych - Bilans - Ilość punktów - Ilość bramek na mecz - Pojemność stadionu - Średnia ilość widzów na meczu - Ilość Ŝółtych kartek w sezonie - Ilość czerwonych kartek w sezonie - Średnie zapełnienie stadionu (wyraŝone w procentach) W ramach projektu przeprowadziliśmy następujące czynności: 1) Predykcja hipotetycznej 39 kolejki na podstawie poprzednich 38 wyników (nie hipotetycznych). 2) Wsteczna analiza regresji w celu wyodrębnienia najbardziej istotnych zmiennych, która wykazała, iŝ najbardziej istotną zmienną jest bilans. 3) Badanie wpływu otrzymanych Ŝółtych kartoników i czerwonych kartoników na końcowe miejsce w lidze, za pomocą regresji wielorakiej (w tym takŝe badanie normalności reszt). 4) Badanie wpływu bramek strzelonych na końcowe miejsce w lidze, za pomocą regresji wielorakiej. Wszystkie obliczenia prowadzone są na poziomie istotność α=0,05.
Ad. 1) W tym zadaniu posługiwaliśmy się następująca tabelą danych: Pierwsza kolumna odpowiedzialna jest za numer kolejki (1-38, gdyŝ w lidze angielskiej gra 20 druŝyn i w ciągu sezonu kaŝda gra z kaŝda dwukrotnie systemem mecz-rewanŝ).
Druga, trzecia, czwarta i piąta kolumna przedstawiają bilans czterech czołowych druŝyn (Manchester United, F.C. Liverpool, Chelsea London, Arsenal London), gdzie np. 2 oznacza zwycięstwo róŝnicą dwóch bramek, 0 oznacza remis, a 3 przegraną trzema bramkami. W celu predykcji wyniku naleŝy posłuŝyć się opcją Regresja Wieloraka znajdującą się pod zakładką Statystyka. Jako zmienną zaleŝną naleŝy wybrać kolumnę z wynikami druŝyny, której następny mecz chcemy przewidzieć, a jako niezaleŝna numer kolejki (kolumnę pierwszą). W przypadku pierwszej druŝyny (Manchester United) otrzymujemy następujące wyniki regresji: Współczynnik determinacji określa jaki procent zmienności zmiennej objaśnianej jest opisywany przez model. W naszym przypadku R 2 =0,00012517, wynika z tego, Ŝe jedynie 0,01% zmienności zmiennej objaśnianej zostało wyjaśnione przez model. Mimo to przeprowadzamy predykcje dla 39 kolejki. Otrzymany wynik równieŝ nie napawa optymizmem. MoŜemy co prawda wywnioskować, iŝ wynik najprawdopodobniej będzie korzystny (z przedziału 0,054 do 2,272), jednak prawdopodobieństwo zaistnienia konkretnego wyniku jest bardzo małe.
To samo rozwaŝanie przeprowadzimy teraz dla kolejnych druŝyn. Chelsea: Arsenal:
Najlepsze wyniki otrzymaliśmy jednak podczas analizy wyników zespołu Liverpool F.C.: Jak widać tym razem otrzymujemy współczynnik determinacji R 2 =0,1065, który mówi nam Ŝe model objaśnia nieco ponad 10% zmienności zmiennej objaśnianej. Prawdopodobieństwo zaistnienia takiego wyniku wynosi 1%. Zmienna nr kolejki została podświetlona na czerwono, jest więc istotna dla modelu. Według programu Statistica Liverpool wygra kolejny mecz róŝnicą minimum 1 bramki, wynik jest o tyle nieprawdopodobny gdyŝ według wyliczeń programu Liverpool nie ma prawa nie tylko przegrać ale i zremisować.
Ad 2) W tym punkcie przeprowadzamy regresje wieloraką wsteczną. Po stopniowej eliminacji kolejnych zmiennych otrzymujemy, iŝ Bilans jest najwaŝniejszą ze zmiennych i wyjaśnia niemal 88% zmienności zmiennej objaśnianej. Jest to całkiem logiczny rezultat, gdyŝ oczywistym jest, Ŝe mistrzostwo kraju zdobędzie druŝyna która strzeli duŝo bramek i jednocześnie straci ich jak najmniej. Otrzymujemy następujące równanie regresji: Miejsce w lidze = 10,5 0,219* bilans ± 2,0545
Ad 3) Trzecia część naszego zadania polegała na badaniu zaleŝności pomiędzy miejscem w lidze a ilością otrzymanych Ŝółtych i czerwonych kartek. NiŜej zaprezentowana jest tabela ligi po rozegraniu 38 kolejek (2 x 19, gdyŝ w lidze angielskiej gra 20 druŝyn, a rozgrywki prowadzone są metoda mecz/rewanŝ), z uwzględnieniem wszystkich waŝnych statycznie dla naszych rozwaŝań danych. W tym celu naleŝy przeprowadzić Regresje Wieloraką, która znajdziemy pod zakładką Statystyka. Jako zmienną zaleŝną wybieramy drugą kolumnę (czyli Miejsce w lidze), a jako niezaleŝne kolumny czternastą i piętnastą (Ŝółte i czerwone kartki). Podsumowanie regresji prezentuje się następująco: Otrzymujemy nastepjące równanie regresji: Miejsce w lidze = -7,73 + 0,30*Ŝółte kartki + 0,08* czerwone kartki ± 5,45 Na czerwono podświetlono śółte kartki, wskazuje to na fakt ilośc otrzymanych Ŝółtych kartek wpływa na miejsce w lidze. Zmienna czerwone kartki nie została podświetlona na czerwono, przyczyna tego moŝe być fakt iŝ czerwone kartki otrzymuje się stosunkowo Ŝadko.
Reszty nienajlepiej dopasowały się do prostej, zatem zmienna objaśniana nie ma rozkładu normalnego.
Ad 4) W ostatniej części naszego zadania przeprowadzamy analizę istotności ilości bramek strzelonych do końcowego miejsca w lidze. W tym celu przeprowadzamy Regresję Wieloraką, która znajduje się pod zakładka Statystyka. Jako zmienną zaleŝna wybieramy miejsce w lidze, niezaleŝną zaś bramki strzelone. Jak widać ilość bramek strzelonych to bardzo waŝny czynnik wpływający na końcowe miejsce w lidze. Występuje tutaj zaleŝność odwrotna, gdyŝ jak wiadomo im więcej strzelonych bramek tym lepiej, zaś najbardziej poŝądaną pozycja w lidze są te o najniŝszej wartości (czyli 1 miejsce). Jak moŝna było się domyśleć wynik jest nieco gorszy niŝ w przypadku badania wpływu bilansu na miejsce w lidze. W tym przypadku wykres normalności reszt przedstawia się następująco: Tak jak w poprzednim przypadku reszty nie są dobrze dopasowane do prostej. Zmienna nie ma rozkładu normalnego.
ZaleŜność miejsca w lidze od bilansu bramek moŝna przedstawić za pomocą wykresu słupkowego: Widać Ŝe im lepszy bilans tym wyŝsze miejsce w lidze, jednak Manchester United wygrał ligę pomimo iŝ kilka druŝyn miało lepszy bilans. Jak to moŝliwe? Wystarczy spojrzeć na dwie wyimaginowane druŝyny: druŝyna A wygrywa 2-0 i 1-0, jej bilans wynosi +3, w przypadku druŝyny B, która wygrywa 6-0 i przegra 0-2 bilans będzie +4. Przy czym pierwsza druŝyna w dwóch meczach uzyska 6 pkt. a druga tylko 3 mimo iŝ druŝyna B ma lepszy bilans ogólny.
Podsumowanie Do naszego projektu zaczerpnęliśmy dane z Ligi angielskiej gdyŝ jest jedną z najlepszych i najmniej przewidywalną w Europie. Co prawda jasno widać zaleŝności pomiędzy miejscem w lidze a poszczególnymi czynnikami jak np. bilans, Ŝółte i czerwone kartki czy ilość widzów na stadionie. Oczywistym jest, Ŝe im więcej bramek tym lepsza pozycja na koniec sezonu, jednak przewidywanie wyników nawet druŝyn z czołówki, które wygrywają najwięcej meczy w sezonie jest niemalŝe niemoŝliwe. Na wynik poszczególnego meczu wpływa zbyt wiele czynników, których nie da się przewidzieć iŝ próbę taką moŝna porównać do wróŝenia z fusów. Gdyby dalo się przeprowadzać takie statystyki na duŝym prawdopodobieństwie sukcesu to istnienie bukmacherów i innych zakładów sportowych mijałoby się z celem, gdyŝ prowadziłoby to do ich bankructwa. To jest właśnie powód popularności tej dyscypliny sportu - jej nieprzewidywalność, gdzie kaŝdy moŝe wygrać z kaŝdym i nie da się tego przewidzieć, to jest właśnie piękno futbolu.