Jacek BARTMAN, Konrad BAJDA Uniwersytet Rzeszowski, Polska Wykorzystanie sztucznych sieci neuronowych do prognozowania wyników meczów piłkarskich 1. Prognozowanie Prognozowanie, czyli przewidywanie przyszłych zdarze stało si jednym z elementów ycia człowieka. Prowadzimy prognozy meteorologiczne, gospodarcze i wiele innych, próbujemy przewidywa przyszło praktycznie w ka dej dziedzinie ycia. Jedne prognozy s trafne, inne zupełnie mijaj si z rzeczywisto ci. Wspóln cech prognozowania jest przetwarzanie informacji i próba znalezienia elementów, które determinuj przyszłe zdarzenia. W tym miejscu warto zada pytanie, czy wszystkie zjawiska, wszystkie procesy s w pełni zdeterminowane czy te nie? Czy stopie determinacji zale y od perspektywy czasowej? Najcz ciej im bli ej chwili, dla której chcemy co przewidzie, tym wi cej mamy informacji, a wi c łatwiej jest znale elementy determinuj ce. Ale tu kolejne pytanie: jak wag maj poszczególne determinanty? Mo na zada jeszcze wiele innych pyta, dlatego od dawna próbowano wykorzysta w procesach prognozowania narz dzia matematyczne (głównie statystyczne), w wi kszo ci z nich stosowano metody do opisu niepewno ci: regresywne i autoregresywne analizy, prawdopodobie stwo subiektywne w poł czeniu z ła cuchami Markowa i metodami Monte-Carlo [Nazarko 2004]. W ostatnich czasach coraz cz ciej do prognozowania wykorzystuje si metody z grupy sztucznej inteligencji: sztuczne sieci neuronowe, zbiory rozmyte czy algorytmy genetyczne. Niezale nie od zastosowanej metody prognozowanie sprawdza si do znalezienia: przekształcenia pozwalaj cego wyznaczy interesuj ce nas wła ciwo ci z przyszło ci na podstawie dost pnych danych, zbioru elementów determinuj cych maj cych wpływ na przyszło. Zbiór ten nie musi by okre lony jawnie, wystarczy, e znajdziemy inne elementy, których kombinacja dostarcza potrzebnych nam informacji. Mo na stwierdzi, e prognozowanie w ogólnym przypadku to nie tylko poszukiwanie zwi zków zale no ci, które mo na traktowa jako przekształcenie, ale równie poszukiwanie argumentów dla tego przekształcenia, co szczególnie przy du ej liczbie danych wej ciowych powoduje, i wygodnym narz dziem prognostycznym mog by sztuczne sieci neuronowe. 425
2. Prognozowanie wyników meczów piłkarskich Przewidywanie wyników meczów piłki no nej mo e by interesuj ce pod dwoma wzgl dami: wykazania przydatno ci ró nych metod prognozowania, w tym najch tniej stosowanych metod matematycznych, mo liwo ci uzyskania korzy ci finansowych. 2.1. Specyfika problemu Dla wielu fanów oraz specjalistów, zajmuj cych si prognoz wyników, matematyka jest podstawowym narz dziem wykorzystywanym przy podejmowaniu decyzji zwi zanych z predykcj. To wła nie liczby przedstawiaj wyniki poprzednich spotka, osi gni dru yny czy te pojedynczego zawodnika. Stanowi to pewny materiał statystyczny, na podstawie którego dokonywane s analizy. Warto równie podkre li, i przy wykorzystaniu metod matematycznych opartych tylko na danych statystycznych pozbywamy si elementu stronniczo ci w przewidywaniu. Jednak niezale nie od metody uzyskiwane predykcje nigdy nie b d w stu procentach poprawne. Eksperci piłkarscy oraz kibice cz sto dokonuj prognozy rezultatu na podstawie prostych zało e oraz zdrowego rozs dku. Je eli pierwszy zespół wygrał wszystkie swoje poprzednie mecze i drugi zespół przegrał wszystkie wcze niejsze oraz pierwszy zespół wygrał poprzednie mecze z zespołem drugim, to nale y si spodziewa, e bezpo redni pojedynek wygra zespół pierwszy. Jednak nawet przy takim zało eniu nie mo na stwierdzi, e pierwszy zespół ma sto procent szans na wygran. Zawsze jest mo liwo, e wynik b dzie remisowy lub zwyci stwo odniesie dru yna teoretycznie słabsza. Nawet niewielkie czynniki mog wpłyn na ko cowy wynik. Szczególnie jest to zauwa alne wła nie w sporcie, gdzie szcz cie jest nieuniknione. Cz sto zdarza si, e nierozs dnie zarobiona czerwona kartka, kontuzja na rozgrzewce przedmeczowej przechylaj szal zwyci stwa na drug stron. Pomimo wyst powania zdarze losowych obstawianie mo e by bardzo efektywne. Prognozowanie rezultatów meczów ma bardzo szeroki zakres. Mo emy typowa zwyci zc pojedynku, dokładny wynik, margines wygranej oraz nawet bardzo szczegółowe zdarzenia, który zawodnik strzeli bramk lub w jakim przedziale czasowym zostanie ona zdobyta. 2.2. Wybrane metody Prost metod prognozowania wyników meczów piłkarskich opisuje Yue Weng Mak w swojej pracy Prediction on Soccer Matches using Multi-Layer Perceptron [Yue Weng Mak 2010]. Do otrzymania prognozy wykorzystuje pi ostatnich meczów dru yny go ci oraz gospodarzy, a tak e trzy bezpo rednie pojedynki pomi dzy dru ynami. Na podstawie zgromadzonych danych przy- 426
znawane s punkty za mecz wygrany (1 punkt), za pora k ( 1) oraz za remis (0). Nast pnie punkty przemna ane s przez wagi ostatnie spotkanie otrzymuje wag 2,5, poprzednie 2 i tak kolejno a do najstarszego spotkania, które otrzymuje wag 0,5. Tak wa one warto ci s sumowane dla obu dru yn. Oddzielnie sumowane s warto ci za bezpo rednie mecze pomi dzy dru ynami. W ten sposób uzyskujemy trzy warto ci, które po przemno eniu przez kolejne wagi (1 dla gospodarzy, 1 dla go ci, 1 dla bezpo rednich spotka ) sumujemy. Je eli uzyskana suma jest znacznie wi ksza od 0, typujemy zwyci stwo gospodarzy, je eli znacznie mniejsza od 0, zwyci stwo go ci, w pozostałych przypadkach typujemy remis. Metoda osi ga skuteczno ok. 44%. Najwi ksz skuteczno, jak udało si uzyska, to 80% w danej kolejce, za najni sza to 20%. Portal sportowy 1x2monster.com proponuje metod, która umo liwia prognozowanie dokładnego bramkowego wyniku meczu. Metoda wykorzystuje wyniki obu przeciwników (dru yny gospodarzy oraz dru yny go ci) z pi ciu ostatnich meczów (ostatnie pi pojedynków domowych gospodarzy oraz ostatnie pi meczów wyjazdowych go ci). Na podstawie tych wyników algorytm wyznacza: sum bramek zdobytych przez gospodarzy z bramkami straconymi przez go ci (HGP), sum bramek zdobytych przez go ci z bramkami straconymi przez gospodarzy (AGP). Ró nica pomi dzy wyznaczonymi sumami (HGP AGP) pozwala wystawi prognoz wyniku: (HGP AGP) 2 zwyci stwo gospodarzy, (HGP AGP) 2 zwyci stwo go ci, (HGP AGP) ( 2, 2) remis. W celu uzyskania dokładnego wyniku bramkowego nale y skorzysta z dodatkowych tabel (rys.1). Gospodarze Go cie Gospodarze Go cie Gospodarze 0 11 17 26 23 18 13 0 + Go cie 49 6 0 1 2 3 3 2 1 0 5 34 >=44 3 3 43 5 0 1 2 3 3 2 1 0 4 29 >=34 2 2 37 4 0 1 2 3 2 1 0 3 24 >=24 1 1 30 3 0 1 2 1 0 2 18 >=0 0 0 23 2 0 1 0 1 0 0 1 0 Rys. 1. Tabele przedstawiaj ce prognoz wyniku meczu: a) wygrana gospodarzy, b) wygrana go ci, c) remis ródło: 1x2monster.com Metoda była testowana na angielskiej lidze Premiership. Na przestrzeni 21 kolejek uzyskano skuteczno 50,5%. Najwi ksza skuteczno, jak udało si uzyska w pojedynczej kolejce, to 80%, najni sza za to 30%. 427
3. Prognozowanie wyników meczów z wykorzystaniem Sztucznych Sieci Neuronowych Przedstawione w cz ci 2 metody prognozowania wyników meczów arbitralnie okre lały warto ci progów decyzyjnych. Wykorzystanie do prognozowania Sztucznych Sieci Neuronowych dzi ki ich zdolno ci do uczenia si uwalnia nas od tego problemu. Pozostaje kwestia doboru danych ucz cych. Zdecydowano, i jako dane wej ciowe do systemu prognozuj cego wyniki meczów piłkarski zostan wykorzystane: rezultaty pi ciu ostatnich meczów dru yny gospodarzy, wyniki pi ciu ostatnich meczów dru yny go ci, wyniki trzech ostatnich bezpo rednich pojedynków obydwu dru yn. Decyzja o wyborze takiego zakresu danych wej ciowych podyktowana jest nast puj cymi przesłankami: wyniki ostatnich meczów dru yn daj obraz o jej aktualnej formie co bezsprzecznie ma wpływ na uzyskiwane przez dru yn rezultaty. Nale y podkre li, i brane pod uwag s tylko wyniki meczów ligowych (co eliminuje mo liwo, i która z dru yn ostatnie mecze rozgrywała z przeciwnikami innej klasy lub w mocno zmienionym składzie). Wyniki bezpo- rednich spotka pomi dzy dru ynami obrazuj zjawisko cz sto okre lane mianem, i dru yna le y innej lub te jej nie le y. Ponadto przy doborze danych ucz cych wykorzystano do wiadczenia opisane w innych pracach [Bartman 2013: 358 365]. Zanim sie neuronow wykorzystamy do prognozowania, musi zosta ona odpowiednio zaprojektowana oraz nauczona. Projekt sieci jest cz ciowo zdeterminowany parametrami danych ucz cych, jednak pewne jej atrybuty s dobierane metod prób i bł dów. Analiza literatury [Tadeusiewicz 1993; Masters 1996] pozwala stwierdzi, i : sie powinna składa si z trzech warstw (wej ciowa, ukryta, wyj ciowa), warstwa wej ciowa winna by zbudowana z 13 neuronów (dokładnie tyle danych jest w wektorze wej ciowym), w warstwie wyj ciowej konieczny jest tylko 1 neuron (oczekujemy odpowiedzi typu zwyci stwo, remis, pora ka). Precyzyjne okre lenie liczby neuronów warstwy ukrytej metodami analitycznymi jest niemo liwe, mo na jedynie dokona pewnych jej oszacowa [Masters 1996]. Dlatego te liczb neuronów w warstwie ukrytej ustalono metod prób i bł dów. Na potrzeby SSN dane wej ciowe musz by odpowiednio zakodowane, i tak zwyci stwo zakodowano warto ci 1, remis warto ci 0, a pora k ( 1). W zale no ci od odległo ci czasowej meczu odbytego do meczu, którego wynik prognozujemy, dane wej ciowe powinny by odpowiednio wa one, im bli ej do prognozowanego meczu, tym dane maj wi ksz wag. Dane do budowy systemu prognozowania wyników meczów piłkarskich pozyskano z serwisu internetowego www.livesports.pl. 428
3.1. Wyniki prognoz Prognozy przeprowadzono dla angielskiej Premiership, przewiduj c wyniki 10 kolejek spotka. Badania prognostyczne były prowadzone równolegle z badaniem wpływu wybranych parametrów architektury sieci na efektywno jej pracy. Badano wpływ tych parametrów sieci, których nie mo na okre li analitycznie (dobiera si je metod prób i bł dów, bazuj c na wiedzy eksperckiej lub pewnych wst pnych oszacowaniach). W ten sposób ustalano: liczb neuronów w warstwie ukrytej, funkcje przej cia dla neuronów z warstwy ukrytej, funkcje przej cia dla neuronów warstwy wyj ciowej, ko cow warto ci funkcji celu. Wyniki bada zestawiono w tabeli 1. Zestawienie jako ci prognoz dla ró nych parametrów SSN Tabela 1 Liczba neuronów 4 6 8 10 12 Funkcja przej cia neuronów wyj. Efektywno uczenia [%] Efektywno minimalna [%] rednia [%] Liniowa 65,0 45,6 55,2 64,6 maksymalna [%] Tangensoidalna 76,0 54,5 60,3 66,7 Liniowa 98,0 46,5 54,0 66,7 Tangensoidalna 85,5 52,5 60,5 68,7 Liniowa 100 44,4 54,1 62,6 tangensoidalna 90,0 51,5 59,9 65,6 Liniowa 100 48,5 54,7 63,6 tangensoidalna 92,6 50,6 60,1 66,7 Liniowa 100 47,5 54,8 62,8 Tangensoidalna 91,7 53,5 59,5 66,7 Analiza danych zebranych w tabeli 1 pozwala ustali brakuj ce parametry sieci neuronowej: liczb neuronów w warstwie ukrytej na 4 10, funkcje przej- cia neuronów w warstwie wyj ciowej na tangensoidaln. Dodatkowe badania wykazały, i warstwa ukryta powinna zawiera neurony z tangensoidaln lub sigmoidaln funkcj przej cia. Ustalono równie, i zmniejszanie oczekiwanej warto ci funkcji celu poni ej 0,01 nie poprawia efektywno ci pracy sieci, a jedynie wydłu a czas uczenia. Nale y jednak zaznaczy, i dla krótszych warstw ukrytych uczenie sieci było mniej efektywne (patrz tabela 1). W celu poprawy jako ci prognoz rozszerzono dane wej ciowe o pozycje dru yn w tabeli. Okazało si, i nie wpłyn ło to na jako prognoz. 429
Dla poszczególnych kolejek skuteczno prognoz mie ci si w przedziale od 30% do 80%. 4. Podsumowanie Analiza prognoz metodami przedstawionymi w pracy pozwala zauwa y, i : rednia jako prognoz wynosi od 44% do 61%, najlepsz skuteczno prognoz uzyskała SSN, istniej du e rozbie no ci w skuteczno ci prognoz dla poszczególnych kolejek spotka (od 20% do 80%). Przeprowadzone badania wykazuj, i Sztuczna Sie Neuronowa mo e by wykorzystana do prognozowania wyników meczów. W celu poprawy efektywno ci konieczne s jednak dalsze prace nad t metod. Wydaje si, i mo liwo- ci poprawy skuteczno ci prognoz nale y szuka w rozszerzeniu zakresu danych wej ciowych o dodatkowe elementy: np. absencje zawodników, cz stotliwo rozgrywania spotka, mo na równie rozwa y wyeliminowanie ze zbioru ucz cego wyników sensacyjnych. Literatura Bajda K. (2014), Wykorzystanie sztucznych sieci neuronowych do prognozowania wyników sportowych projekt systemu, praca in ynierska, Rzeszów. Bartman J. (2009), Reguła PID uczenia sztucznych neuronów, Metody Informatyki Stosowanej, 3/2009. Bartman J. (2013), Wpływ opisu danych na efektywno uczenia oraz pracy sztucznej sieci neuronowej na przykładzie identyfikacji białek, Edukacja Technika Informatyka, 4/2013-2. Masters T. (1996), Sieci neuronowe w praktyce: programowanie w j zyku C++, Warszawa. Nazarko J. (2004), Wprowadzenie do metodyki prognozowania, Białystok. Tadeusiewicz R. (1993), Sieci neuronowe, Warszawa. Yue Weng Mak (2010), Prediction on Soccer Matches using Multi-Layer Perceptron. www.1x2monster.com Streszczenie W pracy zaprezentowano koncepcj wykorzystania Sztucznych Sieci Neuronowych do prognozowania wyników meczów. Przedstawiono architektur sieci oraz skuteczno realizowanych przez ni prognoz. Uzyskane wyniki zestawiono z wynikami otrzymanymi przy wykorzystaniu innych metod. Słowa kluczowe: Sztuczne Sieci Neuronowe, prognozowania. 430
Using artificial neural networks to predict the results of football matches Abstract The paper presents the concept of using Artificial Neural Networks to predict the results of football matches. Autors presents the architecture of the network and the effectiveness of the implementation by the forecasts. The results were compared with results obtained using other methods. Key words: Artificial Neural Networks, prediction. 431