Regresja Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 24, 2014
1 Wprowadzenie 2 Regresja liniowa 3 Regresja nieliniowa 4 Regresja logistyczna 5 Estymacja parametrów 6 Podsumowanie
Definicja Regresja metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych. Formalnie regresja to dowolna metoda statystyczna pozwalającą estymować warunkową wartość oczekiwaną zmiennej losowej.
Przykład x y 1 1.00 3.35 2 3.00 7.57 3 5.00 16.74 4 7.00 24.82 5 9.00 24.67 6 11.00 27.11 7 13.00 32.53 8 15.00 32.06 9 17.00 33.98 10 19.00 43.16 czas trwania akcji 10 20 30 40 5 10 15 powierzchnia pożaru
Model czas trwania akcji 10 20 30 40 czas trwania akcji 10 20 30 40 5 10 15 powierzchnia pożaru 5 10 15 powierzchnia pożaru
Metoda najmniejszych kwadratów czas trwania akcji 10 20 30 40 5 10 15 powierzchnia pożaru
Regresja linowa y = ax + b y = 1, 96x + 5, 04 czas trwania akcji 10 20 30 40 5 10 15 powierzchnia pożaru y = a 0 + a 1x 1 + a 2x 2 +... + a k x k + ɛ
Jakość dopasowania Współczynnik determinacji R 2 jedna z podstawowych miar jakości dopasowania modelu. Informuje o tym, jaka część zmienności zmiennej objaśnianej została wyjaśniona przez model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. n R 2 x=1 (ŷ ȳ)2 = n x=1 (y (1) ȳ)2 0,0-0,5 - dopasowanie niezadowalające 0,5-0,6 - dopasowanie słabe 0,6-0,8 - dopasowanie zadowalające 0,8-0,9 - dopasowanie dobre 0,9-1,0 - dopasowanie bardzo dobre
Słabe strony regresji liniowej
Przykłady regresji nieliniowych
Regresja logistyczna Temperatura Rozgorzenie 1 625.63 0 2 626.47 0 3 627.05 0 4 627.79 0 5 627.89 0 6 628.21 1 7 628.26 0 8 628.34 1 9 628.42 0 10 628.71 0 11 629.20 1 12 629.59 1 13 629.66 0 14 630.13 1 15 630.54 1 16 630.95 1 17 631.04 0 18 631.56 1 19 632.14 1 20 632.96 1 1 0 1 y = 1 + e (ax+b) (2) 1 y = 1 + e (0.99x 622.90) (3)
Regresja logistyczna Id T NO x O 2 CO CO 2 CH 4 Backdraft 1 241 0.01 11.80 0.47 4.40 5.80 0 2 242 0.01 10.70 0.62 5.70 6.40 0 3 238 0.01 11.20 0.49 5.90 7.30 0 4 239 0.01 10.70 0.54 5.20 7.90 0 5 221 0.02 9.30 1.38 7.90 9.30 0 6 233 0.01 11.20 0.79 4.50 8.70 1 7 241 0.02 8.70 2.44 6.40 12.20 1 8 238 0.02 10.30 1.56 7.20 10.80 1 9 227 0.01 9.70 1.93 6.70 11.30 1 10 229 0.02 10.60 1.78 7.10 11.70 1 11 244 0.01 8.40 3.25 6.50 13.60 1 12 226 0.03 8.90 2.87 5.80 14.70 1 13 236 0.02 9.30 2.73 7.00 15.60 1 14 231 0.03 9.10 3.08 6.70 15.30 1 15 242 0.03 8.70 2.95 6.40 16.40 1
Regresja logistyczna - wiele zmiennych z(dane) 0.0 0.2 0.4 0.6 0.8 1.0 2 4 6 8 10 12 14 Index 1 y = 1 + e (a1t +a2nox +a3o2+a4co+a5co2+a6ch4+b) a 1 = 1.042 a 2 = 116.92 a 3 = 31.065 a 4 = 24.076 a 5 = 7.957 a 6 = 17.72 b = 218.1
Rozkłady Liczba wyjazdów 0 5 10 15 20 0 10 20 30 40 50 Czas
y Rozkłady histogram Liczba wyjazdów 0 5 10 15 20 0.0 0.1 0.2 0.3 0.4 0.5 0 10 20 30 40 50 Czas 2 1 0 1 2 x
Ocena dowódców Probability density 0.00 0.02 0.04 0.06 C5 C3 0 20 40 60 80 100 Duration of the action [minutes]
Ocena dowódców Probability density 0.00 0.02 0.04 0.06 C5 C3 0 20 40 60 80 100 Duration of the action [minutes]
Zarządzanie blokadami 0.000 0.004 0.008 unit B unit C unit A blockage threat... 0 50 100 150 200 250 300 350 time
Podsumowanie Zaprezentowano metodę statystyczną wyjaśniania zjawiska poprzez dopasowywanie modelu (funkcji) do danych. Regresja jest szybką i prostą metodą predykcji wyników z łatwo dostępnym oprogramowaniem. Stosowanie regresji jest ograniczone do danych numerycznych. Szczególnym przykładem regresji jest regresja logistyczna zwracająca wartości 0 lub 1 (Prawda, fałsz).