Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski
Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem Procen Procen N t N t N Procent 230 70,1% 98 29,9% 328 100,0% 230 70,1% 98 29,9% 328 100,0% Statystyki opisowe (DESCRIPTIVES) Statystyka Średnia 40,19 95% przedział Dolna granica 36,25 ufności dla Górna granica 44,13 średniej 5% średnia obcięta 37,00 Mediana 30,00 Wariancja 920,196 Odchylenie standardowe 30,335 Minimum 2 Maksimum 300 Rozstęp 298 Rozstęp ćwiartkowy 26 Skośność 3,954 Kurtoza 26,373
Średnia 38,85 95% przedział Dolna granica 34,83 ufności dla Górna granica 42,87 średniej 5% średnia obcięta 35,63 Mediana 30,00 Wariancja 958,458 Odchylenie standardowe 30,959 Minimum 2 Maksimum 300 Rozstęp 298 Rozstęp ćwiartkowy 30 Skośność 3,583 Kurtoza 22,979 Statystyki opisowe (DESCRIPTIVES) Błąd standardo wy Średnia 2,000 95% przedział ufności dla średniej Dolna granica Górna granica 5% średnia obcięta Mediana Wariancja Odchylenie standardowe Minimum Maksimum Rozstęp Rozstęp ćwiartkowy Skośność,160 Kurtoza,320
Średnia 2,041 95% przedział Dolna granica ufności dla Górna granica średniej 5% średnia obcięta Mediana Wariancja Odchylenie standardowe Minimum Maksimum Rozstęp Rozstęp ćwiartkowy Skośność,160 Kurtoza,320 Obie próby są do siebie podobne. Średnia wynosi około 40. Mediana wynosi 30 dla każdej zmiennej. Wartości minimum i maksimum wynoszą tyle samo 2 i 300. Odchylenie standardowe około 30 dla obu zmiennych. Próba jest duża. Uwzględniono 230 obserwacji.
Przeciętne ważone (Definicja 1) Zawiasy Tukey'a Percentyle Percentyle 5 10 25 50 10,00 17,10 23,75 30,00 10,00 10,50 20,00 30,00 24,00 30,00 20,00 30,00 Przeciętne ważone (Definicja 1) Zawiasy Tukey'a Percentyle Percentyle 75 90 95 50,00 69,00 100,00 50,00 70,00 100,00 50,00 50,00
Zadanie 2 Test T (T-TEST) W pliku Dane_wzrost_cen.sav próba jest duża nie ma, więc konieczności sprawdzania normalności rozkładu. H0: Oprocentowanie 12-miesięcznych lokat jest równe 3-krotnej inflacji. H1: Oprocentowanie 12-miesięcznych lokat jest inne niż 3-krotna inflacja. Statystyki dla jednej próby N Średni a Odchyleni e standardo we Błąd standardo wy średniej 12 miesięczne oprocentowania zł na lokacie 217 40,66 18,878 1,282 Test dla jednej próby Wartość testowana = 30 Istotność t df (dwustron na) Różnica średnich 12 miesięczne oprocentowania zł na lokacie 8,321 216,000 10,664
Test dla jednej próby Wartość testowana = 30 95% przedział ufności dla różnicy średnich Dolna granica Górna granica 12 miesięczne oprocentowania zł na lokacie 8,14 13,19 Istotność jest mniejsza niż 0,05 -> H0 odrzucamy i przyjmujemy H1.
Zadanie 3 Test T (T-TEST) W pliku Dane_wzrost_cen.sav próba jest duża nie ma, więc konieczności sprawdzania normalności rozkładu. H0: Zmienne mają jednakowe średnie. H1: Zmienne mają różne średnie. Para 1 Statystyki dla prób zależnych Błąd Średnia N Odchylenie standardow e standardo wy średniej 40,19 230 30,335 2,000 38,85 230 30,959 2,041 Para 1 Korelacje dla prób zależnych N Korelacja Istotność 230,885,000 & Wzrost cen w najbliższych 12
Para 1 Para 1 Test dla prób zależnych Różnice w próbach zależnych Błąd Średni a Odchylenie standardowe standardowy średniej 1,335 14,738,972 - Wzrost cen w najbliższych 12 Test dla prób zależnych Różnice w próbach zależnych 95% przedział ufności dla różnicy średnich Dolna granica Górna granica t df -,580 3,250 1,374 229 - Wzrost cen w najbliższych 12 Para 1 Test dla prób zależnych Istotność (dwustron na),171 - Wzrost cen w najbliższych 12 Otrzymaliśmy istotność większą niż 0,05 -> Nie ma podstaw do odrzucenia H0.
Zadanie 4 Dopasowanie krzywej (CURVEFIT) Opis modelu Nazwa modelu MOD_1 Zmienna zależna 1 ciągu ostatnich 12 Równanie 1 Liniowy Zmienna niezależna Stała Uwzględnione Zmienna opisująca obserwacje Nieokreślone na wykresach Informacja o analizowanych danych Liczebno ść Ogółem 328 obserwacji Obserwacje 98 wykluczone a Obserwacje 0 prognozowane Nowoutworzone 0 obserwacje a. Obserwacje z brakami danych w dowolnej ze zmiennych są wykluczane z analizy.
Podsumowanie przetwarzanych zmiennych Zmienne Niezależn Zależna a Wzrost cen w ciągu ostatnich 12 Wzrost cen w najbliższy ch 12 miesiącac h Liczba dodatnich wartości 266 241 Liczba zer 0 0 Liczba ujemnych wartości 0 0 Liczba braków Brak danych 62 87 danych zdefiniowany przez użytkownika Systemowy brak danych 0 0 Podsumowanie modelu i oszacowań parametrów Zmienna zależna: Oceny Model - Podsumowanie parametrów Równa nie R-kwad rat F df1 df2 Istotno ść Stała b1 Liniowy,782 820,08 1 228,000 6,513,867 5 Zmienną niezależną jest. R^2 = 0,782 co oznacza, że w 78% różnice w prognozie dają się wytłumaczyć różnicami w zauważonym przez respondentów wzroście cen w ubiegłym okresie. R=0,884 co świadczy o dodatniej korelacji miedzy prognozą cen i ubiegłym okresem.
Równanie prostej regresji ma postać y = 0,867 * x + 6,513.
Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem N Procent N Procent N Procent 230 70,1% 98 29,9% 328 100,0% 230 70,1% 98 29,9% 328 100,0%
Wykresy skrzynkowe ujawniły przypadki odstające dla zmiennych wzrost_wstecz i wzrost_prognoza. Jest 24 takich obserwacji, wartości usuwamy z pliku i powtarzamy analizę. Dopasowanie krzywej (CURVEFIT) Opis modelu Nazwa modelu MOD_2 Zmienna zależna 1 ciągu ostatnich 12 Równanie 1 Liniowy Zmienna niezależna Stała Uwzględnione Zmienna opisująca obserwacje Nieokreślone na wykresach Informacja o analizowanych danych Liczebno ść Ogółem 304 obserwacji Obserwacje 94 wykluczone a Obserwacje 0 prognozowane Nowoutworzone 0 obserwacje
Informacja o analizowanych danych Liczebno ść Ogółem 304 obserwacji Obserwacje 94 wykluczone a Obserwacje 0 prognozowane Nowoutworzone 0 obserwacje a. Obserwacje z brakami danych w dowolnej ze zmiennych są wykluczane z analizy. Podsumowanie przetwarzanych zmiennych Zmienne Niezależn Zależna a Wzrost cen w ciągu ostatnich 12 Wzrost cen w najbliższy ch 12 miesiącac h Liczba dodatnich wartości 243 220 Liczba zer 0 0 Liczba ujemnych wartości 0 0 Liczba braków Brak danych 61 84 danych zdefiniowany przez użytkownika Systemowy brak danych 0 0
Podsumowanie modelu i oszacowań parametrów Zmienna zależna: Oceny Model - Podsumowanie parametrów Równa nie R-kwad rat F df1 df2 Istotno ść Stała b1 Liniowy,585 293,06 1 208,000 10,984,706 0 Zmienną niezależną jest. R^2 = 0,585 co oznacza, że w 59% różnice w prognozie dają się wytłumaczyć różnicami w zauważonym przez respondentów wzroście cen w ubiegłym okresie. R=0,765 co świadczy o dodatniej korelacji miedzy prognozą cen i ubiegłym okresem.
Równanie prostej regresji ma postać y = 0,706 * x + 10,984. Równanie może być używane do przewidywania odpowiedzi na drugie pytanie na podstawie odpowiedzi na pierwsze, ponieważ R=0,765 co świadczy o dodatniej korelacji miedzy prognozą cen i ubiegłym okresem.