MODELOWNIE WSPÓŁZALEŻNOŚCI ZJAWISK W STATISTICA I STATISTICA DATA MINER

Wielkość: px
Rozpocząć pokaz od strony:

Download "MODELOWNIE WSPÓŁZALEŻNOŚCI ZJAWISK W STATISTICA I STATISTICA DATA MINER"

Transkrypt

1 MODELOWNIE WSPÓŁZALEŻNOŚCI ZJAWISK W STATISTICA I STATISTICA DATA MINER Janusz Wątroba, StatSoft Polska Sp. z o.o. Zjawiska i procesy obserwowane w otaczającej nas rzeczywistości mają zazwyczaj dość złożony charakter. Bardzo często jedynym sposobem rozwiązania problemu jest uproszczone odwzorowanie rzeczywistości. Zespół technik wykorzystywanych do tego celu jest określany wspólnym terminem modelowanie statystyczne. Odpowiedni statystyczny model zjawiska wymaga z jednej strony umiejętnego wydobycia istoty mechanizmu generującego dane, a z drugiej strony przekształcenie go do postaci umożliwiającej zastosowanie podejścia statystycznego. Najczęściej sprowadza się to do przyjęcia określonej matematycznej formuły, ujmującej powiązania pomiędzy zmiennymi, oraz założeń o losowych procesach, wpływających na wyniki pojedynczych pomiarów. Z dydaktycznego punktu widzenia dopasowanie modelu do danych empirycznych pozwala zilustrować podejście badacza, które zazwyczaj zmierza do coraz lepszego poznania interesującego go zjawiska. Model jest pojęciem abstrakcyjnym, swoistym pomostem między abstrakcyjnymi sposobami myślenia a realnie istniejącą rzeczywistością. Przedstawia on pewne wyodrębnione, obiektywnie istniejące relacje, które odwzorowuje za pomocą użytecznych reguł, pozwalających symulować zachowanie i własności przedstawionego fragmentu rzeczywistości. Dobrze skonstruowany model w adekwatny sposób odtwarza badane obiekty, zjawiska lub procesy i powinien stanowić kompromis między nadmiernym uproszczeniem rzeczywistości a zbytnim nagromadzeniem szczegółów. Dla badacza ważną korzyścią ze zbudowanego modelu może być otrzymanie wygodnego narzędzia do przewidywania przebiegu zjawiska w przyszłości lub przy przyjęciu innego układu warunków, które go kształtują. Praktyczne aspekty podejścia do modelowania zostaną zilustrowane w środowisku programu STATISTICA i STATISTICA Data Miner [8] na przykładach analizy danych z zakresu medycyny i ekonomii. Najpierw zostanie omówiony sposób uwzględnienia w modelu regresji liniowej zmiennych objaśniających o charakterze jakościowym. W drugiej części opracowania przedstawiono przykłady budowy kilku różnych modeli nieliniowych do opisu zmian liczby abonentów telefonii komórkowej w Polsce. Końcową część poświęcono przykładom budowy modeli dla jakościowej zmiennej zależnej. Przedstawiono zarówno podejście klasyczne, jak i podejście wykorzystujące metody data mining. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 61

2 Problematyka modelowania statystycznego Termin model pojawia się bardzo często w różnych dziedzinach badań naukowych i działaniach praktycznych. Jako przykład można podać projekt nowego budynku wystawiony na pokaz w urzędzie miejskim czy model mózgu wykorzystywany na uczelniach medycznych przy nauczaniu anatomii lub zagadnień neurologicznych. Innym przykładem może być model samolotu umieszczony w tunelu aerodynamicznym w celu oceny jego odporności na działanie sił zewnętrznych [7]. Przytoczone w powyższych przykładach modele są budowane w celu odzwierciedlenia w mniejszej skali wielkości fizycznych charakteryzujących rzeczywiste obiekty. Modele te różnią się między sobą pod względem stopnia dokładności odwzorowania, który zależy z kolei od tego, do jakich celów model został utworzony. Tego typu modele są zaliczane do kategorii modeli fizycznych. Nieco inny charakter mają modele matematyczne, w których badacz skupia się na pewnym szczegółowym aspekcie badanego systemu i stara się znaleźć równanie lub układ równań w adekwatny sposób opisujące wybrany aspekt. Przykładowo badacz obserwuje trajektorie ruchu planet, a następnie próbuje znaleźć równanie lub równania opisujące ten ruch. Dokładność reprezentacji jest determinowana przez cel, dla którego podjęto modelowanie. Celem tym może być opis określonego obiektu lub prognozowanie jego zachowania. Ważnym problemem jest uwzględnienie w języku matematyki wpływu czynników zewnętrznych. Brane pod uwagę równania powinny być zazwyczaj traktowane jako przybliżenia rzeczywistych obiektów lub systemów. W przypadku modeli matematycznych trzeba uwzględnić pewną ich własność, która ma wyjątkowo duże znaczenie praktyczne. Chodzi o sposób traktowania występujących ograniczeń oraz wpływów czynników zewnętrznych. Jedno z podejść polega na przyjęciu założenia, że czynniki mogą zostać wyspecyfikowane matematycznie, co oznacza, że mogą być całkowicie zdeterminowane i w żaden sposób nie zależą od wahań przypadkowych. Jednakże jest to podejście, które sprawdza się tylko w pewnych szczególnych sytuacjach. Natomiast w przypadku, gdy wymagana jest większa dokładność dla pojedynczych jednostek opisywane podejście zwykle nie może zostać zaakceptowane, ponieważ przypadek odgrywa dużą rolę w większości zjawisk obserwowanych w rzeczywistości i zazwyczaj pomiary liczbowe gromadzone w badaniach są narażone na działanie wielu czynników o charakterze losowym. Jako przykład można podać sytuację, w której znajduje się firma farmaceutyczna produkująca nowy lek przeciwko bólowi głowy. Dla ustalenia, czy oferowany lek jest skuteczniejszy od produktu konkurencyjnej firmy, przeprowadza się badania kliniczne. Jednakże porównywane leki mogą niejednakowo działać w przypadku różnego nasilenia bólu, a osoby uwzględnione w badaniach będą różnić się pomiędzy sobą w zakresie tolerancji, podatności lub reakcjach na podawany lek. Jeżeli wyniki badań mają doprowadzić do poprawnych wniosków, to wszelkie tego typu wahania losowe muszą być brane pod uwagę. Poprawna analiza danych musi być zatem oparta na technikach, które uwzględniają możliwe wahania typu losowego. Wprowadzenie do modelu matematycznego czynnika losowego prowadzi do przekształcenia modelu w model statystyczny. Problematyka modelowania statystycznego odgrywa ważną rolę w praktycznych zastosowaniach statystyki i pojawia się w wielu formach i na różnym poziomie złożoności. 62 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

3 Już na etapie gromadzenia empirycznych danych badacz ma zazwyczaj na uwadze określone cele badawcze. Najczęściej opierają się one na pewnej teorii lub hipotezach, dotyczących ogólnego zachowania systemu, będącego przedmiotem badania. Przykładowo teoria może dotyczyć relacji występujących pomiędzy obserwowanymi zmiennymi, różnicy w przeciętnym poziomie reakcji ocenianej w dwóch populacjach obiektów lub (bardziej szczegółowo) wpływu różnych kombinacji nawozów i rodzajów gleby na wielkość plonu zboża. Pierwszy wymagany krok w analizie danych polega na wyspecyfikowaniu matematycznego wyrażenia opisującego ogólne zachowanie badanego systemu, które oddaje w odpowiedni sposób przekonanie badacza. Wyrażenie to jest nazywane składnikiem systematycznym w modelu [7]. Jednakże wszystkie badane jednostki zazwyczaj wykazują pewien zakres specyficznego zachowania i w związku z tym obserwacje rejestrowane dla poszczególnych jednostek będą cechować się pewną zmiennością, która w mniejszym lub większym stopniu jest specyficzna dla badanej zmiennej. Przykładowo częstość skurczów serca różni się wyraźnie międzyosobniczo, podczas gdy temperatura ciała mierzona u zdrowych osób wykazuje bardzo zbliżony poziom. Część systematyczna modelu jest przeznaczona do opisu idealnej odpowiedzi badanego obiektu, dlatego dla wbudowania zmienności w reakcji pojedynczych jednostek musimy uwzględnić w modelu składnik losowy oraz określić sposób powiązania obydwu składników. Można zatem powiedzieć, że określenie składnika systematycznego, przyjęcie założeń dotyczących składnika losowego oraz sposobu ich powiązania tworzy trzy zasadnicze własności modelu statystycznego. Kryteria wyboru właściwego modelu Wybór odpowiedniego modelu sprowadza się do podjęcia kilku decyzji. Pierwsza z nich dotyczy składnika systematycznego. Składnik ten wyraża zazwyczaj pewne populacyjne własności zmiennej objaśnianej zależnej w modelu (np. wartość oczekiwaną) za pomocą równania parametrycznego zawierającego zmienne objaśniające. Może to być na przykład funkcja liniowa lub wielomian określonego stopnia. W równaniu takim występują parametry, które odzwierciedlają wpływ każdej ze zmiennych objaśniających. Głównym celem modelowania jest wyznaczenie najlepszych wartości tych parametrów dla danego zbioru danych, przy czym kluczowym kryterium jest przyjęcie określonego typu powiązania: liniowego lub nieliniowego. Kolejna sprawa to przyjęcie odpowiedniego probabilistycznego wyrażenia opisującego nieprzewidywalne reakcje pojedynczych jednostek. Naturalnym sposobem opisu danych z próby jest przyjęcie określonego rozkładu prawdopodobieństwa dla zmiennej objaśnianej. Na przykład rozkład normalny jest naturalnym wyborem w przypadku danych pochodzących z pomiarów, model Poissona dla danych dotyczących liczby zdarzeń, a rozkład dwumianowy w przypadku danych określających proporcje. Ostatnia decyzja dotyczy przyjęcia sposobu powiązania obu składników. Składniki mogą być połączone addytywnie lub multiplikatywnie. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 63

4 Uwzględnienie jakościowych zmiennych objaśniających w modelu regresji Przy modelowaniu powiązań pomiędzy zmiennymi w wielu sytuacjach może okazać się potrzebne wprowadzenie do modelu jednej lub wielu zmiennych objaśniających o charakterze jakościowym. Przykładowo firma zajmująca się wyceną nieruchomości może być zainteresowana ustaleniem zależności ich wartości od tego, czy nieruchomość jest w posiadaniu właściciela czy też została wydzierżawiona, niezależnie od chęci ustalenia, jak wartość nieruchomości jest powiązana z takimi zmiennymi ilościowymi jak: jej powierzchnia czy czas użytkowania [1]. Najprostszy przypadek to sytuacja, w której zmienna jakościowa przyjmuje tylko dwie wartości (jest wtedy nazywana zmienną dychotomiczną, binarną lub zero-jedynkową). Zmienna taka odzwierciedla zachodzenie bądź niezachodzenie określonego warunku. Stosowanie takich zmiennych w analizie regresji jest stosunkowo proste i nie wymaga żadnych specjalnych procedur rachunkowych. W zaprezentowanych poniżej przykładach zostanie pokazany sposób ich wykorzystania do ujęcia różnic pomiędzy wartościami wyrazów wolnych oraz/lub współczynników kierunkowych w modelu regresji. Warto zaznaczyć, że zmienne tego typu mogą być także wykorzystane do innych celów, np. estymacji modeli z ograniczeniami dotyczącymi parametrów w różnych równaniach czy też testowania stabilności parametrów regresji [5]. Dla potrzeb praktycznego zilustrowania omawianych zagadnień w środowisku programu STATISTICA wykorzystano dane zebrane do oceny wpływu wieku, płci i statusu palenia na poziom skurczowego ciśnienia krwi u pacjentów ze zdiagnozowaną chorobą nadciśnieniową. Analizę rozpoczęto od sprawdzenia, czy zebrane dane potwierdzają powiązanie ciśnienia skurczowego z wiekiem oraz czy badany związek można opisać za pomocą modelu liniowego. W tym celu utworzono odpowiedni wykres rozrzutu dwóch zmiennych. Rys. 1. Wykres rozrzutu ilustrujący powiązanie skurczowego ciśnienia krwi z wiekiem. 64 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

5 Ocena wzajemnego położenia punktów na wykresie pozwala na stwierdzenie, że w badanej grupie pacjentów wyższym wartościom wieku towarzyszy wzrost skurczowego ciśnienia krwi. Ponadto charakter powiązania potwierdza możliwość wykorzystania modelu liniowego. W zamieszczonej poniżej tabeli zawarte są najważniejsze wyniki analizy regresji. Rys. 2. Wyniki analizy regresji. Na podstawie powyższych wyników stwierdzamy, że zbudowany model pozwala wyjaśnić blisko 59% zmienności oryginalnej zmiennej zależnej. Przeciętna różnica między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi wynosi 11,64 mm Hg (co stanowi około 6,7 % średniej dla zmiennej zależnej). Wartość statystyki F i odpowiadający jej poziom prawdopodobieństwa testowego p potwierdzają istotny statystycznie związek liniowy. Ponadto wartość statystyki t i odpowiadający jej poziom prawdopodobieństwa testowego p wskazują, że ocena współczynnika regresji również istotnie różni się od zera. Z kolei ocena istotności wyrazu wolnego pokazuje, że model przechodzi daleko od środka układu współrzędnych. Poniżej zamieszczono wykres ilustrujący dopasowany model. Rys. 3. Wykres rozrzutu z dopasowaną linią regresji. Otrzymane oceny parametrów modelu pozwalają na stwierdzenie, że u badanych pacjentów wraz z wiekiem następuje wzrost skurczowego ciśnienia krwi przeciętnie o około 0,96 mm Hg rocznie. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 65

6 Zmienna jakościowa a zmiana wyrazu wolnego W kolejnym kroku rozbudujemy model poprzez dodanie jakościowej zmiennej płeć. Sposób uwzględnienia zmiennej jakościowej w modelu zależy od tego, czy zmienna taka wchodzi w interakcję ze zmienną objaśniającą ilościową. Aby to ocenić, utworzymy odpowiedni skategoryzowany wykres rozrzutu dla branych pod uwagę zmiennych, który pozwoli w nieformalny sposób ocenić występowanie interakcji. Rys. 4. Skategoryzowany wykres rozrzutu badanych zmiennych. Wykres pokazuje, że linie regresji dla różnych grup płci różnią się jedynie poziomami wyrazu wolnego, natomiast mają w przybliżeniu podobne wartości współczynników kierunkowych. Występowanie interakcji można też sprawdzić analitycznie. W tym celu oszacowano model, do którego dodatkowo (oprócz zmiennej Wiek i Płeć) wprowadzono wyrażenie Płeć*Wiek, które oznacza interakcję zmiennych. Wyniki modelowania przedstawia tabela poniżej. Rys. 5. Wyniki analizy regresji z uwzględnieniem interakcji pomiędzy zmiennymi objaśniającymi. Wyniki analizy pokazują, że współczynnik regresji przy wyrażeniu opisującym interakcję zmiennych nieistotnie różni się od zera. W związku z tym zbudowano model z pominięciem interakcji. Wyniki przedstawiono w kolejnej tabeli. 66 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

7 Rys. 6. Wyniki analizy regresji z pominięciem interakcji pomiędzy zmiennymi objaśniającymi. Na podstawie powyższych wyników stwierdzamy, że zbudowany model pozwala wyjaśnić blisko 80% zmienności oryginalnej zmiennej zależnej. Przeciętna różnica między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi wynosi 8,22 mm Hg (co stanowi około 4,7 % średniej dla zmiennej zależnej). Wartość statystyki F i odpowiadający jej poziom prawdopodobieństwa testowego p potwierdzają istotny statystycznie związek liniowy. Ponadto wartość statystyki t i odpowiadające jej poziomy prawdopodobieństwa testowego p wskazują, że obydwa współczynniki regresji również istotnie różnią się od zera. Ocena istotności wyrazu wolnego pokazuje, że model przechodzi daleko od środka układu współrzędnych. Otrzymany model można zapisać w poniższej postaci: CSK 124,114 0,965 Wiek 16, 295 Pleć gdzie CSK oznacza ciśnienie skurczowe krwi, a zmienna Płeć przyjmuje dwie wartości: 0 dla kategorii: Kobieta i 1 dla kategorii: Mężczyzna. Na podstawie modelu można zatem stwierdzić, że podwyższenie wieku pacjenta o 1 rok powoduje zmianę skurczowego ciśnienia krwi o około 0,97 mm Hg, przy ustalonej kategorii zmiennej Płeć. Z kolei przy ustaleniu zmiennej wiek u mężczyzn (kod 1) przewidujemy wyższe skurczowe ciśnienie krwi o około 16,3 mm Hg. Równoważnym rozwiązaniem byłoby zapisanie modelu w postaci dwóch równań: 124,114 0,965 Wiek CSK 140,409 0,965 Wiek dla dla kategorii : 0 kategorii :1 Poniżej zostanie omówiona sytuacja, w której wpływ zmiennej jakościowej powoduje nie tylko zmianę wyrazu wolnego w modelu, ale także zmianę współczynników kierunkowych występujących przy zmiennych objaśniających, które zostały uwzględnione w budowanym modelu. Zmienna jakościowa a zmiany wartości współczynników kierunkowych Wpływ zmiennej Płeć na przebieg linii regresji określającej wpływ wieku na skurczowe ciśnienie krwi polega na przesunięciu modelu względem osi OY. Model dla mężczyzn jest w stosunku do modelu dla kobiet przesunięty ku górze. W dalszej kolejności sprawdzono wpływ zmiennej Palenie na badaną zależność. Podobnie jak poprzednio dla wizualnej oceny wpływu palenia utworzono skategoryzowany wykres rozrzutu. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 67

8 Rys. 7. Skategoryzowany wykres rozrzutu badanych zmiennych. Wykres pokazuje, że linie regresji dla grup pacjentów różniących się statusem palenia różnią się nie tylko wartościami wyrazów wolnych, ale także wartościami współczynników kierunkowych. Występowanie interakcji potwierdzono też analitycznie. W tym celu oszacowano model, do którego dodatkowo (oprócz zmiennej Wiek i Palenie) wprowadzono wyrażenie Palenie*Wiek, które oznacza interakcję zmiennych. Wyniki modelowania przedstawia tabela poniżej. Rys. 8. Wyniki analizy regresji z uwzględnieniem interakcji pomiędzy zmiennymi objaśniającymi. Wyniki analizy pokazują, że współczynnik regresji przy wyrażeniu opisującym interakcję zmiennych istotnie różni się od zera. Pozostałe parametry modelu również istotnie różnią się od zera. Zbudowany model pozwala wyjaśnić około 63% zmienności oryginalnej zmiennej zależnej. Przeciętna różnica między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi wynosi 10,99 mm Hg (co stanowi około 6,3 % średniej dla zmiennej zależnej). Wartość statystyki F i odpowiadający jej poziom prawdopodobieństwa testowego p potwierdzają istotny statystycznie związek liniowy. Ponadto wartość statystyki t i odpowiadające jej poziomy prawdopodobieństwa testowego p wskazują, że wszystkie współczynniki regresji również istotnie różnią się od zera. Ocena istotności wyrazu wolnego pokazuje, że model przechodzi daleko od środka układu współrzędnych. 68 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

9 Otrzymany model można zapisać w postaci: CSK 146,917 0,507 Wiek 30,596 Palenie 0, 762 Palenie Wiek gdzie CSK oznacza ciśnienie skurczowe krwi, a zmienna Palenie przyjmuje dwie wartości: 0 dla kategorii: Nie pali i 1 dla kategorii: Pali. Na podstawie modelu można zatem stwierdzić, że podwyższenie wieku pacjenta o 1 rok powoduje przyrost skurczowego ciśnienia krwi o około 0,507 mm Hg w grupie osób niepalących oraz przyrost skurczowego ciśnienia krwi o około 1,269 mm Hg w grupie osób palących. Podobnie jak poprzednio równoważnym rozwiązaniem byłoby zapisanie modelu w postaci dwóch równań: 146,917 0,507 Wiek CSK 116,321 1,269 Wiek dla dla kategorii : 0 kategorii :1 Modelowanie zależności nieliniowych W zaprezentowanych w poprzedniej części opracowania przykładach zakładaliśmy, że związek pomiędzy badanymi zmiennymi daje się opisać za pomocą modelu liniowego. O częstym wykorzystywaniu modeli liniowych przesądza stosunkowo łatwy sposób szacowania parametrów modeli i prosta merytoryczna interpretacja ich wartości. Jednak w odniesieniu do wielu zagadnień praktycznych przyjęcie założenia o liniowości funkcji regresji badanych zmiennych może nie być słuszne. W przypadku wielu zjawisk istnieją odpowiednie teorie, które wyjaśniają występujące relacje, odwołując się do związków nieliniowych. Czasami empiryczne dane mogą sugerować odpowiednią, nieliniową postać modelu. Na przykład zgodnie z odpowiednimi teoriami ekonomicznymi zależność popytu względem dochodu oraz zależność poziomu kosztu jednostkowego względem wielkości produkcji są nieliniowe. W takich sytuacjach konieczne jest rozważanie nieliniowych modeli regresji. Oznacza to, że badacz musi sam zdecydować o określeniu natury tego związku; na przykład może przyjąć, że zmienna objaśniana ma być funkcją logarytmiczną zmiennej objaśniającej (zmiennych objaśniających), funkcją potęgową, wykładniczą, czy też jakąś inną. Jeśli dopuszczamy dowolny typ zależności między zmiennymi objaśniającymi a zmienną objaśnianą, pojawiają się dwa pytania. Po pierwsze, jakie rodzaje zależności mają sens, to znaczy, jak można je w znaczący sposób zinterpretować? Zauważmy, że prosta zależność liniowa jest bardzo wygodna w tym sensie, że pozwala nam na takie bezpośrednie interpretacje jak: im większe x (np. im wyższa cena domu), tym większe y (dłuższy czas sprzedaży). Zależności nieliniowe nie dają się zwykle tak łatwo zinterpretować i zwerbalizować. Ma to znaczenie szczególnie w przypadku, gdy badacz chce wykorzystać zbudowany model do przewidywania przebiegu interesującego go zjawiska w przyszłych okresach czasu lub przy założeniu wartości zmiennych objaśniających, które wychodzą poza zakres, który był w rzeczywistości obserwowany. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 69

10 W kolejnym przykładzie wykorzystamy dane o liczbie abonentów telefonii komórkowej w Polsce w latach [5]. Dla ułatwienia doboru postaci modelu opisującego charakter zmian utworzono zwykły wykres rozrzutu. Rys. 9. Zmiany liczby abonentów telefonii komórkowej w Polsce w latach Zbudujemy dwa modele trendu: wykładniczy i potęgowy. Do skonstruowania modeli niezbędny jest jeden szereg czasowy z wartościami zmiennej objaśnianej. Jedyną zmienną objaśniającą jest czas. W pierwszej kolejności do danych dopasowano model wykładniczy: x y 0 1 gdzie y oznacza liczbę abonentów telefonii komórkowej, a x oznacza czas. Po zastosowaniu odpowiedniej procedury estymacji parametrów modelu otrzymano następującą tabelę z wynikami (ze względu na trudności numeryczne wartości zmiennej objaśniającej były opóźniane o 1992): Rys. 10. Wyniki estymacji parametrów modelu wykładniczego. Otrzymane wyniki pozwalają na stwierdzenie, że wszystkie parametry strukturalne modelu istotnie różnią się od zera. Dopasowany do danych model pozwala wyjaśnić około 98,4 % wariancji modelowanej zmiennej objaśnianej. Poniższy wykres pokazuje dopasowany model. 70 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

11 Rys. 11. Wykres przedstawiający dane i dopasowany model wykładniczy. Dopasowany model wydaje się dość dobrze odzwierciedlać zmiany liczby abonentów w badanym okresie czasu, jednak po dokładniejszej analizie okazuje się nieodpowiedni, gdyż zakłada stałe względne zmiany wartości modelowanej zmiennej [5]. W rzeczywistości zmiany te różnią się w czasie. W związku z tym odpowiedniejszym modelem może być funkcja potęgowa o postaci: y x gdzie y oznacza liczbę abonentów telefonii komórkowej, a x oznacza czas. 0 W przypadku takiej funkcji względne zmiany wartości zmiennej objaśnianej zmieniają się w czasie. Po estymacji parametrów modelu otrzymano następującą tabelę z wynikami (podobnie jak poprzednio ze względu na trudności numeryczne wartości zmiennej objaśniającej były opóźniane o 1992): 1 Rys. 12. Wyniki estymacji parametrów modelu potęgowego. Otrzymane wyniki pozwalają na stwierdzenie, że wszystkie parametry strukturalne modelu istotnie różnią się od zera. Model dopasowany do danych pozwala wyjaśnić około 99,8 % wariancji modelowanej zmiennej objaśnianej. Poniższy wykres pokazuje dopasowany model. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 71

12 Rys. 13. Wykres przedstawiający dane i dopasowany model potęgowy. Dla ułatwienia porównania zbudowanych modeli umieszczono je na jednym wykresie. Rys. 14. Wykres przedstawiający obydwa dopasowane modele. Przy merytorycznej ocenie dopasowania modeli trzeba pamiętać o tym, że ich parametry zostały oszacowane na podstawie danych, które dotyczą zakresu wartości, jakie przyjmowała modelowana zmienna objaśniana. Dlatego też w przypadku próby zastosowania modeli do prognozowania dla przyszłych okresów należy przede wszystkim ocenić, czy ogólny kierunek i intensywność zmian zostaną utrzymane. Nieuwzględnienie tego faktu może prowadzić do dużych błędów. Dla ilustracji tego zagadnienia do danych dotyczących 72 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

13 kształtowania się liczby abonentów telefonicznych w Polsce dodano obserwacje zarejestrowane w kolejnych 3 latach ( ). Po uwzględnieniu tych danych sytuacja uległa zasadniczej zmianie. Rys. 15. Zmiany liczby abonentów telefonii komórkowej w Polsce w latach Zamieszczony powyżej wykres pokazuje, że charakter zmian opisywanego zjawiska uległ zmianie. Tempo wzrostu liczby abonentów od pewnego momentu zaczyna spadać w bardziej zdecydowany sposób. Można zatem przypuszczać, że bardziej adekwatnym modelem powinien być model, który zakłada spadek tempa zmian oraz asymptotyczne zbliżanie się do określonego poziomu nasycenia. W takiej sytuacji do opisu rozważanych zmian zastosowano model regresji logistycznej o postaci: y 1 e x gdzie y oznacza liczbę abonentów telefonii komórkowej, a x oznacza czas. Po estymacji parametrów modelu otrzymano następującą tabelę z wynikami (podobnie jak poprzednio ze względu na trudności numeryczne wartości zmiennej objaśniającej były opóźniane o 1992, a ponadto dla ułatwienia estymacji wprowadzono przybliżone wartości początkowe ocen parametrów): Rys. 16. Wyniki estymacji parametrów modelu logistycznego. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 73

14 Otrzymane wyniki pozwalają na stwierdzenie, że wszystkie parametry strukturalne modelu istotnie różnią się od zera. Model dopasowany do danych pozwala wyjaśnić około 99,8 % wariancji modelowanej zmiennej objaśnianej. Poniższy wykres przedstawia dopasowany model. Rys. 17. Wykres przedstawiający dane i dopasowany model logistyczny. Wykorzystując znajomość własności funkcji logistycznej oraz oszacowane wartości ocen parametrów modelu, można sugerować, że liczba abonentów telefonii komórkowej w Polsce zbliża się do poziomu nasycenia, który wynosi około 53,3 mln. Poziom ten zostanie osiągnięty około roku. Przedstawiona prognoza może się zrealizować pod warunkiem, że nie zajdą jakieś nowe, nieznane w momencie tworzenia prognozy okoliczności. Modele dla zmiennych jakościowych W prezentowanych do tej pory przykładach zmienna zależna (objaśniana) była zmienną typu ilościowego. Tymczasem bardzo często w rzeczywistych badaniach można spotkać się z potrzebą budowania modeli w przypadku, gdy wartości zmiennej zależnej oznaczają niemierzalne kategorie, np.: spłacił kredyt i nie spłacił kredytu przy modelowaniu ryzyka kredytowego, zawał i brak zawału przy modelowaniu ryzyka zawału serca, czy też szkoda i brak szkody przy modelowaniu ryzyka ubezpieczeniowego. W takich sytuacjach klasyczny model regresji nie jest użyteczny. Przy budowie modeli dla zmiennych zależnych jakościowych mogą być stosowane metody, które można zaliczyć do klasycznych (np. analiza dyskryminacyjna lub model logitowy), jak i metody eksploracji danych [6], określane też terminem data mining. 74 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

15 W prezentowanym dalej przykładzie w pierwszej kolejności użyjemy modelu logitowego. Następnie zostaną wykorzystane drzewa klasyfikacyjne. Użyte w przykładzie dane pochodzą z badań przeprowadzonych na terenie trzech przemysłowych rejonów RPA, w których obserwowano wysokie natężenie występowania choroby wieńcowej [3]. Jednym z celów badań było określenie wpływu czynników ryzyka wystąpienia choroby niedokrwiennej serca. Badaniami objęto 462 białych mężczyzn w wieku od 15 do 64 lat. Zmienną zależną było wystąpienie lub niewystąpienie zawału serca. U 163 badanych stwierdzono wystąpienie zawału serca, natomiast pozostałych 299 mężczyzn stanowiło grupę porównawczą. Dla każdego z badanych zebrano ponadto informacje o czynnikach, które mogą mieć wpływ na wystąpienie zawału serca: występowanie chorób serca w rodzinie badanego, wiek, poziom skurczowego ciśnienia krwi, poziom cholesterolu (LDL), stopień otyłości, zachowanie typu A oraz palenie papierosów. Do budowy modelu opisującego wpływ branych pod uwagę czynników ryzyka na wystąpienie zawału serca wykorzystano technikę regresji logistycznej. Zdefiniowanie tej analizy w programie STATISTICA wymaga od użytkownika określenia typu rozkładu dla modelowanej zmiennej zależnej (w prezentowanym przykładzie należy wskazać rozkład dwumianowy) oraz rodzaj nieliniowego przekształcenia dla wartości przez nią przyjmowanych (tzw. funkcja wiążąca). Wybrane przekształcenie powoduje, że wartości przewidywane zmiennej zależnej będą podlegać wybranemu wcześniej typowi rozkładu. W przypadku modelu logitowego najczęściej stosowanym przekształceniem jest tzw. przekształcenie logitowe o postaci: pi ln 1 pi, gdzie p i to prawdopodobieństwo tego, że Y i przyjmie wartość 1. Po zdefiniowaniu zmiennych do budowy modelu przeprowadzana jest estymacja parametrów modelu. Do tego celu wykorzystywana jest metoda największej wiarygodności. Rys. 18. Wyniki estymacji parametrów modelu logitowego oraz ilorazy szans. Powyżej przedstawiono tabelę zawierającą oceny parametrów modelu oraz ocenę ich istotności. Po usunięciu zmiennej Otyłość oraz Skurczowe ciśnienie krwi wpływ pozostałych zmiennych okazał się istotny. Dla łatwiejszej interpretacji wpływu uwzględnionych w modelu zmiennych objaśniających na ryzyko wystąpienia zawału serca dokonano Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 75

16 odwrotnego przekształcenia oszacowanych ocen parametrów, które pozwala na otrzymanie wielkości określanych terminem ilorazów szans. Dzięki temu można ocenić stopień, w jakim dany czynnik wpływa na szacowane ryzyko. Przy interpretacji wartością odniesienia jest 1. Interpretacja dla zmiennej jakościowej: w przypadku niewystępowania chorób serca w rodzinie ryzyko zawału maleje o około 38,5 % (tyle, ile brakuje do 1). Interpretacja dla zmiennych ilościowych: wzrost poziomu cholesterolu (frakcja HDL) o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o około 18 %, wzrost intensywności palenia o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o blisko 8 %, podniesienie wieku o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o około 5,5 % i wreszcie wzrost wskaźnika zachowania typu A o jedną jednostkę powoduje wzrost ryzyka wystąpienia zawału o około 4 %. Do oceny jakości zbudowanego modelu oceniono odsetek przypadków poprawnie sklasyfikowanych. Rys. 19. Klasyfikacja przypadków. Na podstawie wyników podanych w tabeli można stwierdzić, że model poprawnie klasyfikuje ponad 84 % badanych, u których nie wystąpił zawał, oraz nieco ponad 57 % tych, u których zawał wystąpił. Tak jak to zostało już wcześniej wspomniane, do rozwiązania problemów klasyfikacyjnych można wykorzystywać wiele różnych metod analizy. Jedną z najbardziej popularnych jest metoda drzew klasyfikacyjnych [2, 3]. Z drzewami klasyfikacyjnymi mamy do czynienia wtedy, gdy zmienna zależna jest zmienną wyrażoną na skali nominalnej lub porządkowej. Drzewo jest graficznym modelem powstałym w wyniku rekurencyjnego podziału zbioru obserwacji A na n rozłącznych podzbiorów A 1, A 2, A 3, A n. Celem budowy modelu jest uzyskanie podzbiorów maksymalnie jednorodnych z punktu widzenia wartości zmiennej zależnej. Jest to proces wieloetapowy, który w każdym kolejnym kroku może wykorzystywać inną zmienną niezależną. Na każdym etapie analizuje się bowiem wszystkie predyktory (zmienne objaśniające) i wybiera ten, który zapewnia najlepszy podział węzła, czyli wydziela najbardziej jednorodne podzbiory. Dla zbioru danych zawierającego informacje o czynnikach ryzyka zawału serca przeprowadzono analizę przy użyciu drzew klasyfikacyjnych. Poniżej zamieszczono fragment otrzymanego drzewa. 76 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

17 Rys. 20. Fragment zbudowanego drzewa klasyfikacyjnego. Z punktu widzenia badacza ważną zaletą metody drzew klasyfikacyjnych jest możliwość podania czytelnych reguł klasyfikacyjnych. Przykładowa reguła mogłaby wyglądać następująco: zawał serca wystąpił u 92 % mężczyzn w wieku powyżej 50,5 lat, u których obserwowano wcześniej choroby serca w rodzinie, poziom cholesterolu przekraczał 5 mmol/l, a ciśnienie skurczowe krwi przekraczało 121,5 mm Hg. Przy ocenie zbudowanego modelu możemy posłużyć się odsetkami poprawnych klasyfikacji. Przedstawia je poniższa tabela. Rys. 21. Macierz klasyfikacji przypadków. Wyniki sugerują, że model pozwala poprawnie sklasyfikować ponad 83 % przypadków, u których zawał nie wystąpił, oraz ponad 72 %, u których zawał wystąpił. Zbudowany model może być wykorzystany w praktyce przy ustalaniu profilaktyki chorób serca oraz przy kwalifikacji osób do szczegółowych badań w badaniach przesiewowych. Jak to zostało już wcześniej wspomniane, do rozwiązywania zagadnień klasyfikacyjnych można stosować różne techniki analizy danych zaliczane do metod data mining. Budowa takich modeli jest szczególnie wygodna w środowisku programu STATISTICA Data Miner, który stanowi niezwykle bogaty zestaw metod i narzędzi do analiz typu data mining. Jest Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 77

18 jedyną w swoim rodzaju aplikacją pod względem zakresu dostępnych metod i procedur, wydajności, zaawansowania technologicznego oraz elastyczności środowiska użytkownika, które pozwala w łatwy sposób definiować i realizować nawet bardzo złożone projekty analiz. Korzystając z danych dotyczących czynników ryzyka zawału serca, zbudowano kilka modeli klasyfikacyjnych przy użyciu: uogólnionej analizy dyskryminacyjnej, standardowych drzew klasyfikacyjnych typu CART oraz techniki wzmacnianych drzew klasyfikacyjnych (boosted trees). Poniżej przedstawiono wygląd projektu w środowisku programu STATISTICA Data Miner. Rys. 22. Projekt do budowy modeli klasyfikacyjnych. Po wykonaniu analizy otrzymujemy obszerny zestaw wyników, który pozwala przyjrzeć się bardziej szczegółowo zbudowanym modelom. W przypadku opisywanego problemu klasyfikacyjnego warto przyjrzeć się zestawieniu, które pokazuje jakość prognozowania uzyskaną dla poszczególnych modeli oraz wyniki zastosowania techniki głosowania modeli (voting). Rys. 23. Tabela wyników jakości prognozowania. W przypadku, gdy badacz uzna, że modele są odpowiednie dla rozwiązywanego problemu, wówczas zbudowany projekt może być w łatwy sposób wykorzystywany do nowych danych. 78 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

19 Podsumowanie i wnioski W opracowaniu przedstawiono wybrane zagadnienia statystycznego modelowania współzależności zjawisk. W pierwszej części omówiono możliwość wprowadzenia do modelu regresji liniowej zmiennych objaśniających o charakterze jakościowym. Zwrócono uwagę na konieczność uwzględnienia w modelu ewentualnych interakcji pomiędzy poziomami takiej zmiennej. W drugim fragmencie opracowania przedstawiono zagadnienie modelowania w przypadku występowania związków nieliniowych. W końcowej części przedstawiono wybrane modele dla jakościowej zmiennej zależnej (modele klasyfikacyjne). Dla praktycznej ilustracji omawianej tematyki w programie STATISTICA i STATISTICA Data Miner wykorzystano przykładowe dane z zakresu medycyny i ekonomii. Poniżej podsumowano przedstawione kwestie w postaci kilku wniosków: Wprowadzenie do modelu regresji liniowej objaśniającej zmiennej jakościowej pozwala na ujęcie różnic pomiędzy wartościami wyrazów wolnych i/lub różnic między wartościami współczynników kierunkowych. Przy modelowaniu nieliniowych związków pomiędzy zmiennymi potrzebna jest dobra znajomość własności branych pod uwagę funkcji (i to zarówno na etapie estymacji parametrów modelu, jak i przy interpretacji wyników modelowania). W przypadku wykorzystywania zbudowanego modelu do prognozowania zjawisk w przyszłości należy sprawdzić, czy charakter modelowanego zjawiska nie może ulec nieoczekiwanej zmianie. Przy rozwiązywaniu problemu klasyfikacyjnego warto stosować zarówno klasyczne, jak i eksploracyjne (z zastosowaniem metod data mining) techniki modelowania zmiennych jakościowych. Literatura 1. Aczel A.D. (2000). Statystyka w zarządzaniu. Pełny wykład, PWN. 2. Gatnar E. (2001). Nieparametryczna metoda dyskryminacji i regresji. PWN. 3. Hastie T., Tibshirani R., Friedman J. (2001). The Elements of Statistical Learning: Data Mining, Inference and Prediction, Springer-Verlag, New York. 4. Maddala G.S. (2006). Ekonometria, PWN. 5. Ekonometria i badania operacyjne. Podręcznik dla studiów licencjackich, pod red. naukową M. Gruszczyńskiego, T. Kuszewskiego i M. Podgórskiej. (2009). PWN. 6. Koronacki J., Ćwik J. (2005). Statystyczne systemy uczące się, Wydawnictwo Naukowo-Techniczne. 7. Krzanowski W.J. (1998). An Introduction to Statistical Modelling, Arnold. 8. StatSoft, Inc. (2009). STATISTICA (data analysis software system), version 9. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 79

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH Janusz Wątroba, StatSoft Polska Sp. z o.o. Tematyka artykułu obejmuje wprowadzenie do problematyki modelowania statystycznego i jego roli w badaniu

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA Janusz Wątroba i Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Zakres zastosowań analizy danych w różnych dziedzinach działalności biznesowej i

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Metody Ilościowe w Socjologii

Metody Ilościowe w Socjologii Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Wykład 5: Analiza dynamiki szeregów czasowych

Wykład 5: Analiza dynamiki szeregów czasowych Wykład 5: Analiza dynamiki szeregów czasowych ... poczynając od XIV wieku zegar czynił nas najpierw stróżów czasu, następnie ciułaczy czasu, i wreszcie obecnie - niewolników czasu. W trakcie tego procesu

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek: Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych I KARTA PRZEDMIOTU CEL PRZEDMIOTU Informatics systems for the statistical treatment of data Kierunek: Forma studiów Informatyka Stacjonarne

Bardziej szczegółowo

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17 Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.

Bardziej szczegółowo

PLANOWANIE I ANALIZA EKSPERYMENTÓW

PLANOWANIE I ANALIZA EKSPERYMENTÓW PLANOWANIE I ANALIZA EKSPERYMENTÓW A TECHNIKI DATA MINING W BADANIACH EMPIRYCZNYCH. PRZYKŁADY ANALIZ W STATISTICA Janusz Wątroba StatSoft Polska Sp. z o. o. Problematyka sposobu wykorzystania metod analizy

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

Analiza wariancji - ANOVA

Analiza wariancji - ANOVA Analiza wariancji - ANOVA Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części. Każdą z tych części możemy przypisać oddzielnemu

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji

Bardziej szczegółowo

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol) KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Ekonometria 2. KIERUNEK: MATEMATYKA 3. POZIOM STUDIÓW: I stopnia 4. ROK/ SEMESTR STUDIÓW: III/6 5. LICZBA PUNKTÓW ECTS: 5 6. LICZBA GODZIN: 30 / 30 7. TYP PRZEDMIOTU

Bardziej szczegółowo

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY WYKORZYSTANIU METOD STATYSTYCZNYCH mgr Małgorzata Pelczar 6 Wprowadzenie Reforma służby zdrowia uwypukliła problem optymalnego ustalania kosztów usług zdrowotnych.

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania Prognozowanie i Symulacje. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Szeregi czasowe 1 Szeregi czasowe 2 3 Szeregi czasowe Definicja 1 Szereg czasowy jest to proces stochastyczny z czasem dyskretnym

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015 Krakowska Akademia im. Andrzeja Frycza Modrzewskiego Karta przedmiotu obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 201/2015 WydziałZarządzania i Komunikacji Społecznej Kierunek studiów:

Bardziej szczegółowo

Wiadomości ogólne o ekonometrii

Wiadomości ogólne o ekonometrii Wiadomości ogólne o ekonometrii Materiały zostały przygotowane w oparciu o podręcznik Ekonometria Wybrane Zagadnienia, którego autorami są: Bolesław Borkowski, Hanna Dudek oraz Wiesław Szczęsny. Ekonometria

Bardziej szczegółowo

Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki

Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki ... poczynając od XIV wieku zegar czynił nas najpierw stróżów czasu, następnie ciułaczy czasu, i wreszcie obecnie - niewolników czasu. W trakcie

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Jednym z ważnych obszarów analizy danych jest prognozowanie szeregów czasowych. Któż nie chciałby znać przyszłości

Bardziej szczegółowo

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych 3.1. Estymacja parametrów i ocena dopasowania modeli z jedną zmienną 23. Właściciel komisu w celu zbadania

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34 Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18 Karta przedmiotu Wydział: Wydział Zarządzania Kierunek: Analityka gospodarcza I. Informacje podstawowe Nazwa przedmiotu Rachunek prawdopodobieństwa Nazwa przedmiotu w j. ang. Język prowadzenia przedmiotu

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Szkice rozwiązań z R:

Szkice rozwiązań z R: Szkice rozwiązań z R: Zadanie 1. Założono doświadczenie farmakologiczne. Obserwowano przyrost wagi ciała (przyrost [gram]) przy zadanych dawkach trzech preparatów (dawka.a, dawka.b, dawka.c). Obiektami

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

przedmiotu Nazwa Pierwsza studia drugiego stopnia

przedmiotu Nazwa Pierwsza studia drugiego stopnia Nazwa przedmiotu K A R T A P R Z E D M I O T U ( S Y L L A B U S ) O p i s p r z e d m i o t u Kod przedmiotu EKONOMETRIA UTH/I/O/MT/zmi/ /C 1/ST/2(m)/1Z/C1.1.5 Język wykładowy ECONOMETRICS JĘZYK POLSKI

Bardziej szczegółowo

WSPOMAGANIE STATYSTYCZNEJ ANALIZY WYNIKÓW BADAŃ EMPIRYCZNYCH W STATISTICA 9

WSPOMAGANIE STATYSTYCZNEJ ANALIZY WYNIKÓW BADAŃ EMPIRYCZNYCH W STATISTICA 9 WSPOMAGANIE STATYSTYCZNEJ ANALIZY WYNIKÓW BADAŃ EMPIRYCZNYCH W STATISTICA 9 Janusz Wątroba, StatSoft Polska Sp. z o.o. Badania empiryczne to proces wieloetapowy. Dla poprawnej ich realizacji badacz musi

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 9 Anna Skowrońska-Szmer lato 2016/2017 Ekonometria (Gładysz B., Mercik J., Modelowanie ekonometryczne. Studium przypadku, Wydawnictwo PWr., Wrocław 2004.) 2

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka - adres mailowy: scichocki@o2.pl - strona internetowa: www.wne.uw.edu.pl/scichocki - dyżur: po zajęciach lub po umówieniu mailowo - 80% oceny: egzaminy - 20% oceny:

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Państwowa Wyższa Szkoła Zawodowa w Suwałkach SYLLABUS na rok akademicki 2014/2015

Państwowa Wyższa Szkoła Zawodowa w Suwałkach SYLLABUS na rok akademicki 2014/2015 Tryb studiów Niestacjonarne Nazwa kierunku studiów Finanse i Rachunkowość Poziom studiów Stopień pierwszy Rok studiów/ semestr II/4 Państwowa Wyższa Szkoła Zawodowa w Suwałkach SYLLABUS na rok akademicki

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Data wydruku: Dla rocznika: 2015/2016. Opis przedmiotu

Data wydruku: Dla rocznika: 2015/2016. Opis przedmiotu Sylabus przedmiotu: Specjalność: Statystyka Wszystkie specjalności Data wydruku: 31.01.2016 Dla rocznika: 2015/2016 Kierunek: Wydział: Zarządzanie i inżynieria produkcji Inżynieryjno-Ekonomiczny Dane podstawowe

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka - adres mailowy: nnehrebecka@wne.uw.edu.pl - strona internetowa: www.wne.uw.edu.pl/nnehrebecka - dyżur: wtorek 18.30-19.30 sala 302 lub 303 - 80% oceny: egzaminy -

Bardziej szczegółowo

Podstawowe pojęcia statystyczne

Podstawowe pojęcia statystyczne Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk

Bardziej szczegółowo

gdzie. Dla funkcja ma własności:

gdzie. Dla funkcja ma własności: Ekonometria, 21 listopada 2011 r. Modele ściśle nieliniowe Funkcja logistyczna należy do modeli ściśle nieliniowych względem parametrów. Jest to funkcja jednej zmiennej, zwykle czasu (t). Dla t>0 wartośd

Bardziej szczegółowo

Wykład ze statystyki. Maciej Wolny

Wykład ze statystyki. Maciej Wolny Wykład ze statystyki Maciej Wolny T1: Zajęcia organizacyjne Agenda 1. Program wykładu 2. Cel zajęć 3. Nabyte umiejętności 4. Literatura 5. Warunki zaliczenia Program wykładu T1: Zajęcia organizacyjne T2:

Bardziej szczegółowo

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne Nazwa modułu: Moduł B - Statystyka z elementami matematyki Rodzaj modułu/przedmiotu Wydział PUM Kierunek studiów Specjalność Poziom studiów Forma studiów

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny Analiza sezonowości Wiele zjawisk charakteryzuje się nie tylko trendem i wahaniami przypadkowymi, lecz także pewną sezonowością. Występowanie wahań sezonowych może mieć charakter kwartalny, miesięczny,

Bardziej szczegółowo

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 Kierunek Turystyka i Rekreacja Poziom kształcenia II stopień Rok/Semestr 1/2 Typ przedmiotu (obowiązkowy/fakultatywny) obowiązkowy y/ ćwiczenia

Bardziej szczegółowo

KARTA KURSU. Kod Punktacja ECTS* 1

KARTA KURSU. Kod Punktacja ECTS* 1 KARTA KURSU Nazwa Nazwa w j. ang. Wprowadzenie do statystyki Introduction to statistics Kod Punktacja ECTS* 1 Koordynator Prof. dr hab. Jerzy Wołek Zespół dydaktyczny Prof. dr hab. Jerzy Wołek doktoranci

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) Statystyka I Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) 1 Zmienne jakościowe qzmienne jakościowe niemierzalne kategorie: np. pracujący / bezrobotny qzmienna binarna Y=0,1 qczasami

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar. EKONOMETRIA Prof. dr hab. Eugeniusz Gatnar egatnar@mail.wz.uw.edu.pl Sprawy organizacyjne Wykłady - prezentacja zagadnień dotyczących: budowy i weryfikacji modelu ekonometrycznego, doboru zmiennych, estymacji

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

W4 Eksperyment niezawodnościowy

W4 Eksperyment niezawodnościowy W4 Eksperyment niezawodnościowy Henryk Maciejewski Jacek Jarnicki Jarosław Sugier www.zsk.iiar.pwr.edu.pl Badania niezawodnościowe i analiza statystyczna wyników 1. Co to są badania niezawodnościowe i

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

ANALIZA REGRESJI SPSS

ANALIZA REGRESJI SPSS NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek

Bardziej szczegółowo

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej

Bardziej szczegółowo

7.4 Automatyczne stawianie prognoz

7.4 Automatyczne stawianie prognoz szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu

Bardziej szczegółowo