Niniejszy ebook jest własnością prywatną.

Wielkość: px
Rozpocząć pokaz od strony:

Download "Niniejszy ebook jest własnością prywatną."

Transkrypt

1

2 Niniejszy ebook jest własnością prywatną. Niniejsza publikacja, ani żadna jej część, nie może być kopiowana, ani w jakikolwiek inny sposób reprodukowana, powielana, ani odczytywana w środkach publicznego przekazu bez pisemnej zgody wydawcy. Zabrania się jej publicznego udostępniania w Internecie, oraz odsprzedaży zgodnie z regulaminem Wydawnictwa Złote Myśli. Copyright for Polish edition by ZloteMysli.pl Data: Tytuł: Statystyka po ludzku Autor: Paweł Tatarzycki Wydanie I ISBN: Projekt okładki: Marzena Osuchowicz Korekta: Anna Popis-Witkowska Skład: Anna Popis-Witkowska Internetowe Wydawnictwo Złote Myśli Netina Sp. z o. o. ul. Daszyńskiego Gliwice WWW: kontakt@zlotemysli.pl Wszelkie prawa zastrzeżone. All rights reserved.

3 SPIS TREŚCI WSTĘP...5. CHARAKTERYSTYKA ETAPÓW BADANIA STATYSTYCZNEGO Przygotowanie badania Ustalenie celu badania statystycznego Określenie przedmiotu badania Wybór metody badania statystycznego..... Obserwacja statystyczna Gromadzenie informacji ze źródeł pierwotnych Kontrola zebranych danych Opracowanie i prezentacja materiału statystycznego Grupowanie i zliczanie danych Prezentacja materiału statystycznego Analiza statystyczna Trening i ewaluacja...4. OPIS STATYSTYCZNY Opis struktury zbiorowości Miary natężenia i struktury Miary położenia Miary dyspersji Miary asymetrii Miary koncentracji Trening i ewaluacja Analiza współzależności Miary korelacji Analiza regresji Trening i ewaluacja Analiza dynamiki Wybrane modele tendencji rozwojowej Analiza sezonowości Indeksy indywidualne i agregatowe Trening i ewaluacja WNIOSKOWANIE STATYSTYCZNE Wybrane zagadnienia z rachunku prawdopodobieństwa Charakterystyka wybranych rozkładów prawdopodobieństwa Rozkład dwumianowy Rozkład Poissona Rozkład hipergeometryczny Rozkład jednostajny Rozkład normalny Rozkład t-studenta Rozkład chi-kwadrat...38

4 3..8. Rozkład F Twierdzenia graniczne Dobór próby Estymacja przedziałowa Przedział ufności dla wartości przeciętnej Przedział ufności dla frakcji Przedział ufności dla odchylenia standardowego Weryfikacja hipotez statystycznych Wybrane hipotezy parametryczne Wybrane hipotezy nieparametryczne Trening i ewaluacja TABLICE STATYSTYCZNE Tablice rozkładu Poissona Dystrybuanta rozkładu normalnego Tablice rozkładu t-studenta Tablice rozkładu chi-kwadrat BIBLIOGRAFIA Literatura Inne źródła SPIS TABEL...39 SPIS RYSUNKÓW...395

5 Wstęp str. 5 Wstęp Celem tej publikacji jest poukładanie obszernego materiału ze statystyki, ze wskazaniem na praktyczne zastosowania nabywanej wiedzy w tym zakresie. W myśl zasady stopniowania trudności najtrudniejsze, najbardziej złożone zagadnienia omówiono pod koniec tego opracowania. Przykładowo, dobór próby mimo że jest to elementarne pojęcie statystyki omówiono w rozdziale ostatnim, co jest konsekwencją wprowadzonej zasady. Aby ułatwić przejścia do pokrewnych tematów czy trudnych pojęć statystycznych, zastosowano nowatorskie rozwiązanie na wzór hiperłączy internetowych. Rozwiązanie to ma szczególne znaczenie przy powtarzaniu materiału na za pięć dwunasta, przed kolokwium czy egzaminem. I tak np. odwołanie w kolorze hiperłącza (zob. Dobór próby) przyciąga uwagę Czytelnika. W wersji elektronicznej możliwe jest kliknięcie na linku powodujące przejście do podrozdziału Dobór próby. W myśl zasady związku teorii z praktyką wprowadzany materiał wyjaśniany jest na przykładach, co ułatwia jego zrozumienie, a dodatkowo czyni naukę ciekawszą. Integralną częścią publikacji są przykłady wykonane w arkuszu kalkulacyjnym MS Excel. W tekście publikacji znajdują się informacje typu (zob. Przykłady ). Każdy większy dział wieńczy zestaw zadań do samodzielnego wykonania, poprzedzonych rozbudowanym przykładem, zawartych w podrozdziałach Trening i ewaluacja. Czytelnik może dokonywać analiz, wykorzystując szereg danych praktycznych zebranych w pliku Dane_do_analizy. xls. Obok tradycyjnych zadań w większości działów sprawdzających zamieszczono testy wielokrotnego wyboru, które Czytelnik z łatwością

6 Wstęp str. 6 sprawdzi w specjalnie przygotowanych w tym celu arkuszach MS Excel pt. Ewaluacja. Animacje, czyli prezentacje PowerPoint ukazujące w sposób dynamiczny wykonywanie złożonych czynności obliczeniowych w arkuszu kalkulacyjnym Excela, są pomocne przy studiowaniu rozbudowanych przykładów w działach Trening i ewaluacja, jak również przy analizie wspomnianych przykładów wykonanych w arkuszu MS Excel. Do publikacji dołączono ponadto trzy aplikacje wykonane w programie MS Excel: Bonus : Szeregi statystyczne aplikacja do grupowania i prezentacji danych. Bonus : Rozkłady prawdopodobieństwa pozwala błyskawicznie obliczyć prawdopodobieństwo dla zadanej wartości lub odwrotnie dla wybranych rozkładów. Bonus 3: Chi-kwadrat wspomaga analizę współzależności danych jakościowych.

7 . Charakterystyka etapów badania statystycznego str. 7. Charakterystyka etapów badania statystycznego Badanie statystyczne to złożony proces składający się z kilku etapów. Poniższa tabela zawiera syntetyczne zestawienie podziału badań statystycznych na poszczególne etapy według wybranych autorów. Tabela.. Etapy badania statystycznego w świetle literatury przedmiotu. Autorzy A. Bielecka A. Komosa, J. Musiałkiewicz T. Michalski J. Pociecha Etapy badania statystycznego. Planowanie i organizacja badania.. Zbieranie danych statystycznych. 3. Opracowanie zebranego materiału statystycznego. 4. Analiza wyników badania.. Przygotowanie badania.. Zebranie materiału statystycznego (danych statystycznych). 3. Przygotowanie materiału statystycznego do opracowania. 4. Opracowanie materiału statystycznego. 5. Prezentacja materiału statystycznego. 6. Analiza statystyczna podstawa wyciągnięcia wniosków.. Przygotowanie badania.. Zebranie materiału statystycznego i przygotowanie do opracowania. 3. Opracowanie materiału statystycznego. 4. Prezentacja danych statystycznych i analiza statystyczna.. Rozpoznanie i sformułowanie problemu.. Postawienie hipotezy i ustalenie możliwych rozwiązań. 3. Określenie źródeł informacji. 4. Przygotowanie do gromadzenia danych pierwotnych. 5. Gromadzenie danych. 6. Opracowanie danych i ich analiza. 7. Przygotowanie sprawozdania.

8 . Charakterystyka etapów badania statystycznego B. Pułaska-Turyna M. Sobczyk W. Starzyńska str. 8. Projektowanie badania.. Obserwacja statystyczna. 3. Opracowanie materiału statystycznego. 4. Analiza statystyczna.. Przygotowanie (programowanie) badania.. Obserwacja statystyczna. 3. Opracowanie i prezentacja materiału statystycznego. 4. Opis lub wnioskowanie statystyczne.. Przygotowanie lub programowanie badania statystycznego.. Obserwacja statystyczna. 3. Opracowanie surowego materiału statystycznego. 4. Analiza opracowanego materiału statystycznego. Źródło: Opracowanie własne na podstawie: [3, s. 9], [7, s. ], [0, s. 8], [4, s. 33], [5, s. 9-0], [9, s. 0], [, s. ]. W literaturze przedmiotu najczęściej wymienia się cztery podstawowe etapy badania statystycznego. Mimo pewnych rozbieżności w nazwach, można wymienić następujące podstawowe etapy:. Przygotowanie (planowanie, projektowanie, programowanie) badania.. Obserwacja statystyczna (zbieranie materiału statystycznego). 3. Opracowanie i prezentacja materiału statystycznego. 4. Analiza statystyczna (opis lub wnioskowanie statystyczne). Bardziej szczegółową klasyfikację przedstawili A. Komosa i J. Musiałkiewicz [7, s. ]. Autorzy ci wyodrębnili dodatkowy etap: przygotowanie materiału statystycznego do opracowania (np. T. Michalski włącza je do etapu drugiego) oraz oddzielny etap prezentacja materiału statystycznego na ogół jest ona zaliczany do etapu trzeciego (T. Michalski wyjątkowo zalicza ją do ostatniego etapu, związanego z analizą danych [0, s. 8]). Nieco odmienną klasyfikację etapów badania statystycznego (marketingowego) przedstawia J. Pociecha [4, s. 33]. Po pierwsze etap szósty stanowi połączenie dwóch wyodrębnionych wcześniej (opracowanie materiału statystycznego i analiza danych). Po drugie wyodrębniony przez tego autora etap piąty ( gromadzenie danych ) stanowi jedną z podstawowych

9 . Charakterystyka etapów badania statystycznego str. 9 czynności zaliczanych do etapu, jakim jest obserwacja statystyczna. Zatem rozpisany został szczegółowo etap pierwszy, związany z przygotowaniem badania statystycznego (trzy pierwsze wymienione przez tego autora etapy). W dalszej części tego rozdziału dokładniej scharakteryzowano cztery etapy badań statystycznych według podziału odpowiadającego klasyfikacji M. Sobczyka [9, s. 0]. Autor ten w ramach poszczególnych etapów wymienia następujące czynności: Tabela.. Czynności wchodzące w skład badania statystycznego w przekroju poszczególnych etapów. Etap badania statystycznego I Przygotowanie badania II Obserwacja statystyczna III Opracowanie i prezentacja materiału statystycznego IV Analiza statystyczna Wykaz czynności wchodzących w skład danego etapu. Ustalenie celu badania statystycznego.. Określenie przedmiotu badania (zbiorowości i jednostki statystycznej). 3. Właściwe określenie jednostki sprawozdawczej (źródeł danych). 4. Decyzja co do metody badania (pełne czy częściowe).. Ustalenie wartości cech ilościowych lub odmian cech jakościowych u wszystkich jednostek badanej zbiorowości (generalnej bądź próbnej).. Kontrola formalna i merytoryczna zebranych danych.. Grupowanie lub klasyfikacja.. Zliczanie danych. 3. Tabelaryczna prezentacja materiału statystycznego. 4. Graficzna prezentacja materiału statystycznego.. Opis statystyczny.. Wnioskowanie statystyczne (badanie częściowe próba losowa). Źródło: Opracowanie własne na podstawie: [9, s. 0-30].

10 .. Przygotowanie badania str. 0.. Przygotowanie badania Na tym etapie należy sprecyzować cel badania statystycznego, określić zbiorowość i jednostkę statystyczną, jak również dokonać wyboru metody badania. Jest to ważny etap, ponieważ popełnione tu błędy w dużym stopniu mogą zaważyć na jakości całego badania.... Ustalenie celu badania statystycznego Na wstępie formułowane są koncepcje dotyczące całości badania statystycznego. Podstawową kwestią jest dokładne określenie celów (ogólnych i szczegółowych) oraz hipotez roboczych [0, s. 8]. A. Bielecka [3, s. 9] wyróżnia dwa zasadnicze cele badania statystycznego, tj.:. Cel diagnostyczny określa, co i dlaczego jest przedmiotem badania statystycznego.. Cel praktyczny precyzuje, komu i czemu badanie ma służyć. Oto przykłady określenia celu diagnostycznego i praktycznego (por. [3, s. 30]): Przykład. Celem diagnostycznym jest określenie skuteczności wybranych narzędzi marketingowych stosowanych w sprzedaży jogurtów w pewnym supermarkecie badaniu poddano takie narzędzia, jak: promocje cenowe, degustacje, zamieszczenie oferty w gazetce reklamowej. Cel praktyczny takiego badania to zweryfikowanie hipotezy głoszącej, iż na wzrost popytu znacząco wpływa połączenie promocji cenowej z prezentacją promowanego jogurtu w gazetce reklamowej. Jeśli hipoteza ta okaże się słuszna, to w przyszłości dział marketingu supermarketu zawsze będzie stosował promocje cenowe dla tej grupy produktów, w połączeniu z wydrukiem oferty promocyjnej w gazetce reklamowej (efekt synergiczny).

11 .. Przygotowanie badania str. Przykład. Firma zajmująca się pośrednictwem finansowym planuje wprowadzenie do oferty pośredniczenia w zawieraniu umów odnośnie zmiany Otwartego Funduszu Emerytalnego. Może jednak podpisać umowę wyłącznie z jednym funduszem. Celem diagnostycznym badania będzie określenie częstotliwości i kierunku zmian poszczególnych OFE przez zapisane już do nich osoby oraz identyfikacja kluczowych czynników powodujących te zmiany. Można postawić hipotezę, iż o zmianie OFE decydują głównie czynniki ekonomiczne, takie jak stopa zwrotu czy prowizja od składki. Gdy hipoteza ta okaże się słuszna, to firma podpisze umowę z funduszem o najwyższej stopie zwrotu netto, tj. stopie skorygowanej o koszty prowizji od składek. W przeciwnym razie należy określić czynniki pozaekonomiczne (np. podpisać umowę z funduszem gwarantującym najwyższą stawkę dla akwizytora od podpisanej umowy czynnik ten może okazać się skutecznym motywatorem dla osób pozyskujących klientów dla danego OFE). Przykład 3. Firma edukacyjna zamierza rozszerzyć swoją ofertę o nauczanie na odległość (tzw. e-learning). Celem diagnostycznym projektowanego badania statystycznego będzie określenie preferencji wśród wybranej grupy studentów odnośnie różnych form nauczania, w tym stosunku do nauczania na odległość. Ponadto celem diagnostycznym jest określenie najbardziej popularnych przedmiotów. Początkowo z uwagi na znaczne koszty inwestycji w platformę e-learningową planowane jest wprowadzenie tylko dwóch przedmiotów. Celem praktycznym będzie w tym przypadku zweryfikowanie hipotezy o dużym zainteresowaniu nauczaniem on-line, a w przypadku jej poprawności optymalne dostosowanie oferty do rynku (wybór najbardziej popularnych przedmiotów). Jak widać, cel diagnostyczny określa obecny stan rzeczy, natomiast cel praktyczny zmierza do wyciągnięcia wniosków i podjęcia odpowiednich kroków w przyszłości.

12 .. Przygotowanie badania str.... Określenie przedmiotu badania Mając ustalone cele badania statystycznego oraz hipotezy robocze można przejść do kolejnej czynności, jaką jest określenie zbiorowości i jednostki statystycznej. Zbiorowość statystyczna zwana też populacją statystyczną lub generalną to ogół osób, rzeczy bądź zjawisk będących przedmiotem badań statystycznych [3, s. 5]. Oto przegląd klasyfikacji populacji statystycznych według wybranych kryteriów: Tabela.3. Klasyfikacja zbiorowości statystycznych pod kątem wybranych kryteriów. Kryterium klasyfikacji I Kryterium jednorodności jednostek zbiorowości II Charakter jednostek zbiorowości III Ilość badanych cech IV Liczba elementów zbiorowości V Zasięg (zakres) Rodzaje zbiorowości statystycznych. Zbiorowość jednorodna wszystkie jednostki są tego samego typu, rodzaju i gatunku.. Zbiorowość niejednorodna jednostki różnią się cechami jakościowymi.. Zbiorowość statyczna badanie na określony moment.. Zbiorowość dynamiczna badanie w danym przedziale czasowym.. Zbiorowość jednowymiarowa badanie ze względu na jedną cechę.. Zbiorowość wielowymiarowa badanie ze względu na wiele cech.. Zbiorowość skończenie liczna ograniczona możliwa do określenia liczba jednostek.. Zbiorowość nieskończenie liczna nieograniczona pod względem liczebności.. Zbiorowość całkowita (populacja generalna).. Zbiorowość próbna (próba). Źródło: Opracowanie własne na podstawie: [, s. -5]. Jednostka statystyczna zwana też jednostką badania lub obserwacją to najmniejszy element zbiorowości statystycznej [3, s. 5].

13 .. Przygotowanie badania str. 3 Wchodzące w skład badanej zbiorowości jednostki statystyczne odznaczają się pewnymi właściwościami, określanymi mianem cech statystycznych [9, s. ]. Oto szczegółowa klasyfikacja cech statystycznych: Rysunek.. Klasyfikacja cech statystycznych. Źródło: Opracowanie własne na podstawie: [, s. 6-8], [3, s. 8]. Ogólnie rzecz biorąc, cechy statystyczne można podzielić na dwie grupy [, s. 5]:. CECHY STAŁE własności wspólne wszystkim jednostkom badanej zbiorowości statystycznej.. CECHY ZMIENNE własności, dzięki którym poszczególne jednostki różnią się między sobą, przy czym dokładny stopień zmienności poszczególnych cech jest możliwy lub niemożliwy do określenia. Cechy stałe służą do określenia jednostki statystycznej, a tym samym zbiorowości statystycznej, pod względem rzeczowym, przestrzennym i czasowym i nie podlegają badaniu statystycznemu (pełnią rolę klasyfikatorów )

14 .. Przygotowanie badania str. 4 [9, s. ]. Zatem jednostką statystyczną jest każdy element wchodzący w skład zbiorowości statystycznej i posiadający tak jak wszystkie jednostki tej zbiorowości tę samą lub te same cechy stałe [, s. 5]. Wyróżnia się następujące typy cech stałych [, s. 6-7]:. Cechy rzeczowe (przedmiotowe) właściwości, którymi charakteryzuje się ściśle określony zbiór osób, rzeczy lub zjawisk. Cecha rzeczowa precyzuje, kto lub co jest przedmiotem badania statystycznego.. Cechy przestrzenne informują o tym, z jakiego miejsca lub obszaru pochodzą jednostki włączone do badania statystycznego. 3. Cechy czasowe określają, z jakiego okresu lub momentu włączono daną jednostkę w skład zbiorowości statystycznej. M. Sobczyk podkreśla, iż w tej samej zbiorowości można wyodrębnić różne jednostki statystyczne [9, s. ]. Wybór właściwej jednostki statystycznej zależy głównie od określonego celu badania statystycznego, co ukazują poniższe przykłady: Przykład. Celem badania statystycznego jest określenie struktury liczby uczestników Otwartych Funduszy Inwestycyjnych (FIO), które inwestują powierzone środki na krajowym rynku papierów wartościowych. Raport ma dotyczyć stanu na koniec 005 roku. Oto jak zostały określone cechy stałe (zob. rys..):. Cecha rzeczowa informuje, iż przedmiotem badania jest struktura liczby osób lokujących środki finansowe w Otwartych Funduszach Inwestycyjnych (FIO).. Cecha przestrzenna zawęża krąg analizy do polskich funduszy inwestujących w krajowe papiery wartościowe. 3. Cecha czasowa określa moment w czasie, czyli dane za rok 005.

15 .. Przygotowanie badania str. 5 Rysunek.. Przykład określenia zbiorowości i jednostek statystycznych według cech stałych. Źródło: Opracowanie własne. Z powyższego schematu wynika, iż jednostkami statystycznymi wchodzącymi w skład oznaczonej kolorem niebieskim populacji generalnej są poszczególne Fundusze Inwestycyjne Otwarte, lokujące powierzone środki wyłącznie na rynku krajowym (stąd nie uwzględniono funduszu Z ) i prowadzące działalność w 005 roku (nie uwzględniamy w analizie funduszy, które powstały w trakcie 005 roku) łącznie 8 jednostek statystycznych. W wyniku analizy statystycznej zgodnie z celem tego badania otrzyma się rozkład liczby uczestników FIO w zależności od klasy ryzyka funduszu (zob. miary natężenia i struktury).

16 .. Przygotowanie badania str. 6 Innym celem jest porównanie dynamiki liczby uczestników Funduszu A Zrównoważonego z Funduszem A Akcji w latach (zob. analiza dynamiki). Celem praktycznym jest określenie zmian w preferencjach odnośnie tych dwóch funduszy i odpowiednie przygotowanie oferty promocyjnej. Porównywane będą dwie populacje:. Jako cechę rzeczową przyjęto odpowiednio FIO A Zrównoważony (pierwsza populacja) i FIO A Akcji (druga populacja).. W tym przypadku nie ma potrzeby określania cechy przestrzennej, ponieważ wybrane fundusze działają na określonym rynku. 3. Cecha czasowa jest wspólna dla obu porównywanych populacji jest nią zakres czasowy określony na lata W tej sytuacji jednostką statystyczną (obserwacją) jest konkretny punkt danych w przekroju czasowym liczba obserwacji jest równa liczbie lat objętych analizą. Należy zaznaczyć, iż możliwe jest porównywanie funduszy, które działają na rynku w określonym czasie (np. porównanie z FIO E Akcji ogranicza analizę do lat ). Przykład. Celem badania jest analiza dziennych zmian procentowych indeksu największych polskich spółek WIG 0 w określonym czasie:. Cecha rzeczowa określa przedmiot analizy, czyli procentowe dzienne zmiany indeksu WIG 0 (można dokonać porównań z innymi indeksami giełdowymi, np. WIG-iem).. Cecha przestrzenna precyzuje, iż chodzi o GPW w Warszawie. 3. Cecha czasowa określa liczbę sesji giełdowych (np. 50 ostatnich sesji). W tej sytuacji jednostką statystyczną jest sesja giełdowa. Celem analizy może być także ustalenie, jakie spółki w danym dniu wpłynęły pozytywnie na poziom badanego indeksu. Należy wyjaśnić, iż indeks ten jest wypadkową zmian kursów akcji 0 największych spółek wchodzących w jego skład. Oto określenie cech stałych:

17 .. Przygotowanie badania str. 7. Cecha rzeczowa procentowe dzienne zmiany kursów akcji spółek WIG 0.. Cecha przestrzenna GPW w Warszawie. 3. Cecha czasowa określenie sesji giełdowej (np. ostatnia sesja). W tej sytuacji jednostką statystyczną nie będzie już sesja giełdowa, lecz spółka zaliczana do indeksu WIG 0. Nietrudno zauważyć, iż istnieje dwadzieścia jednostek statystycznych (w skład WIG 0 wchodzi bowiem dwadzieścia spółek). Przykład 3. Celem badania statystycznego jest analiza wyników egzaminu ze statystyki w semestrze letnim roku akademickiego 005/006 na studiach dziennych uczelni państwowych. Populację generalną określono pod względem cech stałych następująco:. Cecha rzeczowa studenci studiów dziennych uczelni państwowych, którzy w semestrze letnim przystąpili do egzaminu ze statystyki (możliwe porównanie ze studiami wieczorowymi i zaocznymi).. Cecha przestrzenna osoby studiujące na terytorium RP (wyniki można porównać np. z innymi krajami Unii Europejskiej). 3. Cecha czasowa semestr letni roku akademickiego 005/006 (wyniki analizy można np. porównać z analogicznym okresem roku poprzedniego). Jednostki statystyczne w tym przypadku tworzą studenci studiów dziennych polskich uczelni państwowych, którzy w semestrze letnim w roku akademickim 005/006 przystąpili do egzaminu ze statystyki. Druga grupa cech statystycznych to cechy zmienne podlegają one badaniu statystycznemu [9, s. ]. Należą do nich trzy kategorie cech, a mianowicie (zob. rys..):

18 .. Przygotowanie badania str. 8. Cecha jakościowa (nominalna) to niemierzalna właściwość, której konkretny wariant występuje lub nie występuje w danej zbiorowości i nie dając wyrażać się liczbowo, daje się opisać jedynie za pomocą określeń słownych [, s. 8]. Wariantów cech nominalnych (zob. skala nominalna) nie da się uporządkować (por. [0, s. ]).. Cecha quasi-ilościowa (niby-ilościowa, porządkowa) to właściwość, która określa natężenie badanej cechy u poszczególnych jednostek danej zbiorowości w sposób opisowy [, s. 8]. Warianty cech porządkowych (zob. skala porządkowa) w przeciwieństwie do wariantów cech nominalnych można uporządkować (por. [0, s. ]). Cechy porządkowe w bardziej ogólnej klasyfikacji zaliczane są do cech jakościowych. Istotne jest to, iż warianty cech jakościowych wyrażone są za pomocą określeń słownych (werbalnych). Przypisywane niekiedy cechom jakościowym (nominalnym lub porządkowym) liczby nie wyrażają bowiem ich wartości pełnią jedynie rolę etykiet (por. [3, s. 8]). Przyjęta w niniejszej publikacji szczegółowa klasyfikacja cech statystycznych wyodrębniająca cechy quasi-ilościowe ma za zadanie ułatwienie doboru skal pomiarowych w zależności od rodzaju cechy statystycznej. 3. Cecha ilościowa to mierzalna właściwość, występująca z określonym natężeniem u wszystkich jednostek zbiorowości statystycznej [, s. 7]. Właściwości cech ilościowych określanych też mianem cech mierzalnych można mierzyć za pomocą liczb mianowanych typu: metry, kilogramy, sztuki, lata, jednostki pieniężne, czas itp. (por. skala przedziałowa i skala ilorazowa). Do cech ilościowych należą [3, s. 8]: cecha skokowa warianty tej cechy wyrażone są za pomocą liczb należących do zbioru przeliczalnego lub skończonego (typową jednostką miary są sztuki/liczby naturalne), cecha quasi-ciągła (niby-ciągła) cecha ze swej natury skokowa, ale z uwagi na bardzo dużą liczbę przyjmowanych wartości liczbowych traktowana jako cecha ciągła. Różnica między kolejnymi war-

19 .. Przygotowanie badania str. 9 tościami liczbowymi jest niewielka (np. ceny wyrażone z dokładnością do jednego grosza). cecha ciągła cecha, której warianty wyrażone są za pomocą liczb rzeczywistych, gdzie pomiędzy dwiema dowolnymi wartościami liczbowymi danej cechy można teoretycznie zawsze znaleźć wartość pośrednią cechy (typowymi jednostkami miary cech ciągłych są m.in.: czas, metry, kilogramy, wiek). Należy podkreślić, iż warunkiem zaklasyfikowania danej cechy do cech skokowych nie jest fakt, iż jej warianty występują w postaci liczb całkowitych. Przykładem mogą być oceny z egzaminu: 3; 3,5 (3+); 4; 4,5 (4+); 5. Mimo że cecha ta nie przyjmuje wyłącznie liczb całkowitych (np. tak jak miałoby to miejsce w przypadku liczby nieobecności w szkole), to z uwagi na niewielką liczbę możliwych wariantów jest ona cechą skokową. Przy charakterystyce cech statystycznych kilkakrotnie pojawiło się pojęcie wariantu cechy. Wariant cechy statystycznej jest informacją uzyskaną o jednostce statystycznej w trakcie badania statystycznego [7, s. 0]. Z uwagi na liczbę możliwych wariantów, cechy statystyczne dzieli się na [0, s. ]: cechy dychotomiczne (zero-jedynkowe) cecha może przyjąć tylko dwa warianty. cechy wielodzielne (politomiczne) przyjmują więcej niż dwa warianty. Liczba wariantów danej cechy może być co najwyżej równa liczbie jednostek wchodzących w skład określonej zbiorowości statystycznej jest to możliwe w przypadku cech ciągłych. Zazwyczaj jednak liczba wariantów jest mniejsza od liczby jednostek, ponieważ identyczny wariant cechy może występować u kilku jednostek statystycznych (por. [9, s. 3]). Oto przykłady identyfikacji rodzaju cech statystycznych (zmiennych):

20 .. Przygotowanie badania str. 0 Przykład. Nawiązując do prezentowanego wcześniej przykładu z Funduszami Inwestycyjnymi Otwartymi (zob. rys..), należy ustalić po określeniu jednostki i zbiorowości statystycznej typy cech statystycznych. Przykład ilustruje rys..3: Rysunek.3. Przykłady cech statystycznych. Źródło: Opracowanie własne (dane umowne). Zbiorowość statystyczna została określona pod względem rzeczowym (co jest przedmiotem badania), przestrzennym (teren badania) oraz czasowym (moment badania określony na 005 rok). Tak określona zbiorowość składa się z 8 jednostek statystycznych, którymi są poszczególne Fundusze Inwestycyjne Otwarte lokujące środki finansowe na krajowym

21 .. Przygotowanie badania str. rynku w 005 roku. Wybraną jednostkę statystyczną zaznaczono żółtym kolorem. Każda jednostka posiada szereg właściwości, czyli zmiennych cech statystycznych. Dwie pierwsze, Nazwa funduszu i Klasa ryzyka, mają jakościowy charakter, ponieważ ich warianty dają się opisać w sposób słowny. Pogrubionym kolorem zaznaczono jeden z wariantów cechy Klasa ryzyka cecha ta jest cechą quasi-ilościową (porządkową), ponieważ jej warianty można uporządkować pod kątem stopnia ryzyka (niemniej jednak w innych analizach, gdzie ryzyko nie ma znaczenia, cecha ta jest cechą nominalną). Stopa zwrotu nie jest cechą quasi-ciągłą, ponieważ teoretycznie można ją wyznaczyć z nieskończenie dużą precyzją jest to iloraz ceny jednostki uczestnictwa z końca do ceny z początku 005 roku. Natomiast ceny z definicji podaje się z dokładnością do grosza. Przykład. Celem badania statystycznego jest analiza rynku mieszkań w tzw. standardzie deweloperskim w Polsce. Oto zestaw cech statystycznych branych pod uwagę:. Nazwa województwa cecha jakościowa nominalna.. Ilość pokoi cecha ilościowa skokowa. 3. Cena mieszkania (zł/m) cecha ilościowa quasi-ciągła. Przykład 3. Przedmiotem badania statystycznego jest określenie czynników wpływających na wyniki egzaminu ze statystyki. Jako cechę zależną przyjęto liczbę punktów uzyskanych na egzaminie (cecha ilościowa quasiciągła punkty mierzone w skali od zera do 00 z dokładnością do 0,). Oto zestaw zmiennych objaśniających:. Liczba nieobecności na zajęciach cecha ilościowa skokowa.. Przeciętna liczba godzin poświęconych nauce statystyki tygodniowo jw. 3. Preferencje co do przedmiotu statystyka (nudny, ciekawy) cecha porządkowa.

22 .. Przygotowanie badania str. 4. Płeć studenta cecha jakościowa (nominalna). Reasumując, zbiorowość statystyczną tworzą poszczególne jednostki statystyczne, posiadające określone cechy statystyczne. O ile cechy stałe wspólne wszystkim jednostkom badania statystycznego służą do określenia zbiorowości, o tyle cechy zmienne podlegają badaniu. Należy ustalić, czy będzie ono obejmowało wszystkie jednostki, czy tylko wybrane z nich, a następnie dokonać wyboru adekwatnej metody badania...3. Wybór metody badania statystycznego Kolejną czynnością w fazie wstępnej jest określenie metody badania statystycznego. Wybór metody zależy od takich czynników, jak (por. [9, s. 6]): cel badania statystycznego, rodzaj zbiorowości statystycznej, stopień szczegółowości badania, ilość dostępnych środków finansowych, stosowane metody analizy (opis lub wnioskowanie statystyczne). Badanie statystyczne obejmuje wszystkie jednostki statystyczne lub tylko wybrane z nich, czyli próbę. Próba to pewien podzbiór populacji generalnej, którego elementy zostały dobrane w sposób losowy bądź nielosowy (por. [0, s. 0]). Innymi słowy: próba to liczebność jednostek badania [5, s. 9]. Klasyfikacja metod badania statystycznego ze względu na liczbę jednostek objętych badaniem przedstawia się następująco:

23 .. Przygotowanie badania str. 3 Rysunek.4. Klasyfikacja metod badań statystycznych ze względu na liczbę jednostek objętych badaniem. Źródło: Opracowanie na podstawie: [7, s. 4]. Ogólnie rzecz biorąc, można wyodrębnić trzy grupy metod badania statystycznego:. BADANIE PEŁNE (całkowite, wyczerpujące) polega na tym, że informacje o badanych cechach statystycznych są gromadzone od wszystkich jednostek statystycznych wchodzących w skład zbiorowości statystycznej [7, s. 5].. BADANIE CZĘŚCIOWE (niepełne, fragmentaryczne) obejmuje wybrane jednostki zbiorowości statystycznej [9, s. 6]. 3. SZACUNEK STATYSTYCZNY (szacunek wartości) interpolacyjny lub ekstrapolacyjny szacunek statystyczny zaliczany jest niekiedy w literaturze przedmiotu do metod badania częściowego (zob. [3, s. 3]): interpolacja polega na znajdowaniu nieznanych wartości funkcji w dowolnym punkcie przedziału (x, xn) na podstawie dostępnych wartości funkcji, należących do tego przedziału (np. ustalanie wartości kwartyli). ekstrapolacja polega na ustaleniu nieznanych wartości funkcji w dowolnym punkcie leżącym poza przedziałem wartości posiadanych: xn+, xn+i (np. prognozowanie). Do metod badania pełnego należą (zob. [7, s. 5-8]):

24 .. Przygotowanie badania str. 4. Spis statystyczny jest to badanie polegające na zbieraniu informacji o wartościach cechy statystycznej bezpośrednio od wszystkich jednostek tworzących zbiorowość statystyczną. Informacje te są zbierane przez specjalnie do tego celu przeszkolone osoby (rachmistrzów spisowych). Jednocześnie informacje te są utrwalane na formularzach spisowych, przygotowanych przez instytucję organizującą spis. Rachmistrze spisowi dokonują zatem bezpośredniej obserwacji statystycznej. Spisy statystyczne dostarczają szczegółowych informacji o badanej zbiorowości. Ze względu na bardzo wysokie koszty omawiana metoda znajduje zastosowanie w badaniach najważniejszych zjawisk społeczno-gospodarczych (np. Narodowy Spis Powszechny Ludności i Mieszkań z 00 roku przeprowadzony przez Główny Urząd Statystyczny).. Rejestracja statystyczna polega na wpisywaniu zdarzeń i faktów do odpowiednich rejestrów. Rejestracja statystyczna ma węższy zakres tematyczny aniżeli spis statystyczny. Ponadto różni się ona od niego sposobem gromadzenia informacji przy rejestracji statystycznej nie występuje bezpośrednia obserwacja statystyczna, lecz informacje będące przedmiotem rejestracji są zgłaszane w punktach rejestracyjnych. Wyróżnia się: doraźną rejestrację statystyczną polega ona na tym, że w wyznaczonym czasie określone osoby zgłaszają się w wyznaczonych miejscach i udzielają informacji objętej tematyką rejestracji (np. ewidencja działalności gospodarczej), bieżącą rejestrację statystyczną polega ona na ciągłym, bieżącym, systematycznym notowaniu zdarzeń i faktów określonych przez instytucję prowadzącą rejestrację (np. ewidencja ludności). 3. Sprawozdawczość statystyczna to najbardziej powszechny rodzaj pełnych badań statystycznych polega na przekazywaniu przez jednostki sprawozdawcze określonych informacji liczbowych i opisowych w postaci standardowych sprawozdań. Instytucja organizująca badanie statystyczne powinna opracować odpowiednie formularze statystyczne wraz z instrukcjami ich wypełniania, jak również określić termin ich przeka

25 .. Przygotowanie badania str. 5 zywania (jako przykład można podać opracowane dla celów podatkowych formularze PIT adresowane do osób fizycznych czy też formularze ZUS wypełniane przez przedsiębiorców). Zbiorowości statystycznej nie można poddać badaniu pełnemu w takich sytuacjach, jak (por. [, s. 3], [3, s. 3-3]): badany element ulega zniszczeniu (badanie pełne oznaczałoby w tej sytuacji zniszczenie wszystkich elementów), badanie pełne jest zbyt kosztowne (np. z uwagi na dużą populację generalną), badanie pełne jest zbyt czasochłonne (np. duża dynamika zmian badanego zjawiska wymaga podjęcia szybkich decyzji), badana zbiorowość jest nieskończenie duża (w praktyce za taką populację można też uznać bardzo liczne populacje, np. liczbę potencjalnych internautów w tej sytuacji można mówić wyłącznie o badaniu częściowym). W powyższych sytuacjach odpowiednim badaniem jest badanie częściowe. W literaturze statystycznej wymienia się następujące metody badania częściowego:. Metoda monograficzna polega na wszechstronnym opisie i szczegółowej analizie pojedynczej jednostki statystycznej lub niewielkiej liczby charakterystycznych (typowych) jednostek badanej zbiorowości. Dzięki niewielkiej grupie jednostek można w badaniu uwzględnić stosunkowo dużą liczbę cech statystycznych (zob. cechy zmienne). Podstawowe znaczenie w tej metodzie ma opis w oparciu o dane liczbowe [0, s. 5]. Przykładem może być opis wybranej placówki wychowawczo-oświatowej.. Metoda ankietowa polega na tym, że podmiot organizujący badanie zwraca się do określonej grupy osób (respondentów) z zaproszeniem do dobrowolnego wypowiedzenia się w określonej sprawie. Zaproszenie to

26 .. Przygotowanie badania str. 6 może mieć charakter powszechny (ankieta kierowana do szerokiego grona osób, np. za pośrednictwem Internetu) lub selektywny (ankieta kierowana do wąskiej grupy respondentów, np. za pośrednictwem prasy specjalistycznej). Z uwagi na fakt, iż ankieta wypełniana jest przez respondenta, powinna być ona zredagowana w taki sposób, aby każdy ankietowany jednoznacznie rozumiał stawiane mu pytania i potrafił udzielić na nie odpowiedzi [7, s. 9-0] (zob. Gromadzenie danych ze źródeł pierwotnych). 3. Metoda reprezentacyjna opiera się na próbie pobranej ze zbiorowości generalnej w sposób losowy. Z teoretycznego i praktycznego punktu widzenia metoda ta jest najbardziej prawidłową formą badania częściowego. Zastosowanie rachunku prawdopodobieństwa przy uogólnianiu wyników z próby losowej na całą zbiorowość (zob. wnioskowanie statystyczne) pozwala na określenie wielkości popełnianego błędu. Możliwości tej nie stwarzają pozostałe metody badania częściowego, tj. metoda monograficzna i ankietowa [9, s. 7-8]. Przyjmując jako kryterium klasyfikacji częstotliwość przeprowadzania badania statystycznego, można wyróżnić trzy rodzaje badań statystycznych [7, s. 5]:. Badania doraźne (sporadyczne, jednorazowe, ad hoc) są prowadzone wówczas, gdy zapotrzebowanie na określony rodzaj informacji pojawia się bardzo rzadko i jest spowodowane nieprzewidzianymi przyczynami (np. badanie preferencji nabywców danego produktu).. Badania okresowe są badaniami powtarzalnymi, które przeprowadza się w określonych momentach (np. publikowany na koniec każdego kwartału ranking Otwartych Funduszy Emerytalnych). 3. Badania ciągłe polegają na tym, że obserwacja i rejestracja określonych zdarzeń i faktów odbywa się w sposób ciągły. Badania ciągłe dotyczą jedynie niektórych, ściśle określonych faktów i zdarzeń (np. analiza procesu produkcyjnego pod względem jakości konstrukcja tzw. kart kontrolnych).

27 .. Przygotowanie badania str. 7 W wypadku podjęcia decyzji o wyborze metody badania częściowego pojawia się kwestia doboru próby. Z uwagi na złożony charakter tego zagadnienia metody doboru próby omówiono w ostatnim rozdziale (zob. Dobór próby). W tym miejscu warto podkreślić, iż w przypadku metody reprezentacyjnej dobór próby powinien być wyłącznie losowy... Obserwacja statystyczna Po ustaleniu celu badania statystycznego (diagnostycznego i praktycznego), określeniu zbiorowości i jednostki statystycznej (pod względem rzeczowym, przestrzennym i czasowym), jak również dokonaniu wyboru odpowiedniej metody badania (pełnego lub częściowego) można przystąpić do drugiego etapu, jakim jest obserwacja statystyczna. Ogólnie rzecz biorąc, metody pozyskiwania danych można podzielić na dwie grupy (por. [9, s. 0], [, s. 0]):. Metody korzystania z publikowanych źródeł informacji (odpłatne lub nieodpłatne pozyskiwanie informacji od jednostek sprawozdawczych).. Metody przeprowadzania własnego badania statystycznego (zob. gromadzenie informacji ze źródeł pierwotnych). Zebrane w wyniku obserwacji statystycznej dane określa się mianem materiału statystycznego [9, s. 0], przy czym w zależności od przyjętej metody gromadzenia danych rozróżnia się [0, s. 3]:. Materiał statystyczny pierwotny informacje do prowadzenia danego badania statystycznego uzyskiwane są drogą odrębnego badania. Informacje te pochodzą z tzw. źródeł pierwotnych w wyniku pomiaru bezpośredniego (zob. kwestionariusz).

28 .. Obserwacja statystyczna str. 8. Materiał statystyczny wtórny materiał zaczerpnięty spoza statystycznych źródeł, zwanych źródłami wtórnymi, który został wykorzystany w badaniach statystycznych. Wybrane wtórne źródła danych znajdują się w pliku dane_do_analizy.xls, stanowiącym integralną część niniejszego opracowania. Plik ten zawiera wybrane dane finansowe i dane społeczno-gospodarcze. Poniżej przedstawiono przykłady wtórnych źródeł informacji: Przykład. Jednostką sprawozdawczą dostarczającą co kwartał informacji o trzyletnich stopach zwrotu Otwartych Funduszy Emerytalnych jest Komisja Nadzoru Ubezpieczeń i Funduszy Emerytalnych ( Przykład. Spółki notowane na Giełdzie Papierów Wartościowych w Warszawie ( mają obowiązek sporządzania okresowych raportów finansowych. Przykład 3. Jednostką sprawozdawczą prezentującą m.in. poziom stóp procentowych jest Narodowy Bank Polski ( Przykład 4. Instytucją prezentującą dane o przestępczości w Polsce jest Komenda Główna Policji ( W tym miejscu warto zwrócić uwagę na szereg zniekształceń rzeczywistości, wynikających z błędnej interpretacji oficjalnych informacji pochodzących właśnie ze źródeł wtórnych. Oto następujące sytuacje: Sytuacja. Oficjalny ranking najlepiej sprzedających się płyt CD (np. z oprogramowaniem edukacyjnym) nie musi odzwierciedlać nawet kolejności miejsc w rankingu. Dzieje się tak za sprawą drugiego nieoficjalnego obrotu nielegalnym oprogramowaniem, w wyniku czego ustalenie najbardziej popularnych programów komputerowych wymaga

29 .. Obserwacja statystyczna str. 9 przeprowadzenia odrębnych badań wśród wybranej grupy respondentów (anonimowość ankiety sprzyja zakreślaniu odpowiedzi, jaki program ostatnio kupił ankietowany nie wnika się przy tym, z jakiego źródła on pochodzi). Sytuacja. Ustalenie faktycznej liczby rozwiedzionych rodzin jest praktycznie niemożliwe w oparciu o dane ze źródeł wtórnych wiadomo bowiem, iż część rodzin rozwodzi się fikcyjnie ( na papierze ) w celu otrzymania zasiłku dla matki samotnie wychowującej dziecko. W tym przypadku wiarygodnych informacji mogłaby dostarczyć anonimowa ankieta. Sytuacja 3. Kwestią kłopotliwą jest określenie skali ruchu turystycznego w pewnej nadmorskiej miejscowości w oparciu o wpływy z podatku klimatycznego (np. zł za dobę). Takie informacje nie uwzględniają osób, które specjalnie przyjeżdżają na jeden dzień do tej miejscowości (np. na organizowany koncert), czy też turystów znajdujących zakwaterowanie bez rejestracji i tym samym niepłacących podatku klimatycznego. Ponadto należy pamiętać, iż źródła wtórne niekiedy dostarczają tylko pobieżnych informacji. I tak śledząc dostępne statystyki odwiedzin pewnego portalu internetowego można dowiedzieć się, ile procent odwiedzających to kobiety, jaka jest struktura wiekowa itp. Niestety, takie zbiorcze informacje nie pozwalają na określenie zależności np. pomiędzy wiekiem a płcią osób odwiedzających portal tu konieczne jest dotarcie do danych niepogrupowanych. Powyższe przykłady pokazują, iż mimo bogactwa informacji pochodzących ze źródeł wtórnych, niekiedy niezbędne jest dotarcie do informacji pochodzących ze źródeł pierwotnych. W kolejnym podrozdziale dokładniej omówiono organizację własnego badania statystycznego (gromadzenie informacji ze źródeł pierwotnych).

30 .. Obserwacja statystyczna str Gromadzenie informacji ze źródeł pierwotnych Gromadzenie informacji ze źródeł pierwotnych jest znacznie droższe, aniżeli pozyskanie informacji ze źródeł wtórnych. Z tego też względu informacje te należy gromadzić wówczas, gdy informacje ze źródeł wtórnych nie są wystarczające do osiągnięcia postawionych celów i weryfikacji hipotez roboczych (por. [6, s. 73]). Informacje ze źródeł pierwotnych zbierane są specjalnie dla określonych celów praktycznych i diagnostycznych badania statystycznego (zob. ustalenie celu badania statystycznego). Badający uczestniczy w procesie gromadzenia danych pierwotnych (tzw. badanie w terenie), stosując odpowiednie metody, techniki i narzędzia w sposób pośredni lub bezpośredni [3, s. 34]. J. Pociecha wyodrębnia etap poprzedzający gromadzenie danych, a mianowicie przygotowanie do gromadzenia danych pierwotnych (por. tabela.). Zdaniem tego autora na tym etapie należy (zob. [4, s. 33]):. Określić metody gromadzenia danych.. Zaprojektować użyteczne narzędzia badawcze i określić czas trwania badania. 3. Określić sposoby doboru próby. 4. Przeszkolić osoby przeprowadzające badanie. Do technik pomiaru danych pierwotnych należą m.in.: ankieta (zob. metoda ankietowa), wywiad, obserwacja, eksperyment. Ankieta to technika gromadzenia informacji ze źródeł pierwotnych, polegająca na uzyskiwaniu potrzebnych danych przez zadawanie pytań respondentom. Cechą charakterystyczną ankiety jest wysoki stopień standaryzacji

31 .. Obserwacja statystyczna str. 3 badań, tj. ujednolicenie sytuacji badawczej oraz wykonywanych czynności. Należy podkreślić, iż wyraz ankieta ma dwojakie znaczenie. Po pierwsze oznacza on technikę pozyskiwania informacji ze źródeł pierwotnych, a po drugie określa nazwę narzędzia, jakim jest formularz zawierający pytania do respondenta, na które udziela on samodzielnie pisemnych odpowiedzi (zob. kwestionariusz) [4, s. 49]. Wywiad to kolejna technika pozyskiwania informacji ze źródeł pierwotnych, polegająca na zbieraniu danych od respondentów w toku bezpośredniej rozmowy przeprowadzanej przez odpowiednio przeszkolone osoby. Ponieważ wywiad w odróżnieniu od ankiety, którą charakteryzuje wysoki stopień standaryzacji badań jest swobodną techniką badawczą, dlatego jakość przeprowadzonego wywiadu w znacznym stopniu uzależniona jest od wiedzy i umiejętności osoby go przeprowadzającej. Wyróżnia się następujące rodzaje wywiadu [4, s. 5-5]: wywiad skategoryzowany/nieskategoryzowany, wywiad jawny/ukryty, wywiad indywidualny/zbiorowy. W wywiadzie skategoryzowanym rozmowa przebiega w określony, zaplanowany sposób w tym miejscu pomocnym narzędziem jest kwestionariusz. W wywiadzie kwestionariusz jest wypełniany przez osobę prowadzącą wywiad, a nie jak ma to miejsce w przypadku ankiety przez respondenta. Wywiad nieskategoryzowany może przyjąć formę luźnej rozmowy w tym przypadku prowadzący nie trzyma się ściśle określonych pytań. Wywiad jawny to taki wywiad, w którym osoba pytana jest poinformowana o celu badania statystycznego (wie, w jakim celu wywiad jest prowadzony). Niemniej jednak niekiedy pytany świadomie nie jest informowany o faktycznym celu badania np. po to, aby uzyskać wiarygodne odpowiedzi wówczas można mówić o wywiadzie ukrytym.

32 .. Obserwacja statystyczna str. 3 Wywiad indywidualny to wywiad prowadzony z jednym respondentem w danym momencie ma to m.in. miejsce w przypadku wywiadu skategoryzowanego, gdzie odpowiedzi osoby pytanej są zapisywane w przygotowanym wcześniej kwestionariuszu. Jak już wspomniano, wywiad może przyjąć formę rozmowy (dyskusji) w sytuacji, gdy rozmowa prowadzona jest z więcej niż jednym respondentem, można mówić o wywiadzie grupowym. Przykładowo, mieszkańcy pewnego miasta są pytani o warunki socjalno-bytowe. Obserwacja to następna technika zbierania informacji (nie należy jej mylić z omawianym drugim etapem badania statystycznego!). Instrumentem pomiaru są tu najczęściej zmysły wzroku i słuchu obserwatora czy też urządzenia techniczne (magnetofony, kamery, tachometry itp.). Wyróżnia się następujące formy obserwacji [3, s. 35]: obserwacja bezpośrednia/pośrednia, obserwacja jawna/ukryta, obserwacja uczestnicząca/nieuczestnicząca. Aby łatwiej rozróżnić poszczególne rodzaje obserwacji, warto posłużyć się przykładem. Załóżmy, że obserwacja dotyczy pewnej jednostki oświatowej celem obserwacji jest określenie postępów w nauce, jak również zachowania się uczniów na terenie szkoły. Jeżeli na lekcji pojawi się wizytator, który obserwuje jej przebieg, to można mówić o obserwacji bezpośredniej i jawnej. Obserwacja pośrednia ma miejsce wówczas, gdy lekcja jest obserwowana np. za pośrednictwem kamer. Jeżeli uczniowie wiedzą, że są zainstalowane kamery, to jest to obserwacja jawna. Jeśli natomiast zainstalowano ukrytą kamerę (ukryto magnetofon), to w tej sytuacji ma miejsce obserwacja ukryta. Aby można było dokładniej poznać zwyczaje panujące w danej szkole, konieczna może okazać się obserwacja uczestnicząca wówczas np. obserwator może być jednym z uczniów (grać rolę ucznia). Jest to w tym przypadku obserwacja ukryta, ponieważ pozostali uczniowie nie są świadomi, że są obserwowani.

33 .. Obserwacja statystyczna str. 33 Eksperyment to następna metoda zbierania danych pierwotnych. Może mieć on charakter laboratoryjny lub terenowy. Eksperyment terenowy dokonywany jest w warunkach naturalnych. Jego zaletą jest możliwość zapewnienia nieskrępowanych zachowań badanych osób. Istnieje jednak ryzyko wystąpienia w eksperymencie nieprzewidzianych czynników i sytuacji. Natomiast w eksperymencie laboratoryjnym ma miejsce sytuacja odwrotna osoby przeprowadzające badanie w pełni kontrolują wszystkie czynniki, ale istnieje ryzyko nienaturalnego, niecodziennego zachowywania się badanych osób [4, s. 5]. W badaniu statystycznym można stosować jednocześnie kilka technik gromadzenia danych, w tym danych pierwotnych. Dobrym przykładem jest metoda monograficzna, gdzie badania ilościowe z wykorzystaniem np. ankiety i wywiadu skategoryzowanego mogą zostać uzupełnione badaniami jakościowymi, opartymi na obserwacji czy wywiadzie z określoną grupą pytanych. Przykładowo, w wybranej jednostce oświatowej można przeprowadzić wywiad z dyrekcją i nauczycielami odnośnie standardów kształcenia, a następnie rozdać ankiety rodzicom na temat jakości kształcenia w szkole, do której uczęszczają ich dzieci. Obserwacja może dotyczyć relacji uczeń-uczeń i nauczyciel-uczeń. Ponadto wielu istotnych informacji może dostarczyć analiza dokumentów szkoły (źródła wtórne). Kolejną czynnością związaną z przygotowaniem do gromadzenia danych pierwotnych jest zaprojektowanie użytecznych narzędzi badawczych. W pomiarze pierwotnym powszechnie wykorzystywane są kwestionariusze. Kwestionariusz to lista pytań na jeden lub więcej tematów, uporządkowana merytorycznie i graficznie. Aby prawidłowo opracować kwestionariusz ankiety, warto stosować się do pewnych zasad (por. [6, s. 0-]):. Po pierwsze: należy określić, jakie informacje mają charakter jakościowy, a jakie ilościowy (zob. cechy zmienne), a także od kogo zostaną one

34 .. Obserwacja statystyczna str. 34 pobrane ma to istotny wpływ na treść i formę pytań kwestionariuszowych. Pytania te w zależności od podmiotu badania mogą mieć bardziej lub mniej złożony charakter.. Kolejną kwestią jest dostosowanie kwestionariusza do wybranej techniki pomiaru. Kwestionariusze wywiadu mogą być bardziej skomplikowane, ponieważ są wypełniane przez osoby przeprowadzające wywiad (ankieterów). Natomiast kwestionariusze ankiety z uwagi, że są samodzielnie wypełniane przez respondentów muszą być prostsze, jak również zawierać takie informacje, jak: cel badania statystycznego, sposób wpisania (zaznaczenia) odpowiedzi, czyli instrukcje, sposób oddania kwestionariusza. W szczególności kwestionariusz powinien zawierać następujące elementy: informację o instytucji przeprowadzającej badanie, tytuł (temat) badania, zwięzłą informację na temat celu badania, dodatkowe wyjaśnienia (np. zapewnienie o anonimowości badań), instrukcje kwestionariuszowe (wyjaśniają jak odpowiadać na poszczególne pytania), pytania kwestionariuszowe, dane dotyczące podmiotu badania (metryczka). 3. Treść pytań kwestionariusza ankiety (wywiadu) powinna być zgodna z określonym celem badania statystycznego. Należy też uwzględnić fakt, czy respondent będzie potrafił udzielić odpowiedzi na dane pytanie i czy będzie skłonny to zrobić. 4. Kolejną czynnością jest określenie sposobu odpowiedzi na poszczególne pytania, a następnie ich liczby i kolejności w kwestionariuszu. W dalszej części tego podrozdziału więcej miejsca poświęcono kwestii budowy pytań kwestionariusza. Pytania stosowane w kwestionariuszach można podzielić na dwie zasadnicze grupy (por. [6, s. 46]):

35 .. Obserwacja statystyczna str. 35. Pytania otwarte zakładają sformułowanie odpowiedzi przez respondenta w sposób całkowicie dowolny. Pytania otwarte umieszcza się w kwestionariuszu wówczas, gdy trudno jest przewidzieć odpowiedzi czy też wtedy, gdy pytanie wymaga trudnych odpowiedzi. Podstawową wadą tego rodzaju pytań jest nieporównywalność zebranych w ten sposób informacji.. Pytania zamknięte (skategoryzowane, kafeteryjne) przewidują wybór odpowiedzi z przygotowanego zestawu wariantów (tzw. kafeterie). Tego typu pytania przeważają w badaniach ilościowych (pytania otwarte pełnią tu rolę pytań uzupełniających). Bardziej szczegółową klasyfikację pytań wykorzystywanych w kwestionariuszach ankiety (wywiadu) przedstawia poniższa tabela: Tabela.4. Klasyfikacja pytań kwestionariusza ankietowego (kwestionariusza wywiadu). Rodzaj pytania Przykłady pytań wraz z kafeteriami (,, ) OTWARTE I Z czym kojarzy się Panu/Pani wyraz statystyka?.. PÓŁOTWARTE w porównaniu z pytaniem zamkniętym dodatkowo pojawia się tzw. kafeteria półotwarta II Proszę wskazać maksymalnie trzy praktyczne Pana/Pani zdaniem zastosowania statystyki:. Giełda, finanse. Analiza danych w przedsiębiorstwie 3. Analiza rynku 4. Inne (jakie?). dychotomiczne wybór jednego ZAMKNIĘTE z dwóch wariantów odpowiedzi III Czy korzysta Pan/Pani z dodatkowych zajęć ze statystyki?. Tak. Nie kafeteria dysjunktywna wybór tylko jednej z wymienionych odpowiedzi IV Jaki dział statystyki sprawia Panu/Pani najwięcej trudności? (proszę wskazać tylko jedną odpowiedź). Wnioskowanie statystyczne. Analiza szeregów czasowych 3. Analiza regresji 4. Analiza struktury

36 .. Obserwacja statystyczna kafeteria koniunktywna wybór więcej niż jednego wariantu odpowiedzi (należy pamiętać o poinstruowaniu respondenta, ile opcji odpowiedzi może maksymalnie wskazać) TABELE pytania tabele umożliwiają zadanie kilku lub kilkunastu prostych pytań, odwołujących się do tej samej skali, lecz odnoszących się do różnych przedmiotów, wartości, cech, poglądów, zjawisk str. 36 V Z jakich form dodatkowych zajęć ze statystyki Pan/Pani korzysta?. Korepetycje. Kursy tradycyjne 3. E-learning (nauczanie na odległość) 4. Nie dotyczy VI Ile godzin średnio tygodniowo uczy się Pan/Pani statystyki? do godzin ponad 0 sesja poza sesją Filtrujące celem jest SPECJALNE wychwycenie niezgodności w odpowiedziach Pytaniem filtrującym jest pytanie piąte w stosunku do pytania trzeciego wybór kafeterii Nie w pytaniu trzecim powinien odpowiadać zaznaczonej opcji nie dotyczy w pytaniu piątym Metryczkowe Płeć: określają cechy. Kobieta respondenta (wiek,. Mężczyzna płeć, stan cywilny itp.) Źródło: Opracowanie na podstawie: [6, s. -3]. W tym miejscu warto dodać, iż przy konstrukcji coraz bardziej powszechnych ankiet internetowych wykorzystuje się tzw. formularze, dostępne w różnych programach do tworzenia stron internetowych. Na formularzach umieszcza się pewne elementy graficzne. Przykładowo, w programie MS Word elementy te znajdują na pasku Narzędzia sieci Web. Standardowo nie jest on jednak widoczny, stąd należy zaznaczyć ten pasek, wybierając

37 .. Obserwacja statystyczna str. 37 w menu Widok funkcję Paski narzędzi i zaznaczyć szukany pasek narzędzi. Po zaznaczeniu opcji tego paska pojawi się on na ekranie Do konstrukcji formularza ankiety internetowej wykorzystywane są m.in. następujące elementy:. Pole wyboru HTML służy do konstrukcji pytań zamkniętych o kafeteriach koniunktywnych (możliwy wybór kilku wariantów odpowiedzi).. Przycisk opcji HTML służy do konstrukcji pytań zamkniętych o kafeteriach dysjunktywnych (możliwe zaznaczenie tylko jednej opcji odpowiedzi). 3. Pole tekstowe można wykorzystać jako dodatkową kafeterię półotwartą, co w połączeniu z przyciskami opcji lub wyboru da pytanie półotwarte, jak również do konstrukcji pytań otwartych i części pytań metryczkowych (np. miasto, w którym mieszka ankietowany). 4. Obszar tekstu HTML doskonale nadaje się do pytań otwartych, wymagających dłuższej odpowiedzi respondenta (dostępny jest tu pasek przewijania, co pozwala na sprawdzenie przez respondenta i poprawienie ewentualnych błędów w całej wypowiedzi). Ponadto można stosować pole rozwijane HTML pełni ono analogiczną rolę do przycisku opcji HTML, przy czym znacznie lepiej nadaje się do pytań o dużej liczbie wariantów odpowiedzi (np. wybór województwa).

38 .. Obserwacja statystyczna str. 38 Z kolei inny element pole listy HTML może pełnić rolę pól wyboru HTML, ponieważ pozwala na jednoczesne wybranie kilku możliwych odpowiedzi (klikanie na wybieranych wariantach odpowiedzi z przytrzymanym prawym przyciskiem Shift). Oprócz rozplanowania omówionych elementów graficznych konieczne jest ponadto dodanie kodu źródłowego HTML. Niniejsza publikacja ukazuje jedynie konstrukcję formularza ankiety internetowej pod kątem merytorycznym. Oto przykład takiej ankiety: Rysunek.5. Przykład ankiety internetowej. Źródło: Opracowanie własne. Kształt pola wyboru sugeruje, iż respondent może zaznaczyć kilka odpowiedzi. Niemniej jednak należy jeśli to konieczne określić liczbę wskazań (w powyższym przykładzie wymagane są dokładnie trzy wskazania

39 .. Obserwacja statystyczna str. 39 praktycznych zastosowań statystyki). Przyciski opcji uniemożliwiają zaznaczenie więcej niż jednej odpowiedzi (doskonale nadają się do pytań typu TAK/NIE, płeć). Przy konstrukcji kwestionariusza ankiety internetowej możliwe jest wskazanie opcji domyślnej, tak jak to uczyniono przy pytaniu trzecim w powyższym przykładzie (ustawienie odpowiedniego parametru na wartość logiczną true). Formularz kończy się poprzez dodanie przycisku Resetuj (ang. Reset), umożliwiającego wyczyszczenie wszystkich zaznaczonych odpowiedzi oraz przycisku Prześlij kwerendę (ang. Submit) umożliwiającego przesłanie formularza np. na wskazany adres poczty elektronicznej. Aby uniknąć niejasności, należy kolejno określić nazwy poszczególnych elementów. Przykładowo obszar tekstu HTML można nazwać Pytanie_. W nadesłanym kwestionariuszu obok nazwy Pytanie_ pojawi się treść tego pytania: Statystyka (łac. status państwo). Jak już zasygnalizowano, na treść i formę pytań kwestionariuszowych istotny wpływ ma to, czy pozyskiwane informacje mają jakościowy czy ilościowy charakter. Innymi słowy, należy określić rodzaj cechy statystycznej (np. płeć jest cechą jakościową nominalną zob. cechy zmienne). Z rodzajem cech statystycznych wiąże się z kolei pojęcie skalowania. Skalowanie to takie postępowanie, które umożliwia przyporządkowanie pewnym właściwościom obiektów liczb lub innych symboli w celu określonego uporządkowania badanych stanów rzeczy (postaw, ocen, poglądów itp.) i wyrażenia ich w sposób liczbowy lub wartościowy ([6, s. 3]). Nie wszystkie rodzaje pytań ankietowych są pytaniami skalowanymi do tej grupy pytań nie należą pytania otwarte. Skalowanie dotyczy więc pytań skategoryzowanych, gdzie respondent może wybrać jeden lub kilka możliwych wariantów odpowiedzi. W tym celu stosuje się określone typy skal pomiarowych. Skala pomiarowa umożliwia transformację informacji pochodzących ze źródeł pierwotnych pobieranych za pośrednictwem narzę-

40 .. Obserwacja statystyczna str. 40 dzia jakim jest kwestionariusz w symbole, tworzące dane podlegające dalszej obróbce statystycznej. W latach pięćdziesiątych XX w. S.S. Stevens zaproponował czteropoziomową klasyfikację skal pomiarowych, a mianowicie skale [6, s. 46]: nominalne, porządkowe, przedziałowe, ilorazowe. Przedstawione cztery typy skal pomiarowych są powszechnie wymieniane w literaturze statystycznej. Poniżej kolejno omówiono te skale. Skala nominalna stanowi najniższy poziom w klasyfikacji skal pomiarowych (jest to bowiem skala najsłabsza ). Zastosowanie tego typu skali pomiaru danych pozwala na podzielenie zebranego materiału statystycznego na pewne rozłączne podzbiory i identyfikacje jednostki statystycznej ze względu na posiadanie lub nieposiadanie danego wariantu cechy (zob. cechy nominalne). Poszczególnym wariantom cech jakościowych (nominalnych) przypisuje się etykiety bądź liczby, na których nie można wykonywać żadnych działań arytmetycznych liczby pełnią jedynie rolę wariantu cechy jakościowej [3, s. 0]. Skale nominalne można podzielić na dwie grupy (por. [6, s. 4]):. Alternatywa możliwy wybór jednej z dwóch opcji odpowiedzi (skala ta znajduje zastosowanie w przypadku cech dychotomicznych typu płeć, odpowiedź tak/nie).. Niealternatywa możliwy wybór odpowiedzi z listy złożonej z więcej niż dwóch wariantów odpowiedzi, których nie da się uporządkować (zob. cechy wielodzielne). W przykładowej ankiecie internetowej (zob. rys..5) pytaniami skalowanymi za pomocą skali nominalnej są pytania nr:, 4 i 5. Pytania te zostały

41 .. Obserwacja statystyczna str. 4 skonstruowane w celu poznania struktury odpowiedzi. Uzyskany z wykorzystaniem tej skali materiał statystyczny można pogrupować (zob. grupowanie i zliczanie danych), a następnie obliczyć wskaźniki struktury (por. tabela.5). Skala porządkowa (rangowa) posiada wszystkie właściwości skali nominalnej, a ponadto umożliwia porządkowanie jednostek statystycznych w ramach wyróżnionych kategorii pod względem natężenia wybranej cechy statystycznej. O ile w skali nominalnej podstawą zaliczenia obserwacji do danej kategorii jest wyłącznie fakt posiadania określonego wariantu cechy, o tyle w skali porządkowej możliwe są stwierdzenia dotyczące nie tylko równości czy różności elementów, ale także określenia pozwalające na porządkowanie obserwacji. Porządkowanie jednostek według badanej cechy może być uporządkowaniem słabym lub mocnym. Uporządkowanie słabe to takie, w którym występuje relacja typu mniejszy lub równy ( ) albo większy lub równy ( ). Oznacza to, że kilka jednostek może być sobie równych. Natomiast uporządkowanie mocne charakteryzuje relacja typu mniejszy niż (<) albo większy niż (>). W przypadku skali porządkowej liczby pełnią rolę tzw. rang wyznaczają one kolejność występowania jednostek statystycznych, ale nie określają tak jak ma to miejsce w skali przedziałowej odległości między nimi [9, s. 4]. Skale porządkowe powszechnie stosowane są do pomiaru określonych postaw respondentów (np. marketing, nauki społeczne). Do porządkowych skal pomiaru postaw należą m.in. (por. [6, s ]):. Skala Likerta często stosowana pięciostopniowa skala pomiaru postaw typu: zdecydowanie nie, raczej nie, raczej tak, zdecydowanie tak, trudno powiedzieć.

42 .. Obserwacja statystyczna str. 4 Jest to przykład skali porządkowej zrównoważonej, tj. posiadającej jednakową liczbę ocen negatywnych ( zdecydowanie nie, raczej nie ) i pozytywnych ( raczej tak, zdecydowanie tak ), jak również opcję środkową (neutralną) typu trudno powiedzieć.. Skala porównań parami porównuje się tu parami obiekty na zasadzie każdy z każdym. Respondent wskazuje, który np. produkt bardziej preferuje nie określa jednak, o ile bardziej. Stosując tę skalę, po zliczeniu odpowiedzi i sprawdzeniu przechodniości relacji (jeżeli A < B i B < C, to z tego wynika, że A < C), można uszeregować obiekty w określonej kolejności (np. można wyciągnąć wniosek, iż najlepszym narzędziem dydaktycznym są animacje, gorszym elementy graficzne, zaś najmniej skutecznym hiperłącza). 3. Skala rang respondent może bezpośrednio uszeregować poszczególne elementy, przypisując im kolejno liczby od do n (rangi), gdzie n oznacza liczbę tych elementów. Na ogół przyjmuje się, iż obiektowi najlepszemu przypisuje się rangę o numerze. Podobnie jak w przypadku porównywania parami, rangi nie rozstrzygają, o ile dany element jest lepszy lub gorszy od pozostałych porównywanych. Można sprawdzić zgodność rang np. ze względu na płeć (zob. współczynnik korelacji rang Spearmana). Omówione powyżej trzy typy skal pomiaru postaw zilustrowano w przykładowej ankiecie adresowanej do Czytelników niniejszej publikacji (zob. rys..6). Skala przedziałowa (interwałowa, równomierna) określa różnicę pomiędzy stopniami skali z dokładnością do przyjętej jednostki miary. Skala ta zachowuje właściwości skal słabszych, tj. identyfikacje jednostek statystycznych (zob. skala nominalna) oraz relacje umożliwiające porządkowanie tych jednostek ze względu na wybraną cechę (zob. skala porządkowa).

43 .. Obserwacja statystyczna str. 43 Ponadto ten typ skali pomiarowej pozwala określić odległości między elementami, zaś zero jest tu przyjęte w sposób umowny (tzw. zero względne) [3, s. ]. Istotne jest to, iż punkt zerowy jest tu tylko umowny, a nie jak ma to miejsce w przypadku skali ilorazowej bezwzględny (absolutny). Przykładowo, temperatura mierzona na skali Celsjusza posiada taki umowny punkt zerowy przy zamarzaniu wody (zero stopni Celsjusza). Wysokość nad poziomem morza jest mierzona w oparciu o umowny punkt zerowy, jakim jest poziom morza (0 m n.p.m.). Zmiany temperatur wyrażonych w stopniach Celsjusza czy wysokości w metrach nad poziomem morza należy interpretować tylko w wielkościach absolutnych, a nie względnych. Oto praktyczny przykład: ze schroniska położonego na wysokości 700 m n.p.m. na szczyt góry A (800 m n.p.m.) prowadzi niebieski szlak, a na górę B (900 m n.p.m.) zielony. Teoretycznie góry te są prawie równe, ale przy przyjęciu za punkt zerowy położenie schroniska okaże się, iż wysokość względna góry A to 00 m (800 m n.p.m. 700 m n.p.m.), zaś góry B : 00 m (900 m n.p.m. 700 m n.p.m.). W rzeczywistości okazało się, że góra B jest aż dwa razy wyższa od góry A, nie zaś zaledwie o kilkanaście procent. Wracając do konstrukcji kwestionariusza: należy zaznaczyć, iż w badaniach marketingowych skale przedziałowe znajdują zastosowanie w przypadku pomiaru cech, które nie posiadają naturalnej jednostki miary. W tej sytuacji skale porządkowe traktuje się jako skale przedziałowe (zob. rys..7). Zakłada się tu, że różnice pomiędzy sąsiednimi klasami są takie same. Przejście ze skali słabszej, jaką jest skala porządkowa, na skalę mocniejszą przedziałową daje konkretne wartości liczbowe, na których można już wykonywać operacje dodawania i odejmowania [3, s. ]. W związku z tym można wyznaczyć więcej miar statystycznych (por. tabela.5). Do skal przedziałowych, powstałych wskutek przypisania wartości liczbowych skalom porządkowym, należą:

44 .. Obserwacja statystyczna str. 44. Skala rangowa stałych sum w przypadku tej skali respondent ma za zadanie rozdysponować 00 jednostek (procentowych, pieniężnych itp.) zgodnie ze swoim uznaniem na poszczególne elementy [6, s. 49]. Ważne jest, aby poszczególne punkty (kwoty) sumowały się do stu. Skala rangowa stałych sum jest zbliżona do skali, na której ankietowany określa w przedziale od zera do stu np. poziom satysfakcji jednostka miary i punkt zerowy są tu przyjęte w sposób umowny. Innym przykładem jest skala punktów uzyskanych na egzaminie (od zera do stu) i odpowiadająca im skala ocen od do 5 (por. [3, s. -]).. Skala dyferencjału semantycznego na dwóch przeciwstawnych biegunach tej skali umieszcza się antonimy, tj. wyrazy o przeciwstawnych znaczeniach (np. tani/drogi, standardowy/ekskluzywny, wysoki/niski itp.). Na siedmiopolowej skali respondent zaznacza swoją opinię. Kolejnym opcjom można przypisać wartości liczbowe od do 7 [6, s. 49]. Środkowe pole można traktować jako wartość przeciętną (np. przeciętna cena). 3. Skala Stapela skala ta powstaje poprzez zastąpienie antonimów w skali dyferencjału semantycznego poprzez wprowadzenie dodatnich i ujemnych symboli liczbowych, tak aby oprócz intensywności widoczny był również kierunek postaw. Respondent wyraża swoją pozytywną lub negatywną opinię w skali od 5 do +5 [6, s. 50]. Zamiast antonimów tani/drogi można tu wprowadzić czynnik cena. Zbyt wysoka cena znajdzie odzwierciedlenie w ocenach ujemnych, zaś przystępna w dodatnich. Skala ilorazowa to najmocniejszy typ skali pomiarowej. W przypadku tej skali znaczenie ma nie tylko odległość między dwoma obserwowanymi obiektami, określona jako różnica między nimi, ale także ilorazy tych odległości. Skalę tę można stosować w przypadku pomiaru cech ilościowych posiadających naturalny a nie umowny, jak ma to miejsce w skalach

45 .. Obserwacja statystyczna str. 45 przedziałowych punkt zerowy [, s. 37]. Oprócz naturalnego punktu zerowego tym, co odróżnia skalę ilorazową od przedziałowej jest naturalna a nie umowna jednostka miary. Przykładem cechy ilościowej skokowej, której pomiaru można dokonać z wykorzystaniem tej skali, jest ilość sprzedaży (szt.), cechy quasi-ciągłej wielkości wyrażone w jednostkach pieniężnych typu przychody, cechy zaś ciągłej wielkości wyrażone w jednostkach czasu (por. [6, s. 53]). Oto przykładowy formularz ankiety wykorzystujący omówione wyżej skale pomiarowe mającej na celu poznanie opinii Czytelników odnośnie tej publikacji: Rysunek.6. Przykład formularza ankiety dla Czytelników publikacji Statystyka po ludzku.

46 .. Obserwacja statystyczna str. 46 Źródło: Opracowanie własne. Powyższy formularz ma na celu zapoznanie się z opiniami Czytelników niniejszej publikacji. Formularz został tak opracowany, że może być wypełniony za pośrednictwem Internetu. Podsumowując: wybór skali pomiarowej związany jest z rodzajem danej cechy statystycznej cechy nominalne można mierzyć jedynie na skalach najsłabszych, tj. nominalnych. Natomiast cech quasi-ilościowych (porządkowych) nie można mierzyć na skali wyższej niż przedziałowa. Adekwatną skalą dla cech ilościowych, posiadających naturalną jednostkę miary typu:

47 str Obserwacja statystyczna metry, waluta, kg, czas mierzony liczbą lat itp., jest najsilniejsza skala ilorazowa. Co prawda możliwy jest tu pomiar na skalach słabszych (każda cecha mierzona na skali silniejszej może być bowiem mierzona za pomocą skali słabszej), ale wiąże się to z utratą informacji. Z uwagi na fakt, że kolejna skala pomiarowa posiada wszystkie właściwości skal od niej słabszych i dodatkowo nowe własności, nie jest możliwe przejście ze skali słabszej na skalę silniejszą po zebraniu danych (por. [3, s. ]). Poniższy schemat ukazuje zależność pomiędzy rodzajem cechy statystycznej a typem skali pomiaru danych: Rysunek.7. Typ skali pomiarowej a rodzaj cechy statystycznej. Źródło: Opracowanie własne. Zastosowane w badaniu statystycznym skale pomiarowe decydują o możliwościach analizy danych. W poniższej tabeli przedstawiono zestaw możliwych do obliczenia miar statystycznych w zależności od typu skali pomiarowej (zob. opis statystyczny): Tabela.5. Skale pomiarowe a przykłady możliwych do obliczenia miar statystycznych. RODZAJE MIAR Miary struktury RODZAJE SKAL POMIARU DANYCH nominalna wskaźnik struktury porządkowa wskaźnik struktury przedziałowa ilorazowa wskaźnik struktury wskaźnik struktury

48 str Obserwacja statystyczna dominanta Miary położenia Miary dyspersji Miary asymetrii Miary zależności dominanta, mediana, kwartyle dominanta, mediana, kwartyle, średnia arytmetyczna dominanta mediana, kwartyle, średnia arytmetyczna, średnia geometryczna rozstęp, odchylenie standardowe, odchylenie ćwiartkowe rozstęp, odchylenie standardowe, odchylenie ćwiartkowe, współczynniki zmienności współczynniki asymetrii (klasyczne i pozycyjne) współczynniki asymetrii (klasyczne i pozycyjne) współczynnik współczynniki współczynnik V-Cramera korelacji rang korelacji liniowej Pearsona współczynnik korelacji liniowej Pearsona Źródło: Opracowanie na podstawie [3, s. 5]. Jak widać, im silniejsza skala pomiarowa, tym więcej miar można obliczyć. Dlatego skalowanie pytań stanowi istotny element konstrukcji kwestionariusza ankiety lub wywiadu. Z opracowywaniem pytań kwestionariusza oprócz doboru ich treści, formy i skalowania związana jest jeszcze kwestia tworzenia tzw. reguł przejścia (por. [6, s. 57]). Np. ankieter przeprowadzający wywiad pytając respondenta, czy korzysta z dodatkowych zajęć ze statystyki (por. rys..5) w przypadku uzyskania negatywnej odpowiedzi przechodzi do kolejnego bloku tematycznego, pomijając tym samym pytania związane z dodatkowymi formami kształcenia. Zanim zostanie przeprowadzone badanie zasadnicze, należy wypróbować opracowane narzędzia, jakimi są kwestionariusze, przeprowadzając tzw. badanie próbne. Badanie próbne (pilotażowe) to na ogół badanie na małą skalę, przeprowadzane przed badaniem głównym w celu uzyskania informacji mogących poprawić jego efektywność (zob. [6, s. 6]).

49 .. Obserwacja statystyczna str. 49 Po opracowaniu ostatecznej wersji kwestionariusza ankiety lub wywiadu można przystąpić do gromadzenia danych zgodnie z przyjętą techniką.... Kontrola zebranych danych Zebrany materiał statystyczny bez względu na to, czy pochodzi on ze źródeł pierwotnych, czy wtórnych należy poddać kontroli. Oto typologia kontroli według wybranych autorów: Tabela.6. Typologia kontroli materiału statystycznego według wybranych autorów. Autorzy A. Bielecka A. Komosa, J. Musiałkiewicz T. Michalski M. Sobczyk Rodzaje kontroli. Kontrola o charakterze formalnym (ilościowym). Kontrola o charakterze merytorycznym (jakościowym). Kontrola formalna: kontrola kompletności materiału statystycznego, kontrola zupełności zapisu. Kontrola merytoryczna: kontrola zgodności rachunkowej, kontrola logicznej poprawności zapisów. Kontrola formalna: kontrola kompletności materiału statystycznego, kontrola zupełności zapisów, kontrola zgodności rachunkowej. Kontrola merytoryczna sprowadza się do kontroli logicznej poprawności zapisów. Kontrola formalna (ilościowa): sprawdzenie kompletności, pełności i zupełności danego materiału statystycznego. Kontrola merytoryczna: kontrola logiczna i arytmetyczna (kontrola zgodności rachunkowej) Źródło: Opracowanie własne na podstawie: [3, s. 38], [7, s ], [0, s ], [9, s. ]. Generalnie w literaturze przedmiotu wyróżnia się dwa główne rodzaje kontroli:. Kontrola formalna (ilościowa).. Kontrola merytoryczna (jakościowa). Do kontroli formalnej zalicza się kontrolę kompletności materiału statystycznego oraz kontrolę zupełności zapisów. Część autorów (np. T. Michal-

50 .. Obserwacja statystyczna str. 50 ski, [0, s. 37]) do tego rodzaju kontroli zalicza ponadto kontrolę zgodności rachunkowej. M. Sobczyk kontrolę tę określa mianem arytmetycznej i zalicza podobnie jak A. Komosa i J. Musiałkiewicz do kontroli merytorycznej (por. [7, s ], [9, s. ]). Wszyscy wymienieni autorzy (zob. tabela.6) są zgodni co do tego, że kontrolą merytoryczną jest kontrola logicznej poprawności zapisów. Poniżej omówiono poszczególne typy kontroli materiału statystycznego, tj.: kontrolę kompletności materiału statystycznego, kontrolę zupełności zapisów, kontrolę zgodności rachunkowej, kontrolę logicznej poprawności zapisów. Kontrola kompletności materiału statystycznego polega na porównaniu liczby jednostek objętych badaniem z liczbą np. uzyskanych formularzy ankiety (gromadzenie danych ze źródeł pierwotnych) czy też formularzy od jednostek sprawozdawczych (materiał wtórny). Kontrola ta pozwala ustalić, czy zebrano wszystkie formularze. Jeżeli mimo podjętych działań podmiot organizujący badanie statystyczne w dalszym ciągu nie otrzyma wypełnionych brakujących formularzy, to można oszacować wynik dla tych jednostek, które nie przekazały materiału statystycznego. Przy prezentacji wyników badania statystycznego należy zaznaczyć, dla jakich jednostek wynik został określony na podstawie szacunku statystycznego. Jeżeli okaże się, że informacje od jednostek, które nie przesłały formularzy statystycznych, w istotny sposób mogą zmienić wynik badania, to oszacowane dane mogą znacząco obniżyć jakość całego badania statystycznego [7, s. 36]. Przykładowo, niech celem badania statystycznego będzie określenie struktury wiekowej klientów operatorów telefonii komórkowej. Załóżmy, że w danym kraju działają czterej operatorzy z następującymi udziałami w rynku: Operator A 0 proc., B 5 proc., C 5 proc. oraz D 40 proc. Udostępnienia wymaganych badaniem statystycznych danych odmówił jedynie operator D z uwagi na znaczny udział w rynku błędne

51 .. Obserwacja statystyczna str. 5 oszacowanie struktury wiekowej klientów tego operatora może przekreślić sens całego badania statystycznego. Przykład ten pokazuje, iż stopień kompletności materiału statystycznego nie jest równoważny ze stopniem kompletności danych statystycznych (różne udziały w rynku operatorów). Niemniej jednak kontrola ta jest bardzo ważna z punktu widzenia rzetelności wyników badań ( por. [0, s. 38]). Kontrola zupełności zapisu polega na sprawdzeniu, czy udzielono odpowiedzi na wszystkie pytania w kwestionariuszu ankiety, wywiadu czy też innych materiałach statystycznych. Sprawdza się tu czy zostały wypełnione wszystkie pozycje. Pozostawienie pozycji niewypełnionej (np. brak zaznaczonej odpowiedzi na pytanie ankietowe) stwarza różne możliwości interpretacyjne [0, s. 39]. W celu dokonania kontroli zupełności zapisu należy przejrzeć każdy formularz statystyczny. W przypadku, gdy stwierdzono niezupełność zapisu, należy skontaktować się z osobą sporządzającą (wypełniającą) formularz w celu uzupełnienia brakujących informacji [7, s. 36]. Kontrola zgodności rachunkowej jest przeprowadzana wówczas, gdy informacje w formularzach statystycznych mają postać liczbową. Jeżeli w materiale statystycznym występują jakieś obliczenia (np. sumowanie), to kontrola zgodności rachunkowej polega głównie na sprawdzeniu poprawności obliczeń. Ponadto w ramach tej kontroli sprawdza się, czy wszystkie wartości zostały podane we właściwych jednostkach miary oraz czy dokonano odpowiednich zaokrągleń dzięki temu zapewniona zostanie porównywalność materiału statystycznego [7, s ]. Jeśli nie stwierdzono błędów rachunkowych, to można przypuszczać, iż sprawozdanie czy kwestionariusz wypełniono poprawnie. Niejednokrotnie w bieżącej kontroli zgodności rachunkowej oraz dla ułatwienia sporządzania sprawozdań podaje się w tytułach rubryk/wierszy formularza informacje mówiące, że dane w tej rubryce/wierszu stanowią np. sumę liczb zawartych w wymienionych rubrykach/wierszach [0, s. 39]. Przykładem takiego rozwiąza-

52 .. Obserwacja statystyczna str. 5 nia jest pytanie nr 4 zamieszczone w formularzu ankiety skierowanej do Czytelników niniejszej publikacji, gdzie podano informację, że przypisane treści teoretycznej i praktycznej punkty sumują się do 00 procent (zob. rys..6). Kontrola logicznej poprawności zapisów wymaga dokładnej znajomości badanego zagadnienia, stąd może być przeprowadzona przez specjalistów z danej dziedziny. Polega ona na sprawdzeniu zapisów formularza statystycznego z punktu widzenia ich logicznej poprawności. W wyniku tej kontroli można stwierdzić, czy w odpowiedziach nie ma błędów wynikających ze złego sformułowania pytań w formularzu lub wyjaśnień w instrukcji statystycznej oraz czy odpowiedzi są zgodne ze stanem faktycznym (wiarygodne) i z obowiązującymi przepisami prawa. Dokonując omawianej kontroli porównuje się często zgromadzony materiał statystyczny z innymi materiałami zawierającymi informacje na temat tego samego zjawiska zbyt duże rozbieżności wymagają wyjaśnienia. Ułatwieniem dla przeprowadzenia kontroli merytorycznej jest np. zamieszczanie w formularzu tzw. pytań filtrujących, polegających na wykryciu niezgodności w odpowiedziach [7, s. 37]. Przykładem takiego pytania jest pytanie nr 5 wobec pytania nr 3 w ankiecie internetowej (zob. rys..5)..3. Opracowanie i prezentacja materiału statystycznego.3.. Grupowanie i zliczanie danych Po sprawdzeniu jakości zebranego materiału statystycznego można przejść do czynności związanych z grupowaniem (porządkowaniem) danych. Grupowanie jest ciągiem czynności logicznych polegających na wyodrębnianiu jednorodnych lub względnie jednorodnych części z większej, zróżnicowanej całości [3, s. 39].

53 .3. Opracowanie i prezentacja materiału statystycznego str. 53 W zależności od liczby cech będących podstawą podziału badanej zbiorowości statystycznej wyróżnia się [0, s. 47]:. Grupowanie proste polega na podziale badanej zbiorowości ze względu na jedną cechę charakterystyczną (zob. cechy zmienne). Stosowanie grupowania prostego umożliwia przedstawienie tylko jednego aspektu badanego zjawiska.. Grupowanie złożone polega na tym, że w podziale badanej zbiorowości uwzględnia się kilka cech charakterystycznych, przy czym poszczególne części (grupy, klasy) wyodrębnione na podstawie jednej cechy dzielone są na dalsze części (podgrupy) ze względu na kolejne cechy charakterystyczne itd. Zastosowanie tego typu grupowania sprawia, iż w efekcie otrzymuje się części (grupy, klasy) mniej zróżnicowane jakościowo, przez co obraz badanych zjawisk jest głębszy i pełniejszy. Przykładem grupowania prostego jest podział badanej zbiorowości ze względu na płeć. Natomiast przykładem grupowania złożonego może być podział badanej zbiorowości ze względu na dwie cechy płeć i wykształcenie. W ten sposób można uzyskać strukturę wykształcenia populacji, w tym strukturę wykształcenia kobiet i mężczyzn. W wyniku uporządkowania lub grupowania prostego jednostek statystycznych otrzymuje się szereg statystyczny. Szereg statystyczny stanowi zbiór wyników obserwacji jednostek według pewnej cechy [9, s. 5]. Sposób przedstawienia danych za pomocą szeregu statystycznego zależy od takich czynników, jak (por. [, s. 4]): Rodzaj analizy (opis struktury zbiorowości/analiza dynamiki). Liczba obserwacji. Rodzaj cechy statystycznej. Liczba wariantów cechy statystycznej.

54 .3. Opracowanie i prezentacja materiału statystycznego str. 54 Schemat porządkowania/grupowania zebranego materiału statystycznego w szeregi statystyczne z uwzględnieniem powyższych czynników zilustrowano na rys..8: Rysunek.8. Schemat wyboru odpowiedniego szeregu statystycznego. Źródło: Opracowanie własne na podstawie: [3, s. 46], [, s. 5]. Według kryterium merytorycznego, związanego ze sposobem analizy danych, wyróżnić można dwie grupy szeregów statystycznych [, s. 47]:. Szeregi przestrzenne ukazują strukturę zbiorowości statystycznej (zob. opis struktury zbiorowości) w jednym okresie lub w jednym momencie (zob. rys..).. Szeregi czasowe ukazują zmiany w czasie wybranego zjawiska (zob. analiza dynamiki). Oto kilka przykładów rozróżniających dane czasowe od danych strukturalnych:

55 .3. Opracowanie i prezentacja materiału statystycznego str. 55 Przykład. Przedstawione na rys..3 umowne dane dotyczące funduszy inwestycyjnych można analizować pod kątem struktury. I tak można wyznaczyć strukturę funduszy ze względu na klasę ryzyka czy też przedstawić rozkład rocznych stóp zwrotu. Dysponując analogicznymi danymi z kilku lat (np. z roku 003, 004 i 005) można np. przedstawić zmiany w czasie rocznych stóp zwrotu. Przykład. Jednostką statystyczną jest dana sesja giełdowa zbiorowość statystyczną stanowi 50 ostatnich sesji giełdowych. Cechami statystycznymi tak określonej jednostki są m.in.: nazwa spółki, cena zamknięcia (zł), dzienna zmiana kursu (proc.). W zależności od przyjętego kryterium merytorycznego i wyboru cechy statystycznej inwestor może dokonać opisu struktury (np. opis struktury dziennych stóp zwrotu dla 50 dostępnych danych), jak również przeprowadzić analizę szeregu czasowego (np. analizę zmian kursu akcji (cena zamknięcia) wybranej spółki w ciągu 0 ostatnich sesji. Przykład 3. Dysponując danymi odnośnie ocen ze statystyki pewnej grupy studentów z pięciu testów sprawdzających wiedzę z poszczególnych działów można dokonać analizy pod kątem postępów w nauce (analiza liczby punktów z poszczególnych testów w danym roku akademickim), jak również pod kątem zróżnicowania wyników (np. analiza struktury otrzymanych przez poszczególnych studentów punktów na ostatnim teście). W przypadku analizy szeregów czasowych liczbę obserwacji stanowi ilość przeprowadzonych testów, zaś w przypadku analizy struktury liczba studentów, którzy wzięli udział w ostatnim teście. Dane przeznaczone do opisu struktury zbiorowości statystycznej w zależności od liczby obserwacji można przedstawić w postaci szeregu szczegółowego lub też pogrupować w szereg rozdzielczy (zob. rys..8). W przypadku gdy liczba obserwacji jest niewielka, materiał statystyczny można przedstawić w postaci szeregu szczegółowego (zob. [, s. 4]).

56 .3. Opracowanie i prezentacja materiału statystycznego str. 56 Szereg szczegółowy prezentuje materiał statystyczny uporządkowany według wartości badanej cechy w kolejności rosnącej lub malejącej [9, s. 3-4]. Jeśli natomiast liczba obserwacji jest duża, to zastosowanie znajduje grupowanie zebranych danych w szereg rozdzielczy. Szereg rozdzielczy stanowi zbiorowość statystyczną, podzieloną na części (klasy) według określonej cechy jakościowej lub ilościowej, z podaniem liczebności lub częstości każdej z wyodrębnionych klas [, s. 5]. Problemem może okazać się określenie niewielkiej liczby obserwacji. W przypadku egzaminu ze statystyki na problem ten należy patrzeć pod kątem praktycznym, tj. wykonywanych obliczeń arytmetycznych. Przykładowo, obliczenie odchylenia standardowego dla kilku obserwacji nie nastręcza trudności i nie jest czasochłonne. Jednak wykonanie tego samego obliczenia np. dla 5 niepogrupowanych w szereg rozdzielczy obserwacji może okazać się bardziej czasochłonne, aniżeli ich pogrupowanie w szereg z czterema przedziałami klasowymi (zob. szereg rozdzielczy z przedziałami klasowymi), a następnie obliczenie tej miary z wykorzystaniem odpowiedniego wzoru dla danych pogrupowanych. Ponadto należy pamiętać, iż pogrupowanie danych niekiedy wymusza treść zadania. Nie ulega wątpliwości, iż 5-30 lub więcej obserwacji należy pogrupować w odpowiedni szereg rozdzielczy. Jako dolną umowną granicę można przyjąć 8-0 obserwacji. Ze statystycznego punktu widzenia pogrupowanie materiału statystycznego pozwala na jego prezentację graficzną, ukazującą tzw. rozkład empiryczny badanej cechy (zob. prezentacja materiału statystycznego). Kolejnym czynnikiem wpływającym na wybór szeregu statystycznego jest rodzaj cechy statystycznej (zob. cecha zmienna). Istotny jest tu podział na cechy jakościowe i ilościowe, jak również liczba przyjmowanych przez da-

57 .3. Opracowanie i prezentacja materiału statystycznego str. 57 ną cechę wariantów. Z uwagi na rodzaj cechy, według której grupowane są zebrane dane, statystyczne wyróżnia się [3, s. 39]:. Grupowanie typologiczne dotyczy cech jakościowych lub ilościowych mierzonych na skalach słabszych (zob. skala nominalna i skala porządkowa). Jednostki statystyczne grupowane są z punktu widzenia wyróżnionego wariantu cechy.. Grupowanie wariancyjne dotyczy cech mierzonych na skalach mocnych, tj. skali przedziałowej i skali ilorazowej. Chodzi tu głównie o cechy ilościowe, których warianty różnią się pod względem liczb, a nie opisów słownych. Jednostki statystyczne można tu zliczyć według powtarzających się wariantów, jak również zaliczyć do określonych przedziałów wartości. Punktem wyjścia przy grupowaniu danych w szereg rozdzielczy jest sporządzenie tzw. wykazu klasyfikacyjnego. Pod pojęciem tym należy rozumieć uporządkowany wykaz wariantów cech [7, s 43]. Wykaz klasyfikacyjny powinien odznaczać się następującymi cechami [0, s. 50]: wyczerpujący żaden wariant cechy nie może znaleźć się poza konstruowanym wykazem, grupowanie rozłączne każdą jednostkę statystyczną można zaszeregować wyłącznie do jednej z grup klasyfikacyjnych. Jeśli chodzi o cechy jakościowe, to według kryterium ilości możliwych wariantów ich grupowanie można podzielić na (por. [, s. 45]):. Dychotomiczne polega na podziale zbiorowości na dwie różne jakościowo klasy (podgrupy).. Politomiczne polega na podziale zbiorowości na więcej niż dwie rozłączne klasy (podgrupy).

58 .3. Opracowanie i prezentacja materiału statystycznego str. 58 Przykładem grupowania dychotomicznego jest podział badanej zbiorowości ze względu na płeć czy też osoby korzystające lub niekorzystające z dodatkowych form kształcenia w zakresie przedmiotu statystyka. Natomiast przykładem grupowania politomicznego jest klasyfikacja funduszy inwestycyjnych według następujących klas ryzyka: Fundusze Rynku Pieniężnego, Fundusze Obligacji, Fundusze Stabilnego Wzrostu, Fundusze Zrównoważone i Fundusze Akcji. Ponadto do tej grupy szeregów rozdzielczych należy zaliczyć szeregi geograficzne (terytorialne). Szeregi te ukazują rozmieszczenie pewnych zjawisk w przestrzeni, np. liczba szkół ponadgimnazjalnych w przekroju poszczególnych województw (por. [, s. 5]). Strukturę badanej zbiorowości pod kątem określonej ilościowej cechy statystycznej odzwierciedla tzw. rozkład empiryczny, czyli zestawienie wyników w postaci szeregu rozdzielczego z cechą mierzalną [, s. 5]. To, w jaki sposób należy grupować dane o charakterze ilościowym, zależy od liczby przyjmowanych przez daną cechę wariantów. I tak: w przypadku cechy ilościowej ze zmiennością skokową (zob. cecha skokowa) o niewielkiej liczbie wariantów sporządzenie wspomnianego wykazu klasyfikacyjnego sprowadza się do wyszczególnienia tych wariantów [7, s. 43]. W tej sytuacji dane należy pogrupować w szereg rozdzielczy punktowy. Natomiast gdy liczba wariantów cechy jest duża, to wówczas należy zbudować szereg rozdzielczy z przedziałami klasowymi (por. [, s. 5]). Z definicji są to cechy ciągłe, w tym cechy quasi-ciągłe. Poniżej dokładniej omówiono budowę szeregów rozdzielczych z przedziałami klasowymi. Konstrukcja szeregu rozdzielczego z przedziałami klasowymi wymaga na wstępie określenia ilości przedziałów klasowych. Przedział klasowy to pewien przedział liczbowy, w którym mniejsza z liczb określona jest mianem dolnej granicy przedziału, zaś większa górnej granicy. Należy podkreślić, iż przy konstrukcji przedziałów klasowych sposób zapisu ich dolnej i górnej granicy powinien jednoznacznie wskazywać, do którego prze-

59 str Opracowanie i prezentacja materiału statystycznego działu zaliczyć konkretną obserwację. Jednoznaczność w zaliczaniu poszczególnych obserwacji do właściwych przedziałów klasowych można uzyskać poprzez zapis wariantów cechy z zastosowaniem znaku lewostronnego ([ lub <) bądź prawostronnego (] lub >) domknięcia przedziału. Innym rozwiązaniem jest zapisanie granic przedziałów w ten sposób, że dolna granica przedziału następnego jest o określoną jednostkę większa od górnej granicy przedziału poprzedniego (por. [7, s ]). Oto przykłady: Przykład. Znowelizowana Ustawa o swobodzie działalności gospodarczej zmieniła m.in. definicję małego i średniego przedsiębiorcy, a ponadto wprowadziła zupełnie nową definicję mikroprzedsiębiorcy. Jednym z kryteriów grupowania przedsiębiorstw jest liczba zatrudnionych pracowników. Zgodnie z tym kryterium mały przedsiębiorca to taki, który w co najmniej jednym z dwóch ostatnich lat obrotowych zatrudniał średniorocznie mniej niż 50 pracowników ( ). Za średniego przedsiębiorcę uważa się takiego, który w co najmniej jednym z dwóch ostatnich lat obrotowych zatrudniał średniorocznie mniej niż 50 pracowników ( ). Natomiast jako mikroprzedsiębiorca określany jest przedsiębiorca, w przypadku którego poziom zatrudnienia, o którym mowa powyżej, wyniósł średniorocznie mniej niż 0 pracowników ( ) [PAIiIZ, Wykaz klasyfikacyjny ze względu na liczbę pracowników przedstawia się następująco: Przedsiębiorstwo Mikroprzedsiębiorstwo Małe Średnie Duże Sposób I poniżej 0 osób [0-50) [50-50) 50 i więcej Sposób II poniżej 0 osób i więcej Przykład. Oto przykład ukazujący grupowanie klientów wybranego sklepu według wartości rachunków płaconych przy kasie: Sposób I do 0 zł (0-50] (50-00] ponad 00 zł Sposób II do 0 zł 0, , ,0 i więcej

60 .3. Opracowanie i prezentacja materiału statystycznego str. 60 Powyższe przykłady ukazują dwa sposoby określania przedziałów klasowych. W przypadku ustalenia wariantów klasyfikacyjnych drugim sposobem istotne jest właściwe ustalenie stopnia dokładności jednostki. Jeśli cecha według której grupowane są obserwacje statystyczne jest cechą skokową przyjmującą wartości z przedziału liczb naturalnych tak jak ma to miejsce w pierwszym przykładzie jako jednostkę można przyjąć liczbę całkowitą. W przypadku cech ciągłych konieczne jest dostosowanie jednostki do stopnia dokładności, z jaką zebrany został materiał statystyczny. Jeżeli np. dane mają charakter cechy quasi-ciągłej (waluta), to jednostkę należy ustalić z dokładnością do 0,0 (zob. przykład ). Przyjęcie jednostki ze zbyt małą dokładnością (np. 0,) spowodowałoby, że niektóre rachunki nie zostałyby zaliczone do żadnej z wyznaczonych klas przeczyłoby to bowiem zasadzie głoszącej, iż wykaz klasyfikacyjny powinien być wyczerpujący. Ponadto ważne jest to, czy przedziały są domykane lewostronnie (przykład ), czy prawostronnie (przykład ). Wybór sposobu domknięcia przedziałów klasowych ma znaczenie przy zliczaniu danych (np. z wykorzystaniem funkcji częstość w programie Microsoft Excel). W tym miejscu należy rozróżnić terminy grupowanie i klasyfikacja. Klasyfikacja to jednolity system grupowania. Klasyfikacja znajduje zastosowanie w badaniach ciągłych i okresowych, gdzie istotną rolę odgrywa kwestia porównywalności danych. Natomiast w badaniach doraźnych na ogół ma miejsce grupowanie materiału statystycznego, przeprowadzane w odmienny sposób w każdym badaniu statystycznym zależy to od celu tego badania [9, s. ]. Przykładem klasyfikacji jest przedstawiony wyżej wykaz klasyfikacyjny przedsiębiorstw według kryterium liczby zatrudnionych. Generalnie przyjmuje się, iż sektor małych i średnich przedsiębiorstw (MSP) stanowią przedsiębiorstwa zatrudniające nie więcej niż 50 pracowników. Niemniej jednak badanie własne mające na celu ukazanie dokładniejszej struktury firm z sektora MSP może zakładać bardziej szczegółową klasyfikację. W tym przypadku można mówić o grupowaniu danych.

61 .3. Opracowanie i prezentacja materiału statystycznego str. 6 Poniżej przedstawiono czynności związane z grupowaniem materiału statystycznego w szereg rozdzielczy z przedziałami klasowymi. Należą do nich:. Określenie liczby przedziałów klasowych.. Wyznaczenie długości przedziału klasowego. 3. Określenie wykazu klasyfikacyjnego. Pierwszą kwestią jest określenie liczby przedziałów klasowych. Najprostszym sposobem jest określenie liczby przedziałów klasowych jako pierwiastka kwadratowego z liczby obserwacji (zaokrąglenie do liczby całkowitej): Niemniej jednak w literaturze przedmiotu można spotkać się z innymi bardziej złożonymi sposobami wyznaczania liczby klas (zob. [9, s. 5]): W niektórych wzorach liczbę obserwacji oznacza się dużą literą N, w innych zaś małą literą n. Aby jasno rozróżnić te oznaczenia można przyjąć, iż dużą literą N oznaczana jest liczebność całej zbiorowości statystycznej, zaś małą literą n liczebność zbiorowości próbnej, czyli próby. W niniejszym opracowaniu wzory są podawane głównie dla liczebności próbnej, stąd oznaczanie liczebności małą literą n (z powodzeniem mogą też być one stosowane w badaniu pełnym). Odwołania do niektórych wzorów pojawią się w ostatnim rozdziale, jakim jest wnioskowanie statystyczne (przy estymacji przedziałowej i weryfikacji hipotez statystycznych). Zastosowanie we wzorze małej litery sugeruje, iż w tym przypadku chodzi o liczebność próby losowej (a nie o liczebność całej N-elementowej populacji).

62 .3. Opracowanie i prezentacja materiału statystycznego str. 6 Po ustaleniu liczby przedziałów klasowych należy określić rozpiętość (długość, interwał) przedziału klasowego. W przypadku równych przedziałów klasowych ich długość wyznacza się według wzoru: Rozstęp wyznacza się następująco (zob. także miary dyspersji): Ważne jest, aby nigdy nie zaokrąglać otrzymanej długości przedziału klasowego w dół możliwe jest jedynie pewne zaokrąglenie w górę (im większe, tym mniejsza dokładność wyników analizy). W warunkach egzaminu ze statystyki dobrym rozwiązaniem jest wyznaczenie przedziałów klasowych, których granice są liczbami całkowitymi (najlepiej parzystymi). Ułatwi to późniejszą analizę danych (np. obliczanie miar klasycznych). Mając już ustaloną rozpiętość przedziału klasowego oraz liczbę klas, można przejść do określenia wykazu klasyfikacyjnego, poczynając od wartości minimalnej. Jeżeli rozpiętość przedziału klasowego została zaokrąglona w górę, to jest możliwe wyznaczenie dolnej granicy pierwszego przedziału klasowego od mniejszej wartości aniżeli wartość minimalna (najlepiej dla celów analitycznych przyjąć tu liczbę całkowitą). Wyznaczanie przedziałów klasowych w celu grupowania danych zilustrowano na przykładzie firm z sektora MSP. Oto dane umowne z badania ankietowego dotyczące liczby pracowników wybranych 5 firm (dane w postaci szeregu szczegółowego):,, 3, 4, 7,, 4, 7,, 3, 4, 57, 0, 7, 95

63 .3. Opracowanie i prezentacja materiału statystycznego str. 63 Krok : Ustalenie liczby przedziałów klasowych. Ponieważ liczba obserwacji wynosi n = 5, to stosując najprostszy wzór (pierwiastek z liczby obserwacji) należy wyznaczyć k = 4 przedziały klasowe. Krok : Określenie długości przedziału klasowego. W tym celu należy wyznaczyć rozstęp, czyli różnicę pomiędzy wartością maksymalną a wartością minimalną. Rozstęp wynosi: 95 = 94. Następnie otrzymany wynik należy podzielić przez liczbę przedziałów klasowych, czyli 4. Po podzieleniu otrzymanego rozstępu przez liczbę przedziałów klasowych okazuje się, że długość przedziału klasowego wynosi h = 48,5. Jak widać, nie jest to najlepsza liczba do obliczeń na egzaminie. Zdecydowanie korzystniejszym rozwiązaniem jest tu przyjęcie długości przedziału klasowego h = 50. Wówczas nowy rozstęp wyniesie h k = 50 4 = 00 (nie zaś 94). Nowy przedział jest większy o 6 od rozstępu wyznaczonego na wstępie. Krok 3. Opracowanie wykazu klasyfikacyjnego. Jak już stwierdzono, dolna granica pierwszego przedziału klasowego może być mniejsza od wartości minimalnej w tym przypadku nie może to być wartość większa od zapasu wynoszącego 6. Trafnym rozwiązaniem jest przyjęcie tej granicy na poziomie zera. Należy zwiększać kolejno granice przedziałów klasowych o przyjętą ich długość, czyli o 50. Oto wyznaczony wykaz klasyfikacyjny (przedziały domknięte lewostronnie zilustrowane za pomocą dwóch omówionych wcześniej sposobów): Sposób I * [0 50) [50 00) [00 50) [50 00) * Sposób II W praktyce można pominąć symbole domykania przedziałów. Jeszcze jedna uwaga praktyczna: przy określaniu przedziałów klasowych typu mniej niż / więcej niż, poniżej / powyżej itp. należy pamiętać, iż bez znajomości wartości minimalnej/maksymalnej nie jest m.in. możliwe

64 .3. Opracowanie i prezentacja materiału statystycznego str. 64 obliczenie wartości przeciętnej (średniej arytmetycznej). Taka sytuacja miałaby miejsce w przypadku prezentowanej przy okazji omawiania drugiego etapu badań statystycznych ankiety internetowej. Chodzi tu o pytanie nr 6 (zob. rys..5). Respondent zaznaczając opcję powyżej 0 może mieć na myśli zarówno, jak i np. 50 godzin tygodniowo. Gdyby zamiast zaznaczenia jednej z możliwych opcji ankietowany miał podać konkretną liczbę godzin uczenia się statystyki tygodniowo, to wówczas można by przeprowadzić grupowanie analogiczne do grupowania z przykładu dotyczącego przedsiębiorstw z sektora MSP. Do tej pory przedstawiono sposób grupowania danych ze względu na jedną cechę. W przypadku gdy grupowania danych dokonuje się równocześnie w oparciu o więcej niż jedną cechę statystyczną, to można tu mówić o grupowaniu złożonym. Należy pamiętać, iż przy dokonywaniu grupowania złożonego nie powinno się jednocześnie uwzględniać zbyt wielu cech, ponieważ staje się ono wówczas nieczytelne, co z kolei utrudnia analizę [7, s. 47]. W praktyce dane najczęściej grupuje się jednocześnie ze względu na dwie cechy, przy czym mogą być to obie cechy jakościowe, obie ilościowe, jak również jedna ilościowa, a druga jakościowa. O ile jedną cechę można przedstawić w postaci szeregu statystycznego (szczegółowego, czasowego lub rozdzielczego), o tyle dwie cechy można pogrupować w tzw. tablicę korelacyjną (dwudzielną). Tablica korelacyjna jest to tablica konstruowana w ten sposób, iż w poszczególnych wierszach występują warianty jednej cechy (np. cechy X), a w kolumnach odmiany drugiej (np. cechy Y) [5, s. 3-33]. Grupowanie danych ze względu na dwie cechy jednocześnie w tablicę korelacyjną znajduje zastosowanie w analizie współzależności. Czynnością ściśle związaną z grupowaniem danych jest ich zliczanie. Zliczanie materiału statystycznego polega na ustaleniu liczebności poszczególnych grup (klas). W rezultacie można stwierdzić, ile jednostek statystycznych przypada na poszczególne warianty cechy czy też wyznaczone

65 str Opracowanie i prezentacja materiału statystycznego przedziały klasowe. Istnieje szereg sposobów zliczania materiału statystycznego, a mianowicie (por. [7, s ]):. Zliczanie bezpośrednie (ręczne) polega na zliczaniu i zanotowaniu liczby jednostek statystycznych (obserwacji) posiadających określony wariant cechy. Znajduje zastosowanie w sytuacji, gdy liczba obserwacji jest niewielka, a ich podział na grupy jest prosty.. Zliczanie sposobem kreskowym polega na tym, że w specjalnie skonstruowanej tablicy roboczej pionowymi kreskami zaznacza się wystąpienie określonego wariantu cechy. W literaturze statystycznej proponuje się, aby piąta kreska była przekreśleniem czterech pozostałych, tj. stanowiła kreskę poziomą (istnieje jednak ryzyko, iż kreska ta nie zostanie w zliczaniu danych potraktowana jako obserwacja, tylko jako zwykłe przekreślenie czterech zliczonych obserwacji). Dobrym rozwiązaniem jest stawianie kresek tak, aby tworzyły one pewne grupy, co ułatwi późniejsze zliczanie danych. Warto dodać, iż sposób zliczania danych metodą kreskową doskonale nadaje się do grupowania danych na egzaminie, gdzie nie ma dostępu do komputera. Poniżej zamieszczono przykład grupowania danych metodą kreskową w tablicę korelacyjną. Oto dane umowne dla 4 osób, dotyczące dychotomicznych cech jakościowych płeć oraz cechy korepetycje, określającej. czy dana osoba korzysta z korepetycji: Lp płeć korepetycje K T K T K K K M M M K N N N T N N T 0 M N K N K T 3 M T Oto dane pogrupowane metodą kreskową: 4 M N

66 .3. Opracowanie i prezentacja materiału statystycznego str Zliczanie sposobem kartkowym polega na posegregowaniu materiału statystycznego w postaci wypełnionych formularzy na tzw. stosy o jednakowych wariantach cechy. Wskutek zliczenia tych formularzy oddzielnie dla każdego stosu określa się liczebność danej grupy (klasy). Sposób ten może być stosowany w przypadku zliczania danych ankietowych ze względu na wybraną cechę (np. płeć, osoby korzystające lub niekorzystające z dodatkowych form nauczania). 4. Zliczanie sposobem maszynowym w tym przypadku należy wykonać symbolizację (kodowanie) zebranych danych, polegającą na tym, że poszczególnym wariantom cechy statystycznej przypisywane są konkretne symbole słowne bądź liczbowe. Następnie zakodowane informacje wprowadzone są do komputera i analizowane za pomocą wybranego programu, np. MS Excel. Ten sposób zliczania materiału statystycznego znajduje zastosowanie w praktycznej analizie danych, gdzie występuje znaczna liczba obserwacji. Poniżej omówiono dokładniej wybrane narzędzie komputerowej analizy danych, jakim jest arkusz kalkulacyjny Excela. W przypadku grupowania prostego w szereg rozdzielczy z przedziałami klasowymi zastosowanie znajduje funkcja częstość. Generalnie przedziały należy tu traktować jako lewostronnie domknięte (pierwszy przedział klasowy zlicza dane mniejsze bądź równe podanej wartości). Dlatego jest tu istotne przyjęcie jednostki z odpowiednią dokładnością (np. 9 oznacza, że w pierwszej klasie znajdą się firmy zatrudniające poniżej 0 osób, a 9,99 ceny poniżej 0 zł). Następnie należy podawać kolejne wartości (np. 49, 49). Listę zamyka górna

67 .3. Opracowanie i prezentacja materiału statystycznego str. 67 granica przedostatniego przedziału do ostatniego przedziału zakwalifikowane zostaną liczby powyżej wskazanej (np. większe od 49,99 ceny 50 zł i więcej). Zastosowanie tej funkcji ilustruje prezentacja PowerPoint pt. Excel_grupowanie_danych. Kolejnym narzędziem Excela posiadającym znacznie szersze możliwości jest Raport tabeli przestawnej. Narzędzie to pozwala w prosty sposób pogrupować dane jakościowe, jak również dane ilościowe o niewielkiej liczbie powtarzających się wariantów, tj. grupowanych w szereg rozdzielczy punktowy. Ogromną zaletą tego narzędzia jest możliwość grupowania danych w tablice korelacyjne. Tego rodzaju grupowaniu złożonemu (ze względu na dwie cechy) poddawane są zwykle dane ankietowe (zebrany materiał pierwotny). Przed pogrupowaniem tych danych za pomocą Raportu tabeli przestawnej objęte badaniem cechy statystyczne należy przedstawić w kolumnach. Innymi słowy, każdy wiersz to jedna jednostka statystyczna (por. rys..3). Tabela przestawna tworzy zestawienia wyników w oparciu o poddane analizie kolumny, tj. cechy statystyczne. W szczególności może istnieć jedna kolumna zawierająca np. nazwy wariantów cechy jakościowej ma tu więc miejsce grupowanie danych w szereg rozdzielczy dychotomiczny lub politomiczny. Konieczne jest wprowadzenie dodatkowej kolumny, zawierającej liczebności. Jeżeli chodzi o grupowanie danych w tablicę korelacyjną, to w układzie tabeli przestawnej w wierszu można przyjąć zestaw wariantów pierwszej cechy, zaś w kolumnie zestaw wariantów drugiej. Natomiast w komórce na ich przecięciu należy umieścić dodatkową zmienną ukazującą liczebności elementów posiadających obie cechy (por. [8, s. 3]). Oto fragment arkusza kalkulacyjnego, sporządzony w oparciu o przykładową ankietę internetową (por. rys..5): Rysunek.9. Arkusz do grupowania danych zebranych za pomocą ankiety internetowej.

68 .3. Opracowanie i prezentacja materiału statystycznego str. 68 Źródło: Dane umowne. Techniczny sposób wykorzystania narzędzia Raport tabeli przestawnej ukazuje prezentacja o nazwie Excel_grupowanie_danych. Ponadto do niniejszego opracowania dołączono przykłady grupowania danych z wykorzystaniem tego narzędzia (zob. Trening i ewaluacja). W części teoretycznej należy zwrócić uwagę na sposób kodowania zebranego pierwotnego materiału statystycznego. Pytania ankietowe z kafeterią koniunktywną (np. w przypadku pytania nr respondent miał wskazać na trzy praktyczne zastosowania statystyki) wymagały rozpisania, podobnie jak złożone pytanie nr 6 (sesja/poza sesją). W przypadku cech dychotomicznych (dwuwariantowych), gdzie możliwy jest tylko wybór jednej opcji, można zastosować nazwy charakterystyczne dla danej cechy (np. TAK/NIE). W przypadku pytań z kafeterią dysjunktywną (możliwy wybór tylko jednej opcji) nie ma potrzeby rozpisania w oddzielnych kolumnach poszczególnych wariantów. Istotne jest określenie pewnego klucza, według którego kodowane są poszczególne opcje odpowiedzi. I tak np. w pytaniu nr 6 przyjęto następujący sposób kodowania: do godzin:, -4 godziny:, 5-0 godzin: 3,

69 .3. Opracowanie i prezentacja materiału statystycznego str. 69 ponad 0 godzin: 4. Ponadto należy zaznaczyć, iż nie wolno przy nazwach kolumn (cech/wariantów cech) stosować spacji. Zmienna ID, oznaczająca numer formularza ankiety, ma tu podwójne znaczenie jest ona też wykorzystywana do zliczania danych, tj. pełni rolę tzw. Licznika..3.. Prezentacja materiału statystycznego Generalnie stosuje się trzy podstawowe metody prezentacji materiału statystycznego, a mianowicie [0, s. 6]:. Tablice statystyczne przedstawienie danych w formie tabelarycznej.. Wykresy statystyczne prezentacja danych w formie graficznej. 3. Włączenie danych do tekstu forma opisowa. Forma tabelaryczna znajduje zastosowanie w prezentacji danych statystycznych uporządkowanych według jednego (zob. grupowanie proste) lub kilku kryteriów (zob. grupowanie złożone), gdzie opis słowny okazałby się zbyt obszerny [7, s. 5]. W zależności od tego, ile kryteriów (cech) jest branych pod uwagę, pogrupowany materiał statystyczny można przedstawić w postaci [3, s. 48]: tablicy prostej zawiera informacje dotyczące jednej cechy, przedstawione za pomocą jednego szeregu statystycznego, tablicy złożonej zawarte w niej informacje dotyczą więcej niż jednej cechy danej zbiorowości lub jednej cechy w wielu zbiorowościach; składa się ona z minimum dwóch szeregów statystycznych (por. tablica korelacyjna).

70 .3. Opracowanie i prezentacja materiału statystycznego str. 70 Tablice proste można przedstawić w układzie (por. [3, s. 46]): pionowym (wertykalnym) tablica przedstawiająca dany szereg statystyczny z reguły składa się z dwóch kolumn, przy czym w pierwszej kolumnie zawarty jest wykaz klasyfikacyjny, a w drugiej natężenie danego zjawiska (liczba obserwacji posiadających określony wariant cechy), poziomym (horyzontalnym) tablica składa się z dwóch wierszy, gdzie pierwszy z nich pełni rolę nagłówka tabeli, a drugi zawiera informacje odnośnie badanej cechy. W niniejszej publikacji ukazujące szeregi statystyczne tablice będą najczęściej występowały w układzie pionowym. Zasada ta będzie ściśle przestrzegana w przypadku szeregów rozdzielczych. W tablicy prostej, ukazującej szereg rozdzielczy, w pierwszej kolumnie przedstawiony jest w sposób uporządkowany wykaz klasyfikacyjny, w drugiej zaś liczebności (częstości) odpowiadające poszczególnym wariantom lub klasom danej cechy statystycznej [7, s. 53]. Jak już wspomniano przy okazji omawiania grupowania i zliczania danych, szeregi rozdzielcze można różnicować ze względu na rodzaj cechy statystycznej (zob. rys..8). W przypadku cech statystycznych jakościowych można mówić o dychotomicznych i politomicznych (wielodzielnych) szeregach statystycznych. Jeśli chodzi o szereg dychotomiczny, to lepszą od tabelarycznej może okazać się metoda graficzna (zob. wykresy kołowe), dlatego poniżej zamieszczono przykłady tablicy prostej, ukazującej dane jakościowe pogrupowane w szereg rozdzielczy wielodzielny: Przykład. Oto przykład tablicy prostej, ukazującej liczbę wskazań praktycznych zastosowań statystyki (pytanie nr ankiety internetowej por. dane na rys..9):

71 str Opracowanie i prezentacja materiału statystycznego Tabela.7. Struktura odpowiedzi na pytanie dotyczące praktycznych zastosowań statystyki. Sposoby praktycznych zastosowań Giełda, finanse Analiza danych w przedsiębiorstwie Analiza rynku Inne Σ Liczba wskazań Źródło: Dane umowne. Z przedstawionych danych wynika, że najwięcej respondentów wskazało na drugi wariant odpowiedzi. Należy zaznaczyć, iż w przypadku pytań z kafeterią koniunktywną liczba wskazań nie sumuje się do liczby obserwacji (5 ankiet). Pytanie to wymagało bowiem wskazania dokładnie trzech praktycznych zastosowań statystyki, stąd liczba wszystkich wskazań wyniosła 3 n, gdzie n oznacza liczbę respondentów (wypełnionych formularzy). Przykład. Poniżej zamieszczono przykład tablicy prostej, ukazującej strukturę odpowiedzi na pytanie nr 4 ankiety internetowej (por. dane na rys..9): Tabela.8. Struktura odpowiedzi na sprawiających najwięcej trudności. pytanie Działy statystyki Wnioskowanie statystyczne Analiza szeregów czasowych Analiza regresji Analiza struktury Σ dotyczące działów statystyki Liczba odpowiedzi Źródło: Dane umowne. W tym przypadku liczba odpowiedzi sumuje się do liczby wypełnionych formularzy ankiet pytanie nr 4 było bowiem pytaniem z kafeterią dysjunktywną, gdzie możliwy był wybór wyłącznie jednej opcji (zob. rys..5).

72 .3. Opracowanie i prezentacja materiału statystycznego str. 7 W takiej sytuacji uzasadnione jest przedstawienie struktury odpowiedzi na wykresie kołowym. Do szeregów rozdzielczych z cechą jakościową należy zaliczyć jak wyżej wspomniano szeregi geograficzne (zob. [0, s. 67], [, s. 5]). Tablica prosta, przedstawiająca szereg geograficzny zbudowana jest w ujęciu wertykalnym z dwóch kolumn. W pierwszej z nich wymienione są jednostki podziału terytorialnego. W zależności od stopnia szczegółowości badania statystycznego mogą to być kontynenty, państwa, województwa, powiaty itd. Wyodrębnić można też regiony geograficzne z punktu widzenia powiązań gospodarczych (np. państwa Unii Europejskiej) czy też krainy geograficzne (np. nazwy szczytów górskich). W drugiej kolumnie szeregu geograficznego zawarte są informacje odnośnie wielkości badanego zjawiska (np. dynamika PKB, wysokość szczytów górskich n.p.m.), odpowiadające wariantom z kolumny pierwszej. Szereg geograficzny umożliwia przedstawienie przestrzennego rozmieszczenia badanego zjawiska w określonym czasie [7, s ]. Przykładem tablicy prostej, ukazującej szereg geograficzny może być tabela zawierająca nazwy państw Unii Europejskiej (kraje dawnej Piętnastki, tj. sprzed rozszerzenia Unii z dniem maja 004 r. o dziesięć nowych państw) i odpowiadające im wartości realnego Produktu Krajowego Brutto za 005 rok. Tabela.9. Realny Produkt Krajowy Brutto państw UE-5 w 005 r. (proc.). Austria Belgia Dania PKB (proc.),0, 3,

73 .3. Opracowanie i prezentacja materiału statystycznego Finlandia Francja Grecja Hiszpania Holandia Irlandia Luksemburg Niemcy Portugalia Szwecja Wielka Brytania Włochy str. 73,9, 3,7 3,4, 4,7 4,0,0 0,4,7,9 0, Źródło: Opracowanie na podstawie: Eurostat, W przypadku cech ilościowych można mówić o ich rozkładzie empirycznym (por. Charakterystyka wybranych rozkładów prawdopodobieństwa są to tzw. rozkłady teoretyczne). Określenie empirycznego rozkładu cechy ogólnie rzecz biorąc polega na przyporządkowaniu uszeregowanym rosnąco wartościom przyjmowanym przez tę cechę odpowiednio zdefiniowanych liczebności ich występowania [5, s. ]. Liczebności (częstości absolutne) to liczba rzeczywistych obserwacji odpowiadających danej wartości cechy lub jej przedziałowi klasowemu [, s. 3]. Tablica prosta, ukazująca szeregi rozdzielcze cech mierzalnych składa się z dwóch kolumn. Pierwsza z nich to wykaz klasyfikacyjny: warianty cechy (szereg punktowy) albo przedziały klasowe (szereg rozdzielczy klasowy). Niezależnie od tego, czy dane można pogrupować w szereg punktowy, czy klasowy, w drugiej kolumnie tej tabeli zamieszcza się liczebności. Warianty lub przedziały klasowe oznaczane są w niniejszej publikacji jako xi, zaś odpowiadające im liczebności jako ni, gdzie i oznacza numer wariantu/klasy. Suma poszczególnych liczebności cząstkowych stanowi liczbę obserwacji n. Oto przykłady tablic prezentujących empiryczny rozkład cech ilościowych:

74 .3. Opracowanie i prezentacja materiału statystycznego str. 74 Przykład. Cechę ilościową skokową, jaką jest liczba kont wybranej grupy internautów, można pogrupować w szereg punktowy. Poniższa tabela prezentuje rozkład liczby kont Tabela.0. Rozkład liczby kont losowo wybranej grupy internautów. Liczba kont xi Σ Liczba internautów ni Źródło: Dane umowne. Przykład. W przypadku cech ilościowych skokowych o znacznej liczbie wariantów, jak również cech ciągłych, w pierwszej kolumnie tablicy prostej podaje się przedziały klasowe. Nawiązując do wcześniejszego przykładu wyjaśniającego sposób grupowania przedsiębiorstw sektora MSP w szereg rozdzielczy z przedziałami klasowymi tablica będzie następująca: Tabela.. Rozkład liczby zatrudnionych w losowo wybranej grupie przedsiębiorstw sektora MSP. Wielkość zatrudnienia xi Σ Liczba przedsiębiorstw ni 5 Źródło: Dane umowne. Jeżeli prezentacja zebranego materiału statystycznego dotyczy więcej niż jednej cechy statystycznej, to zastosowanie znajdują tablice złożone.

75 str Opracowanie i prezentacja materiału statystycznego W przypadku tablic złożonych z szeregów zespolonych można mówić o powiązaniu kilku cech pochodzących z tej samej zbiorowości. Z punktu widzenia analizy współzależności szczególne znaczenie ma budowa tablicy złożonej z dwóch cech, tj. tablicy korelacyjnej. Przykładowo, na podstawie zebranych danych z wykorzystaniem ankiety internetowej (zob. dane na rys..9) można zbudować następującą tablicę korelacyjną: Tabela.. Przykład tablicy złożonej krzyżowej cechy dychotomiczne. Licznik z ID PYT_3 NIE TAK Suma końcowa Suma końcowa Płeć K M Źródło: Dane umowne. Powyższa tablica określana niekiedy w literaturze przedmiotu mianem tablicy krzyżowej (zob. [3, s. 49]) powstała w wyniku skrzyżowania dwóch cech dychotomicznych: pytania nr 3 odnośnie korzystania z dodatkowych zajęć ze statystyki oraz cechy płeć. Do budowy wykorzystano narzędzie Excela Raport tabeli przestawnej. Drugą odmianę tablic złożonych stanowią tablice będące zespołem szeregów statystycznych. Szczególnym przypadkiem tego typu tablic są tablice ukazujące dwie zbiorowości badane pod względem tej samej cechy (por. [, s. 34]). Przykładem może być cecha opisująca liczbę wskazań na praktyczne zastosowania statystyki wśród Polaków ( populacja) i mieszkańców Unii Europejskiej ( populacja wyłączając Polskę). Oto zestawienie wyników: Tabela.3. Praktyczne zastosowania statystyki według Polaków i mieszkańców UE. Sposoby praktycznych zastosowań Giełda, finanse Analiza danych w przedsiębiorstwie Liczba wskazań Polska UE 9 3

76 str Opracowanie i prezentacja materiału statystycznego Analiza rynku Inne 9 45 Σ 3 45 Źródło: Dane umowne. Poniżej zamieszczono bardziej rozbudowany przykład tablicy złożonej z 5 szeregów czasowych i 5 szeregów geograficznych: Tabela.4. Realny Produkt Krajowy Brutto w przekroju państw UE-5 w latach Austria Belgia Dania Finlandia Francja Grecja Hiszpania Holandia Irlandia Luksemburg Niemcy Portugalia Szwecja Wielka Brytania Włochy 00 0,8,0 0,7,6,9 5, 3,5,9 6,,5,,0,,4 00 0,9,5 0,5,6,0 3,8,7 0, 6, 3,6 0, 0,8,0, 003, 0,9 0,7,8, 4,8 3,0-0, 4,4,0-0, -,,7,7 004,4,6,9 3,5,3 4,7 3,,7 4,5 4,,6, 3,7 3,3 005,0, 3,,9, 3,7 3,4, 4,7 4,0,0 0,4,7,9,7 0,3 0, 0,9 0, Źródło: Opracowanie na podstawie: Eurostat, Każda kolumna powyższej tabeli stanowi jeden z szeregów geograficznych (jeden z takich szeregów zamieszczono dla 005 roku w tabeli.8). Natomiast każdy wiersz stanowi jeden z szeregów czasowych, ukazujących dynamikę PKB dla poszczególnych państw dawnej Piętnastki. Jeśli chodzi o szeregi czasowe, ukazane za pomocą tablicy prostej, to zgodnie z przyjętym układem pionowym w pierwszej kolumnie przedstawione są momenty lub okresy czasu. W kolumnie drugiej znajdują się wielkości badanego zjawiska, jakie wystąpiły w kolejnych momentach lub

77 str Opracowanie i prezentacja materiału statystycznego okresach czasu, określonych w pierwszej kolumnie [7, s. 58]. W związku z powyższym, szeregi czasowe można podzielić na dwie grupy [0, s. 69]:. Szeregi okresów ukazują zmiany badanych zjawisk w ciągu pewnego okresu czasu (np. roku, kwartału, miesiąca).. Szeregi momentów określają stan zjawiska w ściśle określonych momentach czasu (np. stan na dzień 3 grudnia 005 r.). Wybór szeregu czasowego determinowany jest charakterem badanego zjawiska. I tak np. składniki bilansu przedsiębiorstwa można przedstawić za pomocą szeregu momentów (np. bilans sporządzony na dzień 3 grudnia 00, 003, 004, 005 r.). Oto przykład tablicy ukazującej trzy takie szeregi w układzie horyzontalnym: Tabela.5. Wartość majątku trwałego i obrotowego Grupy Żywiec SA w latach (mln zł). Aktywa trwałe Aktywa obrotowe RAZEM AKTYWA ,3 408,5 893, , 540,4 03, ,9 63,5 95, ,6 67,7 380,3 Źródło: Opracowanie na podstawie: Skonsolidowane raporty roczne Grupy Żywiec SA, Natomiast w odróżnieniu od stanu majątku trudno jest np. uchwycić wielkość przychodów ze sprzedaży w danej chwili. Przychody są bowiem tzw. strumieniem ekonomicznym. W tym przypadku dynamikę zmian przychodów należy ukazać z wykorzystaniem szeregu okresów. Badając np. sezonowość przychodów ze sprzedaży (zob. Analiza sezonowości), wygodnie jest określić sumę przychodów w poszczególnych miesiącach czy kwartałach. Oto przykład tabeli ukazującej szereg czasowy momentów tym razem w układzie pionowym:

78 .3. Opracowanie i prezentacja materiału statystycznego str. 78 Tabela.6. Dynamika przychodów Grupy Żywiec SA w latach (mln zł). Kwartały Przychody I Q , II Q ,4 III Q , IVQ ,7 I Q ,9 II Q , III Q ,4 IV Q , I Q ,0 II Q , III Q ,3 IV Q , I Q ,3 II Q ,3 III Q ,0 IV Q ,0 Źródło: Opracowanie na podstawie: Skonsolidowane raporty kwartalne Grupy Żywiec SA, Drugą metodą prezentacji danych statystycznych jest metoda graficzna, polegająca na sporządzaniu różnego rodzaju wykresów [0, s. 3]. Wykresy są graficzną formą rejestracji danych oraz narzędziem prezentacji i analizy uogólnionych informacji statystycznych. Najczęściej wykresy sporządza się na podstawie tablic statystycznych [9, s. 9]. Dzięki graficznej prezentacji danych zawartych w prostej lub złożonej tablicy statystycznej w wielu przypadkach stają się one bardziej przejrzyste [, s. 34]. Inną zaletą wykresów obok przejrzystej formy prezentacji danych jest to, że ułatwiają one prawidłowy wybór miar opisu struktury (zob. Opis struktury zbiorowości) [8, s. 6]. Część wykresów np. w warunkach egzaminu pisemnego można łatwo wykonać odręcznie. Niemniej jednak istnieje pewna grupa wykresów (np. wykresy kołowe czy tzw. kartogramy), do wykonania których pożądane jest zastosowanie komputera. Przydatnym narzędziem może okazać się tu arkusz kalkulacyjny MS Excel. W programie MS Excel dostępne są nastę-

79 .3. Opracowanie i prezentacja materiału statystycznego str. 79 pujące standardowe typy wykresów (zaproponowano tu sposoby wykorzystania tych wykresów): Kolumnowy analiza struktury, ukazanie dynamiki danych rocznych. Słupkowy analiza struktury. Liniowy analiza szeregów czasowych. Kołowy analiza struktury (niewielka liczba wariantów). XY (Punktowy) analiza współzależności. Warstwowy analiza zmian struktury w czasie. Pierścieniowy analiza struktury (więcej elementów por. wykres kołowy). 8. Radarowy analiza porównawcza kilkunastu wymiarów (np. oceny kilku kryteriów dotyczących produktu w skali od zera do 0). 9. Powierzchniowy ukazanie na wykresie trzech wymiarów (wykres 3D). 0.Bąbelkowy analiza regresji (wykres XY wzbogacony o trzeci wymiar, będący długością promienia kół)..giełdowy stwarza możliwość utworzenia wykresu pudełkowego, znacznie ułatwiającego analizę porównawczą struktur..walcowy. 3.Stożkowy. 4.Ostrosłupowy. Trzy ostatnie z wymienionych wykresów są odmianami wykresu kolumnowego ich nazwa związana jest z kształtem słupka. Wśród wykresów niestandardowych na uwagę zasługują wykresy dwuosiowe, np. pozwalające na ukazanie dynamiki dwóch zjawisk o istotnie różniących się skalach (np. cena w tys. zł i wielkości procentowe). Bardzo interesującym jest również wykres logarytmiczny, pozwalający m.in. ukazać wykładniczy wzrost wielkości (np. wzrost cen z kilku złotych do kilku tysięcy złotych w danym czasie).

80 .3. Opracowanie i prezentacja materiału statystycznego str. 80 W literaturze przedmiotu wyróżnia się następujące podziały wykresów statystycznych (por. [, s. 5]):. Według form graficznych.. Według kryterium rodzaju szeregu statystycznego. Klasyfikację wykresów statystycznych z punktu widzenia form graficznych według wybranych autorów przedstawia tabela: Tabela.7. Typologie wykresów statystycznych z punktu widzenia form graficznych. Autorzy H. G. Adamkiewicz A. Bielecka Z. Kędzior Rodzaje wykresów. Liniowe.. Powierzchniowe, w tym: słupkowe, kołowe. 3. Histogram, diagram. Pomiar na skalach słabszych:. Wymiarowe: liniowe, kołowe, słupkowe (pionowe i poziome, rozdzielone, nakładane, 3D).. Wykresy ilościowe (piktogramy). 3. Wykresy obszaru (kartogramy). Pomiar na skalach mocniejszych:. Histogram: liczebności (absolutnych i względnych), skumulowany (liczebności skumulowanych).. Wielobok (diagram): liczebności (absolutnych i względnych), liczebności skumulowanych (kumulata), liczebności względnych skumulowanych (ogiwa).. Kołowe.. Słupkowe. 3. Liniowe. 4. Piktogramy. 5. Mapy graficzne (kartogramy).

81 .3. Opracowanie i prezentacja materiału statystycznego M. Sobczyk str. 8. Liniowe.. Powierzchniowe. 3. Pasmowe. 4. Bryłowe. 5. Punktowe. 6. Mapowe (kartogramy). 7. Kombinowane. 8. Specjalne. Źródło: Opracowanie własne na podstawie: [, s. 5-55], [3, s ; 84], [6, s ], [9, s. 9]. W świetle potrzeb tego opracowania istotniejsza jest typologia wykresów statystycznych według drugiego z wymienionych kryteriów, tj. według kryterium rodzaju szeregu statystycznego. Podział taki z jednej strony pozwoli na graficzną prezentację danych zawartych w omówionych wcześniej tablicach statystycznych, z drugiej zaś stanowi podstawę do dalszej analizy (zob. Opis statystyczny). Według kryterium rodzaju szeregu statystycznego można wyróżnić następujące kategorie wykresów statystycznych (por. [, s. 5], [9, s. 9]):. Wykresy strukturalne prezentacja graficzna szeregów rozdzielczych, w tym szeregów geograficznych.. Wykresy korelacyjne prezentacja graficzna zależności między cechami. 3. Wykresy dynamiczne graficzna prezentacja kształtowania się zjawisk w czasie. Powyższa klasyfikacja wykresów statystycznych odpowiada trzem kolejnym podrozdziałom następnego rozdziału, gdzie zaprezentowano sposoby obliczania ważniejszych miar wspomagających analizę struktury zbiorowo-

82 .3. Opracowanie i prezentacja materiału statystycznego str. 8 ści, analizę współzależności zjawisk oraz analizę szeregów czasowych (dynamiki zjawisk). W trakcie obliczania poszczególnych miar pomocne jest sporządzenie odpowiedniego wykresu stąd będą pojawiać się odwołania do tego podrozdziału. Poniżej omówiono wybrane wykresy zgodnie z przyjętą klasyfikacją. W przypadku szeregów rozdzielczych wybór odpowiedniego wykresu strukturalnego uwarunkowany jest rodzajem cechy statystycznej i co się z tym wiąże rodzajem skali pomiarowej. Takie rozróżnienie stosuje A. Bielecka (zob. tabela.7). I tak w przypadku danych nominalnych (zob. skala nominalna) możliwe jest ich przedstawienie w postaci szeregu rozdzielczego dychotomicznego (dwa warianty cechy) lub politomicznego (więcej wariantów). Jeżeli liczba wariantów cechy jest stosunkowo niewielka, np. nie przekracza 7-8 (zob. Z. Kędzior [6, s. 97]), to można stosować wykresy kołowe. Wykres kołowy określany też mianem strukturalnego czy tortowego stanowi prosty sposób prezentacji danych sumujących się do pewnej całości. Na wykresie przedstawia się procentowe udziały w tej całości [, s. 38]. Aby odręcznie sporządzić wykres kołowy (np. na tradycyjnym egzaminie, gdzie nie można skorzystać z komputera), po pierwsze należy wyrazić poszczególne udziały w stopniach według wzoru (por. [7, s. 64]): Po wyznaczeniu kątów odpowiadających poszczególnym udziałom (frakcjom) należy je nanieść na wykres za pomocą kątomierza (np. poczynając od linii obrazującej na tarczy zegara godzinę.00 i poruszając się w kierunku przeciwnym do ruchu wskazówek zegara). Jednak do precyzyjnego

83 .3. Opracowanie i prezentacja materiału statystycznego str. 83 sporządzenia wykresu kołowego wskazane jest zastosowanie komputera. Poniższe przykładowe wykresy wykonano z wykorzystaniem arkusza kalkulacyjnego MS Excel. Sposób tworzenia wybranych wykresów w tym programie zawiera animacja Excel_prezentacja_graficzna (zob. także arkusz Przykłady wykresy statystyczne). Oto przykładowy wykres kołowy, ukazujący strukturę odpowiedzi na pytanie nr 4 ankiety internetowej, sporządzony na podstawie danych zamieszczonych w tabeli.8: Rysunek.0. Działy statystyki sprawiające najwięcej trudności. 7% Wnioskowanie statystyczne Analiza szeregów czasowych 53% Analiza regresji 0% Źródło: Opracowanie własne. MS Excel ma również wbudowany wykres pierścieniowy wykres ten można zastosować do prezentacji graficznej struktury zbiorowości ze względu na cechę posiadającą większą liczbę wariantów niż przyjęte 7-8. Wskazane jest uporządkowanie danych malejąco (dzięki temu poszczególne wycinki pierścienia będą coraz mniejsze). Dane można uporządkować w Excelu, wykorzystując polecenie Sortuj. Oto przykład ukazujący strukturę liczby odsłon dziesięciu najpopularniejszych witryn internetowych w Polsce (maj 006 r.):

84 str Opracowanie i prezentacja materiału statystycznego Rysunek.. Struktura liczby odsłon 0 najpopularniejszych witryn WWW (maj 006 r.). 3,5% 3,0% 3,0% Allegro.pl 4,0%,5% 4,8% Onet.pl Google Wirtualna Polska 6,9% Interia.pl o.pl Fotka.pl,7%,4% 7,% Gazeta.pl epuls.pl Bitefight.pl Źródło: Opracowanie własne na podstawie: InternetStandard, Łączna liczba odsłon (wejść na stronę) dla prezentowanych dziesięciu stron WWW wyniosła w maju 006 r. blisko 0 miliardów. Z tego najwięcej bo 47, mln przypadło na serwis aukcyjny Allegro.pl (,5 proc.). Na drugim miejscu uplasował się portal Onet.pl z liczbą odsłon 37,9 mln (,4 proc.). Istotny udział przypadł też przeglądarce internetowej Google (7, proc.) oraz portalowi Wirtualna Polska (,7 proc.) na te cztery witryny przypadły aż trzy czwarte wszystkich odsłon, co świadczy o znacznej koncentracji. W przypadku gdy nie jest istotny procentowy udział danych zaliczonych do poszczególnych kategorii w pewnej całości (por. [, s. 39]) zastosowanie znajdują wykresy słupkowe. Jako przykład można podać liczbę odpowiedzi na pytanie z kafeterią koniunktywną, gdzie można zaznaczyć więcej niż jeden wariant. W tej sytuacji co już podkreślano liczba wskazań nie będzie sumowała się do liczby obserwacji (jednostek statystycznych). Znaczenie ma tu ukazanie liczby odpowiedzi na poszczególne warianty cechy. Oto prezentacja graficzna liczby wskazań na pytanie nr ankiety internetowej (wykres sporządzony na podstawie danych zamieszczonych w tabeli.7):

85 str Opracowanie i prezentacja materiału statystycznego Rysunek.. Liczba wskazań dotyczących praktycznych zastosowań statystyki. Analiza danych w przedsiębiorstwie 3 Giełda, finanse Analiza rynku 9 Inne liczba wskazań Źródło: Opracowanie własne. Powyższy wykres został wykonany w Excelu z wykorzystaniem narzędzia wykres słupkowy. W tym miejscu należy wyjaśnić, iż w programie MS Excel wykres ze słupkami pionowymi określono mianem wykresu kolumnowego. W literaturze statystycznej ten typ wykresu określa się jako wykres słupkowy (ze słupkami pionowymi). Oto przykład takiego wykresu ukazującego realne zmiany PKB wybranych państw Unii Europejskiej w 005 roku: Rysunek.3. Dynamika realnego Produktu Krajowego Brutto państw UE-5 w 005 r. 4,7 5 4,0 PKB (proc.) 4 3 3,7 3,4 3,,9,7,0,9,,,,0 0,4 0, Lu ks Ir l a nd em ia bu rg Gr Hi ecj sz a pa ni a Da Fi n ia nl an d Sz ia we cj a W i e Au st r lk a B ia ry ta ni a Be lg Fr ia an Ho cja lan di Ni a e Po m c rt u y ga l W ia ło ch y 0 Źródło: Opracowanie własne na podstawie: Eurostat,

86 .3. Opracowanie i prezentacja materiału statystycznego str. 86 Spośród państw starej Unii największą dynamiką wzrostu PKB w 005 roku odznaczała się Irlandia (4,7 proc.) najmniejszą zaś Włochy (zaledwie 0, proc.). Wykres ten po wcześniejszym uporządkowaniu danych z powodzeniem może być wykorzystywany w różnego rodzaju rankingach. Interesującą odmianą wykresu słupkowego jest wykres słupkowy nakładany z cechą kategoryzującą (zob. [3, s. 64]). W przypadku danych jakościowych taką cechą może być np. miejsce zamieszkania. Wprowadzenie tego rodzaju wykresu pozwala na porównanie struktur kilku populacji. W tym przypadku można porównać trzy populacje: obszary wiejskie, miasta do 00 tys. mieszkańców oraz miasta powyżej 00 tys. mieszkańców ze względu na odsetek gospodarstw domowych posiadających dostęp do Internetu (zob. plik z danymi do analizy zakładka Internet): Rysunek.4. Odsetek gospodarstw domowych posiadających dostęp do Internetu (stan na koniec 005 r.). 00% 80% 60% 40% 0% 0% Obszary wiejskie Miasta do Miasta 00 tys. powyżej 00 mieszk. tys. mieszk. Dostęp do Internetu Brak Źródło: Opracowanie własne na podstawie: GUS, Powyższy wykres został sporządzony w Excelu poprzez wybranie narzędzia wykres kolumnowy, a następnie 00% skumulowany kolumnowy.

87 .3. Opracowanie i prezentacja materiału statystycznego str. 87 Jeżeli chodzi o szeregi geograficzne, to specyficzną dla tego rodzaju szeregów statystycznych formą graficznej prezentacji danych są tzw. kartogramy. Kartogram to wykres statystyczny sporządzony na mapie lub planie. Sporządzenie tego wykresu polega na naniesieniu wielkości prezentowanych zjawisk na mapy za pomocą znaków umownych [0, s. 8]. Przy sporządzaniu kartogramu szczególnego znaczenia nabiera prawidłowe opracowanie legendy, gdzie w sposób jednoznaczny należy objaśnić stosowane oznaczenia [7, s. 78]. Dobór oznaczeń (legendy) związany jest z zastosowaną metodą sporządzania kartogramu (por. [0, s ]). I tak:. W metodzie symboli na wycinku mapy odpowiadającemu danej jednostce terytorialnej umieszczane są symbole obrazujące dane zjawisko, przy czym ich liczba jest proporcjonalna do wielkości zjawiska na danym obszarze. Przykładem zastosowania tej metody może być liczba oddziałów regionalnych dużej sieci handlowej w przekroju województw.. W metodzie figur geometrycznych przedstawia się na mapie natężenie danego zjawiska za pomocą wielkości figur geometrycznych. Przykładowo, wartość sprzedaży pewnego wyrobu można zilustrować za pomocą koła, gdzie jego promień uzależniony jest od wartości w złotych (można przyjąć, że cm to 0 tys. zł). Ponadto można ukazać strukturę sprzedaży w tym przypadku może to być wartościowy udział w rynku w większych miastach Polski. 3. W metodzie powierzchniowej do ukazania zróżnicowania danego zjawiska wykorzystuje się intensywność kolorów bądź tekstur. Przykładem zastosowania takiej metody jest prezentacja graficzna zróżnicowania gęstości zaludnienia w Polsce. Przedstawione metody sporządzania kartogramów można ze sobą łączyć. Poniżej zaprezentowano przykładowy kartogram, łączący w sobie metodę figur geometrycznych oraz metodę powierzchniową:

88 str Opracowanie i prezentacja materiału statystycznego Rysunek.5. Gęstość zaludnienia a wartość sprzedaży w oddziałach regionalnych. 0 tys. zł 50 tys. zł 00 tys. zł Źródło: Opracowanie własne na podstawie: GUS, Zaprezentowany kartogram sporządzono w Excelu posługując się wykresem bąbelkowym. Promień bąbelków oznacza wartość sprzedaży w danym regionie (współrzędne X określają długość geograficzną, zaś Y szerokość geograficzną). Jako tło wykresu określono plik graficzny prezentujący mapę sporządzoną przez GUS metodą powierzchniową ukazującą gęstość zaludnienia w przekroju województw. W przypadku cech porządkowych istnieje możliwość pomiaru za pomocą skali przedziałowej. Takie skale zastosowano w formularzu ankiety dla Czytelników niniejszej publikacji (zob. rys..6). Wyniki pomiaru postaw (opinii) na skali dyferencjału semantycznego można zilustrować np. za pomocą mapy dwukryteriowej. Mapy dwukryteriowe sporządza się poprzez wyznaczenie średnich wartości uzyskanych ocen (punktów) każdego z dwóch zamieszczanych na mapie kryteriów [6, s. 88]. W pytaniu nr 3 ankiety dla Czytelników, opartym na przedziałowej skali dyferencjału semantycznego, poproszono re

89 str Opracowanie i prezentacja materiału statystycznego spondentów o określenie ich ocen odnośnie treści niniejszej publikacji w trzech wymiarach. Zestawiając parami te wymiary, można sporządzić trzy różne mapy dwukryteriowe. Na rysunku.6 zamieszczono przykład mapy zestawiającej wymiary nudne/ciekawe oraz teoretyczne/praktyczne. Do wykonania wykresu wykorzystano materiał statystyczny zamieszczony w zakładce Ankiety w pliku Dane_do_analizy.xls (należy podkreślić, iż są to tylko dane umowne, więc ich interpretację należy traktować wyłącznie jako przykładową). Poszczególne pola ponumerowano od do 7, gdzie siedem oznacza bardzo praktyczne i bardzo przydatne treści. Średnia ocen dla wspomnianych wymiarów stanowi współrzędne punktów dla całej grupy ankietowanych, w tym kobiet i mężczyzn. Rysunek.6. Mapa dwukryteriowa oceny treści publikacji Statystyka po ludzku. teoretyczne - praktyczne 7 Kobiety 4 Ogółem Mężczyźni 4 7 nudne - ciekawe Źródło: Opracowanie własne. Mapę dwukryteriową wykonano w arkuszu Excela z użyciem wykresu XY (Punktowego). Z przedstawionej prezentacji graficznej wspomnianych wymiarów wynika, iż w ocenie kobiet dobrane treści są raczej ciekawe, zaś

90 str Opracowanie i prezentacja materiału statystycznego według mężczyzn dość nudne (wymiar pierwszy). Z odpowiedzi respondentów wynika, że jest wystarczająca ilość teorii, przy czym ocena mężczyzn wskazuje, iż mogłoby być więcej przykładów praktycznych (bardziej rozbudowane podrozdziały Trening i ewaluacja). Mapy dwukryteriowe nie pozwalają na ukazanie na jednym wykresie więcej niż dwóch cech (kryteriów). Taką możliwość stwarzają tzw. profile semantyczne. Profile semantyczne umożliwiają prezentację graficzną danych uzyskanych zarówno za pomocą dyferencjału semantycznego, jak również skali Stapela [6, s. 9]. Oto przykład profilu semantycznego opracowanego dla pytania nr 6 ankiety dla Czytelników (dane umowne): Rysunek.7. Profil semantyczny według trzech kryteriów Cena Treść Estetyka Kobiety Mężczyźni Źródło: Opracowanie własne. Z przedstawionego profilu semantycznego wykonanego w Excelu za pomocą wykresu XY wynika, iż ankietowani akceptują cenę e-booka, jak również zadowoleni są z jakości prezentowanych treści oraz szaty graficznej (każde kryterium otrzymało ocenę dodatnią). Okazuje się, iż kobiety są nie tylko bardziej zadowolone z jakości treści (zob. rys..6), ale także

91 .3. Opracowanie i prezentacja materiału statystycznego str. 9 z ceny. Lepiej także oceniły estetykę. Komentarza wymaga techniczne sporządzenie wykresu. Serie osi X stanowią średnie liczby uzyskanych z formularza punktów (każdy respondent mógł ocenić dane kryterium w skali od 5 do +5), zaś serie osi Y to numery kryteriów ( cena, treść, 3 estetyka). Etykiety na osi pionowej otrzymano poprzez dodanie punktów o współrzędnych (0; Cena), (0; Treść); (0; 3 Estetyka). Graficzne automatyczne znaczniki dodanych punktów ustawiono jako brak, a ponadto usunięto nadane im nazwy z legendy. Ostatnią czynnością było wyświetlenie etykiet nazw. Pomiar danych na skalach mocniejszych (przedziałowa, ilorazowa) jest postulowany dla cech ilościowych (zwracano już bowiem uwagę na niebezpieczeństwo utraty informacji w przypadku zejścia ze skali mocniejszej na skalę słabszą). W zależności od liczby wariantów cechy ilościowe można pogrupować w szereg rozdzielczy punktowy lub w szereg rozdzielczy z przedziałami klasowymi (znaczna liczba wariantów cechy). Do graficznej prezentacji danych w postaci szeregów rozdzielczych powszechnie wykorzystuje się dwa następujące typy wykresów (por. [, s. 5]):. Histogram.. Diagram. Wymienione typy wykresów sporządza się w prostokątnym układzie współrzędnych, przy czym na osi odciętych (oś OX) wykazuje się uporządkowane rosnąco warianty cechy skokowej (niewielka liczba wariantów) albo przedziały klasowe (pozostałe cechy ilościowe). Natomiast na osi rzędnych (oś OY) w zależności od rodzaju wykresu przedstawia się: liczebności (częstości) ni, częstości względne fi, liczebności (częstości) skumulowane ni sk, częstości względne skumulowane fi sk.

92 str Opracowanie i prezentacja materiału statystycznego Sposób obliczania częstości względnych określanych też mianem frakcji lub wskaźników struktury zaprezentowano w rozdziale kolejnym (zob. miary natężenia i struktury). W tym miejscu warto zdefiniować liczebność skumulowaną jest to suma wszystkich liczebności poprzedzających wraz z liczebnością i-tej klasy (por. [, s. 33]). Specyficznym wykresem ukazującym strukturę zbiorowości ze względu na cechę ilościową mierzoną za pomocą skali przedziałowej bądź ilorazowej jest histogram. Histogram dla szeregu rozdzielczego punktowego jest zbiorem odcinków (lub słupków) wychodzących z punktów xi, określających i-tą wartość cechy X, o wysokości równej liczbie jednostek posiadających wartość xi [3, s. 84]. Zgodnie z przedstawioną definicją w prostokątnym układzie współrzędnych można wyznaczyć rozkład empiryczny skokowej cechy X. Oto rozkład liczby kont wybranej grupy internautów (zob. tabela.0): Rysunek.8. Histogram ukazujący rozkład liczby kont wybranej grupy internautów. 6 li czba internautów liczba kont Źródło: Opracowanie własne. Do sporządzenia powyższego wykresu wykorzystano wbudowany standardowy wykres arkusza MS Excel, tj. wykres XY. Punkt stanowią współrzęd-

93 str Opracowanie i prezentacja materiału statystycznego ne (xi, ni). Rzut punktów na oś X uzyskano wybierając zakładkę Słupki błędów Y, dostępną w oknie Formatowanie serii danych. Następnie zaznaczono opcję Wartość procentowa, wpisując 00%. Histogram dla szeregu rozdzielczego z przedziałami klasowymi to zbiór prostokątów przyległych do siebie. Podstawy tych prostokątów przylegające do osi X są równe rozpiętościom poszczególnych przedziałów klasowych. Wysokości słupków histogramu odpowiadają liczebnościom tych przedziałów dotyczy to tylko sytuacji, gdy przedziały klasowe są równe [, s. 5]. Histogram liczebności dla szeregu rozdzielczego z przedziałami klasowymi, sporządzonego dla danych z tabeli., wygląda następująco: Rysunek.9. Histogram ukazujący rozkład wielkości zatrudnienia w wybranych firmach sektora MSP. liczba przedsiębiorstw wielkość zatrudnienia Źródło: Opracowanie własne. Program MS Excel w dodatku Analiza danych (niedostępnym w wersji standardowej) posiada m.in. narzędzie Histogram. Narzędzie to zlicza dane za pomocą funkcji Częstość i generuje histogram (wykres kolumnowy)

94 .3. Opracowanie i prezentacja materiału statystycznego str. 94 oraz diagram. Zmiana danych wejściowych pociąga za sobą konieczność ponownego użycia tego narzędzia (por. [7, s. 79]). W dołączonym do tej publikacji programie Szeregi statystyczne po wprowadzeniu danych histogramy i diagramy są aktualizowane automatycznie. Ponadto dzięki wykorzystaniu wykresu XY możliwe jest sporządzenie histogramu dla nierównych przedziałów klasowych. W przypadku histogramu z równymi przedziałami klasowymi pola poszczególnych słupków powinny dać w sumie liczbę obserwacji n przemnożoną przez długość klasy h (por. [3, s. 86]). Należy podkreślić, iż w przypadku nierównych przedziałów klasowych wysokości poszczególnych słupków nie są równe odpowiadającym im liczebnościom. Prawidłowa prezentacja graficzna szeregu rozdzielczego z nierównymi przedziałami klasowymi ma kluczowe znaczenie przy graficznym wyznaczeniu dominanty i innych pozycyjnych miar położenia (zob. miary położenia). Punktem wyjścia jest określenie długości poszczególnych przedziałów klasowych. Przyjmując jako bazę dowolny przedział klasowy (z reguły najszerszy lub najwęższy), należy wyznaczyć tzw. natężenie liczebności według poniższego wzoru [5, s. 38]: Oto sposób obliczeń na przykładzie danych dotyczących rozkładu liczby mieszkań w zależności od wieku budynku mieszkalnego (zob. Dane_do_analizy zakładka Mieszkania): Tabela.8. Mieszkania zamieszkane według wieku budynku (stan na 00 r.). Budynek wybudowany w latach: xi przed Liczba mieszkań Rozpiętość Natężenie (tys.) klasy liczebn. ni hi li 90, , ,8 6 58

95 str Opracowanie i prezentacja materiału statystycznego ,5 97,9 36,7 60 Σ Źródło: Opracowanie na podstawie: gosp/nsp/mieszkania/tablice.xls GUS, Jako dolną granicę pierwszego przedziału klasowego przyjęto rok 868, stąd rozpiętość tego przedziału wyniosła 50. Rozpiętość bazową, tj. 3, podzielono przez poszczególne rozpiętości pozostałych klas, a następnie przemnożono przez odpowiadające im liczebności w ten sposób otrzymano wskaźniki natężenia liczebności. Z danych zamieszczonych w powyższej tabeli wynika, iż najwięcej mieszkań powstało w latach Jednak nie będzie to najwyższy słupek histogramu innymi słowy nie jest to przedział, w którym znajduje się wartość najczęstsza (dominanta). Po zastosowaniu wzoru na natężenie liczebności okazuje się, że dominanta zawiera się w przedziale (przedziały prawostronnie otwarte): Rysunek.0. Histogram z nierównymi przedziałami klasowymi natężenie liczebności lata w których powstał budynek Źródło: Opracowanie na podstawie: GUS,

96 str Opracowanie i prezentacja materiału statystycznego Powyższy histogram posłuży w następnym rozdziale do graficznego wyznaczenia dominanty. Powszechnym błędem jest naniesienie na taki wykres liczebności zwykłych ni, zamiast wskaźników natężenia liczebności li (przy prawidłowo określonych szerokościach słupków obrazujących różne rozpiętości przedziałów klasowych). Kolejnym powszechnie stosowanym do graficznej prezentacji danych ilościowych, opartych na skalach mocnych, wykresem jest diagram (nazywany też w literaturze przedmiotu wielobokiem liczebności lub wykresem częstości). Diagram dla szeregu punktowego sporządza się tak jak histogram, tj. w prostokątnym układzie współrzędnych, przy czym punkty o współrzędnych (xi, ni) łączy się linią łamaną (por. [, s. 39]). Oto taki wykres, nawiązujący do przykładu z kontami (por. rys..8): Rysunek.. Diagram ukazujący liczbę kont wybranej grupy internautów. 6 liczba internautów liczba kont Źródło: Opracowanie własne. Diagram dla szeregu rozdzielczego z przedziałami klasowymi sporządza się poprzez połączenie linią łamaną punktów o współrzędnych środków przedziałów klasowych i odpowiadających im liczebności. Ponadto ko-

97 str Opracowanie i prezentacja materiału statystycznego nieczne jest wyznaczenie punktów skrajnych o zerowej liczebności (por. [3, s. 86]). Środek przedziału klasowego wyznacza się ze wzoru: Oto diagram, sporządzony na tle histogramu z przykładowymi danymi o rozkładzie wielkości zatrudnienia w firmach sektora MSP: Rysunek.. Diagram ukazujący rozkład wielkości zatrudnienia w wybranych firmach sektora MSP. liczba przedsiębiorstw diagram wielkość zatrudnienia Źródło: Opracowanie własne. W przypadku gdy na osi rzędnych zamiast zwykłych liczebności wprowadzi się częstości względne, to kształt diagramu/histogramu nie ulegnie

98 str Opracowanie i prezentacja materiału statystycznego zmianie (dotyczy to zarówno szeregu punktowego, jak i klasowego). Zmienią się jedynie oznaczenia na osi OY z liczebności na częstości względne. Zawierają się one w przedziale [0-], co pozwala na porównywanie struktur różnych zbiorowości. Przyjmując na osi OY jako jednostkę liczebności skumulowane, sporządza się diagram liczebności skumulowanych (wielobok liczebności skumulowanych, kumulantę). Wykres ten tworzy się łącząc punkty o współrzędnych: górna granica przedziału klasowego i odpowiadająca jej liczebność skumulowana (por. [3, s. 86]). Wygodnie jest najpierw sporządzić histogram liczebności skumulowanych. Należy ponadto wprowadzić punkt o liczebności równej zeru liczebność ta odpowiada dolnej granicy pierwszego przedziału klasowego. Wartościom spoza górnej granicy ostatniego przedziału odpowiadają liczebności równe n. Na poniższym wykresie ukazano graficzną postać kumulanty na tle histogramu liczebności skumulowanych: Rysunek.3. Kumulanta wielkości zatrudnienia w wybranych firmach sektora MSP. liczebności skumulowane 5 9 kum ulanta wielkość zatrudnienia Źródło: Opracowanie własne.

99 str Opracowanie i prezentacja materiału statystycznego Jeżeli na osi rzędnych zamiast liczebności skumulowanych pojawią się skumulowane częstości względne, to kształt linii łamanej nie ulegnie zmianie. Niemniej jednak przedstawienie rozkładu empirycznego cechy za pomocą właśnie skumulowanych częstości względnych związane jest z ważnym w statystyce pojęciem dystrybuanty empirycznej. Dystrybuanta empiryczna F(x) to funkcja określona na podstawie danych (xi, fi) w następujący sposób (por. [5, s. 6]): 0, dla x < xi F ( x ) = fi, dla xi x < xi +, dla x xk Dystrybuantę empiryczną dla szeregu rozdzielczego z przedziałami klasowymi wygodnie jest sporządzić w analogiczny sposób jak kumulantę, tj. nanosząc najpierw histogram częstości względnych skumulowanych, a następnie łącząc niejako granice przedziałów (por. rys..3): Rysunek.4. Dystrybuanta empiryczna wielkości zatrudnienia w wybranych firmach sektora MSP. częstości wzgledne skumulowane 0,75 dys trybuanta em piryczna 0,5 0, wielkość zatrudnienia Źródło: Opracowanie własne.

100 str Opracowanie i prezentacja materiału statystycznego W tym miejscu należy zaznaczyć, iż zarówno wykres kumulanty, jak i dystrybuanty empirycznej w szeregu rozdzielczym klasowym może posłużyć do graficznego wyznaczenia kwartyli, w tym mediany (zob. Miary położenia). W warunkach egzaminu pisemnego, gdzie nie można korzystać z programów komputerowych, w przypadku polecenia odnośnie graficznego wyznaczenia kwartyli wystarczy sporządzić kumulantę (uniknie się zbędnego wyznaczania częstości względnych). Jednak jeżeli polecenie będzie dotyczyło sporządzenia dystrybuanty empirycznej to z uwagi na jej własności konieczne jest wyznaczenie linii łamanej, tak jak pokazano to na rys..4. Zgodnie z przedstawioną definicją wartości, dystrybuanty należą do przedziału [0-]. Ponadto należy wyraźnie rozróżnić wykres dystrybuanty sporządzonej dla szeregu z przedziałami klasowymi od dystrybuanty wyznaczonej dla szeregu punktowego w tym przypadku dystrybuanta będzie miała postać schodkową: Rysunek.5. Dystrybuanta empiryczna liczby kont wybranej grupy internautów. częstości względne skumulowane 0,75 0,5 0, liczba kont Źródło: Opracowanie własne. Cecha X (liczba kont ) przyjmuje wartości od x = 0 do x5 = 4. Dla x < x dystrybuanta przyjmuje wartość równą zeru (nie ma osób posiadają

101 .3. Opracowanie i prezentacja materiału statystycznego str. 0 cych ujemną liczbę kont ). Z drugiej strony wartość dystrybuanty dla x x5 wynosi wszyscy wybrani internauci posiadali co najwyżej 4 konta . Zamalowane punkty oznaczają, że przedział jest domknięty, zaś puste otwarty. W punkcie xi dystrybuanta osiąga wartość częstości względnych skumulowanych do i-tej klasy włącznie, czyli: 0 dla x < 0 0,08 dla 0 0,64 dla F ( x) = 0,88 dla 0,96 dla 3 dla x 4 x < x< x< 3 x< 4 Powyższe przedziały liczbowe na rys..5 zostały przedstawione w postaci poziomych odcinków lewostronnie domkniętych. Ostatnim z omawianych wykresów opisujących strukturę zbiorowości jest tzw. wykres pudełkowy (ramkowy). Wykres ten obrazuje położenie miar pozycyjnych, rozproszenie i asymetrię rozkładu cech mierzonych na skali przedziałowej bądź ilorazowej, a także pozwala na wykrycie obserwacji nietypowych (ang. outliers). Do jego sporządzenia niezbędne są następujące dane: mediana, kwartyl pierwszy (dolny), kwartyl trzeci (górny) oraz najmniejszy i największy wynik obserwacji. Mediana obrazuje odcinek przecinający pudełko na dwie części, ograniczone kwartylem dolnym i górnym. Wąsy wyznaczają wartości ekstremalne minimum i maksimum (por. [, s. 50-5]). W literaturze statystycznej można spotkać wykresy pudełkowe sporządzone w układzie poziomym lub pionowym. Poniżej zamieszczono wykres pudełkowy w układzie pionowym, gdzie oś pozioma pełni wyłącznie pomocniczą rolę (stąd w opcjach wykresu XY ukryto oś OX):

102 str Opracowanie i prezentacja materiału statystycznego Rysunek.6. Porównanie tygodniowych stóp zysku akcji spółki Strzelec i Żywiec (dane za I półrocze 006 r.) tygodniowe stopy zysku (proc.) Źródło: Opracowanie Strzelec na podstawie: Żyw iec Serwis Internetowy Gazety Parkiet, Jak już wspomniano, do sporządzenia wykresu pudełkowego w arkuszu Excela można posłużyć się wykresem giełdowym. W tym celu należy wybrać podtyp Otwarcie-Maks-Min-Zamknięcie, wprowadzając kolejno dane: wartość dolnego kwartyla, maksimum, minimum, wartość kwartyla górnego (oddzielne serie danych). Wygodniej jest najpierw wpisać niezbędne dane w podanej kolejności do arkusza, następnie zaznaczyć je i wybrać wskazany wykres (por. [3, s. 03]). Jest to prosty sposób wykonania wykresu ramkowego w Excelu, co należy uznać za znaczącą zaletę. Niemniej jednak zastosowanie wykresu giełdowego nie pozwala na ukazanie wartości mediany, co ogranicza interpretację. Dlatego też wykres pudełkowy wykonano w arkuszu Excela za pomocą wykresu XY (zob. Przykłady wykresy statystyczne). Ponadto w tego rodzaju wykresy wyposażone są programy do statystycznej analizy danych.

103 .3. Opracowanie i prezentacja materiału statystycznego str. 03 Jeśli chodzi o interpretację wykresów zamieszczonych na rys..6 nie wnikając w sposób obliczania miar pozycyjnych można stwierdzić, że w I półroczu 006 r. tygodniowe stopy zysku akcji spółki Strzelec były znacznie bardziej zróżnicowane. Świadczy o tym m.in. rozstęp, czyli różnica pomiędzy wartością największą i najmniejszą (zob. Miary dyspersji). Wielkość pudełek na tle całego rozstępu obrazuje zmienność wśród 50 proc. obserwacji, określanych mianem typowych tu także większą dyspersją charakteryzują się stopy zysku akcji spółki Strzelec. Kolejną kwestią jest siła i kierunek asymetrii (zob. Miary asymetrii). Jeżeli mediana dzieli pudełko mniej więcej na pół, to można mówić o symetrii w części centralnej rozkładu. Ponadto należy zwrócić uwagę na odległości pomiędzy dolnym kwartylem a minimum oraz górnym kwartylem a maksimum przy symetrii postulowane jest, aby odległości te były sobie równe. Nieznaczną asymetrię prawostronną daje się zaobserwować w rozkładzie tygodniowych stóp zysku akcji Strzelec SA Świadczy o tym dłuższy odcinek łączący górny kwartyl z wartością maksymalną od odcinka będącego połączeniem minimum z kwartylem pierwszym, jak również położenie mediany względem kwartyli w asymetrii prawostronnej mediana znajduje się bliżej dolnego kwartyla (w lewostronnej bliżej górnego). Wreszcie sporządzenie wykresu ramkowego pozwala stwierdzić, czy w badanej zbiorowości występują obserwacje nietypowe. Za takie obserwacje należy uznać te, które są położone w odległości większej niż trzy odchylenia ćwiartkowe (odchylenie jest równe połowie pudełka ) poniżej pierwszego kwartyla bądź powyżej trzeciego. Zatem obserwacje nietypowe znajdują się w odległości większej niż,5 długości pudełka (por. [, s. 53], [3, s. 8-85]). Kolejną grupą wykresów są wykresy korelacyjne. Powszechnie stosowanym wykresem w przypadku danych niepogrupowanych w tablicę korelacyjną jest diagram korelacyjny (zwany także rozrzutem lub chmurą). Diagram korelacyjny służy do graficznej prezentacji danych ilościowych, pogrupowanych w tzw. szereg korelacyjny (zob. np. Dane_do_analizy

104 str Opracowanie i prezentacja materiału statystycznego zakładka Akcje). Wykres ten tworzy się w prostokątnym układzie współrzędnych poprzez nanoszenie punktów o współrzędnych (x, y), obrazujących obserwacje. Diagram korelacyjny pozwala wizualnie ocenić siłę i kierunek ewentualnej zależności pomiędzy cechami X i Y [5, s. 3-33]. Oto przykład ukazujący zależność wartości księgowej na akcję od rentowności kapitałów własnych Grupy Żywiec SA: Rysunek.7. Wartość księgowa na akcję a rentowność kapitałów własnych Grupy Żywiec SA Wartość księgowa na akcję (zł) % -0% 90 0% 0% 0% 30% Rentowność kapitałów własnych (proc.) Źródło: Opracowanie na podstawie: Portal Finansowy Money.pl, Mimo niewielkiej liczby obserwacji (dane roczne) daje się zauważyć korelację dodatnią, tzn. wraz ze wzrostem wartości cechy X rosną ogólnie rzecz biorąc wartości cechy Y (zob. Miary korelacji). Jeżeli dane są pogrupowane w tablicę korelacyjną, to można sporządzić efektownie wyglądający wykres w trzech wymiarach: warianty cechy X, warianty cechy Y oraz liczebności (częstości) pionowa oś Z. Oto przykłady:

105 str Opracowanie i prezentacja materiału statystycznego Rysunek.8. Korzystanie z dodatkowych form nauczania według płci. liczba odpowiedzi ` M 0 K NIE płeć TAK dodatkow e zaj ęcia Źródło: Opracowanie własne. Rysunek.9. Średnia cena mieszkań na rynku wtórnym w wybranych miastach Polski (II kw. 006 r.). cena (zł/m ) Warszawa Kraków Wrocław Gdańsk 500 pok. pok. 3 pok. Poznań 4 pok. Źródło: Opracowanie na podstawie: Serwis Nieruchomości Szybko.pl, Powyższe wykresy zostały wykonane w Excelu. Pierwszy z nich to wykres kolumnowy, podtyp wykres kolumnowy 3-W. Drugi zaś to wykres powierzchniowy (podtyp szkieletowo-powierzchniowy 3-W). Jednak dla celów praktycznych do prezentacji graficznej danych pogrupowanych w tablicę dwudzielną wygodniej jest posłużyć się wykresem regre-

106 str Opracowanie i prezentacja materiału statystycznego sji empirycznej. Wykres regresji empirycznej sporządza się poprzez przyporządkowanie wariantom jednej cechy (w przypadku cechy ciągłej środkom przedziałów klasowych) średnich warunkowych drugiej cechy (z reguły jest to cecha ilościowa). Naniesione w układzie współrzędnych punkty łączy się linią ciągłą, w wyniku czego powstaje łamana. Wykres regresji empirycznej pozwala przede wszystkim na wizualną ocenę kształtu zależności, jej kierunku (dodatnia lub ujemna), a niekiedy siły zależności porównywanych cech [5, s. 4]. Wykres ten jest bardzo użyteczny w przypadku, gdy jedna z cech ma charakter jakościowy. Odwołując się do cen mieszkań w największych polskich miastach w drugim kwartale 006 r. (zob. rys..9): cechą jakościową jest nazwa miasta, a ilościową liczba pokoi. Zmienną zależną jest cena jednego metra kwadratowego (oś Z). W oparciu o te informacje można wyznaczyć średnią cenę jednego metra kwadratowego mieszkania w Polsce w zależności od liczby pokoi: Rysunek.30. Średnia cena mieszkań na rynku wtórnym w Polsce według liczby pokoi (II kw. 006 r.) średnia cena za metr kw liczba pokoi Źródło: Opracowanie na podstawie: Serwis Nieruchomości Szybko.pl, Powyższy wykres wykonano w Excelu z wykorzystaniem wykresu liniowego (ze znacznikami danych wyświetlanymi przy każdej wartości). Poszczególne cechy to średnie arytmetyczne cen mieszkań w większych miastach Polski według liczby pokoi. Ogólnie rzecz biorąc: w objętych analizą mia-

107 str Opracowanie i prezentacja materiału statystycznego stach najdroższe są kawalerki cena za metr kwadratowy spada wraz ze wzrostem liczby pokoi. Trzecią grupą wykresów są wykresy dynamiczne. Powszechnie stosowanym wykresem dynamicznym jest diagram szeregów czasowych, który sporządza się w prostokątnym układzie współrzędnych. Na osi odciętych umieszcza się skalę czasu, zaś na osi OY częstości odpowiadające danemu okresowi [, s. 38]. Poniżej zamieszczono wykres ukazujący sezonowość przychodów ze sprzedaży Grupy Żywiec SA w latach : Przychody ze sprzedaży (mln zł) Rysunek.3. Sezonowość sprzedaży Grupy Żywiec SA w ujęciu wartościowym I Q II Q III Q IV Q I Q II Q III Q IV Q I Q II Q III Q IV Q I Q II Q III Q IV Q Źródło: Opracowanie na podstawie: Skonsolidowane raporty kwartalne Grupy Żywiec SA, Powyższy diagram sporządzono, wykorzystując wykres liniowy MS Excel ze znacznikami danych (por. rys..30). Jak widać, największą sprzedaż producent piwa Żywiec osiąga w sezonie wiosenno-letnim (zob. Analiza sezonowości). Jak wyżej wspomniano, wśród niestandardowych wykresów Excela na uwagę zasługuje m.in. wykres liniowy ( osie). Pozwala on na ukazanie dynamiki dwóch zjawisk o znacząco różniących się jednostkach. Przykłado

108 str Opracowanie i prezentacja materiału statystycznego wo, wykres ten można zastosować do ukazania kształtowania się kursów akcji porównywanych już wcześniej spółek (zob. rys..6): Rysunek.3. Kształtowanie się kursów akcji spółek Strzelec i Żywiec w pierwszej połowie 006 r., ,40,0 500, kurs akcji spółki Żywiec (zł) kurs akcji spółki Strzelec (zł),60 Strzelec Żywiec 0,80 na podstawie: Źródło: Opracowanie ,60 Serwis Internetowy Gazety Parkiet, Na jednej osi znajdują się ceny akcji spółki Strzelec, a na pomocniczej spółki Żywiec. Z uwagi na dużą różnicę cen akcji obu spółek porównanie kursów na tradycyjnym wykresie liniowym (jedna oś pionowa) jest bezzasadne. Podobnie wykres liniowo-kolumnowy ( osie) może posłużyć do ukazania kursów akcji danej spółki (wykres liniowy) na tle obrotów (wykres kolumnowy). Na zakończenie warto też wspomnieć o wykresach sporządzanych w celu porównywania struktur zbiorowości w czasie. Jako przykład można podać

109 str Opracowanie i prezentacja materiału statystycznego zmiany struktury aktywów trwałych i obrotowych Grupy Żywiec w latach : Rysunek.33. Kształtowanie się aktywów Grupy Żywiec SA w latach tys. zł Aktywa obrotowe 000 Aktywa trwałe lata Źródło: Opracowanie na podstawie: Skonsolidowane raporty kwartalne Grupy Żywiec SA, Posłużono się tu dostępnym w Excelu wykresem warstwowym (podtyp: skumulowany). Dwie serie danych (aktywa trwałe i obrotowe), nakładając się warstwami jedna na drugą, stanowią aktywa ogółem. Analogicznie można tu zastosować wykres 00% skumulowany kolumnowy (por. rys..4). Ostatnim, trzecim sposobem prezentacji materiału statystycznego obok metody tabelarycznej i graficznej jest włączenie danych do tekstu. Opisowy charakter prezentacji danych statystycznych jest ważnym uzupełnieniem wymienionych metod. Wzbogacenie opisu danymi ułatwia bowiem interpretację wyników zamieszczonych w tablicach statystycznych czy też przedstawionych na wykresie (por. [0, s. 9]). Opisy takie niejednokrotnie będą pojawiać się w dalszej części niniejszego opracowania.

110 .4. Analiza statystyczna str Analiza statystyczna Analiza statystyczna stanowi ostatni etap badania statystycznego. Ma ona za zadanie wykrycie prawidłowości i zależności zachodzących w badanej zbiorowości statystycznej [7, s. 86]. Zakres analizy statystycznej ukazuje poniższy schemat: Rysunek.34. Zakres analizy statystycznej. Źródło: [9, s. 5]. Ukazany na rys..34 zakres analizy statystycznej wiąże się z klasyfikacją metod statystycznych według następujących kryteriów (por. [9, s. 5], [0, s. 3]):

111 .4. Analiza statystyczna str.. Kryterium formalnego metody opisu i wnioskowania statystycznego.. Kryterium zakresowego metody analizy struktury, korelacji i dynamiki. Nieostry podział metod analizy statystycznej z punktu widzenia zakresu ich zastosowań staje się bardziej czytelny, jeśli wprowadzi się podział na [9, s. 5]:. Deterministyczne metody opisu statystycznego.. Stochastyczne (oparte na rachunku prawdopodobieństwa) metody wnioskowania statystycznego. Powyższy podział został przyjęty w niniejszym opracowaniu łączy on w sobie niejako dwa wymienione wyżej kryteria podziału analizy statystycznej, tj. kryterium formalne i zakresowe. Oto graficzna prezentacja przyjętego podziału metod analizy statystycznej: Rysunek.35. Klasyfikacja metod analizy statystycznej. Źródło: Opracowanie na podstawie: [5, s. 5].

112 .4. Analiza statystyczna str. Opis statystyczny obejmuje następujące elementy (por. [5, s. -]):. Opis struktury danej zbiorowości analiza jednowymiarowa (ze względu na jedną cechę), statyczna (w określonym czasie).. Opis współzależności zjawisk analiza dwuwymiarowa lub wielowymiarowa (badaniu podlega związek pomiędzy co najmniej trzema cechami statystycznymi). Badanie współzależności obejmuje powiązania pomiędzy różnymi cechami opisującymi daną zbiorowość statystyczną. Może ono dotyczyć siły, kierunku i rodzaju zależności wybranych cech (np. zależność liniowa). 3. Opis dynamiki zjawisk stanowi badanie danej zbiorowości w czasie (analiza dynamiki). Wnioskowanie statystyczne polega na uogólnianiu wyników uzyskanych w próbie na całą populację statystyczną. Weryfikacja pewnych założeń odnoszących się do całej zbiorowości statystycznej (weryfikacja hipotez statystycznych) może dotyczyć struktury zjawisk, ich współzależności, jak również dynamiki (por. [5, s. ]). Przyjętej klasyfikacji metod analizy statystycznej odpowiadają dwa duże działy statystyki, a mianowicie (por. [3, s. 4]):. Statystyka opisowa obejmuje metody zbierania danych o całej zbiorowości statystycznej lub próbnej, ich prezentacji i analizy tej zbiorowości w zakresie: struktury z punktu widzenia wybranych cech statystycznych, występowania współzależności między cechami i dynamiki zjawisk (zagadnieniom z tym związanym poświęcono kolejny rozdział).. Statystyka matematyczna obejmuje metody wnioskowania o właściwościach danej zbiorowości statystycznej na podstawie próby losowej pobranej z populacji generalnej (np. szacowanie wartości wybranych charakterystyk danej populacji). Uogólnianie wyników badań częścio

113 .4. Analiza statystyczna str. 3 wych opartych na próbie losowej na całą populację określa się mianem wnioskowania statystycznego (wybrane zagadnienia statystyki matematycznej opisano w rozdziale trzecim). Reasumując, można stwierdzić, iż idea statystyki sprowadza się na ogół do wnioskowania o rozkładzie danej cechy w oparciu o pobraną w sposób losowy próbę zebrany materiał statystyczny, niezależnie od sposobu doboru próby, poddaje się metodom opisu statystycznego. Wyznaczone w oparciu o zbiorowość próbną charakterystyki (miary opisu statystycznego, miary współzależności itp.) różnią się w pewnym stopniu od faktycznych analogicznych miar dla całej populacji. Stąd cennych metod dostarcza wnioskowanie statystyczne, które z określonym prawdopodobieństwem pozwala określić rzeczywistą wartość danej miary statystycznej. Ponadto można postawić pewne hipotezy, dotyczące zarówno wartości parametrów statystycznych, jak również rozkładów cech. W praktyce niektórzy studenci mają problem z rozróżnieniem miar wyznaczonych z próby od analogicznych miar dla całej populacji trudność polega np. na odróżnieniu odchylenia standardowego z próby s od odchylenia, jakie występuje w całej populacji statystycznej σ. W następnym rozdziale wyznaczone miary będą dotyczyć zbiorowości próbnej (przy czym sposób ich obliczania jest taki sam dla całej populacji statystycznej). Natomiast w rozdziale trzecim na podstawie wybranych miar szacowane będą rzeczywiste parametry dla całej populacji generalnej (w praktyce poddanie analizie wszystkich jednostek statystycznych jest zazwyczaj niemożliwe z uwagi na znaczne koszty badań).

114 .5. Trening i ewaluacja str Trening i ewaluacja Aby utrwalić wprowadzone w niniejszym rozdziale wiadomości, warto zamieścić rozbudowany przykład praktyczny. Poniżej zamieszczono dwa przykłady pierwszy z nich dotyczy analizy danych zebranych za pomocą kwestionariusza ankietowego (źródła pierwotne), drugi zaś stanowi analizę rozkładu tygodniowych stóp zysku akcji spółki Żywiec na tle WIG (źródła wtórne). Przykład Celem diagnostycznym jest określenie opinii wybranej grupy Czytelników na temat niniejszej publikacji. Przykładowe dane znajdują się w pliku Dane_do_analizy (zakładka Ankiety). Cel praktyczny to dostosowanie treści, metod i narzędzi dydaktycznych do potrzeb respondentów po to, by zwiększyć skuteczność uczenia się. Można postawić kilka hipotez roboczych, a mianowicie:. Osoby, które są zdania, że e-book ten pomógł im w przygotowaniu się do egzaminu, znacznie lepiej oceniają cenę i jakość treści.. Optymalna struktura treści to przewaga praktyki nad teorią. 3. Większość respondentów to tzw. czuciowcy, którzy w odróżnieniu od wzrokowców bardziej od ilustracji (schematów) preferują w nabywaniu wiedzy animacje i hiperłącza. 4. Najbardziej przydatnym dodatkiem według opinii Czytelników są przykłady wykonane w arkuszu kalkulacyjnym. Mając określony cel badania statystycznego, można przejść do określenia jednostki i zbiorowości statystycznej. Zbiorowość statystyczną tworzą wszyscy potencjalni nabywcy e-booka Statystyka po ludzku. Są to najczęściej studenci, dla których nauka statystyki to prawdziwy koszmar Jednostki statystyczne stanowią poszczególni potencjalni klienci-studenci.

115 .5. Trening i ewaluacja str. 5 Z uwagi na znaczną liczebność zbiorowości generalnej konieczny jest dobór próby. Przykładowe dane dotyczą zaledwie piętnastu ankietowanych (dla celów szkoleniowych przyjęto niewielką liczebność próby). Jest to więc częściowe badanie statystyczne, przeprowadzone metodą ankietową (pominięto tu założenie o losowym doborze próby). Znając już cel i zakres badania statystycznego, można przejść do etapu drugiego obserwacji statystycznej. Z uwagi na specyfikę tematyki badania ma tu miejsce gromadzenie danych ze źródeł pierwotnych (brak źródeł wtórnych, pozwalających na weryfikację postawionych hipotez roboczych). Posłużono się przy tym metodą ankiety, przeprowadzonej z wykorzystaniem formularza zamieszczonego w Internecie (zob. rys..6). Formularz składa się z siedmiu pytań. I tak: pytanie pierwsze bada przydatność publikacji w przygotowaniu się do egzaminu ze statystyki. Zastosowano tu pomiar na porządkowej skali Likerta (cecha porządkowa), przyjmując następujący system kodowania kafeterii: +: zdecydowanie tak, +: raczej tak, 0: trudno powiedzieć, -: raczej nie, -: zdecydowanie nie. Pytanie drugie określające preferencje co do przyswajania wiedzy (elementy graficzne, hiperłącza i animacje) określono na porządkowej skali porównywania parami. Zgodnie z postawioną hipotezą nr 3, wprowadzono następujące oznaczenia: 0: najbardziej preferowane są elementy graficzne (wzrokowcy), : najbardziej preferowane są hiperłącza i animacje (czuciowcy, tj. osoby stroniące od tradycyjnych, statycznych narzędzi dydaktycznych).

116 .5. Trening i ewaluacja str. 6 Pytanie trzecie dotyczy oceny treści zamieszczonych w e-booku według trzech wymiarów: I Nudne/ciekawe. II Teoretyczne/praktyczne. III Zawiłe/przejrzyste. Wykorzystano tu pomiar na skali przedziałowej (dyferencjału semantycznego). Jeśli chodzi o pytanie 4, to polegało ono na wpisaniu wartości procentowych, sumujących się do 00 proc. W arkuszu wyników podano jedynie preferowany przez Czytelnika procentowy udział treści teoretycznych. Następne pytanie rozpisano na sześć pól, którym nadano analogiczne nazwy jak w formularzu od A do E. Są to litery odpowiadające dodatkom do publikacji. Każdej z nich przypisano miejsce od do 6. Jest to przykład cechy porządkowej mierzonej na skali rang. Pytanie szóste oparto na skali przedziałowej, przy czym wybrano tu skalę Stapela. Respondenci za pomocą liczb od 5 do +5 mieli wyrazić odpowiednio dezaprobatę lub aprobatę odnośnie ceny e-booka, jakości treści oraz estetyki. Ostatnie tzw. metryczkowe pytanie dotyczy określenia płci (cecha nominalna). Po zebraniu danych pierwotnych i poddaniu ich kontroli formalnej i merytorycznej następuje przejście do kolejnego etapu badania statystycznego. Grupowanie i zliczanie uzyskanego materiału statystycznego (zob. Przykłady grupowanie danych) jest zgodne z przedstawionymi hipotezami roboczymi.

117 str Trening i ewaluacja przeciętna ocena ceny e-booka Aby dokonać weryfikacji pierwszej hipotezy roboczej, należy pogrupować dane w tablicę korelacyjną (dwudzielną), gdzie w wierszach znajdzie się wykaz klasyfikacyjny pytania, a w kolumnach średnia uzyskanych punktów, dotycząca odpowiednio ceny i treści e-booka. Oto prezentacja tabelaryczna i graficzna (wykresy regresji empirycznej): Serie -3,00-0 0,67,75 4,00 4,00 przeciętna ocena treści e-booka poziom przydatności e-booka Serie -5,00-0 -,67,75 3,50 4,33 poziom przydatności e-booka Porównując dwa powyższe wykresy, można stwierdzić, że osoby wyrażające opinię, że e-book ten raczej pomógł (+) lub zdecydowanie pomógł (+) im w przygotowaniu się do egzaminu z reguły oceniały cenę i treść publikacji na wysokim poziomie, co jest zgodne z wcześniejszym przypuszczeniem.

118 str Trening i ewaluacja Druga hipoteza dotyczy struktury treści materiału dydaktycznego z podziałem na praktyczne i teoretyczne. Wystarczy tu pogrupować dane (udział teorii) w szereg rozdzielczy z przedziałami klasowymi. W oparciu o tak pogrupowane dane można sporządzić wykres dystrybuanty empirycznej: wartość dystrybuanty empirycznej 0,75 0,5 0, procentowy udział teorii Wszyscy ankietowani są zgodni, iż powinno być minimum 5 proc. teorii. Aż trzy czwarte ankietowanych wyraziły opinię (wartość dystrybuanty na poziomie 0,75), iż teorii nie powinno być więcej niż 50 proc. Potwierdza się zatem hipoteza, że optymalna struktura treści to przewaga praktyki nad teorią (tylko co czwarty respondent był odmiennego zdania). Trzecia hipoteza robocza wymaga określenia odsetka odpowiedzi na pytanie drugie. Wystarczy jedynie zliczyć odpowiedzi, wykorzystując np. Raport tabeli przestawnej Excela: 47% 53% wzrokowcy czuciowcy Okazuje się, iż praktycznie połowa ankietowanych to tzw. czuciowcy. W tej sytuacji nie można mówić o słuszności postawionej hipotezy roboczej.

119 str Trening i ewaluacja Ostatnia z postawionych hipotez brzmi: Najbardziej przydatnym dodatkiem według opinii Czytelników są przykłady wykonane w arkuszu kalkulacyjnym. W tym przypadku wystarczy policzyć średnie miejsce, na którym uplasował się dany dodatek: Średnia z P5_E,87 Średnia z P5_D,53 Średnia z P5_C 4,47 Średnia z P5_B 4,07 Średnia z P5_A 5, Z powyższego wykresu wynika, że najwyższe (bliskie ) miejsce uzyskał dodatek oznaczony literą E, czyli tak jak przypuszczano przykłady wykonane w Excelu. W przedstawionej analizie wykonano pewne obliczenia miar opisu statystycznego (średnia arytmetyczna) z wykorzystaniem Raportu tabeli przestawnej (zob. Excel_grupowanie_danych). Szczegółowo najważniejsze miary statystyczne omówione zostaną w rozdziale następnym. Przykład Posiadając dane o cenach akcji spółki Żywiec oraz dane dotyczące poziomu Warszawskiego Indeksu Giełdowego WIG, należy określić rozkłady tygodniowych stóp zwrotu (cel diagnostyczny). Cel praktyczny polega na określeniu atrakcyjności akcji badanej spółki pod względem oczekiwanych stóp zysku. Można postawić hipotezę, iż z uwagi na relatywnie niewielkie ryzyko zmian kursu akcji spółki Żywiec należy oczekiwać średnio mniejszych stóp zysku niż przeciętna zyskowność dla Giełdy Papierów Wartościowych

120 .5. Trening i ewaluacja str. 0 mierzona zmianami indeksu WIG. Innymi słowy, rozkład tygodniowych procentowych zmian WIG jest przesunięty w prawo w porównaniu z rozkładem tygodniowych stóp zysku akcji Żywiec. Zbiorowość statystyczną stanowią sesje giełdowe Giełdy Papierów Wartościowych w Warszawie (cecha przestrzenna) z pierwszego półrocza 006 r. (cecha czasowa). Do obliczeń wybrano sesje w odstępach tygodniowych. Wielkość próby to 5 tygodniowych stóp zysku akcji Żywiec i tygodniowych zmian poziomu WIG cechy ilościowe ciągłe. Drugi etap w tym przypadku sprowadza się do pozyskania danych ze źródeł wtórnych (dane pochodzą z Serwisu Internetowego Gazety Parkiet). Konieczne było przeliczenie dziennych stóp zwrotu na tygodniowe. Etap trzeci stanowi pogrupowanie danych oraz prezentację graficzną. Cechy ilościowe ciągłe należy pogrupować w szereg rozdzielczy z przedziałami klasowymi. Sposób postępowania jest następujący:. Określenie liczby przedziałów klasowych k za pomocą prezentowanych wcześniej wzorów (wybór wzoru zależy z reguły od osoby rozwiązującej zadanie): sposób I: pierwiastek kwadratowy z liczby obserwacji n = 5, sposób II: 5 log n, sposób III: + 3,3 log n. Z obliczeń wynika, że dla 5 sesji giełdowych stopy zwrotu można pogrupować w 5-7 przedziałów klasowych (zob. Przykłady grupowanie danych).. Kolejną kwestią jest obliczenie rozstępu, tj. różnicy pomiędzy wartością maksymalną i minimalną: rozstęp dla WIG: R = 8,67 ( 7,43) = 6, (proc. tygodniowo).

121 str..5. Trening i ewaluacja rozstęp dla akcji Żywiec: R = 6,09 ( 9,59) = 5,68 (proc. tygodniowo). 3. Przyjmując jako liczbę klas k = 7, obliczono rozpiętości przedziałów klasowych: dla WIG: h = 6, / 7 =,3 proc., dla akcji Żywiec: h = 5,68 / 7 =,4 proc. Rozpiętości przedziałów klasowych zostały zaokrąglone w górę do,5 proc. dla obu porównywanych cech. W związku z tym rozstęp zaokrąglono do 7,5 = 7,5. 4. Dolne granice pierwszych przedziałów klasowych ustalono następująco: dla WIG: 7,5 proc. (minimum: 7,43 proc.), dla akcji Żywiec: 0 proc. (minimum: 9,59 proc.). Oto prezentacja wyników w formie tabelarycznej i graficznej (diagramy liczebności): Klasy 0 7,5 7,5 5,0 5,0,5,5 0,0 0,49,5 4,99 5,0 7,49 7,5 0 Środki klas 8,75 6,5 3,75,5,5 3,75 6,5 8,75 SUMA WIG ZWC liczba sesji 8 WIG 6 ZWC 4 0 -,5-7,5 -,5,5 7,5,5 tygodniowe stopy zwrotu (proc.)

122 .5. Trening i ewaluacja str. Z porównania obu rozkładów wynika, że postawiona hipoteza jest słuszna (rozkład stóp zwrotu WIG jest przesunięty w prawo w porównaniu z rozkładem dla spółki Żywiec). EWALUACJA Test Pytanie. Uszereguj kolejno etapy badania statystycznego wpisując liczby od do 4, gdzie oznacza etap pierwszy: a) b) c) d) obserwacja statystyczna: przygotowanie badania: analiza danych: opracowanie i prezentacja materiału statystycznego: Pytanie. Celem badania statystycznego jest określenie struktury klientów wybranego supermarketu pod względem wieku i płci. Mamy tu do czynienia ze zbiorowością: a) b) c) d) nieskończenie liczną niejednorodną wielowymiarową jednowymiarową Pytanie 3. Celem badania statystycznego jest poznanie opinii Czytelników na podstawie przeprowadzonej za pośrednictwem Internetu ankiety. Zastosowano tu pomiar: a) ze źródeł pierwotnych z wykorzystaniem techniki wywiadu skategoryzowanego b) ze źródeł wtórnych z wykorzystaniem danych internetowych

123 .5. Trening i ewaluacja str. 3 c) ze źródeł pierwotnych z wykorzystaniem techniki ankiety d) ze źródeł pierwotnych posługując się obserwacją jawną Pytanie 4. Jednostkę statystyczną w zbiorowości dynamicznej stanowi: a) b) c) d) kwestionariusz ankiety data sesji giełdowej nazwa spółki kwartał Pytanie 5. Przykładami źródeł wtórnych są: a) b) c) d) wyniki ankiety zamieszczonej w czasopiśmie branżowym dane zamieszczone na stronie WWW Urzędu Statystycznego dane uzyskane w wyniku obserwacji uczestniczącej informacje uzyskane z wykorzystaniem wywiadu nieskategoryzowanego Pytanie 6. Do stałych cech statystycznych zalicza się: a) b) c) d) cechy quasi-ciągłe cechy przestrzenne cechy porządkowe cechy czasowe Pytanie 7. Pomiaru cech skokowych (brak własnej jednostki miary) należy dokonać: a) b) c) d) na skali ilorazowej na skali przedziałowej na skali porządkowej na skali nominalnej

124 .5. Trening i ewaluacja str. 4 Pytanie 8. Przykładami cech mierzonych na skali przedziałowej są: a) b) c) d) płeć temperatura w stopniach Celsjusza dochody klientów: do 00 zł, zł, zł, ponad 000 zł preferencje nabywców mierzone za pomocą skali Stapela Pytanie 9. Przykładami cech ilościowych ciągłych mierzonych na skali ilorazowej są: a) b) c) d) wiek respondenta wysokość nad poziomem morza waluta uzyskane punkty z testu (za zadanie można otrzymać 0; 0,5 lub punkt) Pytanie 0. Do porządkowych skal pomiaru postaw nie zalicza się: a) b) c) d) skala Likerta skala rangowa stałych sum skala rang skala porównywania parami Pytanie. Pytanie nr 0 to przykład pytania: a) b) c) d) półotwartego zamkniętego z kafeterią dysjunktywną zamkniętego z kafeterią koniunktywną otwartego Pytanie. Cechy jakościowe dychotomiczne można pogrupować: a) w szereg rozdzielczy z dwoma przedziałami klasowymi b) szereg rozdzielczy politomiczny

125 .5. Trening i ewaluacja str. 5 c) szereg rozdzielczy dychotomiczny d) szereg czasowy Pytanie 3. Wykresem ukazującym strukturę cechy z pytania nr jest: a) b) c) d) diagram czasowy wykres pierścieniowy wykres kołowy histogram Pytanie 4. Przeciętne oceny z egzaminu ze statystyki studentów wybranej uczelni wyższej w latach można przedstawić za pomocą: a) b) c) d) szeregu rozdzielczego z przedziałami klasowymi szeregu czasowego szeregu rozdzielczego punktowego szeregu szczegółowego Pytanie 5. Dominantę można graficznie wyznaczyć sporządzając: a) b) c) d) diagram liczebności histogram liczebności skumulowanych kumulantę histogram natężenia liczebności Pytanie 6. Miary opisu statystycznego adekwatne dla danych zgromadzonych za pomocą skali Likerta to: a) b) c) d) średnia arytmetyczna dominanta wskaźniki struktury (frakcje) odchylenie przeciętne

126 .5. Trening i ewaluacja str. 6 Pytanie 7. W przypadku danych zgromadzonych za pomocą skali Stapela nie można stosować następujących miar: a) b) c) d) średnia arytmetyczna średnia geometryczna kwartyle współczynnik zmienności Pytanie 8. Warunki zastosowania metod wnioskowania statystycznego to: a) b) c) d) badanie pełne badanie częściowe próba pobrana w dowolny sposób badanie częściowe próba pobrana w sposób losowy zastosowanie w badaniach kwestionariusza ankiety Lista zadań nr Zadanie Na podstawie wyników piętnastu ankiet internetowych (zob. Dane_do_analizy.xls, zakładka: Ankiety) należy pogrupować dane znajdujące się w kolumnie P6_Sesja (liczba godzin nauki statystyki tygodniowo w czasie sesji) z uwzględnieniem podziału na osoby korzystające i niekorzystające z dodatkowych form nauczania (PYT_4). Zadanie Wykorzystując funkcję Excela Częstość proszę pogrupować roczne stopy realnego wzrostu PKB 5 państw Unii Europejskiej dla 005 r. (zob. Dane_do_analizy.xls, zakładka: PKB) w odpowiedni szereg statystyczny (proszę nie stosować żadnych zaokrągleń). Dane proszę pogrupować z wykorzystaniem Raportu tabeli przestawnej.

127 str Trening i ewaluacja Zadanie 3 Proszę sporządzić histogram natężenia liczebności dla danych z zadania, przyjmując następujące przedziały klasowe: [0 ), [ 4), [4 6), [6 8), [8 ]. Zadanie 4 Proszę sporządzić diagram czasowy kształtowania się wartości PKB dla Polski w latach na tle UE-5 (zob. Dane_do_analizy.xls, zakładka: PKB). Zadanie 5 Dla danych z zadania 4 proszę sporządzić diagram korelacyjny z wykorzystaniem wykresu XY, dostępnego w arkuszu MS Excel. Zadanie 6 Proszę sporządzić wykres dystrybuanty empirycznej liczby godzin nauki statystyki tygodniowo w czasie sesji dla osób korzystających z dodatkowych form nauczania (dla danych pogrupowanych w zadaniu ). Odpowiedzi do zadań: Zadanie Licznik z P6_Sesja P6_Sesja do godzin ponad 0 Suma końcowa PYT_3 NIE 5 8 TAK 4 7 Suma końcowa 3 9 5

128 str Trening i ewaluacja Zadanie xi 0,,0, 4,0 4, 6,0 6, 8,0 8,0 0, ni Σ Zadanie 3 natężenie liczebności PKB (proc.) Zadanie 4 6 PKB (proc.) 5 4 Pols ka 3 UE

129 str Trening i ewaluacja Zadanie 5 PKB UE-5 (proc.),5,0,5,0 0,0,0 4,0 6,0 PKB Polska (proc.) Zadanie 6 częstości względne skumulowane 0,75 0,5 0, liczba godzin tygodniowo

130 . Opis statystyczny str. 30. Opis statystyczny Opis statystyczny ma sumaryczny charakter, co oznacza, że dotyczy on całej zbiorowości generalnej bądź próbnej, a nie poszczególnych jednostek statystycznych. Opisu statystycznego dokonuje się za pomocą odpowiednich miar [9, s. 30]. W dalszej części tego rozdziału omówiono wybrane miary opisu statystycznego, stosowane w analizie struktury zbiorowości, analizie współzależności oraz analizie dynamiki. Rozdział ten ma zatem analityczny charakter i stanowi wstęp do wnioskowania statystycznego. Dlatego we wszystkich wzorach, gdzie pojawi się liczebność zbiorowości, będzie ona oznaczana literą n jako liczebność zbiorowości próbnej (niemniej jednak wzory te znajdują również zastosowanie przy obliczaniu charakterystyk dla całej populacji generalnej). Tym, na co należy zwrócić uwagę przy studiowaniu niniejszego rozdziału a o czym niejednokrotnie zdarza się zapominać na egzaminie jest rodzaj danej cechy statystycznej i związany z nią typ skali pomiarowej. Jak już była mowa, pomiar cech ilościowych na skalach słabszych pociąga za sobą znaczną utratę informacji. Im silniejszy typ skali pomiarowej, tym więcej miar statystycznych można obliczyć (zob. tabela.5). Ponadto w przypadku cech ilościowych wybór odpowiedniej miary (skorzystanie z prawidłowego wzoru statystycznego) zależy od tego, czy dane są pogrupowane, a jeśli tak, to czy pogrupowano je w szereg rozdzielczy punktowy, czy też szereg rozdzielczy z przedziałami klasowymi. W związku z powyższym przy prezentowaniu miar opisu statystycznego podkreślono, czy dany wzór znajduje zastosowanie dla danych niepogrupowanych, czy też pogrupowanych w szereg rozdzielczy (punktowy lub z przedziałami klasowymi). Zwrócono też uwagę na typ skali pomiaru danych, umożliwiający zastosowanie określonej miary.

131 . Opis statystyczny str. 3.. Opis struktury zbiorowości Przedstawiona w poprzednim rozdziale graficzna prezentacja materiału statystycznego z wykorzystaniem wykresów ukazujących strukturę badanej zbiorowości (zob. wykresy strukturalne) pozwala na wstępną ocenę empirycznego rozkładu zbiorowości ze względu na daną cechę statystyczną. W tym miejscu warto usystematyzować możliwe rozkłady empiryczne. Można je bowiem sklasyfikować w zależności od siły i kierunku ewentualnej asymetrii, jak również z punktu widzenia ilości ośrodków dominujących. Rysunek.. Typologia rozkładów empirycznych cechy ciągłej. Źródło: Opracowanie na podstawie: [9, s. 65].

132 .. Opis struktury zbiorowości str. 3 Szczególne miejsce wśród rozkładów cech zajmuje rozkład normalny, należący do klasy rozkładów jednomodalnych symetrycznych. Jednak w praktyce empiryczne rozkłady cech są na ogół bardziej smukłe bądź bardziej spłaszczone aniżeli teoretyczny rozkład normalny (zob. eksces). Można tu zatem mówić o pewnym stopniu dopasowania danych empirycznych do rozkładu normalnego (zob. Hipotezy nieparametryczne). Rozkłady cechy są w różnym stopniu lewo- bądź prawostronnie asymetryczne. O sile i kierunku asymetrii informują miary asymetrii. Z uwagi na siłę asymetrii rozróżnia się rozkłady umiarkowanie asymetryczne (jeden ośrodek dominujący) bądź rozkłady skrajnie asymetryczne (amodalne). Rozkłady skrajnie asymetryczne to takie, w których prawie wszystkie jednostki mają niskie bądź wysokie wartości cechy [9, s. 33]. Rozkłady typu U zwane też siodłowymi stanowią niejako złożenie rozkładu lewoi prawostronnie asymetrycznego (w tym przypadku zamiast o wartości dominującej można mówić o tzw. antymodzie, tj. wartości będącej przeciwieństwem dominanty). Rozkłady dwumodalne (bimodalne) posiadają dwa wyraźnie widoczne ośrodki dominujące, przy czym żaden z nich nie skupia wartości skrajnych (por. rozkład siodłowy). Przykładem takiego rozkładu może być rozkład częstości kursowania autobusów komunikacji miejskiej (ośrodkami dominującymi są godziny porannego i popołudniowego szczytu). Analogicznie można wyznaczyć rozkład trimodalny (trzy ośrodki dominujące) oraz uogólniając rozkłady wielomodalne (są to raczej teoretyczne przypadki). Istnieje szereg miar statystycznych, służących do opisu zbiorowości statystycznej. Dlatego w literaturze przedmiotu zwykle klasyfikuje się je z punktu widzenia dwóch następujących kryteriów (por. [3, s. 96]): Pierwszy podział miar ze względu na zakres danych niezbędnych do ich wyznaczenia:

133 .. Opis struktury zbiorowości str. 33 miary klasyczne, do wyliczenia których niezbędne są wszystkie jednostki objęte badaniem statystycznym, miary pozycyjne, dla wyznaczenia których potrzebne są tylko wybrane obserwacje ze względu na zajmowaną pozycję w uporządkowanym zbiorze danych. Ten podział miar statystycznych ma swoje implikacje w praktyce. Np. w przypadku danych pogrupowanych w szereg rozdzielczy klasowy z otwartym dolnym lub górnym przedziałem klasowym zastosowanie znajdują miary pozycyjne. Drugi podział pozwala na klasyfikację miar ze względu na rodzaj informacji, jakie one wnoszą o empirycznym rozkładzie cechy statystycznej. I tak wyróżnia się tu (por. [9, s. 35]):. Miary położenia (średnie, przeciętne) służą do określenia wartości cechy, wokół której skupiają się wszystkie pozostałe wartości tej cechy.. Miary dyspersji (zmienności, rozproszenia) badają stopień zróżnicowania wartości cechy, w tym wokół miar średnich. 3. Miary asymetrii (skośności) służą do badania kierunku i siły ewentualnej asymetrii rozkładu zbiorowości ze względu na daną cechę statystyczną. 4. Miary koncentracji pozwalają określić stopień koncentracji wokół wartości średniej, jak również ustalić stopień koncentracji jednostek statystycznych ze względu na wartości badanej cechy (np. koncentracja wysokości wynagrodzeń, obrotów ze sprzedaży itp.). Poniżej przedstawiono typologię miar statystycznych według obu przedstawionych klasyfikacji:

134 str Opis struktury zbiorowości Tabela.. Typologia miar opisu statystycznego. Zakres zastosowań Miary położenia Miary dyspersji Miary asymetrii Miary klasyczne Miary pozycyjne średnia arytmetyczna, średnia harmoniczna mediana, kwartyle, percentyle, dominanta, wariancja, rozstęp, odchylenie standardowe/przeciętne, odchylenie ćwiartkowe, współczynnik zmienności klasyczny, współczynnik zmienności typowy obszar zmienności pozycyjny, typowy obszar zmienności współczynnik asymetrii klasyczny współczynnik asymetrii pozycyjny mieszany współczynnik asymetrii Miary eksces, koncentracj współczynnik koncentracji Lorenza i Źródło: Opracowanie na podstawie: [9, s. 54]. Kolejne podrozdziały odpowiadają klasyfikacji miar statystycznych ze względu na informacje, jakich wyznaczone charakterystyki dostarczają o rozkładzie empirycznym badanej cechy.... Miary natężenia i struktury Miarą natężenia jest wskaźnik natężenia, zaś struktury wskaźnik struktury. Obie te miary odzwierciedlają zależności, proporcje i relacje występujące pomiędzy liczbami absolutnymi [, s. 7]. Wskaźnik natężenia (współczynnik natężenia) to wzajemny stosunek liczebności dwóch zbiorowości pozostających w logicznej zależności [, s. 7]. Wartość wskaźnika natężenia wyznacza się według wzoru:

135 .. Opis struktury zbiorowości str. 35 Współczynnik natężenia jest wielkością mianowaną określa on liczbę jednostek pierwszej zbiorowości przypadającą na określoną jednostkę drugiej zbiorowości [7, s. 89]. Wskaźniki natężenia pojawiły się już we wcześniejszej części tego opracowania. Klasycznym przykładem jest gęstość zaludnienia (zob. rys..5), czyli liczba mieszkańców przypadająca na km powierzchni danego obszaru. Inne ekonomiczne przykłady tego typu wskaźników to (por. [7, s. 89]): liczba mieszkań oddanych do użytku na 000 mieszkańców według województw, cena m powierzchni mieszkania w danym województwie, wskaźnik wydajności pracy, tj. wartość przychodów na zatrudnionego, wskaźnik rotacji aktywów (wartość przychodów ze sprzedaży na zł majątku przedsiębiorstwa), wartość księgowa na akcję, PKB per capita, tj. Produkt Krajowy Brutto na mieszkańca. Ponadto w rozdziale pierwszym pojawił się wskaźnik natężenia niezwiązany z ekonomią, a mianowicie wskaźnik natężenia liczebności. Jeśli jako rozpiętość bazowego przedziału klasowego przyjmie się wartość, to wówczas otrzyma się relację liczebności i-tej klasy (ni) do jej rozpiętości (hi). Innym przykładem wskaźnika natężenia niezwiązanego z dziedziną ekonomii jest prędkość, czyli relacja drogi do czasu mierzona np. liczbą przebytych kilometrów na godzinę czy też w m/s (np. siła wiatru). Oto przykład obliczania wskaźników natężenia: Przykład. W tabeli poniżej zawarte są informacje o zatrudnieniu i wielkości przychodów ze sprzedaży w trzech oddziałach firmy. Na podstawie tych informacji obliczono wskaźniki wydajności pracy:

136 str Opis struktury zbiorowości Tabela.. Wydajność pracy w poszczególnych oddziałach przedsiębiorstwa. Oddziały I II III Σ Przychody (zł mies.) Liczba zatrudnionych Wydajność pracy (zł/os.) / 0 = / 40 = / 0 = / 70 = 000 Źródło: Obliczenia własne na podstawie danych umownych. Najwyższą wydajnością pracy odznacza się oddział trzeci (000 zł mies. przychodu na zatrudnionego). Wyniki te należałoby odnieść do przeciętnej płacy miesięcznej. Należy zauważyć, iż przeciętna wydajność pracy w firmie na poziomie 000 zł mies. na zatrudnionego nie jest średnią arytmetyczną wydajności trzech oddziałów bowiem aby obliczyć średnią wydajność pracy, należy zastosować wzór na średnią harmoniczną. Wskaźniki struktury określane również mianem frakcji lub częstości względnych ukazują udziały poszczególnych części (klas) w danej zbiorowości [0, s. 00]. Wskaźniki te pojawiły się już przy prezentacji graficznej (zob. diagram i histogram). Pojawiło się wtedy pojęcie częstości względnej (frakcji), czyli relacji liczebności danej części (klasy) zbiorowości do ogólnej liczby obserwacji (por. [, s. 3]): Powyższy wskaźnik można też wyrazić w postaci procentowej wystarczy poszczególne frakcje przemnożyć przez 00: fi = ni 00 n

137 str Opis struktury zbiorowości Frakcje sumują się do jedności lub w ujęciu procentowym do 00 procent. Niekiedy w literaturze podaje się wzór pozwalający na wyrażenie wskaźników struktury w promilach (zob. [7, s. 9], [0, s. 0]). Należy podkreślić, iż wskaźniki struktury można wyznaczyć dla cech mierzonych na każdym rodzaju skali pomiarowej do ich obliczenia niezbędne są bowiem liczebności obserwacji posiadających dany wariant cechy bądź należących do określonego przedziału klasowego (por. [0, s. 87]). Jest to zatem uniwersalna miara statystyczna. Oto przykład obliczenia wskaźników struktury na podstawie danych umownych, dotyczących ankiety internetowej odnośnie liczby godzin uczenia się statystyki tygodniowo (zob. Dane_do_analizy.xls, zakładka: Ankiety). Poniższa tabela zawiera niezbędne obliczenia: Tabela.3. Wskaźniki struktury liczby godzin nauki statystyki tygodniowo w czasie sesji i poza sesją. Liczba godzin tygodniowo xi ni do godzin 4 godziny 5 0 godzin ponad 0 godzin Σ Liczebności sesja poza sesją Wskaźniki struktury sesja poza sesją ni fi /5 = 0,067 /5 = 0,33 3/5 = 0,00 9/5 = 0,600 fi 7/5 = 0,467 7/5 = 0,467 /5 = 0,067 0/5 = 0,000 Źródło: Obliczenia własne na podstawie danych umownych. Do porównania struktur dwóch zbiorowości można zastosować wskaźnik podobieństwa struktur (por. [0, s ]):

138 str Opis struktury zbiorowości Nawiązując do powyższego przykładu: do wyznaczenia wskaźnika podobieństwa struktur potrzebne będzie wprowadzenie dodatkowej kolumny (por. tabela.3): Tabela.4. Wskaźnik podobieństwa struktur godzin nauki statystyki tygodniowo w czasie sesji i poza sesją. Liczba godzin tygodniowo xi ni do godzin 4 godziny 5 0 godzin ponad 0 godzin Σ liczebności wskaźniki struktury sesja poza sesją sesja poza sesją ni fi fi min{fi, fi} ,067 0,33 0,00 0,467 0,467 0,067 0,067 0,067 0, ,600 0,000 0,000 0,33 Źródło: Obliczenia własne na podstawie danych umownych. Wartość omawianego wskaźnika jest wielkością unormowaną, tzn. zawiera się w przedziale [0,]. Im większe podobieństwo struktur porównywanych zbiorowości, tym wartość wskaźnika bliższa jedności (dla struktur identycznych wskaźnik osiąga wartość równą ). Wskaźnik na poziomie 0,33 świadczy o dużym zróżnicowaniu struktur liczby godzin nauki statystyki w sesji i poza sesją.... Miary położenia Miary położenia (średnie, tendencji centralnej) w syntetyczny sposób charakteryzują badaną zbiorowość statystyczną. Z uwagi na swój syntetyczny charakter nadają się one do porównań zbiorowości w czasie i przestrzeni. Główną zaletą tych miar w odróżnieniu od wskaźników struktury jest wyrażanie ich wielkości w liczbach mianowanych, tj. w takich jednostkach miary, w jakich wyrażona jest wartość danej cechy statystycznej [7, s. 6-7].

139 .. Opis struktury zbiorowości str. 39 Klasyczną miarą położenia jest średnia arytmetyczna. Należy zaznaczyć, iż miara ta jest dostępna tylko dla cech mierzonych za pomocą skali przedziałowej bądź ilorazowej. W statystyce matematycznej (zob. Wnioskowanie statystyczne) istotne jest rozróżnienie średniej arytmetycznej dla próby od średniej arytmetycznej dla populacji generalnej m (por. [3, s. 99]). To, z jakiego wzoru należy obliczyć średnią arytmetyczną, zależy od tego, czy dane zostały pogrupowane w szereg rozdzielczy czy też nie. I tak, dla danych niepogrupowanych średnią arytmetyczną wyznacza się ze wzoru: Oto przykład obliczania średniej arytmetycznej według powyższego wzoru: Przykład. W ankiecie dla Czytelników (zob. rys..6) w pytaniu nr 6 poproszono respondentów m.in. o ocenę jakości treści niniejszego opracowania na pięciostopniowej skali Stapela. Oto oceny uzyskane na podstawie piętnastu ankiet internetowych (dane umowne): 5, 4, 4, 5, 3, 4,, 4, 3, 5, -, -4,, -, -5 W rozbudowanym przykładzie zamieszczonym w rozdziale pierwszym (Trening i ewaluacja) powyższe dane uśredniono za pomocą Raportu tabeli przestawnej (zob. aplikacja MS Excel: Przykłady grupowanie danych). Ponadto w programie MS Excel wśród funkcji statystycznych (Wstaw, Funkcja, a następnie określenie funkcji statystycznych) dostępna jest wbudowana funkcja obliczająca średnią arytmetyczną dla danych niepogrupowanych: ŚREDNIA(zakres_danych)

140 .. Opis struktury zbiorowości str. 40 Aby tradycyjnie obliczyć średnią arytmetyczną, należy zsumować uzyskane punkty, a następnie podzielić je przez liczbę obserwacji, tj. n = 5 (liczba otrzymanych ankiet): x= 8 =,866 5 Przeciętna liczba punktów wskazuje na pozytywną ocenę prezentowanych treści. Dla danych pogrupowanych w szereg rozdzielczy punktowy oblicza się ważoną średnią arytmetyczną według poniższego wzoru: Przykład. Pewna szkoła prywatna ocenia swoją ofertę edukacyjną według sporządzonej listy kryteriów. W ankiecie przeprowadzonej na reprezentatywnej grupie 00 studentów zadano pytanie: Który z wymienionych czynników jest dla Pana/Pani najistotniejszy? (tylko jedna opcja odpowiedzi): a) b) c) d) e) f) cena kursu, zróżnicowanie oferty edukacyjnej, wiedza i umiejętności kadry dydaktycznej, możliwość nauki przez Internet, dogodna lokalizacja, materiały dydaktyczne wliczone w cenę kursu. Ocena oferty według każdego z powyższych kryteriów została dokonana przez właściciela szkoły w skali od 0 do 0. Aby obliczyć średnią arytmetyczną ważoną, konieczne jest wprowadzenie dodatkowej kolumny xi ni. Oto niezbędne obliczenia:

141 str. 4.. Opis struktury zbiorowości Tabela.5. Średnia ważona ocena atrakcyjności oferty edukacyjnej szkoły prywatnej. Czynniki i a) b) c) d) e) f) Ocena Liczba wskazań Obliczenia pomocnicze xi ni xi ni Σ 7 9 = Źródło: Obliczenia własne na podstawie danych umownych. Na podstawie sporządzonej tabeli pomocniczej można stosunkowo łatwo obliczyć niezbędne sumy xi ni, a następnie podstawić do wzoru na średnią ważoną: k x= i= xi ni n = 0 = 5,6 00 Z uwagi na dysjunktywny charakter pytania ankiety (wymagane wskazanie tylko jednego czynnika) liczba wskazań jest równa liczbie respondentów (n = 00). Uzyskana ważona ocena punktowa gdzie wagami ni są liczby wskazań sugeruje, iż oferta szkoły jest przeciętna. W związku z tym należałoby podjąć pewne działania zmierzające do uczynienia tej oferty bardziej atrakcyjną (np. poszerzenie oferty o dodatkowe kursy). Podstawowym błędem jest niestosowanie odpowiedniego wzoru dla danych pogrupowanych, tj. nieuwzględnianie wag, czyli liczebności cząstkowych ni. W związku z tym zamiast dzielenia przez liczbę wszystkich obserwacji n (w powyższym przykładzie liczbę wskazań), niektórzy studenci dzielą przez liczbę wariantów k (na zasadzie analogii do wzoru na tradycyjną średnią). Należy więc pamiętać o uwzględnianiu wag w przypadku danych pogrupowanych w szereg punktowy bądź z przedziałami klasowymi. Dla danych pogrupowanych w szereg rozdzielczy z przedziałami klasowymi średnią arytmetyczną ważoną oblicza się w analogiczny sposób jak

142 str. 4.. Opis struktury zbiorowości średnią dla szeregu punktowego, przy czym zamiast wartości xi zastosowanie znajdują środki przedziałów klasowych: Środki przedziałów klasowych były już wyznaczane przy prezentacji materiału statystycznego (zob. diagram). Stanowią one średnią arytmetyczną dolnej i górnej granicy przedziału klasowego. Przykład. Inwestor rozważa zakup akcji spółki Żywiec. W związku z tym interesuje go przeciętna wartość tygodniowych stóp zwrotu tych akcji, uzyskanych w pierwszym półroczu 006 r. (zob. Dane_do_analizy.xls, zakładka: Akcje). Dane pogrupowaneow szereg rozdzielczy z przedziałami klasowymi (zob. Przykłady grupowanie danych). Na podstawie pogrupowanych danych należy wyznaczyć ważoną średnią arytmetyczną tygodniowych stóp zwrotu akcji spółki Żywiec. W tabeli poniżej znajdują się niezbędne obliczenia: Tabela.6. Oczekiwana stopa zwrotu z inwestycji w akcje spółki Żywiec (proc. tygodniowo). I Stopy zwrotu xi 0,00 7,5 7,50 5,0 5,00,5,50 0,0 0,00,49,50 4,99 5,00 7,50 Σ Liczba tygodni ni 9 5 Środki klas x i 8,75 6,5 3,75,5,5 3,75 6,5 Obliczenia pomocnicze x i ni ( 8,75) = 8,75 6,5 3,75,5 3,75 3,75 6,5 6,5 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet,

143 .. Opis struktury zbiorowości str. 43 Należy wyjaśnić, iż wartość górnego przedziału klasowego odpowiada wartości dolnego przedziału następnej klasy (różnice z dokładnością do 0,0 informują, że przedziały są lewostronnie domknięte). Przykładowo, środek pierwszego przedziału klasowego obliczono następująco: 0 + ( 7,5) = 8,75 x i = Wartość średnią obliczono w oparciu o wyznaczone sumy w powyższej tabeli: k x= i= x i ni n = 6,5 = 0,5 5 Przeciętna tygodniowa stopa zwrotu akcji spółki Żywiec wyniosła 0,5 proc., stąd w pierwszym półroczu 006 r. inwestycje w te walory nie przyniosły zysków w dłuższym horyzoncie czasu (niewielka strata). Wagami we wzorach na średnie ważone oprócz liczebności ni mogą też być wskaźniki struktury (frakcje fi). Wówczas wzory będą miały postać: a) szereg punktowy: x= k i= xi f i b) szereg klasowy: x= k i= x i f i Przykład. Praktycznym przykładem zastosowania pierwszego z zaprezentowanych powyżej wzorów na średnią ważoną (szereg punktowy) jest określenie oczekiwanej stopy zwrotu portfela akcji. Wagami są udziały poszczególnych walorów. Oto sposób obliczeń:

144 str Opis struktury zbiorowości Tabela.7. Oczekiwana roczna stopa zwrotu portfela akcji. Spółki I Stopa zwrotu (proc.) xi A B C D E Σ Struktura portfela Obliczenia pomocnicze fi xi fi 0,4 0,5 0,05 0,7 0,9, ,4 = 7,9 6,00 0,70 5,94 5, 5,78 Źródło: Obliczenia własne na podstawie danych umownych. Średnia stopa zwrotu portfela wyniosła 5,78 proc. rocznie. Jak widać, wartość średniej została odczytana bezpośrednio z tabeli, bez konieczności dodatkowych obliczeń. Ponieważ miary klasyczne dla danych pogrupowanych w szereg rozdzielczy punktowy oraz dla danych pogrupowanych w szereg z przedziałami klasowymi wyznacza się w sposób analogiczny, stąd w dalszej części teoretycznej będą pojawiać się przykłady obliczeń tego typu miar dla szeregu z przedziałami klasowymi (kontynuacja przykładu z tygodniowymi stopami zwrotu akcji spółki Żywiec). Jeżeli dane występują w postaci wskaźników natężenia, to do wyznaczenia ich wartości przeciętnej jak już zasygnalizowano stosuje się średnią harmoniczną. Rozróżnia się średnią harmoniczną prostą oraz ważoną (por. [, s. 54]): a) średnia harmoniczna prosta:

145 .. Opis struktury zbiorowości str. 45 b) średnia harmoniczna ważona: Przykład. Student postanowił przeznaczyć 300 zł na korepetycje ze statystyki. Wybrał losowo trzech korepetytorów (n = 3), oferujących odpowiednio ceny za godzinę korepetycji: 5 zł, 40 zł i 50 zł. U każdego z nich postanowił zakupić lekcje za kwotę 00 zł. Przeznaczone kwoty pozwoliły odpowiednio na zakup 4 godzin u pierwszego korepetytora,,5 godziny u drugiego oraz godzin u trzeciego (w sumie 8,5 godziny). Ponieważ poszczególne kwoty są sobie równe (po 00 zł), stąd przeciętną cenę jednej godziny korepetycji można obliczyć ze wzoru na prostą średnią harmoniczną: xh = n n i= xi = 3 3 = = 35,9 0, Przeciętna cena korepetycji to 35,9 zł/godz. Wartość tę można uzyskać, dzieląc łączne wydatki na korepetycje (300 zł) przez zakupioną liczbę godzin ogółem (8,5 godz.). Średnią harmoniczną prostą można wyznaczyć w Excelu, posługując się funkcją: ŚREDNIA.HARMONICZNA(5; 40; 50) Możliwe jest oczywiście podanie zakresu komórek, do których wpisano ceny korepetycji (w trzech sąsiadujących wierszach lub kolumnach). Przykład. Wracając do przykładu dotyczącego wydajności pracy (wartość przychodów na zatrudnionego): można stwierdzić, że mamy tu do czynienia ze średnią harmoniczną ważoną. Jako wagi ni cechy będącej relacją dwóch wielkości należy przyjąć wartości jej licznika w tym przykła-

146 str Opis struktury zbiorowości dzie będą to przychody wyrażone w zł (w mianowniku występuje liczba zatrudnionych). Oto sposób obliczenia średniej harmonicznej ważonej: Tabela.8. Przeciętna wydajność pracy w przedsiębiorstwie posiadającym trzy oddziały regionalne. Oddziały I II III Wydajność pracy (zł/os.) xi Σ Przychody (zł) ni Liczba zatrudnionych ni / xi / 000 = / 500 = / 000 = 0 70 Źródło: Obliczenia własne na podstawie danych umownych. Na podstawie obliczeń pomocniczych zawartych w powyższej tabeli można wyznaczyć w prosty sposób średnią harmoniczną ważoną: xh = n = = 000 ni 70 i = x i k Suma wag stanowi ogólną wartość przychodów przedsiębiorstwa (n = ). Wartość średniej harmonicznej informuje, że przeciętna wydajność pracy w badanym przedsiębiorstwie to 000 zł na zatrudnionego. Kolejną grupę obok klasycznych stanowią pozycyjne miary średnie. Ich niewątpliwą zaletą jest to, że mogą być one w przeciwieństwie do średniej arytmetycznej wyznaczone również dla cech mierzonych za pomocą skal słabszych (zob. skala nominalna i skala porządkowa), przy czym dominantę można określić nawet dla cechy mierzonej na skali nominalnej. Inną zaletą jest to, że miary te można obliczyć w oparciu o ograniczony zbiór danych (ma to znaczenie, gdy np. skrajne przedziały klasowe nie są domknięte). Dominantą (modalną, modą) w zbiorze danych jakościowych jest występujący najczęściej i-ty wariant cechy (por. [3, s. 6-7]):

147 .. Opis struktury zbiorowości str. 47 Przykład. Właściciel szkoły prywatnej chce określić najistotniejszy czynnik decydujący o atrakcyjności oferty edukacyjnej. W tym celu poproszono grupę losowo wybranych studentów o określenie jednego z sześciu sugerowanych czynników. Po zliczeniu odpowiedzi okazało się, że aż 9 respondentów (wielkość próby to n = 00 studentów) wskazało na cenę (zob. tabela.5). Zatem cena okazała się czynnikiem najważniejszym. W przypadku danych ilościowych dominantę można wyznaczyć przy założeniu, że rozkład cechy jest jedno- lub wielomodalny, nie zaś amodalny (zob. rys..). Sposób obliczania dominanty zależy od tego czy dane pogrupowano w szereg rozdzielczy punktowy czy też z przedziałami klasowymi (dominanty nie można obliczyć dla danych niepogrupowanych). W szeregu rozdzielczym punktowym wartość dominanty można wskazać od razu, tak jak w przypadku danych jakościowych. Przykład. Rozkład liczby kont (zob. rys..8) jest rozkładem jednomodalnym prawostronnie asymetrycznym (zob. rys..8). Na podstawie sporządzonego histogramu łatwo zauważyć, iż najwięcej ankietowanych internautów posiadało jedno konto . W tym miejscu warto podkreślić, iż dominanta to wartość cechy, a nie odpowiadająca jej liczebność. Niejednokrotnie zamiast podania wartości dominanty (w tym przypadku jedno konto ) zdarza się, że student podaje liczebność (w tym przykładzie liczba internautów). W szeregu rozdzielczym z przedziałami klasowymi wyznaczenie wartości dominanty wymaga zastosowania wzoru interpolacyjnego (zob. szacunek statystyczny). Bardzo pomocne jest graficzne wyznaczenie dominanty. W tym celu należy sporządzić histogram (dla równych przedziałów klasowych jest to histogram liczebności lub histogram częstości względnych),

148 str Opis struktury zbiorowości a następnie ustalić punkt przecięcia się linii, tak jak pokazano to na rys..: Rysunek.. Rozkład tygodniowych stóp zwrotu akcji spółki Żywiec w I półroczu 006 r. 0 liczba sesji ,5-0 -7,5-5 -,5 0,5 5 7,5 0 tygodniowe stopy zwrotu (proc.) Źródło: Opracowanie na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, Po zrzutowaniu argumentów punktu, w którym przecięły się wyznaczone linie, na oś OX otrzymano wartość dominanty (por. [3, s. 9]). Analitycznie wielkość tę można wyznaczyć ze wzoru dla danych pogrupowanych w szereg rozdzielczy z równymi przedziałami klasowymi: Przykład. Na podstawie danych dotyczących tygodniowych stóp zwrotu akcji spółki Żywiec należy obliczyć dominantę, czyli najczęstszą tygodniową stopę zwrotu. W oparciu o sporządzony histogram (zob. rys..) nie

149 .. Opis struktury zbiorowości str. 49 trudno stwierdzić, iż przedziałem dominanty jest przedział: [0-,5 proc.). Do obliczenia dominanty niezbędne są następujące informacje (zob. tabela.6): a) b) c) d) e) dolna granica przedziału dominanty: x0 = 0, liczebność przedziału dominanty: nd =, liczebność przedziału sąsiedniego poprzedzającego: nd- = 9, liczebność przedziału sąsiedniego następnego: nd+ =, rozpiętość przedziału klasowego (wszystkie przedziały są sobie równe): h =,5. Po podstawieniu do wzoru należy pamiętać, że otrzymaną liczbę na końcu dodajemy do dolnej granicy (w tym przykładzie nie ma to znaczenia, bo wartość ta jest równa zeru): D = x0 + nd nd 9 h = 0+,5 = 0 +,5 = 0,47 ( nd nd ) + ( nd nd + ) ( 9) + ( ) Zatem w pierwszym półroczu 006 r. najczęstsza tygodniowa stopa zysku z akcji spółki Żywiec była wielkością dodatnią (0,4 proc.), tj. ok.,7 proc. miesięcznie. Szczególną ostrożność przy wyznaczaniu miar pozycyjnych, w tym dominanty, należy zachować w przypadku szeregu rozdzielczego z nierównymi przedziałami klasowymi. Zwrócono już na ten fakt uwagę przy omawianiu wykresów statystycznych. Wracając do przykładu z rozkładem wieku budynków mieszkalnych w Polsce (stan na 00 r.): w tym wypadku można obliczyć dominantę na podstawie rys..0. Jak stwierdzono, dominanta zawiera się w przedziale (zob. tabela.8). Znajduje tu zastosowanie wzór analogiczny do wzoru na dominantę w szeregu rozdzielczym z równymi przedziałami klasowymi, przy czym pojawią się tu wskaźniki natężenia liczebności li:

150 .. Opis struktury zbiorowości str. 50 Podstawiamy do wzoru następujące wartości: a) dolna granica przedziału dominanty: x0 = 97, b) natężenie liczebności przedziału dominanty: ld = 3493, c) natężenie liczebności przedziału sąsiedniego poprzedzającego: ld- = 58, d) natężenie liczebności przedziału sąsiedniego następnego: ld+ = 857, e) rozpiętość przedziału dominanty: hd = 8. D = = = 977 ( ) + ( ) Jak wynika z obliczeń przeprowadzonych na podstawie danych Narodowego Spisu Powszechnego z 00 r. najwięcej mieszkań w Polsce wybudowano w 977 r. Są to na ogół piętrowe budynki, wznoszone z betonowych płyt. W szeregach rozdzielczych z nierównymi przedziałami klasowymi wyznaczenie dominanty niejednokrotnie może okazać się sprawą trudną. Podstawowy błąd polega na nieodpowiednim sporządzeniu histogramu (dla liczebności zwykłych zamiast dla natężenia liczebności) i co się z tym wiąże niestosowaniu wzoru uwzględniającego wskaźniki natężenia liczebności stąd kluczowe znaczenie ma prawidłowe sporządzenie histogramu. Dla danych opartych minimum na skali porządkowej można obok dominanty obliczyć kwantyle. Kwantyle to wartości cechy badanej w zbioro

151 .. Opis struktury zbiorowości str. 5 wości, które dzielą ją na określone części pod względem liczby jednostek. Części te mogą być równe lub pozostawać do siebie w określonych proporcjach [9, s. 43]. W szczególności wśród kwantyli wyróżnia się percentyle (dzielące zbiorowość na 00 części), decyle (0 części) i kwartyle (4 części). W przypadku danych indywidualnych (niepogrupowanych) istotne jest to, aby warianty cechy były uporządkowane rosnąco. Ogólnie k-tym percentylem w uporządkowanym zbiorze wartości cechy jest taka wartość, poniżej której znajduje się k-ty procent wartości z tego zbioru (por. [3, s. 9]): Przykładowo, 8 percentyl (k = 0,8) dzieli zbiorowość w ten sposób, że 8 proc. jednostek statystycznych posiada wartości nie większe niż wartość tego kwantyla. W wielu sytuacjach wartość danego percentyla nie pokrywa się z wartością danego wyrazu w uporządkowanym rosnąco szeregu statystycznym, lecz z wielkością znajdującą się pomiędzy dwoma wyrazami: Pk ( xi, xi + ) W tej sytuacji należy skorzystać z bardziej zaawansowanego wzoru interpolacyjnego: Pozycję percentyla ustala się analogicznie jak numer obserwacji w pierwszym prezentowanym wzorze na k-ty percentyl:

152 .. Opis struktury zbiorowości str. 5 N Pk = + k ( n ) Jedynie w przypadku szczególnym, gdzie pozycja percentyla jest liczbą całkowitą, jej wartość można wyznaczyć od razu: Pk = xi. Medianę, będącą drugim kwartylem (5 decylem, 50 percentylem), można obliczyć z następujących (uproszczonych) wzorów: a) liczba obserwacji nieparzysta: Me = x ( n + ) b) liczba obserwacji parzysta: Me = x + x n+ n Wielkość ta dzieli populację na dwie części. Dla parzystej liczby obserwacji jest to wyraz środkowy uporządkowanego ciągu (szereg szczegółowy), zaś dla nieparzystej liczby obserwacji średnia arytmetyczna z dwóch środkowych wartości tego ciągu. Oto przykłady: Przykład. Wyznaczyć medianę i pozostałe kwartyle przeciętnej ceny jednego metra kwadratowego mieszkania -pokojowego na rynku wtórnym w większych miastach Polski (zob. Dane_do_analizy.xls; zakładka: Mieszkania). Punktem wyjścia jest uporządkowanie danych rosnąco: Poznań: 3606 zł/m. Gdańsk: 3630 zł/m. Wrocław: 4500 zł/m. Kraków: 5843 zł/m. Warszawa: 5993 zł/m. Z uwagi na nieparzystą liczbę danych (n = 5) medianę wyznacza się według wzoru:

153 .. Opis struktury zbiorowości Me = x ( n + ) = x ( 5 + ) str. 53 = x3 = 4500 Wartością środkową, czyli medianą, okazała się przeciętna cena metra kw. mieszkania -pokojowego we Wrocławiu. W dwóch porównywanych miastach ceny w analogicznym okresie okazały się niższe (Poznań, Gdańsk), a w pozostałych dwóch wyższe (Kraków, Warszawa). Pozostałe kwartyle, tj. kwartyl pierwszy (dolny) i trzeci (górny) można wyznaczyć z ogólnego wzoru na k-ty percentyl: a) kwartyl pierwszy (5 percentyl): P0, 5 = x+ 0, 5 ( 5 ) = x+ = x = 3630 b) kwartyl trzeci (75 percentyl): P0,75 = x+ 0,75 ( 5 ) = x+ 3 = x4 = 5843 W przypadku jednej czwartej miast objętych analizą cena metra kw. kawalerki nie przekroczyła 3630 zł (Poznań) w pozostałych miastach ceny w badanym okresie były wyższe. Analogicznie interpretuje się kwartyl trzeci: ceny metra kw. kawalerki w 75 proc. analizowanej zbiorowości nie przekroczyły 5843 zł w pozostałych 5 proc. porównywanych miast były one wyższe (Warszawa). Analizę tę można uogólnić na większą liczbę miast. Przykład. W pierwszym pytaniu kwestionariusza ankiety dla Czytelników (wzór kwestionariusza zaprezentowano na rys..6) respondenci mieli określić czy niniejsza publikacja pomogła im w przygotowaniu się do egzaminu. Dane umowne zawiera arkusz Dane_do_analizy.xls (zakładka Ankiety). Przyjęto następujący sposób kodowania danych: zdecydowanie nie, raczej nie, 0 trudno powiedzieć,

154 str Opis struktury zbiorowości + raczej tak, + zdecydowanie tak. Należy obliczyć medianę i pierwszy kwartyl na podstawie wybranych ankiet. Tak jak w przykładzie poprzednim, najpierw należy posortować odpowiedzi rosnąco: Numer obserwacji i Wartości wyrazów xi Z uwagi na parzystą liczbę objętych analizą formularzy (n = ) do obliczenia mediany znajduje zastosowanie drugi z prezentowanych wyżej wzorów: Me = = ( x6 + x7 ) = ( 0 + ) = 0,5 x + x = x + x n n + + Zatem połowa respondentów nie miała zdania (0) lub stwierdziła, że e-book nie był pomocny w przygotowaniu się do egzaminu ze statystyki (, ). Jednocześnie co drugi ankietowany przyznał, że publikacja okazała się przydatna w zdaniu egzaminu (+, +). Jeśli chodzi o kwartyl pierwszy, to w tym przykładzie szukana wartość znajduje się pomiędzy trzecim (i = 3) a czwartym wyrazem uporządkowanego rosnąco ciągu liczb: N P0, 5 = + 0,5 ( n ) = + 0,5 ( ) = 3,75 ( 3, 4) W tej sytuacji należy posłużyć się wzorem interpolacyjnym. ( ) P0, 5 = x3 + N P0, 5 3 ( x4 x3 ) = + ( 3,75 3) ( 0 ( ) ) = + 0,75 = 0,5 Zdaniem co czwartego Czytelnika publikacja nie była lub raczej nie była mu pomocna w przygotowaniu się do egzaminu. Dane w postaci szeregu punktowego należy tak traktować, jak dane w postaci omówionego szeregu szczegółowego (analogiczny sposób wyznaczania percentyli). W programie MS Excel wbudowana jest funkcja, którą

155 str Opis struktury zbiorowości można stosować do wyznaczania wartości k-tego percentyla dla danych niepogrupowanych: PERCENTYL(zakres_danych; k) Dla danych pogrupowanych w szereg rozdzielczy z przedziałami klasowymi jak już zasygnalizowano kwartyle można wyznaczyć graficznie poprzez narysowanie wykresu kumulanty (zob. rys..3). Poniżej przedstawiono sposób graficznego wyznaczania wartości kwartyli (analogicznie można wyznaczyć dowolny percentyl) dla danych będących kontynuacją przykładu dotyczącego tygodniowych stóp zysku cen akcji spółki Żywiec: Rysunek.3. Wykres kumulanty tygodniowych stóp zwrotu akcji spółki Żywiec w I półroczu 006 r. 5 liczba sesji narastająco 8,75,5 6,5 0 -,5-7,5 -,5,5 7,5 tygodniowe stopy zwrotu (proc.) Źródło: Opracowanie na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, Po zrzutowaniu punktów przecięcia się pozycji kwartyli (poziome linie przerywane) z kumulantą otrzyma się wartości kwartyli (odczyt z osi OX). Wielkości te można obliczyć, stosując wzór interpolacyjny dla da-

156 .. Opis struktury zbiorowości str. 56 nych pogrupowanych w szereg rozdzielczy z przedziałami klasowymi (uogólnienie interpolacyjnego wzoru dla danych niepogrupowanych): Pozycję percentyla wyznacza się natomiast ze wzoru: Przy obliczaniu kwartyli najpierw należy ustalić ich pozycje:. Pierwszy kwartyl to wartość cechy, dzieląca daną zbiorowość w ten sposób, że 5 proc. jednostek przyjmuje wartości mniejsze lub równe tej wartości, a pozostałe większe; stąd pozycja tego kwartyla wynosi 0,5 n.. Drugi kwartyl (mediana) to wartość cechy, dzieląca populację na połowę stąd pozycja 0,5 n. 3. Trzeci kwartyl to wartość cechy, dzieląca populację w proporcji: 75 proc. jednostek przyjmuje wartości nie większe od trzeciego kwartylu, a pozostałe 5 proc. wartości większe dlatego pozycja tego kwartyla to 0,75 n. Następnie należy określić przedziały klasowe, w których znajdują się poszczególne kwartyle. Pomocne jest tu graficzne wyznaczenie kwartyli (zob. rys..3). Niemniej jednak przedział kwartyla można wyznaczyć bezpośrednio z tabeli danych (zob. tabela.9). Jeśli suma liczebności przekroczy po-

157 str Opis struktury zbiorowości ziom pozycji kwartyla, to w danym przedziale zawiera się kwartyl, którego szukamy. Oto określenie przedziału mediany (pozycja mediany to,5): Tabela.9. Tygodniowe stopy zwrotu z inwestycji w akcje spółki Żywiec (liczba sesji narastająco). Stopy zwrotu I xi 0,00 7, ,50 5,0 5,00,5,50 0,0 0,00,49,50 4,99 5,00 7,50 Σ Liczba Liczba sesji tygodni narastająco ni 9 5 Komentarz Wartości mniejsze od pozycji mediany: <,5 3 3 Pozycja mediany przekroczona: 3 >,5 4 5 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, Mając już określone przedziały kwartyli, w kolejnym kroku należy określić dolną granicę, liczebność i rozpiętość przedziału danego kwartyla (zakładamy tu równe klasy). Potrzebne są także liczebności skumulowane do przedziału poprzedzającego włącznie. Oto zestawienie danych niezbędnych do obliczenia pierwszego kwartyla: a) b) c) d) pozycja pierwszego kwartyla: 6,5 dolna granica przedziału pierwszego kwartyla:,5 liczebność przedziału pierwszego kwartyla: 9 suma liczebności trzech klas poprzedzających przedział pierwszego kwartyla: 3 e) rozpiętość przedziału pierwszego kwartyla:,5 Podstawiamy do wzoru: Q = x0 + ( 0,5 n ni sk ) hi,5 =,5 + ( 6,5 3) =,597 ni 9

158 .. Opis struktury zbiorowości str. 58 Jedna czwarta tygodniowych stóp zwrotu to spadki na poziomie minimum,6 proc. A oto analogiczne dane niezbędne do wyznaczenia mediany: a) b) c) d) e) pozycja mediany:,5 dolna granica przedziału mediany: 0 liczebność przedziału mediany: suma liczebności czterech klas poprzedzających przedział mediany: rozpiętość przedziału mediany:,5 Me = x0 + ( 0,5 n ni sk ) hi,5 = 0 + (,5 ) = 0,4 ni Połowa osiągniętych tygodniowych stóp zysku przekroczyła poziom, proc. W przedziale czwartym znajduje się także trzeci kwartyl, stąd w porównaniu z medianą zmieni się tu tylko pozycja kwartyla: Q3 = x0 + ( 0,75 n ni sk ) hi,5 = 0 + (8,75 ) =,534 ni W przypadku 5 proc. tygodni miały miejsce stopy zysku przekraczające,5 proc. Pomiędzy wyznaczonymi miarami tendencji centralnej mogą zachodzić następujące zależności (por. [7, s. ]): a) rozkład symetryczny: x = Me = D

159 .. Opis struktury zbiorowości str. 59 b) rozkład lewostronnie asymetryczny: x < Me < D c) rozkład prawostronnie asymetryczny: D < Me < x Z powyższego porównania wynika, że miary pozycyjne są znacznie mniej czułe na obserwacje nietypowe, stąd jest postulowane ich zastosowanie w przypadku rozkładów cechy o znacznej asymetrii. Ponadto jak już wspomniano zastosowanie tych miar nie wymaga zaangażowania do obliczeń wszystkich obserwacji, co jest ważne w przypadku niedomkniętych skrajnych przedziałów klasowych. Średnią arytmetyczną można zastosować w przypadku, gdy rozkład cechy nie jest skrajnie asymetryczny czy wielomodalny. Dużym atutem tej miary jest jej stosunkowo proste obliczanie. Poza tym stanowi ona podstawę do wyznaczania innych miar klasycznych...3. Miary dyspersji Miary rozproszenia tak jak miary położenia można podzielić na klasyczne i pozycyjne. Ponadto możliwy jest podział tych miar na (por. [9, s. 48]): bezwzględne (absolutne), względne (relatywne, stosunkowe). Powyższy podział ma istotne znaczenie z punktu widzenia skal pomiarowych. Miary zróżnicowania bezwzględne z uwagi na konieczność określenia odchyleń (różnic) można obliczyć w przypadku, gdy pomiar danych odbywa się co najmniej na skali przedziałowej (jest tu zatem mowa o cechach ilościowych oraz quasi-ilościowych, tj. porządkowych mierzonych na tej skali). Natomiast miary rozproszenia względne ze względu na

160 str Opis struktury zbiorowości ich relatywny charakter można wyznaczyć wyłącznie dla cech, których pomiaru dokonano na najsilniejszej skali, tj. skali ilorazowej (stosunkowej). Mamy tu zatem do czynienia wyłącznie z cechami ilościowymi, posiadającymi naturalny (a nie umowny) punkt zerowy i własną (a nie umowną) jednostkę miary. Oto klasyfikacja omawianej grupy miar opisu statystycznego według obu wspomnianych kryteriów: Tabela.0. Klasyfikacja miar dyspersji. MIARY KLASYCZNE wariancja, MIARY BEZWZGLĘDNE odchylenie przeciętne, (skala przedziałowa lub odchylenie standardowe, ilorazowa) typowy obszar zmienności MIARY WZGLĘDNE (skala ilorazowa) współczynnik zmienności oparty na odchyleniu przeciętnym, współczynnik zmienności oparty na odchyleniu standardowym MIARY POZYCYJNE rozstęp, rozstęp międzykwartylowy, odchylenie ćwiartkowe, typowy obszar zmienności współczynnik zmienności kwartylowy, współczynnik zmienności oparty na odchyleniu ćwiartkowym Źródło: Opracowanie na podstawie: [3, s. 40]. Wariancja to przeciętne kwadratowe odchylenie poszczególnych wyników do ich średniej [, s. 4]. Interpretacja wariancji jest utrudniona z uwagi na fakt, że jej mianem jest kwadrat jednostki, w jakiej mierzona jest dana cecha można stwierdzić, że im wyższa jest wariancja, tym większe zróżnicowanie zbiorowości ze względu na badaną cechę (por. [9, s. 5]). W związku z powyższym bardziej adekwatną miarą jest odchylenie standardowe, czyli pierwiastek z wariancji. W tej sytuacji interpretacja jest prosta, ponieważ odchylenie standardowe nie podnosi jednostek miary danej cechy do kwadratu. Informuje, ile średnio wartości odchylają się +/ od średniej arytmetycznej.

161 .. Opis struktury zbiorowości str. 6 Przy obliczaniu wariancji lub odchylenia standardowego należy zwrócić uwagę, czy dane są pogrupowane, jak również na liczbę obserwacji. W tej publikacji za małą zbiorowość statystyczną w tym zbiorowość próbną uznano taką zbiorowość, w której liczba obserwacji nie przekracza 30 (n 30). W tej sytuacji dla danych niepogrupowanych do obliczenia wariancji znajduje zastosowanie następujący wzór (w mianowniku wzoru zamiast n znajduje się n ): Wariancję dla dużych prób (n > 30) w zależności od sposobu pogrupowania danych oblicza się następująco: a) dane niepogrupowane: b) szereg rozdzielczy punktowy:

162 str. 6.. Opis struktury zbiorowości c) szereg rozdzielczy z przedziałami klasowymi: Odchylenie standardowe oblicza się jako pierwiastek kwadratowy z wariancji. Zatem wyznaczenie wariancji można traktować jako etap pośredni do obliczenia odchylenia standardowego. Oto wzory (odpowiednio: mała i duża próba): sˆ = sˆ s= s Kolejną klasyczną miarą rozrzutu jest odchylenie przeciętne, czyli średnia arytmetyczna modułów odchyleń wartości cechy o jej średniej arytmetycznej [3, s. 43]. Oto wzory na obliczanie tej miary w zależności od sposobu pogrupowania danych (oznaczenia analogiczne do oznaczeń we wzorach na obliczanie wariancji): a) dane niepogrupowane: n d= i= xi x n b) szereg rozdzielczy punktowy: k d= i= xi x ni n

163 str Opis struktury zbiorowości c) szereg rozdzielczy z przedziałami klasowymi: k d= i= x i x ni n Wartość odchylenia przeciętnego jest mniejsza od odchylenia standardowego, ponieważ zamiast sumy kwadratów odchyleń od średniej arytmetycznej stosuje się tu sumę wartości bezwzględnych. Jeżeli rozkład cechy charakteryzuje niewielka asymetria, to między tymi miarami zachodzi następująca relacja [3, s. 43]: d 0,8 s Oto przykłady obliczenia wybranych klasycznych miar absolutnych: Przykład. Nawiązując do przykładu z przeciętną ceną metra kwadratowego kawalerki w większych miastach Polski (xi) należy obliczyć zróżnicowanie cen w tych miastach. Znajduje tu zastosowanie wzór na wariancję dla danych niepogrupowanych (mała próba). Godnym polecenia rozwiązaniem jest sporządzenie następującej tabeli pomocniczej: Tabela.. Zmienność cen kawalerek w wybranych miastach Polski na rynku wtórnym (tys. zł/m). i Miasto Gdańsk Kraków Poznań Warszawa Wrocław Σ xi 3,630 5,843 3,606 5,993 4,500 3,57 xi x,084,9,08,79 0,4 xi x,084,9,08,79 0,4 4,84 ( xi x ),76,74,9,635 0,046 5,359 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Nieruchomości Szybko.pl,

164 .. Opis struktury zbiorowości str. 64 Średnia cena metra kwadratowego kawalerki to 4,7 tys. zł. Wartość ta jest niezbędna do obliczenia wariancji. Po dokonaniu obliczeń pomocniczych sumę z ostatniej kolumny tabeli. podstawiamy do licznika odpowiedniego wzoru na wariancję: n sˆ = ( x x) i= i = n 5,359 =,34 5 Mając wyznaczoną wariancję, można łatwo obliczyć odchylenie standardowe: sˆ = sˆ =,34 =,57 Ponadto można obliczyć odchylenie przeciętne, stąd w tabeli. pojawiła się kolumna z wartościami bezwzględnymi: n d= i= xi x n = 4,84 = 0,963 5 Jak widać, odchylenie przeciętne jest mniejsze od standardowego. Z powyższych obliczeń wynika, że ceny mieszkań w analizowanym okresie odchylały się od wartości przeciętnej dla porównywanych miast o ok. tys. zł/m. Warto zaznaczyć, że celowo wprowadzono ceny mieszkań w tys. zł po to, aby uniknąć bardzo dużych liczb (w dalszych obliczeniach liczby będą podnoszone nawet do czwartej potęgi zob. miary koncentracji). Przykład. W finansach odchylenie standardowe można interpretować jako ryzyko danego instrumentu finansowego, zaś średnią arytmetyczną jako oczekiwaną stopę zysku. Aby obliczyć ryzyko inwestycji w akcje spółki Żywiec, należy wprowadzić dodatkowe kolumny, zawierające obliczenia pomocnicze (por. Tabela.6):

165 str Opis struktury zbiorowości Tabela.. Obliczenie ryzyka inwestycji w akcje spółki Żywiec (proc. tygodniowo). Stopy zwrotu Liczba tygodni i xi ni 0,00 7,5 7,50 5,0 3 5,00,5 4,50 0,0 5 0,00,49 6,50 4,99 7 5,00 7, Σ x i ni x i 8,75 8,75 6,5 6,5 3,75 3,75,5,5,5 3,75 3,75 3,75 6,5 6,5 6,5 x i x 8,50 6,00 3,50,00,50 4,00 6,50 ( x i x ) ( x i x ) ni 7,5 36,00,5,00,5 6,00 4,5 7,5 36,00,5 9,00 4,75 6,00 4,5,5 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, W przypadku danych pogrupowanych należy pamiętać o wprowadzeniu ostatniej kolumny uwzględniającej liczebności ni (por. tabele. i.). Dla danych niepogrupowanych wagi ni są równe jedności, stąd uproszczony wzór na obliczanie wariancji w przykładzie poprzednim. Mając określoną sumę kwadratów odchyleń od średniej arytmetycznej, podstawiamy tę wartość do licznika odpowiedniego wzoru (w tym przykładzie przyjęto wzór dla dużej liczby obserwacji): k s = ( x i= i x ) ni n =,5 = 8,5 5 Po obliczeniu wariancji wyznaczamy odchylenie standardowe: s= s = 8,5 =,95 Oczekiwana tygodniowa stopa zysku z inwestycji w akcje analizowanej spółki wyniosła 0,5 proc., zaś będące miarą ryzyka odchylenie standardowe informuje, iż przeciętnie osiagane stopy zwrotu odchylały się od wartości średniej plus/minus,9 proc. W oparciu o bezwzględne miary statystyczne trudno jest wnioskować np. które papiery waartościowe są bardziej ryzykowne w porównaniu z oczeki

166 .. Opis struktury zbiorowości str. 66 wanymi stopami zysku. W tej sytuacji zastosowanie znajdują względne miary dyspersji. Do klasycznych miar tego typu należy klasyczny współczynnik zmienności (por. [, s. 78]): a) oparty na odchyleniu standardowym (proc.): b) oparty na odchyleniu przeciętnym (proc.): Oto prosty przykład, pozwalający ocenić, który fundusz inwestycyjny należy wybrać, tak aby osiągnąć możliwie duże zyski przy umiarkowanym ryzyku inwestycyjnym: Przykład. Inwestor rozważa zakup jednostek uczestnictwa funduszu zrównoważonego Z lub zainwestowanie tych samych środków finansowych w jednostki uczestnictwa funduszu akcji A. W ciągu ostatnich lat fundusz akcji osiągnął średnią miesięczną stopę zwrotu na poziomie 4,4 proc., zaś zrównoważony średnio, proc. miesięcznie. Jednak ryzyko związane z inwestowaniem w fundusze akcji jest również większe. I tak odchylenie standardowe dla funduszu A wyniosło, proc. miesięcznie, zaś dla zrównoważonego odpowiednio 0,5 proc. Należy obliczyć współczynniki zmienności: a) fundusz akcji: Vs = s, 00 = 00 = 7,7 x 4,4

167 .. Opis struktury zbiorowości str. 67 b) fundusz zrównoważony: Vs = s 0,5 00 = 00 = 3,8 x, Optymalną decyzją jest tu wybór funduszu zrównoważonego, ponieważ charakteryzuje się on względnie małym ryzykiem w porównaniu z oczekiwanym zyskiem. Klasyczne miary dyspersji badają zmienność wartości danej cechy w oparciu o wszystkie obserwacje. W przypadku występowania obserwacji nietypowych może dojść do znacznego zwiększenia zmienności, co niekiedy prowadzi do błędnej interpretacji. W związku z powyższym można zastosować pozycyjne miary dyspersji. Prostą miarą jest rozstęp, czyli różnica pomiędzy wartością największą i najmniejszą (rozstęp był już obliczany do wyznaczenia przedziałów klasowych). Jednak rozstęp podobnie jak miary klasyczne jest wrażliwy na nietypowe obserwacje. Mniej wrażliwy na wyniki skrajne jest natomiast odstęp międzykwartylowy, czyli różnica pomiędzy górnym (trzecim) a dolnym (pierwszym) kwartylem (por. [, s. 4]). Nawiązując do prezentowanego w poprzednim rozdziale wykresu pudełkowego (zob. rys..6), można stwierdzić, że rozstęp międzykwartylowy stanowi wysokość pudełka. Jak można zauważyć, dyspersja mierzona rozstępem międzykwartylowym jest również większa w przypadku akcji spółki Strzelec. Kolejną miarą określającą zmienność wśród 50 proc. środkowych jednostek zbiorowości, tj. zawierających się pomiędzy dolnym a górnym kwartylem (obszar pudełka ), jest odchylenie ćwiartkowe:

168 .. Opis struktury zbiorowości str. 68 Jest to zatem połowa długości rozstępu międzykwartylowego. Odchylenie ćwiartkowe informuje, ile średnio rzecz biorąc najbardziej typowe jednostki różnią się od mediany. Zaletą tej miary opisu statystycznego jest to, że nie wpływają na nią skrajne, nierzadko nietypowe, obserwacje. Unika się tu więc zniekształceń, stąd postulowane jest stosowanie odchylenia ćwiartkowego, a nie standardowego, w przypadku znacznej asymetrii rozkładu cechy. Ponadto zaletą tej miary jest to, że może być ona wyznaczona nawet wówczas, gdy w szeregu rozdzielczym klasowym jeden bądź dwa skrajne przedziały klasowe nie są domknięte (por. [0, s. 38]). Z uwagi na fakt, że odchylenie ćwiartkowe pomija 5 proc. skrajnych obserwacji poniżej pierwszego i 5 proc. powyżej trzeciego kwartyla, jest ono mniejsze od analogicznej miary klasycznej, jaką jest powszechnie stosowane w analizach statystycznych odchylenie standardowe. Pomiędzy tymi miarami zachodzi relacja (por. [9, s. 54]): Q<s Względną miarą pozycyjną, opartą na odchyleniu ćwiartkowym, jest pozycyjny współczynnik zmienności, określony wzorem: Jest to miara analogiczna do klasycznego współczynnika zmienności, opartego na odchyleniu standardowym. Pozycyjny współczynnik zmienności mierzy tak jak odchylenie ćwiartkowe zmienność wśród typowych jed-

169 .. Opis struktury zbiorowości str. 69 nostek badania, stąd należy oczekiwać, iż zmienność w tym obszarze będzie mniejsza niż w całym zbiorze danych. Innym pozycyjnym współczynnikiem zmienności jest współczynnik kwartylowy (por. [3, s. 60], [9, s. 56]): Poniższy przykład obrazuje sposób obliczania względnych pozycyjnych miar zmienności dla danych pogrupowanych w szereg punktowy (analogiczne postępowanie ma miejsce w przypadku szeregu z przedziałami klasowymi środki klas zamiast wielkości xi). Przykład. Należy obliczyć absolutne i względne pozycyjne miary dotyczące przeciętnej ceny jednego metra kwadratowego mieszkania -pokojowego na rynku wtórnym w większych miastach Polski (zob. Dane_do_analizy.xls; zakładka: Mieszkania). Z wcześniejszych obliczeń wynika, że: kwartyl I (Gdańsk): Q = 3,630 tys. zł/m. mediana (Wrocław): Me = 4,5 tys. zł/m. kwartyl III (Kraków): Q3 = 5,843 tys. zł/m. Mając wyznaczone powyższe miary pozycyjne można obliczyć odchylenie ćwiartkowe: Q= Q3 Q 5,843 3,630 = =,07 Po odrzuceniu skrajnych cen okazuje się, że zmienność m kw. mieszkania mierzona odchyleniem ćwiartkowym jest nieznacznie mniejsza niż w przypadku wszystkich obserwacji dla porównania, odchylenie standardowe wyniosło,57 tys. zł/m. W następnym kroku obliczamy pozycyjny współczynnik zmienności:

170 .. Opis struktury zbiorowości VQ = str. 70 Q,07 00 = = 4,6 Me 4,500 W tym przypadku wartości klasycznego i pozycyjnego współczynnika zmienności są praktycznie takie same. Bezpośrednio z danych wejściowych (kwartyl I, mediana, kwartyl III) można też wyznaczyć współczynnik kwartylowy: VQ Q3 = Q3 Q 5,843 3,630 = = 0,34 Q3 + Q 5, ,630 W ujęciu procentowym wartość powyższego współczynnika wynosi 4,4 proc., więc jest nieznacznie mniejsza od wartości pozycyjnego współczynnika zmienności opartego na odchyleniu przeciętnym (4,6 proc.). Interpretując wartości wyznaczonych klasycznych i pozycyjnych współczynników zmienności można przyjąć, że zróżnicowanie danej cechy jest [3, s. 60]: słabe, gdy wartość współczynnika zmienności nie przekracza 30 proc., zróżnicowanie wyraźne: wartość współczynnika w przedziale 3-60 proc., zróżnicowanie silne: poziom współczynnika powyżej 60 proc. Na ogół wartość współczynnika zmienności waha się w przedziale 5-35 proc. Jeżeli poziom współczynnika zmienności przekracza 60 proc., to można wnioskować o niejednorodności zbiorowości statystycznej z punktu widzenia badanej cechy [, s. ]. Na przykład może się zdarzyć, że zmienność rocznych stóp zwrotu Otwartych Funduszy Inwestycyjnych przekracza krytyczną wartość wspomianych 60 proc. Przyczyną tak dużej zmienności może być uwzględnienie w analizie stóp zysku funduszy o różnych klasach ryzyka (np. fundusze obligacji, zrównoważone, akcji).

171 .. Opis struktury zbiorowości str. 7 Ostatnią kwestią związaną z omawianymi miarami jest określenie tzw. typowego obszaru zmienności. Można tu wyróżnić klasyczny typowy obszar zmienności obszar ten jest wyznaczany jako przedział liczbowy, którego dolną granicę stanowi wartość średniej arytmetycznej pomniejszona o wartość odchylenia standardowego, górną zaś wartość będąca sumą średniej arytmetycznej i odchylenia standardowego: [x s; x + s ] Jeżeli rozkład empiryczny badanej cechy jest zbliżony do rozkładu normalnego, to można stwierdzić następujące prawidłowości (por. [3, s. 47]): ok. 70 proc. jednostek statystycznych ze względu na daną cechę zawiera się w typowym obszarze zmienności, ok. 95 proc. obserwacji znajduje się w obszarze: [x s; x + s ] zgodnie z tzw. regułą trzech sigm co najmniej 99 proc. jednostek badanej zbiorowości znajduje się w obszarze: [ x 3 s; x + 3 s] Za nietypowe należy uznać zatem te obserwacje, których wartości wykraczają poza wyznaczony powyżej przedział trzech sigm. Ponadto można określić pozycyjny typowy obszar zmienności. Wykrycie ewentualnych obserwacji nietypowych znacznie ułatwi sporządzenie wykresu pudełkowego. W tym celu należy określić, czy istnieją obserwacje, których wartości znajdują się poza następującym przedziałem (por. [3, s. 85]): [ Q 3 Q; Q3 + 3 Q ] Za nietypowe należy uznać te obserwacje, które są położone poniżej pierwszego kwartyla w odległości przekraczającej trzy odchylenia ćwiartkowe,

172 .. Opis struktury zbiorowości str. 7 jak również obserwacje znajdujące się powyżej trzeciego kwartyla w odległości większej niż trzy odchylenia ćwiartkowe...4. Miary asymetrii W statystycznej analizie ilościowej, gdzie warianty cech mają liczbowy charakter (tj. liczby nie są jedynie etykietami cech) można stosować miary asymetrii. Ich rolą jest określenie siły i kierunku empirycznego rozkładu cechy mierzonej na skali przedziałowej lub ilorazowej. W literaturze przedmiotu oprócz podziału tych miar na klasyczne i pozycyjne stosuje się także rozróżnienie na miary bezwzględne (absolutne), które określają jedynie kierunek asymetrii, oraz względne (stosunkowe, relatywne), pozwalające zarówno na ocenę kierunku, jak i siły asymetrii (por. [3, s. 63], [, s. 8]). Praktyczna przydatność bezwzględnych miar asymetrii jest jednak niewielka, ponieważ ich poziom uzależniony jest w pewnym stopniu od zmienności danej cechy. Ponadto wskaźników tych nie można porównywać w przypadku cech o różnych jednostkach miary (por. [0, s. 44]). W związku z tym w dalszej części tego podrozdziału zaprezentowane zostaną pozbawione tych wad względne miary asymetrii. Jak już wspomniano w podrozdziale Miary położenia podstawowe charakterystyki tendencji centralnej, tj. średnia arytmetyczna, mediana i dominanta, pozostają ze sobą w relacji zależnej od kierunku asymetrii rozkładu badanej cechy statystycznej. W zależności od kierunku asymetrii rozkładu empirycznego jednomodalnego (wyraźny jeden ośrodek dominujący) średnia arytmetyczna zmienia swoje położenie względem dominanty (mediana jest zawsze wartością pośrednią). W przypadku idealnej symetrii rozkładu średnia, mediana i dominanta są sobie równe. W przypadku empirycznych rozkładów cechy taka sytuacja jest praktycznie niemożliwa (por. [9, s. 7]).

173 .. Opis struktury zbiorowości str. 73 Klasyczną względną miarą asymetrii rozkładu jest klasyczny współczynnik asymetrii, określany też mianem momentu trzeciego centralnego względnego (por. [, s. 8]). Ogólnie wskaźnik ten wyznacza się według wzoru (por. [9, s. 59]): W praktyce łatwiej jest najpierw obliczyć wartość µ3. W zależności od sposobu pogrupowania danych, wielkość tę oblicza się według jednego z poniższych wzorów: a) dane niepogrupowane: b) szereg rozdzielczy punktowy: c) szereg rozdzielczy klasowy:

174 str Opis struktury zbiorowości Poniżej zaprezentowano sposób obliczenia klasycznego współczynnika asymetrii na przykładzie tygodniowych stóp zwrotu akcji spółki Żywiec. Należy wprowadzić dodatkową kolumnę, zawierającą obliczenia pomocnicze (por. tabela.): Tabela.3. Obliczenie współczynnika asymetrii dla tygodniowych stóp zwrotu akcji spółki Żywiec. I A xi B ni 0,00 7,5 7,50 5,0 5,00,5,50 0,0 9 0,00,49,50 4,99 5,00 7,50 Σ 5 C x i E x i x D = A B x i ni 8,75 6,5 3,75,5,5 3,75 6,5 8,75 6,5 3,75,5 3,75 3,75 6,5 6,5 8,50 6,00 3,50,00,50 4,00 6,50 F = E ( x i x ) G = F B H = E G ( x i x ) ni ( x i x ) 3 ni 7,5 36,00,5,00,5 6,00 4,5 7,5 36,00,5 9,00 4,75 6,00 4,5,50 64,3 6,00 4,88 9,00 37,3 64,00 74,63 506,5 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, W oparciu o powyższe dane najpierw należy obliczyć trzeci moment centralny: k µ3= ( x x) i= i n 3 ni = 506,5 = 0,5 5 Warto zauważyć, że wartości w kolumnie H łatwo wyznaczyć, mnożąc kolejno wielkości z kolumny E i G. Dzięki temu czas obliczeń jest znacznie krótszy. Mając już obliczone odchylenie standardowe (zob. Miary dyspersji) można przejść do obliczenia współczynnika asymetrii: As = µ 3 0,5 = = 0,87 s 3 (,95) 3 Znak współczynnika asymetrii niezależnie od tego, czy jest on klasyczny, czy pozycyjny informuje o kierunku asymetrii: znak ujemny wskazuje na

175 .. Opis struktury zbiorowości str. 75 asymetrię lewostronną, zaś dodatni na asymetrię dodatnią. W niniejszym przykładzie występuje asymetria lewostronna, co oznacza, że w przeszłości miały miejsce istotne spadki kursu akcji analizowanej spółki (w skali tygodnia), co zaniża przeciętną stopę zwrotu. Wartość bezwzględna współczynnika asymetrii informuje natomiast o jej sile. Badania empiryczne dowiodły, że wartość klasycznego współczynnika asymetrii zawiera się w przedziale od do +. Im wartość bliższa zeru, tym słabsza asymetria (por. [, s. 9]). Tabela.4. Interpretacja klasycznego współczynnika asymetrii co do wartości bezwzględnej. As Asymetria 0 0,65 słaba 0,65,3 umiarkowana,3,0 silna więcej niż,0 bardzo silna Źródło: Opracowanie na podstawie: [3, s. 64]. Zatem istnieje nieznaczna asymetria lewostronna rozkładu tygodniowych stóp zwrotu akcji Żywiec SA Na tym etapie możemy stwierdzić, iż jest to rozkład symetryczny. Dla celów praktycznych można bowiem przyjąć, że wartość współczynnika asymetrii bliska zeru wskazuje, iż rozkład cechy jest symetryczny. Asymetrię w części centralnej rozkładu empirycznego cechy (obszar pudełka zob. wykres pudełkowy) mierzy się za pomocą pozycyjnego wskaźnika asymetrii (por. [, s. 8]): Inną pozycyjną miarą asymetrii jest współczynnik skośności Pearsona, mierzący asymetrię całego rozkładu względem dominanty [3, s. 64]:

176 .. Opis struktury zbiorowości str. 76 Współczynniki asymetrii pozycyjny, jak również współczynnik skośności Pearsona, na ogół osiągają wartości z przedziału od do +, przy czym w przypadku bardzo silnej asymetrii miary te mogą osiągnąć wartości spoza tego przedziału (por. [, s. 83]). Interpretacja wartości współczynników AQ i AD jest następująca: Tabela.5. Interpretacja pozycyjnych współczynników asymetrii co do wartości bezwzględnej. AQ lub AD Asymetria 0 0,65 słaba 0,35 0,65 umiarkowana 0,65,0 silna więcej niż,0 bardzo silna Źródło: Opracowanie na podstawie: [3, s. 64]. Przedstawione wzory na obliczanie pozycyjnych miar asymetrii warto poprzeć przykładem. W celu porównania obliczeń z analogicznymi miarami klasycznymi niech będzie to kontynuacja przykładu dotyczącego tygodniowych stóp zwrotu akcji spółki Żywiec. Do obliczenia pozycyjnego współczynnika asymetrii niezbędne jest wcześniejsze wyznaczenie pozycyjnych miar położenia (zob. Miary położenia) oraz odchylenia ćwiartkowego: kwartyl I:,597 mediana: 0,4 kwartyl III:,534 odchylenie ćwiartkowe:,566 Podstawiamy do wzoru na pozycyjny współczynnik asymetrii: AQ = Q + Q3 Me,57 +,534 0,4 = = 0,093 Q,556 Natomiast w przypadku obliczania współczynnika Pearsona niezbędne jest wcześniejsze wyznaczenie następujących miar:

177 .. Opis struktury zbiorowości str. 77 średnia arytmetyczna: 0,5 dominanta: 0,47 odchylenie standardowe:,95 AD = x D 0,5 0,47 = = 0,9 s,95 Pozycyjne współczynniki asymetrii okazały się miarami mniejszymi co do wartości bezwzględnej od klasycznego współczynnika asymetrii ( 0,87), ponieważ badają asymetrię w części centralnej rozkładu cechy. Potwierdziła się więc symetria rozkładu tygodniowych stóp zwrotu...5. Miary koncentracji Miary koncentracji można podzielić na dwie grupy (por. [, s. 4]):. Miary koncentracji (skupienia) wokół średniej arytmetycznej ocena koncentracji wokół średniej arytmetycznej znajduje zastosowanie w przypadku empirycznych rozkładów badanej cechy o co najwyżej umiarkowanym stopniu asymetrii (zob. Miary asymetrii).. Miary koncentracji wokół dowolnej wartości cechy mierzalnej (mierzonej na skali przedziałowej lub ilorazowej) miary te znajdują zastosowanie w rozkładach o silnej asymetrii dodatniej. Do oceny stopnia skupienia wartości cechy wokół średniej arytmetycznej wykorzystuje się moment czwarty centralny µ4. Miara ta posiada analogiczne wady jak moment trzeci centralny µ3, tzn. uniemożliwia porównanie rozkładów cech o różnych jednostkach miary (np. zł, zł/m itp.). Z tego też względu do praktycznych obliczeń stosuje się moment centralny względny niekiedy w literaturze przedmiotu pomniejszany o wartość 3 zwany współczynnikiem ekscesu. Inne nazwy to współczynnik spłaszczenia lub kurtozy (por. [3, s. 67]). Współczynnik ekscesu, określany w niniejszej publikacji mianem ekscesu, wyznacza się według wzoru:

178 .. Opis struktury zbiorowości str. 78 Moment czwarty centralny oblicza się według jednego z poniższych wzorów: a) dane niepogrupowane: b) szereg rozdzielczy punktowy: c) szereg rozdzielczy klasowy: Eksces informuje o tym, czy koncentracja wartości cechy wokół średniej arytmetycznej jest mniejsza, czy też większa niż w zbiorowości o rozkładzie normalnym [9, s. 64]. Można tu wyróżnić trzy sytuacje:. E = 0: Rozkład empiryczny danej cechy ma kształt rozkładu normalnego.. E < 0: Rozkład empiryczny cechy jest rozkładem spłaszczonym (platokurtycznym) w porównaniu z rozkładem normalnym. Innymi słowy

179 str Opis struktury zbiorowości dyspersja wartości cechy wokół średniej arytmetycznej jest większa niż ma to miejsce w rozkładzie normalnym. 3. E > 0: Rozkład empiryczny danej cechy jest rozkładem bardziej smukłym (leptokurtycznym) w porównaniu z rozkładem normalnym. Zatem wartości cechy są bardziej skupione wokół wartości średniej arytmetycznej aniżeli w rozkładzie normalnym. Aby stwierdzić, czy rozkład empiryczny badanej cechy jest zbliżony do teoretycznego rozkładu normalnego nie wystarczy sporządzić histogramu i obliczyć miar asymetrii. Konieczne jest ponadto obliczenie współczynnika spłaszczenia (ekscesu) rozkład normalny jest rozkładem symetrycznym, ale nie każdy rozkład symetryczny jest rozkładem normalnym. Odrębną kwestią jest weryfikacja nieparametrycznej hipotezy statystycznej o normalności rozkładu danej cechy (zob. Wybrane hipotezy nieparametryczne). Poniżej zamieszczono przykład obliczania ekscesu dla danych dotyczących tygodniowych stóp zwrotu z akcji spółki Żywiec SA. Wskazane jest sporządzenie tabeli z obliczeniami pomocniczymi (por. tabela.3): Tabela.6. Obliczenie ekscesu dla tygodniowych stóp zwrotu akcji spółki Żywiec. A B C D= E F = E G = F B H = E G I = F G A B x i x ( x i x ) ( x i x ) ni ( x i x ) 3 ni ( x i x ) 4 ni xi ni x i I x i ni ,0 7,5 8,75 7,50 5,0 6,5 5,00,5 3,75,50 0,0 9,5 0,00,49,5,50 4,99 3,75 5,00 7,50 6,5 Σ 5 8,75 6,5 3,75,5 3,75 3,75 6,5 6,5 8,50 6,00 3,50,00,50 4,00 6,50 7,5 36,00,5,00,5 6,00 4,5 7,5 36,00,5 9,00 4,75 6,00 4,5 64,3 6,00 4,88 9,00 37,3 64,00 74,63 50,06 96,00 50,06 9,00 55,69 56,00 785,06,50 506,5 877,88 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet,

180 .. Opis struktury zbiorowości str. 80 Ostatnią kolumnę obliczeń pomocniczych łatwo wyznaczyć, mnożąc sąsiednie kolumny F i G. Sumę wartości z tej kolumny podstawiamy następnie do wzoru na czwarty moment centralny: k µ4= ( x x ) i= i n 4 ni = 877,88 = 350,88 5 W drugim kroku otrzymaną wielkość µ4 podstawiamy do wzoru na eksces: E= µ4 350,88 3= =,856 4 s (,95) 4 Wartość współczynnika ekscesu informuje o znacznej koncentracji tygodniowych stóp zysku wokół wartości średniej zatem ryzyko związane ze zmianą kursu akcji Żywiec SA w pierwszej połowie 006 r. należy określić jako relatywnie niewielkie. Jeżeli chodzi o koncentrację wokół dowolnej wartości badanej cechy, to można tu wyróżnić dwie metody (por. [0, s. 48]):. Metoda graficzna.. Metoda numeryczna. Metoda graficzna polega na wyznaczeniu krzywej Lorenza. Na osi OX zaznacza się wyrażone w procentach liczebności skumulowane, zaś na osi OY skumulowane także wyrażone w procentach wartości zmiennej zi:

181 str. 8.. Opis struktury zbiorowości Rysunek.4. Koncentracja liczby odsłon wśród 0 najpopularniejszych witryn internetowych w Polsce. skumulowana sttruktura użytkowników (zi sk) procentowy udział komunikatorów (f i sk) Źródło: Opracowanie na podstawie danych pochodzących z serwisu InternetStandard, Powyższy wykres sporządzono na podstawie danych dotyczących miesięcznej liczby odsłon popularnych witryn internetowych (zob. Dane_do_analizy.xls; zakładka: Internet). Siłę koncentracji można wyznaczyć obliczając współczynnik koncentracji Lorenza. Współczynnik ten oblicza się ze wzoru (por. [0, s. 49]): Pole obszaru b, tj. pole pomiędzy krzywą koncentracji a osią OX, można wyznaczyć przybliżoną metodą trapezów (jeden z takich trapezów zaznaczono na rys..4). Pole b jest wyrażone wzorem: Częstości względne fi wyznacza się ze wzoru na wskaźnik struktury. Współczynnik koncentracji Lorenza jest wielkością unormowaną, tj. przyj

182 str. 8.. Opis struktury zbiorowości muje wartości z przedziału 0-. Jeżeli wartość tego współczynnika jest równa 0, to koncentracja nie występuje (podział równomierny). Natomiast im wyższy poziom współczynnika, tym większy stopień koncentracji. Interpretację współczynnika zawiera tabela: Tabela.7. Interpretacja współczynnika koncentracji Lorenza. Poziom współczynnika 0 0 0,3 0,3 0,6 powyżej 0,6 Koncentracja Podział równomierny Słaba Znaczna Silna Źródło: Opracowanie na podstawie: [3, s. 70]. Poniżej przedstawiono sposób obliczania współczynnika koncentracji Lorenza na przykładzie miesięcznej liczby użytkowników najpopularniejszych komunikatorów w Polsce. Pomocne jest skonstruowanie następującej tabeli, zawierającej obliczenia pomocnicze: Tabela.8. Współczynnik koncentracji Lorenza liczby odsłon najpopularniejszych komunikatorów w Polsce. i xi Nazwa Użytkownicy komunikatora Miranda Xfire Konnekt ICQ Spik AQQ MSN Messenger Tlen.pl Skype Gadu-Gadu Σ zi , , 46 0,4 40 0, , , , , , , zi sk zi sk + zi sk fi f i sk zi sk + zi sk 0,00 0,09 0, 0,45 0,69,74 3,5 4,59 3,5 40,0 00,00 0,045 0,49 0,38 0,569,4,445 3,874 8,90 6,63 70, fi 0,45,49 3,8 5,69,4 4,45 38,74 89,0 66,3 700,08 4,84 Źródło: Obliczenia własne na podstawie danych pochodzących z serwisu: InternetStandard,

183 .. Opis struktury zbiorowości str. 83 Wartości zmiennej pomocniczej zi obliczono jako relacje liczby użytkowników i-tego komunikatora do liczby użytkowników: zi = xi n i= 00 xi Wskaźniki struktury (frakcje) są sobie równe określono je jako udziały w liczbie komunikatorów ogółem: fi = 00 n Z ostatniej kolumny tabeli.8 odczytujemy pole obszaru b (b = 4,84). Następnie wartość b podstawiamy do wzoru na współczynnik koncentracji Lorenza: L= ,84 = 0, Wartość współczynnika świadczy o silnej koncentracji liczby użytkowników wśród analizowanych komunikatorów warto zauważyć, iż najpopularniejszy komunikator Gadu-Gadu skupia niemal 60 proc. ogólnej liczby użytkowników...6. Trening i ewaluacja Poniżej przedstawiono rozbudowany przykład ilustrujący sposób wyznaczania miar klasycznych i pozycyjnych dla danych pogrupowanych w szereg rozdzielczy punktowy (rozkład liczby kont ). Wprowadzamy następujące oznaczenia: xi liczba kont , jaką posiada internauta (cecha skokowa), ni liczba internautów posiadających określoną liczbę kont . Z uwagi na fakt, iż cecha xi mierzona jest na najsilniejszej skali pomiarowej, tj. skali ilorazowej (absolutny punkt zerowy), można stąd wyznaczyć także miary względne. Niezbędne obliczenia wykonano w programie MS

184 str Opis struktury zbiorowości Excel (zob. Przykłady analiza struktury; zakładka: Szereg punktowy). Oto tabela zawierająca obliczenia pomocnicze: A xi Σ B ni C = A B xi ni D xi x E = D ( xi x ) -,44-0,44 0,56,56,56 F = E B G = D F H = E F ( xi x ) ni ( xi x ) 3 ni ( xi x ) 4 ni,07 0,9 0,3,43 6,55 4,5,7,88 4,87 6,55 0,6-5,97 -,9,05 7,59 6,78 8,6 8,60 0,5 0,59,84 4,95 64,5 Na podstawie powyższych obliczeń wyznaczono następujące miary klasyczne: a) średnia arytmetyczna: k x= i= n b) odchylenie standardowe: k s= ( x x) i i= xi ni ni n 36 =,44 5 = 0,6 = 5 = 0,806 = 0,898 c) współczynnik zmienności klasyczny: Vs = s 0, = 00 = 6,4 x,44 d) klasyczny współczynnik asymetrii: k µ3= (x i= i x ) ni 3 n e) eksces: k µ4= 8,6 = 0, µ 3 0,7304 = =,009 s 3 ( 0,898) 3 As = ( x x) i= = i n 4 ni = 64,5 =,5804 5

185 str Opis struktury zbiorowości E= µ4,5804 3= 3 = 0,968 4 s ( 0,898) 4 Współczynnik zmienności nieznacznie przekroczył 60 proc. Można więc tu mówić o dużej zmienności liczby kont. Przeciętnie losowo wybrany internauta posiadał - skrzynki mailowe (wartość średnia to,44). Niemniej jednak wśród respondentów znalazła się osoba posiadająca aż cztery konta . Dodatni znak klasycznego współczynnika asymetrii informuje, że rozkład liczby kont jest rozkładem o asymetrii prawostronnej. Wartość tego współczynnika wskazuje natomiast na umiarkowaną asymetrię (por. tabela.4). Interpretacja współczynnika ekscesu przy umiarkowanej asymetrii nie znajduje uzasadnienia można bowiem stwierdzić, iż rozkład kont nie jest rozkładem normalnym. Z uwagi na znaczną asymetrię rozkładu liczby kont bardziej odpowiednimi miarami są miary pozycyjne. W celu wyznaczenia wartości najczęstszej należało pogrupować dane w szereg rozdzielczy punktowy. Z diagramu liczebności (zob. rys..) łatwo odczytać, iż najwięcej internautów posiada jedną skrzynkę poczty elektronicznej. Kolejną istotną pozycyjną miarą położenia jest mediana. W przypadku szeregu punktowego dane lepiej jest przedstawić w postaci szeregu szczegółowego: 0, 0,,,,,,,,,,,,,,,,,,,,, W przypadku nieparzystej liczby obserwacji (w tym przykładzie n = 5 internautów) medianą jest środkowy wyraz w szeregu szczegółowym, co można zapisać za pomocą wzoru: Me = x ( n + ) = x ( 5 + ) = x3 = Z uwagi na fakt, że mamy tu do czynienia z asymetrią prawostronną, bardziej precyzyjnymi miarami położenia są miary pozycyjne zarówno wartość dominanty, jak i mediany wyniosła. Średnia arytmetyczna jest większa z uwagi na nietypową obserwację (cztery konta ).

186 .. Opis struktury zbiorowości str. 86 Interpretacja mediany jest następująca: połowa internautów posiada więcej niż jedno konto poczty elektronicznej. Interesującą interpretację posiada również trzeci kwartyl (75 percentyl). Oblicza się go ze wzoru. P0, 75 = x+ 0,75 ( n ) = x+ 0,75 ( 5 ) = x9 = Trzy czwarte objętych badaniem internautów posiada nie więcej niż dwa konta . Analogicznie można obliczyć kwartyl pierwszy (5 percentyl) jest to siódmy wyraz uporządkowanego rosnąco ciągu liczb, tj. P0,5 =. Mając już wyznaczony dolny i górny kwartyl, można obliczyć wartość odchylenia ćwiartkowego: Q= Q3 Q = = 0,5 Ponieważ powyższa miara bada zmienność w obszarze 50 proc. najbardziej typowych obserwacji, dlatego jest wartością mniejszą od odchylenia standardowego. Podobnie mniejszy jest pozycyjny współczynnik zmienności w porównaniu ze współczynnikiem klasycznym: VQ = Q 0,5 00 = 00 = 50 Me Nawet po odrzuceniu najbardziej nietypowych obserwacji zmienność badanej cechy jest znaczna. Z analizy typowego obszaru zmienności wynika, iż mało prawdopodobne jest, aby internauta posiadał więcej niż trzy konta poczty elektronicznej. Górną granicę tego przedziału można określić następująco: Q3 + 3 Q = + 3 0,5 = 3,5 Zatem uzasadnionym jest, by liczbę czterech kont mailowych traktować jako nietypową obserwację.

187 .. Opis struktury zbiorowości str. 87 EWALUACJA Test Pytanie. Proszę określić kolejność obliczania miar klasycznych, tak aby korzystać z miar wcześniej już obliczonych (proszę wpisać liczby od do 4, gdzie oznacza miarę obliczaną w pierwszej kolejności). a) wariancja: b) średnia arytmetyczna: c) klasyczny współczynnik zmienności: d) odchylenie standardowe: Pytanie. Klasyczny współczynnik zmienności można obliczyć dla danych mierzonych za pomocą: a) b) c) d) skali nominalnej skali porządkowej skali ilorazowej skali przedziałowej Pytanie 3. Uczniowie popełnili następującą liczbę błędów ortograficznych na sprawdzianie: 0, 0,,,,,,,,, 3, 3, 3, 4, 4, 5, 6. Wartością dominanty dla danych pogrupowanych w szereg punktowy jest: a) b) c) d) liczba 5 liczba liczba 6 dominanta nie występuje

188 .. Opis struktury zbiorowości str. 88 Pytanie 4. Stosowania miar klasycznych należy unikać wówczas, gdy: a) występuje silna asymetria rozkładu cechy b) dolne lub górne granice przedziałów nie są domknięte c) cecha jest mierzona na skalach silniejszych (przedziałowej lub ilorazowej) d) rozkład cechy jest zbliżony do rozkładu normalnego Pytanie 5. W przypadku danych zebranych za pomocą skali Stapela można obliczyć: a) b) c) d) medianę klasyczny współczynnik asymetrii wskaźniki struktury współczynnik zmienności Pytanie 6. Nawiązując do danych z pytania nr 3 można stwierdzić, że: a) b) c) d) połowa uczniów popełniła nie więcej niż dwa błędy na sprawdzianie co czwarty popełnił mniej niż pięć błędów uczniowie popełniali najczęściej po pięć błędów trzy czwarte uczniów popełniło ponad trzy błędy Pytanie 7. Wartość klasycznego współczynnika asymetrii na poziomie 0,5 świadczy o asymetrii rozkładu: a) b) c) d) słabej umiarkowanej silnej bardzo silnej

189 .. Opis struktury zbiorowości str. 89 Pytanie 8. O znacznej koncentacji wartości cechy świadczy następujący poziom współczynnika koncentracji Lorenza: a) b) c) d) 0 0,4 0,7 Pytanie 9. Aby rozkład cechy był symetryczny, to spełnione muszą zostać następujące warunki: a) średnia arytmetyczna jest równa medianie b) współczynnik asymetrii równy zeru c) współczynnik ekscesu równy zeru d) odchylenie standardowe bliskie zeru Pytanie 0. Wzór na średnią ważoną stosuje się wówczas, gdy: a) b) c) d) dane są niepogrupowane dane pogrupowano w szereg punktowy dane przedstawiono w postaci szeregu czasowego dane pogrupowano w szereg rozdzielczy z przedziałami klasowymi Lista zadań nr Zadanie Dla pogrupowanych rocznych stóp realnego wzrostu PKB 5 państw Unii Europejskiej dla 005 r. (zob. Dane_do_analizy.xls, zakładka: PKB) należy graficznie i algebraicznie wyznaczyć pozycyjne miary położenia. Wyniki proszę porównać z analogiczną miarą klasyczną.

190 .. Opis struktury zbiorowości str. 90 Zadanie Proszę określić stopień koncentracji transakcji kupna-sprzedaży mieszkań w Polsce dla 005 r. (zob. Dane_do_analizy.xls, zakładka: Mieszkania). Zadanie 3 Proszę dokonać analizy porównawczej tygodniowych stóp zwrotu akcji spółek Żywiec SA i Strzelec SA, wykorzystując do tego celu dane liczbowe znajdujące się w pliku Dane_do_analizy.xls (zakładka: Akcje). Proszę także sporządzić wykresy pudełkowe. Wskazówki do zadań: Zadanie Dane należy pogrupować w szereg rozdzielczy z przedziałami klasowymi (można skorzystać z danych pogrupowanych w zadaniu z listy nr ). Zadanie Należy obliczyć współczynnik koncentracji Lorenza. Najpierw trzeba uporządkować dane dotyczące liczby transakcji-kupna sprzedaży mieszkań rosnąco. Zadanie 3 Bardzo pomocne będzie wykorzystanie wyników analizy zamieszczonej w części teoretycznej niniejszego podrozdziału, dotyczącej tygodniowych stóp zwrotu spółki Żywiec.

191 .. Analiza współzależności str. 9.. Analiza współzależności Zaprezentowane w poprzednim podrozdziale miary opisu statystycznego stanowiły element analizy zbiorowości statystycznej ze względu na jedną wybraną cechę. W niniejszym podrozdziale analiza będzie ukierunkowana nie na jedną, lecz na dwie wybrane cechy danej zbiorowości. Wybór metod analizy współzależności zjawisk uzależniony jest podobnie jak wybór odpowiednich miar opisu statystycznego od typu skal pomiarowych, jak również od tego, czy dane zostały pogrupowane w tablicę korelacyjną, czy też występują w formie szeregów korelacyjnych.... Miary korelacji Przy wyborze odpowiedniej miary współzależności dwóch cech obok określenia skali pomiarowej dla każdej z nich należy zwrócić szczególną uwagę na to, która z nich jest zmienną niezależną (objaśniającą), a która zmienną zależną (objaśnianą). Poniższa tabela zawiera wykaz przykładowych miar współzależności z uwzględnieniem typu skali pomiarowej cechy zależnej i niezależnej: Tabela.9. Wybrane miary analizy współzależności a skale pomiarowe. CECHA ZALEŻNA CECHA NIEZALEŻNA skala przedziałowa/ skala nominalna skala porządkowa ilorazowa skala nominalna współczynnik ϕ-yule a, V-Cramera, C-Pearsona, współczynnik skala porządkowa T-Czuprowa korelacji rang Spearmana współczynnik skala współczynnik eta korelacji liniowej przedziałowa/ilorazowa Pearsona Źródło: Opracowanie na podstawie: [6, s. 4], [6, s. 34]. Należy podkreślić, iż współczynniki korelacji, które mają zastosowanie w przypadku skal słabszych, można również stosować dla cech mierzonych

192 str. 9.. Analiza współzależności na skalach mocniejszych (przedziałowa, ilorazowa). Niemniej jednak postulowane jest zastosowanie tu bardziej precyzyjnych współczynników. I tak współczynniki korelacji rang oraz współczynnik korelacji liniowej Pearsona pozwalają na określenie zarówno kierunku, jak i siły zależności. Natomiast współczynniki typowe dla danych jakościowych (ϕ-yule a, V-Cramera, C-Pearsona, T-Czuprowa) pozwalają jedynie na określenie siły związku badanych cech. Poza tym nie wszystkie z nich są możliwe dla danych niepogrupowanych w tablicę korelacyjną, tj. występujących w postaci szeregu korelacyjnego (xi, yi), gdzie i oznacza numer obserwacji. Aby określić siłę współzależności pomiędzy cechami mierzonymi na skalach słabszych (nominalna, porządkowa), konieczne jest ich wcześniejsze pogrupowanie w tablicę korelacyjną (zob. Grupowanie i zliczanie danych). Ogólna postać tablicy (macierzy) korelacyjnej jest następująca: X \Y y x x n n xr ni n y n n yk r n j n j n n ni nij n n j ni n k Szczególnym przypadkiem macierzy korelacyjnej jest tablica o wymiarach, grupująca obserwacje według wariantów dwóch cech dychotomicznych: X \Y 0 0 a b c d a+ c b+ d a+ b c+ d n Przedstawiony podział ma istotne znaczenie z punktu widzenia możliwości stosowania wzorów uproszczonych na obliczanie miar korelacji. Do anali-

193 .. Analiza współzależności str. 93 zy współzależności danych o charakterze jakościowym stosuje się m.in. następujące miary korelacji: Współczynnik ϕ-yule a. Współczynnik V-Cramera. Współczynnik kontyngencji C-Pearsona. Współczynnik T-Czuprowa. Współczynnik ϕ-yule a dla dowolnego wymiaru tablicy korelacyjnej wyznacza się według wzoru: Statystykę χ ( chi-kwadrat ) wykorzystuje się także do testowania hipotez statystycznych o niezależności cech (zob. Wybrane hipotezy nieparametryczne). Statystykę tę oblicza się według wzoru: Oto wzór pomocniczy służący do wyznaczenia teoretycznej liczby obserwacji: Przedstawione wzory na obliczanie współczynnika ϕ-yule a i statystyki χ mają uniwersalny charakter, tzn. znajdują również zastosowanie w przypadku szczególnym, jakim jest tablica korelacyjna o wymiarach. Niemniej jednak w warunkach egzaminu pisemnego, gdzie ważny jest czas

194 .. Analiza współzależności str. 94 wykonania zadania, znacznie wygodniejsze jest zastosowanie wzorów uproszczonych. I tak wartość statystyki χ można obliczyć ze wzoru: Współczynnik ϕ-yule a otrzymamy, podstawiając wartość powyższej statystyki do zaprezentowanego ogólnego wzoru lub bezpośrednio z poniższej formuły: ϕ = ad bc ( a + b) ( a + c ) ( b + d ) ( c + d ) W przypadku tablicy o wymiarach k omawiana miara korelacji jest wielkością unormowaną, tzn. przyjmuje wartości z przedziału [0,]. Generalnie zasada jest następująca im wyższy poziom współczynnika, tym silniejszy związek korelacyjny pomiędzy analizowanymi cechami. Współczynnik V-Cramera dla tablicy ma identyczną postać jak prezentowany powyżej współczynnik ϕ-yule a. Jest to jednak miara unormowana dla tablicy korelacyjnej o dowolnym wymiarze. Fakt ten sprawia, że współczynnik ten ma uniwersalny charakter. Oto ogólny wzór na obliczanie współczynnika V-Cramera (por. [9, s. 48]): Nietrudno zauważyć, że dla tablicy składającej się z dwóch wierszy (r = ) i dwóch kolumn (k = ) powyższy wzór sprowadza się do ogólnego wzoru na współczynnik ϕ-yule a.

195 .. Analiza współzależności str. 95 Kolejna miara współczynnik kontyngencji C-Pearsona wyraża się wzorem: Powyższy współczynnik nie jest wielkością unormowaną, ponieważ nie jest ograniczony od góry (podobnie jak w przypadku pozostałych omawianych miar korelacji wartość bliska zeru świadczy o braku współzależności cech). Im więcej wierszy i kolumn, tym wartość współczynnika C-Pearsona jest wyższa [9, s. 49]. W związku z tym należy posłużyć się tzw. skorygowanym współczynnikiem C-Pearsona (por. [0, s. 85]): Skorygowany współczynnik Ckor-Pearsona przyjmuje, tak jak współczynnik V-Cramera, wartości z przedziału [0-]. W przypadku kwadratowych macierzy korelacji, tj. o wymiarach n n bądź gdy liczba kolumn jest zbliżona do liczby wierszy, warto posłużyć się współczynikiem T-Czuprowa. Wyznacza się go według wzoru: Im większa asymetria, tj. większa różnica pomiędzy liczba wierszy i kolumn, tym gorsza jakość omawianej miary korelacji.

196 str Analiza współzależności W przypadku gdy liczebności empiryczne pokrywałyby się z liczebnościami teoretycznymi, to statystyka χ wyniosłaby zero. Jak widać, występuje ona we wszystkich prezentowanych ogólnych wzorach na miary korelacji. Zatem zerowy poziom omawianych miar oznacza statystyczną niezależność cech. Niemniej jednak w praktyce współczynniki te nie osiągają wartości równych zeru, a jedynie wielkości bliskie zeru. W tej sytuacji konieczne może okazać się zweryfikowanie hipotezy o niezależności cech. Przykład. Niniejszy przykład ilustruje sposób obliczania wprowadzonych miar korelacji dla cech nominalnych dwuwariantowych (dychotomicznych). Należy określić siłę ewentualnej zależności pomiędzy płcią Czytelnika niniejszej publikacji (cecha niezależna) a preferowanymi elementami ułatwiającymi przyswajanie materiału. Dokonano tu podziału Czytelników na wzrokowców (preferujących elementy graficzne typu wykresy, tabele) oraz czuciowców (ta grupa Czytelników łatwiej przyswaja sobie treści dzięki elementom dynamicznym, jak hiperłącza, animacje wykonane w programie MS PowerPoint). Punktem wyjścia jest pogrupowanie danych (zob. Dane_do_analizy.xls; zakładka Ankiety) w tablicę dwudzielną. Oto dane pogrupowane z wykorzystaniem Raportu tabeli przestawnej Excela: Tabela.0. Elementy publikacji najbardziej ułatwiające, zdaniem Czytelników, przyswajanie wiedzy a płeć. Płeć: Suma końcowa Preferowane elementy: K M Elementy graficzne Hiperłącza/animacje Suma końcowa Źródło: Opracowanie własne na podstawie danych umownych. W oparciu o pogrupowane dane należy wyznaczyć statystykę χ. Z uwagi na wymiary tablicy znajduje tu zastosowanie wzór uproszczony (por. Przykłady miary zależności.xls; zakładka: cechy_jakościowe): χ= n ( ad bc ) 5 ( ) 85 = = = 0,5788 ( a + b) ( a + c ) ( b + d ) ( c + d )

197 str Analiza współzależności Następnie otrzymaną wielkość wystarczy podstawić do wzorów ogólnych na omówione miary korelacji: a) współczynnik ϕ-yule a: ϕ = χ = n 0,5788 = 0,96 5 Sposób II: Można od razu zastosować wzór uproszczony na współczynnik ϕ-yule a: ϕ = ad bc = = = 0,96 ( a + b ) ( a + c ) ( b + d ) ( c + d ) b) współczynnik V-Cramera: χ = n min{ ( r ) ; ( k )} V= χ = n min{ ( ) ; ( )} χ = 0,96 n c) współczynnik C-Pearsona: C= χ n+ χ 0,5788 = 0, ,5788 = Korekta współczynnika C-Pearsona: Ckor = C min{ r, k } = 0,93 min{ r, k } min{ 5, } = 0,93 = 0,73 min{ 5, } d) współczynnik T-Czuprowa: T= χ = n ( r ) ( k ) χ = n ( ) ( ) χ = 0,96 n W przypadku dwóch cech dychotomicznych liczba wierszy i kolumn wynosi, stąd podstawiając: r = i k = do prezentowanych wzorów (z wyjątkiem wzorów na obliczanie współczynnika C-Pearsona) otrzymuje się wzór ogólny na współczynnik ϕ-yule a. Zatem dla tablicy korelacyjnej o wymiarach wartości współczynników ϕ, V i T są sobie równe.

198 str Analiza współzależności Istnieje ponadto możliwość zastosowania wzoru uproszczonego z pominięciem obliczenia statystyki χ (w praktyce jest ona jak już sygnalizowano wykorzystywana do zweryfikowania hipotezy o niezależności cech). W tej sytuacji otrzymano identyczny poziom współczynnika co do wartości bezwzględnej. Interpretacja znaku w przypadku cech nominalnych nie znajduje uzasadnienia (generalnie ujemny poziom współczynnika interpretowany jest jako korelacja ujemna). Wartość obliczonych współczynników wskazuje na niewielką zależność pomiędzy preferowanymi elementami w przyswajaniu wiedzy a płcią postulowane jest uprzednie przeprowadzenie testu statystycznego o niezależności obu tych cech (zob. test niezależności chi-kwadrat ). Przykład. Należy określić siłę związku pomiędzy płcią Czytelnika (cecha niezależna) a preferencjami co do przydatości niniejszej publikacji (cecha porządkowa pomiar danych z wykorzystaniem skali Likerta). Z uwagi, że jest to tablica o wymiarach r = 5 wierszy i k = kolumny konieczne jest zastosowanie wzorów uogólnionych. Tabela.. Ocena przydatności publikacji Statystyka po ludzku a płeć Czytelnika. PYT_: Czy niniejsza publikacja pomogła Panu/Pani w przygotowaniu się do egzaminu ze statystyki? zdecydowanie nie raczej nie trudno powiedzieć raczej tak zdecydowanie tak Suma końcowa Płeć: K M Suma końcowa Źródło: Opracowanie własne na podstawie danych umownych. Najpierw należy obliczyć statystykę χ. W tym celu dogodnym rozwiązaniem jest wprowadzenie tabel pomocniczych. Pierwsza z nich zawiera wartości teoretyczne, będące efektem przemnożenia sum poszczególnych wierszy i kolumn na zasadzie każda z każdą i podzieleniu otrzymanego wyniku przez liczbę obserwacji. Oto sposób obliczenia liczebności teoretycznej dla pierwszego wiersza i pierwszej kolumny:

199 str Analiza współzależności nˆ = n n 8 = = 0,53 n 5 Wszystkie liczebności teoretyczne zawiera tabela: Tabela.. Wyznaczanie liczebności teoretycznych obliczenia pomocnicze. Płeć: PYT_: K 8 /5 = 0,53,60,3,3,60 8 zdecydowanie nie raczej nie trudno powiedzieć raczej tak zdecydowanie tak M 0,47,40,87,87, Źródło: Opracowanie własne na podstawie danych zawartych w tabeli.. Druga tabela bazuje na wyznaczonych powyżej wartościach teoretycznych oraz odpowiadających im liczebnościach empirycznych, zawartych w tabeli.. Oto sposób wyznaczenia wielkości znajdującej się w pierwszym wierszu i pierwszej kolumnie: ( n nˆ ) nˆ = (0 0,53) = 0,53 0,53 Pozostałe wielkości wyznaczono w analogiczny sposób. Wyniki z dokładnością do trzech miejsc po przecinku zawiera poniższa tabela: Tabela.3. Wyznaczanie statystyki chi-kwadrat obliczenia pomocnicze. PYT_: zdecydowanie nie raczej nie trudno powiedzieć raczej tak zdecydowanie tak Σ Płeć: K 0,533 0,5 0,008 0,008,5,000 M 0,60 0,57 0,00 0,00,400,86 Σ,43 0,48 0,08 0,08,65 4,86 Źródło: Opracowanie własne na podstawie danych zawartych w tabeli. i..

200 str Analiza współzależności Szukana statystyka stanowi sumę po wierszach bądź kolumnach: χ= r (n k i= j= nˆij ) = 4,86 nˆij ij W kolejnym kroku należy obliczyć współczynniki korelacji, podstawiając otrzymaną wartość statystyki do wzorów ogólnych: a) współczynnik ϕ-yule a: χ = n ϕ = 4,86 = 0,535 5 b) współczynnik V-Cramera: V= χ = n min{ ( r ) ; ( k )} 4,86 = 5 min{ ( 5 ) ; ( )} 4,86 = 0,535 5 c) współczynnik C-Pearsona: C= χ n+ χ = 4,86 = 0, ,86 Korekta współczynnika C-Pearsona: Ckor = C min{ r, k } = 0,47 min{ r, k } min{ 5, } = 0,47 = 0,667 min{ 5, } d) współczynnik T-Czuprowa: T= χ = n ( r ) ( k ) 4,86 4,86 = = 5 ( 5 ) ( ) 5 4 4,86 = 0, Wartości obliczonych miar korelacji wskazują na istotną współzależność pomiędzy oceną przydatności publikacji a płcią respondentów generalnie kobiety wyżej oceniały użyteczność e-booka w kontekście przygotowywania się do egzaminu ze statystyki.

201 .. Analiza współzależności str. 0 W sytuacji gdy cecha niezależna mierzona jest za pomocą skali nominalnej lub porządkowej, natomiast zmienną zależną jest cecha ilościowa (pomiar na skali mocniejszej), można obliczyć współczynnik eta (por. [6, s. 4-4]): Warto podkreślić, iż nie jest tu wymagane pogrupowanie danych w tablicę korelacyjną. Poniżej zamieszczono przykład, ukazujący sposób obliczania współczynnika eta właśnie dla danych niepogrupowanych. Przykład. Na podstawie ankiety skierowanej do Czytelników Vademecum Studenta określono preferowany przez respondentów udział teorii w tej publikacji (zob. Dane_do_analizy.xls; zakładka: Ankiety). Należy określić siłę związku pomiędzy preferowanym udziałem treści teoretycznych a płcią Czytelników. Oto niezbędne dane: Tabela.4. Preferowany przez respondentów udział teorii w publikacji Statystyka po ludzku według płci. Płeć K M Procentowy udział teorii (zmienna zależna) Σ Σ Źródło: Opracowanie własne na podstawie danych umownych. Nietrudno zauważyć, iż nie mamy w tym przypadku do czynienia jak już wspomniano z tablicą korelacyjną. W powyższej tabeli zaprezentowano bowiem dwie próbki o różnych liczebnościach odpowiedzi udzieliło osiem kobiet (n = 8) i siedmiu mężczyzn (n = 7). Taka prezentacja ułatwia

202 str. 0.. Analiza współzależności obliczenia wykonywane w arkuszu kalkulacyjnym MS Excel (zob. Przykłady miary zależności; zakładka: cechy_jakościowa_i_ilościowa). Punktem wyjścia jest obliczenie wartości średniej cechy zależnej. W tym celu należy podzielić sumę ogólną przez liczbę respondentów ogółem (n = n + n = 5): r x= k i= j= xij = n 566 = 37,73 5 Analogicznie wyznaczamy wartości średnie cechy zależnej dla pierwszego (K) i drugiego (M) wariantu cechy niezależnej, jaką jest w tym przypadku płeć Czytelnika: a) przeciętny preferowany udział teorii wśród kobiet: k x = j= x j n = 78 = 34,75 8 b) przeciętny preferowany udział teorii wśród mężczyzn: k x = j= x j n = 88 = 4,4 7 Teraz można przejść do wyznaczenia licznika wzoru na współczynnik eta. W tym celu dobrym rozwiązaniem jest konstrukcja następującej tabeli pomocniczej: Tabela.5. Wyznaczanie wartości licznika wzoru na współczynnik eta obliczenia pomocnicze. A Płeć K M Σ B nj C xj ,75 4,4 D xj x E = D (x j x) 34,75 37,73 = -,98 4,4 37,73 = 3,4 (x 8,90,6 Źródło: Opracowanie własne na podstawie danych umownych. F = E B x) nj j 7,0 8,37 5,58

203 str Analiza współzależności Druga tabela pomocnicza służy do obliczenia mianownika wzoru: Tabela.6. Wyznaczanie wartości mianownika wzoru na współczynnik eta obliczenia pomocnicze. (x Płeć K M ij (5 37,73) = = 6,4 x) Σ 34, ,0 50,47 50,47,40 495,80 34,47 5,80 59,80 43,80 4 5,4 50,47 6,4,40 56,80 7,47 98,4 Σ 3994,74 Źródło: Opracowanie własne na podstawie danych zawartych w tabeli.4. Wartości zawarte w powyższej tabeli otrzymano odejmując od poszczególnych liczb xij z tabeli.4 średnią arytmetyczną cechy zależnej. Obliczony mianownik i licznik (wartości pogrubione w tabelach.5 i.6) podstawiamy do wzoru na współczynnik eta: (x k η = j= r j x) nj (x k i= j= ij x) = 5,58 = 0, ,74 Poziom bliski zeru wskazuje na brak zależności oczekiwanego poziomu teorii w publikacji od płci Czytelnika. W przypadku cech porządkowych, którym przypisano rangi, można posłużyć się współczynnikami korelacji rang. Powszechnie stosowaną miarą tego typu jest współczynnik korelacji rang Spearmana. Oblicza się go według poniższego wzoru:

204 str Analiza współzależności Komentarza wymaga sposób określania rang. Mogą tu zaistnieć dwie następujące sytuacje:. Poszczególnym obserwacjom przypisywane są rangi od do n, gdzie oznacza wartość najlepszą (pierwsze miejsce w rankingu). Nie ma tu miejsca sytuacja, w której przynajmniej dwa obiekty są jednakowo ważne.. Przy rangowaniu dopuszcza się sytuację, że przynajmniej dwa porównywane obiekty są jednakowo ważne. Może się np. zdarzyć, że konsument jednakowo preferuje produkty. W takiej sytuacji należy zastosować średnią arytmetyczną rang (np. i ) i dalej przypisywać rangi od 3 do n. Oto przykład, wyjaśniający sposób przypisywania rang w sytuacji, gdy co najmniej dwa porównywane obiekty są jednakowo ważne: Przykład. Konsument najbardziej preferuje dwie marki produktu: A oraz B. Na kolejnym miejscu uplasował produkt D. Następnie wskazał pozostałe marki ( C, E i F ) jako nieporównywalne (relacja równoważności). Przykład ten pokazuje, jak poradzić sobie z przypisaniem rang obiektom w sytuacji, gdy są one jednakowo ważne: Tabela.7. Sposób przypisywania rang w sytuacji, gdy przynajmniej dwa obiekty są jednakowo ważne. Marka Sposób Rangi wyznaczania rangi A ( + ) / =,5 B C ( + ) / =,5 ( ) / 3 = 5 Przypisanie kolejnej liczby D E F ( ) / 3 = 5 ( ) / 3 = 5 Komentarz A jest tak samo ważne jak B można przypisać,5 rangi: A =, B = lub odwrotnie, stąd obliczamy średnią,5 5 Produkt C jest tak samo preferowany jak E i F Jest to kolejny obiekt po A i B, 3 stąd przypisujemy 3 Markom C, E i F trzeba przypisać rangi większe od 3 (np. C = 4, E = 5, F = 6) obliczamy 5 średnią tych rang 5 Źródło: Opracowanie własne.

205 str Analiza współzależności O ile przypisanie rang od do 6 nie stanowi większego problemu, o tyle określenie rang dla obiektów jednakowo ważnych (równie preferowanych) może przysporzyć trudności. Należy pamiętać, że rangi są przypisywane niejako każdej obserwacji (stąd np. dla D przypisano rangę 3, a nie ). W przypadku dwóch cech ilościowych (pomiar danych na skalach mocniejszych) zastosowanie znajduje bardziej zaawansowany współczynnik korelacji liniowej Pearsona. Stanowi on relację: Sposób obliczania kowariancji i odchyleń standardowych zależy od tego, czy dane występują w postaci szeregu korelacyjnego, czy też w postaci tablicy korelacyjnej. Jeśli chodzi o odchylenia standardowe, to: a) w przypadku szeregu korelacyjnego znajduje zastosowanie wzór dla danych niepogrupowanych (oznaczenia analogiczne jak w podrozdziale Miary dyspersji): n sx = ( x x) i= n n sy = i (y i= i y) n b) w sytuacji gdy obserwacje zliczano w tablicę korelacyjną stosuje się wzory adekwatne dla danych pogrupowanych w szereg punktowy lub z przedziałami klasowymi (zob. Miary dyspersji). Nawiązując do oznaczeń w prezentowanej na wstępie niniejszego rozdziału ogólnej postaci macierzy korelacyjnej można wyprowadzić analogiczne wzory:

206 str Analiza współzależności r sx = ( xi x ) ni i= xi ni n n (y k sy = x= i= y ) n j j y= y j n j n n Natomiast kowariancję, czyli nienormowaną miarę korelacji, wylicza się z następujących wzorów (por. [9, s ]): a) dane indywidualne (szereg korelacyjny): lub: n cov( x, y ) = i= xi yi n x y b) dane pogrupowane (tablica korelacyjna):

207 str Analiza współzależności lub: r cov( x, y ) = k i= j= xi y j nij n x y W praktyce współczynnik korelacji liniowej Pearsona (dane niepogrupowane) łatwiej wyznaczyć ze wzoru uproszczonego (por. [0, s. 76]): Współczynnik korelacji rang Spearmana jest szczególnym przypadkiem współczynnika korelacji liniowej Pearsona, stąd interpretacja obu tych miar jest analogiczna (por. [9, s. 44]). Współczynniki te przyjmują wartości z przedziału [, +]. Znak współczynnika informuje o kierunku zależności (por. [6, s. 48]):. Znak ujemny informuje o korelacji ujemnej wraz ze wzrostem wartości jednej cechy rosną wartości drugiej cechy (np. wraz ze wzrostem produkcji rosną koszty).. Znak dodatni oznacza korelację dodatnią wzrostowi wartości jednej cechy towarzyszy spadek wartości drugiej (np. wzrostowi cen towarzyszy przy założeniu, że inne czynniki nie ulegną zmianie spadek popytu). W przypadku współczynnika korelacji rang na szczególną uwagę zasługują następujące wartości tej miary korelacji: Tabela.8. Interpretacja współczynnika korelacji rang Spearmana. rs 0 + Interpretacja maksymalna niezgodność rang rangi w obu ciągach są niezależne idealna zgodność rang Źródło: Opracowanie własne na podstawie [3, s. 97].

208 str Analiza współzależności Poziom współczynnika korelacji liniowej Pearsona co do wartości bezwzględnej interpretuje się jako siłę związku pomiędzy badanymi cechami: Tabela.9. Interpretacja współczynnika korelacji liniowej Pearsona. rxy Interpretacja 0 do 0,3 [0,3 0,5) [0,5 0,7) [0,7-0,9) [0,9-,0) brak korelacji korelacja słaba korelacja umiarkowana korelacja znaczna korelacja silna korelacja bardzo silna liniowa zależność funkcyjna,0 Źródło: Opracowanie własne na podstawie [0, s. 77]. Należy zaznaczyć, że współczynnik korelacji liniowej Pearsona jest miarą wyłącznie zależności liniowej, co nie wyklucza innego kształtu zależności. Różnicę tę dobrze ilustrują poniższe przykładowe rozrzuty korelacyjne: Rysunek.5. Przykładowy diagram korelacyjny ukazujący brak jakiejkolwiek zależności. 0,8 0,6 0,4 0, 0 0 0, 0,4 0,6 0,8 Źródło: Opracowanie własne. Przedstawiony rozrzut punktów sugeruje brak jakiejkolwiek zależności pomiędzy analizowanymi zmiennymi. W praktyce potwierdza to wartość współczynnika korelacji liniowej Pearsona bliska a nie równa zeru.

209 str Analiza współzależności Rysunek.6. Przykładowy diagram korelacyjny ukazujący brak zależności liniowej.,5 0, ,5 - -,5 Źródło: Opracowanie własne. W drugim przypadku wartość współczynnika korelacji liniowej jest również bliska zeru. Jednak nie można tu mówić o braku jakiejkolwiek zależności występuje bowiem zależność sinusoidalna: y = sin(x). Poniższe przykłady ukazują sposób obliczania współczynników korelacji: rang Spearmana (przykład ) oraz korelacji liniowej Pearsona (przykład i 3). Przykład. W oparciu o wyniki ankiety dla Czytelników (zob. Dane_do_analizy.xls; zakładka: Ankiety) należy dokonać oceny podobieństwa preferencji dwóch respondentów: a) X praktyk (najmniejszy preferowany udział treści teoretycznych, tj. 5 proc.), b) Y teoretyk (największy udział treści teoretycznych w publikacji, tj. 60 proc.). Wymienieni respondenci przypisali rangi poszczególnym rodzajom dodatków do publikacji w następujący sposób:

210 str. 0.. Analiza współzależności Tabela.30. Analiza korelacji rang przypisanych dodatkom do e-booka Statystyka po ludzku. A B Rodzaj dodatku do e-booka A B C D E F C Rangi X Rangi Y Bonus Chi-Kwadrat Bonus Szeregi statystyczne Bonus Rozkłady prawdop. Plik z danymi do analiz Przykłady w Excelu Animacje PowerPoint D=B C di Σ E = D d i Źródło: Obliczenia własne na podstawie danych umownych. Obliczoną różnicę korelacji rang podstawiamy do wzoru na współczynnik: n rs = 6 d i ( i= ) n n = = = 0, ( ) Zgodność preferencji wybranych respondentów jest niewielka. Obaj najbardziej cenią sobie przykłady w Excelu. Wysoce ceniony przez praktyka plik z danymi do analiz nie stanowił większej wartości dla teoretyka. Podobne rozbieżności miały miejsce w ocenie przydatności bonusu Rozkłady prawdopodobieństwa dodatek ten praktyk uplasował dopiero na ostatnim miejscu. Przykład. Inwestor giełdowy w celu zmniejszenia ryzyka portfela poszukuje akcji, których stopy zwrotu są ze sobą słabo skorelowane. Interesuje go poziom współczynnika korelacji liniowej Pearsona (skale ilorazowe) pomiędzy tygodniowymi stopami zwrotu spółek branży piwnej: Żywiec SA i Strzelec SA (zob. Dane_do_analizy.xls; zakładka: Akcje). Przyjęto oznaczenia: X tygodniowe stopy zwrotu akcji spółki Żywiec SA, Y tygodniowe stopy zwrotu akcji spółki Strzelec SA

211 str... Analiza współzależności Dane występują w postaci szeregu korelacyjnego, stąd można zastosować wzór uproszczony na obliczanie współczynnika korelacji liniowej Pearsona: n rxy = ( x x) ( y i= n i y) i ( x x) ( y i= i i y) Najpierw konstruujemy tabelę z obliczeniami pomocniczymi (por. Przykłady miary zależności; zakładka: skale_mocniejsze): Tabela.3. Analiza korelacji tygodniowych stóp zwrotu akcji Żywiec SA i Strzelec SA (I kw. 006 r.). I Σ A xi B yi 0,8 0,83,68,75,47 0,7 3,3,05 0,4 4,45,4,00 0,79 6,09 0,37 9,59,04,08, 5,99,0,08 0,00,09,98 3, 7,07 4,7 0,00 3,8 6,55 4,96 0,79 7,94,94,88 4,35,50 3,0 7,9,68 6, 3,68,4 8,7 9,39,6 3,85 6,00,38,69 54,50 C xi x 0,70 0,70,8,6,60 0,59 3,0,7 0,9 4,58,55,3 0,9 6, 0,50 9,47,9,,0 5,86,33 0,95 0,3 0,96, D yi y 4,89,99 7,8 9,64 8,73,78,97 5,76 5, 5,06,7 0,3 0,83 5,0 4,86 8,39,50 3,60 6,53,57 4,44 6,03 8,8 0,0 0,48 E = C ( xi x ) 0,48 0,49 3,6,64,55 0,35 9,6 4,73 0,09 0,96,40,7 0,85 38,68 0,5 89,59 3,66 4,89,0 34,37 5,4 0,90 0,0 0,9 4,44 34,0 F = D ( yi y ) G = C D ( xi x ) ( yi y ),8 3,95 6,5 878,43 350,87 7,7 8,80 33,4 6, 6,76 4,70 0,0 7,5 5,4 3,66 70,34,4,95 73,08 465,43 9,67 36,3 330,5 04,06 0,4 3304,56 0,36,40 4, 48, 9,93,65 9,0,5,50 68,94 3,36 0,36 9,97 3,9,43 79,38,86 7,96 8,0 6,48 0,3 5,70,35 9,77,0 78,56 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet,

212 .. Analiza współzależności str. Na podstawie sum z kolumn A i B obliczamy średnią arytmetyczną cechy X i Y: n x= xi i= n n y= i= 3, = 0,9 5 = yi n 54,50 =,8 5 = Uzupełniamy tabelę i sumujemy trzy ostatnie kolumny. Sumy te podstawiamy do wzoru na współczynnik korelacji: n rxy = ( x x) ( y i= n i y) i ( x x) ( y i= i i y) = 78,56 = 0,089 34,0 3304,56 Wartość współczynnika świadczy o braku korelacji. Jest to sytuacja korzystna dla inwestora z punktu widzenia minimalizacji ryzyka inwestycyjnego (w przypadku silnej korelacji dodatniej spadkowi cen akcji jednej spółki towarzyszy też znaczny spadek kursów drugiej, co zwiększa skalę poniesienia ewentualnej straty). Przykład 3. Należy obliczyć współczynnik korelacji pomiędzy oceną treści publikacji Statystyka po ludzku (cecha X) a oceną wysokości ceny e-booka (cecha Y). Pomiaru dokonano za pomocą porządkowej skali Stapela (zob. rys..6). Zebrane dane pogrupowano w tablicę korelacyjną (por. Przykłady miary zależności; zakładka: skale_mocniejsze):

213 str. 3.. Analiza współzależności Tabela.3. Ocena treści a ocena wysokości ceny publikacji Statystyka po ludzku. xi yj ni xi ni ( xi x ) ( xi x ) ni (y y) ,5 34,4 4,95 8, 0,75 0,0,8 4,55 9,8 47,5 34,4 4,95 8, 0,75 0,0,57 8,0 9,45 55,73 y ) n j j y j n j j n j (y 7,74 0,67,60 0,07 0,54 3,00 7,47,4 8,9 7,74,34 3, 0,07,5 6,0 3 Źródło: Obliczenia własne na podstawie danych umownych. Obliczenia pomocnicze do wyznaczenia kowariancji: Tabela.33. Ocena treści a ocena wysokości ceny publikacji Statystyka po ludzku tabela pomocnicza. xi y j nij xi Σ yj 3 Σ ( 3) = Źródło: Obliczenia własne na podstawie danych zawartych w tabeli.3.

214 str. 4.. Analiza współzależności Korzystając z sum w tabeli.3 obliczamy średnie arytmetyczne cech X i Y: r x= i= n k y= xi ni j= = 8 =,867 5 = 34 =,67 5 y j n j n Uzupełniamy do końca tabelę i wyznaczamy odchylenia standardowe: r sx = ( x x) i i= ni n (y k sy = i= 55,73 = 5 = y ) n j 0,38 = 3, j n = 8,93 = 5,59 =,35 5 Sumę ogólną (po wierszach i kolumnach) z tabeli.33, jak również wyznaczone wyżej wartości średnie, podstawiamy do wzoru na kowariancję: r cov( x, y ) = k i= j= xi y j nij n x y= 48,867,67 = 5,636 5 W ostatnim kroku obliczamy współczynnik korelacji liniowej Pearsona ze wzoru: rxy = cov( x, y ) 5,636 = = 0,744 sx s y 3,,35 Wysoki poziom współczynnika wskazuje na silną korelację pomiędzy oceną jakości prezentowanych treści a wysokością ceny publikacji Vademecum Studenta. Wartość współczynnika większa od zera informuje o korelacji dodatniej osoby, które nisko oceniły prezentowane w publikacji tre-

215 .. Analiza współzależności str. 5 ści także ogólnie rzecz biorąc wyraziły pogląd, iż cena publikacji jest wygórowana. Obliczenie miar korelacji jest punktem wyjścia do dokładniejszego badania współzależności występujących pomiędzy analizowanymi cechami statystycznymi. I tak współczynnik korelacji liniowej Pearsona dostarcza informacji, czy pomiędzy badanymi cechami występuje zależność liniowa. Silna korelacja (zob. tab..9) pozwala przypuszczać, iż do opisu kształtowania się wartości danej cechy uzasadnione jest wyznaczenie prostej regresji. W przeciwnym razie (niski poziom współczynnika Pearsona) należy poszukiwać innych nieliniowych funkcji lepiej opisujących współzależności występujące pomiędzy badanymi zjawiskami (regresja nieliniowa). Kolejny podrozdział poświęcono właśnie analizie regresji.... Analiza regresji Na wstępie tego podrozdziału warto wyjaśnić, na czym polega różnica pomiędzy zależnością funkcyjną a zależnością korelacyjną (por. [, s. 88]):. Zależność funkcyjna (dokładna) jest to relacja pomiędzy zmienną zależną Y i niezależną X, pozwalająca na wyznaczenie jednej dokładnej wartości zmiennej zależnej dla każdej wartości zmiennej niezależnej: y = f ( x) Innymi słowy zgodnie z definicją funkcji danemu argumentowi xi można przypisać tylko jedną wartość yi.. Zależność korelacyjna (stochastyczna, statystyczna) jest relacją pomiędzy zmienną zależną Y i zmienną niezależną X, wyznaczającą dla wybranej wartości zmiennej niezależnej (objaśniającej) pewien przedział wartości zmiennej zależnej (objaśnianej). Znajomość poziomu

216 .. Analiza współzależności str. 6 zmiennej niezależnej xi z uwagi na oddziaływanie czynnika losowego ε nie wystarcza na jednoznaczne określenie poziomu cechy zależnej yi: y = f ( x, ε ) W przypadku zależności korelacyjnej można oszacować jedynie wartość przybliżoną (teoretyczną) zmiennej objaśnianej, co zawsze związane jest z pewnym ryzykiem błędu. Wybór metody analizy współzależności zjawisk zależy od rodzaju cechy zależnej (objaśnianej) i cechy niezależnej (objaśniającej) oraz związanego z tym typu skali pomiarowej. W pierwszej kolejności omówiona zostanie regresja empiryczna, określana w literaturze przedmiotu także mianem regresji I rodzaju. Niewątpliwą zaletą tej metody jest możliwość badania współzależności cech jakościowych, przy czym zmienna objaśniana (Y) musi być minimum cechą porządkową, określoną na skali przedziałowej (np. za pomocą skali Stapela). Wynika to z faktu konieczności obliczania warunkowych średnich arytmetycznych dla cechy Y. Średniej arytmetycznej nie można jak wiadomo obliczyć, gdy pomiaru dokonano na skalach słabszych, tj. nominalnej bądź porządkowej (zob. tabela.5). Metoda ta sprowadza się do sporządzenia wykresu regresji empirycznej (zob. rys..30), określanego też krzywą regresji I rodzaju zmiennej zależnej Y względem zmiennej niezależnej X wariantom zmiennej objaśniającej xi przyporządkowuje się średnie arytmetyczne (warunkowe wartości oczekiwane) zmiennej zależnej. Wartości średnie wyznacza się według poniższego wzoru (por. [, s. 37]):

217 .. Analiza współzależności str. 7 Po połączeniu punktów odpowiadających kolejnym warunkowym wartościom oczekiwanym otrzymamy łamaną, tj. krzywą regresji I rodzaju. Wzrost średnich warunkowych (grupowych) wskazuje na korelację dodatnią, zaś spadek na korelację ujemną. Ponadto w przypadku, gdy zmienną objaśniającą X jest cecha porządkowa, o sile korelacji informuje wartość współczynnika eta, zaś gdy zmienna X została określona na skali mocniejszej poziom współczynnika korelacji liniowej Pearsona (wzór dla danych pogrupowanych). Warto dodać, iż krzywą regresji korzystnie jest wyznaczyć, gdy zmienną niezależną X jest ilościowa cecha skokowa. Wówczas krzywą regresji empirycznej wyznacza się tak, jak ukazuje to poniższy przykład (jest to kontynuacja przykładu na obliczanie współczynnika korelacji liniowej Pearsona dla danych pogrupowanych w tablicę korelacyjną): Przykład. W oparciu o dane z tabeli.3 należy sporządzić wykres regresji empirycznej (krzywą regresji I rodzaju) ocen wartości publikacji Vademecum Studenta (zmienna objaśniana Y) względem postrzeganej jakości prezentowanych treści (zmienna X).

218 str. 8.. Analiza współzależności Tabela.34. Zależność postrzeganej wartości publikacji Statystyka po ludzku od oceny jakości treści. y j nij yj ni y ( xi ) k xi j= 3 ( 3) = y j nij ( 3) / = 3 4 ( ) = ( ) = Źródło: Obliczenia własne na podstawie danych zawartych w tabeli.3. Dla określonego wariantu cechy X obliczamy średnią ważoną ocen dla cechy Y w tym celu przemnażamy kolejno liczebności nij z tabeli.3 przez odpowiadające im warianty cechy zależnej yj. Następnie sumujemy po wierszach i stosujemy wzór (por. Przykłady analiza regresji; zakładka: regresja_empiryczna). Oto przykład obliczenia średniej warunkowej dla wartości x = 5: k y ( x ) = j= y j n j = n 3 = 3 Oto wykres regresji empirycznej cechy Y względem cechy X: Rysunek.7. Krzywa regresji oceny wartości publikacji Statystyka po ludzku względem oceny jakości treści. 5 przeciętna ocena wartości publikacji ocena jakości prezentowanych treści (xi) Źródło: Opracowanie własne na podstawie danych zawartych w tabeli.34.

219 .. Analiza współzależności str. 9 Jak widać, wraz ze wzrostem oceny jakości prezentowanych treści w pięciostopniowej skali Stapela rosły także średnio rzecz biorąc noty co do korzystnej ceny e-booka. Zatem cena jest tu pojęciem względnym wygórowana wydaje się osobom, którym publikacja wydaje się mało interesująca. Warto dodać, iż średnie warunkowe można błyskawicznie uzyskać, stosując Raport tabeli przestawnej (zob. Przykłady grupowanie danych). Regresja II rodzaju znajduje zastosowanie w sytuacji, gdy analiza współzależności dotyczy cech ilościowych, występujących w postaci szeregu korelacyjnego (xi, yi). Wyróżnia się regresję prostą (jedna zmienna objaśniająca) i regresję wieloraką (minimum dwie zmienne objaśniające). W niniejszej publikacji dalsze rozważania ograniczone zostały do regresji prostej. Przyjęto następujące założenia:. Na osi OX znajdują się wartości cechy (zmiennej) niezależnej (objaśniającej).. Na osi OY znajdują się wartości cechy zależnej (objaśnianej). Ocenę zależności Y względem X i co się z tym: wiąże wybór właściwej funkcji regresji niewątpliwie ułatwi sporządzenie diagramu korelacyjnego. Jak już wspomniano, na wykresie sporządzonym w prostokątnym układzie współrzędnych (w Excelu: wykres XY) zaznaczamy kolejno punkty danych o współrzędnych (xi, yi), gdzie i oznacza i-tą obserwację. Szczególnym przypadkiem omawianej regresji II rodzaju jest regresja liniowa, w której zależności opisuje linia prosta [, s. 88]. Jak już wspomniano, wartość współczynnika korelacji liniowej Pearsona pozwala określić siłę zależności liniowej pomiędzy dwoma cechami mierzonymi na skalach mocniejszych (por. tabela.9). Jeżeli wartość tego współczynnika nie wskazuje na silną zależność liniową, to wówczas pomocne jest sporządzenie diagramu korelacyjnego celem ustalenia zależności nieliniowej. Równanie liniowej funkcji regresji zmiennej zależnej Y względem zmiennej niezależnej (objaśnianej) X ma postać:

220 str. 0.. Analiza współzależności Parametry a i b prezentowanego modelu liniowego standardowo można oszacować, posługując się klasyczną metodą najmniejszych kwadratów (KMNK). Idea tej metody polega na oszacowaniu parametrów modelu (w przypadku modelu liniowego są to: parametr kierunkowy prostej regresji i wyraz wolny) tak, aby suma kwadratów reszt modelu była jak najmniejsza (por. [0, s. 68]). Reszty modelu wyznacza się według wzoru: Reszty stanowią zatem różnicę pomiędzy wartościami empirycznymi (punktami danych odpowiadającymi wartościom zmiennej objaśnianej Y) a wartościami wynikającymi z równania funkcji regresji. W ujęciu graficznym reszty modelu można przedstawić jako pionowe odcinki, łączące poszczególne punkty danych z funkcją regresji: Rysunek.8. Idea klasycznej metody najmniejszych kwadratów na przykładzie regresji liniowej. 4 zmienna objasniana (Y) zmienna objasniająca (X) Źródło: Opracowanie własne. Na powyższym wykresie linię poprowadzono w ten sposób, aby zminimalizować sumę kwadratów reszt. W literaturze statystycznej zamiast skom

221 .. Analiza współzależności str. plikowanego zapisu macierzowego najczęściej podaje się gotowe wzory na oszacowanie parametrów a i b: a) parametr kierunkowy: b) wyraz wolny: Parametr kierunkowy w warunkach egzaminu łatwiej wyznaczyć podobnie jak współczynnik korelacji liniowej Pearsona ze wzoru uproszczonego: Analogicznie można wyznaczyć parametry prostej regresji cechy X względem Y. Wzory na ich obliczenie zestawiono w poniższej tabeli:

222 str... Analiza współzależności Tabela.35. Wzory na wyznaczanie prostych regresji Y względem X oraz X względem Y. Równanie prostej regresji: Regresja Y względem X yˆ = a + bx cov( x, y ) s x b= b = lub b= (x i= i x ) ( yi y ) n ( xi x ) n b = i= Wyraz wolny: cov( x, y ) s y lub n Parametr kierunkowy: Regresja X względem Y xˆ = a + b y ( x x) ( y i= i i n (y i= i y) y) a = x b y a = y b x rxy = ± b b Źródło: Opracowanie własne na podstawie [9, s. 58]. Parametr kierunkowy w liniowej funkcji regresji Y względem X posiada następującą interpretację (por. [0, s. 69]):. Ujemna wartość współczynnika (b < 0): wzrost zmiennej niezależnej X o jednostkę wywoła przeciętnie spadek zmiennej zależnej Y o b jednostek (korelacja ujemna).. Dodatnia wartość współczynnika (b > 0): wzrost zmiennej niezależnej X o jednostkę wywoła przeciętnie przyrost zmiennej zależnej Y o b jednostek (korelacja dodatnia). Natomiast wyraz wolny a informuje, jaki będzie poziom zmiennej objaśnianej Y przy zerowym poziomie cechy objaśniającej X. Sposób wyznaczania linii regresji prezentuje poniższy przykład: Przykład. Należy wyznaczyć prostą regresji tygodniowych procentowych zmian kursu akcji spółki Strzelec SA (zmienna zależna Y) względem pro-

223 str. 3.. Analiza współzależności centowych tygodniowych zmian indeksu WIG (zmienna objaśniająca X). Konstruujemy tabelę (por. tabela.3): Tabela.36. Tygodniowe stopy zwrotu akcji Strzelec SA a tygodniowe zmiany WIG (I kw. 006 r.). I Σ A xi B yi 4,86 0,90,08 0,45,65,07 3,99,3,07 4,0 3,7,9,07,,5 4,6 0,8,5 6,63 7,03 0,3,78 7,43,9 8,67 3,86 7,07 4,7 0,00 3,8 6,55 4,96 0,79 7,94,94,88 4,35,50 3,0 7,9,68 6, 3,68,4 8,7 9,39,6 3,85 6,00,38,69 54,50 C xi x 4,3 0,34,53 0,0 3,,63 3,43,76,6 4,76,6,63,5,67,70 4,06 0,37,96 7,8 7,58 0,3,34 7,99,37 8, D yi y 4,89,99 7,8 9,64 8,73,78,97 5,76 5, 5,06,7 0,3 0,83 5,0 4,86 8,39,50 3,60 6,53,57 4,44-6,03 8,8 0,0 0,48 E = C ( xi x ) 8,54 0,,33 0,0 0,8,64,77 3,,63,64 6,86,66,8,79,89 6,48 0,4 3,84 5,55 57,5 0,05 5,45 63,8 5,6 65,83 36,8 F = D ( yi y ) G = C D ( xi x ) ( yi y ),8 3,95 6,5 878,43 350,87 7,7 8,80 33,4 6, 6,76 4,70 0,0 7,5 5,4 3,66 70,34,4,95 73,08 465,43 9,67 36,3 330,5 04,06 0,4 3304,56 64,3 0,68,94,96 60,05 4,5 0,8 0,6 8,3 7,65 5,68 0,5 6,37 8,37 8,7 34,05 0,56 7,05 8,64 63,60,0 4,07 45,3 4,6 3,93 45,78 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, Przed uzupełnieniem tabeli (kolumny od C do G ) obliczamy średnie arytmetyczne:

224 str. 4.. Analiza współzależności n x= i= xi n = 3,86 = 0,554 5 = 54,50 =,8 5 n y= i= yi n Uzupełniamy tabelę, sumujemy kolumny i ze wzoru uproszczonego obliczamy parametr kierunkowy b prostej regresji Y względem X (por. Przykłady analiza regresji; zakładka: regresja_liniowa): n b= ( x x) ( y i i= y) i n ( x x) = 45,78 =,49 36,8 i i= Następnie, korzystając z obliczonych wyżej miar, wyznaczamy wyraz wolny a: a = y b x =,8,49 0,554 =,543 Oszacowane parametry podstawiamy do wzoru na prostą regresji Y względem X: yˆ =,54 +,49 x W analogiczny sposób możemy wyznaczyć prostą regresji X względem Y: n b = ( x x) ( y i= i i n (y i= i y) y) = 45,78 = 0,6 3304,56 a = x b y = 0,554 0,6,8 = 0,8 xˆ = 0,8 + 0,6 y Niemniej jednak w praktyce niektóre zmienne z góry należy przyjąć jako niezależne trudno sobie wyobrazić sytuację, w której indeks WIG ( baro

225 str. 5.. Analiza współzależności metr gospodarki) zależy np. od zmian kursu wybranej spółki giełdowej. Mamy tu bowiem do czynienia z ogólną tendencją na rynku papierów wartościowych na poziom WIG wpływają kursy wszystkich spółek. Warto dodać, iż w arkuszu kalkulacyjnym MS Excel wbudowano narzędzie Dodaj linię trendu. Narzędzie to pozwala m.in. na dodanie liniowej funkcji regresji do danych przedstawionych na wykresie XY. Opcjonalnie na wykresie można wyświetlić równanie wybranej funkcji regresji należy wybrać zakładkę Opcje, a następnie zaznaczyć Wyświetl równanie na wykresie (zob. Prezentacja PowerPoint pt. Excel_dodawanie_linii_trendu). Rysunek.9. Regresja liniowa zmian stóp zwrotu akcji Strzelec SA względem zmian WIG (I kw. 006 r.) tygodniowe stopy zwrotu akcji Strzelec S.A. (proc.) y =,49x +,548 R = 0,446 tygodniowe zmiany WIG (proc.) Źródło: Opracowanie własne. Na powyższym wykresie XY linią przerywaną zaznaczono również regresję X względem Y (linia niemal pokrywająca się z osią OX). W równaniu regresji tygodniowych procentowych stóp zwrotu spółki Strzelec SA względem procentowych zmian WIG (linia ciągła) interesująca jest interpretacja parametru kierunkowego. Informuje on, o ile punktów procentowych zmieni się kurs analizowanej spółki przy zmianie WIG o proc. Ma tu

226 .. Analiza współzależności str. 6 miejsce korelacja dodatnia, przy czym kurs spółki ulega relatywnie większym zmianom niż WIG wzrost głównego indeksu giełdowego o proc. spowoduje średnio rzecz biorąc wzrost kursu akcji Strzelec o,5 proc. Parametr kierunkowy wyznaczonej funkcji regresji w finansach określa się mianem współczynnika beta (β). Poziom tej miary większy od jedności świadczy o tym, że dany walor jest akcją agresywną można dużo zarobić, ale ryzyko poniesienia strat jest większe. W sytuacji gdy współczynnik β co do wartości bezwzględnej jest mniejszy od jedności mówimy, że akcja jest defensywna (bezpieczna). Jest to szczególnie dobra inwestycja w sytuacji spowolnienia gospodarczego, kiedy to większość akcji tanieje, co znajduje swoje odzwierciedlenie w spadającym poziomie głównego indeksu giełdowego. Do opisu niektórych zjawisk zamiast regresji liniowej niejednokrotnie korzystniej jest posłużyć się regresją nieliniową (krzywoliniową). Istnieje szereg postaci nieliniowych funkcji regresji, opisujących współzależności pomiędzy wybranymi cechami. Oto niektóre z nich (por. [3, s ]): a) funkcja potęgowa: y = a0 x a b) wielomian stopnia trzeciego: y = a0 + a x + a x + a3 x 3 c) funkcja logarytmiczna: y = a0 + a ln( x ) Wybór właściwej postaci analitycznej modelu regresji niekiedy zależy od specyfiki danego zjawiska. I tak np. całkowite koszty produkcji względem wielkości produkcji można opisać za pomocą wielomianu stopnia trzeciego, co jest uzasadnione z ekonomicznego punktu widzenia. Wpływ reklamy na wielkość obrotów z uwagi na fakt, że odbiorcy uodparniają się

227 str. 7.. Analiza współzależności na przekazy reklamowe trafnie opisze np. funkcja logarytmiczna (coraz mniejsze przyrosty obrotów przy jednakowych przyrostach wydatków na reklamę). Wreszcie analizę współzależności pomiędzy ceną (zmienna objaśniana Y) a wielkością popytu (zmienna objaśniająca X) warto opisać z wykorzystaniem funkcji potęgowej wykładnik potęgi jest tu interpretowany jako cenowa elastyczność popytu. Z uwagi na złożoną stronę analityczną szacowania parametrów ai funkcji nieliniowych (konieczność sprowadzenia modelu do postaci liniowej) w poniższym przykładzie do wyznaczenia funkcji regresji posłużono się narzędziem Excela Dodaj linię trendu. Przykład. W podrozdziale Prezentacja materiału statystycznego przedstawiono sposób sporządzania diagramu korelacyjnego, ukazującego zależność wartości księgowej na akcję od rentowności kapitałów własnych Grupy Żywiec SA Do danych przedstawionych na wykresie XY (zob. rys..7) dodano funkcję regresji wielomian stopnia drugiego wybierając typ Wielomianowy (opcjonalnie jest to wielomian stopnia drugiego). Część funkcji była niedostępna, ponieważ występowały liczby ujemne. Rysunek.0. Zależność wartości księgowej na akcję od rentowności kapitałów własnych Grupy Żywiec SA wartość księgowa na akcję % -0% -5% 94 y = 43,93x + 0,84x + 94,95 9 R = 0, % 5% 0% 5% 0% 5% 30% rentowność kapitałów własnych Źródło: Opracowanie własne na podstawie danych pochodzących z Portalu Finansowego Money.pl,

228 .. Analiza współzależności str. 8 Wyznaczenie funkcji regresji pozwala na oszacowanie wartości zmiennej zależnej Y poprzez podstawienie żądanej wartości za zmienną X. W prezentowanym przykładzie można oszacować wartość księgową przypadającą na jedną akcję, podstawiając za x przyjęty poziom rentowności kapitałów własnych (ROE) do poniższego równania: yˆ = 94,95 + 0,84 x + 43,93 x Przykładowo, można oszacować wartość księgową przypadającą na jedną akcję spółki Strzelec przy rentowności kapitałów własnych równej 40 proc. (x = 40% = 40/00 = 0,4): yˆ = 94,95 + 0,84 0,4 + 43,93 ( 0,4 ) yˆ = 0,86 Przy prognozowanym poziomie ROE = 40 proc. na podstawie wyznaczonej funkcji regresji wartość księgową na akcję oszacowano na poziomie 0,86 zł. Po wyznaczeniu funkcji regresji należy sprawdzić, w jakim stopniu jest ona dopasowana do danych empirycznych. Wybór analitycznej postaci funkcji regresji należy uznać za poprawny, jeżeli wartości reszt (różnice pomiędzy wartościami zaobserwowanymi a wartościami teoretycznymi wynikającymi z funkcji regresji) są stosunkowo niewielkie i mają charakter przypadkowy [0, s. 7]. Istnieje szereg miar służących do oceny jakości modelu regresji. W niniejszej publikacji zostaną omówione wybrane z nich. Miarą dobroci dopasowania funkcji regresji, w tym linii regresji, do danych jest współczynnik zbieżności ϕ (nie należy mylić go z omówionym wcześniej współczynnikiem ϕ -Yule a):

229 .. Analiza współzależności str. 9 Powyższy współczynnik jest wielkością unormowaną, tj. przyjmuje wartości z przedziału [0,]. Wartości bliskie zeru świadczą o dobrym dopasowaniu funkcji regresji do danych empirycznych [3, s. 74]. Jeżeli po sporządzeniu diagramu korelacyjnego okaże się, że wybrana postać analityczna funkcji regresji (np. postać liniowa) jest uzasadniona, to współczynnik zbieżności określa wpływ czynnika losowego na zmiany cechy zależnej (objaśnianej). Inną miarą dobroci dopasowania funkcji regresji do danych jest współczynnik determinacji R. Generalnie wyznacza się go ze wzoru: Współczynnik R, tak jak ϕ, jest miarą unormowaną, przyjmującą wartości z przedziału [0-]. Współczynnik ten informuje, w jakim stopniu zmienna objaśniająca X wyjaśnia zmienność cechy objaśnianej Y. Gdy wartość tego współczynnika wynosi, to wówczas zmienność cechy X w stu procentach wyjaśnia zmienność cechy Y. Z uwagi na brak oddziaływania czynnika losowego można tu mówić o zależności funkcyjnej (przypadek szczególny) [, s. 49]. Innymi słowy, współczynnik determinacji określa, ile procent zmienności Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji, tj. ile procent tej zmienności wynika z czynników uwzględnionych w równaniu regresji, a ile z pozostałych czynników, w tym czynnika losowego (por. [0, s. 7]). Jak już wspomniano, w tej publikacji ograniczono

230 .. Analiza współzależności str. 30 się do regresji prostej, uwzględniającej jedną zmienną objaśniającą, stąd niekiedy poziom omawianej miary może być niesatysfakcjonujący. W praktyce należałoby wziąć pod uwagę więcej zmiennych objaśniających (regresja wieloraka tj. uwzględniająca więcej niż dwie zmienne objaśniające jest domeną ekonometrii). Pomiędzy omówionymi miarami jakości modelu regresji zachodzi następująca zależność: R = ϕ W przypadku regresji liniowej współczynnik determinacji R jest równy kwadratowi współczynnika korelacji liniowej Pearsona (por. [0, s. 73]): R = rxy Przykład. Należy obliczyć współczynnik determinacji R i współczynnik zbieżności ϕ pomiędzy analizowanym we wcześniejszym przykładzie wpływem procentowych zmian WIG (zmienna niezależna X) a procentowymi zmianami kursu akcji spółki Strzelec SA (zmienna zależna Y), wiedząc, że: yˆ =,54 +,49 x xˆ = 0,8 + 0,6 y Ponieważ oszacowano zarówno parametr kierunkowy prostej regresji Y względem X, jak również X względem Y, to można obliczyć współczynnik korelacji liniowej Pearsona z następującego wzoru: W przypadku regresji liniowej prawdziwa jest zależność: R = rxy

231 .. Analiza współzależności str. 3 Zatem wartość współczynnika determinacji R to: ( R = rxy = ± b b ) = b b =,49 0,6 = 0,45 Na rys..9 dodano wartość współczynnika R, wybierając zakładkę Opcje w oknie dialogowym Dodaj linię trendu, a następnie zaznaczając Wyświetl wartość R-kwadrat na wykresie (w analogiczny sposób dodano linię regresji). Współczynnik ten informuje, że jedynie w 4,5 proc. na zmiany stóp zwrotu akcji spółki Strzelec wpłynęły zmiany indeksu WIG, tj. zmiany rynkowe resztę zmian wyjaśniają inne czynniki. Mamy tu do czynienia z tzw. ryzykiem systematycznym, związanym ze zmianami na rynku kapitałowym (ogólnej poprawie na rynku towarzyszy na ogół wzrost cen większości akcji i odwrotnie). Wpływ pozostałych czynników, w tym czynnika losowego, określa wartość współczynnika zbieżności ϕ: ϕ = R = 0,45 = 0,855 W tej sytuacji mówimy o tzw. ryzyku specyficznym, związanym z daną akcją. Oprócz zmian czysto losowych mają tu miejsce m.in. zmiany związane z sytuacją finansową danej spółki (poprawie sytuacji finansowej powinno towarzyszyć większe zainteresowanie ze strony inwestorów). Czynniki specyficzne aż w 85,5 proc. wyjaśniają zmiany zyskowności akcji analizowanej spółki. Niewątpliwie dużą rolę odgrywa tu czynnik losowy (zob. rys..9). Interpretacja współczynników R i ϕ jest analogiczna dla różnych postaci analitycznych funkcji regresji, co czyni te miary uniwersalnymi. Należy podkreślić, iż relatywnie niska wartość współczynnika R (wysoka ϕ) może wynikać nie tylko ze znacznego oddziaływania czynnika losowego i innych nieuwzględnionych w modelu czynników, ale również z nieodpowiedniego doboru postaci analitycznej funkcji regresji. W związku z tym przed dokonaniem ostatecznego doboru postaci analitycznej funkcji warto

232 str. 3.. Analiza współzależności obliczyć współczynniki determinacji dla kilku potencjalnych modeli i wybrać ten, dla którego wartość współczynnika R jest największa. Oto przykład obliczenia współczynnika determinacji dla nieliniowej funkcji regresji: Przykład. Należy obliczyć współczynnik determinacji R dla danych z przykładu prezentującego analizę regresji nieliniowej wartości księgowej przypadającej na akcję (zmienna zależna Y) względem poziomu wskaźnika rentowności kapitałów własnych (zmienna niezależna X). Wartości teoretyczne zmiennej objaśnianej wyznaczamy podstawiając kolejno wartości xi do uprzednio oszacowanej funkcji regresji: yˆ = 94,95 + 0,84 x + 43,93 x Następnie obliczamy wartość średnią zmiennej zależnej Y i uzupełniamy tabelę: Tabela.37. Wpływ wskaźnika ROE na wartość księgową na akcję spółki Strzelec SA A xi Lata ,0% 7,0% 8,6% 4,0% 7,7% Σ B yi C y i 9,8 99,0 97,6 0,8 05,9 496,9 D yi y 93,304 96,66 00,364 0,483 04,6 6,6 0,4,84,37 6,476 E yˆi y 6,077,756 0,983 3,0 4,735 F = D ( yi y ) 43,708 0,70 3,38 5,65 4,936 94,767 G = E ( yˆi y ) 36,934 7,594 0,966 9,6,47 77,533 Źródło: Obliczenia własne na podstawie danych pochodzących z Portalu Finansowego Money.pl, Sumy z kolumny F i G podstawiamy do wzoru na współczynnik determinacji: n R = ( yˆ y) i (y y) i= n i= i = 77,533 = 0,88 94,767

233 .. Analiza współzależności str. 33 Wysoki poziom współczynnika świadczy o dobrym dopasowaniu funkcji kwadratowej do danych (zob. rys..0). Zmienność wartości księgowej na jedną akcję w niemal 8 proc. została wyjaśniona zmiennością wskaźnika rentowności kapitałów własnych wskaźnik ten w syntetyczny sposób ukazuje bowiem sytuację finansową przedsiębiorstwa. Zgodnie z modelem Du Ponta można go przedstawić w postaci iloczynu innych wskaźników finansowych (zob. Indeksy indywidualne i agregatowe). Klasyczna metoda najmniejszych kwadratów znajduje zastosowanie nie tylko do szacowania parametrów funkcji regresji, gdzie zmiennymi objaśniającymi są cechy ilościowe. Do modelu regresji nie tylko liniowej można włączyć także zmienną jakościową jako zmienną niezależną. W tym celu należy wprowadzić tzw. zmienną wskaźnikową, zwaną też sztuczną, binarną czy zero-jedynkową. Zmienna ta przyjmuje dwie wartości (por. [, s. 558]): gdy dany wariant występuje, 0 pozostałe warianty cechy. Jeżeli cecha jest dychotomiczna, to powyższe kodowanie jest wystarczające. Jednak w przypadku jakościowych cech przyjmujących więcej niż dwa warianty konieczne jest wprowadzenie kilku zmiennych sztucznych. W niniejszym opracowaniu ograniczono się do cechy dychotomicznej (regresja prosta z jedną zmienną sztuczną z). Oto przykład: Przykład. Należy oszacować parametry funkcji regresji ukazującej wpływ płci respondenta na wizualną ocenę publikacji Statystyka po ludzku. Postać liniowej funkcji regresji jest następująca: yˆ = a0 + a z Wprowadzona zmienna sztuczna przyjmuje wartość równą, jeżeli respondentem jest kobieta w przeciwnym razie wartość tej zmiennej jest równa

234 str Analiza współzależności zeru. Dane przedstawione w postaci szeregu korelacyjnego wraz z obliczeniami pomocniczymi są następujące: Tabela.38. Zależność oceny wyglądu publikacji Statystyka po ludzku od płci respondenta. i Σ A zi B yi C zi z D yi y 0,47 0,47 0,47 0,47 0,47 0,53 0,53 0,53 0,47 0,53 0,47 0,47 0,53 0,53 0,53 E = C ( zi z ) 0,0,0,0,0,0 0,0,0,0 0,0 0,80 0,0,80 3,80 0,80 3,80 F = D ( yi y ) G = C D ( zi z ) ( yi y ) 0,04 4,84 4,84,44,44 0,04 4,84,44 0,04 0,64 0,04 3,4 4,44 0,64 4,44 5,40 0,09,03,03 0,56 0,56 0,,7 0,64 0,09 0,43 0,09 0,84,03 0,43,03 5,60 0, 0, 0, 0, 0, 0,8 0,8 0,8 0, 0,8 0, 0, 0,8 0,8 0,8 3,73 Źródło: Obliczenia własne na podstawie danych umownych. Parametry funkcji regresji szacowane są klasyczną metodą najmniejszych kwadratów (zob. regresja liniowa): yˆ = +,5 z Mężczyźni ocenili wygląd publikacji w skali Stapela (od 5 do +5) na poziomie (za zmienną z podstawiamy wartość 0), natomiast kobiety średnio rzecz biorąc wyżej oceniały szatę graficzną e-booka do równania za zmienną z podstawiamy wartość : yˆ = +,5 = 3,5

235 .. Analiza współzależności str. 35 Wartości oraz 3,5 to średnie warunkowe cechy zależnej obliczone odpowiednio dla wariantów mężczyzna i kobieta (por. regresja empiryczna). Niemniej jednak prezentowana metoda pozwala na wprowadzenie zespołu zmiennych, w tym właśnie jakościowych, dzięki czemu dane zjawisko będzie lepiej opisane. Poruszone zagadnienia związane z analizą współzależności stanowią podbudowę do dalszego studiowania w ramach ekonometrii...3. Trening i ewaluacja Podsumowaniem podrozdziału Analiza współzależności jest przedstawiona poniżej analiza. Ma ona na celu budowę modelu regresji z jedną zmienną niezależną X, najlepiej wyjaśniającą zmienność przeciętnych cen mieszkań w Polsce w II kw. 006 r. w przeliczeniu na metr kwadratowy powierzchni lokalu. Analizę przeprowadzono na podstawie danych o rynku mieszkaniowym w największych miastach Polski (zob. Dane_do_analizy.xls; zakładka: Mieszkania). Potencjalne zmienne objaśniające to: lokalizacja oraz liczba pokoi. Niezbędne obliczenia wykonano w arkuszu kalkulacyjnym MS Excel (zob. Przykłady analiza współzależności). W tym miejscu zostanie przedstawiony raport z analizy. Postawiono dwie hipotezy robocze:. Na przeciętną cenę mieszkania (zł/m) wpływa lokalizacja, niezależnie od wielkości mieszkania mierzonej liczbą pokoi. Im większe miasto, tym wyższe ceny mieszkań.. Podstawowym czynnikiem wpływającym na cenę mieszkania (zł/m) jest liczba pokoi. Generalnie droższe są małe mieszkania, zwłaszcza kawalerki (lokalizacja jest tu bez znaczenia). Aby zweryfikować pierwszą hipotezę, należy określić siłę korelacji pomiędzy przeciętną ceną mieszkania a rodzajem miasta (cecha nominalna). Najpierw dane pogrupowano w tablicę korelacyjną:

236 str Analiza współzależności Ceny mieszkań (zł/m) 3000 do do do do 6040 Σ Lokalizacja Σ Gdańsk Kraków Poznań Warszawa Wrocław Dla każdego z analizowanych miast podano średnie ceny metra kwadratowego mieszkania jedno-, dwu-, trzy- i czteropokojowego, stąd sumy dla poszczególnych wariantów zmiennej lokalizacja wyniosły 4. Warto zauważyć, iż w przypadku Warszawy wszystkie ceny mieszkań zaklasyfikowano w ostatnim przedziale klasowym w Poznaniu sytuacja przedstawiała się natomiast odwrotnie. Korzystając z danych zawartych w tablicy korelacyjnej, wyznaczono liczebności teoretyczne (por. Przykłady analiza współzależności; zakładka: Lokalizacja). W kolejnym kroku wykonano obliczenia pomocnicze zmierzające do wyznaczenia statystyki chi-kwadrat: χ = 33,4 Następnie obliczono wybrane miary korelacji (r = 5 wierszy, k = 4 kolumny): a) współczynnik V-Cramera: V= χ = n min{ ( r ) ; ( k )} 33,4 = 0 min{ ( 5 ) ; ( 4 )} 33,4 = 0, b) współczynnik T-Czuprowa: T= χ = n ( r ) ( k ) 33,4 = 0 ( 5 ) ( 4 ) 33,4 = 0,69 0

237 str Analiza współzależności Oba współczynniki wskazują na istotny wpływ lokalizacji na cenę metra kwadratowego mieszkania. Z uwagi na fakt, że zmienna objaśniająca jest cechą ilościową, można obliczyć współczynnik eta. Nawiązując do oznaczeń w prezentowanym wcześniej wzorze przyjęto: xij i-ta cena mieszkania (tys. zł/m) w j-tym mieście Dane xij zestawiono w tabeli: Lokalizacja Gdańsk Kraków Poznań Warszawa Wrocław Cena mieszkania (tys. zł/m) 3,630 3,766 3,376 5,843 5,504 5,435 3,606 3,360 3,50 5,993 6,037 5,704 4,500 4,588 4,05 Σ 3,35 5,36 3,037 5,688 4,07 Σ 4,3,98 3,53 3,4 7,30 89,96 Cenę mieszkania celowo przedstawiono w tysiącach złotych dzięki temu uniknięto bardzo dużych liczb przy podnoszeniu do kwadratu. Średnia cena mieszkania w Polsce to: x= 89,96 = 4,496 0 Średnie ceny mieszkań dla poszczególnych wariantów cechy niezależnej, tj. miast, obliczono dzieląc kolejno sumy z powyższej tabeli przez liczbę obserwacji dla danego wariantu. Np. dla Gdańska i Krakowa średnie warunkowe obliczono następująco: xi = 4,3 = 3,53 4 x =,98 = 5,480 4

238 str Analiza współzależności Analogicznie wyznaczono średnie dla pozostałych miast. Wielkości te są następnie wykorzystywane w dalszych obliczeniach pomocniczych, których celem jest wyznaczenie wartości licznika wzoru na współczynnik eta (por. Przykłady analiza współzależności; zakładka: Lokalizacja): A Lokalizacja Gdańsk Kraków Poznań Warszawa Wrocław Σ B nj C xj D xj x 3,53 5,480 3,88 5,856 4,38 E = D ( x j x ) 0,966 0,983,08,359 0,69 F = E B ( x j x ) n j 0,93 0,967,459,847 0,08 3,73 3,87 5,84 7,39 0, 0,94 Obliczenia pomocnicze do wyznaczenia mianownika wzoru: (x Lokalizacja Gdańsk Kraków Poznań Warszawa Wrocław ij 0,750,84 0,793,40 0,000 x) 0,533,05,9,374 0,008 Σ,55 0,88,83,459 0,085,3 0,409,30,40 0,30 Σ 3,85 4, 6,03 7,49 0,3,8 Obliczamy współczynnik eta: (x k η = j= r j x) (x k i= j= ij nj x) = 0,94 = 0,96,8 Bardzo wysoka wartość współczynnika świadczy o silnej zależności ceny metra kwadratowego mieszkania od lokalizacji. Oto ranking przeciętnych cen mieszkań:

239 str Analiza współzależności 5 (tys. zł/m ) średnia cena mieszkania Poznań Gdańsk Wrocław Kraków Warszawa Jak widać, zróżnicowanie cen w porównywanych miastach jest znaczne najdroższe mieszkania są w stolicy, najtańsze zaś w Poznaniu. W celu sprawdzenia siły zależności pomiędzy ceną metra kwadratowego mieszkania (zmienna zależna Y) a liczbą pokoi (zmienna objaśniająca X) obliczono współczynnik korelacji liniowej Pearsona dla danych pogrupowanych w tablicę korelacyjną (por. Przykłady analiza współzależności; zakładka: liczba_pokoi): xi yj (liczba pokoi) 3 4 n j y j n j (y (y j y) xi ni ( xi x ) ( xi x ) ni ni cena mieszkania (tys. zł/m) środki klas 3,38 4,4 4,90 5, ,66 6,56 9,8, 0, 0,7,39 8,50 0,47 0,35 9,7 9,03,5 0,5 0,5,5 39,6 89,64 y ) n j j,5,5,5,5 5,00

240 str Analiza współzależności Wartości średnie dla obu zmiennych wynoszą: x= y= 50 =,5 0 89,64 = 4,48 0 Odchylenia standardowe wynoszą odpowiednio: sx = sy = 5 =,8 0 9,03 = 0,975 0 Obliczenia pomocnicze do wyznaczenia kowariancji: xi y j nij yj (liczba pokoi) cena mieszkania (tys. zł/m) środki klas 3,38 4,4 4,90 6,76 4,4 0,00 6,76 8,8 9,80 0,8,4 0,00 7,04 6,56 9,60 60,84 4,40 9, Σ Σ 5,66,3,64 33,96,64 90,56,0 47,480 66,660 85,840,0 Sumę po wierszach i kolumnach z powyższej kolumny oraz obliczone wcześniej wartości średnie podstawiamy do wzoru na kowariancję: r cov( x, y ) = k i= j= xi y j nij n x y = 0,5 4,48 = 0,095 0 Obliczoną powyżej wartość kowariancji, jak również odchylenia standardowe, podstawiamy do wzoru ogólnego na współczynnik korelacji liniowej Pearsona: rxy = cov( x, y ) 0,095 = = 0,087 sx s y,8 0,975

241 str. 4.. Analiza współzależności Otrzymana wartość współczynnika świadczy o braku korelacji pomiędzy analizowanymi cechami. Z uwagi na fakt, że zmienną objaśniającą jest cecha skokowa a nie ciągła zamiast diagramu korelacyjnego postulowane jest sporządzenie krzywej regresji I rodzaju przeciętnych cen mieszkań względem liczby pokoi (zob. regresja empiryczna): 5 (tys. zł/m ) cena mieszkania liczba pokoi Z powyższego wykresu średnich warunkowych cen mieszkań wynika, że w Polsce bez względu na lokalizację najdroższe okazały się mieszkania dwupokojowe, co przeczy postawionej na wstępie hipotezie roboczej. Nie sprawdziło się przypuszczenie, że od lokalizacji ważniejszą zmienną objaśniającą może okazać się liczba pokoi różnice pomiędzy przeciętnymi cenami mieszkań jedno-, dwu-, trzy- i czteropokojowych okazały się relatywnie niewielkie. Zatem zmienną trafnie opisującą zróżnicowanie cen mieszkań w Polsce okazała się lokalizacja. Do modelu regresji włączono więc cechę jakościową wprowadzając zmienną sztuczną Z: Y = a0 + a Z gdzie: Y przeciętna cena mieszkania (tys. zł/m) Z zmienna sztuczna.

242 str. 4.. Analiza współzależności Zmienna sztuczna przyjmuje następujące wartości: 0 gdy mieszkanie wybudowano w Warszawie bądź Krakowie, pozostałe lokalizacje (Gdańsk, Poznań, Wrocław). Parametry funkcji regresji oszacowano klasyczną metodą najmniejszych kwadratów. Obliczenia pomocnicze (dane w postaci szeregu korelacyjnego) prezentuje tabela: i Σ A zi B yi 0 3,630 5, ,606 5, , ,766 5, ,360 6, , ,376 5, ,50 5, ,05 0 3,35 5,36 0 3,037 5, , ,96 C zi z 0,400 0,600 0,400 0,600 0,400 0,400 0,600 0,400 0,600 0,400 0,400 0,600 0,400 0,600 0,400 0,400 0,600 0,400 0,600 0,400 D yi y E = C ( zi z ) 0,866,347 0,890,497 0,004 0,730,008,36,54 0,09,0 0,939,346,08 0,9,45 0,640,459,9 0,479 0,60 0,360 0,60 0,360 0,60 0,60 0,360 0,60 0,360 0,60 0,60 0,360 0,60 0,360 0,60 0,60 0,360 0,60 0,360 0,60 4,800 F = D ( yi y ) G = C D ( zi z ) ( yi y ) 0,750,84 0,793,40 0,000 0,533,05,9,374 0,008,55 0,88,83,459 0,085,3 0,409,30,40 0,30,8 0,347 0,808 0,356 0,898 0,00 0,9 0,605 0,455 0,94 0,037 0,448 0,563 0,539 0,75 0,7 0,458 0,384 0,584 0,75 0,9 9,370 Sumy z kolumn A i B posłużyły kolejno do obliczenia wartości średnich: z= y= 8 = 0,4 0 89,96 = 4,496 0 Parametr kierunkowy obliczamy dzieląc sumę z kolumny G przez sumę z kolumny E:

243 str Analiza współzależności n b= (z i= i z ) ( yi y ) n (z i= i z) = 9,37 =,95 4,8 Wartości średnie i obliczony poziom parametru kierunkowego podstawiamy do wzoru na wyraz wolny: a = y b x = 4,496,95 0,4 = 3,76 Oszacowana funkcja regresji ma postać: Y = 3,76 +,95 Z Podstawiając za zmienną Z wartość otrzymamy przeciętną cenę mieszkania w Warszawie i Krakowie (5,668 tys. zł/m). Podstawiając za zmienną wartość zero otrzymamy wartość wyrazu wolnego, ktorą interpretujemy tu jako przeciętną cenę mieszkania w pozostałych miastach (Gdańsk, Poznań, Wrocław). Kolejną kwestią jest ocena jakości modelu. W tym celu posłużono się współczynnikiem determinacji R. Punktem wyjścia jest określenie wartości teoretycznych (podstawiamy za zmienną Z odpowiednio wartości 0 lub ). Oto obliczenia pomocnicze: i A yi B y i 3,630 5,843 3,606 5,993 4,500 3,766 5,504 3,360 6,037 4,588 3,376 5,435 3,50 5,704 4,05 3,76 5,668 3,76 5,668 3,76 3,76 5,668 3,76 5,668 3,76 3,76 5,668 3,76 5,668 3,76 C yˆi y 0,78,7 0,78,7 0,78 0,78,7 0,78,7 0,78 0,78,7 0,78,7 0,78 D = C ( yˆi y ) 0,60,37 0,60,37 0,60 0,60,37 0,60,37 0,60 0,60,37 0,60,37 0,60

244 str Analiza współzależności ,35 5,36 3,037 5,688 4,07 3,76 5,668 3,76 5,668 3,76 0,78,7 0,78,7 0,78 Σ 0,60,37 0,60,37 0,60 8,89 Współczynnik determinacji obliczamy dzieląc sumę z ostatniej kolumny powyższej tabeli przez sumę z kolumny F wcześniejszej tabeli, zawierającej obliczenia pomocnicze do wyznaczenia parametrów funkcji regresji: n R = ( yˆ y) (y y) i= n i= i i = 8,89 = 0,839,8 Wartość współczynnika świadczy o wysokiej jakości modelu. Wysokość ceny mieszkania niemal w 84 proc. zależy od lokalizacji resztę stanowią pozostałe czynniki, w tym czynnik losowy. Niewykluczone, że dodatkowe wprowadzenie drugiej branej pod uwagę zmiennej liczby pokoi jeszcze bardziej zwiększyłoby poziom współczynnika R. EWALUACJA Test 3 Pytanie. Biorąc pod uwagę typ skali pomiarowej oraz fakt czy dana miara jest unormowana, wymienionym współczynnikom korelacji proszę przypisać rangi od do 4, gdzie oznacza miarę najdokładniejszą : a) b) c) d) współczynnik korelacji rang: współczynnik C-Pearsona: współczynnik V-Cramera: współczynnik korelacji liniowej Pearsona:

245 .. Analiza współzależności str. 45 Pytanie. Współczynnik eta można obliczyć, gdy: a) b) c) d) obie cechy mierzone są na skali nominalnej pomiaru zmiennej zależnej dokonano na skali porządkowej obie cechy mierzone są na skali porządkowej pomiaru zmiennej zależnej dokonano na skali przedziałowej/ilorazowej Pytanie 3. Wartość współczynnika korelacji Pearsona równa 0,75 świadczy o: a) b) c) d) znacznej korelacji ujemnej znacznej korelacji dodatniej silnej korelacji ujemnej silnej korelacji dodatniej Pytanie 4. Parametr kierunkowy prostej regresji informuje o: a) poziomie cechy zależnej, gdy wartość cechy objaśniającej jest równa zeru b) stopniu dopasowania linii regresji do danych empirycznych c) zmianie cechy zależnej, gdy wartość cechy niezależnej zmieni się o jednostkę d) sile zależności liniowej Pytanie 5. Prosta regresji typu y = a0 + a x dotyczy: a) b) c) d) regresji prostej regresji wielorakiej regresji liniowej regresji nieliniowej

246 .. Analiza współzależności str. 46 Pytanie 6. Na podstawie 0 obserwacji należy dokonać analizy współzależności pomiędzy ceną m losowo wybranego mieszkania a województwem. Wówczas: a) b) c) d) odpowiednią miarą korelacji będzie współczynnik korelacji rang odpowiednią miarą korelacji będzie współczynnik eta odpowiedni jest model regresji prostej ze zmienną sztuczną odpowiedni jest model regresji wielorakiej ze zmienną sztuczną Pytanie 7. Dana jest funkcja kosztów: y = a0 + a x gdzie: y poziom kosztów całkowitych, x wielkość produkcji. Wówczas wyraz wolny interpretowany jest jako: a) b) c) d) jednostkowy koszt zmienny koszt stały przeciętny koszt całkowity przeciętny koszt stały Pytanie 8. Model regresji nieliniowej należy stosować w następujących sytuacjach: a) wartość współczynnika korelacji liniowej Pearsona wyniosła 0,8 b) wartość współczynnika korelacji liniowej Pearsona wyniosła 0,3 c) diagram korelacyjny ma postać:

247 str Analiza współzależności 0,8 0,6 0,4 0, 0 0 0, 0,4 0,6 0,8 d) przyrost zmiennej niezależnej o jednostkę wywoła proporcjonalny wzrost zmiennej zależnej Pytanie 9. Współczynnik beta jest: a) parametrem kierunkowym prostej regresji zmian kursu akcji wybranej spółki giełdowej względem zmian WIG (proc.) b) wyrazem wolnym w wyżej wymienionej funkcji c) miarą ryzyka systematycznego d) miarą ryzyka specyficznego Lista zadań nr 3 Zadanie Dla tygodniowych stóp zwrotu akcji spółki Żywiec (zob. Dane_do_analizy.xls; zakładka: Akcje) należy obliczyć i zinterpretować współczynnik beta. Miarę tę proszę porównać z obliczonym już współczynnikiem dla spółki Strzelec w celu stwierdzenia, która z porównywanych spółek jest bezpieczniejszą.

248 .. Analiza współzależności str. 48 Zadanie Proszę określić siłę i kierunek korelacji pomiędzy stopami realnego PKB Polski na tle średniej krajów UE-5 dla lat (Dane_do_analizy.xls; zakładka: PKB). Zadanie 3 Korzystając z wyników ankiety dla Czytelników (Dane_do_analizy.xls; zakładka: Ankiety) należy wyznaczyć krzywą regresji I rodzaju Y względem X, gdzie: Y wymiar: sama teoria/niezwykle praktyczne (P3_II). X wymiar: bardzo zawiłe/bardzo przejrzyste (P3_III). Powyższe wymiary dotyczą ocen treści na skali dyferencjału semantycznego. W oparciu o wykres regresji empirycznej należy stwierdzić czy istnieje zależność pomiędzy danymi wymiarami. Zadanie 4 Korzystając z wyników ankiety dla Czytelników należy określić wpływ płci respondenta na ocenę przejrzystości treści (P3_III) w tym celu należy obliczyć współczynnik eta. Zadanie 5 W oparciu o dane z poprzedniego zadania proszę zbudować model regresji poprzez wprowadzenie zmiennej jakościowej płeć do modelu i ocenić jakość tego modelu w jakim stopniu płeć Czytelnika wpłynęła na ocenę przejrzystości treści publikacji?

249 .3. Analiza dynamiki str Analiza dynamiki Prezentowane do tej pory metody opisu statystycznego nie uwzględniały czynnika czasu. Jeżeli nawet niektóre zbiory danych przedstawiały kolejno wartości w określonych jednostkach czasu, to były one traktowane jako szeregi korelacyjne. W niniejszym podrozdziale przedstawione zostaną wybrane metody analizy danych w czasie. Podstawą analizy dynamiki zjawisk jest szereg czasowy (wartości szeregu czasowego oznaczane będą jako yi). Analiza szeregów czasowych obejmuje (por. [3, s. 4]):. Zmienność badanego zjawiska ustalenie tendencji rozwojowej, wahań okresowych i przypadkowych, w tym prognozowanie.. Metody indeksowe badanie dynamiki zjawisk z wykorzystaniem metod indeksowych (indeksy indywidualne i agregatowe). Analiza empirycznych szeregów czasowych powinna więc prowadzić do odpowiedzi na dwa zasadnicze pytania (por. [9, s ]): Pytanie : Jakie są zmiany w poziomach obserwowanych zjawisk w dwóch okresach czasu? zastosowanie znajdują tu wyłącznie metody rachunku indeksowego. Pytanie : Jakie czynniki wywołują dynamiczną zmienność obserwowanych zjawisk i jaka jest siła i kierunek oddziaływania tych czynników? zastosowanie znajdują metody delimitacji, tj. eliminacji wahań w czasie (liczba obserwacji wyraźnie większa od ).

250 .3. Analiza dynamiki str. 50 W celu wyodrębnienia poszczególnych składowych danego szeregu czasowego należy dokonać tzw. jego dekompozycji. Przy ocenie poszczególnych składowych szeregu czasowego pomocna jest wizualna ocena sporządzonego wykresu (por. rys..3 rys..3). Elementami (składowymi) szeregu czasowego mogą być (por. [4, s. 6]):. Trend (T) długookresowa skłonność do jednokierunkowych zmian wartości badanej zmiennej. Występowanie trendu jest związane z oddziaływaniem stałego zestawu czynników. Zgodnie z przyjętą definicją wyróżnia się: a) trend malejący, b) trend rosnący. W literaturze poruszającej tematykę gry na giełdzie papierów wartościowych wymienia się ponadto trend boczny określany też mianem horyzontalnego. Wartości zmiennej zależnej (ceny akcji, poziom indeksu giełdowego) oscylują wokół pewnego stałego poziomu.. Wahania cykliczne (C) powtarzające się rytmicznie wahania wartości cechy w przedziałach czasu dłuższych niż rok (np. cykl koniunkturalny). 3. Wahania sezonowe (S) wahania wartości obserwowanego zjawiska wokół trendu, powtarzające się w przedziałach krótszych niż rok (np. sezonowość ruchu turystycznego). 4. Składnik losowy (ξ) są to wahania przypadkowe, występujące w mniejszym czy większym stopniu praktycznie w każdym szeregu czasowym.

251 .3. Analiza dynamiki str. 5 Poniższy schemat ukazuje wpływ poszczególnych składowych (T, C, S) na kształtowanie się danego zjawiska w czasie: Rysunek.. Klasyfikacja szeregów czasowych. Źródło: Opracowanie własne na podstawie [4, s. 63]. Wyróżnia się dwa podstawowe modele szeregów czasowych (por. [, s. 63]):. Model addytywny szereg czasowy ukazany jest jako superpozycja czterech składowych, które po zsumowaniu dają w rezultacie obserwowane poziomy wartości szeregu. Takie podejście jest niezbędne przy

252 .3. Analiza dynamiki str. 5 wprowadzeniu zmiennych zero-jedynkowych w analizie regresji, gdzie zmienną objaśniającą jest zmienna określająca sezonowość.. Model multiplikatywny (powszechnie stosowany) szereg czasowy ukazany jest jako iloczyn czterech elementów składowych. Iloczyn tych składowych stanowi kolejne zaobserwowane wartości: W dalszej części publikacji omówiono wybrane metody analizy szeregów czasowych. Powyższe założenia co do rodzaju modelu szeregu czasowego są ważne w przypadku analizy sezonowości..3.. Wybrane modele tendencji rozwojowej W celu wyodrębnienia tendencji rozwojowej wykorzystuje się metody statystyczne, które podzielić można na dwie grupy [, s. 8]:. Mechaniczne metody wyznaczania trendu (np. metoda średnich ruchomych).. Analityczne metody wyznaczania trendu (metoda najmniejszych kwadratów). Przykładem mechanicznej metody wyznaczania trendu jest metoda średnich ruchomych. Idea wygładzania szeregu czasowego za pomocą średnich ruchomych polega na zastąpieniu pierwotnych wartości zmiennej objaśniającej Y średnimi arytmetycznymi, obliczanymi sekwencyjnie dla

253 .3. Analiza dynamiki str. 53 wybranej liczby obserwacji (por. [4, s. 67]). Średnie ruchome dla przyjętej stałej wygładzania k oblicza się ze wzoru: W przypadku gdy stała wygładzania k jest liczbą nieparzystą wyznaczone wartości średnie przypisuje się na ogół środkowym obserwacjom, w oparciu o które wyznaczono średnie ruchome. W tej sytuacji wzór na średnią ruchomą przyjmuje postać (oznaczenia analogiczne jak w prezentowanym powyżej wzorze): t + 0,5 ( k ) yt = yi k i = t 0,5 ( k ) Oto dwa przykłady ukazujące sposób zastosowania przedstawionych wzorów na obliczanie średnich ruchomych: Przykład. Na podstawie kursów zamknięcia akcji spółki Żywiec SA za pierwsze półrocze 006 r. (zob. Dane_do_analizy.xls; zakładka: Akcje) należy wyznaczyć -dniowe oraz 6-dniowe średnie ruchome. Wykresy średnich ruchomych dodano z wykorzystaniem narzędzia MS Excel Dodaj linię trendu. Jako stałą wygładzania przyjęto odpowiednio k = i k = 6 sesji giełdowych (wartości te wpisano kolejno w polu Okres okna dialogowego Dodaj linię trendu).

254 str Analiza dynamiki Rysunek.. Średnie ruchome z i 6 sesji giełdowych kursów zamknięcia akcji Żywiec SA 550 okr. śr. ruchoma 6 okr. śr. ruchoma kurs zamknięcia (zł) sesje Źródło: Opracowanie własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, Ponadto przedstawione na powyższym wykresie średnie ruchome obliczono z wykorzystaniem arkusza MS Excel (zob. Przykłady średnia ruchoma), stosując następujące wzory: a) średnia ruchoma -dniowa: yt = t yi i = t yt = t yi 6 i = t 6 b) średnia ruchoma 6-dniowa: Przykładowo, pierwszą wartość -dniowej średniej ruchomej, przypisaną dla t = 3 sesji giełdowych, obliczono jako średnią arytmetyczną kursów zamknięcia akcji z pierwszych sesji:

255 .3. Analiza dynamiki y3 = str y + y + y3 + y4 + y5 + y6 + y7 + y8 + y9 + y0 + y + y y = yi = i i = 3 i = Podstawiamy kolejno ceny zamknięcia akcji Żywiec SA do wzoru: y3 = , , = 48,5 Analogicznie wyznacza się kolejne wartości średnie. Przykład. Należy wyznaczyć średnią ruchomą o stałej wygładzania k = 9 z różnicy średnich, wyznaczonych w poprzednim przykładzie: średniej dniowej i 6-dniowej. Zastosowano tu wzór dla nieparzystej stałej wygładzania k, gdzie wyznaczone wartości średnie przypisuje się środkowym obserwacjom. Oto wzór dla k = 9: yt = t + 0,5 ( 9 ) t + 4 yi = yi 9 i = t 0,5 ( 9 ) 9 i = t 4 Z uwagi na utratę danych związaną z obliczeniem 6-dniowej średniej ruchomej najmniejsza wartość szeregu czasowego to t = 7. Poniższa tabela przedstawia dziesięć pierwszych wyrazów szeregu czasowego, na podstawie których dokonano obliczeń 9-dniowej średniej ruchomej:

256 str Analiza dynamiki Tabela.39. Średnia ruchoma (k = 9) z różnicy średnich kroczących cen akcji Żywiec SA (k = i k = 6). A B Kurs zamknięcia T (zł) ,00 484,00 480,00 480,00 460,00 465,00 469,00 478,50 464,50 476,00 C Średnia ruchoma (k = ) 478,7 477,4 478,7 477,67 477,7 475,9 474,96 474,46 474,75 473,88 D Średnia ruchoma (k = 6) 480, 479,77 479,90 479,7 479,67 478,7 478,0 477,65 477,40 476,73 E=C D Różnica średnich,95,35,74,04,5,79 3,4 3,0,65,86 F Średnia ruchoma (k = 9),49,59,6,75,80,76 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Internetowego Gazety Parkiet, Pierwszą wartość średnią obliczono dla obserwacji od t = 7 do t = 35, przy czym wartość tę przypisano środkowemu wyrazowi, tj. t = 3: yt = 3 = y + y8 + y9 + y30 + y3 + y3 + y33 + y34 + y35 y = yi = 7 =,49 i 9 i = i = 7 9 W ten sam sposób obliczono pozostałe średnie ruchome. Dotychczas ukazano sposób obliczania tzw. prostych średnich ruchomych. W praktyce lepszym rozwiązaniem może okazać się jednak obliczenie ważonych średnich ruchomych. Większą wagę przypisuje się tu nowszym danym im starsze dane, tym mniejsze ich znaczenie. Praktyczny przykład zastosowania ważonych średnich ruchomych przedstawiono w podrozdziale Trening i ewaluacja. Wśród metod analitycznych na szczególną uwagę zasługuje klasyczna metoda najmniejszych kwadratów. Metoda ta jest powszechnie stosowana do wyznaczania trendu liniowego linię trendu wyznacza się w analogiczny

257 .3. Analiza dynamiki str. 57 sposób jak prostą regresji (por. regresja liniowa). Postać analityczna linii trendu jest następująca: Parametry powyższej funkcji można wyznaczyć z analogicznych wzorów jak na regresję liniową lub stosując nieco uproszczone: a) parametr kierunkowy: b) wyraz wolny: Linię trendu można, tak jak linię regresji, dodać do danych przedstawionych w postaci wykresu XY za pomocą narzędzia Excela Dodaj linię trendu (zob. Prezentacja PowerPoint pt. Excel_dodawanie_linii_trendu). Poniżej zaprezentowano sposób wyznaczania linii trendu z wykorzystaniem prezentowanych wyżej wzorów na parametr kierunkowy i wyraz wolny. Przykład. Na podstawie danych odnośnie wysokości wyniku finansowego netto Grupy Żywiec SA (lata ) należy wyznaczyć linię trendu i dokonać prognozy na 007 rok.

258 str Analiza dynamiki Wprowadzamy następujące oznaczenia: yt wynik finansowy netto Grupy Żywiec SA (mln zł) t lata (t =,, 5) Teraz konstruujemy tabelę z obliczeniami pomocniczymi: Tabela.40. Wynik finansowy netto Grupy Żywiec SA w latach (mln zł). A t Lata B yt Σ D = C (t t ) C t t 07,7 0,6 57,5 39,4 46,8 998,6 0 E=B C ( t t ) yt ,4 0,6 0,0 39,4 833,6 75,8 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Money.pl, W celu wypełnienia tabeli (kolumny C, D i E) konieczne jest obliczenie średniej wartości zmiennej czasowej t. Skorzystamy tu z uproszczonego wzoru: t= + n + 5 = = 3 Korzystając z wyznaczonych w powyższej tabeli sum, wyznaczamy parametr kierunkowy linii trendu: n a = (t i= n i (t i= t ) yi i t) = 75,8 = 7,58 0 Aby obliczyć wartość wyrazu wolnego, konieczne jest uprzednie wyznaczenie średniej arytmetycznej zmiennej objaśniającej:

259 .3. Analiza dynamiki n y= i= n yi = str ,6 = 99,7 5 Średnie arytmetyczne oraz wartość parametru kierunkowego podstawiamy do wzoru na wyraz wolny: a0 = y a t = 99,7 7,58 3 = 83,0 Równanie linii trendu jest następujące: yˆ t = 7,58 t 83,0 Na podstawie oszacowanej liniowej funkcji trendu można wyznaczyć prognozowaną wartość wyniku finansowego na 007 r., tj. na t = 7 okres. W tym celu do funkcji trendu za t podstawiamy wartość 7: yˆ 7 = 7, ,0 = 893,06 83,0 = 70,05 Prognozowany na podstawie wyznaczonej linii trendu wynik finansowy netto na 007 rok to 70 mln zł. Oczywiście liniowa funkcja trendu nie zawsze dostatecznie dobrze opisuje kształtowanie się danego zjawiska w czasie. Poniżej zaprezentowano przykłady innych funkcji trendu (por. [4, s ]): a) funkcja wykładnicza odznacza się stałymi stopami wzrostu a: yˆ t = a0 at, a > 0 Ponadto można wyznaczyć wykładniczą funkcję trendu, gdzie stałe stopy wzrostu to ln a, o następującej postaci analitycznej: yˆ t = e a0 a t, a > 0

260 str Analiza dynamiki Przykładem wykładniczej funkcji trendu może być skumulowana wartość kapitału (oprocentowanie złożone) na lokacie bankowej w kolejnych latach. b) funkcja potęgowa przypadkiem szczególnym jest funkcja liniowa (a = ): yˆ t = a0 t a, a > 0 c) funkcja logarytmiczna może być stosowana w przypadku słabnącej dynamiki danego zjawiska (coraz mniejsze przyrosty bezwzględne): yˆ t = a0 + a ln( t ) Wracając do prezentowanego powyżej przykładu odnośnie wysokości wyniku finansowego netto Grupy Żywiec SA (lata ): warto zauważyć, iż zdecydowanie lepszą od liniowej jest logarytmiczna funkcja trendu: Rysunek.3. Wynik finansowy netto Grupy Żywiec SA w latach (mln zł) trend logarytmiczny. 500 wynik finansowy (mln zł) 400 y = 35,7 ln(t) -,63 R = 0, t (lata) Źródło: Opracowanie własne na podstawie danych pochodzących z Serwisu Money.pl, Logarytmiczną funkcję trendu dodano za pomocą wspomnianego narzędzia MS Excel Dodaj linię trendu (z uwagi na ujemny wynik finansowy w 00

261 .3. Analiza dynamiki str. 6 roku nie były dostępne modele: potęgowy i wykładniczy). Bliska jedności wartość współczynnika determinacji R świadczy o bardzo dobrym dopasowaniu wybranego modelu do danych empirycznych..3.. Analiza sezonowości W analizie wahań sezonowych powszechnie stosowana jest metoda wskaźników. Metoda ta polega na wyznaczeniu tzw. wskaźników sezonowości dla poszczególnych faz cyklu wahań. Cykl zwany też okresem wahań to okres, w którym występują wszystkie fazy wahań. Można wyróżnić tu dwie następujące sytuacje [4, s ]:. Wahania bezwzględnie stałe amplitudy wahań, tj. różnice pomiędzy wartościami empirycznymi a teoretycznymi, wynikającymi z funkcji trendu w analogicznych fazach cyklu są mniej więcej takie same. W tej sytuacji zastosować można model addytywny.. Wahania względnie stałe amplitudy wahań w analogicznych fazach cyklu zmieniają się mniej więcej w tym samym stopniu. Jest to częstszy przypadek, w którym zastosowanie znajduje model multiplikatywny. W analizie wahań sezonowych można wyodrębnić cztery etapy (por. [4, s ]): Krok. Wyznaczenie funkcji trendu, a następnie wartości teoretycznych dla okresów od t = do n. W niniejszym opracowaniu przyjęto postać liniową: yˆt = a0 + a t

262 .3. Analiza dynamiki str. 6 Krok. Eliminacja trendu z szeregu czasowego: a) model addytywny obliczenie różnic pomiędzy wartościami empirycznymi zmiennej objaśniającej yt a wartościami teoretycznymi wyznaczonymi z funkcji trendu: b) model multiplikatywny podzielenie wartości empirycznych przez odpowiadające im wartości teoretyczne: Krok 3. Eliminacja wahań przypadkowych poprzez obliczenie tzw. surowych wskaźników sezonowości jako średnich arytmetycznych wielkości zt dotyczących danej fazy cyklu wahań: Krok 4. Obliczenie średniej arytmetycznej z surowych wskaźników sezonowości:

263 .3. Analiza dynamiki str. 63 Krok 5. Wyznaczenie czystych wskaźników sezonowości: a) model addytywny: b) model multiplikatywny: Suma oczyszczonych wskaźników sezonowości w przypadku modelu addytywnego powinna być równa zeru: ck = 0 k Jeśli natomiast przyjęto model multiplikatywny, to czyste wskaźniki sezonowości powinny sumować się do liczby faz cyklu wahań (np. w przypadku analizy sezonowości sprzedaży w ujęciu kwartalnym suma oczyszczonych wskaźników sezonowości powinna być równa 4): ck = N k Wskaźniki sezonowości informują, o ile wartości dla danej fazy cyklu odchylają się średnio w ujęciu bezwzględnym lub względnym od funkcji trendu. Odchylenia te należy uwzględnić przy prognozie na okres t [4, s. 85]: a) model addytywny:

264 .3. Analiza dynamiki str. 64 b) model multiplikatywny: Poniższy przykład ukazuje sposób wyznaczania wskaźników sezonowości w przypadku modelu multiplikatywnego (sposób postepowania dla modelu addytywnego zestawiono w podrozdziale Trening i ewaluacja, podsumowującym ten dział). Przykład. Biuro turystyczne w ramach biznes planu powinno m.in. dokonać prognozy sprzedaży map turystycznych na okres najbliższych dwóch lat. Firma dysponuje danymi kwartalnymi odnośnie ilości sprzedanych map z czterech ostatnich lat (6 obserwacji): Tabela.4. Sprzedaż map turystycznych (szt.). t (kwartały) sprzedaż map (szt.) Źródło: Dane umowne.

265 str Analiza dynamiki Wprowadzamy oznaczenia: yt ilość sprzedanych map w danym kwartale (szt.) t czas w kwartałach Szacujemy parametry liniowej funkcji trendu (zob. trend liniowy): yˆ t = 9,95 +,454 t Na podstawie wyznaczonej linii trendu wyznaczamy wartości teoretyczne. W tym celu za t podstawiamy kolejno liczby od do 6. W następnym kroku obliczamy relacje zt. Oto tabela prezentująca obliczenia pomocnicze niezbędne do wyznaczenia wskaźników sezonowości: Tabela.4. Sprzedaż map turystycznych (szt.) obliczenia pomocnicze. A t Σ B yt C y t ,95 +,454 =,4 4,9 7,3 9,8 3, 34,7 37, 39,6 4,0 44,5 46,9 49,4 5,9 54,3 56,8 59, D=B/C zt 0 /,4 = 0,446,006,563 0,470 0,37 0,865,36 0,49 0,333 0,809,30 0,45 0,366 0,89,0 0,540 Źródło: Obliczenia własne na podstawie danych umownych. Surowe wskaźniki sezonowości obliczamy jako średnie zt jednoimiennych okresów (por. Przykłady analiza sezonowości_model multiplikatywny):

266 .3. Analiza dynamiki str. 66 a) k = (I kw.): c = z + z + z9 + z3 zt = 5 = 0, c = z + z6 + z0 + z4 zt = = 0, c3 = z + z + z + z zt = =, c4 = z + z8 + z + z6 zt = 4 = 0, b) k = (II kw.): c) k = 3 (III kw.): d) k = 4 (IV kw.): Nietrudno sprawdzić, iż otrzymane wskaźniki sezonowości nie sumują się do liczby 4. Zatem konieczne jest ich oczyszczenie. W tym celu najpierw obliczamy średnią arytmetyczną surowych wskaźników sezonowości: q= c + c + c + c 4,0058 c k = 3 4 = =, k 4 4 Następnie poszczególne surowe wskaźniki sezonowości dzielimy przez otrzymaną wielkość średnią: a) k = (I kw.): c = c 0,3796 = = 0,3790 q,004 c = c 0,877 = = 0,8759 q,004 b) k = (II kw.):

267 .3. Analiza dynamiki str. 67 c) k = 3 (III kw.): c3 = c3,87 = =,794 q,004 c4 = c4 0,4663 = = 0,4657 q,004 d) k = 4 (IV kw.): Wartość wskaźnika sezonowości większa od jedności oznacza, iż sprzedaż w danym kwartale jest wyższa od przeciętnej, wynikającej z trendu. I tak najwięcej map biuro sprzedaje w sezonie letnim (III kw.). Wówczas obroty ponad dwukrotnie przekraczają przeciętny poziom sprzedaży. Najgorszy jest pod tym względem pierwszy kwartał, kiedy to sprzedaż ogólnie rzecz biorąc jest mniejsza o (0,379 ) 00 = 6, proc. Nieznacznie lepiej jest w ostatnim kwartale przychody stanowią (0,4657 ) 00 = 53,43 proc. przeciętnego poziomu. Po wyznaczeniu funkcji trendu oraz wskaźników sezonowości można przejść do przeprowadzenia prognozy na najbliższe dwa lata, tj. okresy od t = 7 do 4. Oto prognoza na okres t = 7: a) wyznaczenie wartości teoretycznej wynikającej z funkcji trendu: yˆ7* = 9,95 +,454 7 = 6,67 b) korekta o wskaźnik sezonowości (w tym przypadku jest to I kw.): y7* = yˆ7* c * y7 = 6,67 0,379 = 3,37 Zatem prognoza sprzedaży map turystycznych na okres t = 7 wynosi 3 szt. Analogicznie wyznaczono pozostałe prognozowane wartości, które na poniższym wykresie zaznaczono linią przerywaną.

268 str Analiza dynamiki Rysunek.4. Prognoza sprzedaży map turystycznych na okres dwóch najbliższych lat sprzedaż map (szt.) t (kwartały) wartości teoretyczne prognoza Źródło: Opracowanie własne na podstawie danych umownych. Daje się zauważyć wyraźną sezonowość sprzedaży. Jak już wspomniano, najwięcej map sprzedaje się w sezonie letnim (lipiec, sierpień), kiedy to ruch turystyczny jest największy (wakacje, urlopy wypoczynkowe) Indeksy indywidualne i agregatowe Drugą grupą metod analizy szeregów czasowych obok ustalenia tendencji rozwojowej czy też wahań okresowych są metody indeksowe. Zanim przejdziemy do omawiania metod indeksowych, warto usystematyzować sposób obliczania przyrostów względnych i bezwzględnych (por. [3, s. 5]):. Przyrosty bezwzględne: a) jednopodstawowe:

269 .3. Analiza dynamiki str. 69 b) łańcuchowe:. Przyrosty względne: a) jednopodstawowe: b) łańcuchowe: Indywidualne indeksy dynamiki możemy obliczyć według poniższych wzorów, jak również zwiększając przyrosty względne jednopodstawowe lub łańcuchowe o (tj. 00 proc.): a) indywidualne indeksy jednopodstawowe: I t / p = + dt / p

270 .3. Analiza dynamiki str. 70 b) indywidualne indeksy łańcuchowe: I t / t = + dt / t Indywidualne indeksy dynamiki, tak jak przyrosty względne, można wyrazić w wielkościach procentowych (mnożąc je przez 00). Niemniej jednak wielkości wyznaczone z prezentowanych wyżej wzorów stosuje się do wyznaczenia średniej geometrycznej: Sposób II: Średnia geometryczna służy do określenia średniookresowego tempa zmian danego zjawiska w określonym czasie: ( xg ) 00% Sposób obliczania przyrostów bezwzględnych i względnych, indywidualnych indeksów dynamiki oraz średniookresowego tempa zmian ukazuje przykład: Przykład. Należy dokonać analizy dynamiki przychodów ze sprzedaży Grupy Żywiec SA na przestrzeni lat Dane wraz z niezbędnymi obliczeniami prezentuje tabela (por. Przykłady indeksy dynamiki; zakładka: indeksy_indywidualne):

271 str Analiza dynamiki Tabela.43. Analiza dynamiki przychodów ze sprzedaży Grupy Żywiec SA w latach Przychody netto ze sprzedaży (mln zł) ,0 956,5 3 69, 867,6 04,6. Przyrosty bezwzględne (mln zł): a) jednopodstawowe (rok bazowy: 00.) b) łańcuchowe 36,5 36,5. Przyrosty względne (proc.): a) jednopodstawowe (rok bazowy: 00.) b) łańcuchowe 3. Indeksy dynamiki: a) jednopodstawowe (rok bazowy: 00.) b) łańcuchowe 574,6 48, 999, 37,6 44,4 76,5,4%,8%,4% 8,4% 38,0% 9,0% 3,%,0%,4,4,8,084,380,3,090 0,790 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Money.pl, Przyrosty bezwzględne jednopodstawowe obliczono jako różnicę pomiędzy poszczególnymi wartościami przychodów ze sprzedaży w latach a przychodami z okresu bazowego, tj. 00 r. (jako bazę można także przyjąć inny rok): a) rok 00: 00 / 00 = y 00 y 00 = 956,5 630 = 36,5 003 / 00 = y 003 y 00 = 304,6 630 = 574,6 004 / 00 = y 004 y 00 = 369, 630 = 999, b) rok 003: c) rok 004: d) rok 005: 005 / 00 = y 005 y 00 = 867,6 630 = 37,6

272 .3. Analiza dynamiki str. 7 Przyrosty bezwzględne łańcuchowe to różnice pomiędzy sąsiednimi wartościami przychodów ze sprzedaży: a) rok 00: 00 / 00 = y 00 y 00 = 956,5 630 = 36,5 b) rok 003: 003 / 00 = y003 y00 = 304,6 956,5 = 48, 004 / 003 = y003 y 00 = 369, 304,6 = 44,4 c) rok 004: d) rok 005: 005 / 004 = y 005 y 004 = 867,6 369, = 76,5 Przyrosty względne jednopodstawowe obliczamy, dzieląc przyrosty bezwzględne jednopodstawowe przez wartość zmiennej objaśnianej y z okresu bazowego (aby przyrosty względne wyrazić w wielkościach procentowych wynik dzielenia mnożymy przez 00). Sposób obliczenia jednopodstawowego przyrostu względnego dla 00 i 005 roku przy założeniu, że 00 rok to rok bazowy jest następujący: a) rok 00: d 00 / 00 = 00 / 00 y 00 = 36,5 = 0,4 =,4% 630 b) rok 005: d 005 / 00 = 005 / 00 y 00 = 37,6 = 0,09 = 9% 630

273 .3. Analiza dynamiki str. 73 Przyrosty względne łańcuchowe obliczamy, dzieląc przyrosty bezwzględne łańcuchowe przez wartość zmiennej objaśnianej z okresu bezpośrednio poprzedzającego. Dla porównania obliczono łańcuchowy przyrost względny dla 005 roku: d 005 / 004 = 005 / 004 y004 = 76,5 = 0, = % 369, Jeśli chodzi o indywidualne indeksy jednopodstawowe, to obliczamy je, dzieląc poszczególne wartości zmiennej objaśnianej przez wartość bazową. Indeks jednopodstawowy dla okresu bazowego wynosi. Indeksy zawarte w tabeli.43 obliczono następująco: a) rok 00: I 00 / 00 = y ,5 = =,4 y I 003 / 00 = y ,6 = =,8 y b) rok 003: c) rok 004: I 004 / 00 = y , = =,38 y I 005 / 00 = y ,6 = =,09 y d) rok 005: Natomiast indywidualne indeksy łańcuchowe otrzymamy, dzieląc wartość zmiennej objaśnianej z okresu t przez wartość z okresu t. W rozpatrywanym przykładzie mamy n = 5 okresów (lat), stąd liczba indeksów łańcuchowych wynosi n = 4:

274 str Analiza dynamiki a) rok 00: I 00 / 00 = y ,5 = =,4 y I 003 / 00 = y ,6 = =,084 y ,5 I 004 / 003 = y , = =,3 y ,6 I 005 / 004 = y ,6 = = 0,79 y , b) rok 003: c) rok 004: d) rok 005: W oparciu o wyznaczone indywidualne indeksy łańcuchowe możemy obliczyć średnioroczne tempo zmian przychodów ze sprzedaży. W tym celu najpierw obliczamy średnią geometryczną z wyznaczonych indeksów (n = 5 lat): xg = xg = 5 4 I 00 / 00 I 003/ 00 I 004 / 003 I 005 / 004,4,084,3 0,79 = 4,09 =,0 Tę samą wartość możemy uzyskać, wykorzystując wartość indeksu jednopodstawowego z 005 roku: xg = n I 005 / 00 = 4,09 =,0 Reasumując, w analizowanym okresie przychody ze sprzedaży Grupy Żywiec SA rosły średnio o, proc.: ( xg ) 00% = (,0 ) 00% =,%

275 str Analiza dynamiki Z przeprowadzonej analizy wynika, iż w 005 roku nastąpił istotny spadek wartości przychodów w porównaniu z rokiem poprzednim: Rysunek.5. Zmiany przychodów ze sprzedaży Grupy Żywiec SA w latach mln zl przyrosty bezwzględne łańcuchowe 000 przychody ze sprzedaży t (lata) Źródło: Opracowanie własne na podstawie danych pochodzących z Serwisu Money.pl, Wartość przychodów w porównaniu z 004 rokiem zmniejszyła się o 76,5 mln zł, co stanowiło spadek o proc. Informuje o tym bezpośrednio przyrost względny z 005 roku, jak również wartość indeksu łańcuchowego: 0,79. W tym przypadku wartość indeksu dynamiki pomniejszamy o, a otrzymany wynik mnożymy przez 00: ( I 005 / 004 ) 00% = ( 0,79 ) 00% = 0, 00% = % W analogiczny sposób obliczono średnioroczne tempo zmian przychodów z wykorzystaniem średniej geometrycznej. Odrębną kwestią jest przeliczanie indeksów: jednopodstawowych na łańcuchowe i odwrotnie. Generalnie zasada jest następująca:. Indeksy jednopodstawowe przeliczamy na łańcuchowe, dzieląc jednopodstawowy indeks obliczony dla okresu t przez jednopodstawowy indeks bezpośrednio poprzedzający.

276 str Analiza dynamiki. Indeksy łańcuchowe przeliczamy na jednopodstawowe, mnożąc je kolejno przez siebie (por. sposób obliczania średniej geometrycznej). Sposób przeliczania indeksów wyjaśniono na przykładzie liczbowym: Tabela.44. Indeksy dynamiki przychodów ze sprzedaży Grupy Żywiec SA w latach Indeksy jednopodstawowe: Przeliczanie na łańcuchowe:. Indeksy łańcuchowe: Przeliczanie na jednopodstawowe: 00, ,8,380,090,4 / =,8 /,4 = =,4 =,084,380 /,8 = =,3,090 /,380 = = 0,790,3 0,790,4 003,084,4 =,4,084 =,8,3 =.380 0,790 = =,4 =,8 =,380 =,090 Źródło: Obliczenia własne na podstawie danych pochodzących z Serwisu Money.pl, Ważne jest, aby przed przystąpieniem do przeliczania indeksów najpierw wyrazić je w wielkościach absolutnych tak jak uczyniono to w powyższej tabeli a nie w wielkościach procentowych. W praktyce obok przedstawionych indeksów indywidualnych zastosowanie znajdują także indeksy zespołowe (agregatowe), a mianowicie (por. [, s ]):. Zespołowe indeksy cen i ilości:

277 .3. Analiza dynamiki str. 77. Zespołowe indeksy wielkości stosunkowych: Zespołowe indeksy cen i ilości pozwalają wyjaśnić, w jakim stopniu dany czynnik decyduje o zmianie wartości możemy tu odpowiednio mówić o efekcie cenowym bądź efekcie ilościowym. Jeśli np. przedsiębiorstwo sprzedaje wyłącznie jeden produkt, to określenie zmian wartości przychodów ze sprzedaży sprowadza się do obliczenia indeksu indywidualnego (wartość z okresu bieżącego podzielona przez wartość z okresu bazowego). Sytuacja komplikuje się, gdy w ofercie znajduje się więcej niż jeden asortyment. Wówczas należy obliczyć tzw. zespołowy indeks wartości według wzoru: Kolejną kwestią jest określenie wpływu zmian cen i ilości na zmianę indeksu wartości. Zespołowe indeksy cen i ilości możemy wyznaczyć według formuły Laspeyresa lub Paaschego. Uśredniając za pomocą średniej geometrycznej otrzymane wyniki odpowiednio dla cen i ilości otrzymamy indeksy typu Fishera. Wzory zestawiono w tabeli:

278 str Analiza dynamiki Tabela.45. Zespołowe indeksy cen i ilości. Indeks cen Indeks ilości n n I p ( L) = Formuła Laspeyresa pi qi 0 pi 0 qi 0 i= n i= n I p (P) = Formuła Paaschego pi qi pi 0 qi i= n i= I p (F ) = Indeks typu Fishera I p ( L) I p ( P) I q ( L) = pi 0 qi pi 0 qi 0 i= n i= n I q ( P) = pi qi pi qi 0 i= n i= Iq (F ) = I q (L) I q ( P) Źródło: Opracowanie własne. Aby sprawdzić poprawność obliczeń, warto skorzystać z poniższej równości indeksowej: I w = I p ( L) I q ( P) = I q ( L) I p ( P) Wprowadzone zagadnienia odnośnie zespołowych indeksów cen, ilości i wartości poparto prostym przykładem liczbowym: Przykład. Firma edukacyjna organizuje kurs przygotowujący do matury z języka polskiego i matematyki. W pierwszym roku działalności łączna liczba przeuczonych godzin w ramach kursu przygotowującego do matury z języka polskiego wyniosła 3 tys., zaś do matury z matematyki tys. W roku kolejnym przeuczono w sumie po tys. godzin matematyki i języka polskiego. Jeśli chodzi o ceny, to w roku bazowym koszt jednej godziny lekcyjnej matematyki wynosił 4 zł. Z uwagi na mniejsze zainteresowanie językiem polskim cena godziny lekcyjnej tego przedmiotu była niższa o złotówkę. W roku następnym nastąpił wzrost zainteresowania oferowanymi przez firmę kursami, przy utrzymującym się niedoborze nauczycieli. W związku z tym dyrekcja podjęła decyzję o podwyższeniu cen kursów

279 str Analiza dynamiki z każdego przedmiotu o złotówkę nowa cena godziny lekcyjnej matematyki to 5 zł, a języka polskiego to 4 zł. Działanie to pozwoliło na zniwelowanie nadwyżki popytu nad podażą godzin, wynikającą z wielkości zatrudnienia. Należy obliczyć: a) zespołowy indeks wartości, b) określić który efekt cenowy czy ilościowy miał decydujący wpływ na zmianę przychodów ze sprzedaży analizowanej firmy, c) dokonać poprawności obliczeń indeksów zespołowych za pomocą równości indeksowej. Wprowadzamy następujące oznaczenia: pi0 cena godziny lekcyjnej i-tego przedmiotu w pierwszym roku działalności, qi0 ilość przeuczonych godzin i-tego przedmiotu w pierwszym roku działalności, pi cena godziny lekcyjnej i-tego przedmiotu w kolejnym roku działalności, qi ilość przeuczonych godzin i-tego przedmiotu w kolejnym roku działalności. Tworzymy tabelę z danymi i obliczeniami pomocniczymi: Tabela.46. Analiza przyczyn zmian wartości przychodów ze sprzedaży firmy edukacyjnej. I. Matematyka. Język polski Σ A B C=A B D E F=D E pi 0 qi 0 pi 0 q i 0 pi qi pi q i G=A E pi 0 q i Źródło: Obliczenia własne na podstawie danych umownych. H=D B pi q i 0 0

280 str Analiza dynamiki Obliczamy zespołowy indeks wartości, dzieląc sumę wartości z kolumny F przez sumę wartości z kolumny C (dla ułatwienia wprowadzono dodatkowo oznaczenia kolumn): n Iw = pi qi pi 0 qi 0 i= n i= = F 8 = =,059 C 7 W porównaniiu z pierwszym rokiem działalności nastąpił wzrost przychodów ze sprzedaży o (,059 ) 00 = 5,9 proc. Aby odpowiedzieć na pytanie, jaki efekt cenowy czy ilościowy zdecydował o wzroście wpływów ze sprzedaży, należy wyznaczyć indeksy cen i ilości, zgodnie z przedstawionymi w tabeli.45 wzorami: Tabela.47. Wyznaczenie zespołowych indeksów cen i ilości godzin przeprowadzonych kursów. Indeks cen n Formuła I p ( L ) = Laspeyresa pi qi 0 pi 0 qi 0 i= n i= n Formuła Paaschego I p (P) = pi qi pi 0 qi i= n i= Indeks typu Fishera I p (F ) = Indeks ilości n = H = =,94 C 7 I q ( L) = pi 0 qi pi 0 qi 0 i= n i= n = F 8 = =,86 G 4,94,86 =,9 Iq (P) = pi qi pi qi 0 i= n i= I p (F ) = = G 4 = = 0,84 C 7 = F 8 = = 0,88 H 0,84 0,88 = 0,8 Źródło: Obliczenia własne. Zespołowy indeks wartości możemy także obliczyć, korzystając z równości indeksowej (ponadto sprawdzimy, czy poprawnie wyznaczyliśmy wartości indeksów zespołowych): I w = I p ( L) I q ( P) = I q ( L) I p ( P)

281 .3. Analiza dynamiki str. 8 Lewa strona równania: I w = I p ( L ) I q ( P ) =,94 0,88 =,058 Prawa strona równania: I w = I q ( L ) I p ( P ) = 0,84,86 =,06 Różnice w obliczeniach wynikają z zaokrągleń. Lewa strona równości indeksowej jest równa prawej, jeśli zamiast liczb dziesiętnych podstawimy wyznaczone wielkości ułamkowe. Reasumując, o wzroście przychodów ze sprzedaży zdecydował efekt cenowy podwyższenie cen pozwoliło ograniczyć popyt do możliwości kadrowych szkoły. Negatywny efekt ilościowy (indeks mniejszy od jedności oznacza bowiem spadek wartości) jest skutkiem zmniejszenia liczby przeprowadzonych godzin kursu z języka polskiego. Należy podkreślić, iż nie musi to oznaczać spadku popytu, lecz może być przyczyną mniejszej liczby polonistów w tej sytuacji wzrost ceny za kurs z języka polskiego mógł być większy niż wprowadzony. Drugą grupę indeksów zespołowych stanowią zespołowe indeksy wielkości stosunkowych. Indeksy te znajdują zastosowanie w sytuacji, gdy daną wielkość możemy wyrazić w postaci ilorazu dwóch czynników, a nie iloczynu, jak miało to miejsce w przypadku zespołowego indeksu cen i ilości. W praktyce można wskazać szereg wielkości tego typu. Przykładem jest wskaźnik wydajności pracy, będący relacją przychodów ze sprzedaży do wielkości zatrudnienia (zob. Miary natężenia i struktury). W przypadku zespołowych indeksów wielkości stosunkowych miarą analogiczną do zespołowego indeksu wartości jest zespołowy indeks wszechstronny wyznaczany według wzoru:

282 str Analiza dynamiki Aby określić wpływ zmian czynników x i z na poziom wielkości y = x / z, należy skorzystać ze wzorów zamieszczonych w tabeli.48: Tabela.48. Indeksy o stałej strukturze oraz indeksy wpływu zmian strukturalnych. Indeksy o stałej strukturze n Formuła Laspeyres a I s ( L) = i= n i= n Formuła Paaschego I s ( P) = yi zi 0 yi 0 zi 0 yi zi yi 0 zi i= n i= Indeksy wpływu zmian strukturalnych n I wzs ( L ) = yi 0 zi i= n i= n I wzs ( P ) = i= n i= i= yi 0 zi 0 n zi yi zi n i= n i= zi zi 0 yi zi 0 n i= zi 0 Źródło: Opracowanie własne. W przypadku wielkości stosunkowych również możemy wyznaczyć równość indeksową, pozwalającą sprawdzić poprawność obliczeń, jak również wyznaczyć zespołowy indeks wszechstronny: I y = I s ( L ) I wzs ( P ) = I s ( P ) I wzs ( L ) Przykład. Należy dokonać analizy zmian ogólnej wydajności pracy w przedsiębiorstwie, przyjmując jako okres bazowy dane z tabeli. oraz wiedząc, że:. Wielkość zatrudnienia w porównaniu z okresem bazowym: w oddziale I nie zmieniła się, w oddziale II zmniejszyła się o 5 proc., w oddziale III wzrosła o 5 proc.

283 str Analiza dynamiki. Wydajność pracy w pierwszym i trzecim oddziale wzrosła o 0 proc., zaś w drugim odnotowano 0-procentowy wzrost wydajności. W tym miejscu warto przypomnieć, iż przeciętna wydajność pracy nie jest średnią arytmetyczną poszczególnych wydajności, w tym przypadku trzech oddziałów, lecz ich średnią harmoniczną. Stąd zastosowanie znajduje wzór na zespołowy indeks wszechstronny. Najpierw wprowadzamy oznaczenia: yi0 wydajność pracy i-tego oddziału w okresie bazowym, z i0 wielkość zatrudnienia w i-tym oddziale w okresie bazowym, yi0 wydajność pracy i-tego oddziału w okresie bieżącym, z i0 wielkość zatrudnienia w i-tym oddziale w okresie bieżącym. Następnie tworzymy tablicę z danymi i obliczeniami pomocniczymi: Tabela.49. Analiza przyczyn zmian wydajności pracy przedsiębiorstwa. I A yi 0 Oddział I Oddział II Oddział III B zi 0 C=A B yi 0 zi Σ D yi E F=D E G=A E H=D B z i yi zi yi 0 zi yi zi Źródło: Obliczenia własne na podstawie danych umownych. Zespołowy indeks wszechstronny stanowi w niniejszym przykładzie relację przeciętnej wydajności pracy w okresie bieżącym do przeciętnej wydajności pracy w okresie bazowym (por. Miary natężenia i struktury): n Iy = i= yi zi n i= zi n i= yi 0 zi 0 n i= zi 0 = F E C ,3 = = =,9 B

284 str Analiza dynamiki W kolejnym kroku zgodnie ze wzorami zamieszczonymi w tabeli.49 obliczamy indeksy o stałej strukturze oraz indeksy wpływu zmian strukturalnych (ze względu na złożoność wzorów przyjęto bardziej komunikatywne oznaczenia sum kolumn): Tabela.50. Wyznaczenie indeksów o stałej strukturze oraz indeksów wpływu zmian strukturalnych. Indeksy o stałej strukturze Indeksy wpływu zmian strukturalnych Formuła Laspeyresa I s ( L) = H = =,9 C Formuła Paaschego I s ( P) = F G = =, I wzs ( L ) = G E C = =,54 B I wzs ( P ) = F E H = =,45 B Źródło: Obliczenia własne. Aby sprawdzić poprawność obliczeń, można skorzystać z równości indeksowej: I y = I s ( L ) I wzs ( P ) = I s ( P ) I wzs ( L ) Lewa strona równania: I y = I s ( L ) I wzs ( P ) =,9,45 =,93 Prawa strona równania: I y = I s ( P ) I wzs ( L ) =,,54 =,9 Nieznaczna różnica wynika, tak jak to było w przypadku indeksów cen i ilości, z zaokrągleń. Na poprawę wydajności pracy w niemal równym stopniu wpłynęły zmiany w strukturze zatrudnienia, jak również ogólna poprawa sytuacji przedsiębiorstwa, przejawiająca się we wzroście przychodów ze sprzedaży.

285 .3. Analiza dynamiki str Trening i ewaluacja Poniżej przedstawiono praktyczne przykłady analizy szeregów czasowych. Z uwagi na stopień złożoności obliczeń niezbędne staje się wykorzystanie komputera. Obliczenia wykonano z wykorzystaniem arkusza kalkulacyjnego MS Excel i dołączono je do niniejszej publikacji w formie przykładów. Przykłady te powinny pomóc Czytelnikowi w utrwaleniu wiadomości z zakresu analizy szeregów czasowych. Przykład. Na podstawie kursów akcji spółki Żywiec SA za I półrocze 006 roku (zob. Dane_do_analizy.xls; zakładka: Akcje) należy określić sygnały kupna i sprzedaży akcji, płynące z analizy wskaźnika analizy technicznej MACD. Przykład ten ukazuje praktyczne wykorzystanie średniej ruchomej. Interesującym wskaźnikiem, wykorzystywanym na giełdzie papierów wartościowych, opartym na tzw. średnich ruchomych wykładniczych, jest wskaźnik MACD (zob. Przykłady średnia ruchoma; zakładka: MACD). Prezentowana w tym rozdziale średnia ruchoma prosta różni się tym od średniej ruchomej wykładniczej, że traktuje ona wszystkie obserwacje jako jednakowo ważne. Natomiast w przypadku średniej wykładniczej najświeższym danym przypisuje się relatywnie większe wagi. Sposób obliczania tej miary jest następujący ( EMA = C0 + a C + a C + + a N C N + + a + a + + a N gdzie: EMA (Exponential Moving Average) średnia ruchoma wykładnicza, a wagi przypisane kolejnym obserwacjom, Ci cena akcji w i-tym okresie,

286 .3. Analiza dynamiki str. 86 N liczba obserwacji, na podstawie których obliczono średnią (stała wygładzania). Sposób przypisywania wag a określono następująco: a = k Dla pierwszej ceny przypisano wagę równą, dla drugiej a, dla trzeciej a itd. Wskaźnik MACD składa się z dwóch linii (por. Linii MACD (linia ciągła).. Linii sygnału (linia przerywana). Linię MACD wyznacza się jako różnicę pomiędzy wykładniczą średnią ruchomą krótszą, tj. obliczaną dla niewielkiej liczby sesji giełdowych, a analogiczną średnią dla większej liczby sesji. W obliczeniach przyjęto odpowiednio następujące wielkości wygładzania: k = i k = 6. Linia sygnału to średnia ruchoma wykładnicza linii MACD, przy czym stała wygładzania jest mniejsza niż przyjęte wielkości, służące do wyznaczenia linii MACD (k = i k = 6). Do obliczenia linii sygnału przyjęto stałą wygładzania k = 9 sesji giełdowych. Interpretacja wskaźnika jest następująca:. Sygnał kupna przecięcie linii sygnału przez linię MACD od dołu.. Sygnał sprzedaży przecięcie linii sygnału przez linię MACD od góry.

287 str Analiza dynamiki MACD Oto wskaźnik MACD dla kursów akcji spółki Żywiec: Jak widać, w historii notowań spółki istniał szereg sygnałów kupna, które zaznaczono za pomocą trójkątow. Linia MACD przecięła też przerywaną linię sygnału od góry (punkt przecięcia oznaczono kwadratem), co stanowiło poważny sygnał sprzedaży akcji Żywiec SA Przykład. Proszę dokonać analizy sezonowości sprzedaży Grupy Żywiec SA wraz z prognozą na kolejny rok (zob. Dane_do_analizy.xls; zakładka: Żywiec SA). Sposób postępowania obejmuje wyznaczenie linii trendu, obliczenia wskaźników sezonowości (model addytywny), a następnie dokonanie prognozy. Ma tu miejsce wyraźna sezonowość sprzedaży (zob. rys..3). Obliczenia zostały przeprowadzone w arkuszu kalkulacyjnym MS Excel (zob. Przykłady analiza sezonowości_model addytywny).

288 str Analiza dynamiki Do danych empirycznych dodajemy linię trendu: przychody ze sprzedaży (mln zł) 00 y = -,7 t + 76,7 R = 0, kwartały Następnie wyznaczamy wartości teoretyczne oraz wielkości zmiennej pomocniczej zt: A t B yt C y t 559, 880,4 908, 608,7 558,9 97, 99,4 77, 66,0 795, 839,3 58, 548,3 80,3 86,0 656,0 D=B C zt 759,0 756,3 753,6 750,8 748, 745,4 74,7 740,0 737, 734,5 73,8 79, 76,4 73,6 70,9 78, 99,8 4, 54,6 4, 89, 8,8 48,7,9, 60,6 07,5 0,0 78, 77,7 4, 6,

289 str Analiza dynamiki Obliczamy surowe wskaźniki sezonowości: I kw. II kw. III kw. IV kw. c = z + z5 + z9 + z3 = 69,58 4 c = z + z6 + z0 + z4 =,04 4 c3 = z3 + z7 + z + z5 = 6,99 4 c4 = z4 + z8 + z + z6 = 04,55 4 0,0 Σ W modelu addytywnym wskaźniki sezonowości powinny dać w sumie zero. Dlatego konieczne jest oczyszczenie surowych wskaźników sezonowości poprzez podzielenie poszczególnych wskaźników przez ich średnią arytmetyczną: q= 0, c k = = 0,05 N k 4 Oto oczyszczone wskaźniki sezonowości: kw. I II III IV Σ ck 69,56,07 63,0 04,5 0,00 Ostatnim etapem jest wyznaczenie prognozy. Najpierw prognozę wyznaczamy na podstawie linii trendu, a następnie korygujemy ją o wpływ wskaźnika sezonowości (należy podkreślić, iż w modelu addytywnym wskaźniki sezonowości dodajemy, a nie mnożymy przez wartości prognozy wynikające z linii trendu). Prognoza na 006 rok przedstawia się następująco:

290 str Analiza dynamiki A t B yt C y t D ck 656,0 78, 75,5 7,8 70,0 707,3 E=C+D yt* 69,56,07 63,0 04,5 545,93 83,83 873,05 60,80 W ujęciu graficznym wielkość prognozy na ogół zaznacza się linią przerywaną: przychody ze sprzedaży (mln zł) kwartały wartości empiryczne wartości teoretyczne prognoza Sezonowość sprzedaży jest ściśle związana z porami roku najwięcej piwa sprzedaje się w okresie letnim, czemu z jednej strony sprzyja pogoda, z drugiej zaś sezon wypoczynkowy. Przykład 3. Sposób przeliczania indeksów dynamiki znajduje praktyczne zastosowanie np. przy przeliczaniu inflacji. W pliku Dane_do_analizy.xls (zakładka: Inflacja) ukazano kwartalne indeksy cen (tj. potoczną inflację) w postaci indeksów łańcuchowych. Należy przeliczyć te indeksy na indeksy jednopodstaawowe, tak aby okresem bazowym był IV kw. 005 r. Pozwoli to na wyrażenie przychodów Grupy Żywiec w cenach bieżących,

291 str Analiza dynamiki czyli wyeliminowanie wpływu inflacji na poziom przychodów ze sprzedaży. Najpierw przeliczamy indeksy łańcuchowe na jednopodstawowe, a następnie zmieniamy bazę (zob. Przykłady indeksy dynamiki; zakładka: przeliczanie_indeksów): KWARTAŁY I Q 000 II Q 000 III Q 000 IVQ 000 I Q 00 II Q 00 III Q 00 IV Q 00 I Q 00 II Q 00 III Q 00 IVQ 00 I Q 003 II Q 003 III Q 003 IV Q 003 I Q 004 II Q 004 III Q 004 IV Q 004 I Q 005 II Q 005 III Q 005 IV Q 005 t I t/t-,037,00,06,07,04,08 0,999,006,0,004 0,99,004,006,004 0,994,0,008,00,006,009,003,006 0,998,004 INDEKSY I t/p,000,000,037 =,037,037,00 =,058,075,093,08,8,7,34,46,5,4,45,5,57,50,6,7,95,0,3,7,4,,6 Zmiana bazy (t = 4),037 /,6 = 0,846,058 /,6 = 0,863 0,876 0,89 0,904 0,90 0,99 0,95 0,935 0,938 0,930 0,934 0,939 0,943 0,937 0,948 0,955 0,974 0,980 0,989 0,99 0,998 0,996,6 /,6 =,000 Początkowo okresem bazowym był IV kw. 999 roku. Zmiana bazy na IV kw. 005 r. nastąpiła w wyniku podzielenia indeksów jednopodstawowych przez indeks,6. Kolejną kwestią jest skorygowanie wartości przychodów ze sprzedaży Grupy Żywiec o inflację (począwszy od I kw. 00 r.). W tym celu

292 .3. Analiza dynamiki str. 9 poszczególne wartości przychodów ze sprzedaży dzielimy przez otrzymane indeksy jednopodstawowe. W szczególności wartość przychodów dla ostatniego kwartału 005 r. nie zmieni się, ponieważ zostanie podzielona przez indeks. EWALUACJA Lista zadań nr 4 Zadanie Proszę wyznaczyć linię trendu, opisującą dynamikę zmian PKB 5 państw członkowskich Unii Europejskiej (UE-5) w latach (zob. Dane_do_analizy.xls; zakładka: PKB). Zadanie Na podstawie danych z zadania pierwszego proszę wyznaczyć średnioroczne tempo zmian PKB w latach Zadanie 3 Korzystając z narzędzia MS Excel Dodaj linię trendu dla I półrocza 006 r. proszę przedstawić wygładzony szereg czasowy indeksu WIG (zob. Dane_do_analizy.xls; zakładka: Akcje). Jako stałą wygładzania proszę przyjąć k = 6 sesji giełdowych. Czy w analizowanym okresie inwestorzy ogólnie rzecz biorąc przeważnie realizowali zyski?

293 .3. Analiza dynamiki str. 93 Zadanie 4 Inwestor w dniu stycznia 006 r. kupił 000 szt. akcji spółki Strzelec po 8 gr/szt. oraz 0 szt. akcji Żywiec SA po 485 zł. W dniu 30 czerwca inwestor posiadał o połowę więcej walorów Strzelec i 8 akcji spółki Żywiec. Ceny akcji tych spółek kształtowały się odpowiednio:,0 zł i 464 zł. Proszę obliczyć zespołowy indeks wartości portfela oraz określić wpływ czynnika ilościowego i cenowego na zmianę wartości tego portfela akcji. Wskazówka: zob. Przykłady indeksy dynamiki; zakładka: indeksy_zespołowe. Zadanie 5 Na podstawie dowolnych danych kwartalnych wykazujących sezonowość (n kwartałów) proszę obliczyć wskaźniki sezonowości oraz dokonać prognozy na najbliższy kwartał.

294 3. Wnioskowanie statystyczne str Wnioskowanie statystyczne Wnioskowanie statystyczne opiera się na rachunku prawdopodobieństwa, a reguły tego wnioskowania określają metody wchodzące w skład statystyki matematycznej, w tym metody estymacji (szacowania) nieznanych parametrów strukturalnych oraz metody weryfikacji (sprawdzania) hipotez statystycznych [8, s. 0]. Estymację przedziałową oraz weryfikację hipotez statystycznych poprzedzono krótkim wprowadzeniem do rachunku prawdopodobieństwa, jak również omówiono wybrane skokowe i ciągłe rozkłady prawdopodobieństwa. Rozkłady te w większości przypadków znajdują bowiem zastosowanie w metodach wnioskowania statystycznego. 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa Na wstępie należałoby zdefiniować pojęcie prawdopodobieństwa. Prawdopodobieństwo to numeryczne wyrażenie szansy wystąpienia jakiegoś zdarzenia [, s. 66]. Jest to miara unormowana, tj. należąca do przedziału [0-]. Jeżeli prawdopodobieństwo jest równe zeru, to wówczas dane zdarzenie nie wystąpi, gdy jest równe to zdarzenie jest pewne. Natomiast zdarzenia, dla których wartości prawdopodobieństwa należą do zbioru (0,) nie są ani pewne, ani niemożliwe przypisane im ułamki są prawdopodobieństwem zajścia danego zdarzenia. Zgodnie z klasyczną definicją prawdopodobieństwa: prawdopodobieństwo zdarzenia losowego A przy założeniu, że wszystkie zdarzenia elementarne są jednakowo możliwe jest ilorazem liczby zdarzeń elementarnych sprzyjających temu zdarzeniu i liczby wszystkich zdarzeń elementarnych

295 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa str. 95 [9, s. 78]. Klasyczną definicję prawdopodobieństwa zdarzenia A można wyrazić wzorem: Oto dwa proste przykłady ilustrujące sposób obliczania prawdopodobieństwa zgodnie z klasyczną definicją: Przykład. Gra szczęśliwy numerek polega na wylosowaniu jednej liczby spośród 49. W tej sytuacji liczba zdarzeń elementarnych wynosi n = 49 (może zostać wylosowana liczba od do 49). Tylko jedna z nich okaże się wygrywającą, stąd k =. Prawdopodobieństwo wygranej to: P ( A) = k = n 49 Przykład. Wśród 00 złożonych w pewnej miejscowości wniosków o dotacje unijne 5 okazało się źle wypełnionych. Należy obliczyć prawdopodobieństwo błędnego wypełnienia wniosku. Dane: n = 00 wniosków, k = 5 wniosków źle wypełnionych. Prawdopodobieństwo zdarzenia A, polegającego na wylosowaniu wniosku posiadającego wady, wynosi: P ( A) = k 5 = = 0,5 =,5% n 00 Rozwinięciem klasycznej definicji prawdopodobieństwa jest definicja graficzna:

296 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa str. 96 Obszar całkowity to przestrzeń zdarzeń elementarnych o określonej jednostce miary (długość, pole, objętość). Obszar A spełnia warunki określone zdarzeniem A. Przedstawiona definicja znajduje zastosowanie np. w rozkładach ciągłych, gdzie pole pod tzw. funkcją gęstości wynosi. W przypadku cech ciągłych skorzystanie z klasycznej definicji prawdopodobieństwa jest bezzasadne, ponieważ w tej sytuacji prawdopodobieństwo przyjęcia określonej wartości przez zmienną losową jest równe zeru. Trzecia, statystyczna definicja prawdopodobieństwa zwana też częstościową lub frekwencyjną mówi, że prawdopodobieństwo zdarzenia A jest granicą częstości tego zdarzenia, gdy liczba doświadczeń n rośnie nieograniczenie [9, s. 8]. Można to zapisać następująco: Statystyczna definicja prawdopodobieństwa pozwala przypuszczać, że wraz ze wzrostem próby losowej frakcja (zob. wskaźnik struktury) wyznaczona na jej podstawie jest coraz bliższa wartości prawdopodobieństwa określonej według definicji częstościowej. Można tu posłużyć się prostym przykładem: Przykład. Funkcja los() programu MS Excel generuje liczby z przedziału [0,]. Jako na można określić wartości mniejsze bądź równe 0,5. Im więcej prób, tym wartości empiryczne (frakcje) będą bliższe teoretycznej wartości 0,5 (zob. Przykłady zbieżność prawdopodobieństwa).

297 str Wybrane zagadnienia z rachunku prawdopodobieństwa Rysunek 3.. Zbieżność prawdopodobieństwa do teoretycznej wartości 0,5. 00% frakcje 75% 50% 5% 0% liczba doś w iadcze ń (n) Źródło: Opracowanie własne. Symulację przeprowadzono dla 0, 50 i 00 prób. Im więcej prób, tym różnice pomiędzy frakcjami a wartością teoretyczną 50 proc. są coraz mniejsze. Jest to zgodne z przedstawioną statystyczną definicją prawdopodobieństwa. Mając już zdefiniowane prawdopodobieństwo, możemy sprecyzować, czym jest zdarzenie losowe A jest to podzbiór przestrzeni zdarzeń elementarnych (Ω), zawierający wyróżnione ze względu na daną cechę zdarzenia elementarne, czyli wyniki doświadczenia losowego (por. [, s. 67]). Nawiązując do powyższego przykładu: interesującymi nas zdarzeniami elementarnymi były wygenerowane za pomocą funkcji los() liczby nieprzekraczające 0,5. Kolejną kwestią jest algebra zdarzeń. Na szczególną uwagę zasługuje tu prawdopodobieństwo dopełnienia zdarzenia A (zwanego też zdarzeniem przeciwnym do A). Prawdopodobieństwo dopełnienia można zapisać następująco [, s. 79]:

298 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa str. 98 Powyższa reguła będzie stosowana przy omawianiu rozkładów prawdopodobieństwa (zob. Charakterystyka wybranych rozkładów prawdopodobieństwa). Przykład. Należy obliczyć prawdopodobieństwo tego, że losowo wybrany wniosek o dotację UE został prawidłowo wypełniony, wiedząc, że co ósmy zawiera błędy. Oznaczamy: P(A) prawdopodobieństwo tego, że wniosek został źle wypełniony. Podstawiamy do wzoru: P ( A ) = P ( A) = 7 = 8 8 Zatem prawdopodobieństwo prawidłowego wypełnienia wniosku wynosi 7/8. Następną ważną regułą w algebrze zdarzeń jest tzw. reguła sumowania. Prawdopodobieństwo sumy dwóch zdarzeń można przedstawić następująco [, s. 79]: Warto tu wskazać na przypadek szczególny, jakim są zdarzenia wykluczające się wzajemnie. W tej sytuacji brak jest części wspólnej: P( A B ) = 0 stąd: P ( A B ) = P ( A) + P ( B ) W rachunku prawdopodobieństwa istotny jest podział zdarzeń losowych na:

299 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa str. 99. Zdarzenia niezależne zajście jednego z tych zdarzeń nie ma wpływu na prawdopodobieństwo zajścia drugiego z nich. Oto warunek niezależności zdarzeń:. Zdarzenia zależne prawdopodobieństwo zajścia zdarzenia A zależy od zajścia zdarzenia B. Można tu mówić o tzw. prawdopodobieństwie warunkowym zdarzenia A przy założeniu, że zaszło zdarzenie B: Z powyższego równania można wyprowadzić wzór na iloczyn zdarzeń A i B: P( A B ) = P( A B ) P ( B ) W przypadku gdy zdarzenia są zależne warto posłużyć się tzw. drzewem stochastycznym: Rysunek 3.. Drzewo stochastyczne. Źródło: Opracowanie własne. Zdarzenia na poszczególnych gałęziach drzewa są parami przeciwstawne, stąd np.:

300 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa str. 300 P(B) + P(B) + + P(Bn) = Na podstawie powyższego schematu można wyprowadzić ogólny wzór na prawdopodobieństwo całkowite: Mając obliczone prawdopodobieństwo zajścia zdarzenia X można skorzystać z tzw. wzoru Bayesa: Wzór ten pozwala na wyznaczenie prawdopodobieństw zdarzeń Bi, gdy wiemy, że zaszło zdarzenie X. Przykład. Prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym terminie uzależnione jest od tego, czy student korzysta z dodatkowych form nauczania. Z badań przeprowadzonych wśród wybranej grupy studentów wynika, iż czterech na dziesięciu studentów skorzystało z dodatkowych form nauczania. Wśród tej grupy osób aż 70 proc. zdało egzamin w pierwszym terminie. Natomiast egzamin w pierwszym terminie zdał tylko co drugi student niekorzystający z dodatkowych form nauczania. Należy obliczyć: a) prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym terminie, b) prawdopodobieństwo, że losowo wybrany student, który zdał egzamin w pierwszym terminie korzystał z dodatkowych form nauczania.

301 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa str. 30 Wprowadzamy następujące oznaczenia: P(X) prawdopodobieństwo zdania egzaminu ze statystyki w pierwszym terminie, P(B) prawdopodobieństwo, że student korzystał z dodatkowych form nauczania, P(B) prawdopodobieństwo, że student nie korzystał z dodatkowych form nauczania. Dane przedstawiono na drzewie stochastycznym: Rysunek 3.3. Drzewo stochastyczne przykład liczbowy. Źródło: Dane umowne. a) obliczamy prawdopodobieństwo całkowite: P( X ) = P( B ) P( X B ) + P( B ) P( X B ) = 0,4 0,7 + 0,6 0,5 = 0,8 + 0,3 = 0,58 b) korzystamy ze wzoru Bayesa: P( B X ) = P( B ) P ( X B ) 0,4 0,7 8 = = = 0,483 P( X ) 0,58 58 Prawdopodobieństwo zdania egzaminu w pierwszym terminie wynosi 58 proc. Prawdopodobieństwo, że losowo wybrany student, który zdał egzamin w pierwszym terminie, korzystał z dodatkowych form nauczania wynosi 48,3 proc.

302 3.. Wybrane zagadnienia z rachunku prawdopodobieństwa str. 30 To, czy zdarzenia są od siebie zależne, czy też nie, będzie miało wpływ na wybór rozkładu prawdopodobieństwa, a także na dobór niektórych testów statystycznych. Opis struktury zbiorowości dotyczył empirycznych rozkładów cech jakościowych i ilościowych. W przypadku teoretycznych rozkładów prawdopodobieństwa można mówić o tzw. zmiennej losowej. Mianem zmiennej losowej określa się każdą jednoznacznie określoną funkcję rzeczywistą wyznaczoną na zbiorze zdarzeń elementarnych [9, s. 88]. Zmienne losowe dzielą się na (por. [8, s. 30]):. Skokowe (por. cecha skokowa) w przypadku zmiennych losowych skokowych (dyskretnych) można mówić o rozkładzie masy prawdopodobieństwa: P( X = xi ) = pi. Ciągłe (por. cecha ciągła i quasi-ciągła) w przypadku zmiennych losowych ciągłych mówimy o tzw. rozkładzie gęstości prawdopodobieństwa: P( a < X < b ) = b f ( x ) dx = pi a Teoretyczne rozkłady prawdopodobieństwa posiadają syntetyczne charakterystyki (por. [8, s. 35]): wartość oczekiwana (por. średnia arytmetyczna), wariancja bądź odchylenie standardowe (pierwiastek kwadratowy z wariancji). Sposób obliczania wymienionych charakterystyk zawiera tabela:

303 str Wybrane zagadnienia z rachunku prawdopodobieństwa Tabela 3.. Podstawowe charakterystyki rozkładów zmiennych losowych. Zmienne losowe skokowe Wartość oczekiwana Wariancja E( X ) = m = D ( X ) = σ = k i= k (x i= i Zmienne losowe ciągłe E( X ) = m = xi pi + x f ( x ) dx m ) pi D ( X ) = σ = + ( x m) f ( x ) dx Źródło: Opracowanie własne na podstawie: [8, s. 35]. W kolejnym podrozdziale omówiono wybrane rozkłady skokowe i ciągłe. Należy zaznaczyć, iż charakterystyki są obliczane nie ze wzorów prezentowanych w tabeli 3., lecz ze wzorów uproszczonych. 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa W niniejszym podrozdziale omówiono wybrane rozkłady prawdopodobieństwa. Obliczeń można dokonać w załączonym dodatku Rozkłady prawdopodobieństwa. W tym podrozdziale położono nacisk na odpowiedni wybór rozkładu, a także na umiejętność odczytu żądanych wartości z tablic statystycznych. Oto klasyfikacja omówionych w dalszej części rozkładów prawdopodobieństwa: Tabela 3.. Klasyfikacja rozkładów prawdopodobieństwa. Zmienne niezależne Rozkłady skokowe. Rozkład dwumianowy.. Rozkład dwupunktowy. 3. Rozkład geometryczny. 4. Rozkład Poissona. Rozkłady ciągłe. Rozkład jednostajny.. Rozkład normalny. 3. Rozkład T-Studenta. 4. Rozkład Chi-kwadrat. 5. Rozkład F. Zmienne zależne. Rozkład hipergeometryczny Źródło: Opracowanie własne.

304 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str Rozkład dwumianowy Rozkład dwumianowy (Bernoulliego) zmiennej losowej X znajduje zastosowanie wówczas, gdy (por. [, s. 95]):. Przeprowadza się n jednakowych doświadczeń.. Dla każdego doświadczenia możliwe są dwa wyniki: sukces lub porażka. 3. Prawdopodobieństwo sukcesu p w kolejnych doświadczeniach nie zmienia się (doświadczenia niezależne). 4. Liczba doświadczeń n jest niewielka (zał. n < 30). Funkcja prawdopodobieństwa rozkładu dwumianowego jest następująca: Dwumian Newtona oblicza się według wzoru: n n! = k k! ( n k )! Oto podstawowe charakterystyki rozkładu: a) wartość oczekiwana: m = np b) odchylenie standardowe: σ = np( p ) Dystrybuantą zmiennej losowej X o rozkładzie dwumianowym jest funkcja postaci (por. [9, s. 95]):

305 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 305 F ( k ) = P( X k ) Analogicznie można określić dystrybuantę dla pozostałych rozkładów skokowych. Przykład. Student na chybił-trafił rozwiązuje test wielokrotnego wyboru ze statystyki, gdzie tylko jedna spośród czterech opcji odpowiedzi jest prawidłowa. Test liczy 0 pytań. Proszę obliczyć prawdopodobieństwo tego, że ponad 40 proc. odpowiedzi będzie prawidłowych. Wypisujemy dane: a) liczba sukcesów polegających na właściwym zaznaczeniu odpowiedzi: P(X > 4), b) liczba niezależnych prób (pytań w teście): n = 0, c) prawdopodobieństwo sukcesu: p = 0,5. Możemy skorzystać ze wzoru na prawdopodobieństwo dopełnienia zdarzeń: P( X > 4) = P( X 4) = [ P( X = 0 ) + P( X = ) + P( X = ) + P( X = 3) + P( X = 4) ] Następnie obliczamy prawdopodobieństwa cząstkowe ze wzoru na funkcję prawdopodobieństwa rozkładu dwumianowego. Oto sposób obliczeń dla k = 0: P( X = 0) = ( 0,5) ( 0,5) 0 0 0! 0! = = = 0 0! (0 0)! 0! Wracamy do wzoru: P ( X = 0) = ( 0,5) = ( 0,75) = 0, Analogicznie obliczamy prawdopodobieństwa dla k =, k =, k = 3 i k = 4. Suma prawdopodobieństw cząstkowych to:

306 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 306 P( X 4 ) = 0,99 Powyższe prawdopodobieństwo jest wartością dystrybuanty rozkładu dwumianowego w punkcie 4. Oto wykres dystrybuanty tego rozkładu: Rysunek 3.4. Dystrybuanta rozkładu dwumianowego. DYSTRYBUANTA ROZKŁADU DWUMIANOWEGO prawdopodobieństwo,00 0,75 0,50 0,5 0, liczba sukcesów Źródło: Opracowanie własne. Prawdopodobieństwo tego, że student poprawnie wskaże ponad 40 proc. odpowiedzi, wynosi (przy założeniu, że za dane pytanie jest zero punktów lub jeden punkt): P( X > 4) = P( X 4) = 0,99 = 0,078 Jedynie ośmiu studentów na stu uzyska ponad 40 proc. poprawnych odpowiedzi zakreślając odpowiedzi na chybił-trafił. Szczególnym przypadkiem rozkładu dwumianowego jest rozkład dwupunktowy (zerojedynkowy). W tej sytuacji ma miejsce: a) prawdopodobieństwo sukcesu: P( X = ) = p

307 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 307 b) prawdopodobieństwo porażki: P( X = 0 ) = p = q Charakterystyki tego rozkładu są następujące: a) wartość oczekiwana: m= p b) odchylenie standardowe: p ( p ) σ = Nawiązując do powyższego przykładu: możemy stwierdzić, że prawdopodobieństwo sukcesu, jakim jest losowy wybór prawidłowej opcji odpowiedzi wynosi 0,5. Jednocześnie prawdopodobieństwo porażki, tj. zaznaczenia nieprawidłowej odpowiedzi, wynosi 0,75. O ile rozkład dwumianowy określa liczbę k sukcesów wśród n powtórzeń doświadczenia (np. n rzutów monetą), o tyle rozkład geometryczny wyznacza prawdopodobieństwo pojawienia się pierwszego sukcesu: Charakterystyki: a) wartość oczekiwana: m= p b) odchylenie standardowe: σ = p p

308 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 308 Przykład. Średnio rzecz biorąc, co piąty internauta odwiedzający pewien sklep internetowy robi w nim zakupy. Należy obliczyć prawdopodobieństwo tego, że pierwsza transakcja pojawi się przy trzecim wejściu na stronę. Ile powinno być wejść na stronę, aby została dokonana transakcja kupna-sprzedaży?: Wypisujemy dane: p = 0, (co piąty internauta) k=3 Podstawiamy do wzoru na funkcję prawdopodobieństwa rozkładu geometrycznego: P( X = 3) = 0, ( 0,) 3 = 0, ( 0,8) = 0,8 Prawdopodobieństwo tego, że pierwsza transakcja zostanie zawarta po trzecim wejściu na stronę, wynosi,8 proc. Aby odpowiedzieć na pytanie, ile powinno być średnio wejść na stronę, by została dokonana transakcja kupna-sprzedaży, obliczamy wartość oczekiwaną: E( X ) = = = 5 p 0,5 Należy oczekiwać, iż średnio przy pięciu wejściach na stronę zostanie zakupiony jakiś produkt ze sklepu internetowego. Oczywiście pierwszy internauta może od razu nabyć pewien produkt, ale też może zdarzyć się sytuacja, w której nawet pięć wejść nie gwarantuje zbytu produktów. Warto więc obliczyć jeszcze odchylenie standardowe: σ = p = p 0, = 4,47 ( 0,)

309 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 309 Górną granicę typowego obszaru zmienności uzyskamy, dodając do wartości oczekiwanej obliczone powyżej odchylenie standardowe. Zatem o nietypowej sytuacji możemy mówić w przypadku, gdy na stronę wejdzie więcej niż dziewięciu internautów i nie zostanie zawarta transakcja kupnasprzedaży Rozkład Poissona Rozkład dwumianowy można przybliżyć rozkładem Poissona wówczas, gdy spełnione są następujące warunki (por. [9, s. 96]):. Liczba doświadczeń powinna być dostatecznie duża (zał. n > 30).. Stałe prawdopodobieństwo sukcesu powinno być bliskie zeru (zał. p < 0,). Powyższe założenia należy traktować jako umowne. Rozkład Poissona jest rozkładem asymetrycznym im silniejsza asymetria (mniejsze p), tym lepiej. Innymi słowy: jeśli p jest dość duże, to próba powinna być dostatecznie duża (ważne jest, by p nie było bliskie 0,5, co wskazywałoby na symetrię rozkładu). Funkcja prawdopodobieństwa rozkładu Poissona jest dana wzorem: Parametr λ jest wartością oczekiwaną, którą w tym przypadku obliczamy następująco: λ = m = np Wartość oczekiwana jest równa wariancji, stąd odchylenie standardowe wynosi: σ = np

310 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 30 Rozkład Poissona został stablicowany (zob. Tablice rozkładu Poissona), stąd nie ma potrzeby korzystania ze skomplikowanego wzoru na funkcję prawdopodobieństwa. Oto przykład wyjaśniający odczyt z tablic tego rozkładu: Przykład. Prawdopodobieństwo wygrania trójki w Dużego Lotka wynosi,8 proc. Gracz wysłał sto kuponów. Jakie jest prawdopodobieństwo tego, że: a) b) c) d) co najwyżej jeden los jest wygrywający ( trójka ), przynajmniej trzy zakłady zawierają trzy trafne skreślenia, wśród wysłanych kuponów stwierdzono tylko jedną trójkę, stwierdzono minimum jedną trójkę, ale nie więcej niż cztery. Wypisujemy dane: n = 00 p = 0,08 Obliczamy wartość oczekiwaną: λ = np = 00 0,08 =,8 a) szukaną wartość od razu możemy odczytać z tablic rozkładu Poissona: P( X ) = 0,468 b) korzystamy ze wzoru na dopełnienie prawdopodobieństwa i odczytujemy wartość z tablic rozkładu Poissona: P( X 3) = P( X < 3) = P( X ) = 0,7306 = 0,694 c) w przypadku tablic załączonych do tej publikacji musimy obliczyć różnicę pomiędzy odczytanymi wartościami skumulowanymi prawdopodobieństwa: P( X = 3) = P( X 3) P( X ) = 0,893 0,7306 = 0,607

311 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 3 d) odczytujemy prawdopodobieństwo wartości skumulowanych do 4 włącznie, po czym odejmujemy prawdopodobieństwo P(X < ), tj. P(X = 0): P( X 4 ) = P( X 4 ) P( X = 0 ) = 0,9636 0,653 = 0,7983 W przypadku wartości prawdopodobieństw, których nie ma w załączonych tablicach warto posłużyć się dodatkiem Rozkłady prawdopodobieństwa Rozkład hipergeometryczny Rozkład hipergeometryczny znajduje zastosowanie wówczas, gdy [, s. 4]:. Pobierana jest próba w sposób zależny (zmienia się prawdopodobieństwo sukcesu),. Populacja generalna N jest relatywnie niewielka w porównaniu z próbą n. Funkcja prawdopodobieństwa rozkładu hipergeometrycznego jest następująca: Wartość oczekiwana jest obliczana następująco (z uwagi na złożoność obliczeń pominięto wzór na odchylenie standardowe): m = n S N Przykład. Należy obliczyć prawdopodobieństwo trafienia trójki w Dużego Lotka (gracz wybiera 6 liczb spośród 49).

312 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 3 Najpierw określamy dane: N = 49 liczb, n = 6 liczb spośród 49, S = 6 liczb wylosowanych, wśród których znajdują się trzy wytypowane przez gracza, k = 3 sukcesy polegające na wytypowaniu trafnych liczb. Podstawiamy do wzoru: S k P( X = k ) = N S n k = N n = = 0, Dwumiany Newtona obliczamy oddzielnie, po czym wracamy do wzoru wyjściowego (w tym przykładzie obliczeń dokonano z wykorzystaniem dodatku Rozkłady prawdopodobieństwa ). Prawdopodobieństwo trafienia trójki w Dużego Lotka wynosi,77 proc. (w obliczeniach dot. rozkładu Poissona wartość tę zaokrąglono do,8 proc.). Wartość oczekiwana w tej grze wynosi 0,73 trafień (praktycznie jedna liczba) Rozkład jednostajny Dotychczas omówione rozkłady były rozkładami zmiennej losowej skokowej. W tym miejscu zostaną kolejno omówione rozkłady ciągłe. Zmienna losowa X ma rozkład jednostajny (prostokątny, równomierny) wówczas, gdy funkcja gęstości tego rozkładu jest określona następująco (por. [, s. 03]):

313 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 33 Dystrybuantą rozkładu jednostajnego tak jak innych rozkładów ciągłych jest funkcja pierwotna do funkcji gęstości: F ( x) = x a b a W praktyce korzysta się już z wyprowadzonych wzorów bądź stablicowanych wartości funkcji dystrybuanty (por. rozkład normalny). Charakterystyki rozkładu: a) wartość oczekiwana: m= a+ b σ = b a b) odchylenie standardowe: Przykład. Program MS Excel posiada wbudowaną funkcję los(), generującą liczby pseudolosowe z przedziału [0, ]. Zakładając, że są to wartości dystrybuanty rozkładu jednostajnego, można opracować model generujący liczby z przedziału [a, b]. Należy dokonać odpowiedniego przekształcenia, tak aby program generował liczby losowe z przedziału [, 6]. Parametry wejściowe to a i b. Zatem dokonujemy przekształcenia dystrybuanty do następującej postaci: F ( x) = x a b a ( b a)

314 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 34 F ( x) ( b a) = x a F ( x) ( b a) + a = x W miejsce wartości dystrybuanty F(x) podstawiamy funkcję los(): x = los() ( b a ) + a Wprowadzamy wartości określające przedział liczbowy [, 6]: a =, b = 6. Teraz możemy wygenerować n wartości x według formuły (zob. Przykłady generowanie liczb pseudolosowych; zakładka: Rozkład jednostajny): x = 5 los() + Wartość oczekiwana wygenerowanych za pomocą funkcji los() liczb wynosi: m= a + b + 6 = = 3,5 Odchylenie standardowe to: σ = b a 6 = =,443 W praktyce im więcej wygenerowanych liczb, tym obliczane na ich podstawie charakterystyki są bliższe wyznaczonym wartościom teoretycznym 3,5 i,443. Przykład. Należy obliczyć prawdopodobieństwo tego, że losowo wygenerowana liczba z przedziału [, 6] jest większa od. Dane są następujące:

315 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 35 a =, b = 6. Korzystamy ze wzoru na dopełnienie prawdopodobieństwa: P( X > ) = P( X ) = F ( ) Obliczamy wartość dystrybuanty w punkcie : F ( x) = x a x x = = b a 6 5 F ( ) = = 0, 5 Obliczoną wartość dystrybuanty w punkcie podstawiamy do wzoru wyjściowego: P( X > ) = P( X ) = F ( ) = 0, = 0,8 Prawdopodobieństwo tego, że losowo wygenerowana liczba będzie większa niż, wynosi 0, Rozkład normalny W praktyce wiele cech statystycznych ciągłych lub quasi-ciągłych posiada rozkłady empiryczne zbliżone do rozkładu normalnego, co sprawia, że rozkład ten jest jednym z najważniejszych w statystyce. Rozkład normalny jest szeroko stosowany w estymacji przedziałowej, jak również w testowaniu hipotez statystycznych (duża próba losowa). Zmienna losowa ciągła X posiada rozkład normalny zwany też rozkładem Gaussa-Laplace a jeżeli funkcja gęstości tego rozkładu jest określona wzorem (por. [9, s. ], [, s. 04]):

316 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 36 Powyższe równanie zawiera dwa bardzo ważne parametry, a mianowicie: a) średnią (wartość oczekiwaną), b) odchylenie standardowe. Rozkład normalny jest całkowicie określony przez dwa powyższe parametry. Zmienna losowa X ma rozkład normalny o średniej m i odchyleniu standardowym σ, co w sposób symboliczny zapisujemy następująco (por. [9, s. 98]): X ~ N ( m, σ ) Istnieje nieskończenie wiele rozkładów normalnych zmiennej losowej ciągłej, różniących się właśnie pod względem tych parametrów. Kształt funkcji gęstości rozkładu normalnego przybiera formę kapelusza (por. [, s. 87]). Oto przykładowe rozkłady: Rysunek 3.5. Kształt funkcji gęstości rozkładu normalnego w zależności od parametrów m i σ. 0,5 Rozkład "A": X ~ N(0,) Rozkład "B": X ~ N(0,) 0,4 Rozklad "C": X ~ N(3,) 0,3 0, 0, Źródło: Opracowanie własne.

317 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 37 Jak widać, średnia odpowiada za przesunięcie rozkładu równolegle do osi OX (por. rozkłady A i C). Natomiast odchylenie standardowe sprawia, że rozkład jest bardziej lub mniej smukły niska wartość odchylenia standardowego świadczy o dużym skupieniu wartości wokół średniej (rozkład A). Dystrybuanta rozkładu normalnego, czyli scałkowana funkcja gęstości, jest dana wzorem (por. [9, s. 3]): F ( x) = x e σ π ( x m) σ dx Rozkład normalny jest stablicowany (zob. Dystrybuanta rozkładu normalnego), stąd nie ma konieczności obliczania dystrybuanty tego rozkładu z przedstawionego powyżej wzoru. Należy jednak pamiętać, że odczyt szukanej wartości prawdopodobieństwa z tablic dystrybuanty rozkładu normalnego musi zostać poprzedzony standaryzacją zmiennej losowej X według wzoru: Standaryzowana zmienna Z ma rozkład normalny o średniej równej zeru i odchyleniu standardowym równym (por. [9, s. 3]): Z ~ N ( 0, ) Funkcja gęstości standaryzowanego rozkładu normalnego jest następująca: f ( z) = e π z Interpretacją graficzną szukanego prawdopodobieństwa jest pole pod funkcją gęstości:

318 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 38 Rysunek 3.6. Funkcja gęstości standaryzowanego rozkładu normalnego Źródło: Opracowanie własne. Zaznaczone pole wyznaczymy obliczając całkę z funkcji gęstości, tj. dystrybuantę standaryzowanego rozkładu normalnego w punkcie z: F( z) = z e π z dz W praktyce wartość dystrybuanty odczytujemy bezpośrednio z tablic: F ( 0 ) = 0,5 Rozkład normalny jest rozkładem symetrycznym względem osi OY. Z własności tej korzysta się przy odczytywaniu wartości dystrybuanty z tablic statystycznych: F ( z) = F ( z) Oto kilka sytuacji ukazujących sposób posługiwania się tablicami dystrybuanty rozkładu normalnego: Przykład. Klienci pewnego hipermarketu nabywają w ciągu tygodnia produkty spożywcze. Rozkład wydatków jest rozkładem normalnym o parametrach m = 50 i σ = 50: X ~ N (50, 50)

319 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 39 Należy obliczyć prawdopodobieństwo tego, że tygodniowe wydatki losowo wybranego klienta: a) b) c) d) nie przekraczają 50 zł, są większe niż 00 zł, należą do przedziału zł, są większe niż 00 zł, ale nie przekraczają 50 zł. Przed odczytem z tablic najpierw należy dokonać standaryzacji: a) P( X 50) = P Z = P( Z ) = F ( ) 50 W zamieszczonych na końcu niniejszej publikacji tablicach (zob. Dystrybuanta rozkładu normalnego) możliwy jest odczyt nieujemnych wartości z. Korzystamy z zależności: F ( z) = F ( z) F ( ) = F ( ) = 0,977 = 0,08 Prawdopodobieństwo tego, że losowo wybrany klient w ciągu tygodnia wydał na żywność nie więcej niż 50 zł, wynosi,3 proc. b) P( X > 00 ) = P Z > = P( Z > )

320 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 30 Z tablic statystycznych nie możemy odczytać wartości prawdopodobieństwa dla z >, stąd konieczne jest skorzystanie ze wzoru na dopełnienie prawdopodobieństwa: P( Z > ) = F () = 0,843 = 0,587 Z niemal 6-procentowym prawdopodobieństwem możemy stwierdzić, iż losowo wybrany klient hipermarketu wydaje na żywność ponad 00 zł tygodniowo. c) P ( 00 < X < 300 ) = P < Z< = P( < Z < 3) W tej sytuacji odczytujemy wartości dystrybuanty w punkcie 3 i (zob. podpunkt b), a następnie obliczamy różnice pól: P( < Z < 3) = F ( 3) F () = 0,9987 0,843 = 0,574 Zgodnie z regułą trzech sigm - prawdopodobieństwo tego, że wartość z > 3, jest bliskie zeru (średnia plus trzy odchylenia standardowe). Dlatego otrzymane prawdopodobieństwo jest zbliżone do wyniku z poprzedniego podpunktu. d) P(00 < X 50 ) = P < Z = P( < Z ) 50 50

321 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 3 W tym przypadku pole obszaru pod funkcją gęstości rozkładu normalnego obejmuje zarówno wartości ujemne, jak i dodatnie: Zaznaczone pole obliczono podobnie jak w poprzednim podpunkcie jako różnicę pól: wartość dystrybuanty rozkładu normalnego w punkcie (większy obszar) pomniejszono o wartość dystrybuanty w punkcie (pole obszaru mniejszego od do ): P( < Z ) = F ( ) F ( ) = 0,977 0,587 = 0,885 Wartości dystrybuant obliczono z wykorzystaniem dodatku Rozkłady prawdopodobieństwa. Odczyt z tablic wartości dystrybuanty w punkcie jest możliwy po prezentowanym już wyżej przejściu: F ( ) = F () = 0,843 = 0,587 Z prawdopodobieństwem bliskim 8 proc. możemy stwierdzić, iż losowo wybrany klient wydaje w danym hipermarkecie na żywność od 00 do 50 zł tygodniowo. Przykład. Na podstawie danych z przykładu pierwszego należy obliczyć medianę oraz pierwszy i trzeci kwartyl tygodniowych wydatków na żywność (w tym przypadku dystrybuantą teoretyczną jest dystrybuanta rozkładu normalnego). Jest to sytuacja odwrotna do prezentowanej w przykładzie poprzednim najpierw odczytujemy wartości zmiennej z odpowiednio przy następujących prawdopodobieństwach:

322 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 3 a) mediana połowa klientów wydaje nie więcej niż x zł: F ( z ) = 0, Warto zauważyć, iż mediana w rozkładzie symetrycznym, jakim jest rozkład normalny, jest równa wartości średniej. Po standaryzacji wartość ta jest równa zeru: z= 0 b) pierwszy kwartyl 5 proc. klientów wydaje nie więcej niż x zł: F ( z ) = 0, W programie MS Excel szukaną wartość z możemy obliczyć wykorzystując funkcję =ROZKŁAD.NORMALNY.ODW(Prawdopodobieństwo; m; σ)w programie Rozkłady prawdopodobieństwa można od razu otrzymać szukaną wartość x, podając kolejno parametry: Prawdopodobieństwo: 0,5 m: 50 σ: 50 W odpowiedzi komputer podaje wartość: x = 6,755.

323 str Charakterystyka wybranych rozkładów prawdopodobieństwa W przypadku odczytu z tradycyjnych tablic dystrybuanty rozkładu normalnego (np. na egzaminie pisemnym ze statystyki) nie jest możliwy odczyt wartości z, lecz wartości do niej przeciwnej z. W tym celu korzystamy z symetrii rozkładu normalnego: F ( z) = F ( z) F ( z ) = 0,5 = 0,75 W tablicach szukamy wartości najbliższej prawdopodobieństwu 0,75. Oto ich fragment: Z 0,0 0, 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9,0,_0 0,5000 0,5398 0,5793 0,679 0,6554 0,695 0,757 0,7580 0,788 0,859 0,843,_ 0,5040 0,5438 0,583 0,67 0,659 0,6950 0,79 0,76 0,790 0,886 0,8438,_ 0,5080 0,5478 0,587 0,655 0,668 0,6985 0,734 0,764 0,7939 0,8 0,846,_3 0,50 0,557 0,590 0,693 0,6664 0,709 0,7357 0,7673 0,7967 0,838 0,8485,_4 0,560 0,5557 0,5948 0,633 0,6700 0,7054 0,7389 0,7704 0,7995 0,864 0,8508,_5 0,599 0,5596 0,5987 0,6368 0,6736 0,7088 0,74 0,7734 0,803 0,889 0,853,_6 0,539 0,5636 0,606 0,6406 0,677 0,73 0,7454 0,7764 0,805 0,835 0,8554,_7 0,579 0,5675 0,6064 0,6443 0,6808 0,757 0,7486 0,7794 0,8078 0,8340 0,8577,_8 0,539 0,574 0,603 0,6480 0,6844 0,790 0,757 0,783 0,806 0,8365 0,8599,_9 0,5359 0,5753 0,64 0,657 0,6879 0,74 0,7549 0,785 0,833 0,8389 0,86 Odczytujemy wartość z (wiersz oznacza dokładność do jednego miejsca po przecinku, zaś kolumna precyzuje dokładność do dwóch miejsc po przecinku): z 0,67 Zatem szukana wartość -z wynosi w przybliżeniu -0,67. Kolejną kwestią jest zamiana zestandaryzowanej wartości z na szukaną wartość x. Korzystamy ze wzoru na standaryzację: zi = xi m σ Wyznaczamy x: xi = zi σ + m

324 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 34 Podstawiamy do wzoru: xi = 0, = 33, = 6,5 Co czwarty klient zostawia tygodniowo w hipermarkecie do 6,5 zł. c) trzeci kwartyl 75 proc. klientów wydaje nie więcej niż x zł: F ( z ) = 0, Wartość z odczytano już w poprzednim podpunkcie: z 0,67 W kroku drugim z przekształconego wzoru na standaryzację obliczamy wartość x: xi = zi σ + m xiii = 0, = 33, = 83,5 W analizowanym hipermarkecie trzy czwarte klientów wydaje tygodniowo na żywność nie więcej niż 83,5 zł Rozkład t-studenta Zmienna losowa t ma rozkład t-studenta, określony przez v = n stopni swobody, gdzie n oznacza liczbę obserwacji. Rozkład ten jest zbliżony do standaryzowanego rozkładu normalnego (dla niewielkich prób jest on nieco

325 str Charakterystyka wybranych rozkładów prawdopodobieństwa bardziej płaski od rozkładu normalnego). Wartości podstawowych parametrów rozkładu t-studenta są następujące (por. [9, s. 07]): a) wartość oczekiwana: m= 0 b) odchylenie standardowe: n n 3 σ = Wraz ze wzrostem wielkości próby n wartość odchylenia standardowego dąży do. Na poniższym wykresie porównano funkcję gęstości rozkładu t-studenta z funkcją gęstości standaryzowanego rozkładu normalnego. Rysunek 3.7. Kształt funkcji gęstości rozkładu t-studenta na tle funkcji gęstości rozkładu normalnego. 0,5 Rozkład normalny Rozkład t-studenta (n = 5) 0,4 Rozkład t-studenta (n = 0) 0,3 0, 0, Źródło: Opracowanie własne. Jak widać, dla dużych prób (zał. n > 30) kształt funkcji gęstości rozkładu tstudenta niemal pokrywa się z kształtem funkcji gęstości standaryzowanego rozkładu normalnego.

326 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 36 Rozkład t-studenta jest stablicowany (zob. Tablice rozkładu t-studenta). W niniejszej publikacji przyjęto wariant dwustronny dla danego poziomu istotności α i n stopni swobody następuje odczyt wartości tα co do wartości bezwzględnej (por. [9, s ]): Rysunek 3.8. Sposób odczytywania wartości krytycznej dla dwustronnego rozkładu tstudenta. Źródło: Opracowanie własne. Wartość prawdopodobieństwa interpretowana jest tu jako łączna powierzchnia pól pod funkcją gęstości rozkładu t-studenta: α α + =α Oto dwa przykłady ukazujące sposób posługiwania się tablicami rozkładu t-studenta: Przykład. Dla n = 8 obserwacji należy znaleźć taką wartość graniczną tα, przy której pole obszaru pod funkcją gęstości rozkładu t-studenta w przedziale ( tα, tα) wynosi 0,9.

327 str Charakterystyka wybranych rozkładów prawdopodobieństwa Pole obszaru w przedziale (-tα, tα) oznaczamy jako α: α = 0,9 Stąd wyznaczamy poziom istotności α: α = 0,9 = 0, P( t tα ) = 0, Dla v = 8 = 7 stopni swobody i obliczonego poziomu istotności α = 0, z tablic rozkładu t-studenta odczytujemy wartość graniczną (krytyczną). Oto fragment tych tablic: α v 0,005 0,0 0,0 0,05 0, 0, 7,3 63,65593,80,706 6,337 3,0777 4,089 9,950 6,9645 4,307,900, ,453 5,8408 4,5407 3,84,3534, ,5975 4,604 3,7469,7765,38, ,7733 4,03 3,3649,5706,050, ,368 3,7074 3,47,4469,943, ,094 3,4995,9979,3646,8946,449 0,9 0,584 0,4 0,366 0,338 0,3 0,3 0,303 0,95 0,0787 0,0708 0,068 0,0667 0,0659 0,0654 0,0650 0,99 0,057 0,04 0,036 0,033 0,03 0,03 0,030 0,995 0,0079 0,007 0,0068 0,0067 0,0066 0,0065 0,0065 tα =,8946 Szukany przedział wartości to (,8946;,8946). Przykład. W oparciu o dane z powyższego przykładu należy wyznaczyć wartość prawdopodobieństwa dla wartości tα >,36. Najpierw z dwustronnego rozkładu t-studenta odczytujemy wartość α: P( t,36 ) = α α = 0,05 Następnie otrzymane prawdopodobieństwo dzielimy przez interesuje nas jedynie połowa odczytanego łącznego pola (zob. rys. 3.8): P( t >,36) = α 0,05 = = 0,05 Prawdopodobieństwo tego, że zmienna t >,36, wynosi 0,05.

328 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str Rozkład chi-kwadrat Rozkład chi-kwadrat (χ) jest rozkładem prawdopodobieństwa sumy kwadratów niezależnych zmiennych losowych o standaryzowanym rozkładzie normalnym (por. [, s. 44]): χ= n i= X n X n ~ N ( 0, ) Zmienna losowa χ ma rozkład całkowicie zależny od liczby stopni swobody v = n, gdzie n oznacza liczebność próby. Dla niewielkiej liczby stopni swobody jest to rozkład silnie asymetryczny. Jednak przy wzrastającej liczebności próby ciąg dystrybuant tego rozkładu jest szybko zbieżny do ciągu dystrybuant rozkładu normalnego. Wartość oczekiwana i odchylenie standardowe rozkładu chi-kwadrat wynoszą odpowiednio [8, s. 70-7]: m= n σ = n Rozkład chi-kwadrat podobnie jak rozkład normalny i rozkład t-studenta jest stablicowany. Wartość krytyczną odczytuje się dla określonej liczby stopni swobody v oraz ustalonego poziomu istotności α z tablic rozkładu chi-kwadrat: Sposób odczytywania wartości krytycznej z tablic rozkładu chi-kwadrat w ujęciu graficznym przedstawia się następująco:

329 str Charakterystyka wybranych rozkładów prawdopodobieństwa Rysunek 3.9. Sposób odczytywania wartości krytycznej dla rozkładu chi-kwadrat Źródło: Opracowanie własne. Pole zaznaczonego obszaru odpowiada wartości przyjętego poziomu istotności α. Na przedstawionym wykresie wartość ta wynosi 0, (v = 0 stopni swobody). Szukaną wartość krytyczną można także otrzymać, podając wymagane parametry w programie Rozkłady prawdopodobieństwa. Możliwa jest też sytuacja odwrotna, tzn. możemy wyznaczyć prawdopodobieństwo α przy danej liczbie stopni swobody i wartości χ. Przykład. Dla v = 0 stopni swobody i poziomu istotności α = 0, z tablic rozkładu chi-kwadrat należy odczytać wartość krytyczną (zob. rys. 3.9). ( ) P χ χ α = 0, Oto fragment tablic rozkładu chi-kwadrat, z których odczytujemy szukaną wartość: α v ,005 0,0 0,0 0,05 0, 0, 7,8794 6,6349 5,49 3,845,7055,644 0,5965 9,04 7,84 5,995 4,605 3,89,838,3449 9,8374 7,847 6,54 4,646 4,8603,767,6678 9,4877 7,7794 5,9886 6,74965,08633,388,0705 9,363 7,893 8,54756,895,033,5960,6446 8,558 0,7778,47536,644,067,070 9,803,95490,0908,685,50733,366,030 3,5893,66609,67906,9904,6837,4 5,883,093,6088,30705,9873,440 0,9 0,058 0,07 0,5844,0636,603,04,833 3,4895 4,68 4,865 0,95 0,0039 0,06 0,358 0,707,455,6354,673,736 3,35 3,9403 0,99 0,000 0,00 0,48 0,97 0,5543 0,87,390,6465,0879,558 0,995 0,0000 0,000 0,077 0,070 0,48 0,6757 0,9893,3444,7349,558

330 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 330 χ α = 5,987 Dla przyjętego poziomu istotności szukana wartość wynosi w przybliżeniu Rozkład F Rozkład F jest rozkładem ilorazu dwóch niezależnych zmiennych losowych χ, podzielonych przez odpowiadającą im liczbę stopni swobody (por. [, s. 375]): Rozkład F znajduje zastosowanie np. w testowaniu hipotezy statystycznej o równości wariancji. Jest on stablicowany. Odczyt wartości krytycznej z tablic rozkładu F (w tej publikacji wartość tę znajduje program Rozkłady prawdopodobieństwa) jest analogiczny, jak w przypadku rozkładu chikwadrat: Rysunek 3.0. Sposób odczytywania wartości krytycznej dla rozkładu F.

331 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa 0 3 str Źródło: Opracowanie własne. Różnica polega na tym, że obok poziomu istotności należy podać stopnie swobody dla dwóch prób o liczebnościach n i n. Stopnie swobody wyznaczamy następująco: v = n v = n Przykład. Na podstawie ankiet przeprowadzonych wśród n = 6 kobiet oraz n = 3 mężczyzn określono miesięczne wydatki celem porównania zmienności tych wydatków. Na tym etapie należy wyznaczyć wartość krytyczną Fα na poziomie istotności α = 0,05. Najpierw obliczamy stopnie swobody: v = n = 6 = 5 v = n = 3 = Posługując się programem Rozkłady prawdopodobieństwa z łatwością możemy wyznaczyć wartość krytyczną (zob. rys. 3.0 ilustracja graficzna tego przykładu). Wprowadzamy dane (Rozkład F odwrotny): v = 5, v = oraz α = 0,05. Oto wynik: Fα = 3,059 Szukana wartość krytyczna to 3,.

332 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str Twierdzenia graniczne Jak wyżej wspomniano, dla dużych prób rozkład t-studenta jest niemal identyczny jak standaryzowany rozkład normalny. Również asymetryczny rozkład chi-kwadrat, w miarę wzrostu liczebności próby, zmierza do rozkładu normalnego. Z rozkładem normalnym związane są ponadto dwa ważne twierdzenia graniczne, a mianowicie:. Integralne twierdzenie Moivre a-laplace a.. Centralne twierdzenie graniczne Lindberga-Levy ego. Na mocy integralnego twierdzenia granicznego Moivre a-laplace a dla znacznej liczby prób (zał. n > 30) rozkład dwumianowy zmiennej losowej X można przybliżyć rozkładem normalnym. Wówczas: ( X n ~ N np, np ( p ) ) Centralne twierdzenie graniczne Lindberga-Levy ego mówi o zbieżności sumy niezależnych zmiennych losowych o tym samym rozkładzie (nie muszą to być rozkłady znane) do rozkładu normalnego. n Yn = i= ( Xn Yn ~ N nm, σ n ) Poniższe przykłady ukazują praktyczne zastosowanie wprowadzonych twierdzeń granicznych: Przykład. Test wielokrotnego wyboru liczy 48 pytań. Spośród czterech możliwych opcji tylko jedna odpowiedź jest prawidłowa (sprawdzający przyznają jeden punkt za dobrze zaznaczoną odpowiedź lub nie przyznają żadnego, gdy odpowiedź jest zła). Należy obliczyć prawdopodobieństwo tego, że student, zaznaczający odpowiedzi na chybił-trafił, udzieli mniej niż 40 proc. poprawnych odpowiedzi.

333 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 333 Ponieważ liczba pytań testu jest duża (n > 30), to rozkład dwumianowy możemy przybliżyć rozkładem normalnym. Wypisujemy dane (por. Rozkład dwumianowy): n = 48 obserwacji, p = 0,5 (prawdopodobieństwo sukcesu), k < 0,4 48 = 9, (maksymalna liczba sukcesów to 9 poprawnych odpowiedzi). Zmienna losowa X ma rozkład normalny o parametrach: ( X n ~ N np, np ( p ) ) ( X 48 ~ N 48 0,5, 48 0,5 ( 0,5) ) X n ~ N (, 3) Obliczamy prawdopodobieństwo tego, że student wskaże nie więcej niż 9 poprawnych odpowiedzi (mniej niż 40 proc.): 9 P( X 9) = P Z = P( Z,33) Po dokonaniu standaryzacji zmiennej X, z tablic dystrybuanty rozkładu normalnego odczytujemy szukane prawdopodobieństwo: P( Z,33) = F (,33) = 0,990

334 3.. Charakterystyka wybranych rozkładów prawdopodobieństwa str. 334 Prawdopodobieństwo tego, że student losowo wskaże mniej niż 40 proc. poprawnych odpowiedzi, wynosi 99 proc. Przykład. Firma ogrodnicza zajmuje się sprzedażą arbuzów, które składowane są w skrzyniach o przeciętnej wadze 50 kg. Waga skrzyni (kg) ma rozkład normalny o parametrach: X ~ N ( 50, 3) Jakie jest prawdopodobieństwo tego, że łączna waga stu losowo wybranych skrzyń przekroczy 5050 kg? Zmienna losowa Y, będąca sumą stu niezależnych zmiennych losowych X, ma rozkład: ( Y00 ~ N 00 50, 3 00 ) Y00 ~ N ( 5000, 30) Dokonujemy standaryzacji, korzystamy ze wzoru na dopełnienie prawdopodobieństw i odczytujemy wartość dystrybuanty rozkładu normalnego w punkcie,66: P( Y00 > 5050 ) = P Z > = P( Z >,66) = F (,66 ) = 0,955 0,05 30 Prawdopodobieństwo tego, że waga łączna stu losowo wybranych skrzyń przekroczy 5050 kg, wynosi ok. 5 proc Dobór próby Elementarnym zagadnieniem statystyki jest pojęcie próby. Próba to podzbiór elementów populacji generalnej podlegających badaniu. Innymi słowy, jest to liczebność jednostek badania [5, s. 9]. Kwestię określania

335 3.3. Dobór próby str. 335 minimalnej liczebności próby przedstawiono w podrozdziale Estymacja przedziałowa. W tym miejscu dokonano omówienia wybranych metod doboru próby. Podział metod doboru próby prezentuje schemat: Rysunek 3.. Klasyfikacja metod doboru jednostek statystycznych do próby. Źródło: Opracowanie na podstawie [0, s. 30]. Istnieją dwa zasadnicze sposoby doboru jednostek statystycznych do próby:. Dobór losowy.. Dobór celowy. Wnioskowanie statystyczne ma zastosowanie jedynie w przypadku losowego doboru próby (zob. metoda reprezentacyjna). Poniżej dokonano ogólnej charakterystyki wybranych metod losowego doboru próby. Losowy dobór próby to taki sposób wyboru, przy którym są spełnione dwa następujące warunki [5, s. 0]:. Każda jednostka populacji generalnej ma dodatnie znane prawdopodobieństwo znalezienia się w próbie.

336 3.3. Dobór próby str Istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji. W wyniku doboru losowego otrzymujemy próbę losową. Aby otrzymać próbę losową, należy określić tzw. operat losowania, czyli wykaz wszystkich elementów populacji. Wykaz ten pozwala wybierać elementy z populacji poprzez losowe generowanie numerów elementów, które znajdą się w próbie (por. [, s. 9]). Rozróżnia się dwa zasadnicze schematy losowego doboru próby [8, s ]:. Schemat losowania niezależnego każde pojedyncze losowanie odbywa się z takiej samej zbiorowości statystycznej, stąd dana jednostka statystyczna może się znaleźć w próbie więcej niż jeden raz (stałe prawdopodobieństwo wylosowania danej obserwacji).. Schemat losowania zależnego w każdym kolejnym losowaniu nie bierze się pod uwagę jednostki uprzednio wylosowanej jest ona wykluczana. Wynika z tego, że w próbie dana jednostka statystyczna może znaleźć się tylko raz (prawdopodobieństwo wylosowania danej jednostki zmienia się podczas losowania). Powyższy podział ma istotne znaczenie z punktu stosowanych metod wnioskowania statystycznego (niejednokrotnie jest poczynione założenie o losowaniu niezależnym). Wśród metod losowego doboru próby wyróżnia się (zob. rys. 3.): metodę warstwową, metodę wielostopniową, dobór losowy prosty.

337 3.3. Dobór próby str. 337 Metoda warstwowa znajduje zastosowane w przypadku niejednorodnych populacji statystycznych (zob. tabela.3), gdzie możliwy jest podział na rozłączne podpopulacje, określane w tej metodzie warstwami. Istotne jest to, że n-elementowa próba uzyskana w wyniku zastosowania omawianej metody powinna uwzględniać strukturę liczebności (wagi) warstw populacji. Wagę dla i tej warstwy oblicza się według wzoru (por. [, s. 90]): Liczbę jednostek statystycznych pobranych z i-tej warstwy obliczamy następująco: Dobór jednostek statystycznych do próby w ramach poszczególnych warstw jest losowy (zob. dobór losowy prosty). Przykład. W ramach egzaminu ze statystyki studenci mają rozwiązać 0 zadań z czterech działów tematycznych: statystyka opisowa, analiza regresji, analiza szeregów czasowych oraz wnioskowanie statystyczne. Egzaminatorzy przygotowali 00 zadań, w tym: a) b) c) d) statystyka opisowa: N = 80 zadań, analiza regresji: N = 40 zadań, analiza szeregów czasowych: N3 = 0 zadań, wnioskowanie statystyczne: N4 = 60 zadań. Dysponując liczebnościami poszczególnych warstw, możemy określić następujące wagi (zob. Przykłady losowy dobór próby; zakładka: losowanie warstwowe):

338 3.3. Dobór próby w = N 80 = = 0,4 N 00 w = N 40 = = 0, N 00 w3 = N3 0 = = 0, N 00 w4 = N4 60 = = 0,3 N 00 str. 338 Następnie wagi przemnażamy przez ogólną liczebność próby (n = 0 zadań), określając w ten sposób liczebności zadań, które losowo zostaną wybrane w ramach poszczególnych działów tematycznych (warstw): n = w n = 0,4 0 = 4 n = w n = 0, 0 = n3 = w3 n = 0, 0 = n4 = w4 n = 0,3 0 = 3 Zadania podzielono proporcjonalnie do liczby zadań przygotowanych w ramach poszczególnych działów na egzaminie pojawi się najwięcej zadań ze statystyki opisowej. Przykład. Firma kosmetyczna zamierza przeprowadzić badanie statystyczne wśród Polaków w wieku 8-5 lat w celu porównania kryteriów, jakimi kierują się przy wyborze kosmetyków kobiety i mężczyźni. Z uwagi na ograniczone nakłady na badania marketingowe, zarząd zamierza przeprowadzić 500 ankiet. Należy określić sposób doboru próby. W tym przypadku objęta badaniem statystycznym zbiorowość nie jest jednorodna ze względu na płeć możemy wyróżnić dwie podpopulacje (warstwy): kobiet i mężczyzn. Należy zauważyć, iż nie jest możliwe w oparciu o dostarczone dane określenie wag dla poszczególnych warstw, jak miało

339 3.3. Dobór próby str. 339 to miejsce w przykładzie pierwszym. Ponieważ w przybliżeniu połowę populacji stanowią kobiety, stąd przyjmujemy wagi na poziomie 0,5. Zatem należy przeprowadzić połowę ankiet wśród kobiet i połowę wśród mężczyzn. W kroku drugim wybieramy losowo po 50 respondentów z jednej i drugiej warstwy. Dobór losowy prosty stanowi grupę metod, które można zastosować przy wyborze jednostek z populacji niejednorodnej w ramach poszczególnych warstw (zob. losowanie warstwowe), jak również w przypadku pozostałych zbiorowości statystycznych, gdzie określono operat losowania. Podstawowym schematem losowania w ramach doboru prostego jest losowanie proste (zob. rys. 3.), w wyniku którego otrzymuje się tzw. próbę prostą (jest to ważne pojęcie niejednokrotnie pojawiające się w statystyce matematycznej). W losowaniu prostym każdy z N elementów populacji posiada jednakowe stałe prawdopodobieństwo znalezienia się w próbie (por. [5, s. 0]): p= N Fakt, że wszystkie jednostki statystyczne z jednakowym prawdopodobieństwem mogą znaleźć się w próbie, to szczególny przypadek, który można opisać za pomocą rozkładu jednostajnego (zob. Przykłady generowanie liczb pseudolosowych). Funkcja gęstości tego rozkładu ma postać: f ( x) = = b a N Graniczne wartości przedziału [a, b] określamy następująco: a = 0, b = N (liczebność elementów operatu losowania). Wówczas dystrybuanta rozkładu jednostajnego będzie miała postać: F ( x) = x a x = b a N

340 3.3. Dobór próby str. 340 I tak: pierwszy element z ponumerowanej listy zostanie wybrany wówczas, gdy wartość dystrybuanty będzie mniejsza bądź równa /N, drugi element: dla wartości z przedziału (/N; /N], trzeci: (/N; 3/N] itd. Zakładając, że wartości funkcji LOS() są dystrybuantą rozkładu jednostajnego, wyprowadzono wzór: x = los() ( b a ) + a x = los () N W praktyce otrzymaną wartość x należy zaokrąglić w górę do najbliższej liczby całkowitej, będącej numerem obserwacji wybranej z listy od do N. Przykład. Egzaminator spośród przygotowanych 0 zadań z analizy szeregów czasowych musi losowo wybrać jedno na egzamin (zob. losowanie warstwowe przykład ). W tym celu chce posłużyć się schematem losowania prostego. Prawdopodobieństwo znalezienia się każdego zadania w próbie wynosi: p= = = 0,05 n 0 Krok. Określamy operat losowania w tym przypadku jest to lista zadań ponumerowanych od do 0 (zob. Przykłady losowy dobór próby; zakładka: losowanie proste). Krok. Generujemy losowo liczbę z przedziału od 0 do. W tym celu posłużymy się funkcją LOS(). Załóżmy, że otrzymana wartość wynosi 0,54. Krok 3. Stosujemy przekształcenie według wyprowadzonego wyżej wzoru: x = los () N x = 0,54 0 = 0,8

341 3.3. Dobór próby str. 34 Otrzymany wynik po zaokrągleniu w górę to numer zadania, które należy wybrać z przygotowanej listy potencjalnych zadań egzaminacyjnych. Dobór losowy prosty za pomocą liczb losowych pozwala na wybór jednostek do próby według dowolnego a nie tylko przedstawionego powyżej, jednostajnego rozkładu prawdopodobieństwa. Zaawansowanym narzędziem Excela domyślnie niedostępnym jest aplikacja Generowanie liczb pseudolosowych, posiadająca szereg wbudowanych rozkładów prawdopodobieństwa i pozwalająca określić dowolny rozkładu prawdopodobieństwa dla cechy skokowej (zob. animacja Excel_generowanie_liczb_ pseudolosowych). Przykładowo, zadaniom z listy można nadać wagi w zależności od ich stopnia trudności. Dzięki temu prawdopodobieństwo pojawienia się zadań trudniejszych, bardziej złożonych jest większe (zob. Przykłady generowanie liczb pseudolosowych). W przypadku uporządkowanej zbiorowości (np. ranking funduszy inwestycyjnych) zastosowanie znajduje dobór losowy systematyczny. Metoda ta polega na tym, że losuje się tylko jedną jednostkę statystyczną, a pozostałe dobiera się w taki sposób, aby między jednostką wylosowaną a następną znajdował się stały odstęp (por. [0, s. 3]). Odstęp k pomiędzy losowanymi obserwacjami można określić za pomocą wzoru (por. [, s. 937]): ni + = ni + k W tej sytuacji N-elementową populację podzielimy na n mniejszych grup (podpopulacji) pierwszą obserwację będziemy losować z pierwszej podpopulacji, a następnie do próby wybierzemy co k-tą jednostkę statystyczną. W praktyce jako wartość k należy przyjąć najbliższą liczbę całkowitą wyniku dzielenia N/n (por. [, s. 937]).

342 3.3. Dobór próby str. 34 Przykład. Spośród 40 zadań z analizy regresji wykładowca ma wybrać losowo na egzamin dwa. Ponieważ zadania są ułożone od najłatwiejszych do najtrudniejszych, stąd zamierza posłużyć się losowaniem systematycznym. Przyjęty schemat losowania pozwoli na wybór zadania łatwiejszego i bardziej złożonego. Dobór jednostek do próby (n = zadania) przebiega w następujących krokach (zob. Przykłady losowy dobór próby; zakładka: losowanie systematyczne): Krok. Określenie listy ponumerowanych zadań od do 40. Krok. Obliczenie wartości odstępu k i podział zbiorowości na dwie podpopulacje: k= N 40 = = 0 n Podział obejmuje dwie grupy zadań zadania od do 0 oraz od do 40 włącznie. Krok 3. Wylosowanie pierwszego zadania z grupy zadań od do 0 metodą losowania prostego. Załóżmy, że wylosowano zadanie nr. Krok 4. Wybór drugiego zadania z grupy zadań od do 40: n = n + k = + 0 = 3 Zgodnie ze schematem losowania systematycznego na egzamin wybrane zostanie jedno zadanie łatwiejsze (nr ) oraz zadanie o relatywnie wyższym stopniu trudności (nr 3). Kolejnym schematem losowego doboru próby jest dobór losowy wielostopniowy, określany też losowaniem zespołowym. Metoda ta znajduje zastosowanie, gdy daną populację można podzielić kolejno na mniejsze gru

343 3.3. Dobór próby str. 343 py (stopnie losowania). W ten sposób tworzy się kolejne warstwy w warstwach i losuje jednostki statystyczne proporcjonalnie do liczebności poszczególnych warstw [0, s. 3]. W tym miejscu warto podkreślić różnice pomiędzy losowaniem wielostopniowym a losowaniem warstwowym: Tabela. Losowanie wielostopniowe a losowanie warstwowe. Losowanie warstwowe. Losowanie elementów każdej warstwy jednostki statystyczne z każdej warstwy są w pełni reprezentowane w próbie losowej. Losowanie wielostopniowe Losowanie elementów tylko z wybranych zespołów (mogą to być zespoły jednorodne w postaci warstw) nie wszystkie warstwy są reprezentowane w próbie.. Podział populacji na podgrupy Podstawowym celem podział populacji (warstwy) prowadzi na ogół do generalnej na podgrupy jest ułatwienie mniejszej wariancji estymatorów (zob. doboru próby i zmniejszenie kosztów estymacja przedziałowa), tj. zwiększa z tym związanych wyniki estymacji nie precyzję wnioskowania są bardziej precyzyjne. statystycznego. Źródło: Opracowanie własne na podstawie: [, s. 934]. Metoda doboru losowego wielostopniowego jest szczególnie użyteczna w przypadku dużych populacji. Np. w badaniach marketingowych najpierw losowane jest województwo, zaś w następnym etapie można dokonać losowego wyboru respondentów według poszczególnych miast wojewódzkich (wagi powinny odpowiadać liczbie ludności). Drugą grupę metod doboru próby stanowią metody doboru celowego. Należą do nich m.in. (por. [0, s. 33]): metoda doboru jednostek typowych, metoda eliminacji, metoda doboru proporcjonalnego (kwotowego). Metoda doboru jednostek typowych polega na wyborze do próby jednostek uważanych za charakterystyczne dla danej zbiorowości, tj. jednostki przeciętne (np. w badaniu jakości kształcenia należałoby w tym przypadku

344 3.3. Dobór próby str. 344 wykluczyć prymusa). Metoda ta dostarcza ogólnych informacji o populacji generalnej. Interpretacja wyników analizy jest możliwa jedynie w przypadku niektórych aspektów kształtowania się cech. Stąd metoda doboru jednostek typowych znajduje zastosowanie w przypadku badań wstępnych. Metoda eliminacji uwzględnia w doborze jednostek statystycznych do próby zjawisko koncentracji. Najwięcej jednostek statystycznych pochodzi z grup, w których koncentruje się największa liczba obserwacji o interesujących cechach eliminuje się zatem jednostki nieistotne z punktu widzenia celu badania statystycznego. Metoda doboru proporcjonalnego w metodzie tej na wstępie dokonuje się podziału zbiorowości statystycznej na określone grupy. Jednak w przeciwieństwie do metody warstwowej doboru jednostek statystycznych wewnątrz wydzielonych grup dokonuje się subiektywnie, a nie w sposób losowy. W następnym podrozdziale na gruncie teorii estymacji poruszono kwestię minimalnej liczebności próby Estymacja przedziałowa Na wstępie należy rozróżnić pojęcie parametru zbiorowości generalnej, którego wartość jest z reguły nieznana, od estymatora tego parametru. Estymator (statystyka) to miara opisowa pochodząca z n-elementowej próby losowej [, s. 8]. W tej sytuacji możemy mówić o tzw. estymacji punktowej, której celem jest oszacowanie wartości parametrów z populacji generalnej na podstawie pobranej próby losowej. W poniższej tabeli zestawiono punktowe estymatory następujących parametrów: średniej arytmetycznej, odchylenia standardowego,

345 str Estymacja przedziałowa wskaźnika struktury w populacji (frakcji). Tabela 3.4. Estymatory punktowe wybranych parametrów w populacji generalnej. Parametr populacji generalnej Estymatory n Średnia arytmetyczna (wartość m oczekiwana) x= i= xi n duża próba: σ n Odchylenie standardowe p Wskaźnik struktury (frakcja) sˆ = n ( xi x ) s= i= n mała próba (n < 30): pˆ = (x i= i x) n k n Źródło: Opracowanie własne. W tym podrozdziale przedstawiony zostanie drugi sposób estymacji, a mianowicie estymacja przedziałowa. Estymacja przedziałowa polega na szacowaniu wartości parametru populacji generalnej z wykorzystaniem tzw. przedziału ufności. Przedział ten pokrywa nieznaną wartość szacowanego parametru z określonym z góry prawdopodobieństwem α, zwanym poziomem istotności bądź współczynnikiem ufności (por. [, s. 60]). Ważną własnością estymatorów wartości wymienionych w tabeli 3.4. jest zbieżność do rozkładu normalnego przy wzrastającej liczebności próby dla dużych prób rozkład estymatora w próbie jest zbliżony do rozkładu normalnego (por. [, s. 30]). Opierając się na tej zależności w dalszej części tego rozdziału wyznaczono przedziały ufności dla wartości przeciętnej m, wskaźnika struktury p oraz odchylenia standardowego σ. W tej publikacji wyznaczono jedynie przedziały ufności przy założeniu dużej próby losowej (zał. n 30).

346 str Estymacja przedziałowa Przedział ufności dla wartości przeciętnej Na mocy centralnego twierdzenia granicznego Lindberga-Levy ego rozkład wartości średniej z próby jest zbieżny do rozkładu normalnego o następujących parametrach: σ x ~ N m, n Z powyższego wynika, że wartość oczekiwana średniej z próby jest równa wartości oczekiwanej badanej cechy w populacji (m). Natomiast odchylenie standardowe średniej arytmetycznej z próby maleje do zera wraz ze wzrostem liczebności próby (por. [9, s. 33]). Punktem wyjścia do wyprowadzenia przedziału ufności dla średniej arytmetycznej w populacji (duża próba) jest standaryzacja średniej z próby (por. [8, s. 57]): x m P z< < z = α σ n Z powyższego równania wyznaczamy dolną i górną granicę przedziału ufności:. Dolna granica przedziału ufności: x m < z σ n x m< z x z σ σ n n σ n < m

347 str Estymacja przedziałowa. Górna granica przedziału ufności: z< x m σ n z σ n σ n < x m m< x + z σ n W rezultacie dwustronny przedział ufności dla wartości średniej m przy założeniu, że mamy do czynienia z dużą próbą losową jest następujący (por. [, s. 6]): a) znane odchylenie standardowe w populacji σ: b) nieznane odchylenie standardowe w populacji (σ s): Wartość krytyczną z należy odczytać z tablic dystrybuanty rozkładu normalnego (lub skorzystać np. z dodatku Rozkłady prawdopodobieństwa), przy czym wartość dystrybuanty w punkcie z jest określona następująco: F( z) = α Oto prezentacja graficzna przedziału ufności dla poziomu ufności α: :

348 3.4. Estymacja przedziałowa str. 348 Rysunek 3.. Prezentacja graficzna dwustronnego przedziału ufności (duża próba). Źródło: Opracowanie własne. Połowę długości przedziału ufności stanowi tzw. maksymalny błąd szacunku, który w przypadku wartości średniej dla dużej próby wyraża się wzorem (por. [, s. 63]): Podstawiając do wzoru na przedział ufności dla wartości przeciętnej, otrzymamy przejrzystą postać tego przedziału: P( x d x < m < x + d x ) = α Im mniejszy maksymalny błąd szacunku, tym większa dokładność oszacowania (zmniejsza się bowiem długość przedziału ufności α pokrywającego nieznany parametr). Dokładność ta zależy od trzech parametrów:. Przyjęty poziom ufności im wyższy, tym mniejsza dokładność (przy danym poziomie pozostałych czynników).. Liczba obserwacji dokładność oszacowania jest tym większa, im liczniejsza próba (na poziomie istotności α). 3. Zmienność wartości cechy mierzona odchyleniem standardowym poziom tego parametru w pewnym stopniu można zmniejszyć, dobierając

Niniejszy ebook jest własnością prywatną.

Niniejszy ebook jest własnością prywatną. Niniejszy ebook jest własnością prywatną. Niniejsza publikacja, ani żadna jej część, nie może być kopiowana, ani w jakikolwiek inny sposób reprodukowana, powielana, ani odczytywana w środkach publicznego

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Darmowa publikacja dostarczona przez ZloteMysli.pl

Darmowa publikacja dostarczona przez ZloteMysli.pl Powered by TCPDF (www.tcpdf.org) Ten ebook zawiera darmowy fragment publikacji "Statystyka po ludzku" Darmowa publikacja dostarczona przez ZloteMysli.pl Copyright by Złote Myśli &, rok 2008 Autor: Tytuł:

Bardziej szczegółowo

STATYSTYKA. dr Agnieszka Figaj

STATYSTYKA. dr Agnieszka Figaj STATYSTYKA OPISOWA dr Agnieszka Figaj Literatura B. Pułaska Turyna: Statystyka dla ekonomistów. Difin, Warszawa 2011 M. Sobczyk: Statystyka aspekty praktyczne i teoretyczne, Wyd. UMCS, Lublin 2006 J. Jóźwiak,

Bardziej szczegółowo

Rodzaje badań statystycznych

Rodzaje badań statystycznych Rodzaje badań statystycznych Zbieranie danych, które zostaną poddane analizie statystycznej nazywamy obserwacją statystyczną. Dane uzyskuje się na podstawie badania jednostek statystycznych. Badania statystyczne

Bardziej szczegółowo

Podstawowe pojęcia statystyczne

Podstawowe pojęcia statystyczne Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk

Bardziej szczegółowo

Badania Statystyczne

Badania Statystyczne Statystyka Opisowa z Demografią oraz Biostatystyka Badania Statystyczne Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Paweł Tatarzycki STATYSTYKA. Wybrane zagadnienia

Paweł Tatarzycki STATYSTYKA. Wybrane zagadnienia Paweł Tatarzycki STATYSTYKA Wybrane zagadnienia ELEMENTARNE ZAGADNIENIA STATYSTYKI Termin statystyka pochodzi od łacińskiego status, co oznacza stan rzeczy. W ujęciu historycznym terminem tym określano

Bardziej szczegółowo

Wykład ze statystyki. Maciej Wolny

Wykład ze statystyki. Maciej Wolny Wykład ze statystyki Maciej Wolny T1: Zajęcia organizacyjne Agenda 1. Program wykładu 2. Cel zajęć 3. Nabyte umiejętności 4. Literatura 5. Warunki zaliczenia Program wykładu T1: Zajęcia organizacyjne T2:

Bardziej szczegółowo

SPIS TREŚCI. Do Czytelnika... 7

SPIS TREŚCI. Do Czytelnika... 7 SPIS TREŚCI Do Czytelnika.................................................. 7 Rozdział I. Wprowadzenie do analizy statystycznej.............. 11 1.1. Informacje ogólne..........................................

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura Zagadnienia: wprowadzenie podstawowe pojęcia Doświadczalnictwo 1 Termin doświadczalnictwo Doświadczalnictwo planowanie doświadczeń oraz analiza danych doświadczalnych z użyciem metod statystycznych. Doświadczalnictwo

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną Wydział: Zarządzanie i Finanse Nazwa kierunku kształcenia: Finanse i Rachunkowość Rodzaj przedmiotu: podstawowy Opiekun: prof. nadzw. dr hab. Tomasz Kuszewski Poziom studiów (I lub II stopnia): II stopnia

Bardziej szczegółowo

KARTA KURSU. Kod Punktacja ECTS* 1

KARTA KURSU. Kod Punktacja ECTS* 1 KARTA KURSU Nazwa Nazwa w j. ang. Wprowadzenie do statystyki Introduction to statistics Kod Punktacja ECTS* 1 Koordynator Prof. dr hab. Jerzy Wołek Zespół dydaktyczny Prof. dr hab. Jerzy Wołek doktoranci

Bardziej szczegółowo

Badania marketingowe : podstawy metodyczne / Stanisław Kaczmarczyk. - wyd. 4. Warszawa, 2011

Badania marketingowe : podstawy metodyczne / Stanisław Kaczmarczyk. - wyd. 4. Warszawa, 2011 Badania marketingowe : podstawy metodyczne / Stanisław Kaczmarczyk. - wyd. 4. Warszawa, 2011 Spis treści Wstęp 13 CZĘŚĆ I. Przygotowanie procesu badań marketingowych 17 Rozdział 1. Badania marketingowe

Bardziej szczegółowo

Badania marketingowe

Badania marketingowe Badania marketingowe Dr hab. prof. SGH Katedra Rynku i Marketingu SGH teresataranko@o2.pl Konsultacje pokój 302 Madalińskiego 6/8 Wtorek -15.00-16.00 Struktura problematyki 1. Definicja i funkcje badań

Bardziej szczegółowo

Badania marketingowe. Podstawy metodyczne Stanisław Kaczmarczyk

Badania marketingowe. Podstawy metodyczne Stanisław Kaczmarczyk Badania marketingowe. Podstawy metodyczne Stanisław Kaczmarczyk Badania marketingowe stanowią jeden z najważniejszych elementów działań marketingowych w każdym przedsiębiorstwie. Dostarczają decydentom

Bardziej szczegółowo

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19 Statystyka Wykład 1 Magdalena Alama-Bućko 20 lutego 2017 Magdalena Alama-Bućko Statystyka 20 lutego 2017 1 / 19 Wykład : 30h Laboratoria : 30h (grupa B : 14:00, grupa C : 10:30, grupa E : 12:15) obowiazek

Bardziej szczegółowo

CZĘŚĆ I. PRZYGOTOWANIE PROCESU BADAŃ MARKETINGOWYCH. 1.2.1. Faza identyfikacji problemów decyzyjnych lub okoliczności sprzyjających

CZĘŚĆ I. PRZYGOTOWANIE PROCESU BADAŃ MARKETINGOWYCH. 1.2.1. Faza identyfikacji problemów decyzyjnych lub okoliczności sprzyjających Badania marketingowe. Podstawy metodyczne Autor: Stanisław Kaczmarczyk Wstęp CZĘŚĆ I. PRZYGOTOWANIE PROCESU BADAŃ MARKETINGOWYCH Rozdział 1. Badania marketingowe a zarządzanie 1.1. Rozwój praktyki i teorii

Bardziej szczegółowo

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34 Statystyka Wykład 1 Magdalena Alama-Bućko 26 lutego 2018 Magdalena Alama-Bućko Statystyka 26 lutego 2018 1 / 34 Wykład : 30h Laboratoria : 30h egzamin w sesji letniej (po uprzednim zaliczeniu ćwiczeń)

Bardziej szczegółowo

Kierunki rozwoju firmy Decyzje o wyborze rynków Decyzje inwestycyjne Rozwój nowych produktów Pozycjonowanie. Marketing strategiczny

Kierunki rozwoju firmy Decyzje o wyborze rynków Decyzje inwestycyjne Rozwój nowych produktów Pozycjonowanie. Marketing strategiczny Badania marketingowe dr Grzegorz Mazurek Istota badań Podejmowanie decyzji odbywa się na bazie doświadczenia, wiedzy oraz intuicji. Podejmowanie decyzji wiąże się automatycznie z ryzykiem poniesienia porażki

Bardziej szczegółowo

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Ekonomii i Finansów Dr Katarzyna Brzozowska-Rup

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Ekonomii i Finansów Dr Katarzyna Brzozowska-Rup KARTA MODUŁU / KARTA PRZEDMIOTU Z-ID-104 Elementy rachunku prawdopodobieństwa i sta- Kod modułu Nazwa modułu tystyki Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2015/2016 Elements

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład I, 22.02.2016 STATYSTYKA OPISOWA, cz. I Kwestie techniczne Kontakt: ajanicka@wne.uw.edu.pl Dyżur: strona z materiałami z przedmiotu: wne.uw.edu.pl/azylicz akson.sgh.waw.pl/~aborata

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

MARKETINGOWY SYSTEM INFORMACJI

MARKETINGOWY SYSTEM INFORMACJI MARKETINGOWY SYSTEM INFORMACJI INFORMACJA MARKETINGOWA...... (jako specyficzny rodzaj informacji zarządczej) to wszelka informacja wykorzystywana w procesie marketingowego zarządzania przedsiębiorstwem,

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Badania marketingowe. Omówione zagadnienia. Społeczna Wyższa Szkoła Przedsiębiorczości i Zarządzania

Badania marketingowe. Omówione zagadnienia. Społeczna Wyższa Szkoła Przedsiębiorczości i Zarządzania Społeczna Wyższa Szkoła Przedsiębiorczości i Zarządzania kierunek: Zarządzanie Badania marketingowe Wykład 5 Opracowanie: dr Joanna Krygier 1 Omówione zagadnienia Ograniczenia wtórnych źródeł informacji

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań

Bardziej szczegółowo

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. [1] POJĘCIA WSTĘPNE STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. BADANIE STATYSTYCZNE - ogół prac mających na celu poznanie struktury określonej

Bardziej szczegółowo

Badania marketingowe. - Konspekt wykładowy

Badania marketingowe. - Konspekt wykładowy Badania marketingowe - Konspekt wykładowy Badania marketingowe w logistyce Zakres materiału do egzaminu: 1. Wprowadzenie do przedmiotu - istota, przesłanki oraz użyteczność badań marketingowych 2. Informacja

Bardziej szczegółowo

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia Doświadczalnictwo leśne Wydział Leśny SGGW Studia II stopnia Treści i efekty kształcenia Treści: Statystyka matematyczna, planowanie eksperymentu Efekty kształcenia: student potrafi opisywać zjawiska za

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański KARTA KURSU (do zastosowania w roku akademickim 2015/16) Nazwa Statystyka 2 Nazwa w j. ang. Statistics 2 Kod Punktacja ECTS* 3 Koordynator Dr hab. Tadeusz Sozański (koordynator, konwersatorium) Zespół

Bardziej szczegółowo

Po drugie jest to dyscyplina naukowa, traktująca o metodach liczbowego opisu i wnioskowania o prawidłowościach występujących w procesach masowych.

Po drugie jest to dyscyplina naukowa, traktująca o metodach liczbowego opisu i wnioskowania o prawidłowościach występujących w procesach masowych. PROJEKTOWANIE BADANIA STATYSTYCZNEGO Termin statystyka ma wiele znaczeń. Po pierwsze określa się nim zbiór informacji liczbowych, dotyczących celowo wybranej grupy zjawisk. W tym sensie mówi się np. o

Bardziej szczegółowo

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta KARTA MODUŁU / KARTA PRZEDMIOTU Z-ZIPN-004 Statystyka Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Statistics Obowiązuje od roku akademickiego 0/04 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW

Bardziej szczegółowo

Metody doboru próby do badań. Dr Kalina Grzesiuk

Metody doboru próby do badań. Dr Kalina Grzesiuk Metody doboru próby do badań Dr Kalina Grzesiuk Proces doboru próby 1. Ustalenie populacji badanej 2. Ustalenie wykazu populacji badanej 3. Ustalenie liczebności próby 4. Wybór metody doboru próby do badań

Bardziej szczegółowo

TREŚCI NAUCZANIA z przedmiotu pracowania ekonomiczno - informatyczna na podstawie programu nr 341[02]/MEN/2008.05.20. klasa 3 TE

TREŚCI NAUCZANIA z przedmiotu pracowania ekonomiczno - informatyczna na podstawie programu nr 341[02]/MEN/2008.05.20. klasa 3 TE TREŚCI NAUCZANIA z przedmiotu pracowania ekonomiczno - informatyczna na podstawie programu nr [0]/MEN/008.05.0 klasa TE LP TREŚCI NAUCZANIA NAZWA JEDNOSTKI DYDAKTYCZNEJ Lekcja organizacyjna Zapoznanie

Bardziej szczegółowo

Proces badawczy schemat i zasady realizacji

Proces badawczy schemat i zasady realizacji Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 23 października 2016 Metodologia i metoda naukowa 1 Metodologia Metodologia nauka o metodach nauki

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0 Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia

Bardziej szczegółowo

PROGRAM NAUCZANIA PRZEDMIOTU OBOWIĄZKOWEGO NA WYDZIALE LEKARSKIM I ROK AKADEMICKI 2014/2015 PRZEWODNIK DYDAKTYCZNY dla STUDENTÓW IV ROKU STUDIÓW

PROGRAM NAUCZANIA PRZEDMIOTU OBOWIĄZKOWEGO NA WYDZIALE LEKARSKIM I ROK AKADEMICKI 2014/2015 PRZEWODNIK DYDAKTYCZNY dla STUDENTÓW IV ROKU STUDIÓW PROGRAM NAUCZANIA PRZEDMIOTU OBOWIĄZKOWEGO NA WYDZIALE LEKARSKIM I ROK AKADEMICKI 2014/2015 PRZEWODNIK DYDAKTYCZNY dla STUDENTÓW IV ROKU STUDIÓW 1. NAZWA PRZEDMIOTU : BIOSTATYSTYKA 2. NAZWA JEDNOSTKI (jednostek

Bardziej szczegółowo

Z-LOGN1-006 Statystyka Statistics

Z-LOGN1-006 Statystyka Statistics KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Z-LOGN-006 Statystyka Statistics Obowiązuje od roku akademickiego 0/0 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW Kierunek

Bardziej szczegółowo

Badania marketingowe. Omówione zagadnienia

Badania marketingowe. Omówione zagadnienia Społeczna Wyższa Szkoła Przedsiębiorczości i Zarządzania kierunek: Zarządzanie Badania marketingowe Wykład 6 Opracowanie: dr Joanna Krygier 1 Omówione zagadnienia Rodzaje badań bezpośrednich Porównanie

Bardziej szczegółowo

Badania marketingowe 2013_7. Krzysztof Cybulski Katedra Marketingu Wydział Zarządzania Uniwersytet Warszawski

Badania marketingowe 2013_7. Krzysztof Cybulski Katedra Marketingu Wydział Zarządzania Uniwersytet Warszawski Badania marketingowe 2013_7 Krzysztof Cybulski Katedra Marketingu Wydział Zarządzania Uniwersytet Warszawski Ramowy program konwersatorium 1. System informacji rynkowej i jego składowe 2. Istota oraz klasyfikacja

Bardziej szczegółowo

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22 Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach

Bardziej szczegółowo

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta KARTA MODUŁU / KARTA PRZEDMIOTU Z-0033z Statystyka Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Statistics Obowiązuje od roku akademickiego 2012/2013 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW

Bardziej szczegółowo

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak Redakcja i korekta Bogdan Baran Projekt graficzny okładki Katarzyna Juras Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2011 ISBN

Bardziej szczegółowo

Opis przedmiotu: Probabilistyka I

Opis przedmiotu: Probabilistyka I Opis : Probabilistyka I Kod Nazwa Wersja TR.SIK303 Probabilistyka I 2012/13 A. Usytuowanie w systemie studiów Poziom Kształcenia Stopień Rodzaj Kierunek studiów Profil studiów Specjalność Jednostka prowadząca

Bardziej szczegółowo

Metodologia badań psychologicznych

Metodologia badań psychologicznych Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Psychologia jako nauka empiryczna Wprowadzenie pojęć Wykład 5 Cele badań naukowych 1. Opis- (funkcja deskryptywna) procedura definiowania

Bardziej szczegółowo

STATYSTYKA EKONOMICZNA

STATYSTYKA EKONOMICZNA STATYSTYKA EKONOMICZNA Analiza statystyczna w ocenie działalności przedsiębiorstwa Opracowano na podstawie : E. Nowak, Metody statystyczne w analizie działalności przedsiębiorstwa, PWN, Warszawa 2001 Dr

Bardziej szczegółowo

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4 KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)

Bardziej szczegółowo

SPIS TREŚCI CZĘŚĆ I : PRZEZNACZENIE, PROCES I PODSTAWY METODOLOGICZNE BADAŃ MARKETINGOWYCH...17

SPIS TREŚCI CZĘŚĆ I : PRZEZNACZENIE, PROCES I PODSTAWY METODOLOGICZNE BADAŃ MARKETINGOWYCH...17 SPIS TREŚCI WSTĘP..13 CZĘŚĆ I : PRZEZNACZENIE, PROCES I PODSTAWY METODOLOGICZNE BADAŃ MARKETINGOWYCH...17 1. TREŚĆ, PRZEZNACZENIE I PROCES BADAŃ MARKETINGOWYCH....19 1.1. Dlaczego badania marketingowe

Bardziej szczegółowo

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2 Kierunek Turystyka i Rekreacja Poziom kształcenia II stopień Rok/Semestr 1/2 Typ przedmiotu (obowiązkowy/fakultatywny) obowiązkowy y/ ćwiczenia

Bardziej szczegółowo

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO Zał. nr 4 do ZW WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA STOSOWANA Nazwa w języku angielskim APPLIED STATISTICS Kierunek studiów (jeśli dotyczy): Specjalność

Bardziej szczegółowo

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane

Bardziej szczegółowo

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.

Bardziej szczegółowo

Badania marketingowe

Badania marketingowe Badania marketingowe Przegląd popularnych technik i ich zastosowania Uniwersytet Jagielloński Wydział Komunikacji Społecznej Studia dzienne Semestr zimowy 2015/2016 Jak zdobywać informacje, będące podstawą

Bardziej szczegółowo

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt Statystyka matematyczna dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt Zasady zaliczenia przedmiotu: część wykładowa Maksymalna liczba punktów do zdobycia 40. Egzamin będzie

Bardziej szczegółowo

Metody badań w naukach ekonomicznych

Metody badań w naukach ekonomicznych Metody badań w naukach ekonomicznych Tomasz Poskrobko Metodyka badań naukowych Metody badań ilościowe jakościowe eksperymentalne Metody badań ilościowe jakościowe eksperymentalne Metody ilościowe metody

Bardziej szczegółowo

Ewaluacja w nowym nadzorze pedagogicznym

Ewaluacja w nowym nadzorze pedagogicznym PROGRAM WZMOCNIENIA EFEKTYWNOŚCI SYSTEMU NADZORU PEDAGOGICZNEGO I OCENY JAKOŚCI PRACY SZKOŁY ETAP II Szkolenie realizowane przez: Ewaluacja w nowym nadzorze pedagogicznym Ewaluacja wewnętrzna w NNP Projekt

Bardziej szczegółowo

Porównywanie populacji

Porównywanie populacji 3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

Akademia Młodego Ekonomisty

Akademia Młodego Ekonomisty Akademia Młodego Ekonomisty Badania marketingowe Historia pieczonego schabu czyli skąd wiemy, czego pragną klienci Marek Kruk Uniwersytet w Białymstoku 14 maja 2015 r. Głodni? Sposoby rozpoznawania potrzeb,

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

przedmiot podstawowy obowiązkowy polski drugi

przedmiot podstawowy obowiązkowy polski drugi KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 07/08 IN--008 STATYSTYKA W INŻYNIERII ŚRODOWISKA Statistics in environmental engineering

Bardziej szczegółowo

BADANIE MARKETINGOWE

BADANIE MARKETINGOWE BADANIE MARKETINGOWE SIM System informacji marketingowej służy do zarządzania informacją marketingową. Są to trwałe, wzajemnie oddziałujące struktury ludzi, urządzeń i procedur do gromadzenia, sortowania,

Bardziej szczegółowo

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014 Krakowska Akademia im. Andrzeja Frycza Modrzewskiego Karta przedmiotu obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014 WydziałPrawa, Administracji i Stosunków Miedzynarodowych

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek: Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych I KARTA PRZEDMIOTU CEL PRZEDMIOTU Informatics systems for the statistical treatment of data Kierunek: Forma studiów Informatyka Stacjonarne

Bardziej szczegółowo

Niniejszy ebook jest własnością prywatną.

Niniejszy ebook jest własnością prywatną. Niniejszy ebook jest własnością prywatną. Niniejsza publikacja, ani żadna jej część, nie może być kopiowana, ani w jakikolwiek inny sposób reprodukowana, powielana, ani odczytywana w środkach publicznego

Bardziej szczegółowo

1 oznacza: Co za koszmar! Co ten przedmiot. 5 Ale fajnie! Na pewno nauczę się mnóstwo ZADANIE 1. Proszę określić swój poziom entuzjazmu w.

1 oznacza: Co za koszmar! Co ten przedmiot. 5 Ale fajnie! Na pewno nauczę się mnóstwo ZADANIE 1. Proszę określić swój poziom entuzjazmu w. ZADANIE 1 Proszę określić swój poziom entuzjazmu w stosunku do nauki STATYSTYKI w skali od 1 do 5, gdzie: 1 oznacza: Co za koszmar! Co ten przedmiot robi w programie moich studiów? (lub zbliżone) zaś 5

Bardziej szczegółowo

Proces badawczy schemat i zasady realizacji

Proces badawczy schemat i zasady realizacji Proces badawczy schemat i zasady realizacji Agata Górny Zaoczne Studia Doktoranckie z Ekonomii Warszawa, 14 grudnia 2014 Metodologia i metoda badawcza Metodologia Zadania metodologii Metodologia nauka

Bardziej szczegółowo

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu Kod przedmiotu TR.SIK303 Nazwa przedmiotu Probabilistyka I Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia I stopnia Forma i tryb prowadzenia studiów Stacjonarne

Bardziej szczegółowo

Niniejszy ebook jest własnością prywatną.

Niniejszy ebook jest własnością prywatną. Niniejszy ebook jest własnością prywatną. Niniejsza publikacja, ani żadna jej część, nie może być kopiowana, ani w jakikolwiek inny sposób reprodukowana, powielana, ani odczytywana w środkach publicznego

Bardziej szczegółowo

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 18 września 2017 1 Wprowadzenie 2 Pojęcia podstawowe 3 Szeregi rozdzielcze Zwykle wyróżnia się dwa podstawowe działy statystyki: statystyka

Bardziej szczegółowo

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej Kod przedmiotu TR.NIK304 Nazwa przedmiotu Probabilistyka I Wersja przedmiotu 2015/16 A. Usytuowanie przedmiotu w systemie studiów Poziom kształcenia Studia I stopnia Forma i tryb prowadzenia studiów Niestacjonarne

Bardziej szczegółowo

Przedmiotowe Zasady Oceniania III LO w Łomży. Statystyka. Klasa II-III

Przedmiotowe Zasady Oceniania III LO w Łomży. Statystyka. Klasa II-III Przedmiotowe Zasady Oceniania III LO w Łomży Klasa II-III Łomża, 2013-2015 2 Przedmiotowe Zasady Oceniania w III LO Łomży Ocenianie Pracę należy tak organizować, aby uczniowie, niezależnie od aktualnego

Bardziej szczegółowo

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013 0,KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013 A.

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Niniejszy ebook jest własnością prywatną.

Niniejszy ebook jest własnością prywatną. Niniejszy ebook jest własnością prywatną. Niniejsza publikacja, ani żadna jej część, nie może być kopiowana, ani w jakikolwiek inny sposób reprodukowana, powielana, ani odczytywana w środkach publicznego

Bardziej szczegółowo

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów

Bardziej szczegółowo

Wykład 3: Prezentacja danych statystycznych

Wykład 3: Prezentacja danych statystycznych Wykład 3: Prezentacja danych statystycznych Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych statystycznych (inne metody wybierzemy dla danych przekrojowych,

Bardziej szczegółowo

Data wydruku: Dla rocznika: 2015/2016. Opis przedmiotu

Data wydruku: Dla rocznika: 2015/2016. Opis przedmiotu Sylabus przedmiotu: Specjalność: Statystyka Wszystkie specjalności Data wydruku: 31.01.2016 Dla rocznika: 2015/2016 Kierunek: Wydział: Zarządzanie i inżynieria produkcji Inżynieryjno-Ekonomiczny Dane podstawowe

Bardziej szczegółowo

A N K I E T A. Zalety i wady ankiety. wielka możliwość nieszczerych odpowiedzi przy posyłaniu ankiet pocztą wiele z nich nie wraca

A N K I E T A. Zalety i wady ankiety. wielka możliwość nieszczerych odpowiedzi przy posyłaniu ankiet pocztą wiele z nich nie wraca A N K I E T A 1 Badania ankietowe stosuje się najczęściej w celu szybkiego przebadania bardzo licznych populacji. Jest to najbardziej oszczędny sposób zbierania danych. 2 Zalety i wady ankiety zalety wady

Bardziej szczegółowo

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013 KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013 A.

Bardziej szczegółowo

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne Nazwa modułu: Moduł B - Statystyka z elementami matematyki Rodzaj modułu/przedmiotu Wydział PUM Kierunek studiów Specjalność Poziom studiów Forma studiów

Bardziej szczegółowo

MATEMATYKA3 Mathematics3. Elektrotechnika. I stopień ogólnoakademicki. studia stacjonarne. Katedra Matematyki dr Zdzisław Piasta

MATEMATYKA3 Mathematics3. Elektrotechnika. I stopień ogólnoakademicki. studia stacjonarne. Katedra Matematyki dr Zdzisław Piasta KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/13 MATEMATYKA3 Mathematics3 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW Kierunek

Bardziej szczegółowo

Badania marketingowe

Badania marketingowe Wiesz już co chcesz osiągnąć w badaniu marketingowym i jak to (idealnie) zorganizować. Ale jakimi metodami? Skąd pewność, że będą efektywne? Ćwiczenie: jaką metodą zbadasz co koledzy/koleżanki na sali

Bardziej szczegółowo

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4 Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy

Bardziej szczegółowo

Metody statystyczne w pedagogice Kod przedmiotu

Metody statystyczne w pedagogice Kod przedmiotu Metody statystyczne w pedagogice - opis przedmiotu Informacje ogólne Nazwa przedmiotu Metody statystyczne w pedagogice Kod przedmiotu 05.9-WP-PEDD-MS-L_pNadGen0DXUI Wydział Kierunek Wydział Pedagogiki,

Bardziej szczegółowo