Statystyczne metody analizy danych



Podobne dokumenty
MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

W1. Wprowadzenie. Statystyka opisowa

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Próba własności i parametry

1 Podstawy rachunku prawdopodobieństwa

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Statystyka. Opisowa analiza zjawisk masowych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Pozyskiwanie wiedzy z danych

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Parametry statystyczne

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Opisowa analiza struktury zjawisk statystycznych

Wykład 5: Statystyki opisowe (część 2)

Inteligentna analiza danych

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka Matematyczna Anna Janicka

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Biostatystyka, # 1 /Weterynaria I/

Analiza statystyczna w naukach przyrodniczych

Miary statystyczne w badaniach pedagogicznych

Statystyka matematyczna i ekonometria

Laboratorium 3 - statystyka opisowa

Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.

Statystyka Opisowa WK Andrzej Pawlak. Intended Audience: PWR

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Statystyka w pracy badawczej nauczyciela

Wykład 5. Opis struktury zbiorowości. 1. Miary asymetrii.

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 1 i 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład 4: Statystyki opisowe (część 1)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Statystyczne metody analizy danych

Analiza struktury i przeciętnego poziomu cechy

Statystyka opisowa. Robert Pietrzykowski.

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Matematyka stosowana i metody numeryczne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Analiza zróżnicowania, asymetrii i koncentracji

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Przedmiot statystyki. Graficzne przedstawienie danych.

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Matematyka z el. statystyki, # 1 /Geodezja i kartografia II/

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Wprowadzenie

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Podstawowe pojęcia statystyczne

4.2. Statystyczne opracowanie zebranego materiału

Statystyka opisowa w wycenie nieruchomości Część I - wyznaczanie miar zbioru danych

Statystyka matematyczna dla leśników

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Statystyka matematyczna dla leśników

Komputerowa analiza danych doświadczalnych

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Transkrypt:

Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska

Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem danych w celu odkrycia prawidłowości występujących w zjawiskach masowych oraz wspomagania i podniesienia jakości procesu podejmowania decyzji. Dane (ang.data) to informacje, zazwyczaj numeryczne lub w postaci kategorii

Podstawowe pojęcia STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. BADANIE STATYSTYCZNE - ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej. ZBIOROWOŚĆ (POPULACJA) STATYSTYCZNA zbiór dowolnych elementów (osób, przedmiotów, faktów) podobnych pod względem określonych cech (ale nie identycznych) poddanych badaniu statystycznemu. JEDNOSTKA STATYSTYCZNA - składowe (elementy) zbiorowości (obiekty badania), które podlegają bezpośredniej obserwacji lub pomiarowi.

Typy statystyki Statystyka opisowa (ang. descriptive statistics) zajmuje się prezentacją danych w postaci tabel, diagramów i charakterystyk liczbowych. Statystyka matematyczna (ang. Mathematical lub inductive statistics) zajmuje się wnioskowaniem o własnościach populacji na podstawie własności próbki przy dopuszczeniu pewnego poziomu błędu, w oparciu o twierdzenia rachunku prawdopodobieństwa

n - oznaczenie liczby jednostek statystycznych w populacji ZBIOROWOŚĆ (POPULACJA) GENERALNA wszystkie elementy będące przedmiotem badania, co do których chcemy formułować wnioski ogólne. ZBIOROWOŚĆ PRÓBNA (PRÓBA) - podzbiór populacji generalnej; wyniki badań próby są uogólniane na zbiorowość generalną. Próba musi być reprezentatywna. Reprezentatywność zależy od: sposobu wyboru jednostek (celowy, losowy) oraz liczebności próby. n>30 - duża próba n 30 - mała próba

Populacja a próba Z oczywistych powodów nie jesteśmy w stanie opisać całej tej populacji. Musimy się zatem posłużyć podzbiorem populacji generalnej - pobraną wcześniej próbą. Na podstawie analizy tej próby będziemy jednak chcieli wyciągać wnioski na temat całej populacji. Aby to było możliwe należało na wstępie zadbać aby pobrana populacja w sposób możliwie reprezentatywny opisywała populację generalną.

Populacja a próba Do oceny i opisu populacji próby można posłużyć się samymi danymi ale jest to niewygodne. Z reguły badacz wykorzystuje różnorodne syntetyczne wskaźniki (statystyki) mające ilustrować badaną populację. Gdy opisujemy jakąś skończoną populację np. wzrost uczniów z klasy IIA (populacja generalna o skończonej liczbie elementów) mówimy o statystykach z populacji. W przypadku gdy opisujemy jedynie wycinek jakiejś większej, najczęściej niepoliczalnej populacji generalnej, mówimy o statystyce z próby.

Estymacja, estymator Chcemy zatem wyznaczyć wartość pewnej charakterystyki danych populacji na podstawie próby. Wyniki obliczane na próbie chcemy rozciągnąć na populację i wnioskować o populacji. Opisywana zależność nosi nazwę estymacji. Poszczególne statystyki obliczane z próby takie jak np. średnia arytmetyczna z próby jest więc tylko przybliżeniem wartości przeciętnej z populacji m. W związku z tym są nazywane estymatorami.

Rodzaje cech Cecha niemierzalna zwana też jakościową przyjmuje wartości nie będące liczbami (np. kolor, płeć, smakowitość) Cecha mierzalna zwana też ilościową przyjmuje pewne wartości liczbowe (np. długosc, wytrzymałosc, ciezar) Cecha (mierzalna) skokowa zwana też dyskretną nie przyjmuje wartości pośrednich (np. ilosc bakterii, ilosc pracowników, ilosc pasazerów). Cecha (mierzalna) ciągła przyjmuje wartości z pewnego przedziału liczbowego (np. wzrost, waga, czas obsługi)

Niech x 1, x 2,..., x n będą wartościami cechy X wszystkich elementów populacji albo próby. Są to tzw. dane statystyczne. Charakterystyki liczbowe (opisowe) są to liczby charakteryzujące rozkład cechy populacji. Charakterystyki liczbowe cechy X, podobnie jak parametry rozkładu zmiennej losowej, dzielimy na: Charakterystyki położenia (średnia, mediana, dominanta); Charakterystyki rozproszenia (wariancja, odchylenie standardowe, współczynnik zmienności, odchylenie przeciętne, rozstęp); Charakterystyki asymetrii (współczynnik asymetrii, wskaźnik asymetrii); Charakterystyki spłaszczenia (kurtoza).

Kategorie charakterystyk Charakterystyki położenia Charakterystyki rozproszenia Charakterystyki asymetrii Charakterystyki spłaszczenia

Interpretacja charakterystyk położenia Średnia arytmetyczna, mediana i dominanta są przykładami tzw. charakterystyk położenia, czyli wielkości informujących o przeciętnej wielkości cechy populacji. Wokół tych wielkości skupiają się na ogół wartości cechy populacji. Inaczej wyrażamy to mówiąc, że poznane charakterystyki są miarami tendencji centralnej wartości cechy populacji. Średnia arytmetyczna jest liczbą informującą o tym, jaką wartość cechy powinny mieć elementy populacji, gdyby wszystkie dane statystyczne były sobie równe i suma tych wartości byłaby taka sama (podział wielkości na n równych części). Mediana dzieli zbiór danych statystycznych na dwa równoliczne podzbiory: do jednego z nich należą dane mniejsze lub równe medianie, zaś do drugiego dane większe lub równe medianie. Dominanta jest najbardziej typową daną statystyczną.

Średnia arytmetyczna danych statystycznych

Mediana danych statystycznych

Jak określać przeciętny poziom cechy Częstość występowania Histogram

Podsumowanie jak określać przeciętny poziom cechy Średnia arytmetyczna - jeżeli rozkład jest symetryczny z jedną modą Mediana - jeżeli rozkład jest niesymetryczny z jedną modą Moda jeżeli rozkład jest wielomodalny, podając ją dla każdego obszaru zmienności

Średnia ważona Średnia ważona danych statystycznych z odnoszącymi się do ich nieujemnymi wagami, w 1, w 2,..., w n z których co najmniej jedna jest dodatnia, jest określona przez: W ten sposób dane którym przypisano większe wagi mają większy udział w określeniu średniej ważonej niż dane, którym przypisano mniejsze wagi. Jeśli wszystkie wagi są równe, wówczas średnia ważona jest równa średniej arytmetycznej.

średnia geometryczna Średnia geometryczna znajduje zastosowanie w badaniu średniego tempa zmian zjawisk, których rozwój jest przedstawiony w postaci szeregów dynamicznych, np. do uśredniania indeksów łańcuchowych (iloraz poziomu zjawiska w okresie badanym, do poziomu zjawiska w okresie poprzedzającym okres badany)

średnia harmoniczna średnia harmoniczna (dla danych statystycznych różnych od zera) jest odwrotnością średniej arytmetycznej odwrotności danych statystycznych. Średnią harmoniczną stosuje się w przypadku gdy wartości zmiennej podane są w jednostkach względnych (np. m/s, cm/osoba).

Charakterystyki rozproszenia Wariancja i odchylenie standardowe Współczynnik zmienności danych Rozstęp danych

Charakterystyki rozproszenia (dyspersji, zróżnicowania) Wariancja Średnia arytmetyczna kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej całego zbioru danych. Odchylenie standardowe wyznaczane jest jako pierwiastek z wariancji. Miara przeciętnego odchylenia wyników pomiarów od średniej; im większe jest odchylenie standardowe, tym bardziej rozproszone są dane.

Wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności (klasyczny) Wariancję (s 2 ) definiuje się jako średnią arytmetyczną kwadratów odchyleń wartości cechy od średniej arytmetycznej zbiorowości. Wariancja jest wielkością mianowaną w kwadracie miana badanej cechy i nie interpretujemy jej. Odchylenie standardowe (s) jest pierwiastkiem kwadratowym z wariancji. Jest ono wielkością mianowaną tak samo jak badana cecha. Odchylenie standardowe określa przeciętne zróżnicowanie badanej cechy od średniej arytmetycznej. Odchylenie przeciętne (d) jest średnią arytmetyczną bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej. Jest ono wielkością mianowaną tak samo jak badana cecha. Odchylenie przeciętne interpretujemy podobnie jak odchylenie standardowe. Współczynnik zmienności (klasyczny) (Vs lub Vd) jest to iloraz odchylenia standardowego (lub przeciętnego) przez średnia arytmetyczną.

Współczynnik zmienności i rozstęp Współczynnik zmienności: Rozstęp: gdzie: x min najmniejsza dana statystyczna, x max największa dana statystyczna.

Podsumowanie Wariancja, odchylenie standardowe, współczynnik zmienności i rozstęp są przykładami charakterystyk rozproszenia (zmienności, zróżnicowania). Każda z tych charakterystyk ma wartość równą zeru tylko w przypadku równych wszystkich danych statystycznych (nie ma wtedy zróżnicowania danych) i ma coraz większą wartość, gdy dane są bardziej zróżnicowane. Wariancja i odchylenie standardowe mierzą rozproszenie danych statystycznych od ich średniej arytmetycznej. Jeśli dane statystyczne są wyrażone w pewnych jednostkach, to wariancja jest wyrażona w tej jednostce do kwadratu. Tej niedogodności nie ma odchylenie standardowe. Współczynnik zmienności wyraża, jaki procent stanowi odchylenie standardowe względem wartości średniej arytmetycznej. Jest wielkością niemianowaną (bez jednostki). Nadaje się więc do porównywania zróżnicowania cech populacji wyrażonych w różnych jednostkach. Rozstęp wyraża długość najkrótszego przedziału, do którego należą wszystkie dane statystyczne.

Charakterystyki asymetrii Współczynnik asymetrii gdzie s jest odchyleniem standardowym, zaś licznik nazywa się momentem centralnym rzędu 3, Wskaźnik asymetrii gdzie x, d, s są odpowiednio średnią, dominantą i odchyleniem standardowym cechy X. Jest to tzw. klasyczny miernik asymetrii standaryzowany.

Charakterystyki spłaszczenia Miernik spłaszczenia Współczynnik spłaszczenia (kurtoza) Kurtoza jest miarą skupienia wokół średniej arytmetycznej, im większa jest jej wartość, tym bardziej wartości zmiennej koncentrują się wokół średniej miarą odniesienia jest rozkład normalny. Jeśli kurtoza jest ujemna, to rozkład jest bardziej spłaszczony od normalnego, jeśli dodatnia, to rozkład jest bardziej wysmukły niż normalny.

Jeśli a k i a s są równe 0, to rozkład cechy X jest symetryczny, jeśli są różne od zera, to rozkład jest asymetryczny, przy czym, jeśli są dodatnie, to asymetria rozkładu jest prawostronna, jeśli są ujemne, to asymetria jest lewostronna. Wartość bezwzględna współczynnika i wskaźnika asymetrii mierzy siłę asymetrii, im jest większa tym asymetria jest silniejsza. Współczynnik i wskaźnik asymetrii są jednostkami niemianowanymi, mogą więc służyć do porównywania asymetrii cech populacji wyrażonych w różnych jednostkach

Interpretacja asymetrii za pomocą wykresu szeregu rozdzielczego Jeśli wykres szeregu rozdzielczego cechy populacji jest symetryczny względem pewnej prostej prostopadłej do osi odciętych (prostej o równaniu postaci x = a), to cecha ta ma rozkład symetryczny - (średnia, mediana i dominanta są równe a). Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem żadnej prostej prostopadłej do osi odciętych i jego prawa część jest wydłużona, to cecha ta ma rozkład asymetryczny o asymetrii dodatniej, czyli prawostronnej. Jeśli wykres szeregu rozdzielczego cechy populacji nie jest symetryczny względem żadnej prostej prostopadłej do osi odciętych i jego lewa część jest wydłużona, to cecha ta ma rozkład asymetryczny o asymetrii ujemnej, czyli lewostronnej patrz.

Rozkłady różnią się między sobą kierunkiem i siła asymetrii (miary klasyczne): dla szeregów symetrycznych jeżeli asymetria prawostronna jeżeli asymetria lewostronna. Wskaźnik skośności - jest to wielkość bezwzględna wyrażona jako różnica między średnią arytmetyczną, a modalną.

Ocena rozproszenia na podstawie obserwacji diagramów Na rysunku pokazano dwa diagramy częstości (1) i (2). Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości. Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1). Diagram jest smuklejszy i wyższy. Większe rozproszenie wokół średniej występuje w zbiorowości (2). Diagram jest bardziej rozłożysty i niższy. Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2) s1 < s2

Miary pozycyjne Kwantyle - definiuje się jako wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek, części te pozostają do siebie w określonych proporcjach. Kwartyl pierwszy Q 1 dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q 1, a 75% równe bądź wyższe od tego kwartyla. Kwartyl drugi (mediana Me) dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa wartość środkowa. Kwartyl trzeci Q 3 dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q 3, a 25% równe bądź wyższe od tego kwartyla. Decyle np. decyl pierwszy oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostek wartości cechy równe lub większe od decyla pierwszego.

Środowisko R Odczyt danych z plików zewnętrznych

Środowisko R Odczyt danych z plików zewnętrznych

Sepal length Sepal width Petal length Petal width Species

Iris setosa

versicolor

virginica

Statystyka opisowa w środowisku R sapply( ) Funkcja ta dostarcza informacji typu: mean, sd, var, min, max, med, range, quantile.

Przykładowe analizy

Petal length

Interpretacja wyników Min = 1 Max = 6.9 Średnia = 3.75 Mediana = 4.35 Rozstęp = 5.9 Odchylenie standardowe = 1.76 Wariancja = 3.11 Kurtoza = -1.42 Skośność = -0.27 Asymetria lewostronna (ujemna), większość danych jest większa od wartości średniej. Gdy kurtoza jest ujemna -> rozkład jest bardziej spłaszczony od normalnego.