Przewodnicz cy Komitetu Redakcyjnego prof. dr hab. Waldemar Uchman Redaktor Dzia u prof. dr hab. Jacek Wójtowski Recenzent dr hab. Zofia Hanusz, prof. Uniwersytetu Przyrodniczego w Lublinie Copyright by Wydawnictwo Uniwersytetu Przyrodniczego w Poznaniu Pozna 2011, Poland Utwór w ca o ci ani we fragmentach nie mo e by powielany ani rozpowszechniany za pomoc urz dze elektronicznych, kopiuj cych, nagrywaj cych i innych bez pisemnej zgody posiadacza praw autorskich ISBN 978-83-7160-619-9 Redakcja Ewa Strycka Opracowanie komputerowe i projekt ok adki Exemplum WYDAWNICTWO UNIWERSYTETU PRZYRODNICZEGO W POZNANIU ul. Witosa 45, 61-693 Pozna tel./fax 61 848 78 08, e-mail: wydawnictwo@up.poznan.pl http://www.wydawnictwo.up-poznan.net Wydanie I. Ark. wyd. 7,4. Ark. druk. 6,3. Druk w Zak adzie Graficznym Uniwersytetu Przyrodniczego w Poznaniu ul. Wojska Polskiego 67, 60-625 Pozna e-mail: zakgraf@up.poznan.pl
SPIS TRE CI Wst p... 5 1. Przygotowanie danych... 7 Zasady przygotowania danych... 7 Rodzaje zmiennych... 7 Zasady nazywania zmiennych... 8 Uruchamianie programu w rodowisku Windows... 8 Problem z uruchamianiem... 8 Uk ad programu SAS... 9 Wprowadzanie danych do systemu SAS... 9 Wprowadzanie danych z klawiatury... 10 Wy wietlanie wczytanych danych... 10 Wprowadzanie danych z pliku tekstowego... 11 Biblioteki... 12 Import danych z arkusza kalkulacyjnego Excel... 12 Brakuj ce obserwacje... 13 Przydatne informacje... 13 W razie problemów... 14 Zadania... 14 2. Zaawansowane wprowadzanie danych... 15 Importowanie danych do systemu SAS... 15 Formaty wprowadzania danych (informants)... 15 Tymczasowe i sta e bazy danych SAS... 18 Eksport danych do plików tekstowych... 18 Opcje przydatne przy wczytywaniu plików tekstowych... 19 Wprowadzanie danych z ró nymi typami separatorów pól... 23 Zadania... 24 3. Podstawowe statystyki i badanie rozk adów... 27 Miary po o enia i rozrzutu... 27 Sortowanie... 28 Opcje przydatne przy d ugich wydrukach... 29 Przedzia y ufno ci dla redniej... 30 Tablica kontyngnencji... 30 Rozk ad empiryczny... 32 Zgodno rozk adów... 34 Eksport statystyk... 35 Zadania... 35 4. Testy parametryczne... 37 Wprowadzenie... 37 Test istotno ci dla redniej... 37 Interpretacja istotno ci statystyki... 38 Test istotno ci dla par rednich... 40 Test Bartletta... 41 Analiza wariancji... 41 Porównania wielokrotne... 42 Test NIR... 43 Test Bonferroniego... 44
Test Tukeya... 45 Test Duncana... 46 Kontrasty... 46 Model analizy wariancji... 47 Prezentacja wyników... 47 Wieloczynnikowa analiza wariancji... 48 Zadania... 48 5. Testy nieparametryczne... 49 Sign Test... 49 Signed Rank Test... 51 Wilcoxon Rank Sum Test (Mann Whitney Test)... 53 Kruskal-Wallis Test... 55 Test Kolmogorova-Smirnova... 57 Zadania... 59 6. Analiza dwóch zmiennych... 61 Korelacja liniowa... 61 Regresja... 62 Prosta regresji... 64 Analiza kowariancji... 65 Zadania... 66 7. Praca w rodowisku graficznym SAS Enterprise Guide 4.2... 67 Uruchamianie rodowiska graficznego... 67 Etapy wprowadzania danych... 68 Podgl d kodu... 70 Okre lanie parametrów rozk adu... 72 Kwartyle... 73 Przedzia ufno ci dla redniej... 74 Histogram i wykres pude kowy... 74 Cz sto ci wyst powania warto ci zmiennych (PROC FREQ)... 74 Tablica kontyngencji... 75 Rozk ad empiryczny... 77 Analiza rozk adu (PROC UNIVARIATE)... 78 Test istotno ci redniej... 80 Test istotno ci dla pary rednich... 81 Analiza wariancji... 82 Test Bartletta... 83 Szczegó owe testy w analizie wariancji Duncana, Tukeya, Bonferroniego i Fishera... 84 Testy nieparametryczne... 86 Korelacja... 88 Regresja liniowa... 90 8. Zadania do samodzielnego wykonania... 91 Literatura... 93 Dokumentacja SAS... 93 Podr czniki i skrypty... 93 Dodatki... 95 Schemat przebiegu analizy statystycznej... 95 Praktyczne uwagi i wskazówki... 95 Minis owniczek... 96 Kody podstawowych procedur... 96 Schemat wybory testu statystycznego brak rozk adu normalnego... 100 Schemat wybory testu statystycznego rozk ad normalny... 101
WST P Skrypt Warsztaty statystyczne SAS. Materia y do zaj napisano dla osób chc cych przeprowadzi analiz statystyczn. Mo e on by niezast piony podczas opracowywania wyników projektów badawczych oraz w przygotowywaniu pracy magisterskiej czy doktorskiej. Skrypt, mimo e powsta z my l o doktorantach Wydzia u Hodowli i Biologii Zwierz t Uniwersytetu Przyrodniczego w Poznaniu, jest adresowany do szerokiego grona odbiorców. Nale y zaznaczy, e nie ma on pe ni funkcji podr cznika statystyki, a jedynie jego praktycznego uzupe nienia. Opracowanie zawiera kilka bloków tematycznych. Pierwsze dwa rozdzia y wyja niaj specyfik rodowiska SAS oraz sposoby wprowadzania danych, które zostan poddane analizie w kolejnych rozdzia ach. Nast pnie przedstawiono podstawowe klasyczne testy parametryczne, z analiz wariancji w cznie. W kolejnym rozdziale omówiono testy nieparametryczne, bardzo cz sto wykorzystywane w praktyce, gdy nie s spe nione za o enia testów parametrycznych (np. odst pstwa od rozk adu normalnego). Jeden z rozdzia ów zosta po wi cony analizie danych binominalnych za pomoc testu wska nika struktury i testu chi-kwadrat. Testy te mog by szczególnie u yteczne podczas analizy danych z ankiet oraz danych z eksperymentów. Poza tym przedstawiono analiz zale no ci mi dzy dwoma zmiennymi za pomoc regresji liniowej oraz korelacji. W pocz tkowych rozdzia ach przedstawiono tradycyjne metody przeprowadzania analizy statystycznej za pomoc tekstowo wprowadzanych komend. W osobnym rozdziale zosta a omówiona analiza w trybie interaktywnym. Pozwala ona na wykonanie oblicze statystycznych przy u yciu interfejsu graficznego. Dodatkowo w skrypcie umieszczono indeks stosowanych procedur i s owniczek, co stanowi unikatowy walor dla tego typu opracowania. Autorzy du y nacisk po o yli na aspekty praktyczne, w zwi zku z tym skrypt zawiera liczne przyk ady i zadania wraz z danymi do analizy. Dzi ki temu czytelnik mo e nie tylko prze ledzi przebieg analizy w podr czniku, ale równie wykona j samodzielnie i porówna wyniki. Wa n zalet skryptu jest fakt, e jest to kompilacja wielu komend i procedur, przygotowana pod k tem praktycznego wykorzystania na zaj ciach oraz podczas samodzielnego opracowywania wyników bada. Wykorzystane przyk ady cz sto opieraj si na wynikach rzeczywistych eksperymentów. Pliki z danymi wykorzystanymi w materia ach mo na pobra ze strony http://jay.up.poznan.pl/~strabel/dydaktyka/skrypt-sas. Mimo e opracowanie powsta o na bazie przez wiele lat doskonalonych materia ów, autorzy zdaj sobie spraw, i mo e ono wymaga dalszego doskonalenia czy rozbudowy. Z tego wzgl du pomocne b d wszelkie krytyczne uwagi i propozycje modyfikacji, które mog zosta wykorzystane w ewentualnych kolejnych wydaniach skryptu. Prosimy kierowa je na adres: strabel@jay.up.poznan.pl lub smucha@jay.up.poznan.pl.
1. PRZYGOTOWANIE DANYCH Podstawowe informacje o zmiennych i pracy w rodowisku SAS # Wczytywanie danych z ró nych róde (Exel, plik tekstowy, kod programu) # Organizacja danych w systemie, w tym biblioteki # Sposób oznaczania brakuj cych informacji # Przegl danie zaimportowanych danych # Cenne porady w rozwi zywaniu najcz ciej pojawiaj cych si problemów u pocz tkuj cych u ytkowników systemu Zasady przygotowania danych Organizacja i przygotowanie danych to najcz ciej najd u ej wykonywana czynno podczas przeprowadzania analiz statystycznych. W a ciwie przeprowadzona edycja danych to pierwszy krok do stosowania testów. W praktyce zwykle ka da obserwacja, któr chcemy podda analizie, musi by dok adnie opisana i umieszczona w osobnym rekordzie. Je li na jednej jednostce do wiadczalnej dokonali my w tym samym czasie pomiaru wielu cech, to zwykle mo na umie ci je obok siebie. Rodzaje zmiennych Przed przyst pieniem do przygotowania danych warto sobie u wiadomi, e w systemie SAS wyst puj trzy typy zmiennych: liczbowe rzeczywiste liczbowe ca kowite tekstowe. Jak wskazuj nazwy, w zmiennych liczbowych typu rzeczywistego umieszcza b dziemy obserwacje typu: d ugo, masa itp. Zwykle s w nich zawarte cechy, które chcemy podda analizie. Zmienne liczbowe typu ca kowitego to równie mog by interesuj ce nas cechy (np. liczba owoców czy rodze stwa), ale tak e mo na umie ci w nich opis typu: rok kalendarzowy zebrania informacji, numer grupy do wiadczalnej. Zmienne tekstowe najcz ciej wykorzystuje si do opisu obserwacji, mog to by nazwiska, numery identyfikacyjne (zawieraj ce litery), dni tygodnia itp. 7
Uwaga: w liczbach rzeczywistych do rozdzielania cz ci dziesi tnej u ywa si kropki:. lub przecinka:,. Musi istnie zgodno mi dzy tym, jaka zasada obowi zuje w systemie, a tym, jak przygotowane s dane. W Polsce standardem jest stosowanie przecinka. Te materia y zak adaj jednak, e symbolem dziesi tnym jest kropka. Mo na to ustawi w komputerze: Start Ustawienia Panel sterowania Opcje regionalne i j zykowe Opcje regionalne (zak adka) Dostosuj Symbol dziesi tny Wybierz. i kliknij dostosuj. Zasady nazywania zmiennych Z wielu wzgl dów nazwy powinny by : informatywne nie za krótkie (np. se) nie za d ugie (sezon_wycielenia_krowy) pozbawione polskich znaków ( ód ) bezwzgl dnie pozbawione spacji pozbawione znaków specjalnych:! @ # $ % ^ & * ( ) _ < >? /., } { [ ] ~ Przyk ad: zamiast województwo wielkop. : wlkp. PRZYK AD 1 Informacja Wydajno mleka procent t uszczu dzie laktacji sezon stado zwierz Wygodna nazwa zmiennej ML TL dim sezon stado anim Uruchamianie programu w rodowisku Windows Start Programy SAS SAS 9.1 Start Uruchom wpisa : sas i nacisn klawisz enter Problem z uruchamianiem Najcz stszy problem zwi zany z uruchamianiem wynika z wyga ni cia licencji. W a ciciel praw do uruchamiania programu zwykle co roku musi odnawia licencj. SAS Polska przekazuje Setinit lub SID, tj. zakodowan informacj tekstow, pozwalaj c na uruchamianie programu do okre lonego czasu. Nale y j dostarczy do komputera w postaci pliku, a nast pnie uruchomi : 8
Start Programy SAS SAS 9.1 Utilities Odnów programy SASowe i wskaza lokalizacj pliku z Setinitem oraz potwierdzi zawart w nim informacj. Nale y zwróci uwag na zgodno wersji zainstalowanego w komputerze programu i Setinitu. Uk ad programu SAS Podstawowy zestaw okien, w których prowadzi si analiz, sk ada si z trzech elementów. Edytor (program) F5 Tu przygotowuje si instrukcje dla programu (zadania). Log F6 Tu pojawiaj si sprawozdania z wykonania zada. Wynik (output) F7 Tu pojawiaj si wyniki. W ramkach podano oznaczenie klawisza funkcyjnego, który uaktywnia dane okno. Uruchamianie programu nast puje przez wybranie klawisza F8 Wprowadzanie danych do systemu SAS Dane do systemu mo na dostarczy na kilka sposobów. Do podstawowych nale trzy: 1. z klawiatury w kodzie programu 2. przez wczytanie z pliku tekstowego 3. przez import z pojedynczego arkusza programu Excel. Dane umieszczone w programie Pobranie z pliku tekstowego System SAS Import z arkusza Excel Rys 1. Import danych do systemu SAS 9
Wprowadzanie danych z klawiatury PRZYK AD 2 Badano wp yw ró nej postaci nasion rzepaku na poziom lotnych kwasów t uszczowych (LKT) w waczu owiec. W czasie trwania do wiadczenia 5 owiec otrzyma o ca e nasiona rzepaku (I grupa), a 4 owce otrzymywa y rutowane nasiona rzepaku (II grupa). Zaobserwowano nast puj ce poziomy LKT: I grupa 4,5 5 7 5 4,5 II grupa 7 6 5,5 6 Sprawd, czy posta nasion rzepaku ma wp yw na poziom LKT Wprowadzamy dane do systemu SAS Program: data kwasy; input grupa $ lkt; datalines; cale 4.5 cale 5 cale 7 cale 7 cale 5 cale 4.5 srut 7 srut 6 srut 5.5 srut 6 ; run; Kod programu umo liwiaj cego utworzenie zbioru danych zaczyna si od instrukcji data; kwasy to nazwa tworzonego zbioru, instrukcja input umo liwia deklaracj zmiennych; znak $ za nazw zmiennej oznacza, e jest to zmienna typu tekstowego. SAS domy lnie przyjmuje, e nieoznaczone tym symbolem zmienne, to zmienne liczbowe. Instrukcja datalines oznacza, e za ni podane s obserwacje. Nale y zwróci uwag na znak ; umieszczony na ko cu ka dej instrukcji i ci gu obserwacji. Instrukcja run zwykle ko czy sk adni programu. Po wys aniu zadania warto sprawdzi przebieg jego wykonania w oknie Log. Pami taj: ka da instrukcja programu SAS musi ko czy si rednikiem! Wy wietlanie wczytanych danych Program: proc print data=kwasy; run; 10
Po poprawnym wykonaniu instrukcji uzyskamy nast puj cy efekt na ekranie W celu wylistowania obserwacji zastosowano procedur print; za ni okre lono zbiór, który ma by wylistowany. Pomini cie nazwy zbioru oznacza oby dla systemu SAS, e instrukcje ma wykona na ostatnio u ywanym zbiorze. Nie jest dobrym nawykiem wykorzystywanie tej mo liwo ci systemu, gdy przy wi kszych modyfikacjach rozbudowanych procedur mo e dochodzi do nieprzewidzianych problemów. Wprowadzanie danych z pliku tekstowego W pliku nasiona.txt zebrano wyniki zanieczyszczenia nasion u czterech dostawców: Wczytanie danych do SAS wymaga zastosowania instrukcji data i wskazania miejsca lokalizacji pliku. Tak jak wcze niej, musimy okre li, co znajduje si w pliku. Wy wietl wczytane dane. data dostawcy; infile "c:\doc\cwiczenia\warsztaty\nasiona.txt"; input dost zani; run; 11
Biblioteki Zbiory danych w SAS-ie s przechowywane w bibliotekach. Domy ln jest biblioteka work. Dane w niej umieszczane s przechowywane tylko w czasie sesji programu. Po opuszczeniu programu SAS dane te zostaj usuni te. Odwo anie do pliku znajduj cego si w okre lonej bibliotece odbywa si nast puj co: biblioteka.nazwa_danych Mo na pomija nazw biblioteki work. Tworzenie nowej biblioteki: 1. Utwórz katalog w systemie, gdzie chcesz przechowywa zbiory SAS. 2. Wydaj instrukcj tworz c bibliotek o wybranej nazwie we wskazanym katalogu. Program: libname mojedane "c:\tmp"; run; Sprawd w oknie Log, czy biblioteka zosta a utworzona. Je li operacja zako czy a si sukcesem, mo na umieszcza nowo tworzone dane w bibliotece mojedane. Import danych z arkusza kalkulacyjnego Excel W arkuszu zebrano informacje na temat polimorfizmu trzech fragmentów genu leptyny u badanych buhajów. Znana jest warto hodowlana tych buhajów dla wydajno ci mleka, t uszczu i bia ka. Plik nazywa si leptyna.xls. Import danych z Excela do SAS-a odbywa si nast puj co: Plik Importuj dane Skoroszyt odpowiedniej wersji Excela Dalej Wskazanie lokalizacji pliku z arkuszem OK Wybranie odpowiedniego arkusza w tym pliku np. Leptyna14 Wybranie biblioteki i nadanie nazwy, np. leptyna Wskazanie nazwy pliku do zachowania programu, np. c:\tmp\leptyna_prg.sas Koniec 12
Po wykonaniu powy szej komendy SAS tworzy nast puj cy program, np.: PROC IMPORT OUT= mojedane.leptyna DATAFILE= "C:\doc\cwiczenia\warsztaty\przyklad_3.xls" DBMS=EXCEL REPLACE; SHEET="LEPTYNA14$"; GETNAMES=YES; MIXED=NO; SCANTEXT=YES; USEDATE=YES; SCANTIME=YES; RUN; Zgodnie ze wskazaniem zosta on zapisany w pliku: c:\tmp\leptyna_prg.sas. Komputer SAS dane.txt dane.xls dane w programie wczytanie import Baza programu SAS Obszar na dysku, np. folder C:\tmp libname Biblioteka Systemu SAS Plik dane.dat zlokalizowany w zadeklarowanym wcze niej folderze Instrukcja data biblio.dane 1. Dane wczytywane do SAS-a domy lnie umieszczane s w bibliotece work, która jest likwidowana w momencie zamykania programu. 2. Pliki umieszczone w innych bibliotekach s zapisywane na dysku twardym. Ich przywo anie wymaga wcze niejszego zadeklarowania biblioteki. Rys. 2. Organizacja danych w systemie SAS a ich fizyczna lokalizacja Brakuj ce obserwacje Zdarza si, e w uk adach do wiadczalnych brakuje pewnych obserwacji. SAS domy lnie rozpoznaje takie brakuj ce obserwacje, gdy zakodujemy je jako kropk.. Przydatne informacje Zawarto ka dego okna mo na zapisa w pliku (menu File wywo ywane z okna lub po klikni ciu prawym przyciskiem myszy). Standardowo system nadaje takim plikom rozszerzenie sas. Pliki te maj format tekstowy i daj si ogl da przy pomocy prostych edytorów, np. Notatnik. 13
Wczytywanie programów do Program Edytora odbywa si z menu File tego okna lub po klikni ciu prawym przyciskiem myszy w tym oknie; dalej nale y wybra funkcj Open i wskaza plik z programem SAS w odpowiedniej lokalizacji. Pliki z danymi mo na ogl da przy pomocy Notatnika. Pliki z programami SAS maj rozszerzenie *.sas. W razie problemów Popraw program, analizuj c komunikat sytemu podany w oknie Log. Sprawd, czy zamkn e apostrofy. Sprawd, czy ka da komenda ko czy si rednikiem. Je li to nie pomog o: wy lij do wykonania komend 'quit;' i napisz program jeszcze raz. W ostateczno ci zamknij system SAS i uruchom go ponownie. Program SAS potrzebuje sekund do wykonania wi kszo ci operacji na takich ma ych zbiorach danych. Je li system przez d u szy czas nie odpowiada na twoje komendy, mo esz go zatrzyma : ctrl+alt+delete i zamkn zadanie. Ostatni desk ratunku mo e by przycisk Reset w obudowie komputera, cho bywa, e i on nie dzia a. Zadania 1. W badaniach fizjologii zwierz t domowych porównywano poziom 2 hormonów. U przebadanych zwierz t zanotowano nast puj ce poziomy hormonów: hormon A 180 165 190 165 170 170 175 hormon B 165 180 195 170 165 180 180 Przyjmij, e ostatnia obserwacja dla hormonu A z pewnych wzgl dów musia a zosta wycofana z analizy. 2. Wyniki analiz ywieniowych zebrano w pliku kukurydza.xls. Zawieraj one informacje na temat efektywnego rozk adu pewnego wska nika obserwowanego u kilku odmian kukurydzy. Obserwacje dotycz ce wska nika pobierano przy dwóch wersjach pewnej procedury, w której za o- ono dwie ró ne temperatury 50 i 100 C. Pobierz dane do programu SAS i zapami taj je na dysku. Uwaga: dane w arkuszu wymagaj przygotowania. 3. W pliku: udoje zapisano cz wyników kontroli u ytkowo ci krów mlecznych. Plik zawiera 10 tysi cy rekordów. Jego struktura jest nast puj ca: 1. nr zwierz cia 2. klasa wieku wycielenia zwierz cia 3. kalendarzowy rok u ytkowania 4. dzie laktacji 5. dzienna wydajno mleka w kilogramach 6. procentowa zawarto t uszczu 7. procentowa zawarto bia ka. Wczytaj plik do systemu przygotuj go do obróbki w programie SAS. 4. Przygotuj dane z w asnego eksperymentu i wprowad je do systemu SAS. Niech system zapami ta je w bibliotece sasdata. Wska miejsce lokalizacji biblioteki w bezpiecznym miejscu na dysku twardym twojego komputera lub na pendrajwie. 14