2006-03-07 Wykład. Wprowadzenie do systemu SAS (import i transformacje danych)



Podobne dokumenty
SAS Podstawowe informacje przed ćwiczeniem 1

Projekt ZSWS. Instrukcja uŝytkowania narzędzia SAP Business Explorer Analyzer. 1 Uruchamianie programu i raportu. Tytuł: Strona: 1 z 31

SQL (ang. Structured Query Language)

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

ZESTAW 1 SAS 4GL. Język stworzony na potrzeby przetwarzania dużych zbiorów danych. Składają się nań:

Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny Politechnika Śląska

Ćwiczenie zapytań języka bazy danych PostgreSQL

Przestrzenne bazy danych Podstawy języka SQL

Relacyjne bazy danych. Podstawy SQL

Leszek Stasiak Zastosowanie technologii LINQ w

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Diagnozy rozszerzonej

Bazy danych. Polecenia SQL

Wprowadzenie do projektowania i wykorzystania baz danych Relacje

Przedszkolaki Przygotowanie organizacyjne

Programowanie w języku Python. Grażyna Koba

Rozwiązanie. Uruchom program Access 2007.

Kadry Optivum, Płace Optivum

PRACA Z PLIKAMI I FOLDERAMI

Niestandardowa tabela częstości

WyŜsza Szkoła Zarządzania Ochroną Pracy MS EXCEL CZ.2

UMOWY INSTRUKCJA STANOWISKOWA

Lokalizacja jest to położenie geograficzne zajmowane przez aparat. Miejsce, w którym zainstalowane jest to urządzenie.

1 Obliczenia na danych

Przewodnik dla każdego po: Dla każdego coś miłego Microsoft Excel 2010

Relacyjne bazy danych. Podstawy SQL

Menu Plik w Edytorze symboli i Edytorze widoku aparatów

Wprowadzenie do MS Excel

Biblioteki publiczne

5.2. Pierwsze kroki z bazami danych

Temat: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Laboratorium nr 4. Temat: SQL część II. Polecenia DML

OBLICZENIA NA DANYCH

Wykorzystanie programów komputerowych do obliczeń matematycznych

MS Excel 2007 Kurs zaawansowany Obsługa baz danych. prowadzi: Dr inż. Tomasz Bartuś. Kraków:

Piotr Eichler SP2LQP

Modelowanie obiektowe - Ćw. 1.

Dlaczego stosujemy edytory tekstu?

Ćwiczenia 2 IBM DB2 Data Studio

Krótki kurs obsługi środowiska programistycznego Turbo Pascal z 12 Opracował Jan T. Biernat. Wstęp

Bazy danych kwerendy (moduł 5) 1. Przekopiuj na dysk F:\ bazę M5KW.mdb z dysku wskazanego przez prowadzącego

Bazy danych. dr inż. Arkadiusz Mirakowski

Instrukcja obsługi. Generatora CSV

Biblioteki publiczne

Generator pliku kart zbliżeniowych

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

Biblioteki publiczne

Ćwiczenie 1. Matlab podstawy (1) Matlab firmy MathWorks to uniwersalny pakiet do obliczeń naukowych i inżynierskich, analiz układów statycznych

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

Bash - wprowadzenie. Bash - wprowadzenie 1/39

Systemy baz danych Prowadzący: Adam Czyszczoń. Systemy baz danych. 1. Import bazy z MS Access do MS SQL Server 2012:

System Zdalnej Obsługi Certyfikatów Instrukcja użytkownika

Programy wykorzystywane do obliczeń

System imed24 Instrukcja Moduł Analizy i raporty

5.5. Wybieranie informacji z bazy

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Arkusza obserwacji

Uzupełnij pola tabeli zgodnie z przykładem poniżej,

Przykład rozwiązywania problemu w programie DSS1OPT

Autor: dr inż. Katarzyna Rudnik

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

PAKIETY STATYSTYCZNE

BAZY DANYCH Formularze i raporty

Odnawialne Źródła Energii I rok. Tutorial PostgreSQL

SKRYPTY. Zadanie: Wyznaczyć wartość wyrażenia arytmetycznego

Programowanie MSQL. show databases; - pokazanie jakie bazy danych są dostępne na koncie

Instalacja i obsługa aplikacji MAC Diagnoza EW

I. Program II. Opis głównych funkcji programu... 19

Kartoteki towarowe Ewa - Fakturowanie i magazyn

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Konspekt zajęć dotyczących kwerend

Program RMUA. Instrukcja konfiguracji i pracy w programie. (Wersja 2)

Przedmiot: Informatyka w inżynierii produkcji Forma: Laboratorium Temat: Zadanie 4. Instrukcja warunkowa.

Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny technologiczny Politechnika Śląska

Instrukcja importu dokumentów z programu Fakt do programu Płatnik

ACCESS ćwiczenia (zestaw 1)

Stosowanie, tworzenie i modyfikowanie stylów.

Przeglądanie, drukowanie i eksportowanie raportów.

Podstawowe funkcjonalności interfejsu. - co warto wiedzieć o interfejsie Mozart-a

Edytor tekstu OpenOffice Writer Podstawy

Jak przygotować pokaz album w Logomocji

Klawiatura. Klawisze specjalne. Klawisze specjalne. klawisze funkcyjne. Klawisze. klawisze numeryczne. sterowania kursorem. klawisze alfanumeryczne

Zastanawiałeś się może, dlaczego Twój współpracownik,

WINDOWS XP PRO WINDOWS XP PRO

Rozpoczynamy import Kreator uruchamiamy przyciskiem Z tekstu, znajdującym się na karcie Dane, w grupie Dane zewnętrzne.

Kostki OLAP i język MDX

Instalacja certyfikatu CCK NBP w przeglądarce Internet Explorer

EXCEL TABELE PRZESTAWNE

Wykład 5. SQL praca z tabelami 2

Praktyczne wykorzystanie arkusza kalkulacyjnego w pracy nauczyciela część 1

1 Raporty - wstęp. 1. Wstążka. 2. Podgląd listy raportów wraz z menu kontekstowym:

Symfonia Produkcja. Kreator raportów. Wersja 2013

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych

Autor: Joanna Karwowska

Dodawanie operacji dodatkowych w WAPRO Mag.

Tabele Przestawne Podstawy

1. Tworzenie tabeli. 2. Umieszczanie danych w tabeli

Po uruchomieniu programu nasza litera zostanie wyświetlona na ekranie

5.4. Tworzymy formularze

Europejski Certyfikat Umiejętności Komputerowych. Moduł 3 Przetwarzanie tekstów

Jak utworzyć plik SIO dla aktualnego spisu?

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

Transkrypt:

Metody statytystyczne w naukach biologicznych 1 Wykład. Wprowadzenie do systemu SAS (import i transformacje danych) SAS System Analiz Statystycznych SAS jest systemem służącym dostarczaniu informacji potrzebnej do podejmowania decyzji. Umożliwia dostęp do danych, pozwala na tworzenie raportów, różnorodnych analiz statystycznych. Ze względu na mnogość procedur SAS jest chyba najdoskonalszym narzędziem statystycznym dostępnym na rynku zwłaszcza, jeśli chodzi o zastosowania zootechnicznej. Przetwarzanie w SASie odbywa się przy pomocy procedur. Procedura jest to program przeznaczonym do wykonania konkretnego zadania. Procedury tworzone są za pomocą języku programowania 4GL-SAS. Język ten jest ukierunkowany na przetwarzanie informacji zapisanej w bazie danych. Po uruchomieniu SAS zobaczymy na ekranie ekran standardowo podzielony na trzy obszary: Explorer okno, które pozwala przeglądać nam istniejące bazy danych oraz wygenerowane rezultaty obliczeń. Log jest to okno raportów systemowych. Pojawiają się w nim komunikaty dotyczące funkcjonowania systemu, liczbie wczytanych danych, błędnych instrukcjach (komunikaty na czerwono), wykonaniu procedur. Program edytor okno, w którym wpisujemy kod programu i Wyniki okno, w którym będą wyświetlane wyniki obliczeń

Metody statytystyczne w naukach biologicznych 2 Przyciski funkcyjne: F3 zamyka bieżące okienko F4 gdy jesteśmy w okienku EDYTOR, następuje wyświetlenie ostatnio wykonywanych programów F5 okienko EDYTOR F6 okienko LOG F7 okienko WYNIKI F9 menu kontekstowe F11 okienko komend KILKA UWAG!!! procedury zapisujemy w okienku PROGRAM EDITOR. polecenia 4GL-SAS kończymy ; (średnikiem), w jednej linii może znajdować się jedno lub więcej poleceń, polecenie może być zapisane w jednej lub w kilku liniach, nie wolno dzielić wyrazów, polecenie może zaczynać się w dowolnej linii, nazwy bibliotek oraz plików należy ograniczać do 8 znaków, napisany program kończymy komunikatem run, a w niektórych przypadkach quit (procedury: reg, anova, sql). proc means data=ochrona.baza1 n mean std cv; class grupa; var cecha1 cecha2 cecha3; proc means data=ochrona.baza1 n mean std cv; class grupa; var cecha1 cecha2 cecha3; Zarówno jeden, jaki i drugi zapis da identyczny efekt. BIBLIOTEKI (Libref) W SAS e dane w tabelach, a te z kolei przechowywane są w tzw. Bibliotekach. Biblioteka odpowiada pojedynczemu folderu lub grupie folderów. W SAS ie Biblioteki deklarujemy, tzn. podajemy jej nazwę oraz adres fizyczny. Deklarowanie Biblioteki to pierwsza czynność, jaką należy wykonać po uruchomieniu systemu. Standardowo tworzona jest biblioteka work, gdzie mogą być przechowywane dane na czas pracy z SAS, później jest automatycznie czyszczona. Składnia: libname ochrona 'd:\dane\ochrona'; Fizyczną lokalizację biblioteki koniecznie należy ująć pomiędzy symbol apostrof ''. Symbol apostrof znajduje się pod tym samym klawiszem co cudzysłów!!! W celu realizacji tej procedury naciskamy przycisk funkcyjny F8 Alternatywnym rozwiązaniem jest kliknięcie na symbol: w pasku narzędziowym.

Metody statytystyczne w naukach biologicznych 3 Nazwa tabeli uzależniona jest częściowo od biblioteki, w której jest ona przechowywana. Składa się ona z dwóch części., np. ochrona.baza1. Pierwsza to nazwa biblioteki, druga jest nazwą właściwą tabeli. Właściwa nazwa tabeli (baza1) jest zintegrowana z zawartością tabeli i dlatego nie wolno zmieniać nazw tabel SAS w systemie operacyjnym bez odpowiednich procedur SAS. Nazwy tabel zapisanych w bibliotece Work nie są poprzedzone nazwą biblioteki, tzn. nie zapisujemy ich jako: work.baza1, lecz krótko: baza1. Pliki zawierające tabele SASa posiadają rozszerzenia: sas7bdat. Deklarowanie biblioteki można wykonać klikając prawym przyciskiem myszki w oknie EKSPLORATOR, a następnie już lewym przyciskiem na polecenie NOWA. Import plików z Excela do SAS. Co zrobić, jeżeli zbiór z danym przygotowany jest w Excelu? Zachodzi potrzeba dokonania importu, czyli konwersji danych. Wskazane jest wtedy zapisanie danych w Excelu jako ASCII Tekst (rozdzielany znakami tabulacji).txt Składnia: data biblioteka.nazwa; /*np. krowy.nazwisko*/ infile ' volumin\katalog\podkatalog\nazwa_pliku.txt'; input cecha1 cecha2 $ cecha3... cecha_n; Wyjaśnienie: Komentarz dotyczący poszczególnych procedur został zapisany w następujący sposób: /* Komentarz */ - jest to sposób stosowany w SASie. data to nazwa nowo założonego zbioru infile wskazuje, gdzie fizycznie zlokalizowany jest nasz zbiór

Metody statytystyczne w naukach biologicznych 4 input określamy nazwy zmiennych, run - wykonaj $ - piszemy wtedy, gdy zmienna ma charakter tekstowy Inny sposób IMPORTU (Plik=>Importuj) polega na przejściu kilku kroków przez kreatora importu (zalecany dla początkujących użytkowników): 1. 2. 3. 4. Komentarz Jeżeli chcemy zakomentować fragment tekstu, to zaznaczamy go i klikamy kombinację klawiszy ctrl-/. Zdjęcie komentarza to kombinacja shift-ctrl-/.

Metody statytystyczne w naukach biologicznych 5 Alternatywnym rozwiązaniem jest wprowadznie następującego zapisu: /* Zakomentowane polecenia */ Tworzymy tabelę z poziomu EDYTORA data probs; input nr $ cecha1 cecha2; cards; 22 3 4 23 2 3; Wyświetlenie informacji o tabeli proc contents data=ochrona.baza1; Procedura pozwalająca wyświetlić w okienku LOG nazwy zmiennych z bazy BIBLIOTEKA.TABELA proc sql noprint; select name into :zmienne separated by ' ' from dictionary.columns where libname='biblioteka' and memname='tabela'; %put &zmienne; Wprowadzanie danych do nowej tabeli w oknie arkusza. tworzenie nowych tabel: W założonej bibliotece, klikamy prawym przyciskiem myszy, następnie Nowy, następnie wskazujemy Tabela i OK.

Metody statytystyczne w naukach biologicznych 6 Generowanie nowych zmiennych data lib.zmieniony; set lib.zrodlowy ; nowa=zmienna1/zmienna2*100; set lib.zrodlowy; polecenie set wskazuje w jakim pliku znajdują się zmienne poddawane transformacji data lib.zmieniony; po data wpisujemy nazwę pliku, który powstanie po wykreowaniu nowych zmiennych. Jeżeli nie chcemy tworzyć nowego pliku, nazwy obydwu plików mogą być takie same.

Metody statytystyczne w naukach biologicznych 7 Procedura pozwalająca utworzyć nową zmienną data ochrona.baza1; set ochrona.baza1; mieswyc=month(dat_wyc); rokkod=2001; Procedura wykorzystująca funkcję if. Jeżeli warunek odwołuje się do zmiennej typu character, to jej wartość musi być zawarta pomiędzy znakami cudzysłów. data polmor.geny; set polmor.geny; if gen="mp" then kodgen=1;else kodgen=2; Drukowanie zawartości tabeli na ekranie: Procedura print powoduje wyświetlenie na ekranie wskazanej tabeli. proc print data=lib.tabela; proc print data=lib.tabela(obs=10); W drugim przypadku na ekranie zostanie wyświetlonych 10 pierwszych rekordów z danymi. Podobnie jak w Excelu, w SAS możemy wykorzystywać różnorodne mechanizmy obliczeniowe zwane funkcjami, ich liczba przyprawia o zawrót głowy :). Ich syntaktyka wygląda następująco: nazwa_funkcji(argument1,argument2..); Przykłady funkcji: Numeryczne: ceil() zaokrąglenie do najbliższej liczby całkowitej int() część całkowita liczby round(b,0.01) zaokrąglenie liczby z podaną dokładnością Funkcje liczące proste statystyki: sum() suma wartości mean() średnia arytmetyczna min(), max() wartość minimalna, maksymalna std() odchylenie standardowe log() logarytm naturalny log10() logarytm dziesiętny sqrt() pierwiastek kwadratowy z liczby aby podnieść liczbę do potęgi używamy zapisu: liczba**potęga, np. 12**3

Metody statytystyczne w naukach biologicznych 8 Funkcje operujące na datach: Jak pisać daty? - 01JAN1968 data funkjeczas; databiez=mdy(1,1,1968);/* - podaje datę SAS*/ dzien =day('1jan1968'd);/* - podaje dzień miesiąca*/ obec_dat=date();/*bieżąca data*/ obec_czas=time(); /*podaje bieżący czas*/ dzie_tyg=weekday('1jan1968'd);/*podaje dzień tygodnia*/ miesiac=month('1jan1968'd); /*podaje miesiąc (1-12)*/ rok=year('1jan1968'd); /*podaje rok)*/ /*intck - funkcja pozwalająca obliczyć odstęp między dwiema datami)*/ odst_dni =intck('day', '1JAN1968'D,'6MAR2004'D); odst_tyg =intck('week', '1JAN1968'D,'6MAR2004'D); odst_mie =intck('month','1jan1968'd,'6mar2004'd); odst_lat =intck('year', '1JAN1968'D,'6MAR2004'D); Funkcje na tekstach compbl() wycina puste miejsca ze zmiennej compress() upcase() zamiana liter w tekście na duże lowcase() zamiana liter w tekście na małe zapis ten pozwala połączyć dwie zmienne w nową np cecha3=cecha1 cecha2 Funkcje umożliwiające konwersję danych input() zamiana tekstu na liczbę, np. input(wiek,best12.) put() zamiana liczby na tekst Operatory służące do porównania: = EQ Równa się ^= lub ~= NE Nie równa się > GT Większe niż < LT Mniejsze niż >= GE Większe lub równe <= LE Mniejsze lub równe też tak można: between '01jun2001'D and '31may2002'D

Metody statytystyczne w naukach biologicznych 9 Przykłady na tworzenie nowych zmiennych data stat.krowy; set stat.krowy; kgtl=t*mlkg/100; kgb =b*mlkg/100; FCM=0.4*mlkg+15*kgtl; Procedura kodująca sezon wycielenia data stat.krowy;set stat.krowy; if (mieswyc=1 or mieswyc=2 or mieswyc=12) then sezon="z"; else if (mieswyc=3 or mieswyc=4 or mieswyc=5) then sezon="w"; else if (mieswyc=6 or mieswyc=7 or mieswyc=8) then sezon="l"; else if (mieswyc=9 or mieswyc=10 or mieswyc=11)then sezon="j"; a może tak? data stat.krowy; set stat.krowy; if month(datwyc)=(1 or 2 or 12) then sezon= zima ; else if month(datwyc)=(3 or 4 or 5) then sezon= wiosna ; else if month(datwyc)=(6 or 7 or 8) then sezon= lato ; sezon= jesien ; data stat.krowy; set stat.krowy; if month(datwyc) IN (1,2,12) then sezon= zima ; else if month(datwyc) IN (3,4, 5) then sezon= wiosna ; else if month(datwyc) IN (6,7, 8) then sezon= lato ; else sezon= jesien ; Język SQL Procedura pozwalająca wybrać z istniejącej tabeli określone kolumny oraz wskazane rekordy i utworzyć nową tabelę create table stat.wybor as select zmienna1, zmienna2, zmienna3 from stat.krowy where mleko GE 20; stawianie warunków, przykłady: where cecha in (2,3,4); where cecha like ' k; Procedura pozwalająca wybrać z istniejącej tabeli określone kolumny i zapisać je pod inną nazwą create table m2 as select krowa, stara1 as nowa1,stara2 as nowa2 from lib.m1; Procedura pozwalająca wybrać z istniejącej tabeli określone kolumny, wykonać określone obliczenia na podzbiorach, zapisać je pod inną nazwą. Distinct powoduje, iż w nowym zbiorze każda krowa wystąpi tylko jeden raz, dla każdego zwierzęcia z osobna zostanie obliczona liczebność, wartość minimalna i maksymalna zmiennej dim.

Metody statytystyczne w naukach biologicznych 10 create table stat.raport as select distinct(krowa), count(krowa) as n_prob, min(dim) as mindim, max(dim) as maxdim from stat.krowy group by krowa; Procedura wyświetlająca liczbę rekordów w bazie select count(*) from stat.krowy; Procedura pozwalająca na usuniecie wybranych kolumn alter table stat.krowy drop cecha1, cecha2; lub data stat.krowy; set stat.krowy; drop kod obora; Procedura pozwalająca na usuniecie wybranych rekordów delete from lib.baza where krowy ="";, tj. takich w tym przypadku, gdzie w kolumnie krowy rekordy będą puste w tym przypadku numer krowy jest zmienną tekstową ( )!!! Procedura usuwająca ze zbioru te rekordy, gdzie brakuje numeru krowy data bydlo.krowy; set bydlo.krowy; if krowa=. then delete; w tym przypadku numer krowy jest zmienną numeryczną (.)!!!! Procedura, która pozostawi w nowej tabeli kolumny ze starej wskazane komendą keep data krowy.nowa; set krowy.stara; where lakt =1; keep krowa, lakt as kodlakt; Zmiana nazwy cech data stat.krowy; set stat.krowy; rename old-name1 = new-name1 old-name2 = new-name2; Usuwanie tabeli drop table wynik;