Sas 3 przygotowanie do laboratorium

Podobne dokumenty
SAS 4GL Podsumowanie.

SAS 4GL ODS, przykładowe procedury.

SAS Podstawowe informacje przed ćwiczeniem 1

Przetwarzanie danych. Biblioteka. Presentation title. Biblioteka:

Wprowadzenie do SAS. Jak zacząć? Enhanced Editor (1) Uruchamianie programu. Ćwiczenie 3. Definiowanie bibliotek

Wprowadzenie do Systemu SAS

PAKIETY STATYSTYCZNE

Przykład Rezygnacja z usług operatora

Wykład 5. SQL praca z tabelami 2

Wprowadzenie do Systemu SAS

Informatyka w selekcji - Wykªad 4

Tytuł: PRZETWARZANIE DANYCH W SAS Autor: Wioletta Grzenda, Aneta Ptak-Chmielewska, Karol Przanowski, Urszula Zwierz. Wstęp

1 Obliczenia na danych

SQL (ang. Structured Query Language)

PAKIETY STATYSTYCZNE

SAS Podstawowe informacje przed ćwiczeniem 2

Znaki globalne w Linuxie

INFORMATYKA W SELEKCJI

ZESTAW 1 SAS 4GL. Język stworzony na potrzeby przetwarzania dużych zbiorów danych. Składają się nań:

PAKIETY STATYSTYCZNE 5. SAS wprowadzenie - środowisko Windows

Tworzenie prostej etykiety i synchronizacja etykiet z wagą. AXIS Sp. z o.o. Kod produktu:

opisuje nazwy kolumn, wyrażenia arytmetyczne, funkcje nazwy tabel lub widoków warunek (wybieranie wierszy)

SIECI KOMPUTEROWE I BAZY DANYCH

OBLICZENIA NA DANYCH

PAKIETY STATYSTYCZNE

Schematy blokowe I. 1. Dostępne bloki: 2. Prosty program drukujący tekst.

Bazy danych. Polecenia SQL

1-1. Rys.1 Widok całego okna programu MonkeyPrezenter. 1. Opis programu MonkeyPrezenter.

Kreowanie i analizowanie eksperymentów pełnoczynnikowych w programie Minitab. Osoba kontaktowa: Katarzyna Kornicka Telefon:

- język zapytań służący do zapisywania wyrażeń relacji, modyfikacji relacji, tworzenia relacji

PAKIETY STATYSTYCZNE

Przykład powyżej pokazuje, że w zapytaniu można umieszczać funkcje zarówno zdefiniowane w ramach środowiska, jak również własne.

Aplikacje w środowisku Java

Instrukcje dla zawodników

Organizacja edytora danych

ANALIZA DANYCH W STATA 8.0 CZĘŚĆ II

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Tworzenie prostej etykiety i synchronizacja etykiet z wagą. AXIS Sp. z o.o. Kod produktu:

Przenoszenie, kopiowanie formuł

MATLAB - laboratorium nr 1 wektory i macierze

Has the heat wave frequency or intensity changed in Poland since 1950?

Napisy w PHP. Drukowanie napisów instrukcją echo

Bazy danych. Andrzej Łachwa, UJ, /15

Niestandardowa tabela częstości

Stałe, znaki, łańcuchy znaków, wejście i wyjście sformatowane

Algebra Boole a i jej zastosowania

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

ORACLE. System Zarządzania Bazą Danych Oracle. Oracle Advanced SQL

Wstęp 5 Rozdział 1. Podstawy relacyjnych baz danych 9

Programowanie w języku Python. Grażyna Koba

Widok Connections po utworzeniu połączenia. Obszar roboczy

Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski SYSTEMY SCADA

Programowanie w SQL procedury i funkcje. UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika

Programowanie strukturalne. Opis ogólny programu w Turbo Pascalu

Pomorski Czarodziej 2016 Zadania. Kategoria C

Pro-tumoral immune cell alterations in wild type and Shbdeficient mice in response to 4T1 breast carcinomas

Tablice, DataGridView

Robert Barański, AGH, KMIW Arrays and Clusters v1.0. Poniższy poradnik wprowadza do tworzenia oraz obsługi tablic i typów danych klastra.

Importowanie danych z Excela

Wykład 11: Analiza danych w tablicach dwudzielczych

SQL 4 Structured Query Lenguage

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

ĆWICZENIE Uruchomić Oracle Forms Builder. 2. Utworzyć nowy formularz (File->New->Form) 3. Nawiązać połączenie z bazą danych (file-connect).

Warsztaty dla nauczycieli

Autor: Joanna Karwowska

Programowanie w języku C++ Agnieszka Nowak Brzezińska Laboratorium nr 2

Autor: Joanna Karwowska

INFORMATYKA W SELEKCJI

LabVIEW PLATFORMA EDUKACYJNA Lekcja 6 LabVIEW i Arduino programy wykorzystujące wyświetlacz LCD, czujnik temperatury, PWM i diodę LED

Podstawowe zapytania SELECT (na jednej tabeli)

Paweł Rajba

Stosowanie indeksów ma swoje korzyści, ale bywa również kosztowne.

LCD (Liquid Crystal Display)

ZAJĘCIA 2. Przed rozpoczęciem zajęć należy wykonać instrukcje z poprzednich laboratoriów bądź z pliku zaj2_prep.sas. FILTROWANIE WIERSZY

Laboratorium nr 4. Temat: SQL część II. Polecenia DML

1 Podstawy c++ w pigułce.

D D L S Q L. Co to jest DDL SQL i jakie s jego ą podstawowe polecenia?

Struktura pliku wejściowego ipko biznes przelewy zagraniczne (MT103 / CSV)

Oracle PL/SQL. Paweł Rajba.

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI I INFORMATYKI INSTYTUT AUTOMATYKI I INFORMATYKI KIERUNEK AUTOMATYKA I ROBOTYKA STUDIA STACJONARNE I STOPNIA

Tablice (jedno i wielowymiarowe), łańcuchy znaków

Język HDL - VERILOG. (Syntetyzowalna warstwa języka) Hardware Description Language Krzysztof Jasiński PRUS PRUS

Yousuke Tamura Programmer Clinical Science Dep., R&D AstraZeneca K.K. 2005/11/30 1

Bazy danych kwerendy (moduł 5) 1. Przekopiuj na dysk F:\ bazę M5KW.mdb z dysku wskazanego przez prowadzącego

Zadanie nr 3: Sprawdzanie testu z arytmetyki

Krótka instrukcja opracowania danych w programie SciDAVis v. 1-D013-win

MS Visual Studio 2005 Team Suite - Performance Tool

Tworzenie stron internetowych z wykorzystaniem HTM5, JavaScript, CSS3 i jquery. Łukasz Bartczuk

Podstawy programowania w języku Visual Basic dla Aplikacji (VBA)

1. Wprowadzanie danych z klawiatury funkcja scanf

wagi cyfry pozycje

Laboratorium WDEC. Opis posługiwania się pakietem AMPL

Logika rozmyta typu 2

Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi.

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej. Laboratorium przyrządów wirtualnych. Ćwiczenie 3

Obliczenia iteracyjne

Definicje. Algorytm to:

Bazy Danych i Usługi Sieciowe

Transkrypt:

Sas 3 przygotowanie do laboratorium

PROC FORMAT; VALUE name range 1 = 'formatted text 1' range 2 = 'formatted text 2'... range n = 'formatted text n'; PROC FORMAT tworzy formaty, które można później przypisać do zmiennych w instrukcji FORMAT. name nazwa tworzonego formatu. Jeśli format dotyczy danych znakowych name musi się rozpoczynać od $. Nazwa nie może być dłuższa niż 32 znaki, nie może zaczynać się ani kończyć liczbą i nie może zawierać żadnych znaków specjalnych oprócz podkreślenia. Dodatkowo name nie może być nazwą żadnego istniejącego formatu. range wartość zmiennej do której zostanie przypisany tekst po prawej stronie znaku równości. Poniżej przedstawiono przykładowe wartości range: 'A' = 'Asia' 1, 3, 5, 7, 9 = 'Odd' 500000 HIGH = 'Not Affordable' 13 < 20 = 'Teenager' 0 < HIGH = 'Positive Non Zero' OTHER = 'Bad Data' Wartości znakowe 'range' muszą być otoczone apostrofami. ( ) zakres ciągły. LOW i HIGH używane w zakresie do wskazania najmniejszej i największej wartości zmiennej. (<) wykluczenie odpowiedniego końca zakresu (zależnie od sposobu użycia). OTHER przypisanie formatu do każdej innej wartości nie wymienionej w instrukcji VALUE. Przykład: Dane 19 1 14000 Y 45 1 65000 G 72 2 35000 B 31 1 44000 Y 58 2 83000 W DATA carsurvey; INFILE 'c:\myrawdata\cars.dat'; INPUT Age Sex Income Color $; PROC FORMAT; VALUE gender 1 = 'Male' 2 = 'Female'; VALUE agegroup 13 < 20 = 'Teen' 20 < 65 = 'Adult' 65 HIGH = 'Senior'; VALUE $col 'W' = 'Moon White' 'B' = 'Sky Blue' 'Y' = 'Sunburst Yellow' 'G' = 'Rain Cloud Gray'; * Wypisanie danych z użyciem nowo utworzonych i standardowych formatów PROC PRINT DATA = carsurvey; FORMAT Sex gender. Age agegroup. Color $col. Income DOLLAR8.; TITLE 'Survey Results Printed with User Defined Formats'; RUN; Uwaga: nazwy formatów w instrukcji FORMAT kończą się kropką.

PROC TABULATE; CLASS classification variable list; TABLE page dimension, row dimension, column dimension; Instrukcja CLASS wskazuje zmienne zawierające dane kategorii używane do dzielenia obserwacji na grupy. Instrukcja TABLE określa sposób organizacji tabeli i wyliczania jej zawartości. Jeśli zmienna jest wymieniona w instrukcji CLASS wtedy PROC TABULATE wyświetla proste zliczenia obserwacji w każdej kategorii danej zmiennej. PROC TABULATE umożliwia również tworzenie innych statystyk. Każdy blok TABLE może określić do trzech wymiarów. Te wymiary, oddzielone przecinkami, mówią które zmienne mają być użyte dla stron, wierszy i kolumn. Jeśli zostanie podany tylko jeden wymiar, będzie uznany za wymiar kolumn. Dwa wymiary, natomiast, zawsze odnoszą się do wierszy i kolumn, ale nie do stron. W instrukcji TABLE należy zaczynać od wymiaru kolumn, sprawdzając wyniki pracy. Gdy są zadowalające należy dodać wiersze a potem strony (jeśli są potrzebne). Kolejność wymiarów jest: strony, wiersze, kolumny. Brakujące dane Domyślnie obserwacje z brakującymi wartościami zmiennych wymienionych w instrukcji CLASS nie są uwzględnianie w tabeli. Zachowanie to zmienia się dodając opcję MISSING: PROC TABULATE MISSING; Przykład: Wycieczki jachtami. Dane [nazwa jachtu, port macierzysty, napęd (żaglowy, motorowy), typ (szkuner, katamaran, jacht), cena wycieczki]: Silent Lady Maalea sail sch 75.00 America II Maalea sail yac 32.95 Aloha Anai Lahaina sail cat 62.00 Ocean Spirit Maalea power cat 22.00 Anuenue Maalea sail sch 47.50 Hana Lei Maalea power cat 28.99 Leilani Maalea power yac 19.99 Kalakaua Maalea power cat 29.50 Reef Runner Lahaina power yac 29.95 Blue Dolphin Maalea sail cat 42.95 Raport pokazujący liczbę łodzi każdego typu z dowolnym napędem w każdym porcie. PROC TABULATE tworzy trójwymiarowy raport z wartościami portów na stronach, napędu w wierszach i typu w kolumnach. DATA boats; INFILE 'c:\myrawdata\boats.dat'; INPUT Name $ 1 12 Port $ 14 20 Locomotion $ 22 26 Type $ 28 30 Price 32 36; PROC TABULATE DATA = boats; CLASS Port Locomotion Type; TABLE Port, Locomotion, Type; TITLE 'Number of Boats by Port, Locomotion, and Type'; RUN;

Wartość wymiaru strony pojawia się w lewym górnym rogu wyniku (Maalea). Dodawanie statystyk Domyślnie zliczane są tylko obserwacje dla zmiennych wymienionych w instrukcji CLASS. Instrukcja VAR określa, które zmienne zawierają wartości ciągłe i są źródłem danych dla statystyk: PROC TABULATE; VAR analysis variable list; CLASS classification variable list; TABLE page dimension, row dimension, column dimension; Wszystkie zmienne wymienione w instrukcji TABLE muszą pojawić się albo w instrukcji CLASS albo VAR. Nazwy statystyk Każdy wymiar oprócz zmiennych może zawierać także słowa określające statystyki. Oto niektóre z nich: ALL MAX MIN MEAN MEDIAN N NMISS P90 PCTN PCTSUM STDDEV SUM dds a row, column, or page showing the total highest value lowest value the arithmetic mean the median number of non missing values number of missing values the 90 percentile the percentage of observations for that group the percentage of a total sum represented by that group the standard deviation the sum Łączenie, krzyżowanie i grupowanie. W ramach wymiaru zmienne i nazwy statystyk mogą być łączone, krzyżowane i grupowane. Zmienne lub nazwy statystyk można napisać rozdzielając spacją (połączenie), napisać rozdzielając gwiazdką (*), napisać umieszczając w nawiasie (skrzyżować). Nazwa ALL jest łączona. Aby uzyskać inne statystyki należy skrzyżować nazwę statystyki z nazwą zmiennej. Łączenie: TABLE Locomotion Type ALL; Krzyżowanie: TABLE MEAN * Price; Krzyżowanie, grupowanie i łączenie: TABLE PCTN *(Locomotion Type); Przykład. Wycieczki morskie c.d. Tu PROC TABULATE zawiera instrukcję VAR. Instrukcja TABLE zawiera tylko dwa wymiary ale również łączy, krzyżuje i grupuje zmienne i statystyki. PROC TABULATE DATA = boats; CLASS Locomotion Type; VAR Price; TABLE Locomotion ALL, MEAN*Price*(Type ALL); TITLE 'Mean Price by Locomotion and Type'; RUN; Wymiar wierszy łączy zmienną Locomotion z ALL w celu otrzymania sumy. Wymiar kolumny krzyżuje MEAN z ceną i ze zmienną Type.

PROC TRANSPOSE <DATA=input data set> <LABEL=label> <LET> <NAME=name> <OUT=output data set> <PREFIX=prefix>; BY <DESCENDING> variable 1 <...< DESCENDING> variable n> <NOTSORTED>; COPY variable(s); ID variable; IDLABEL variable; VAR variable(s); Procedura TRANSPOSE tworzy zbiór wyjściowy przez przeorganizowanie wartości w zbiorze danych SAS, dokonując transpozycji wybranych zmiennych do obserwacji. PROC TRANSPOSE nie tworzy raportów itd. Transponowana zmienna zmienna utworzona przez PROC TRANSPOSE przez transpozycję wartości obserwacji do wartości zmiennej w zbiorze wyjściowym. Opcje DATA= input data set nazwa zbioru SAS, który ma być przetransponowany LABEL= label określa nazwę zmiennej w zbiorze wyjściowym, która zawiera etykietę zmiennej, która jest transponowana. Domyślnie: _LABEL_ LET zezwala na powtórzenia wartości zmiennej podanej w ID. PROC TRANSPOSE transponuje obserwację zawierającą ostatnie wystąpienie danej wartości ID w zbiorze danych lub w grupie BY. NAME= name określa nazwę dla zmiennej w zbiorze wyjściowym która zawiera nazwę zmiennej transponowanej do akturalnej obserwacji. który zawiera nazwę OUT= output data set nazywa zbiór wyjściowy PREFIX= prefix nazywa prefiks używany w konstruowaniu nazw transponowanych zmiennych. Np. jeśli PREFIX=VAR, nazwy zmiennych są VAR1, VAR2,...,VARn. BY Statement PROC TRANSPOSE nie transponuje grup BY. Zamiast tego dla każdej grupy BY PROC TRANSPOSE tworzy jedną obserwację dla każdej zmiennej którą transponuje.

Na powyższym rysunku widać co się dzieje jeśli przetransponujmy zbiór danych z grupowaniem BY. TYPE jest zmienną BY, SOLD, NOTSOLD, REPAIRED i JUNKED są zmiennymi do przetransponowania. * Liczba obserwacji w zbiorze wyjściowym jest taka sama jak liczba grup pomnożona przez liczbę zminnych do przetransponowania. * Zmienna BY nie jest transponowana * _NAME_ zawiera nazwę zmiennej ze zbioru wejściowego, która została przetransponowana w celu utworzenia aktualnej obserwacji. PROC GCHART <option(s)>; BLOCK variable(s) </ option(s)>; BY <DESCENDING> variable 1 <...< DESCENDING> variable n> <NOTSORTED>; HBAR variable(s) </ option(s)>; PIE variable(s) < / option(s)>; STAR variable(s) </ option(s)>; VBAR variable(s) </ option(s)>; Opcje DATA=SAS data set zbiór wejściowy Instrukcje Instrukcja BLOCK tworzy diagram blokowy. BLOCK variable(s) </ option(s)>; variable(s) określa zmienne, dla których PROC CHART tworzy diagram blokowy, jeden diagram dla każdje zmiennej. Opcje (wspólne dla BLOCK, HBAR, PIE, STAR, and VBAR): Specify that numeric variables are discrete specify a frequency variable specify that missing values are valid levels DISCRETE FREQ= MISSING

specify the variable for which values or means are displayed SUMVAR= specify the statistic represented in the chart TYPE= specify grouping Group the bars in side by side charts GROUP= Specify that group percentages sum to 100 G100 Group the bars in side by side charts GROUP= Specify the number of bars for continuous variables LEVELS= Define ranges for continuous variables MIDPOINTS= Divide the bars into categories SUBGROUP= compute statistics Compute the cumulative frequency for each bar CFREQ Compute the cumulative percentage for each bar CPERCENT Compute the frequency for each bar FREQ Compute the mean of the observations for each bar MEAN Compute the percentage of total observations for each bar PERCENT Compute the total number of observations for each bar SUM control output format Print the bars in ascending order of size ASCENDING Specify the values for the response axis AXIS= Print the bars in descending order of size DESCENDING specify extra space between groups of bars GSPACE= suppress the default header line NOHEADER allow no space between vertical bars NOSPACE suppress the statistics NOSTATS suppress the subgroup legend or symbol table NOSYMBOL suppress the bars with zero frequency NOZEROS draw reference lines REF= specify the spaces between bars SPACE= specify the symbols within bars or blocks SYMBOL= BY Statement BY < DESCENDING> variable 1 <...< DESCENDING> variable n> <NOTSORTED>; variable wyznacza zmienne używane do sformułowania grupy BY. Jeśli nie jest używana opcja NOTSORTED, to obserwacje w zbiorze muszą być albo wcześcniej posortowane albo odpowiednio zaindeksowane. DESCENDING wskazuje, że obserwacje są posortowane w porządku malejącym zmiennej umieszczonej bezpośrednio za DESCENDING w instrukcji BY. NOTSORTED określa, że obserwacje nie są posortowane.