Przewodnik. Rozdział. Dodatek

Transkrypt

1 Przewodnik Rozdział 1: STATISTICA ogólny opis 7 2: Przykłady 13 Analizy 15 Zarządzanie danymi 73 Wersje korporacyjne 93 3: Środowisko pracy 123 4: Zarządzanie wynikami analiz 143 5: Dokumenty STATISTICA 163 6: Wykresy 183 7: Dostosowywanie programu STATISTICA 207 8: STATISTICA Visual Basic 215 9: STATISTICA Query : Korzystanie ze STATISTICA z poziomu.net 239 Dodatek A: Wszechstronna pomoc 245 B: STATISTICA Enterprise Server 251 C: Rodzina programów STATISTICA 263

2 Programy z rodziny STATISTICA są stale udoskonalane i rozbudowywane. Obszerna, aktualna dokumentacja znajduje się w Pomocy elektronicznej zachęcamy do korzystania z niej w trakcie pracy z programem. ISBN Tytuł oryginału: STATISTICA Quick Reference Tytuł polskiego wydania: STATISTICA - Przewodnik Copyright 2011 by StatSoft, Inc. and StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36, Kraków, telefon , , faks info@statsoft.pl Web: All rights reserved. Wszelkie prawa zastrzeżone. STATISTICA jest dostępna w następujących językach: angielskim, arabskim, chińskim, czeskim, francuskim, hiszpańskim, japońskim, koreańskim, niemieckim, polskim, portugalskim, rosyjskim, węgierskim i włoskim. StatSoft, logo StatSoft, STATISTICA, STATISTICA Data Miner, STATISTICA Automated Neural Networks (SANN), STATISTICA Enterprise, STATISTICA Enterprise/QC, STATISTICA MultiStream, STATISTICA PowerSolutions, STATISTICA Variance Estimation and Precision (VEPAC), SEPath, GTrees oraz STATISTICA Enterprise Server są zastrzeżonymi znakami towarowymi StatSoft. Wszystkie nazwy produktów wymienione w tej publikacji mogą być znakami towarowymi ich producentów.

3 SPIS TREŚCI STATISTICA Przewodnik Spis treści STATISTICA OGÓLNY OPIS... 7 Analizy... 9 Unikalne zalety Ogólna filozofia programu STATISTICA Technologia informatyczna (uwagi techniczne) Wykorzystanie Internetu Niezależne testy i recenzje PRZYKŁADY Analizy Przykład 1. Korelacje Przykład 2. ANOVA Przykład 3. Zestawy zmiennych Przykład 4. Analizy dla grup Przykład 5. Podsumowania analiz (sześciopak dla jakości) Przykład 6. STATISTICA Data Miner Zarządzanie danymi Przykład 1. Formuły arkusza i przekształcenia wielu zmiennych Przykład 2. Arkusz Excela jako źródło danych Przykład 3. Dostęp do danych z bazy MS SQL Server Przykład 4. Przygotowanie danych czyszczenie i filtrowanie Wersje korporacyjne Przykład 1. STATISTICA Enterprise Server przesyłanie zadań na serwer i pobieranie wyników Przykład 2. STATISTICA w zastosowaniach wymagających wysokiego bezpieczeństwa Przykład 3. STATISTICA Enterprise STATISTICA Enterprise Server ŚRODOWISKO PRACY Ogólne właściwości Sposoby działania Różne sposoby korzystania z tych samych narzędzi, style pracy Jednoczesne przeprowadzanie wielu analiz Interakcyjne środowisko pracy Wprowadzenie STATISTICA - Przewodnik 3

4 SPIS TREŚCI Przebieg analizy interakcyjnej Określanie analizy Rodzaje dokumentów STATISTICA Visual Basic i sterowanie programem STATISTICA z poziomu innych aplikacji Przeglądarka internetowa jako interfejs programu STATISTICA Enterprise Server Współpraca z Microsoft Office ZARZĄDZANIE WYNIKAMI ANALIZ Przegląd Skoroszyty Osobne okna Raporty Raporty ze skoroszytów Raporty w formacie RTF (Rich Text Format) Raporty w formacie PDF Raporty w formacie HTML Microsoft Word Publikowanie wyników w Internecie i Intranecie Knowledge Portal Publikowanie wyników uzyskiwanych na serwerze Publikowanie wyników analizy wykonanej lokalnie SharePoint i STATISTICA Document Management System (SDMS) MS SharePoint STATISTICA Document Management System (SDMS) DOKUMENTY STATISTICA Skoroszyty Zarządzanie drzewem skoroszytu Arkusze (tabele multimedialne) Arkusze wejściowe i wynikowe Dostęp do arkuszy STATISTICA przez OLE DB Raporty Zarządzanie drzewem raportu Wykresy Makra (programy STATISTICA Visual Basic) Projekty STATISTICA WYKRESY Wprowadzenie Dostosowywanie wykresów Rodzaje wykresów Wykresy danych wejściowych STATISTICA - Przewodnik

5 SPIS TREŚCI Wykresy bloku danych Wykresy z menu Wykresy Stany przypadków i wyróżnianie Inne wykresy specjalistyczne Wykresy w STATISTICA Visual Basic DOSTOSOWYWANIE PROGRAMU STATISTICA Dostosowywanie środowiska pracy użytkownika Dostosowywanie dokumentów Ustawienia lokalne i globalne Ogólne ustawienia domyślne Dostosowywanie wykresów Zarządzanie wieloma konfiguracjami programu STATISTICA Własne konfiguracje w środowisku sieciowym STATISTICA VISUAL BASIC Rejestrowanie makr (programów) STATISTICA Visual Basic (SVB) Makra analiz, makra zbiorcze i makra klawiaturowe Przykład zapisu analizy Obiekty i dokumenty ActiveX (uwagi techniczne) STATISTICA QUERY Wprowadzenie Korzystanie ze STATISTICA Query, opis krok po kroku Przetwarzanie danych po stronie serwera (technologia IDP) Kostki OLAP Duże zbiory danych KORZYSTANIE ZE STATISTICA Z POZIOMU.NET Włączanie bibliotek STATISTICA do projektu.net Ręczne tworzenie obiektu COM Obsługa różnych wersji STATISTICA Odwoływanie się do STATISTICA z poziomu innych aplikacji Bibliotekowa wersja STATISTICA WSZECHSTRONNA POMOC Podręcznik elektroniczny Inne możliwości i źródła pomocy technicznej STATISTICA ENTERPRISE SERVER Wprowadzenie Szeroki wybór narzędzi analitycznych i konfiguracji Funkcjonalność i możliwe zastosowania Zalety technologii wielowątkowej Interfejs użytkownika STATISTICA Enterprise Server STATISTICA - Przewodnik 5

6 SPIS TREŚCI Zgodność ze standardami Architektura systemu (uwaga techniczna) Przewaga nad produktami konkurencyjnymi Knowledge Portal Film prezentujący STATISTICA Enterprise Server RODZINA PROGRAMÓW STATISTICA Rozwiązania desktopowe Rozwiązania przemysłowe, narzędzia Six sigma Systemy korporacyjne STATISTICA Rozwiązania dla skoringu Dedykowane rozwiązania branżowe Zarządzanie danymi i innymi dokumentami INDEKS STATISTICA - Przewodnik

7 1 ROZDZIAŁ STATISTICA OGÓLNY OPIS

8 8 Poradnik użytkownika STATISTICA Copyright StatSoft, 2008

9 1 ROZDZIAŁ STATISTICA OGÓLNY OPIS STATISTICA to zestaw wszechstronnych, zintegrowanych narzędzi do analizy i wizualizacji danych, zarządzania bazą danych oraz tworzenia własnych aplikacji. Program zawiera szeroką gamę podstawowych i zaawansowanych procedur statystycznych stosowanych w marketingu, zarządzaniu, przemyśle, nauce i ogólnie w data mining. Analizy STATISTICA zawiera nie tylko procedury statystyczne i graficzne ogólnego przeznaczenia i związane z nimi narzędzia zarządzania danymi, ale także specjalistyczne techniki analityczne (np. do badań społecznych, biomedycznych, technicznych). Wszystkie narzędzia programu STATISTICA stanowią elementy zintegrowanego pakietu, w którym można zastosować różne interfejsy użytkownika, w tym: wysoce zoptymalizowany interaktywny interfejs użytkownika (z możliwością otwarcia dokumentów Microsoft Office w ramach aplikacji STATISTICA), środowisko typu cienki klient (w STATISTICA Enterprise Server) umożliwia wykonywanie zadań na serwerze, wbudowany język programowania STATISTICA Visual Basic, zgodny ze standardami powszechnie przyjętymi w przemyśle informatycznym (w tym.net), oferujący dostęp do ponad funkcji. Interaktywne interfejsy użytkownika mogą być zautomatyzowane za pomocą makr, dostosowane do potrzeb użytkownika za pomocą różnych metod oraz zapisane zgodnie ze standardem języka programowania Visual Basic. Wbudowane środowisko programistyczne umożliwia współpracę programu STATISTICA z innymi aplikacjami. Język STATISTICA Visual Basic umożliwia wykonywanie zadań o dowolnej złożoności, począwszy od automatyzacji rutynowych czynności, a skończywszy na rozbudowanych aplikacjach korporacyjnych, działających w wieloużytkownikowym środowisku sieciowym. STATISTICA - Przewodnik 9

10 ROZDZIAŁ 1: STATISTICA OGÓLNY OPIS Unikalne zalety Unikalne zalety programów z rodziny STATISTICA to m.in.: wszechstronny zestaw w pełni zaimplementowanych procedur analizy danych, wiele rodzajów wysokiej jakości wykresów, które można w szerokim zakresie modyfikować, wydajne i wygodne środowisko użytkownika, otwarty system zgodny z niemal każdym środowiskiem korporacyjnym i programistycznym (w tym.net), zawierający ponad funkcji, szeroki wybór zaawansowanych technologii informatycznych (zob. Technologia informatyczna, str. 11), dzięki którym uzyskano dużą szybkość przetwarzania ogromnych zbiorów danych oraz szerokie możliwości dostosowywania programu do konkretnych potrzeb, z poziomu środowiska STATISTICA można uruchamiać skrypty języka R, a wyniki R mogą być kierowane do arkuszy i wykresów STATISTICA. Jedną z najważniejszych i najbardziej wyjątkowych cech programów z rodziny STATISTICA jest możliwość dopasowania środowiska programu do potrzeb aktualnie wykonywanego zadania i preferencji użytkownika. Co więcej, modyfikacja programu może być wykonana nawet przez początkującego użytkownika. Nieomal każdy aspekt działania programu STATISTICA (nawet podstawowe procedury jego środowiska) może zostać dostosowany do konkretnych potrzeb. Ta sama wersja programu może być wykorzystywana: przez początkujących użytkowników, wykonujących typowe zadania za pomocą uproszczonych okien dialogowych (zawierających tylko konieczne opcje) lub w przeglądarce internetowej (opcja ta wymaga aplikacji STATISTICA Enterprise Server) oraz przez doświadczonych analityków, statystyków i programistów, którym zaawansowana, obiektowa technologia umożliwia wykorzystywanie zoptymalizowanych procedur statystycznych i graficznych programu STATISTICA (ponad funkcji) we własnych aplikacjach. Ogólna filozofia programu STATISTICA Standardowa konfiguracja pakietu STATISTICA (domyślne ustawienie środowiska użytkownika i systemu) powstała na podstawie zbieranych starannie przez wiele lat uwag i opinii użytkowników. Otrzymaliśmy opinie od dziesiątków tysięcy naszych klientów, reprezentujących setki tysięcy użytkowników ze wszystkich kontynentów, wykorzystujących program STATISTICA w bardzo różnorodnych dziedzinach. Jednym z najważniejszych wniosków płynących z tych kontaktów jest stwierdzenie ogromnej różnorodności potrzeb i preferencji (zarówno w odniesieniu do osób, jak i poszczególnych zadań). STATISTICA spełnia te wymagania dzięki swojemu elastycznemu środowisku użytkownika, które można łatwo dostosować do dowolnych zadań. 10 STATISTICA - Przewodnik

11 ROZDZIAŁ 1: STATISTICA OGÓLNY OPIS STATISTICA umożliwia korzystanie z potężnego zestawu zaawansowanych technologii informatycznych (zob. Technologia informatyczna, poniżej). Co więcej, użytkownik nie musi nawet znać ich nazw, ponieważ działają one automatycznie, a korzystanie z nich jest intuicyjne. Niezaawansowany użytkownik może korzystać wyłącznie z prostego środowiska, złożonego z kilku jasno opisanych przycisków, lecz jeśli potrzebuje czegoś więcej, to dostęp do wszystkich opcji uzyskuje po dosłownie jednym kliknięciu myszą. Praktycznie każdy aspekt działania programu (począwszy od początkowej konfiguracji, a skończywszy na sposobie zarządzania wynikami) można dostosować do aktualnych potrzeb kilkoma kliknięciami myszy. Ponadto STATISTICA zachowuje dostosowaną konfigurację do momentu, kiedy użytkownik wybierze inne ustawienia. Praktycznie każde okno definicji analizy można zastąpić interfejsem zaprojektowanym przez użytkownika (uproszczonym lub rozbudowanym, zawierającym mniej lub więcej opcji oraz procedur stworzonych przez użytkownika). STATISTICA może wyglądać i zachowywać się dokładnie tak, jak sobie tego życzy użytkownik. Technologia informatyczna (uwagi techniczne) Opisane wcześniej: wydajność, elastyczność i możliwość dopasowania programu do potrzeb użytkownika nie byłyby możliwe, gdyby program STATISTICA nie wykorzystywał zaawansowanych technologii informatycznych sterujących wszystkimi funkcjami programu. STATISTICA jest zgodna z praktycznie wszystkimi wiodącymi technologiami informatycznymi dotyczącymi analizy danych i rozpowszechniania informacji. Każda z ponad funkcji znajdujących się w programie STATISTICA dostępna jest dla zewnętrznych aplikacji. Praktycznie nie ma ograniczeń na wielkość i złożoność danych. STATISTICA została także zoptymalizowana pod względem wykorzystania Internetu i obsługi multimediów. Procedury numeryczne i graficzne wykorzystują niezliczone techniki optymalizacyjne (np. poczwórna precyzja, pozwalająca uniknąć ograniczeń standardu IEEE zapisu liczb rzeczywistych, dostępna w aplikacjach służących do obliczeń matematycznych, ale niewystępująca w programach statystycznych). Dzięki temu STATISTICA wyróżnia się niespotykaną prędkością i precyzją obliczeń, szybkością reakcji wspomaganą przez wielowątkowość oraz zaawansowaną architekturą wieloprocesową występującą w wersji klient-serwer, tj. STATISTICA Enterprise Server. Dostęp do danych bazuje na technologii strumieniowej, co umożliwia łatwą pracę zarówno z prostymi plikami danych przechowywanymi lokalnie, jak i z wielowymiarowymi, terabajtowymi bazami i hurtowniami danych (bez konieczności tworzenia lokalnej kopii analizowanych danych tą funkcją dysponują wyłącznie systemy korporacyjne STATISTICA). Jedną z zalet systemu STATISTICA jest możliwość jednoczesnego uruchomienia jego wielu kopii (w dowolnej kombinacji środowisk: lokalnego, sieciowego oraz klient-serwer), wykonujących w tym samym czasie wiele analiz danych pochodzących z różnych źródeł, przy czym wyniki wszystkich analiz uporządkowane są w odrębne projekty. Zarówno pliki wejściowe, jak i wyjściowe mogą być praktycznie dowolnie duże i mogą zawierać w sobie hierarchicznie STATISTICA - Przewodnik 11

12 ROZDZIAŁ 1: STATISTICA OGÓLNY OPIS uporządkowane dokumenty. Wyniki analiz mogą być kierowane do skoroszytów (str. 27), raportów (w tym do plików.pdf oraz dokumentów Microsoft Office), Internetu oraz opcjonalnie do STATISTICA Document Management System, który może współpracować z każdą aplikacją STATISTICA. Wykorzystanie Internetu Jedną z unikalnych cech STATISTICA Enterprise Server jest możliwość nie tylko wykonywania czasochłonnych zadań na Sewerze, ale również dostępu do funkcji programu w środowisku cienkiego klienta (uruchamianym w przeglądarce internetowej). Dzięki temu na serwer można przesyłać przygotowane skrypty oraz korzystać z interakcyjnego środowiska użytkownika, np. do budowy interakcyjnych modeli predykcyjnych data mining, poprzez przeciąganie strzałek w interakcyjnej przestrzeni STATISTICA Data Miner (używając jedynie przeglądarki internetowej). Więcej informacji na ten temat można znaleźć w Dodatku B STATISTICA Enterprise Server, str Należy zauważyć, że większość cech opisanych w tym podręczniku dotyczy wszystkich produktów STATISTICA, ale niektóre sekcje odnoszą się tylko do wybranych produktów, takich jak STATISTICA Enterprise Server lub STATISTICA Data Miner. Niezależne testy i recenzje STATISTICA od wielu lat uzyskuje bardzo dobre oceny od niezależnych recenzentów i wygrywa niezależne porównania programów do analizy danych. Konkretne informacje na ten temat znaleźć można na stronie 12 STATISTICA - Przewodnik

13 2 ROZDZIAŁ PRZYKŁADY ANALIZY Przykład 1. Korelacje Przykład 2. ANOVA Przykład 3. Zestawy zmiennych Przykład 4. Analizy dla grup Przykład 5. Podsumowania analiz (sześciopak dla jakości).. 53 Przykład 6. STATISTICA Data Miner ZARZĄDZANIE DANYMI Przykład 1. Formuły arkusza i przekształcenia wielu zmiennych Przykład 2. Arkusz Excela jako źródło danych verte STATISTICA - Przewodnik 13

14 Przykład 3. Dostęp do danych z bazy MS SQL Server Przykład 4. Przygotowanie danych czyszczenie i filtrowanie WERSJE KORPORACYJNE Przykład 1: STATISTICA Enterprise Server przesyłanie zadań na serwer i pobieranie wyników Przykład 2. STATISTICA w zastosowaniach wymagających wysokiego bezpieczeństwa Przykład 3. STATISTICA Enterprise STATISTICA Enterprise Server Zob.też: INNE PRZYKŁADY STATISTICA Visual Basic: Przykład zapisu analizy Korzystanie ze STATISTICA Query, opis krok po kroku STATISTICA - Przewodnik

15 2 ROZDZIAŁ Przykład 1. Korelacje PRZYKŁADY ANALIZY Uruchamianie programu. Program STATISTICA uruchamiamy, klikając przycisk Start na pasku zadań Windows, a następnie wybierając Wszystkie programy, potem STATISTICA 10 i na koniec klikając STATISTICA. Możemy też dwukrotnie kliknąć skrót do STATISTICA na pulpicie Windows (utworzenie skrótu na pulpicie jest domyślnym ustawieniem przy instalacji programu). Program możemy również uruchomić, dwukrotnie klikając nazwę pliku statist.exe w Eksploratorze Windows lub ikonę dowolnego pliku STATISTICA, np. arkusza. Standardowo po pierwszym uruchomieniu programu na ekranie pojawi się okno Środowisko użytkownika. W oknie tym określamy, czy chcemy korzystać ze wstążki czy klasycznego menu rozwijalnego. Zwróćmy uwagę, że przełączanie między wstążką a klasycznym menu jest bardzo łatwe. Gdy wyświetlana jest wstążka, aby pokazać menu, wystarczy nacisnąć na pasku Szybki dostęp (umieszczony w lewym górnym rogu wstążki). Natomiast aby zamiast menu używać wstążki, wystarczy wybrać polecenie Wstążka z menu Widok. Aby uzyskać większą ilość miejsca w oknie programu, możemy ukryć przyciski wstążki. Przyciski wstążki są ukrywane po podwójnym kliknięciu nazwy aktywnej karty wstążki. Innym sposobem pomniejszenia wstążki jest kliknięcie jej prawym klawiszem myszy i wybranie polecenia Minimalizuj wstążkę. Po zmniejszeniu wstążki, dostęp do umieszczonych na niej przycisków uzyskujemy, klikając nazwę odpowiedniej karty. STATISTICA - Przewodnik 15

16 ROZDZIAŁ 2: PRZYKŁADY Po kliknięciu OK w oknie Środowisko użytkownika automatycznie otwierany jest pusty arkusz i pojawia się okno Witamy w STATISTICA. Zawiera ono użyteczne skróty do typowych zadań wykonywanych po uruchomieniu programu (np. wczytanie pliku danych czy skorzystanie z pomocy elektronicznej). Dodatkowo, jeżeli zainstalowany jest STATISTICA Data Miner, to automatycznie otwierana jest przestrzeń robocza data mining. Kliknięcie przycisku OK w oknie Witamy w STATISTICA spowoduje zamknięcie go i wykonanie działania określonego przez wybór opcji w grupie Od czego chcesz zacząć pracę? albo otwarcie pliku wybranego z listy Ostatnio używane pliki. Możemy wyłączyć wyświetlanie okna powitalnego, zaznaczając pole Nie pokazuj więcej tego okna. W zależności od rodzaju licencji przy uruchamianiu programu mogą pojawiać się również inne okna, np. okno przestrzeni roboczej data mining. Dostosowywanie sposobu działania programu. Praktycznie każdy aspekt działania i wyglądu programu STATISTICA (w tym również wiele spośród całkiem elementarnych własności, jak np. docelowe miejsce dla wszystkich wyników) możemy stale dostosowywać do swoich indywidualnych wymagań. Przykładowo: możemy dostosować pierwszy krok pracy z programem (uruchamianie programu STATISTICA), zmienić domyślny tryb otwierania programu, wygląd arkusza danych itp. Wybór pliku danych. Dla potrzeb niniejszego przykładu wykorzystamy plik Adstudy.sta (umieszczony w podkatalogu Examples\Datasets, katalogu instalacyjnego programu STATISTICA). Plik danych otwieramy, klikając strzałkę pod przyciskiem Otwórz na karcie 16 STATISTICA - Przewodnik

17 ROZDZIAŁ 2: PRZYKŁADY Podstawowe wstążki. Spowoduje to rozwiniecie menu, z którego wybieramy polecenie Otwórz przykłady. Następnie w oknie Otwórz arkusz STATISTICA dwukrotnie klikamy folder Datasets, a potem zaznaczamy plik Adstudy i naciskamy przycisk OK. Arkusz danych z dowolnego foldera możemy otworzyć, naciskając przycisk Otwórz na karcie Podstawowe. Dowolny zbiór danych możemy otworzyć także, korzystając z przycisku umieszczonego w panelach początkowych analiz (pierwsze okno pojawiające się po wybraniu polecenia z menu Statystyka, Wykresy lub Data Mining). Arkusze danych (tabele multimedialne). Dane programu STATISTICA są wyświetlane w arkuszu (każdy arkusz zawiera jeden plik danych). Wszystkie arkusze programu są wyświetlane z zastosowaniem specjalnie zaprojektowanej przez StatSoft technologii tabel multimedialnych, której zalety pokażemy nieco później. Mogą one zawierać nie tylko olbrzymie ilości danych, ale także pliki dźwiękowe, wideo, osadzone dokumenty i skrypty automatyzacji zadań. Ponadto arkusz może też zawierać dostosowane środowisko pracy użytkownika. Istnieje możliwość jednoczesnego otwarcia wielu plików danych (a każdy arkusz danych można połączyć z inną analizą). Narzędzia potrzebne do pracy z arkuszami dostępne są na karcie Dane wstążki. Karta ta jest dostępna zawsze, gdy aktywne jest okno arkusza. Polecenia na karcie podzielone są na grupy: Przekształcenia, Przypadki, Zmienne, Operacje na arkuszach i Tryb. Wszystkie te opcje opisane są w Podręczniku elektronicznym. Opis polecenia uzyskujemy, podświetlając je i naciskając klawisz F1. Specyfikacja zmiennej. Nagłówki zmiennych (kolumn) w arkuszu zawierają nazwy zmiennych. Dwukrotne kliknięcie nazwy kolumny powoduje pojawienie się odpowiedniego okna specyfikacji Zmiennej. Formuły arkusza. W pokazanym poniżej oknie możemy zmieniać nazwę i format zmiennej, wpisywać formuły przeliczania wartości zmiennych itd. Jeśli tekst umieszczony w polu Długa nazwa rozpoczyna się od znaku równości (=), to STATISTICA zinterpretuje go jako formułę obliczeniową (odpowiedni komentarz do formuły możemy zamieścić po znaku średnika (;)). Dla przykładu: jeśli dla zmiennej nr 1 w polu Długa nazwa wpiszemy: =(v2+v3+v4)/3 lub =mean(v2:v4), to aktualne wartości zmiennej nr 1 zostaną zastąpione średnimi zmiennych od drugiej do czwartej, dla każdego przypadku (wiersza) arkusza. STATISTICA - Przewodnik 17

18 ROZDZIAŁ 2: PRZYKŁADY Możemy również przeglądać i poddawać edycji specyfikacje wszystkich zmiennych we wspólnym oknie Edytora specyfikacji zmiennych, dostępnym po kliknięciu przycisku Wszystkie specyfikacje w dowolnym oknie specyfikacji Zmiennej. Podręczne menu w arkuszu. Użyteczną właściwością arkusza jest lista poleceń dostępna w podręcznym menu. Podręczne menu to ruchome menu, które pojawia się po kliknięciu danej pozycji (np. komórki arkusza) prawym przyciskiem myszy. Podręczne menu arkusza zawiera zestaw specjalnych operacji zarządzania danymi oraz inne opcje dotyczące bieżącej zmiennej (kolumny), przypadku (wiersza) lub bloku komórek. 18 STATISTICA - Przewodnik

19 ROZDZIAŁ 2: PRZYKŁADY Sześć sposobów zarządzania wynikami. System daje możliwość dostosowania sposobu zarządzania wynikami (str. 145). Przeprowadzając analizy, otrzymujemy wyniki w postaci tabel multimedialnych (arkuszy) i wykresów. Wszystkie wyniki możemy kierować do: skoroszytów (str. 146), osobnych okien (str. 148), raportów (str. 148), dokumentu Microsoft Word (str. 151), portalu w Intranecie lub Internecie (str. 152), MS SharePointa lub systemu STATISTICA Document Management System (SDMS) (str. 160). Cztery pierwsze sposoby zarządzania wynikami są sterowane za pomocą opcji umieszczonych na karcie Globalne ustawienia wyjścia, w oknie Opcje przywoływanym poprzez naciśnięcie przycisku Opcje w grupie Narzędzia na karcie Podstawowe wstążki. W oknie tym w panelu drzewa po lewej stronie wybieramy Globalne ustawienia wyjścia w gałęzi Analiza lub wykres. Ustawienia dotyczące współpracy z MS SharePoint znajdują się na karcie Podstawowe wstążki. STATISTICA Document Management System (SDMS) jest narzędziem do zarządzania wersjami dokumentów (jego opis znajduje się w Dodatku C) opracowanym przez StatSoft. W zależności od wersji programu istnieją różne sposoby publikowania wyników w Intranecie i Internecie. Mechanizmy zarządzania wynikami możemy wykorzystywać w różnych kombinacjach (np. jednocześnie skoroszyt i raport), a ponadto każdy z nich może być na wiele sposobów dostosowywany do potrzeb użytkownika. Oprócz tego każdy z umieszczanych wynikowych obiektów (arkuszy i wykresów) może również zawierać inne osadzone lub połączone obiekty i dokumenty. Tak więc wyniki uzyskiwane w programie STATISTICA mogą być porządkowane w strukturach hierarchicznych na wiele sposobów. STATISTICA - Przewodnik 19

20 ROZDZIAŁ 2: PRZYKŁADY Obliczanie macierzy korelacji. Obliczmy teraz macierz korelacji dla zmiennych zawartych w pliku danych. W tym celu najpierw naciskamy przycisk Statystyki podstawowe na karcie Statystyka. 20 STATISTICA - Przewodnik

21 ROZDZIAŁ 2: PRZYKŁADY Możemy też wybrać polecenie Statystyki podstawowe z menu rozwijanego naciśnięciem przycisku umieszczonego w lewym dolnym rogu ekranu. Upewnijmy się w tym momencie, że nie zaznaczyliśmy żadnego bloku komórek w arkuszu (aby anulować wybór bloku, po prostu klikamy dowolną komórkę arkusza). Jeśli wcześniej zaznaczyliśmy blok, wówczas program przyjmie, że zmienne odpowiadające wybranemu blokowi zostały celowo wybrane do analizy. Gdybyśmy następnie w oknie analizy kliknęli przycisk OK lub Podsumowanie, program nie będzie pytał o zmienne do analizy, tylko automatycznie utworzy macierz korelacji dla zmiennych z wybranego bloku. W pokazanym poniżej panelu początkowym STATISTICA - Przewodnik 21

22 ROZDZIAŁ 2: PRZYKŁADY wybieramy opcję Macierze korelacji, klikając dwukrotnie myszą jej nazwę (lub wskazujemy jej nazwę i klikamy przycisk OK). Po wybraniu tej opcji na ekranie pojawi się okno Korelacje i korelacje cząstkowe. Analizy podstawowe a opcja Więcej. Tak jak dla większości okien określania analizy (jak również kilku innych typów okien w programie STATISTICA) w oknie Korelacje i korelacje cząstkowe dostępnych jest kilka grup opcji. Zazwyczaj dostępne są przynajmniej dwie grupy analiz. I tak na karcie Podstawowe znajdują się najczęściej wykorzystywane opcje, umożliwiające szybkie określanie podstawowych analiz bez konieczności przeszukiwania zbyt dużej liczby opcji. Z kolei karta Więcej, wykresy zawiera wszystkie ustawienia dostępne na karcie Podstawowe oraz wiele spośród nieco rzadziej wykorzystywanych narzędzi (np. w tym przypadku zapis macierzy korelacji, obliczanie rzadziej używanych statystyk i tworzenie specjalistycznych wykresów). Często, w zależności od rodzaju określanej analizy, dostępne są również dodatkowe karty. 22 STATISTICA - Przewodnik

23 ROZDZIAŁ 2: PRZYKŁADY Zauważmy, że w niektórych przypadkach dostępna jest tylko karta Podstawowe. Opis wybranej karty uzyskujemy, tak jak w przypadku wszystkich okien programu STATISTICA, za pomocą klawisza F1 lub klikając przycisk umieszczony w prawym górnym rogu okna analizy. Inteligentne okna dialogowe. We wszystkich oknach dialogowych programu stosowana jest konwencja podpowiedzi. Oznacza to, że zawsze, kiedy nie mamy pewności, co należy wybrać w dalszej kolejności, możemy po prostu kliknąć przycisk OK lub przycisk Podsumowanie i program przejdzie do następnego logicznego etapu, prosząc o instrukcje, jeśli czegoś będzie brakowało (np. zmiennych do analizy). Przycisk Zmienne. Każde okno definicji analizy w programie STATISTICA zawiera przynajmniej jeden przycisk Zmienne, wykorzystywany do określania analizowanych zmiennych. Okno wyboru zmiennych. W naszym przykładzie kliknijmy przycisk Jedna lista zmiennych (możemy też użyć kombinacji klawiszy ALT+J). Na ekranie pojawi się okno Wybierz zmienne. Zauważmy, że okno to pojawiłoby się również wtedy, gdybyśmy nacisnęli przycisk Podsumowanie bez wyboru zmiennych (natomiast jeśli wcześniej wykonywaliśmy jakieś operacje w arkuszu danych i zaznaczyliśmy blok, zmienne podświetlone w bloku zostaną automatycznie wybrane, i po kliknięciu przycisku Podsumowanie obliczona zostanie domyślna macierz korelacji dla zaznaczonych w bloku zmiennych). STATISTICA - Przewodnik 23

24 ROZDZIAŁ 2: PRZYKŁADY W oknie wyboru zmiennych możemy wskazać zakres zmiennych (klikając nazwę pierwszej z nich, a potem ostatniej przy wciśniętym klawiszu SHIFT) lub nieciągłą listę zmiennych (klikając nazwy pożądanych zmiennych przy wciśniętym przycisku CTRL). Zauważmy, że możemy również wpisać numery zmiennych w polu Wybierz zmienne. Program może na podstawie typu skali pomiarowej automatycznie decydować, które zmienne pojawią się w oknie Wybierz zmienne. Dzieje się tak wtedy, gdy włączona jest opcja Pokazuj tylko zmienne o odpowiedniej skali. Kryterium filtrowania określa analiza lub wykres np. poza specjalnymi sytuacjami nie ma sensu obliczać średniej dla zmiennych jakościowych. Zauważmy też, że w oknie specyfikacji zmiennej (zob. str. 17) można całkowicie zablokować wyświetlanie zmiennej w oknach wyboru zmiennych (poprzez zaznaczenie opcji Wyłączona). Filtrowanie zmiennych na listach wyboru oraz typy skal pomiarowych dokładniej omówiono w rozdziałach Okno specyfikacji zmiennej oraz Metadane zmiennych i przypadków Wprowadzenie w Podręczniku elektronicznym. W oknie wyboru zmiennych możemy również używać różnych klawiszy skrótów oraz wykorzystywać opcje przeglądania zawartości pliku danych. Na przykład możemy rozwinąć listę zmiennych w celu przejrzenia ich długich nazw lub wprowadzonych formuł (w tym celu klikamy przycisk Rozwiń). Możemy także przybliżyć zawartość zmiennej (klikając przycisk Przybliż), aby obejrzeć uporządkowaną listę wszystkich jej wartości oraz statystyki opisowe tej zmiennej, tak jak to zostało pokazane poniżej. Wracając do naszego przykładu, zaznaczamy na liście zmienne od 1 do 10 (np. klikając pierwszą z nich i przesuwając wskaźnik myszy do dziesiątej przy wciśniętym lewym przycisku myszy) i klikamy OK (możemy też nacisnąć klawisz Enter). Powrócimy do okna Korelacje 24 STATISTICA - Przewodnik

25 ROZDZIAŁ 2: PRZYKŁADY i korelacje cząstkowe, w którym klikamy przycisk Podsumowanie, aby utworzyć domyślną macierz korelacji dla wybranych zmiennych. Przed rozpoczęciem obliczeń program sprawdza zmienne. W naszym przypadku wybraliśmy dwie zmienne z wartościami tekstowymi. Najczęściej zmienne takie są jakościowe i wątpliwe jest stosowanie dla nich współczynników korelacji liniowej. Dlatego też program wyświetli okno z ostrzeżeniem. W oknie tym klikamy przycisk Nie uwzględniaj podejrzanych zmiennych w analizie. Następnie klikamy OK w oknie wyboru zmiennych, aby potwierdzić skorygowany wybór zmiennych do analizy i w oknie Korelacje i korelacje cząstkowe klikamy Podsumowanie, aby uzyskać domyślne wyniki. STATISTICA - Przewodnik 25

26 ROZDZIAŁ 2: PRZYKŁADY Zauważmy, że zamiast przycisku Podsumowanie moglibyśmy kliknąć przycisk Korelacje na karcie Podstawowe. Ponadto, w zależności od domyślnych ustawień zarządzania wynikami na karcie Globalne ustawienia wyjścia, arkusz zawierający współczynniki korelacji może zostać wyświetlony w raporcie lub w osobnym oknie, a nie jak powyżej w skoroszycie. Wykresy podsumowujące. W STATISTICA możemy korzystać z bardzo wygodnych wykresów zawierających kluczowe wyniki analiz. Dla przykładu przywróćmy okno analizy, naciskając przycisk Korelacje i korelacje cząstkowe na dole okna STATISTICA (taki sam skutek da naciśnięcie klawiszy CTRL+R). Następnie kliknijmy przycisk, aby utworzyć podsumowania dla każdej pary zmiennych. Na wykresach znajdują się nie tylko wykresy rozrzutu i histogramy, ale również statystyki opisowe zmiennych, współczynniki korelacji i równanie regresji. STATISTICA tworzy odpowiednie wykresy podsumowujące dla innych analiz, np. statystyk opisowych i badania zdolności procesu. Arkusze wyników (tabele multimedialne). Arkusze w programie STATISTICA, oprócz przechowywania danych, są wykorzystywane do wyświetlania większości wyników liczbowych. Oferują one wiele możliwości i narzędzi wyświetlania. I tak w opisywanym przykładzie istotne statystycznie współczynniki korelacji zostały wyświetlone w innym formacie, aby je wyróżnić (domyślnie używana jest czcionka w kolorze czerwonym). Arkusze mogą zawierać dowolne obiekty, poczynając od krótkiego tekstu, a kończąc na wynikach o wielkości wielu gigabajtów. Oferują ponadto wiele opcji ułatwiających przeglądanie wyników 26 STATISTICA - Przewodnik

27 ROZDZIAŁ 2: PRZYKŁADY i ich wizualizację za pomocą predefiniowanych lub zdefiniowanych przez użytkownika wykresów. Zobaczymy to w dalszej części niniejszego przykładu. Jak już wcześniej wspomniano, zarządzanie arkuszami pakietu STATISTICA oparte jest na niezwykle wydajnej technologii tablic multimedialnych. Arkusze umożliwiają nie tylko operowanie danymi o praktycznie nieograniczonych rozmiarach, ale także plikami wideo, plikami dźwiękowymi, własnymi środowiskami pracy oraz automatycznie uruchamianymi skryptami. Oprócz tego oferują użytkownikowi możliwość dostosowywania do konkretnych potrzeb (więcej informacji na temat arkuszy znaleźć można na str. 169). Opcje dostępne dla arkuszy. Większość narzędzi dostępna jest poprzez przyciski umieszczone na karcie Dane wstążki (w klasycznym menu na pasku narzędzi Arkusz) oraz podręczne menu (wyświetlane po kliknięciu prawym przyciskiem myszy w obrębie dowolnej komórki arkusza). Możemy wypróbować działanie tych opcji lub przeglądnąć ich opis, używając klawisza Pomocy (F1). Przykładowo: możemy zmieniać wszystkie aspekty formatów wyświetlania dla kolumn, edytować wyniki lub dodawać puste przypadki lub wiersze dla umieszczenia notatek lub wyników wklejanych z innych źródeł. Arkusze można na wiele sposobów drukować (domyślnie, w tabelach o jakości prezentacyjnej, z liniami siatki). Ponadto arkusze mogą być wykorzystywane w charakterze źródła danych do analiz. Dzięki temu możemy w łatwy sposób zdefiniować nową analizę, wykorzystującą wyniki poprzedniej analizy (moglibyśmy na przykład wykorzystać uzyskaną macierz korelacji do skalowania wielowymiarowego). Aby użyć arkusza wyników jako arkusza wejściowego, zaznaczamy pole Wejście na karcie Dane (przy aktywnym danym arkuszu). Skoroszyty analizy i inne opcje wyników. Wszystkie wyniki mogą być wyświetlane (i przechowywane) w osobnych oknach, raportach lub skoroszytach, które stanowią domyślny (i prawdopodobnie najbardziej uniwersalny) sposób zarządzania wynikami analiz (więcej informacji na temat skoroszytów można znaleźć na str. 146 i 165). W zależności od ustawień na karcie Globalne ustawienia wyjścia (przywoływanej poprzez naciśnięcie przycisku Opcje na karcie Podstawowe wstążki lub wybranie polecenia Plik Ustawienia wyjścia w klasycznym menu; zob. następny akapit) wyniki mogą być umieszczane: w jednym skoroszycie (zawierającym wyniki wszystkich analiz), w oddzielnym skoroszycie analizy (zawierającym wyniki jednej analizy), w skoroszycie zawierającym oryginalny plik danych lub w skoroszycie, który istniał już wcześniej. Ponadto możemy wybrać opcję powodującą automatyczne wysyłanie wyników do skoroszytu lub też możemy je wysyłać do skoroszytu samodzielnie, klikając przycisk Dodaj do skoroszytu na karcie Podstawowe, co powoduje przesłanie do skoroszytu wybranych, osobnych okien arkuszy lub wykresów. Globalne ustawienia wyjścia. Rodzaj wybranego skoroszytu, a nawet to, czy skoroszyt będzie w ogóle używany, zależy od tego, w jaki sposób zamierzamy przechowywać swoje dane lub wyniki. Aby wybrać docelowe miejsce tylko dla wyników określonej analizy, klikamy przycisk, dostępny w każdym oknie definicji analizy lub wykresu, a następnie wybieramy polecenie Wyjście, przywołując okno Ustawienia wyjścia. STATISTICA - Przewodnik 27

28 ROZDZIAŁ 2: PRZYKŁADY Do zmiany sposobu zarządzania wynikami dla wszystkich analiz i wykresów używamy karty Globalne ustawienia wyjścia okna Opcje, przywoływanego poprzez naciśnięcie przycisku Opcje na karcie Podstawowe wstążki. Możemy też w oknie Ustawienia wyjścia wybrać Globalne ustawienia wyjścia (tak jak na rysunku powyżej). Podobnie jak w przypadku wszystkich skoroszytów, również ze skoroszytu analizy możemy drukować, wydobywać, kopiować i usuwać pojedyncze dokumenty (np. arkusze lub wykresy) lub grupy dokumentów. Zob. podrozdział Skoroszyty na str. 165 oraz Podręcznik elektroniczny (Pomoc STATISTICA). Polecenie Kopiuj a polecenie Kopiuj z nagłówkami. Zawartość arkusza możemy kopiować do Schowka, klikając przycisk Kopiuj na karcie Edycja wstążki, używając kombinacji klawiszy CTRL+C, co powoduje skopiowanie do Schowka samej tylko zawartości wybranego bloku. Natomiast wybierając z menu przycisku Kopiuj na karcie Edycja polecenie Kopiuj z nagłówkami, spowodujemy skopiowanie zawartości zaznaczonego bloku komórek wraz z odpowiednimi nazwami zmiennych i przypadków. W przypadku wklejania arkusza do jakiegoś dokumentu edytora tekstu skoroszyty pozostają aktywnymi obiektami programu STATISTICA (można je edytować po dwukrotnym kliknięciu myszą), standardowymi tabelami w formacie rtf lub tekstem rozdzielanym separatorami. Zależy to od wyboru dokonanego w oknie Wklej specjalnie, obowiązującego w momencie wklejania zawartości Schowka do edytora tekstu. Drukowanie arkuszy. Aby wydrukować arkusz wyników, naciskamy przycisk Drukuj na karcie Podstawowe wstążki (albo wybieramy z menu Plik polecenie Drukuj); możemy też wykorzystać kombinację klawiszy CTRL+P. Na ekranie pojawi się okno Drukuj arkusz, 28 STATISTICA - Przewodnik

29 ROZDZIAŁ 2: PRZYKŁADY w którym określamy sposób wydruku. Jeśli chcemy wydrukować dokument zawarty w skoroszycie, musimy najpierw upewnić się, że został on wybrany w skoroszycie, a następnie w oknie Drukuj arkusz wybrać opcję Wybrane. Możemy również wydobyć kopię dokumentu ze skoroszytu (stosując technikę przeciągania z drzewa skoroszytu lub korzystając z polecenia Kopiuj na karcie Skoroszyt wstążki), a następnie ją wydrukować. Możliwość tworzenia raportów z wszystkimi wynikami. Skoroszyty oferują zapewne najwygodniejsze opcje zarządzania wynikami (zob. str. 146 oraz str. 165). Jednak w niektórych sytuacjach może się przydać możliwość automatycznego zestawienia wszystkich wyników (zawartości wszystkich arkuszy lub wykresów) w postaci raportu przypominającego dokument edytora tekstu. W dokumencie takim możemy w dowolnym miejscu wstawiać teksty uwag i komentarzy, a obiekty mogą w nim być umieszczane kolejno jeden za drugim. Więcej informacji na temat raportów można znaleźć na str. 148 oraz na str Aby dla wszystkich analiz tworzyć raporty takie jak wyżej, naciskamy przycisk Opcje na karcie Podstawowe wstążki (gdy korzystamy z klasycznego menu wybieramy polecenie Narzędzia Opcje). Na ekranie otworzy się okno Opcje, w którym przechodzimy na kartę Globalne ustawienia wyjścia. Następnie z listy rozwijalnej Wyjście do raportu wybieramy w zależności od potrzeb Jeden raport (wspólny dla wszystkich analiz lub wykresów), Wiele raportów (osobne dla każdej analizy lub wykresu) albo [Wskaż pliki]. Jak to zostało już wcześniej powiedziane, sposób zarządzania wynikami możemy ustawić również tylko dla bieżącej analizy, korzystając z przycisku umieszczonego w każdym oknie definicji analizy lub wykresu. Po naciśnięciu tego przycisku na ekranie pojawi się okno Ustawienia wyjścia. STATISTICA - Przewodnik 29

30 ROZDZIAŁ 2: PRZYKŁADY Zarówno w oknie Ustawienia wyjścia, jak i na karcie Globalne ustawienia wyjścia możemy również określić zakres dodatkowej informacji zamieszczanej wraz z wynikami analiz. W tym celu należy wybrać odpowiednią pozycję z listy Informacje dodatkowe. I tak, jeśli wybierzemy Krótkie, to w raporcie umieszczane będą wyłącznie arkusze i wykresy wynikowe oraz ostrzeżenia analiz. Natomiast wybranie pozycji Średnie powoduje umieszczanie dodatkowo nazwy pliku danych, warunków selekcji i wag przypadków (jeżeli je określono), nagłówka wyników, listy zmiennych wybranych do analizy oraz kod braku danych dla każdej zmiennej. Z kolei przy ustawieniu Długie w raporcie umieszczane będą wszystkie informacje odpowiadające ustawieniu Średnie oraz długie nazwy zmiennych (z formułami), przy czym dla każdej zmiennej przeznaczony będzie co najmniej jeden wiersz. Na koniec przy ustawieniu Wyczerpujące generowane są najobszerniejsze informacje. Oprócz wszystkich informacji odpowiadających ustawieniu Długie w raporcie znajdzie się kompletna lista etykiet analizowanych zmiennych. Interpretacja wyników - Podręcznik elektroniczny (Pomoc) i Elektroniczny podręcznik statystyki. Wróćmy teraz do naszego przykładu i utworzonej macierzy korelacji. Każda z komórek macierzy korelacji zawiera wartość (w przedziale od 1,00 do +1,00), która odzwierciedla współzależność pomiędzy zmiennymi (wskazanymi w odpowiednich nagłówkach kolumn i wierszy). Im wyższa bezwzględna wartość współczynnika korelacji, tym analizowana współzależność jest mocniejsza. W przypadku wartości dodatnich kierunek współzależności jest dodatni (tzn. większe wartości jednej ze zmiennych odpowiadają większym wartościom drugiej zmiennej, a mniejsze wartości jednej zmiennej odpowiadają mniejszym wartościom drugiej). Jeśli natomiast współczynnik korelacji przyjmuje wartości ujemne, mamy do czynienia z sytuacją, w której mniejszym wartościom jednej zmiennej towarzyszą większe wartości drugiej zmiennej i na odwrót. Tym, którzy chcą dowiedzieć się nieco więcej na temat sposobu interpretacji współczynników korelacji, polecamy przestudiowanie obszernego, bogato ilustrowanego omówienia tego zagadnienia, które zostało zamieszczone w Podręczniku elektronicznym (Pomocy STATISTICA). Aby uzyskać dostęp do Podręcznika elektronicznego, naciskamy przycisk Pomoc na karcie Pomoc. Następnie w polu Wpisz wyrazy do wyszukania umieszczonym na karcie Wyszukaj 30 STATISTICA - Przewodnik

31 ROZDZIAŁ 2: PRZYKŁADY wpisujemy odpowiedni termin (np. Korelacje wprowadzenie), klikamy przycisk Lista tematów oraz wybieramy żądany temat w polu Wybierz temat (w naszym przypadku Korelacje Wprowadzenie): Inne źródło informacji stanowi Podręcznik statystyki opracowany przez firmę StatSoft. Jest on internetowym źródłem ogólnych informacji o statystyce, wyróżnionym przez wydawnictwo Encyclopedia Britannica za jakość, precyzję, sposób prezentacji oraz użyteczność. Podręcznik statystyki otwieramy, naciskając przycisk Poradnik statystyczny na karcie Pomoc. Ponadto wiele rozdziałów Pomocy STATISTICA zawiera łącze do odpowiedniej strony podręcznika w Internecie. Kliknięcie łącza w prawym górnym rogu strony z Pomocą STATISTICA otwiera odpowiednią stronę w podręczniku internetowym. STATISTICA - Przewodnik 31

32 ROZDZIAŁ 2: PRZYKŁADY Tworzenie wykresów z arkuszy. Jednym z ważnych, a często pomijanych zagadnień, które zostały omówione w Podręczniku elektronicznym w kontekście analizy korelacji, jest użyteczność wykresów rozrzutu (diagramów korelacyjnych). Przykładowo: nawet bardzo duże i wysoce istotne statystycznie wartości współczynników korelacji mogą być spowodowane przez jeden punkt pomiarowy ( odstającą obserwację ). W takim przypadku nawet statystycznie istotny współczynnik korelacji nie przedstawia dla badacza żadnej wartości (ze względu na brak trafności predykcyjnej ). Biorąc pod uwagę możliwość wystąpienia takiej sytuacji oraz uwzględniając porady zawarte w Podręczniku elektronicznym, poddajmy analizie wykres rozrzutu, będący graficznym odpowiednikiem współczynnika korelacji pomiędzy zmiennymi. W tym celu przedstawimy graficznie jeden ze współczynników korelacji zawartych w macierzy korelacji. 32 STATISTICA - Przewodnik

33 ROZDZIAŁ 2: PRZYKŁADY Przeprowadzając analizę wyników zamieszczonych w arkuszu, możemy dla przykładu obejrzeć graficzny obraz korelacji pomiędzy zmiennymi: Pomiar08 i Pomiar06. Aby utworzyć wykres rozrzutu dla tych dwóch zmiennych, klikamy prawym przyciskiem myszy w komórce zawierającej wartość odpowiedniego współczynnika korelacji (-0,33). W podręcznym menu, które pojawi się na ekranie, wybieramy pozycję Wykresy danych wejściowych, a następnie Liniowa, 95% p.ufn. z menu podrzędnego. Utworzony zostanie wykres widoczny na poniższym rysunku. Na podstawie uzyskanego wykresu możemy stwierdzić brak występowania nieoczekiwanych konfiguracji danych wejściowych, a więc nie ma powodu, aby się niepokoić odstającymi obserwacjami (zob. krótkie omówienie na str. 31 oraz informacje na temat obserwacji odstających w Podręczniku elektronicznym). Dostosowywanie wykresów. Zauważmy, że teraz, kiedy aktywny jest wykres, karta Edycja wstążki zawiera inne składniki niż przy aktywnym arkuszu. Opisywany pasek zawiera różnorodne narzędzia służące do dostosowywania wyglądu wykresów oraz rysowania. Większość tych narzędzi jest również dostępna w podręcznych menu, dostępnych po kliknięciu prawym przyciskiem myszy na określonym elemencie wykresu. Zauważmy, że polecenia podręcznych menu są zorganizowane hierarchicznie, co oznacza, że pierwsza lub dwie pierwsze opcje mają zastosowanie tylko do wybranego elementu wykresu, a opcje umieszczone niżej pozwalają na wyświetlenie okien oferujących więcej możliwości, dla szerszego zakresu elementów wykresu, powiązanych z wybranym elementem. Jeśli klikniemy STATISTICA - Przewodnik 33

34 ROZDZIAŁ 2: PRZYKŁADY prawym przyciskiem myszy w dowolnym pustym miejscu poza osiami wykresu, na ekranie pojawi się menu zawierające opcje globalne (jak to pokazano poniżej). Więcej informacji na temat dostosowywania wykresu można znaleźć na str. 186 oraz w Podręczniku elektronicznym. Wróćmy do arkuszy. Przewijanie zawartości arkuszy w podzielonych oknach. Arkusze mogą zostać podzielone na dwie lub cztery części (panele) przez przeciągnięcie myszą odpowiednich pól podziału (są to małe prostokątne pola umieszczone tuż nad pionowym paskiem przewijania oraz na lewo od poziomego paska przewijania). Możliwość ta jest przydatna w sytuacji, gdy mamy dużą ilość danych i chcemy przeglądać wyniki umieszczone w różnych częściach arkusza. Kiedy wskażemy myszą pole podziału, kursor zmieni się na lub. Aby teraz wskazać miejsce podziału, trzymamy wciśnięty lewy przycisk myszy i przeciągamy pole podziału w wybrane położenie. 34 STATISTICA - Przewodnik

35 ROZDZIAŁ 2: PRZYKŁADY Możemy zmieniać miejsce podziału, przeciągając pole podziału (umieszczone obecnie pomiędzy panelami) w inne położenie. Zauważmy, że panele podzielone w pionie przewijają się razem, kiedy przewijamy je w poziomie, a panele podzielone w poziomie przewijają się razem, kiedy przewijamy je w pionie. W Podręczniku elektronicznym można znaleźć omówienie sposobu podświetlania bloków danych w podzielonych panelach oraz zmiennej szybkości przewijania przy zaznaczaniu bloków (w temacie W jaki sposób możemy rozszerzyć blok w arkuszu poza widoczną część okna?). Technika Przeciągnij i upuść. STATISTICA wykorzystuje pełny zestaw standardowych technik przeciągnij i upuść (takich jak np. w programie Excel). Na przykład, aby przenieść blok, wskazujemy krawędź zaznaczonego obszaru (kursor myszy przyjmie wtedy postać strzałki) i przeciągamy go w nowe położenie. W celu przeniesienia bloku wskazujemy krawędź zaznaczonego obszaru (kursor myszy przyjmie wtedy postać strzałki) i przeciągamy go w nowe położenie. Natomiast aby skopiować blok danych, wskazujemy krawędź zaznaczonego obszaru (kursor myszy przyjmie wtedy postać strzałki) i przeciągamy go w nowe położenie, trzymając jednocześnie wciśnięty klawisz CTRL. Zauważmy, że kiedy przeciągamy wybrany blok, obok kursora myszy zostaje wyświetlony mały znak plus (+), informujący nas o tym, że wykonujemy operację kopiowania, a nie przenoszenia (zob. poniżej). STATISTICA - Przewodnik 35

36 ROZDZIAŁ 2: PRZYKŁADY Aby wstawić blok pomiędzy kolumnami lub przypadkami, wskazujemy krawędź zaznaczonego obszaru (kursor myszy przyjmie wtedy postać strzałki) i przeciągamy go w nowe położenie, trzymając jednocześnie wciśnięty klawisz SHIFT. Jeśli wskażemy miejsce pomiędzy wierszami, pasek wstawiania będzie wyświetlany pomiędzy wierszami, a po zwolnieniu przycisku myszy blok zostanie wstawiony pomiędzy te wiersze (tworzone są wówczas nowe przypadki). Jeśli wskażemy miejsce pomiędzy kolumnami, pasek wstawiania będzie wyświetlany pomiędzy kolumnami, a po zwolnieniu przycisku myszy blok zostanie wstawiony pomiędzy te kolumny (tworzone są wówczas nowe zmienne). Zauważmy, że jeśli podczas przeciągania bloku naciśniemy dodatkowo klawisz CTRL, wtedy blok zostanie skopiowany i wstawiony, a nie przeniesiony i wstawiony; obok kursora pojawi się znak plus (tak jak to zostało pokazane poniżej). Oprócz tego możemy ekstrapolować serie wartości w obrębie zaznaczonego bloku (opcja Autowypełnianie) przez przeciągnięcie uchwytu wypełnienia (małego, wypełnionego kwadratu umieszczonego w prawym dolnym rogu bloku). 36 STATISTICA - Przewodnik

37 ROZDZIAŁ 2: PRZYKŁADY Podręcznik elektroniczny. Aby uzyskać więcej informacji na temat dowolnego polecenia menu, naciskamy po jego wybraniu klawisz Pomocy (F1). Ponadto STATISTICA zawiera działający kontekstowo, wyczerpujący Podręcznik elektroniczny, opisujący wszystkie procedury i opcje programu. Jest on dostępny po naciśnięciu przycisku Pomoc na karcie Pomoc wstążki, naciśnięciu klawisza F1 lub kliknięciu przycisku pomocy umieszczonego na pasku nagłówka wszystkich okien dialogowych. Dzięki dynamicznej, hipertekstowej organizacji, a także zakładkom (np. Spis treści, Indeks, Wyszukaj i Ulubione) i rozmaitym udogodnieniom, pozwalającym użytkownikowi dostosować system pomocy do własnych potrzeb, posługiwanie się Podręcznikiem elektronicznym jest zazwyczaj szybsze niż poszukiwanie informacji w podręcznikach drukowanych. Zauważmy także, że na pasku stanu w dolnej części okna programu STATISTICA wyświetlane są krótkie wyjaśnienia opcji rozwijanego menu lub przycisków paska narzędzi. Są one widoczne w momencie, gdy dana opcja jest podświetlona lub gdy przycisk jest wciśnięty. Poradnik statystyczny w programie STATISTICA. Poradnik statystyczny wbudowany jest w Podręcznik elektroniczny. STATISTICA - Przewodnik 37

38 ROZDZIAŁ 2: PRZYKŁADY Jeśli na karcie Pomoc wstążki naciśniemy przycisk Poradnik statystyczny, to program zada nam serię prostych pytań na temat natury problemu badawczego i rodzaju naszych danych. Następnie zaproponuje nam procedury statystyczne, które wydają się najbardziej stosowne, i wskaże, gdzie w programie STATISTICA należy ich szukać. Z tematów zawartych w Poradniku statystycznym można bezpośrednio przeskakiwać (połączenia hipertekstowe) do odpowiadających im tekstów Wprowadzeń (Podręcznik elektroniczny do statystyki firmy StatSoft), omawiających szczegółowo odpowiednie metody i procedury statystyczne. Przykład 2. ANOVA Uruchomienie modułu ANOVA. W tym przykładzie analizujemy układ 2 x 2 (grupy) x 3 (powtarzane pomiary). Korzystamy z pliku danych Adstudy.sta, tak jak w poprzednim przykładzie. Po otwarciu pliku danych (zob. str. 16) uruchamiamy moduł ANOVA, naciskając przycisk ANOVA na karcie Statystyka. Spowoduje to otwarcie okna (panelu początkowego) Ogólna ANOVA/MANOVA. Okno to wykorzystywane jest zarówno do definiowania bardzo prostych analiz (np. Jednoczynnikowa ANOVA dla układów zawierających tylko jeden czynnik międzygrupowy), jak i analiz bardziej złożonych (Układy z powtarzanymi pomiarami zawierające czynniki międzygrupowe oraz czynnik powtarzanych pomiarów). Typ analizowanego układu. Jako Rodzaj analizy wybieramy Układy z powtarzanymi pomiarami, a jako Sposób definiowania analizy wskazujemy opcję Szybkie definiowanie. Następnie w oknie Ogólna ANOVA/MANOVA klikamy przycisk OK, aby przejść do okna ANOVA/MANOVA Układ ANOVA z powtarzanymi pomiarami. 38 STATISTICA - Przewodnik

39 ROZDZIAŁ 2: PRZYKŁADY Definiowanie układu (zmienne). Pierwszy (międzygrupowy) czynnik to Płeć (z dwoma poziomami: Mężczyzna i Kobieta). Drugi (międzygrupowy) czynnik to Reklama (z dwoma poziomami: Pepsi i Coke). Oba czynniki tworzą układ czynnikowy kompletny, to znaczy, że w obu grupach: Pepsi i Coke, występują zarówno Mężczyźni, jak i Kobiety. Każda z osób odpowiedziała na 3 pytania (ten czynnik powtarzanych pomiarów nazwiemy Reakcja: ma on 3 poziomy reprezentowane przez zmienne: Pomiar1, Pomiar2 i Pomiar3). Klikamy przycisk Zmienne (umieszczony w oknie ANOVA/MANOVA Układ ANOVA z powtarzanymi pomiarami), aby wyświetlić okno wyboru zmiennych. Wybierzmy zmienne od Pomiar01 do Pomiar03 jako zmienne zależne (w polu Lista zmiennych zależnych), a w polu Predyktory jakościowe (czynniki) wskażmy zmienne Płeć i Reklama. Po wybraniu zmiennych klikamy przycisk OK, aby kontynuować określanie analizy. Układ z powtarzanymi pomiarami. Zauważmy, że układ doświadczalny, który mamy poddać analizie, można przedstawić w postaci następującej tabeli: Czynnik Czynnik Czynnik powtarz. pom.: Reakcja międzygr.#1: międzygr. #2: Poziom #1: Poziom #2: Poziom #3: Płeć Reklama Pomiar1 Pomiar2 Pomiar3 Badany 1 Mężczyzna Pepsi Badany 2 Mężczyzna Coke Badany 3 Kobieta Coke Definiowanie czynnika powtarzanych pomiarów. Dokonaliśmy minimalnego, wymaganego wyboru i gdybyśmy nie chcieli wybrać czynnika powtarzanych pomiarów, moglibyśmy nacisnąć OK i zobaczyć wyniki analizy. Należy jednak poinstruować program, że trzy zmienne zależne, które wybraliśmy, mają być traktowane jako trzy poziomy czynnika powtarzanych pomiarów. W przeciwnym wypadku program założyłby, że są to trzy różne zmienne zależne i wykonałby analizę MANOVA (tzn. wielowymiarową analizę wariancji). STATISTICA - Przewodnik 39

40 ROZDZIAŁ 2: PRZYKŁADY Aby zdefiniować wymagany czynnik powtarzanych pomiarów, naciskamy przycisk Powtarzane pomiary na karcie Podstawowe. Na ekranie pojawi się okno Określ czynniki powtarzanych pomiarów. Zauważmy, że program zasugerował wybór jednego czynnika powtarzanych pomiarów o 3 poziomach (o domyślnej nazwie R1). W oknie tym możemy zdefiniować tylko jeden czynnik powtarzanych pomiarów. Większą liczbę czynników powtarzanych pomiarów możemy zdefiniować w module Ogólne modele liniowe (niedostępnym w STATISTICA Pakiet Podstawowy). Opis okna Określ czynniki i łącza do tematów poświęconych zagadnieniu powtarzanych pomiarów znajdują się w Podręczniku elektronicznym, otwieranym poprzez naciśnięcie klawisza F1 (lub przycisku ). Możemy teraz edytować nazwę czynnika (np. zmienić domyślną nazwę R1 na REAKCJA) i nacisnąć przycisk OK, aby zamknąć to okno. Kody (definiowanie poziomów) dla czynników międzygrupowych. Nie ma konieczności ręcznego wprowadzania kodów dla czynników międzygrupowych (np. instruowania programu, że zmienna Płeć ma dwa poziomy: 1 i 2 albo Mężczyzna i Kobieta), chyba że nie chcemy użyć wszystkich kodów występujących w wybranych zmiennych grupujących. Gdybyśmy chcieli dokonać takiego wyboru kodów, należałoby nacisnąć przycisk Kody czynników, aby otworzyć okno Wybierz kody zm. niezależn. (czynniki). Okno to oferuje różnorodne opcje. Na przykład przed dokonaniem wyboru możemy przejrzeć wartości pojedynczych zmiennych, klikając przycisk Przybliż. Program sprawdzi zbiór i wypełni pola kodów dla niektórych lub dla wszystkich zmiennych (np. Płeć i Reklama). Dla potrzeb naszego przykładu kliknijmy przycisk OK, a STATISTICA wypełni pola kodów wszystkimi wartościami napotkanymi w obrębie wybranych zmiennych i zamknie okno. Przeprowadzenie analizy. Kliknięcie przycisku OK po powrocie do okna ANOVA/MA- NOVA Układ ANOVA z powtarzanymi pomiarami spowoduje przeprowadzenie analizy 40 STATISTICA - Przewodnik

41 ROZDZIAŁ 2: PRZYKŁADY i pojawienie się okna ANOVA Wyniki 1. Możemy teraz wybrać różne rodzaje arkuszy wynikowych i wykresów. Okno to zawiera karty, które umożliwiają szybkie zlokalizowanie opcji wyników. Przykładowo: w celu przeprowadzenia porównań zaplanowanych klikamy kartę Porównania. Aby przeglądnąć statystyki wartości resztowych, klikamy kartę Reszty. Dla potrzeb naszego prostego, wprowadzającego przykładu wykorzystamy jedynie wyniki dostępne na karcie Podstawowe. Przeglądanie wyników ANOVA. Rozpocznijmy od kliknięcia przycisku Wszystkie efekty (tego z ikoną ) i obejrzenia tabeli podsumowania ANOVA dla wszystkich efektów. Jedynym statystycznie istotnym efektem (nie licząc Wyrazu wolnego) w obrębie analizowanego układu jest efekt zmiennej REAKCJA (p = 0,007). Wynik taki może być spowodowany przez wiele możliwych konfiguracji średnich efektu zmiennej REAKCJA (po więcej informacji na ten temat trzeba sięgnąć do tekstu Wprowadzenia do ANOVA zamieszczonego w Podręczniku elektronicznym). STATISTICA - Przewodnik 41

42 ROZDZIAŁ 2: PRZYKŁADY Aby przejść z powrotem do okna ANOVA Wyniki 1 (tzn. kontynuować analizę), możemy użyć kombinacji klawiszy CTRL+R lub kliknąć przycisk ANOVA Wyniki 1 umieszczony na pasku Analizy. Po otrzymaniu okna ANOVA Wyniki 1 klikamy przycisk Średnie, wykresy, aby przeglądnąć średnie dla pojedynczych efektów. Okno to zawiera zbiorczą Tabelę wszystkich efektów (z większością informacji, które widzieliśmy już w arkuszu Wszystkie efekty) i jest wykorzystywane do przeglądania pojedynczych efektów z tabeli w postaci wykresów odpowiednich średnich (lub opcjonalnie arkuszy zawierających odpowiednie wartości średnie). Wykres średnich dla efektu głównego. Aby obejrzeć odpowiedni wykres, w oknie Tabela wszystkich efektów klikamy dwukrotnie istotny statystycznie efekt główny REAKCJA (ten, który jest oznaczony gwiazdką w kolumnie p) zob. rys. poniżej. Wykres sugeruje występowanie wyraźnego trendu malejącego: średnie dla kolejnych trzech pozycji ulegają stopniowemu obniżaniu. Mimo iż w obrębie tego układu nie odnotowaliśmy istotnych interakcji (zob. omówienie Tabeli wszystkich efektów, str. 41), to jednak przyjrzymy się 42 STATISTICA - Przewodnik

43 ROZDZIAŁ 2: PRZYKŁADY interakcji najwyższego rzędu, aby zbadać zgodność tego dość silnego trendu malejącego w obrębie grup wyznaczonych przez czynniki międzygrupowe. Wykres średnich dla trójczynnikowej interakcji. Aby obejrzeć wykres interakcji najwyższego rzędu, klikamy dwukrotnie wiersz oznaczony jako REAKCJA*PŁEĆ*REKLAMA, reprezentujący interakcję pomiędzy czynnikiem 1 (Płeć), 2 (Reklama) i 3 (Reakcja) w oknie Tabela wszystkich efektów. Pojawi się pośrednie okno Określ rozmieszczenie czynników na wykresie, w którym możemy dostosować domyślne rozmieszczenie czynników na wykresie (zauważmy, że w przeciwieństwie do poprzedniego wykresu dla jednego czynnika ten efekt może być przedstawiony na kilka sposobów). Klikając OK, akceptujemy domyślne rozmieszczenie czynników i utworzenie wykresu. Jak widzimy, taka konfiguracja średnich (dla poszczególnych poziomów czynników międzygrupowych) nie wskazuje na żadne uderzające odchylenia od układu ogólnego, który pojawił się na pierwszym wykresie (dla efektu głównego, REAKCJA). Teraz możemy przejść do interakcyjnego badania innych efektów, przeprowadzić porównania typu post-hoc, porównania zaplanowane, pogłębioną diagnostykę i dalej badać wyniki. Interakcyjna analiza danych w programie STATISTICA. Ten stosunkowo prosty przykład ilustruje, w jaki sposób STATISTICA realizuje interakcyjną analizę danych. Użytkow- STATISTICA - Przewodnik 43

44 ROZDZIAŁ 2: PRZYKŁADY nik, dopóki nie zobaczy wyników, nie musi precyzować, co ma zostać wygenerowane na wyjściu. Oczywiście nawet prosta analiza może wygenerować dużą ilość wyników i nieograniczoną liczbę wykresów. Zazwyczaj jednak, nie znając podstawowych wyników, trudno przewidzieć, które z nich będą interesujące. STATISTICA pozwala wybierać szczegółowe rodzaje wyników i prowadzić interakcyjnie testy uzupełniające oraz wykonywać dodatkowe analizy na zasadzie co będzie, jeśli..., po przetworzeniu danych i przejrzeniu podstawowych wyników. Automatyzacja analiz (makra i język STATISTICA Visual Basic). Wszelkie wykonywane interakcyjnie specyfikacje analizy i wykresu (zarówno definiowanie układów, jak i wybór opcji wynikowych), są automatycznie rejestrowane w postaci kodu Visual Basic. Tak powstałe makra możemy zapisywać w celu ich późniejszego wykorzystywania, możemy również przypisywać je do przycisków na pasku narzędzi, modyfikować lub poddawać edycji, łączyć z innymi programami itd. Aby uzyskać więcej informacji na ten temat, należy sięgnąć do rozdziału poświęconego STATISTICA Visual Basic (str. 215). Przykład 3. Zestawy zmiennych W STATISTICA możemy zdefiniować zestawy zmiennych, aby ułatwić i przyspieszyć wybieranie zmiennych w przypadku dużych zbiorów danych. Dzięki zestawom możemy wielokrotnie korzystać z grup zmiennych przy specyfikowaniu analiz, wykresów i przekształceń. Przykład rozpoczynamy od otwarcia przykładowego arkusza EnginePerformance.sta (najwygodniej zrobimy to poleceniem Otwórz przykłady z menu otwieranego poprzez naciśnięcie przycisku w lewym górnym rogu wstążki; polecenie to znajduje się również w menu Plik, gdy wstążka jest wyłączona). Potrzebny arkusz znajduje się w katalogu Datasets. Dane dotyczą wydajności dużych silników i zawierają rozmaite parametry procesu ich wytwarzania. W arkuszu zapisano dane o 128 silnikach w tym zmienne Wydajność, Oszczędność paliwa(%) i Moc(%) (które zmierzono podczas testów) oraz 74 parametry procesu (zebrane podczas wytwarzania). W naszym przykładzie kolejne analizy będziemy wykonywać z takim samym wyborem zmiennych. Na kacie Dane naciskamy przycisk Zestawy w grupie Zmienne. Na ekranie pojawi się okno Menedżer zestawów zmiennych. 44 STATISTICA - Przewodnik

45 ROZDZIAŁ 2: PRZYKŁADY Utworzymy nowy zestaw: klikamy przycisk Nowy i podajemy nazwę zestawu Wytwarzanie, po czym klikamy OK. Na ekranie pojawi się okno Wybierz zmienne dla zestawu Wytwarzanie zawierające listę zmiennych arkusza EnginePerformance.sta. Na potrzeby przyszłych analiz wybieramy zmienne o numerach 5-9, 24, 34-39, 74 (najwygodniej jest wpisać numery zmiennych w polu Zmienna, możemy też zaznaczać zmienne myszą, klikając je przy wciśniętym klawiszu CTRL). Po wybraniu zmiennych naciskamy przycisk OK. Okno Wybierz zmienne dla zestawu Wytwarzanie zostanie zamknięte i wrócimy do Menedżera zestawów zmiennych. W lewym panelu widzimy wszystkie zestawy zmiennych określone dla arkusza danych (w razie potrzeby możemy zdefiniować wiele zestawów). W prawym panelu znajduje się lista zmien- STATISTICA - Przewodnik 45

46 ROZDZIAŁ 2: PRZYKŁADY nych tworzących zestaw wybrany w lewym panelu. Oba panele są puste, gdy w arkuszu nie zdefiniowano żadnego zestawu. Nowe zestawy tworzymy po kliknięciu przycisku Nowy, istniejący zmieniamy po naciśnięciu Edytuj, usuwamy zestaw za pomocą przycisku Usuń, a przemianowujemy za pomocą przycisku Zmień nazwę. Zawartość zestawu możemy wyświetlić w arkuszu, klikając przycisk Wyślij do arkusza. Naciskamy OK, aby potwierdzić utworzenie zestawu zmiennych i zamknąć Menedżera zestawów zmiennych. Następnie na karcie Statystyka naciskamy przycisk Regresja wieloraka w grupie Podstawowe. Na ekranie pojawi się panel początkowy tej analizy, w którym klikamy przycisk Zmienne. Na ekranie pojawi się okno wyboru zmiennych do analizy. Zestawy zmiennych są wyświetlane w oknach wyboru zmiennych w kolejności alfabetycznej, a ich nazwy ujęte są w nawiasy kwadratowe. Na liście zmiennych niezależnych klikamy [Wytwarzanie] i w ten sposób jedną operacją wybieramy 13 zmiennych. Zauważmy, że zmienne wchodzące w skład zestawu zostały automatycznie podświetlone, a wybór zmiennych możemy zmieniać ręcznie (dodawać i usuwać zmienne do listy wybranych do analizy). Jeżeli nie jesteśmy pewni, co zawiera zestaw, to wskazujemy go myszką i zostanie wyświetlona podpowiedź z numerami zmiennych w zestawie. 46 STATISTICA - Przewodnik

47 ROZDZIAŁ 2: PRZYKŁADY Ponadto możemy kliknąć przycisk [Zestawy] w oknie specyfikacji zmiennej (str. 17), aby przywołać Menedżera zestawów zmiennych z definicjami wszystkich zestawów (i możliwością ich zmiany). Zauważmy, iż zestawy określamy dla poszczególnych arkuszy i są one wykorzystywane tylko do wyboru zmiennych. Z tego powodu zestawy nie są wymienianie w raportach i innych wynikach. Jak widać w niniejszym przykładzie, korzystanie z zestawów zmiennych może zaoszczędzić sporo czasu, w porównaniu z powtarzaniem za każdym razem tego samego wyboru zmiennych. Przykład 4. Analizy dla grup Program STATISTICA umożliwia wykonywanie analiz statystycznych i wykresów dla podzbiorów danych wyznaczonych przez wartości zmiennych, innymi słowy dla grup. Po określeniu analizy lub wykresu w oknie przeglądania wyników klikamy przycisk Grupami i wskazujemy zmienne wyznaczające grupy. Program obliczy wyniki analizy lub utworzy wykres dla każdej z grup osobno oraz dla wszystkich danych. Analiza grupami jest użytecznym narzędziem interakcyjnej i eksploracyjnej analizy danych, dzięki któremu możemy znajdować wzorce lub zależności występujące w grupach (warstwach) danych. Przykładowo podczas wykonywania analizy regresji chcemy sprawdzić, jak wyglądają wyniki dla osób różnej płci. Bez zamykania okna przeglądania wyników regresji klikamy przycisk Grupami i wskazujemy zmienną Płeć jako identyfikator przynależności do grup (zmienną grupującą). Wszystkie wyniki, których później zażądamy, będą oddzielnie tworzone dla osób o różnej płci, a także dla całego zbioru danych. STATISTICA - Przewodnik 47

48 ROZDZIAŁ 2: PRZYKŁADY Domyślnie wyniki analiz grupami umieszczane są w skoroszycie w folderach o nazwach określonych przez warunek przynależności do grupy (np. Płeć=Kobieta). Możemy też umieścić wyniki dla grupy w jednym, wspólny skoroszycie (tak jak na rysunku poniżej), zawierającym wykresy liniowe przedstawiające przebieg parametrów procesu dla różnych partii. Analiza grupami w badaniu danych doświadczalnych W przykładzie wykorzystamy plik Tomatoes.sta, opisany szczegółowo w podrozdziale Przykład 4: Plan i analiza wyników rozdziału Podręcznika elektronicznego poświęconego planowaniu doświadczeń (wchodzi on w skład części Analizy Statystyki przemysłowe). Dane dotyczą różnych metod hodowli sadzonek pomidorów, a były przedstawione w pracy Youden i Zimmerman (1936), omówionej przez Connora i Younga (w McLean i Anderson, 1984). Zaczynamy od wczytania pliku Tomatoes.sta., przechodzimy na kartę Podstawowe wstążki i naciskamy strzałkę na przycisku Otwórz. Następnie wybieramy polecenie Otwórz przykłady. Na ekranie otworzy się okno Otwórz arkusz STATISTICA. Klikamy dwukrotnie Datasets, a potem wybieramy Tomatoes.sta. 48 STATISTICA - Przewodnik

49 ROZDZIAŁ 2: PRZYKŁADY Na rysunku widzimy kilka wierszy arkusza danych (przypomnijmy, że dokładnie opisano je w podrozdziale Przykład 4: Plan i analiza wyników rozdziału Planowanie doświadczeń (DOE) Podręcznika elektronicznego). Badanie zależności dla różnych odmian Wykonamy teraz analizę, prezentującą sposób sprawdzania za pomocą wykresów i statystyk, czy pewne zależności i rozkłady są takie same w grupach (np. w poszczególnych partiach produkcji). Podejście takie w praktyce często stosuje się m.in. w przemyśle w przypadku procesów wsadowych (okresowych). Zbadamy, jak na uzyskiwane plony (zmienną FUNTY) wpływają: metoda uprawy (PRODMET), warunki glebowe (WARGLEB) oraz rozmiar doniczki (DONICZKA). Zbadamy, czy wpływ ten jest taki sam dla różnych odmian. Zamiast wykonywać pełną analizę wariancji (tak jak w przykładzie Plan i analiza wyników), będziemy przede wszystkim korzystać z wykresów. Wykres składowych zmienności. Na karcie Wykresy naciskamy przycisk Wykresy 2W i wybieramy polecenie Wykres składowych zmienności, aby przywołać okno określania wykresu. Następnie naciskamy przycisk Zmienne i w oknie wyboru zmiennych wskazujemy FUNTY jako Zmienną zależną, a WARGLEB, DONICZKA i PRODMET jako Zmienne grupujące (tak jak na poniższym rysunku). W dalszej części przykładu utworzymy wykresy dla odmian, aby przedstawić analizę grupami. Zmiana kolejności zmiennych. W celu uzyskania wykresu przekazującego najwięcej informacji na pierwszym miejscu na liście Czynniki umieścimy zmienną PRODMET. Podświetlamy ją i przeciągamy na początek listy. W oknie definiowania wykresu podświetlamy kolejno zmienne WARGLEB oraz DONICZKA i wyłączamy dla nich opcję Ramki wokół grup (na dole okna); pozostawiamy tę opcję wybraną dla zmiennej PRODMET. STATISTICA - Przewodnik 49

50 ROZDZIAŁ 2: PRZYKŁADY Określanie analizy grupami. Chcemy utworzyć wykresy osobno dla każdej z odmian oraz dla wszystkich odmian razem. W tym celu klikamy przycisk Grupami; spowoduje to wyświetlenie okna widocznego na poniższym rysunku. Aby wybrać identyfikator grup, klikamy przycisk Zmienna grupująca i w oknie wyboru zmiennej wskazujemy zmienną Odmiana. 50 STATISTICA - Przewodnik

51 ROZDZIAŁ 2: PRZYKŁADY Warto zauważyć, że możemy wskazać wiele zmiennych, których wartości określają przynależności obserwacji do grup. W takim wypadku analiza jest powtarzana dla wszystkich kombinacji wartości zmiennych wyznaczających grupy. Przeglądanie wykresów składowych zmienności. Po kliknięciu OK w oknie wyboru zmiennych wracamy do okna Wykres składowych zmienności i naciskamy OK, aby utworzyć wykresy. Otrzymamy trzy wykresy: dla wszystkich odmian, tylko dla odmiany Bonny i tylko dla odmiany Marglobe. Na wykresach dla odmian wyraźnie widoczny jest różny wpływ metody produkcji na plony w przypadku różnych odmian pomidorów. W szczególności w przypadku odmiany Marglobe, jeśli PRODMET=WłóknoPl, to mamy zdecydowanie najmniejszy rozrzut uzyskiwanych plonów i są to jedne z największych wartości. Inaczej wygląda sytuacja dla odmiany Bonny. Statystyki opisowe w grupach W następnym kroku badań wyznaczymy statystyki opisowe dla odmian. Na karcie Statystyka wstążki naciskamy przycisk Statystyki podstawowe. Na ekranie pojawi się panel początkowy analizy, w którym wybieramy pozycję Przekroje, prosta ANOVA, i klikamy OK. Następnie w oknie Statystyki w grupach (przekroje) klikamy przycisk Zmienne i jako zmienną zależną wskazujemy FUNTY, a jako zmienną grupująca PRODMET. Dwukrotnie klikamy OK, aby zatwierdzić ustawienia analizy i przejść do okna Statystyki w grupach wyniki. Zamierzamy obliczyć statystyki opisowe dla różnych metod produkcji i odmian. Podobnie jak przy tworzeniu wykresu, klikamy przycisk Grupami i jako zmienną grupującą wybieramy ODMIANA. STATISTICA - Przewodnik 51

52 ROZDZIAŁ 2: PRZYKŁADY Po wybraniu zmiennej w oknie Statystyki w grupach wyniki klikamy kolejno przyciski Podsumowanie, Analiza wariancji i Wykresy interakcji. Wszystkie wyniki zostały umieszczone w osobnych folderach. Wykresy i tabele dotyczące ogółu danych trafiły do foldera Bez podziału na grupy, wyniki dla odmiany Bonny do foldera ODMIANA=Bonny, a dla odmiany Marglobe do foldera ODMIANA =Marglobe. Analizując uzyskane wyniki, możemy ponownie dojść do wniosku, że zależność uzyskiwanych plonów od metody produkcji jest różna dla różnych odmian. 52 STATISTICA - Przewodnik

53 Podsumowanie ROZDZIAŁ 2: PRZYKŁADY W programie STATISTICA w dowolnej chwili możemy wykonać analizy dla zbioru danych podzielonego na grupy według wartości jednej lub wielu zmiennych grupujących. Analiza grupami jest dostępna w praktycznie każdym oknie wyników analizy. Jest to funkcja przydatna w eksploracyjnej analizie danych, do porównywania grup i sprawdzania, czy zależności lub wzorce są podobne czy różne w grupach. Przed zamknięciem tego tematu warto poświęcić nieco uwagi technicznej stronie zagadnienia. Analizy grupami (prezentowane w bieżącym przykładzie) wykonywane są poprzez wielokrotne uruchomienie makra odpowiadającego wyspecyfikowanej analizie. Przypomnijmy, że podczas określania analizy program automatycznie tworzy kod makra STATISTICA Visual Basic, które możemy wykonywać, aby powtarzać analizę, tak jak to przedstawiono w rozdziale 8. W przypadku złożonych analiz (np. bardzo dużych niezrównoważonych układów doświadczalnych lub metod iteracyjnych, np. sieci neuronowych) dla wielkich zbiorów danych wykonanie każdej z analiz dla grup jest czasochłonne, a gdy dodatkowo są one powtarzane dla wielu grup, łączny czas wykonania całej analizy grupami będzie długi (wyobraźmy sobie jak długo może potrwać estymacja rozbudowanego, nieliniowego modelu regresji wykonywana dla 100 grup). Ze względu na potencjalnie długi czas obliczeń w przypadku wielu grup, dobrze jest przed zastosowaniem bardziej złożonych narzędzi, wyznaczyć statystyki podstawowe, tabele liczności i utworzyć wykresy, pozwalające wyznaczyć liczbę grup, zrozumieć strukturę danych i określić grupy, które mogą być interesujące w dalszych badaniach. Przykład 5. Podsumowania analiz (sześciopak dla jakości) W STATISTICA charakterystyczne są zbiorcze podsumowania wyników analiz, umieszczane w jednym, graficznym dokumencie. Dobrym przykładem, pochodzącym z dziedziny zastosowań przemysłowych, a konkretnie Six Sigma, jest zbiór wykresów, który można nazwać projakościowym sześciopakiem. Znajdują się tam rozmieszczone na sześciu wykresach podstawowe wyniki analizy jakości procesu dla jednej zmiennej. STATISTICA oferuje wiele tego typu wykresów, które zawierają histogramy, wartości statystyk opisowych, wykresy normalności itp. (zob. rys. na następnej stronie). STATISTICA - Przewodnik 53

54 ROZDZIAŁ 2: PRZYKŁADY Analiza zdolności procesu wg DIN oraz ISO W ostatnich latach europejscy producenci opracowali standardy obliczania wskaźników zdolności procesu uwzględniające systematyczną i losową zmienność procesu oraz rozkłady zmiennej inne niż rozkład normalny. Standardy te, dotyczące głównie przemysłu samochodowego, są w pełni zaimplementowane w STATISTICA. Zdolność procesu jest miarą wskazującą, na bazie rozkładu normalnego, jaka część sztuk wyrobu będzie zgodna z zadanymi granicami specyfikacji. Jest to więc informacja o jakości procesu produkcji. Normy DIN oraz ISO podają zasady doboru odpowiedniego w danej sytuacji modelu rozkładu prawdopodobieństwa, a także jego zmienności w czasie. Na przykład jeśli zmienna w krótkim czasie (w ramach próbki) podlega rozkładowi normalnemu, ale średnia procesu podlega systematycznym bądź losowym fluktuacjom, to wynikowy rozkład zmiennej nie musi już być normalny. W wielu sytuacjach obliczanie wskaźników zdolności przy założeniu normalności rozkładu może prowadzić do wyników niezgodnych z rzeczywistością. Oczywiście stwierdzenie, że mamy w procesie do czynienia ze zmiennością będącą funkcją czasu oraz rozpoznanie typu tej zależności jest bardzo ważnym elementem diagnostyki procesu. 54 STATISTICA - Przewodnik

55 ROZDZIAŁ 2: PRZYKŁADY Poniższy przykład krok po kroku pokazuje, jak według wspomnianych, międzynarodowych standardów oblicza się wskaźniki zdolności procesu, a także jak powstaje zwarty, efektywny raport podsumowujący wyniki analizy. Dane do analizy. Przykład będzie bazował na znanym zestawie danych wykorzystywanym np. w podręczniku Montgomery ego (wydanie 1985, str. 177; wydanie 1991, str. 234). Dane są przygotowane i znajdują się w pliku Pistons.sta. W przykładowym procesie produkcji monitoruje się średnicę pierścieni tłokowych przeznaczonych do silników spalinowych. Próbki o stałej liczności wynoszącej pięć pierścieni pobierane są z bieżącej produkcji. Próbki pobiera się w zadanym odstępie czasu, co pozwala wykryć zmienność w czasie parametrów procesu. By otworzyć plik danych, klikamy strzałkę pod przyciskiem Otwórz na karcie Podstawowe wstążki. Spowoduje to rozwiniecie menu, z którego wybieramy polecenie Otwórz przykłady. Następnie w oknie Otwórz arkusz STATISTICA dwukrotnie klikamy folder Datasets, a potem dwukrotnie klikamy plik Pistons.sta. Analiza. Na karcie Statystyka w grupie Statystyki przemysłowe klikamy przycisk Analiza procesu. W wywołanym oknie Procedury analizy procesu wybieramy opcję Zdolność procesu wg ISO lub DIN (rozkład zależny od czasu). STATISTICA - Przewodnik 55

56 ROZDZIAŁ 2: PRZYKŁADY Klikamy OK i na karcie Podstawowe otrzymanego okna ISO Ustawienia analizy zdolności klikamy przycisk Zmienne. W oknie wyboru zmiennych jako Zmienną do analizy wybieramy zmienną Rozmiar, a jako wg... (zmn. grupująca lub czas) wybieramy zmienną Próbka, po czym klikamy OK. Następnie w oknie ISO Ustawienia analizy zdolności klikamy przycisk Specyfikacja, który wywołuje okno Wprowadź lub edytuj granice specyfikacji, gdzie podajemy specyfikację procesu. Specyfikacja to granice, w których mieścić się musi wielkość produktu. W tym przypadku podamy wartość nominalną średnicy pierścienia (74,00 mm) i dopuszczalną odchyłkę delta, która jest symetryczna i wynosi 0,05 mm. Program obliczy dolną i górną granicę specyfikacji: LSL=73,95 i USL=74,05. Po wpisaniu liczb klikamy OK. 56 STATISTICA - Przewodnik

57 ROZDZIAŁ 2: PRZYKŁADY W kolejnym oknie, na wielu kartach dostępne są liczne opcje modyfikujące reguły optymalnego wyboru rozkładu badanej zmiennej i modelu jego czasowej zależności, co jest konieczne dla poprawnego obliczenia wskaźników zdolności. Kliknięcie przycisku znajdującego się, jak zwykle, w prawym górnym rogu okna lub naciśnięcie klawisza funkcyjnego F1 wywołuje Podręcznik elektroniczny STATISTICA, gdzie znajdziemy opis wszystkich opcji. Opisane są tam też na przykład subtelne różnice między DIN i ISO. By kontynuować przykładową analizę, klikamy w oknie ISO Ustawienia analizy zdolności przycisk OK. Wyniki. By przejrzeć wyniki analizy, klikamy w oknie ISO Wyniki analizy zdolności przycisk Podsumowanie. STATISTICA - Przewodnik 57

58 ROZDZIAŁ 2: PRZYKŁADY Jak widać, wszystkie wymagane przez standard ISO oraz DIN szczegółowe wyniki dostępne są na jednym wykresie (można powiedzieć na jednej stronie) pozwalającym powziąć opinię co do zdolności, niezdolności lub wątpliwej zdolności procesu. Analiza systemu pomiarowego dla oceny alternatywnej Aby zobaczyć w STATISTICA inne zwarte podsumowanie podobnego typu jak wyżej, wykonajmy analizę zdolności systemu alternatywnej oceny jakości produktu. Każdy system pomiarowy w produkcji przemysłowej musi być weryfikowany, czy z wystarczającą dokładnością mierzy daną cechę produktu odpowiedzialną za jakość. Dotyczy to także sytuacji, gdzie produkty są jedynie kwalifikowane w sposób alternatywny, jako zgodne lub niezgodne ze specyfikacją. Dlatego co jakiś czas należy sprawdzić system pomiarowy dla oceny alternatywnej, poddając ocenie części referencyjne o różnych, lecz znanych wartościach odchyleń od specyfikacji. Procedura ta opisana jest w Podręczniku elektronicznym STATISTICA i oczywiście w podręczniku AIAG (Automotive Industry Action Group) Measurement System Analysis (MSA), rok Poniższy przykład dotyczy analizy opisanej w podręczniku MSA na str Dane. Z menu otwieranego poprzez naciśnięcie przycisku w lewym górnym rogu wstążki wybieramy polecenie Otwórz przykłady i w katalogu Datasets znajdujemy plik AttributeGageStudy.sta. Dane zawarte w tym pliku opisane są w podręczniku MSA na str. 84. Analiza. Na karcie Statystyka wstążki naciskamy przycisk Analiza procesu w grupie Statystyki przemysłowe. W wywołanym oknie Procedury analizy procesu wybieramy opcję Badanie miernika dla oceny alternatywnej i klikamy OK, otrzymując okno o takiej samej nazwie. Klikamy przycisk Zmienne i w oknie wyboru zmiennych wybieramy zmienną Nr części jako Numery części, zmienną Odchyłka jako Wartość odniesienia, a zmienną Zgodnych jako 58 STATISTICA - Przewodnik

59 ROZDZIAŁ 2: PRZYKŁADY Zgodność, po czym klikamy OK. W oknie Badanie miernika dla oceny alternatywnej, w grupie opcji Granica tolerancji ustalamy dolną granicę specyfikacji na poziomie 0,01. Zaznaczmy ponadto opcję Pokaż też inną granicę (opcja) i podajmy wartość granicy 0,01. Badamy więc system oceny alternatywnej, który powinien odrzucać części jako niezgodne ze specyfikacją, kiedy ich wielkość spada poniżej 0,01. Zmienna Zgodnych zawiera liczby odrzuceń części o danej odchyłce od nominalnej, w dwudziestu próbach. Wyniki. Klikając OK w oknie analizy uruchamiamy obliczenia i otrzymujemy okno Wyników, w którym klikamy przycisk Podsumowanie, by otrzymać wynik przedstawiony na rysunku powyżej. Zebrane są tam wszystkie ważne wyniki analizy, jak: odchylenie, powtarzalność, krzywa miernika. Więcej szczegółowych informacji na ten temat znaleźć można w Podręczniku elektronicznym. Przykład 6. STATISTICA Data Miner STATISTICA Data Miner (SDM) jest rozbudowanym narzędziem do modelowania. System zawiera szeroki zestaw narzędzi analizy danych, a także tworzenia, oceny i stosowania modeli. W SDM użytkownik ma do dyspozycji interakcyjną przestrzeń roboczą data mining, w której model jest przedstawiony w postaci rysunku (schematu lub grafu). W przestrzeni roboczej źródła danych, procedury oraz wyniki przedstawione są jako ikony (węzły), a przepływ danych symbolizują strzałki. Model budujemy, układając w przestrzeni roboczej węzły projektu i łącząc je strzałkami. Tego typu środowisko pracy jest prawdopodobnie standardem w data mining i stanowi potężną alternatywę dla tradycyjnego interfejsu użytkownika. Przestrzeń robocza nadaje się nie tylko do tworzenia i sprawdzania modeli data mining, ale stanowi również ogólne STATISTICA - Przewodnik 59

60 ROZDZIAŁ 2: PRZYKŁADY narzędzie do wizualnego programowania w celu realizacji rozmaitych scenariuszy analitycznych. Nową (pustą) przestrzeń roboczą tworzymy za pomocą poleceń Wszystkie procedury i Moje procedury z menu rozwijanego poprzez naciśnięcie przycisku Przestrzenie robocze w grupie Narzędzia na karcie Data mining wstążki. Na ekranie pojawi się pusta przestrzeń robocza. Źródło danych wstawimy do przestrzeni roboczej za pomocą przycisku. Przywołuje on okno Wybierz źródło danych, umożliwiające wskazanie danych do analizy. Po określeniu źródła danych na ekranie pojawi się okno Wybierz zmienne zależne i predyktory, umożliwiające określenie zmiennych do analizy. Węzły odpowiadające przekształceniom i analizom wstawiamy do przestrzeni roboczej za pomocą Przeglądarki węzłów uruchamianej przyciskiem. Do łączenia węzłów używamy przycisku. 60 STATISTICA - Przewodnik

61 ROZDZIAŁ 2: PRZYKŁADY Poniżej znajduje się wykonywany krok po kroku przykład modelowania za pomocą Przepisów STATISTICA Data Miner. Stanowią one innowacyjne środowisko pracy użytkownika opracowane przez StatSoft. Z Przepisów STATISTICA Data Miner mogą korzystać zarówno nowicjusze, jak i eksperci w dziedzinie data mining. Wprowadzenie do Przepisów STATISTICA Data Miner Przykład dotyczy Przepisów STATISTICA Data Miner, produktu StatSoft oferującego wiele metod predykcyjnego data mining. Ogólną tendencją w zgłębianiu danych (data mining) jest przywiązywanie coraz większej wagi raczej do ułatwienia wykonywania analizy, niż do opracowywania coraz bardziej wyrafinowanych metod. Przepisy STATISTICA Data Miner (ang. STATISTICA Data Miner Recipe, w skrócie SDMR) są alternatywą dla tradycyjnej przestrzeni roboczej i dają użytkownikowi możliwość korzystania z prostego w obsłudze środowiska tworzenia modeli predykcyjnych. Umożliwiają one zgłębianie danych osobom bez dużego doświadczenia i gruntownego przygotowania w tej dziedzinie. W Przepisach użytkownik tworzy model, wykonując krok po kroku pewien ogólny przepis, pozwalający uzyskać poprawne rozwiązanie. Środowisko Przepisów prowadzi użytkownika przez cały proces analizy. Przepisy mają zastosowanie do rozwiązywania rozmaitych problemów zgłębiania danych. Ponadto istnieje możliwość opracowania specjalnego Przepisu wykonującego specjalistyczne algorytmy i metody (np. opracowane w danej organizacji). STATISTICA - Przewodnik 61

62 ROZDZIAŁ 2: PRZYKŁADY Rozwiązanie (model) uzyskany na bazie Przepisu Data Miner można zastosować dla nowych danych. Uzyskany model możemy zapisać m.in. w języku C/C++, PMML albo wdrożyć w STATISTICA Enterprise. Przepis Data Miner obejmuje cały proces zgłębiania danych, od połączenia się ze źródłem danych do zastosowania wyników dla nowych obiektów. Ogólnie Przepis obejmuje następujące etapy: 1) Wskazanie źródła danych do analizy: - tabeli zdalnego przetwarzania (IDP), reprezentującej połączenie z bazami danych (zgodnymi z OLE DB lub ODBC), - arkusza STATISTICA. 2) Czyszczenie danych i usuwanie zbędnych predyktorów: - wygodne metody tworzenia losowych próbek danych (losowanie proste, warstwowe, systematyczne), - rozpoznawanie i wypełnianie braków danych, - wykrywanie nietypowych (odstających) wartości zmiennych i ich zastępowanie, - przekształcanie danych, - rozpoznawanie i usuwanie nadmiarowych predyktorów (tzn. zbędnych cech przenoszących tę samą informację co inne zmienne). 3) Znajdowanie wśród wszystkich cech tych, które rzeczywiście wpływają na zmienną zależną: - szybki dobór zmiennych dla ogromnych zbiorów danych zawierających dosłownie tysiące zmiennych, - wykorzystujące drzewa decyzyjne narzędzie doboru zmiennych z uwzględnieniem zależności wielowymiarowych (interakcji) i nieliniowych. 4) Tworzenie zestawu modeli z wykorzystaniem: - szerokiego zestawu najnowocześniejszych narzędzi zgłębiania danych, - możliwości przesłania złożonych obliczeniowo zadań na serwer STATISTICA Enterprise Server, aby umożliwić wykonywanie innych prac na stacji roboczej. 5) Porównawcza ocena modeli w celu znalezienia najlepszego z nich. 6) Wdrożenie modeli w celu wyznaczania przewidywanych wartości dla nowych danych. W Przepisach STATISTICA Data Miner wdrożono kolejne kroki procesu zgłębiania danych (data mining) w postaci środowiska zorientowanego na wyniki; począwszy od czyszczenia danych, a skończywszy na ocenie uzyskanego rozwiązania, Przepisy prowadzą użytkownika przez proces analizy, dzięki czemu szybciej uzyskuje on wyniki i odpowiedzi, przekładające się na konkretne działania. Jednocześnie system stosuje złożone narzędzia zgłębiania danych, a przy tym nie wymaga od użytkownika znajomości używanych algorytmów. 62 STATISTICA - Przewodnik

63 ROZDZIAŁ 2: PRZYKŁADY STATISTICA Data Miner zawiera mnóstwo narzędzi zgłębiania danych. Mówiąc ogólnie, metody te czerpią inspiracje z wielu dziedzin: statystyki, techniki, sztucznej inteligencji, nauk o poznaniu i innych. Metody te uczą się wzorców występujących w danych, aby wyznaczać nieznane wartości (np. ryzyko kredytowe lub ubezpieczeniowe, jakość procesu lub produktu, czas wystąpienia awarii urządzenia, diagnozę medyczną). W Podręczniku elektronicznym (str. 37) i jego internetowym wydaniu znajdują się opisy narzędzi, które zazwyczaj obejmuje się pojęciem zgłębianie danych (data mining). W praktyce w różnych zastosowaniach najlepiej sprawdzają się różne metody. Przykładowo inne podejście będzie najlepsze do przewidywania strat w ubezpieczeniach, a inne do przewidywania emisji zanieczyszczeń z kotła. Jednak istnieje typowe podejście (ciąg działań) od określenia danych i zadania, przez próbkowanie i dopasowanie modelu, do jego oceny które ma zastosowanie do praktycznie wszystkich zadań data mining. Przepisy umożliwiają zastosowanie takiego podejścia osobom bez dużego doświadczenia w data mining i szybkie przejście drogi od określenia zadania do uzyskania wyników przekładających się na konkretne działania. STATISTICA - Przewodnik 63

64 ROZDZIAŁ 2: PRZYKŁADY W tym podejściu po prostu realizujemy przepis, wykonując działania, które prowadzą do uzyskania rozwiązania. Większość tych działań jest całkowicie zautomatyzowana: użytkownik musi określić dane i zmienne, a program wykonuje resztę, tzn. tworzy próbę uczącą i testową, dobiera zmienne, sprawdza różne metody modelowania, ocenia wyniki, aby umożliwić wybór najlepszego modelu. Wszystkie te działania mogą być wykonywane na programie pracującym na stacji roboczej (lokalnie) albo na serwerze (wymaga to STATISTICA Enterprise Server). Pliki Przepisów STATISTICA Data Miner Zapisanie Przepisu na dowolnym etapie jego wykonywania powoduje utworzenie dwóch plików: Pliku projektu o rozszerzeniu nazwy.dmproj. Skoroszytu STATISTICA (str. 27, 146) o tej samej nazwie jak plik projektu, ale z rozszerzeniem.stw, zawierającego wyniki i szczegółowe informacje o każdym kroku Przepisu. Oba te pliki powinny znajdować się w tym samym katalogu. Przy kopiowaniu Przepisu, wysyłaniu go pocztą itp. należy zadbać, aby oba pliki znalazły się w tym samym katalogu. Poniżej omawiamy bliżej oba pliki. Plik projektu przepisu (.dmproj). Jest to plik XML (extensible markup language), zawierający zapis wszystkich wyborów użytkownika (i programu - automatycznie), w tym: ustawienia dla źródła danych, zmienne wskazane do analizy i ich właściwości (tzn. ilościowe i jakościowe wejścia i wyjścia), ustawienia przygotowania danych (np. obsługa braków danych, odrzucanie powtórzonych rekordów, przekształcenia zmiennych itp.), ostateczny wybór zmiennych do modelowania wykorzystujący techniki doboru zmiennych, wyniki tworzenia modeli, ich oceny oraz wyboru, wszystkie informacje potrzebne do stosowania modeli i przewidywania wartości dla nowych przypadków (np. obliczania skoringów, wyznaczania wartości składowych, znajdowania wartości właściwości procesu, szacowania ryzyka lub wyznaczania prawdopodobieństwa awarii). W pliku Przepisu zapisywane są wszelkie informacje potrzebne do automatycznego obliczania wartości przewidywanych, wyznaczania przynależności do klas i prawdopodobieństwa przynależności do klas (np. prawdopodobieństwa bankructwa), podczas wdrażania modeli w zastosowaniach korporacyjnych, takich jak zautomatyzowane systemy skoringowe czy systemy monitorowania jakości. Plik skoroszytu dla przepisu (.stw). Ten plik zawiera dokładne wyniki każdego etapu. Stanowią one pełną dokumentację przekształceń i analiz wykonanych w ramach Przepisu. 64 STATISTICA - Przewodnik

65 ROZDZIAŁ 2: PRZYKŁADY Dlatego jeśli analiza jest wykonywana w dziedzinie podlegającej ścisłemu nadzorowi (np. przemyśle farmaceutycznym) lub dotyczy zagadnień o krytycznym znaczeniu, zaleca się przechowywanie skoroszytu Przepisu wraz z projektem w STATISTICA Document Management System. Korzystanie z Przepisu STATISTICA Data Miner Niniejszy przykład pokazuje, jak wykonuje się zgłębianie danych w Przepisach STATISTICA Data Miner, przy czym najlepsze rozwiązania uzyskamy w wyniku automatycznego porównania wyników zastosowania różnych metod zgłębiania danych. W przykładzie zastosujemy Przepisy STATISTICA Data Miner do modelowania, wspierające decyzje o przyznaniu kredytu konsumpcyjnego. Wykorzystamy plik danych CreditScoring.sta. Zawiera on wartości 18 zmiennych dla wniosków kredytowych z przeszłości. Każdemu wnioskowi przypisano wartość tak (wniosek do zaakceptowania, 700 przypadków) bądź nie (wniosek do odrzucenia, 300 przypadków). Naszym celem jest zbudowanie modelu automatycznie oceniającego wnioski kredytowe na podstawie ich cech. Oprócz przewidywanej klasy model będzie również wyznaczał liczbową miarę szansy na trafienie do grup tak i nie. Tego typu zadanie jest często spotykane i określa się je nazwą skoringu kredytowego. Aby umożliwić ocenę modelu na próbie testowej, w zbiorze umieszczono zmienną Próba, wskazującą przypadki należące do próby uczącej i testowej. Najwygodniej będzie otworzyć zbiór danych na początku wykonywania przykładu: z menu otwieranego poprzez naciśnięcie przycisku w lewym górnym rogu wstążki wybieramy polecenie Otwórz przykłady (polecenie to znajduje się również w menu Plik, gdy wstążka jest wyłączona), następnie STATISTICA - Przewodnik 65

66 ROZDZIAŁ 2: PRZYKŁADY w oknie wyboru otwieranego pliku przechodzimy do folderu Datasets i dwukrotnie klikamy plik CreditScoring. Na karcie Data Mining wstążki naciskamy przycisk Przepisy Data Miner. Na ekranie pojawi się okno Przepisy Data Miner. Naciskamy w nim przycisk Nowy, aby utworzyć nowy przepis. Spowoduje to przejście na kartę Etapy okna Przepisy Data Miner. W górnym lewym rogu karty Etapy znajduje się panel z informacjami o poszczególnych etapach zgłębiania danych. Panel ten umożliwia przechodzenie między etapami i przeglądanie ich wyników. Ustawienia dla etapu wybranego w panelu dostępne są w prawej części okna Przepisy Data Miner. Cztery główne etapy to: Przygotowanie danych, Dane do analizy, Nadmiarowość i Zmienna docelowa. Etapy. Każdy etap może znajdować się w jednym z czterech stanów w zależności od tego, czy określono dla niego wszystkie ustawienia. Etapy, których nie można uruchomić, ponieważ nie wykonano wcześniejszych etapów, oznaczone są czerwonym iksem. Etapy, które można skonfigurować i uruchomić, oznaczane są żółtym znakiem zapytania, a wykonane już etapy wyróżnia zielony znak. Po określeniu ustawień dla etapu klikamy przycisk Następny etap, aby go uruchomić. Po pomyślnym wykonaniu etapu zostanie on oznaczony zielonym znakiem (wymaga to określenia wszystkich ustawień dla węzła). Jeśli nie chcemy wykonywać Przepisu krok po kroku, to po wskazaniu źródła danych i wybraniu zmiennych zaznaczamy pole Ustawienia wszystkich etapów. Etapy zostaną wtedy oznaczone granatowym znaczkiem. Możemy wtedy wybrać dowolny etap i określić dla niego ustawienia. Karta Opcje. Karta Opcje okna Przepisy Data Miner służy od określania ogólnych ustawień dla Przepisów. W szczególności dotyczą one próbkowania i maksymalnej wielkości pliku 66 STATISTICA - Przewodnik

67 ROZDZIAŁ 2: PRZYKŁADY umieszczanego w skoroszycie Przepisu. Część z tych ustawień musi być określona w chwili tworzenia i dlatego należy je określić przed tworzeniem nowego Przepisu. Ustawienia na karcie Opcje dotyczą tylko nowych przepisów tworzonych w ramach bieżącej sesji, aby uczynić je domyślnymi należy kliknąć przycisk Ustaw jako domyślne. Przygotowanie danych Źródło danych. Na karcie Przygotowanie danych klikamy przycisk Wybór źródła danych. Na ekranie pojawi się okno Proszę wybrać źródło danych z listą otwartych w STATISTICA źródeł danych. Z listy tej wybieramy CreditScoring (jeśli nie otworzylibyśmy go wcześniej, to możemy nacisnąć przycisk Pliki i otworzyć go teraz). Następnie klikamy przycisk Wybór zmiennych i określamy role zmiennych (przed wybieraniem zmiennych wygodnie jest zaznaczyć pole Pokazuj tylko zmienne o odpowiednie skali, zob. rysunek poniżej): Zmienna 1 (Ocena) będzie wyjściem jakościowym, Zmienne 3, 6 i 14 będą wejściami ilościowymi, Zmienne 2, 4-5, 7-13 oraz będą wejściami jakościowymi, Zmienna 19 będzie wyznaczała próbę testowa. Po wybraniu zmiennych klikamy przycisk OK. W zbiorze danych zdecydowanie więcej jest ocen pozytywnych, co może spowodować uzyskiwanie modeli zbyt często przewidujących ocenę pozytywną. W takim przypadku często uczy się model na próbie danych wylosowanej tak, aby obie przewidywane klasy występowały równie często (tzw. downsampling). W celu utworzenia zbilansowanej próby zaznaczamy pole Użyj próbki danych i przechodzimy na kartę Więcej okna Przepisy Data Miner. Następnie w grupie Próbka danych zaznaczamy pole Losowanie warstwowe i klikamy przycisk Więcej. Na ekranie otworzy się okno Losowanie warstwowe. Naciskamy w nim przycisk Zmienne grupujące i jako cechę wyznaczającą grupy (warstwy) wskazujemy Ocenę. Przy domyślnych ustawieniach program wylosuje próbę, zawierającą w przybliżeniu tyle samo dobrych i złych wniosków. Naciskamy przycisk OK, aby zatwierdzić domyślne ustawienia. STATISTICA - Przewodnik 67

68 ROZDZIAŁ 2: PRZYKŁADY Klikamy przycisk Następny etap, aby wykonać etap przygotowania danych. Po zakończeniu przetwarzania etap Przygotowanie danych zostanie oznaczony zielonym znakiem zamiast, a my automatycznie przejdziemy do kolejnego etapu: Dane do analizy. Dane do analizy Na karcie Dane do analizy klikamy przycisk Określanie próby testowej i wybieramy opcję Zmienna. Na liście Kod dla próby uczącej wybieramy Uczenie, a na liście Kod dla próby testowe Test i klikamy OK. Modele będą tworzone na podstawie przypadków z próby uczącej (tzn. tych, dla których zmienna Próba przyjmuje wartość Uczenie). Natomiast przypadki z próby testowej zostaną wykorzystane do sprawdzenia trafności przewidywań modeli. Dzięki ocenie modeli na przypadkach nieużywanych przy ich tworzeniu, możemy wiarygodnie porównać modele i wybrać ten, który jest rzeczywiście najlepszy. Statystyki opisowe. Na tym etapie obliczane są również statystyki opisowe wszystkich zmiennych uwzględnianych w analizie. Statystyki opisowe dostarczają użytecznych informacji o zakresie i rozkładzie branych po uwagę cech. W celu wykonania tego etapu i przejścia do kolejnego klikamy przycisk Następny etap. Nadmiarowość danych Teraz przechodzimy do etapu Nadmiarowość. Celem tego etapu jest usunięcie z dalszych analiz zmiennych, które przenoszą tę samą informację. Przykładem takich predyktorów jest masa ciała podana w kilogramach i funtach. Na karcie Nadmiarowość wybieramy Współczynnik korelacji i jako Wartość progową wpisujemy 0,8. Naciskamy przycisk Zastosuj kryterium nadmiarowości. Program sprawdzi, czy któreś wejścia (predyktory) mają współczynnik korelacji równy 0,8 lub więcej. W naszym zbiorze nie występują takie predyktory i program powiadomi nas o tym. 68 STATISTICA - Przewodnik

69 ROZDZIAŁ 2: PRZYKŁADY Klikamy OK i kończymy przygotowanie danych do analizy, naciskając przycisk Następny etap. Zmienna docelowa: tworzenie modeli Kolejny etap składa się następujących części dla każdej zmiennej docelowej: Ważne zmienne, Tworzenie modelu, Ocena i Wdrożenie. Częściom tym odpowiadają węzły podrzędne do węzła nazwanego, tak jak zmienna docelowa, w naszym przypadku Ocena. Ważne zmienne. Po wykonaniu etapu Nadmiarowość automatycznie przejdziemy do podetapu (węzła) Ważne zmienne. Jego celem jest zmniejszenie liczby cech branych pod uwagę przy modelowaniu, poprzez znalezienie tych, które najprawdopodobniej są związane ze zmienną docelową (w naszym przykładzie z Oceną). Zastosowanie tych predyktorów daje największą szansę na uzyskanie trafnego i użytecznego modelu. Znajdowanie najlepszych predyktorów bywa nazywane doborem cech (ang. feature selection). W Przepisach Data Miner dostępne są dwa sposoby doboru cech. Jeśli zaznaczymy Szybki dobór zmiennych, to program sprawdzi wpływ każdej zmiennej wejściowej (predyktora) z osobna. Pozwala to stosunkowo szybko znaleźć ważne zmienne nawet wśród tysięcy cech. Natomiast jeśli wybierzemy Zaawansowany dobór zmiennych, to przy doborze cech uwzględniony zostanie łączny wpływ wielu zmiennych, tzw. interakcje (np. lekarstwo inaczej wpływa na kobiety i mężczyzn). Podejście to jest bardziej czułe, ale wymaga dłuższych obliczeń, ponieważ program do oceny wpływu zmiennych stosuje drzewa decyzyjne C&RT. STATISTICA - Przewodnik 69

70 ROZDZIAŁ 2: PRZYKŁADY Włączamy Zaawansowany dobór zmiennych i naciskamy przycisk Zaawansowany dobór zmiennych, aby określić ustawienia dla doboru. Następnie w oknie ustawień w polu Liczba dobieranych zmiennych wpisujemy 12 i klikamy OK. Klikamy przycisk Następny etap, aby znaleźć ważne zmienne. Podsumowanie wykonanych do tej pory działań uzyskujemy, naciskając przycisk Raport i wybierając polecenie Raport podsumowujący. Na ekranie pojawi się skoroszyt z wynikami. Na rysunku powyżej widzimy raport podsumowujący dla doboru zmiennych (uwaga: ze względu na losowanie próby do analizy wyniki mogą się nieco różnić). W następnym etapie Przepisu będziemy modelować za pomocą nowoczesnych technik zgłębiania danych (data mining) wpływ wybranych zmiennych na Ocenę. Tworzenie modeli. Po wydaniu polecenia Raport podsumowujący aktywnym oknem stał się skoroszyt z wynikami, a okno Przepisy Data Miner zostało zminimalizowane aby je przywołać klikamy przycisk Przepisy Data Miner na pasku Analizy (domyślnie na dole okna STATISTICA). Znajdziemy się na karcie Tworzenie modelu. Na tej karcie mamy do dyspozycji różne metody modelowania związku zmiennej zależnej z wybranymi na poprzednim etapie cechami wejściowymi. Domyślnie wybrane metody to C&RT, Drzewa wzmacniane oraz Sieci neuronowe. 70 STATISTICA - Przewodnik

71 ROZDZIAŁ 2: PRZYKŁADY Tworzenie modeli można wykonać na swoim komputerze (lokalnie) lub na serwerze. Ta druga możliwość jest dostępna, gdy mamy licencję na STATISTICA Enterprise Server i połączenie z serwerem. Klikamy przycisk Twórz modele, aby wykonać obliczenia lokalnie. Dopasowanie ( nauczenie ) potrwa chwilę. Po zakończeniu obliczeń klikamy przycisk Następny etap. Ocena i wybór modelu. Po zakończeniu poprzedniego etapu znajdziemy się na karcie Ocena. W jej dolnej części widzimy zestawienie modeli i podstawową miarę ich trafności: udziałem błędnych przewidywań dla próby testowej. Najrzadziej, w około 31% przypadków mylą się Drzewa wzmacniane. Innymi słowy, model ten w około 69% przypadków trafnie przewiduje wartość zmiennej Ocena. Zwróćmy uwagę, że podobnie jak inne zaawansowane metody uczenia maszyn, drzewa wzmacniane mogą dawać nieco inne wyniki, ponieważ ich uczenie jest procesem losowym (na kolejnych etapach budowy modelu program losuje podpróby danych). Klikamy przycisk Oceń modele, aby dokładniej ocenić modele. Na ekranie pojawi się skoroszyt z dokładnymi testami modeli. Poniżej widzimy macierz pomyłek dla drzew wzmacnianych. W kolumnie Ocena mamy rzeczywiste wartości tej zmiennej, a dwie kolejne odpowiadają przewidywaniom modelu. I tak jeśli faktyczną Oceną było nie, to model w 84 przypadkach przewidywał wartość nie, a w 19 tak. W wierszu % z wiersza możemy odczytać, że dla faktycznej Oceny nie przewidywania modelu były trafne w ok. 82% przypadków, a błędne w 18%. Z praktycznego punktu widzenia oznacza to, że wyłapaliśmy 82% złych wniosków. Zazwyczaj macierz pomyłek daje dużo użyteczniejsza ocenę modeli, niż udział błędnych przewidywań dla wszystkich klas. Powracamy do okna przepisu i naciskamy przycisk Następny etap, aby przejść do wdrożenia rozwiązania. STATISTICA - Przewodnik 71

72 ROZDZIAŁ 2: PRZYKŁADY Wdrożenie Końcowy etap Wdrożenie polega na zastosowaniu najlepszego modelu w celu oceny nowych wniosków. Z poprzednich etapów wiemy, że najtrafniejsze przewidywania dał model wzmacnianych drzew. Na etapie wdrożenia możemy zapisać przewidywania do źródła danych o nowych klientach (arkusza STATISTICA lub bazy danych), wygenerować kod dla wdrożenia i przygotować wdrożenie w STATISTICA Enterprise. Możliwości te są bardzo użyteczne w praktyce. Na karcie Wdrożenie naciskamy przycisk Plik danych do wdrożenia. Dla przykładu zastosujemy model dla tych samych danych, dla których go nauczyliśmy: przechodzimy do podfolderu Examples Datasets i wskazujemy plik CreditScoring. Naciskamy przycisk Następny etap. Przewidywane klasy i prawdopodobieństwa wyznaczone z modeli możemy przejrzeć w skoroszycie z wynikami przepisu (przywoływanym poleceniem Raport podsumowujący z menu rozwijanego naciśnięciem przycisku Raport). Wyniki stosowania modeli umieszczane są w folderze Wdrożenie (zob. rysunek poniżej). 72 STATISTICA - Przewodnik

73 ROZDZIAŁ 2: PRZYKŁADY Podsumowanie Celem przykładu było przedstawienie, jak scenariusz zgłębiania danych zastosowany w Przepisach STATISTICA Data Miner ułatwia tworzenie i stosowanie modeli. Program prowadzi użytkownika przez proces zgłębiania danych od połączenia z danymi wejściowymi, przez przygotowanie danych i tworzenie modeli, aż do wybrania najlepszego modelu i zastosowania go. Zauważmy, że aby wykonać cały projekt użytkownik musi wykonać tylko kilka kliknięć myszą. Przepisy STATISTICA Data Miner automatycznie rozwiązują wiele problemów, co umożliwia szybkie przejście od sformułowania zadania do jego rozwiązania, nawet jeśli użytkownik nie ma dużego doświadczenia w analizie danych. Program stosuje i sprawdza zaawansowane techniki modelowania i automatycznie wybiera najlepszą z nich. Metodyka i środowisko użytkownika Przepisów STATISTICA Data Miner ułatwiają zastosowanie zaawansowanych metod zgłębiania danych (data mining) do rozwiązywania praktycznych problemów. ZARZĄDZANIE DANYMI Przykład 1. Formuły arkusza i przekształcenia wielu zmiennych W arkuszu STATISTICA możemy definiować nowe zmienne, które będą obliczane na podstawie innych zmiennych. Ponadto możemy sprawdzać zmienne, przekodowywać je i przekształcać. Operacje te możemy wykonywać za pomocą formuł arkusza (w tym wypadku program STATISTICA - Przewodnik 73

74 ROZDZIAŁ 2: PRZYKŁADY w jednym przebiegu oblicza wartości dla jednej zmiennej wynikowej, natomiast procedura Przekształcenia wielu zmiennych w jednym przebiegu wyznacza wartości wielu zmiennych). Formułę arkusza definiujemy w następujący sposób. Najpierw dwukrotnie klikamy nagłówek zmiennej w arkuszu. Na ekranie pojawi się okno definicji zmiennej (nazwane tak jak zmienna). Na dole tego okna w polu Długa nazwa (etykieta lub formuła z funkcją) wpisujemy formułę. Jeżeli wpisany w tym polu tekst zaczyna się do znaku równości, to program uzna go za formułę i sprawdzi jej poprawność. W formułach do zmiennych odwołujemy się przez ich nazwy (np. Test1, Dochód) lub numery (np. v1, v2, v3,...); v0 oznacza numer przypadku. Do formuł można dodawać komentarz poprzedzony średnikiem. Formuły arkusza obliczane są przypadek po przypadku. Dla każdego przypadku wyznaczana jest wartości formuły, przy czym odwołania do zmiennych zastępowane są ich wartościami dla bieżącego przypadku. W formułach możemy odwoływać się również do innych przypadków niż bieżący. Często stosowana jest np. funkcja Lag, zwracająca wartość bieżącej zmiennej dla wcześniejszego lub późniejszego przypadku. W poniższej tabeli znajduje się kilka przykładowych formuł arkusza i ich wyniki. Formuła Wynik =contains(v1, "B12C") 1 jeśli tekst B12C wystąpił w zmiennej nr 1, 0 w przeciwnym wypadku =(v1+v2+v3)/3 Średnia arytmetyczna wartości z trzech pierwszych zmiennych =(v0<=10)*1+(v0>10)*2 Dla przypadków od 1 do 10 wynikiem jest 1, a dla pozostałych 2 =((v1=1) AND (v2=5))*5 5 jeżeli zmienna nr 1 wynosi 1 i zmienna nr 2 wynosi 5, w przeciwnym wypadku 0 Wartość funkcji gęstości prawdopodobieństwa dla rozkładu =student(v4,15) t Studenta, dla t równego wartości zmiennej nr 4 i liczbie stopni swobody równej 15 =cusum(v3) Oblicza sumę skumulowaną zmiennej nr 3 Jeżeli v1 i v2 są zmiennymi liczbowymi, to wynikiem formuły =v1+v2 jest suma ich wartości. Natomiast gdy v1 i v2 są tekstowe, to wynikiem jest połączenie (sklejenie) zawartych w nich tekstów =vnormal(rnd(1), 50, 3) Generuje liczby losowe pochodzące z rozkładu normalnego o wartości oczekiwanej 50 i odchyleniu standardowym 3 =DTMonth(DTToday) Zwraca numer miesiąca dla obecnej daty, np. jeśli formuła zostanie obliczona w marcu, to jej wynikiem będzie 3 74 STATISTICA - Przewodnik

75 ROZDZIAŁ 2: PRZYKŁADY Formuła =match(v1, 1, 0, 2, 0, v1) =trunc((v0-1)/10) Wynik Porównuje wartość pierwszego argumentu z pierwszym argumentem z kolejnych par. Jeśli pierwszy argument równa się pierwszemu składnikowi pary, to zwraca wartość drugiego składnika pary. Jeśli nie zostanie znalezione żadne dopasowanie, to zwraca wartość ostatniego argumentu. Np. jeśli v1= 1 lub 2, to formuła obok da wynik 0, a dla innych wartości zwróci wartość zmiennej v1. Zwraca kolejne liczby całkowite, dla kolejnych dziesiątek przypadków, tzn. dla przypadku od 1 do 10 zwraca 0, od 11 do 20 zwraca 1 itd. Warto zauważyć, że kliknięcie przycisku przywołuje w oknie definicji zmiennej Przeglądarkę funkcji zawierającą wszystkie funkcje i operatory (=, +, >, and, or ), z których możemy korzystać w formułach arkusza. Formuła arkusza Otwieramy plik Adstudy.sta (str. 16). Utworzymy nową zmienną zawierającą średnią arytmetyczną zmiennych 3 do 25 (tzn. POMIAR1 do POMIAR23). Przechodzimy na prawą krawędź arkusza i dwukrotnie klikamy nagłówek pustej kolumny obok zmiennej POMIAR23. Na ekranie pojawi się okno Dodaj przypadki i/lub zmienne klikamy w nim przycisk OK, aby utworzyć jedną nową zmienną. Na ekranie wyświetlone zostanie okno określania nowej zmiennej. W polu Format wyświetlania wybieramy Liczby, a w polu Długa nazwa wpisujemy: =mean(v3:v25). STATISTICA - Przewodnik 75

76 ROZDZIAŁ 2: PRZYKŁADY Po kliknięciu OK program sprawdzi poprawność formuły. Jeśli jest ona poprawna, to zapyta nas, czy kontynuować. Klikamy Tak, aby wyznaczyć wartości nowej zmiennej jako średnie arytmetyczne zmiennych 3 do 25 w obrębie każdego przypadku. Ponieważ do zmiennych możemy się odwoływać również przez nazwy, taki sam wynik jak powyższy da: =mean(pomiar01:pomiar23). Jednoczesne przekształcanie wielu zmiennych Formuły arkusza są użyteczne do wyznaczania wartości pojedynczych zmiennych. Jednak jeśli za jednym zamachem chcemy określić wiele przekształceń dla wielu zmiennych, a zbiór danych jest duży, to lepiej stosować polecenie Przekształcanie wielu zmiennych. Poniżej na przykładzie zobaczymy, jak działa ta funkcja. Najpierw wczytujemy arkusz Characteristics.sta: na karcie Podstawowe wstążki klikamy strzałkę pod przyciskiem Otwórz i z menu wybieramy Otwórz przykłady. Następnie w oknie wybory pliku przechodzimy do katalogu Datasets i wybieramy potrzebny nam plik. W zbiorze Characteristics.sta zapisano dane pacjentów. W naszym przykładzie 1) obliczymy tzw. wskaźnik BMI dla pacjentów, 2) przeliczymy wzrost podany w calach na centymetry oraz dodamy te nowe zmienne do arkusza. Na karcie Dane wstążki naciskamy przycisk Przekształcanie wielu zmiennych - na ekranie otworzy się okno: Jedyne różnice w składni pomiędzy przekształceniami wielu zmiennych a formułami arkusza to: możliwość określania wzorów dla wielu zmiennych w oknie Przekształcanie wielu zmiennych, wzory w oknie Przekształcanie wielu zmiennych muszą zaczynać się od nazwy obliczanej zmiennej (np. v1=... lub Pomiar=...), ponieważ same wzory nie są przypisane do ustalonej zmiennej. 76 STATISTICA - Przewodnik

77 ROZDZIAŁ 2: PRZYKŁADY Wzory podane w oknie Przekształcanie wielu zmiennych możemy zapisać w arkuszu jako formuły dla zmiennych (zaznaczamy w tym celu pole Umieść te formuły w arkuszu (zastąp istniejące tam formuły)). Zauważmy, że spowoduje to zastąpienie ewentualnych wcześniej określonych formuł arkusza dla zmiennych wyznaczanych przez przekształcenia wielu zmiennych. W tabeli poniżej widzimy wzory i odpowiadające im formuły wpisywane w oknie Przekształcanie wielu zmiennych. Wzór Wpisywana formuła waga(lb) BMI *703 2 wysokość(cale) BMI = ('waga (lb)'/'wysokość (cale)' **2)*703 wysokość( cm) wysokość( cale) *2,54 'Wysokość (cm)' = 'wysokość (cale)' *2,54 W polu Formuły wpisujemy wzory dla obliczenia nowych zmiennych. Formuły wpisujemy w oddzielnych wierszach. Po wpisaniu formuł klikamy OK. Na ekranie pojawi się okno Dodać nowe zmienne?, w którym klikamy Tak, aby utworzyć nowe zmienne w pliku Characteristics.sta. Program sprawdzi poprawność formuł i jeśli nie wykryje błędów zapyta nas, czy kontynuować. Klikamy Tak, aby wykonać obliczenia. Program utworzy nowe zmienne BMI oraz Wysokość (cm) i obliczy ich wartości (nowe zmienne umieszczone będą na końcu arkusza). Przekształcenia wielu zmiennych są zoptymalizowane do obliczania wartości zmiennych dla dużych zbiorów danych. W szczególności program dokonuje tylko jednego odczytu danych: dla konkretnego przypadku wyznaczane są wyniki wszystkich formuł. Zmienne obliczane są jedna po drugiej, zgodnie z kolejnością wpisania formuł. Dzięki temu możemy korzystać ze zmiennych obliczonych już we wcześniejszych formułach. STATISTICA - Przewodnik 77

78 ROZDZIAŁ 2: PRZYKŁADY Omówienie ustawień w oknie Przekształcanie wielu zmiennych i listę tematów pomocy dotyczących formuł możemy jak zwykle uzyskać, klikając przycisk w prawym górnym rogu tego okna. Przykład 2. Arkusz Excela jako źródło danych Źródłem danych podlegających analizie w programach z rodziny STATISTICA może być nie tylko arkusz STATISTICA, ale również dokument Excel, otwarty jako jeden z dokumentów w oknie STATISTICA. 78 STATISTICA - Przewodnik

79 ROZDZIAŁ 2: PRZYKŁADY Na karcie Podstawowe wstążki naciskamy strzałkę pod przyciskiem Otwórz. Rozwinie to menu, z którego wybieramy polecenie Otwórz przykłady. Na ekranie pojawi się okno Otwórz, w którym z listy Pliki typu wybieramy Pliki Excela (*.xls, *.xlsx, *.xlsm). Następnie dwukrotnie klikamy folder Datasets i wskazujemy plik Weather report. Naciskamy przycisk Otwórz, co spowoduje przywołanie okna Otwierany plik. W oknie tym klikamy przycisk Otwórz jako skoroszyt Excela. Dokument Excela zostanie otwarty w oknie STATISTICA, a menu, paski narzędzi i wstążka (dla Excel 2007) STATISTICA i Excel będą wyświetlane jednocześnie, umożliwiając używanie narzędzi z obu programów. Uwagi techniczne. Aby otworzyć dokument Excela w oknie STATISTICA musimy mieć zainstalowany program Excel co najmniej w wersji Ponadto w systemie Vista standardowo nie jest możliwe otwarcie dokumentu w ten sposób, jeśli jest on zapisany w folderze Program files. Jeśli pracujemy w systemie Vista, należy wcześniej skopiować arkusz w inne miejsce lub uruchomić STATISTICA z uprawnieniami administratora (dla aplikacji) w tym celu klikamy skrót do programu prawym klawiszem myszy i z menu podręcznego wybieramy polecenie Uruchom jako administrator. Dla danych z Excela obliczymy statystyki opisowe: na karcie Statystyka wstążki naciskamy przycisk Statystyki podstawowe. Na ekranie na wstępie pojawi się okno przedstawione na rysunku poniżej. Okno to jest wyświetlane przy pierwszym wybraniu polecenia z menu Statystyka, Data Mining lub Wykresy po otwarciu dokumentu Excela w oknie STATISTICA. Zauważmy, iż program po zbadaniu arkusza Excela dobiera odpowiednie ustawienia, lecz możemy je zmienić. Dla naszego arkusza program przypisze nazwy zmiennych odczytane z pierwszego wiersza zakresu danych; jeżeli brak wiersza z nazwami, to automatycznie utworzone zostaną nazwy Var1, Var2, Var3 itd., podobnie jak w przypadku arkuszy STATISTICA. Pod uwagę będą brane wszystkie wartości w kolumnie, chyba że włączono warunki selekcji przypadków. Klikamy przycisk OK, aby zastosować domyślne ustawienia. Na ekranie pojawi się okno Przegląd i zmiana typów kolumn. Możemy określić typy danych stosowane w STATISTICA dla poszczególnych kolumn. Do dyspozycji mamy typ liczbowy, liczby z przypisanymi im etykietami i tekst. Puste komórki arkusza traktowane są jako braki danych, a teksty w kolumnie liczbowej również są uznawane za brak danych. STATISTICA - Przewodnik 79

80 ROZDZIAŁ 2: PRZYKŁADY Program STATISTICA proponuje typ dla kolumny na podstawie kilku pierwszych wierszy arkusza. Możemy oczywiście zmienić typ danych używany w STATISTICA dla kolumny: w tym celu wybieramy tę kolumnę i naciskamy przycisk Edycja (lub dwukrotnie klikamy nazwę kolumny). Na ekranie pojawi się okno Zmiana typu importowanej kolumny, gdzie wybieramy odpowiadającym nam typ. W naszym przypadku zastosujemy domyślne typy zmiennych: w oknie Zmiana typu importowanej kolumny klikamy Anuluj, a w oknie Przegląd i zmiana typów kolumn klikamy OK. Na ekranie pojawi się panel początkowy modułu Statystyki podstawowe i tabele. Dalej analizę prowadzimy tak jak wtedy, gdy źródłem danych jest arkusz STATISTICA. Uwaga: aby pominąć wyświetlanie okna Przegląd i zmiana typów kolumn w oknie Plik Excel anulujemy zaznaczenie pola Przegląd i zmiana typów kolumn przed importem. Przykład 3. Dostęp do danych z bazy MS SQL Server STATISTICA może korzystać z danych zapisanych w praktycznie wszystkich nowoczesnych systemach bazodanowych (w tym w zaawansowanych rozwiązaniach, takich jak: Oracle, Sybase itp.). Do pobierania danych z baz danych służy STATISTICA Query, uruchamiane poleceniami z podmenu Dane zewnętrzne zawartym w menu rozwijanego poprzez naciśnięcie strzałki pod przyciskiem Otwórz w grupie Plik wstążki. Za pomocą STATISTICA Query możemy wczytać dane z zewnętrznego źródła i zapisać je w arkuszu STATISTICA. STATISTICA Query do komunikacji z bazami danych wykorzystuje standard OLE DB. Standard ten jest oparty na technologii Component Object Model (COM). OLE DB jest uniwersalnym 80 STATISTICA - Przewodnik

81 ROZDZIAŁ 2: PRZYKŁADY sposobem komunikacji poprzez lokalną sieć komputerową i pozwala korzystać z danych przechowywanych lokalnie i na serwerach o różnej architekturze. W STATISTICA Query można za pomocą poleceń SQL wybierać rekordy (wiersze tabel) z wielu tabel z bazy danych. Użytkownik buduje zapytania w prostym środowisku graficznym. Może też dodatkowo korzystać z intuicyjnych opcji menu i okien dialogowych, a odpowiednie polecenia SQL są generowane automatycznie przez STATISTICA Query. Bez dogłębnej znajomości SQL można więc szybko i w prosty sposób tworzyć złożone i potężne zapytania. Można tworzyć kilka zapytań do tej samej lub różnych baz danych, tak by dane były zwracane do jednego arkusza danych, można też zarządzać połączeniami z wieloma zewnętrznymi bazami danych. Pobierzemy dane z przykładowej bazy danych SQL Server Northwind udostępnianej przez Microsoft (dostępnej na stronach tej firmy). Dla przykładu utworzymy nowe zapytanie do bazy danych. Na początek naciskamy strzałkę pod przyciskiem Otwórz w grupie Plik wstążki. Spowoduje to wyświetlenie menu, z którego wybieramy pozycję Dane zewnętrzne, a potem Utwórz zapytanie. Spowoduje to uruchomienie STATISTICA Query, a na ekranie pojawi się okno Połączenie z bazą danych. W tym oknie wybieramy istniejące już połączenie lub określamy nowe. My utworzymy połączenie, klikając przycisk Nowe. Na ekranie otworzy się okno Właściwości łącza danych (uwaga: jest to okno systemowe i w zależności od systemu operacyjnego i wersji OLE DB może wyglądać nieco inaczej). W oknie Właściwości łącza danych wybieramy dostawcę OLE DB, odpowiedniego dla systemu bazodanowego, z którym chcemy się połączyć. Możemy skorzystać z dostawcy OLE DB przygotowanego przez producenta bazy danych lub ze standardowego sterownika Microsoft. W naszym przykładzie będziemy pobierać dane z bazy MS SQL Server, a więc wybieramy pozycję Microsoft OLE DB Provider for SQL Server i klikamy Dalej. Na karcie Połączenie w polu Wybierz lub wprowadź nazwę serwera wpisujemy nazwę serwera bazy danych; możemy też wybrać ją z listy po kliknięciu strzałki obok tego pola. Następnie w grupie Wprowadź informacje o logowaniu określamy sposób uwierzytelniania. Jeśli uwierzytelnianie w systemie bazodanowym jest zintegrowane z logowaniem Windows, to włączamy opcję Użyj wbudowanych zabezpieczeń Windows NT. Natomiast jeśli wybierzemy Użyj określonej nazwy użytkownika i hasła, to w odpowiednich polach podajemy dane do uwierzytelniania. STATISTICA - Przewodnik 81

82 ROZDZIAŁ 2: PRZYKŁADY Po określeniu sposobu uwierzytelniania, z listy Wybierz bazę danych na serwerze wybieramy bazę Northwind. Zazwyczaj po określeniu połączenia dobrze jest sprawdzić, czy działa ono poprawnie: w tym celu klikamy przycisk Testuj połączenie. Jeśli dostaniemy komunikat, że połączenie się powiodło, klikamy przycisk OK. Na ekranie pojawi się okno Dodaj połączenie z bazą danych, w którym nadajemy nazwę połączeniu: np. Northwind i klikamy OK. Po kliknięciu OK powrócimy do okna Połączenie z bazą danych, w którym będzie już dostępne połączenie Northwind wybieramy je i klikamy OK. Na ekranie pojawi się okno STATISTICA Query z listą tabel bazy danych wyświetloną w lewym panelu. 82 STATISTICA - Przewodnik

83 ROZDZIAŁ 2: PRZYKŁADY Klikamy prawym klawiszem myszy tabelę Order Details i z menu podręcznego wybieramy polecenie Dodaj. Tabela zostanie umieszczona w prawym górnym panelu okna STATISTICA. STATISTICA - Przewodnik 83

84 ROZDZIAŁ 2: PRZYKŁADY Następnie powtarzamy tę czynność dla tabeli Products. Zauważmy, że program automatycznie określił złączenie dla tabel według pól ProductID obecnych w obu tabelach (zgodnie z ustawieniami bazy danych). Po wybraniu tabel wskazujemy, które kolumny chcemy pobrać. Wybierzemy wszystkie pola z pierwszej tabeli: klikamy ją prawym klawiszem myszy i z menu podręcznego wybieramy polecenie Wybierz wszystkie pola. Następnie podświetlamy pole ProductName w drugiej tabeli. Klikamy zakładkę Podgląd danych w prawym dolnym panelu, aby zobaczyć pobierane dane: Utworzone przez program wyrażenie SQL możemy przejrzeć na karcie Wyrażenie SQL. Pobieranie danych do arkusza STATISTICA uruchamia kliknięcie przycisku na pasku narzędzi STATISTICA Query. Na ekranie pojawi się okno Przesyłanie danych zewnętrznych do arkusza, w którym określamy sposób zapisania danych w arkuszu i wykonywania zapytania. Wybieramy opcję Nowy arkusz i klikamy OK, aby uruchomić zapytanie. Po chwili dane zostaną wyświetlone w arkuszu STATISTICA. 84 STATISTICA - Przewodnik

85 ROZDZIAŁ 2: PRZYKŁADY Teraz na danych z bazy danych możemy wykonywać operacje za pomocą narzędzi programu STATISTICA. Warto zauważyć, że w arkuszu zapisywane jest połączenie i zapytanie. Umożliwia to ponowne wykonanie zapytania w celu pobrania danych aktualnie znajdujących się w źródłowej bazie danych. Do aktualizacji danych służy polecenie Dane zewnętrzne - Odśwież dane z menu rozwijanego kliknięciem strzałki pod przyciskiem Otwórz w grupie Plik na karcie Podstawowe wstążki (jego odpowiednikiem jest klawisz F5). Przykład 4. Przygotowanie danych czyszczenie i filtrowanie Ogólny opis narzędzi do przygotowania danych W praktyce większość czasu w projektach analitycznych zajmuje przygotowanie danych. Czasem nawet 90% czasu i nakładu pracy pochłania wstępna obróbka danych. Przy budowie modeli przewidujących wartości zmiennych z wykorzystaniem narzędzi data mining, a nawet przy wyznaczaniu statystyk opisowych (średnich, liczności, parametrów rozkładów itp.), należy wziąć pod uwagę, że uzyskane wyniki mogą być mylące, jeśli dane są złej jakości. Przykładowo wyniki analizy mogą zostać zniekształcone przez wielokrotne powtórzenie danych o tym samym obiekcie (np. o kliencie, o tej samej wytworzonej jednostce), przez nietypowe obserwacje (wartości odstające), błędne wpisy (niezgodne z rzeczywistością). STATISTICA - Przewodnik 85

86 ROZDZIAŁ 2: PRZYKŁADY Sensowna analiza może być nawet niewykonalna, jeśli mamy bardzo dużo braków danych (pustych komórek w arkusz) lub zmienne są stałe. Na karcie Dane w grupie Przekształcenia znajduje się przycisk Czyszczenie danych, który otwiera menu z narzędziami do szybkiego i wydajnego rozwiązywania problemów z jakością danych, tak aby uzyskiwać prawidłowe i użyteczne wyniki analiz. Usuwanie powtórzeń To polecenie stosujemy, jeśli podejrzewamy, że w arkuszu powtarzają się dane dotyczące tego samego obiektu (np. klienta lub produktu). Rozważmy na przykład badanie dotyczące cech demograficznych klientów. Oczywiście w takiej analizie każda osoba powinna być brana pod uwagę tylko raz. Jednak nie możemy z góry wykluczyć, że ktoś zostanie wpisany do bazy danych klientów wielokrotnie (bo skorzystał z różnych produktów, kanałów sprzedaży, zmienił nazwisko itp.). Aby uniknąć wielokrotnego uwzględniania tego samego klienta, skorzystamy z polecenia Usuń powtórzenia i zmiennej jednoznacznie identyfikującej osobę (np. numeru PESEL). Przykład usuwania powtórzeń. Zaczynamy od otwarcia przykładowego pliku danych Duplicates.sta; z menu otwieranego poprzez naciśnięcie przycisku wybieramy polecenie Otwórz przykłady, przechodzimy do foldera Datasets i dwukrotnie klikamy Duplicates. Następnie przechodzimy na kartę Dane, naciskamy przycisk Czyszczenie danych w grupie Przekształcenia i z menu wybieramy polecenie Usuń powtórzenia. Spowoduje to przywołanie okna Odrzucanie powtórzonych przypadków. W oknie tym w grupie Wejście klikamy przycisk Zmienne, aby wskazać identyfikator obiektów (innymi słowy zmienną rozróżniającą przypadki: jeśli dwa przypadki mają taką samą wartość tej zmiennej, to oznacza, że powtarzają tę samą informację). W naszym przypadku identyfikatorem obiektów jest zmienna Respondent wybieramy ją z listy i klikamy OK. 86 STATISTICA - Przewodnik

87 ROZDZIAŁ 2: PRZYKŁADY W grupie Wejście klikamy przycisk Przypadki. Przywoła to okno Warunki selekcji przypadków umożliwiające określenie podzbioru przypadków, których dotyczyła będzie operacja. My usuniemy powtórzenie w całym zbiorze danych i dlatego w oknie Warunki selekcji przypadków klikamy przycisk Anuluj. Pole Stosuj nazwy przypadków domyślnie nie jest zaznaczone pozostawiamy to ustawienie bez zmian. Jeśli pole Stosuj nazwy przypadków jest zaznaczone, to program traktuje nazwy przypadków jako jeden z identyfikatorów obiektów. Przypadki z powtórzoną nazwą (i pozostałym identyfikatorami) będą wtedy usuwane. Anulujemy zaznaczenie pola Posortowane dane, albowiem nasze dane nie są uporządkowane według identyfikatora obiektów, tj. zmiennej Respondent. Warto zauważyć, iż w przypadku dużych zbiorów danych szybciej uzyskamy wynik, jeśli najpierw posortujemy dane. W grupie Wyjście obok przycisku Zmienne powinien widnieć napis WSZYSTKIE. Oznacza to, że w wynikowym arkuszu umieszczone zostaną wszystkie zmienne z arkusza wejściowego. Po kliknięciu przycisku Zmienne możemy wybrać zmienne umieszczane w wynikowym arkuszu. Upewnijmy się jeszcze, że wybrana jest opcja Utwórz nowy arkusz (jest to ustawienie domyślne). Zaznaczamy też pole Utwórz arkusz z powtórzeniami, a domyślne ustawienia pozostawiamy dla pozostałych dwu opcji: Zachowaj kolejność (niewybrana, arkusz będzie uporządkowany według zmiennej Respondent) i Skopiuj formaty (wybrana). Na koniec klikamy OK. Powstaną dwa nowe arkusze: pierwszy zawiera 10 zmiennych i 51 przypadków, a drugi 10 zmiennych i 9 przypadków. W pierwszym mamy oryginalne dane z odrzuconymi powtórzeniami, natomiast drugi zawiera właśnie te odrzucone przypadki. Wejściowy arkusza (Duplicates.sta) i wyjściowe arkusze są tak samo sformatowane. Do wynikowych tabel przenoszone są również cechy zmiennych z wejściowego arkusza. Zamykamy wynikowe arkusze, ale pozostawiamy otwarty arkusz Duplicates.sta. Zwróćmy uwagę, że składa się on z 10 zmiennych i 60 przypadków. Z menu przycisku Czyszczenie danych na karcie Dane ponownie wybieramy polecenie Usuń powtórzenia. Spowoduje to przywołanie okna Odrzucanie powtórzonych przypadków. W oknie tym w grupie Wejście klikamy przycisk Zmienne i wybieramy zmienną Respondent. Anulujemy zaznaczenie pól Posortowane dane i Utwórz nowy arkusz. Klikamy OK. Tym razem nie powstaną dwa nowe STATISTICA - Przewodnik 87

88 ROZDZIAŁ 2: PRZYKŁADY arkusze, lecz zmieniony zostanie arkusz Duplicates.sta. Po usunięciu powtórzeń będzie on zawierał 51 przypadków. Zauważmy, że program przy sprawdzaniu warunku na powtórzone przypadki nie rozróżnia dużych i małych liter. Przykładowo, jeżeli dla jednego przypadku zmienna Respondent przyjmuje wartość C. Barrett, a dla drugiego C. BARRETT, to drugi w kolejności zostanie uznany za powtórzenie. Usuwanie niepełnych danych Dość często zdarza się, iż w badanym zbiorze występują zmienne mające wartości tylko w nielicznych przypadkach. Przykładowo, możemy pytać każdego klienta o jego dochód, lecz większość z nich nie udzieli odpowiedzi. W wyniku tego w bazie danych będziemy mieli niewiele wartości dla zmiennej Przychód. W przypadku danych o procesie technologicznym zdarza się, że awarii ulegnie jeden z czujników i nie będziemy znali mierzonej przez niego właściwości. Uwzględnianie pustych zmiennych grozi uzyskaniem błędnych wyników lub niemożnością wykonania analizy (w zależności od tego, jak braki danych są obsługiwane przez stosowaną metodę). Dlatego przed rozpoczęciem właściwej analizy warto usunąć z arkusza puste zmienne za pomocą polecenia Usuń niepełne dane z menu przycisku Czyszczenie danych na karcie Dane. Usuwanie stałych zmiennych W rzeczywistych danych (zwłaszcza w zastosowaniach przemysłowych) często występują zmienne, które praktycznie dla wszystkich przypadków przyjmują tę samą wartość, innymi słowy są stałe. Ponieważ nie różnicują one przypadków, są bezużyteczne w typowej analizie. 88 STATISTICA - Przewodnik

89 ROZDZIAŁ 2: PRZYKŁADY Zmienne niewykazujące zmienności usuwamy z arkusza poleceniem Usuń stałe zmienne z menu przycisku Czyszczenie danych w grupie Przekształcenia na karcie Dane. Zamiana obserwacji odstających Nietypowe (odstające, ekstremalne) obserwacje mogą w znaczący sposób zniekształcić wyniki analizy (np. przewidywania modelu data mining). Nie ma uniwersalnej definicji wartości odstającej (nietypowej). Często najlepiej jest przejrzeć dane, korzystając z graficznych narzędzi programu STATISTICA, aby zidentyfikować nietypowe przypadki (np. możemy utworzyć wykres ramka-wąsy, aby wykryć i oznaczyć dziwne przypadki). Do automatycznego wykrywania i zamiany wartości odstających na inne służy polecenie Zamiana odstających z przycisku Czyszczenie danych w grupie Przekształcenia na karcie Dane. Umożliwia ono zastosowanie kilku popularnych testów na obserwacje odstające (m.in. testu Grubbsa). Wartości odstające możemy zamienić na braki danych lub poprawną wartość (np. średnią lub percentyl wybranego rzędu). STATISTICA - Przewodnik 89

90 ROZDZIAŁ 2: PRZYKŁADY Zamiana braków danych Z brakującymi (lub nieokreślonymi) wartościami zmiennych powinniśmy postępować w sposób odpowiedni dla prowadzonej analizy. Czasami wystąpienie braku danych jest użyteczną informacją. Przykładowo w badaniach marketingowych zdarza się, że respondent nie odpowie na osobiste pytania, np. o stan zdrowia, dochody itp. Odmowa udzielenia odpowiedzi sama w sobie jest istotną wskazówką i może być wykorzystywana do przewidywania np. lojalności klienta, skłonności do zakupu nowych produktów itp. 90 STATISTICA - Przewodnik

91 ROZDZIAŁ 2: PRZYKŁADY Braki danych zamieniamy na podane wartości, średnie lub mediany poleceniem Zamień braki danych z menu przycisku Czyszczenie danych w grupie Przekształcenia na karcie Dane. Umożliwia nam ono również określenie dodatkowych wartości uznawanych za kod braku danych (np. miernik przy przekroczeniu zakresu przesyła wartość 999) oraz wyłączanie zmiennych ze zbyt dużą liczbą braków danych. Znajdowanie wartości dla braków danych (metodą k najbliższych sąsiadów) Znalezienie odpowiedniej wartości, którą można zastąpić brak danych, zwykle nie jest łatwe. Czasami zamiana braków danych na pewną wartość (np. średnią) prowadzi do zaburzenia wyników analizy. Przykładowo w badaniu sondażowym wszyscy respondenci, którzy nie podali dochodu, mogą w rzeczywistości mieć wysoki dochód. Po zastąpieniu brakujących wartości średnią ze wszystkich uzyskanych odpowiedzi otrzymamy zniekształcone dane, mogące prowadzić do błędnych wniosków. Program STATISTICA zawiera wydajne narzędzie do wyznaczania wartości dla braków danych na podstawie innych przypadków zawartych w próbie. Narzędzie to wykorzystuje metodę k najbliższych sąsiadów, opisaną w Podręczniku elektronicznym (w rozdziale K najbliższych sąsiadów wprowadzenie opis modułu Inne metody uczenia maszyn). Polecenie Znajdź wartości dla braków danych (dostępne w menu przycisku Czyszczenie danych w grupie Przekształcenia na karcie Dane) działa w następujący sposób. Najpierw spośród danych wybierana jest próba zawierająca wzorce dla metody k najbliższych sąsiadów. Następnie jeśli w zmiennej wyjściowej dla pewnego przypadku wystąpi brak danych, to jest on zastępowany wartością wzorca, który jest najbliższy do tego przypadku, dla którego nie znamy wartości zmiennej (lub średnią z podanej liczby najbliższych wzorców). Przy wyznaczaniu odległości między przypadkami a wzorcami pod uwagę brane są wszystkie zmienne wejściowe. Wracając do naszego przypadku, respondent może nie podać dochodu, ale poda inne informacje związane ze swoją zamożnością (np. o tym, że posiada luksusowy samochód, duże mieszkanie itp.), na podstawie których metoda k średnich zgadnie, że osoba ta ma wysoki dochód. STATISTICA - Przewodnik 91

92 ROZDZIAŁ 2: PRZYKŁADY Metoda k najbliższych sąsiadów stanowi szybki i wydajny sposób znajdowania wartości dla braków danych. Wykorzystuje ona rozsądne przewidywania bazujące na wartościach zmiennych dla podobnych przypadków, które mamy w pliku w pliku danych. To podejście nie zakłada jakiejś konkretnej postaci zależności między zmiennymi, lecz po prostu korzysta z istniejących danych jako modelu. Scalanie plików danych STATISTICA umożliwia połączenie dwóch plików danych, aby uzyskać jedną tabelę ze wszystkimi danymi. Dołączać możemy zarówno zmienne, jak i przypadki. Sposób scalania plików określamy w oknie Opcje scalania. Okno to przywołujemy za pomocą przycisku Scal znajdującego się w grupie Operacje na arkuszach na karcie Dane wstążki, Tworzenie podzbioru Dosyć często zdarza się, że chcemy utworzyć arkusz zawierający wybrane zmienne i przypadki spełniające określony warunek. Dla przykładu otwórzmy plik danych Boston2 z katalogu Datasets (otwieramy go tak samo jak inny przykładowy arkusz Adstudy, zob. str. 16). Plik Boston2 zawiera ponad 1000 przypadków. Utworzymy arkusz zawierający tylko te przypadki, dla których zmienna Cena przyjmuje wartość Niska. Przechodzimy na kartę Dane wstążki i naciskamy przycisk Podzbiór w grupie Operacje na arkuszach. Na ekranie pojawi się okno: Naciskamy przycisk Przypadki. Przywoła to okno Warunki selekcji przypadków, umożliwiające określenie warunków dla przypadków, które trafią do podzbioru. Aby określić warunki, 92 STATISTICA - Przewodnik

93 ROZDZIAŁ 2: PRZYKŁADY zaznaczamy pole Włącz warunki selekcji i w grupie Włącz przypadki klikamy Określone przez. Następnie w polu Wyrażenie wpisujemy warunek cena="niska". Naciskamy przycisk OK, aby ustawić warunek wyboru przypadków i powrócić do okna Utwórz podzbiór. Podzbiór danych tworzymy, naciskając przycisk OK w oknie Utwórz podzbiór. Wynikowy arkusz składa się z 334 przypadków (a oryginalny miał przypadków) i wszystkich 15 zmiennych z wejściowego arkusza. Zmienna Cena przyjmuje wartość Niska dla wszystkich przypadków arkusza. WERSJE KORPORACYJNE Przykład 1. STATISTICA Enterprise Server przesyłanie zadań na serwer i pobieranie wyników STATISTICA Enterprise Server umożliwia korzystanie ze STATISTICA jako wydajnego, ułatwiającego współpracę wielu osób systemu do analizy danych i tworzenia wynikowych wykresów dla całej organizacji. Jedną z najważniejszych funkcji STATISTICA Enterprise Server jest wykonywanie czasochłonnych lub wielokrotnie powtarzanych zadań na serwerze, bez obciążania stacji roboczej użytkownika. Dzięki temu stacja robocza może być swobodnie wykorzystywana do zadań wymagających interakcji z użytkownikiem. Na serwerze możemy pracować, korzystając z przeglądarki internetowej (tzw. cienki klient ) lub ze zwykłej wersji STATISTICA (będącej wtedy tzw. grubym klientem ). Dostęp poprzez przeglądarkę pozwala korzystać ze STATISTICA Enterprise Server nieomal na dowolnym komputerze z zainstalowaną przeglądarką internetową, natomiast do używania grubego klienta wymagane jest zainstalowanie STATISTICA. STATISTICA Enterprise Server współpracuje ze zwykłą wersją STATISTICA, dzięki czemu w jednym środowisku użytkownika mamy do dyspozycji zwykłą wersję programu i system klient-serwer (o architekturze wielowarstwowej). Gruby klient ma ogólnie bogatszy STATISTICA - Przewodnik 93

94 ROZDZIAŁ 2: PRZYKŁADY i szybciej reagujący interfejs użytkownika, a ponadto można w nim korzystać ze wszystkich narzędzi zwykłej wersji STATISTICA. Przekazywanie zadania do wykonania w STATISTICA Enterprise Server. Na początek upewnijmy się, że współpraca obu wersji programu jest włączona. W tym celu klikamy przycisk Opcje w grupie Narzędzia karty Podstawowe wstążki. Następnie przechodzimy na kartę Serwer/Web okna Opcje (klikając jej nazwę w drzewie po lewej stronie tego okna). Zaznaczamy pole Współpraca z serwerem WebSTATISTICA. Jedyny wymagany parametr to pełna nazwa serwera (ewentualnie łańcuch połączenia, jeśli zastosowano niestandardowe ustawienia). Informacje niezbędne do połączenia z serwerem powinny być dostępne u administratora systemu. Jeżeli serwer STATISTICA Enterprise Server dopuszcza zintegrowane logowanie, to można automatycznie uwierzytelniać się w systemie użytkownik nie musi wtedy podawać swojego identyfikatora i hasła. Zintegrowane logowanie włączamy na stacji roboczej poprzez zaznaczenie pola Zintegrowane logowanie. Jeśli funkcja ta nie jest włączona, to rozpoczynając pracę ze STATISTICA Enterprise Server, będziemy musieli podawać nazwę użytkownika i hasło. Po ustawieniu opcji połączenia klikamy przycisk OK. Przy włączonej współpracy z serwerem na wstążce uaktywnia się karta Serwer. 94 STATISTICA - Przewodnik

95 ROZDZIAŁ 2: PRZYKŁADY Aby móc wykonywać operacje w STATISTICA Enterprise Server, na karcie Serwer klikamy przycisk Zaloguj. Jeśli działa zintegrowane logowanie, to zostaniemy zarejestrowani w systemie z bieżącą nazwą użytkownika i hasłem używanym w Windows. W przeciwnym wypadku lub gdy zintegrowane logowanie się nie uda, system poprosi nas o podanie nazwy użytkownika i hasła. Po udanym uwierzytelnieniu polecenia menu Serwer staną się aktywne. Polecenia Otwórz, Zapisz i Zapisz jako z grupy plik służą do otwierania dokumentów z serwera (z repozytorium STATISTICA Enterprise Server) i zapisywania ich na nim. Natomiast polecenia Pobierz plik i Prześlij plik w grupie Przesyłanie umożliwiają pobranie z serwera i przesłanie na serwer dowolnego dokumentu. Uwaga: Chociaż w rzeczywistości zadania wymagające długiego czasu obliczeń i dużych zasobów (pamięci RAM, miejsca na dysku itp.) dotyczą wielkich zbiorów danych i metod iteracyjnych, w naszym przykładzie wykonamy krótkotrwałą i stosunkowo prostą analizę. Jednak nawet gdy przeprowadzenie pojedynczych obliczeń nie wymaga dużo czasu i zasobów, możemy chcieć wykonać skomplikowaną, wieloetapową analizę, której kolejne kroki będą uruchamiane w określonych odstępach czasu. W takim przypadku harmonogram zadań systemu STATISTICA Enterprise Server może sterować uruchamianiem poszczególnych etapów analizy, którym odpowiadają przesłane na serwer makra (np. zarejestrowane podczas interakcyjnej pracy w STATISTICA). W naszym przykładzie nagrywamy makro odpowiadające Przykładowi 2. ANOVA (str. 38). Po wykonaniu analizy w oknie ANOVA Wyniki klikamy przycisk Opcje (znajdujący się na dole tego okna) i z menu wybieramy polecenie Utwórz makro, po czym zatwierdzamy domyślne ustawienia w kolejnym oknie Nowe Makro, klikając przycisk OK. Sprawdzamy makro, uruchamiając je (naciskając klawisz F5), aby upewnić się, że działa poprawnie. Uaktywniamy okno makra, klikając je myszą. Następnie na karcie Serwer naciskamy przycisk Wykonaj zdalnie. Na ekranie pojawi się okno Przekazywanie zadania na serwer. W oknie tym określamy zadanie do wykonania na serwerze: może to być makro lub projekt STATISTICA Data Miner. Ponadto decydujemy, na jakich danych ma zostać wykonane zadanie: może to być aktualnie przez nas wykorzystywane źródło danych (i wtedy jest ono przed analizą przesyłane na serwer), arkusz danych zapisany na serwerze lub połączenie do bazy danych. STATISTICA - Przewodnik 95

96 ROZDZIAŁ 2: PRZYKŁADY Ponieważ mamy otwarty arkusz danych (Adstudy.sta) i makro (wykonujące naszą przykładową analizę), domyślnym wyborem jest użycie do wykonania analizy otwartego pliku. My jednak zmienimy źródło danych na arkusz przechowywany na serwerze. Przetwarzanie plików z serwera jest korzystne zwłaszcza wtedy, gdy analizujemy duże zbiory danych (makro można wtedy nagrać i sprawdzić na niewielkim podzbiorze, a właściwą, czasochłonną analizę wykonać na serwerze) oraz gdy z danych korzysta wiele osób i są one na bieżąco zmieniane. Aby przeanalizować dane przechowywane na serwerze, w grupie Źródło danych zaznaczamy przycisk opcji obok napisu Proszę wybrać plik danych przechowywany na serwerze. Na ekranie pojawi się okno Repozytorium WebSTATISTICA. 96 STATISTICA - Przewodnik

97 ROZDZIAŁ 2: PRZYKŁADY W oknie tym przedstawione są katalogi repozytorium dokumentów STATISTICA Enterprise Server (część obiektów może być niewidoczna ze względu na brak uprawnień). Klikamy folder Datasets w lewym panelu i wybieramy plik Adstudy.sta w prawym panelu (możemy też wpisać ścieżkę dostępu w polu edycji na dole okna). Po wskazaniu pliku klikamy OK, najpierw w oknie Repozytorium WebSTATISTICA, a potem Przekazywanie zadania na serwer. STATISTICA prześle zadanie do wykonania na serwerze. Możemy teraz wykonywać inne działania na swoim komputerze, sprawdzając co jakiś czas, czy zadanie zostało już wykonane, klikając przycisk Stan na karcie Serwer. Poniżej widzimy okno z informacją o zadaniach na serwerze. Stan zadań może być aktualizowany albo na żądanie po kliknięciu przycisku Odśwież, albo automatycznie, jeśli zaznaczone jest pole Automatycznie (obie te kontrolki znajdują się na dole, po prawej stronie okna Stan zadań). Zadanie może oczekiwać na uruchomienie (Pending), może być uruchomione (Running), zakończone pomyślnie (Completed) lub zakończone z błędem (Script Error). Jeśli wykonanie zadania nie powiedzie się, to po kliknięciu jego nazwy otrzymamy dokładniejszy opis błędu. Po rozwiązaniu problemu (np. skorygowaniu skryptu SVB lub projektu Data Miner) możemy zlecić jego uruchomienie, naciskając przycisk Prześlij ponownie. Po pomyślnym wykonaniu zadania możemy pobrać jego wyniki. Zauważmy, że wyniki zapisywane są na serwerze i dzięki temu mogą je przeglądać wszystkie osoby mające odpowiednie uprawnienia, bez względu na lokalizację i komputer, z którego korzystają. W grupie Wyniki zaznaczamy pole Zadanie, aby pobrać skrypt, a pole Dane, aby pobrać dane. Jeśli chcemy obejrzeć wyniki w przeglądarce to zaznaczamy pole W przeglądarce. Ta możliwość jest szczególnie użyteczna, gdy wyniki mają dużą objętość, np. składają się z wielu dużych arkuszy i wykresów wielu punktów danych. Możemy wtedy przejrzeć wyniki w przeglądarce i pobrać STATISTICA - Przewodnik 97

98 ROZDZIAŁ 2: PRZYKŁADY do STATISTICA tylko interesujący nas arkusz lub wykres. Przycisk Raport połączenia umożliwia uzyskanie informacji o przesyłanych danych. Aby zaoszczędzić miejsce na dysku, za każdym razem po pobraniu wyników serwer może usuwać je ze swych zasobów (jeśli zaznaczone jest pole Usuń zadanie po pobraniu). Gdy nasze zadanie zostanie pomyślnie wykonane, pobieramy jego wyniki i zamykamy okno Stan zadań. Wyniki zostaną wyświetlone w STATISTICA, tak jakby były utworzone lokalnie. Przykład 2. STATISTICA w zastosowaniach wymagających wysokiego bezpieczeństwa W zastosowaniach, w których obowiązują regulacje w zakresie bezpieczeństwa, np. w badaniach klinicznych, wytwarzaniu leków i kosmetyków, zapewnieniu jakości produktów, często wymagane jest stosowanie tzw. Dobrej Praktyki Wytwarzania (Good Manufacturing Practices) lub podobnych zasad działania, np. Dobrej Praktyki Laboratoryjnej (ang. Good Laboratory Practices) czy Dobrej Praktyki Badań Klinicznych (ang. Good Clinical Practices); ogólnie podejścia tego typu określamy skrótem GxP. Proces wykonywania analiz dla takich zastosowań (jak również w innych dziedzinach wymagających wysokiego bezpieczeństwa) musi spełniać specjalne wymogi, w szczególności dotyczące kontroli zmian i śledzenia operacji wykonywanych przez użytkowników. W STATISTICA do ich spełnienia służą opcje Zabezpieczanie raportów oraz Dziennik zmian (Audit trail). Podsumowując, można powiedzieć, że program STATISTICA może podlegać walidacji. 98 STATISTICA - Przewodnik

99 ROZDZIAŁ 2: PRZYKŁADY Mamy trzy warunki konieczne do spełnienia wymogów GxP: 1) kontrola danych wejściowych podlegających analizie (musimy wiedzieć, kto dokonał zmian, kiedy i dlaczego oraz jakie były wartości przed zmianą, a jakie po zmianie), 2) zabezpieczenie wynikowych tabel i wykresów (zagwarantowanie, że nie zostały one w żaden sposób zmienione po utworzeniu), 3) zapewnienie zachowania informacji, dla której wersji źródłowego arkusza danych uzyskano wyniki. STATISTICA dostarcza tę informację, jeśli włączono dziennik zmian dla arkusza i zabezpieczanie raportów. Pełną historię i wersjonowanie dla dokumentów uzyskuje się, stosując STATISTICA Document Management System opisany w Podręczniku elektronicznym. Kontrola danych wejściowych Włączanie dziennika zmian Otwieramy dowolny arkusz STATISTICA. Na karcie Narzędzia naciskamy przycisk Dziennik zmian i wybieramy polecenie Ustawienia. Na ekranie pojawi się okno przedstawione poniżej. Zaznaczamy pole Włącz zapis zmian i naciskamy OK, aby uruchomić dla arkusza tworzenie dziennika zmian. Zwróćmy uwagę, iż włączenie dziennika powoduje przejście do trybu bezpośredniego, co oznacza, że wszystkie zmiany arkusza są natychmiast zapisywane na dysku. W związku z tym nie można cofać działań wykonanych na arkuszu. Zaznaczamy również pole Żądaj podania przyczyny zmiany, aby osoba modyfikująca dane musiała podać przyczynę zmiany. Przycisk Wyczyść dziennik jest dostępny, tylko gdy dziennik był już wcześniej włączony dla arkusza i z arkuszem skojarzona jest Przeglądarka dziennika. Kliknięcie przycisku Wyczyść dziennik powoduje usunięcie wszystkich wpisów z dziennika. Przed wykonaniem tej operacji zostaniemy poproszeni o potwierdzenie, a fakt jej wykonania zostanie zapisany w dzienniku. Klikamy OK w oknie Ustawienia dziennika zmian. Dziennik zostanie włączony, a my zostaniemy poproszeni o podanie przyczyny zmiany (polegającej na włączeniu dziennika). Na ekranie pojawi się okno Podaj powód zmiany, w którym wpisujemy motywację włączenia dziennika i klikamy OK. Następnie, aby zilustrować działanie dziennika, dodajemy nową zmienną. Klikamy prawym klawiszem myszy nagłówek ostatniej zmiennej w pliku i z menu podręcznego wybieramy polecenie Dodaj zmienne. W oknie Dodaj zmienne akceptujemy ustawienia domyślne poprzez naciśnięcie OK. Wyświetlone zostanie okno Podaj powód zmiany, w którym STATISTICA - Przewodnik 99

100 ROZDZIAŁ 2: PRZYKŁADY musimy określić powód dodania zmiennej. Po wpisaniu przyczyny i kliknięciu OK nowa zmienna zostanie dołączona do arkusza. Aby zobaczyć rejestr zmian na karcie Narzędzia, naciskamy przycisk Dziennik zmian i wybieramy polecenie Pokaż dziennik. Dziennik jest wyświetlany jako tabela zawierająca numer kolejnej operacji, czas jej wykonania, nazwę stanowiska i użytkownika, kategorię i nazwę działania, podany przez użytkownika powód zmiany i inne. Szerokość kolumn dostosowujemy w standardowy dla Windows sposób. Dziennik zapisywany jest razem z danymi arkusza. Zabezpieczanie a szyfrowanie hasłem. Arkusz możemy zaszyfrować lub zabezpieczyć. Zauważmy, że zabezpieczanie czyni wybrane składowe arkusza dostępnymi tylko do odczytu, nie pozwalając użytkownikowi dokonywać zmian w niektórych składowych arkusza albo w całym arkuszu. Arkusz może być otwierany przez wszystkich użytkowników, ale zablokowane składowe nie mogą być modyfikowane. Użycie hasła blokującego jest zalecane, ale nie jest wymagane. Natomiast szyfrowanie hasłem polega na zabezpieczaniu arkusza przed nieupoważnionym otwieraniem. W takim przypadku arkusz można otworzyć tylko po uprzednim wpisaniu hasła. Arkusz możemy jednocześnie zaszyfrować i zabezpieczyć hasłem. Szyfrowanie arkusza Otwieramy dowolny arkusz STATISTICA. Klikamy przycisk w lewym górnym rogu wstążki i z menu wybieramy polecenie Właściwości. Na ekranie pojawi się okno Właściwości dokumentu, w którym przechodzimy na kartę Hasło. 100 STATISTICA - Przewodnik

101 ROZDZIAŁ 2: PRZYKŁADY W polu Hasło dokumentu wpisujemy hasło i klikamy OK. W następnym oknie podajemy hasło ponownie, aby je potwierdzić. Zauważmy, że w hasłach rozróżniane są małe i duże litery. Po zapisaniu pliku, przy każdej następnej próbie jego otwarcia wymagane będzie podanie hasła. Zabezpieczanie arkusza Do spełnienia wymogów bezpieczeństwa, wymagane jest zapewnienie wiarygodności danych, co najczęściej wiąże się z uniemożliwieniem ich zmieniania. Za pomocą funkcji zabezpieczania arkusza możemy zablokować modyfikowanie wszelkich właściwości arkusza: poczynając od sposobu prezentacji danych (np. wyświetlanych składników arkusza i formatu zmiennych), a skończywszy na wartościach danych, warunkach selekcji i wagach przypadków. Oczywiście niekiedy musimy zmienić dane (np. gdy popełniono błąd przy wprowadzaniu danych). Jeśli włączymy dziennik (przedstawiony powyżej), to fakt modyfikacji danych zostanie zapisany. W STATISTICA Enterprise ustawienia dla dziennika może zmieniać tylko użytkownik z uprawnieniami administratora systemu. Bliższe informacje na ten temat można znaleźć w tematach poświęconych STATISTICA Enterprise w Podręczniku elektronicznym. Przy aktywnym oknie arkusza, na karcie Narzędzia naciskamy przycisk Zabezpiecz. Na ekranie pojawi się przedstawione poniżej okno, w którym wskazujemy zabezpieczane składniki i ustawienia arkusza. Jeśli później użytkownik będzie chciał zmienić zabezpieczony składnik lub ustawienie, to zostanie poinformowany o zablokowaniu możliwości zmian. Pole Danych arkusza zaznaczamy, aby chronić przed modyfikacją wartości zmiennych. Użytkownicy nie będą mogli zmieniać wartości kodów braków danych oraz wykonywać operacji zarządzania danymi zmieniających arkusz (wybierać inny typ dla zmiennych, modyfikować długość zmiennych tekstowych itp.). Natomiast jeżeli pole Danych arkusza nie jest zaznaczone, to edycja danych (poprzez wpisanie wartości z klawiatury, odświeżenie zapytania do bazy danych itd.) będzie dozwolona. STATISTICA - Przewodnik 101

102 ROZDZIAŁ 2: PRZYKŁADY Po zaznaczeniu pola Układu (czcionki, formaty) chroniony jest sposób prezentacji danych w arkuszu. Nie będzie można zmieniać czcionek, kolorów itp. w arkuszu. Ponadto niedostępne będą również globalne zmiany układu wykonywane poleceniami z menu rozwijanego przez kliknięcie przycisku Układy w grupie Arkusz na karcie Format. Zaznaczenie pola Selekcji i wag przypadków powoduje uniemożliwienie zmian stanu selekcji i wag przypadków (tzn. włączania i wyłączania ich), warunków wyboru przypadków do analizy, zmiennej z wagami przypadków itp. Niedostępne ( zaszarzone ) będą polecenia z menu Narzędzia Selekcja i odpowiadające im przyciski pasków narzędzi (poza opcją Edycja pozwalającą w przypadku włączenia ochrony tylko przeglądać warunki, zmieniać format dla przypadków spełniających warunki i utworzyć nowy arkusz z przypadkami spełniającymi aktualne warunki selekcji). Podobnie nie będziemy mogli korzystać z większości funkcji okna Warunki selekcji przypadków. W oknie Wagi przypadków dla arkusza niedostępne będą wszystkie kontrolki. Po zaznaczeniu pola Definicji zmiennych chronione będą ustawienia zmiennych, takie jak: typ, skala pomiarowa, kod braku danych, format wyświetlania. Użytkownicy będą mogli przeglądać ustawienia w oknie określania zmiennej (przywoływanym dwukrotnym kliknięciem myszy nagłówka zmiennej) i Edytorze specyfikacji zmiennych (przywoływanym poleceniem Dane Specyfikacje wszystkich zmiennych), ale nie będą mogli ich zmieniać. Pole ustawień dziennika zaznaczamy, aby uniemożliwić zmiany ustawień dla śledzenia modyfikacji arkusza. Po wybraniu chronionych składników i ustawień, na dole okna Zabezpiecz arkusz podajemy hasło i klikamy OK. Chociaż nie musimy podawać hasła, jest to zdecydowanie zalecane. Jeśli nie określimy hasła, to każdy będzie mógł wyłączyć ochronę arkusza, po prostu anulując zaznaczenia w oknie Zabezpiecz arkusz. Jeśli hasło dla ochrony zostało już wcześniej podane, to warunkiem wykonania zmiany ustawień w oknie Zabezpiecz arkusz jest podanie prawidłowego hasła. Po włączeniu ochrony arkusza możemy spróbować zmienić arkusz. Program wyświetli wtedy komunikat, że czynność nie może być wykonana, ze względu na ochronę arkusza. Zabezpieczenie wyników i powiązanie ich z wersją danych Do spełnienia wysokich wymogów bezpieczeństwa należy zabezpieczyć wyniki przed modyfikacją oraz powiązać je z arkuszem danych. W programie STATISTICA możemy włączyć tryb zgodności z takimi wymogami (związanymi np. z GxP). Wyniki są wtedy przesyłane do raportu (zob. str. 148), który jest chroniony przed modyfikacjami. Wszystkie polecenia i kontrolki dotyczące usuwania (Wytnij, Wyczyść, Przenieś itp.) i wstawiania zawartości raportu (Wklej, Wstaw itp.) są wtedy niedostępne. Do raportu automatycznie mogą być wstawiane informacje o czasie utworzenia raportu oraz umieszczaniu w nim obiektu (arkusza lub wykresu), informacje o użytkowniku i stanowisku, na którym utworzono raport. Dzięki temu wiemy, kiedy wygenerowane zostały wyniki i przez kogo, a ponadto mamy pewność, że wyniki nie zostały przez kogoś zmienione. 102 STATISTICA - Przewodnik

103 ROZDZIAŁ 2: PRZYKŁADY W zabezpieczonym raporcie mogą być również umieszczane informacje o wersji arkusza (gdy dostępne jest wersjonowanie dokumentów). Jeżeli włączony jest dziennik zmian, to program automatycznie umieści w zabezpieczonym raporcie numer wersji arkusza, na podstawie którego utworzono arkusz lub wykres. Jeśli numer wersji nie jest dostępny (bo np. nie włączono dziennika lub źródłem danych jest tabela zdalnego przetwarzania (IDP), zob. str. 237), to w raporcie umieszczona zostanie informacja, dlaczego brakuje numeru wersji. Tworzenie zabezpieczonego raportu Na karcie Podstawowe wstążki naciskamy przycisk Opcje w grupie Narzędzia. Następnie przechodzimy na kartę Globalne ustawienia wyjścia i z listy Wyjście do raportu wybieramy Wiele raportów (osobne dla każdej analizy lub wykresu) lub Jeden raport (wspólny dla wszystkich analiz lub wykresów). Po wybraniu jednej z tych możliwości będziemy korzystać z ustawień w grupie Zabezpieczanie raportów. Zaznaczamy pole Zablokuj, aby uniemożliwić zmienianie zawartości raportów przez użytkownika (polecenia Wytnij, Wyczyść, Zmień nazwę, Właściwości, Wstaw, Pobierz do oddzielnego okna Przenieś będą niedostępne). Aby w raporcie automatycznie umieszczać informacje o czasie utworzenia, użytkowniku (i ewentualnie dodatkowy komentarz), w polach Notka o tworzeniu i Notka o czasie wpisujemy kody: STATISTICA - Przewodnik 103

104 ROZDZIAŁ 2: PRZYKŁADY &[Data], &[Czas], &[Użytkownik] i &[Komputer]. Inne teksty wpisane w tych polach będą po prostu wstawiane do raportu. Klikamy OK w oknie Opcje i wykonujemy analizę, np. Statystyki opisowe. Po kliknięciu przycisku Podsumowanie wyniki zostaną umieszczone w zabezpieczonym raporcie wraz z dodatkowymi informacjami o użytkowniku, czasie utworzenia samego raportu, jak i konkretnego arkusza lub wykresu. Przykład 3. STATISTICA Enterprise STATISTICA Enterprise to specjalna wersja STATISTICA rozbudowana o narzędzia współpracy użytkowników, centralne zarządzanie, dostosowywanie systemu i inne możliwości użyteczne przy stosowaniu programu do analizy danych przez duże organizacje. Menedżer systemu jest składnikiem STATISTICA Enterprise służącym do tworzenia obiektów systemu i określania dla nich rozmaitych ustawień. W szczególności za jego pomocą definiujemy użytkowników i przypisujemy im uprawnienia, tworzymy i modyfikujemy schemat systemu (porządkujący szablony analiz, raportów itp.), połączenia z bazami danych, konfiguracje danych (określające sposób pobierania danych z baz danych) i konfiguracje analiz (szablony analiz). 104 STATISTICA - Przewodnik

105 ROZDZIAŁ 2: PRZYKŁADY W tym przykładzie: 1) Zdefiniujemy nowego użytkownika. 2) Utworzymy nową grupę użytkowników: - nadamy jej uprawnienia, - przypiszemy użytkowników do grupy. 3) Utworzymy folder w schemacie systemu. 4) Zdefiniujemy połączenie z bazą danych. 5) Utworzymy konfigurację danych. 6) Utworzymy konfigurację analizy. 7) Uruchomimy konfigurację analizy. Dwa sposoby porządkowania obiektów systemu Przed rozpoczęciem wykonywania przykładu zwróćmy uwagę na dwa sposoby porządkowania obiektów systemu. Na karcie Widok Menedżera Systemu STATISTICA Enterprise możemy wybrać Schemat systemu lub Obiekty. W pierwszym przypadku, obiekty systemu są uporządkowane według folderów (do których zostały przypisane). Natomiast w drugim przypadku obiekty są posortowane wg typów (np. wszystkie konfiguracje analizy są umieszczane w jednym węźle). Do wykonania naszego przykładu wygodniejszy będzie Schemat systemu. 1. Nowy użytkownik Uruchamiamy Menedżera systemu STATISTICA Enterprise jako użytkownik z uprawnieniami administratora. W drzewie po lewej stronie okna programu klikamy obok węzła Administrowanie użytkownikami, aby go rozwinąć. Następnie klikamy folder Użytkownicy i w panelu po prawej stronie naciskamy przycisk Nowy Użytkownik. W panelu pojawią się ustawienia dla nowego użytkownika. W polu Nazwa wpisujemy Testowy, po czym podajemy hasło i potwierdzamy je w polach poniżej. Naciskamy przycisk Zatwierdź zmiany na pasku szybkiego dostępu znajdującym się u góry okna aplikacji, aby zarejestrować nowego użytkownika. W kolejnym kroku zdefiniujemy grupę i nadamy jej uprawnienia, a następnie przypiszemy nowego użytkownika do grup. Nadawanie użytkownikom uprawnień poprzez grupy ułatwia zarządzanie prawami dostępu: wystarczy zmienić uprawnienia dla całej grupy i nie trzeba powtarzać zmian dla wszystkich użytkowników, których one dotyczą. STATISTICA - Przewodnik 105

106 ROZDZIAŁ 2: PRZYKŁADY 2. Nowa grupa W folderze Administrowanie użytkownikami klikamy Grupy i w panelu właściwości po prawej stronie naciskamy przycisk Nowa Grupa. W polu Nazwa wpisujemy Grupa testowa, a w polu Członkowie grupy zaznaczamy utworzonego wcześniej użytkownika Testowy, aby dołączyć go do nowo tworzonej grupy. Następnie przypisujemy grupie prawa: w polu Uprawnienia grupy zaznaczamy Analysis Admin (administrator analiz) i Web User (użytkownik WWW). Aby określić możliwość dostępu do narzędzi analitycznych, rozwijamy folder Grupa testowa (klikając obok niego) i wybieramy pozycję Moduły analityczne, po czym w panelu właściwości naciskamy przycisk Wybierz wszystkie. W wyniku tych działań użytkownicy z Grupy testowej będą mogli korzystać ze wszystkich narzędzi analitycznych i uruchamiać program lokalnie oraz wykonywać analizy na serwerze. Aby potwierdzić zmiany, klikamy przycisk Zatwierdź na karcie Podstawowe wstążki lub na pasku szybkiego dostępu; spowoduje to zapisanie dokonanych przez nas ustawień w bazie danych systemu. 106 STATISTICA - Przewodnik

107 ROZDZIAŁ 2: PRZYKŁADY Zdefiniowaliśmy użytkownika i grupę oraz nadaliśmy użytkownikowi uprawnienia poprzez grupę. Po utworzeniu w dalszej części przykładu konfiguracji danych i analizy oraz raportu przypiszemy grupie prawo do korzystania z tych obiektów. 3. Tworzenie foldera w schemacie systemu Teraz utworzymy nowy folder w schemacie systemu. Klikamy obok węzła Schemat systemu. Następnie prawym klawiszem myszy klikamy folder STATISTICA Enterprise i z menu podręcznego wybieramy polecenie Nowy folder. Jako jego nazwę wpisujemy Przykład 1 tak jak na poniższym rysunku. STATISTICA - Przewodnik 107

108 ROZDZIAŁ 2: PRZYKŁADY Klikamy przycisk, aby potwierdzić zmiany. Od tego momentu będziemy mogli umieszczać w folderze obiekty systemu (konfiguracje danych i analiz oraz raporty). 4. Nowe połączenie z bazą danych Klikamy prawym klawiszem myszy węzeł Połączenia z bazą danych i z menu podręcznego wybieramy polecenie Nowe połączenie z bazą danych. Na ekranie pojawi się okno Właściwości łącza danych (uwaga: w zależności od systemu operacyjnego i zainstalowanych sterowników baz danych okno to może wyglądać nieco inaczej, a w szczególności może mieć inną wersję językową). Pobierzemy dane z przykładowej bazy danych SQL Server Northwind udostępnianej przez Microsoft (dostępnej na stronach tej firmy). W oknie Właściwości łącza danych wybieramy dostawcę OLE DB, odpowiedniego dla systemu bazodanowego, z którym chcemy się połączyć. Możemy skorzystać z dostawcy OLE DB przygotowanego przez producenta bazy danych lub ze standardowego sterownika Microsoft. W naszym przykładzie będziemy pobierać dane z bazy MS SQL Server, a więc wybieramy pozycję Microsoft OLE DB Provider for SQL Server i klikamy Dalej. Na karcie Połączenie w polu Wybierz lub wprowadź nazwę serwera wpisujemy nazwę serwera bazy danych; możemy też wybrać ją z listy po kliknięciu strzałki obok tego pola. Następnie w grupie Wprowadź informacje o logowaniu określamy sposób uwierzytelniania. Jeśli uwierzytelnianie w systemie bazodanowym jest zintegrowane z logowaniem Windows, to włączamy opcję Użyj wbudowanych zabezpieczeń Windows NT. Natomiast jeśli wybierzemy Użyj określonej nazwy użytkownika i hasła, to w odpowiednich polach podajemy dane do uwierzytelniania. 108 STATISTICA - Przewodnik

109 ROZDZIAŁ 2: PRZYKŁADY Po określeniu sposobu uwierzytelniania, z listy Wybierz bazę danych na serwerze wybieramy bazę Northwind. Sprawdzamy, czy połączenie działa poprawnie: klikamy przycisk Testuj połączenie. Powinniśmy otrzymać komunikat Połączenie testowe powiodło się (jeśli wystąpi błąd, to jego przyczyną może być brak uprawnień do bazy danych). Klikamy OK w oknie komunikatu, a potem jeszcze raz OK w oknie Właściwości łącza danych. Po wykonaniu tych działań powinniśmy wrócić do Menedżera systemu STATISTICA Enterprise. W panelu właściwości podajemy nazwę połączenia Połączenie przykładowe 1, tak jak na poniższym rysunku. Naciskamy przycisk Uprawnienia. Następnie w polu Dostępni użytkownicy i grupy wybieramy Grupa testowa i naciskamy przycisk. Grupa testowa zostanie przeniesiona na listę Uprawnienia. Na koniec zapisujemy połączenie w systemie, klikając przycisk. Po zdefiniowaniu połączenia z bazą danych utworzymy konfigurację danych, aby odczytywać dane z tego źródła. STATISTICA - Przewodnik 109

110 ROZDZIAŁ 2: PRZYKŁADY 110 STATISTICA - Przewodnik

111 5. Nowa konfiguracja danych ROZDZIAŁ 2: PRZYKŁADY Prawym klawiszem myszy klikamy węzeł Przykład 1 i z menu podręcznego wybieramy polecenie Nowa konfiguracja danych. W panelu właściwości wpisujemy Dane w polu Nazwa. Następnie rozwijamy listę Połączenie i wybieramy stworzone w punkcie 4 połączenie o nazwie Połączenie przykładowe 1. Klikamy przycisk Dalej na dole po prawej stronie panelu właściwości, aby określić zapytanie, pobierające dane z bazy danych. W polu Wyrażenie SQL możemy wpisać zapytanie, ale zazwyczaj wygodniej jest skorzystać z kreatora. W tym celu klikamy przycisk Kreator SQL. Spowoduje to otwarcie okna Nowe zapytanie 1 STATISTICA Query. STATISTICA - Przewodnik 111

112 ROZDZIAŁ 2: PRZYKŁADY W lewym panelu klikamy prawym klawiszem myszy tabelę Orders i z menu podręcznego wybieramy Dodaj. Następnie w prawym górnym panelu zaznaczamy nazwy pól (kolumn) tej tabeli (w podanej kolejności): OrderID, ShipVia, ShipCountry i Freight (pola zaznaczamy, klikając je kolejno myszą). 112 STATISTICA - Przewodnik

113 ROZDZIAŁ 2: PRZYKŁADY W lewym dolnym panelu przechodzimy na kartę Podgląd danych. Widzimy tam zawartość kilku pierwszych wierszy zwracanych przez zapytanie. Domyślnie program automatycznie odświeża ten podgląd po zmianach zapytania, możemy też zażądać aktualizacji danych, naciskając przycisk na pasku narzędzi. Tworzenie zapytania kończymy, naciskając przycisk na pasku narzędzi (lub klawisz F5). Okno STATISTICA Query zostanie zamknięte i wrócimy do menedżera systemu. Program zapyta nas, czy sprawdzić wyrażenie SQL, odpowiadamy, że tak. Program automatycznie przypisze typy do pól bazy danych i wypełni tabelę Kolumny OLE DB. STATISTICA - Przewodnik 113

114 ROZDZIAŁ 2: PRZYKŁADY W tabeli Kolumny OLE DB klikamy wiersz OrderID i naciskamy przycisk Edytuj, aby zmienić dla niego ustawienia. Na ekranie wyświetli się panel właściwości dla tego pola. Z listy rozwijalnej Aktualizacja wybieramy Pierwsza przy aktualizacji (aby rozwinąć listę, klikamy strzałkę po jej prawej stronie). Takie ustawienie spowoduje, że program będzie sprawdzał w bazie danych, czy pojawiły się kolejne wartości kolumny OrderID. Jeśli się one pojawią, to rekordy z nowymi wartościami ID zostaną pobrane do STATISTICA. Ponadto pobrana tabela zostanie uporządkowana według wartości tego pola 114 STATISTICA - Przewodnik

115 ROZDZIAŁ 2: PRZYKŁADY Klikamy przycisk Dalej, aby określić ustawienia dla następnego pola: ShipVia. Włączymy dla niego filtrowanie, tzn. użytkownik przy pobieraniu danych będzie mógł określić warunek na wartości w tym polu. Klikamy przycisk Filtrowanie i zaznaczamy pole Dostępne. Pozostawiamy domyślne pozostałe ustawienia i klikamy Dalej. Wrócimy w ten sposób do panelu właściwości kolumny ShipVia. Klikamy Dalej, aby zmienić ustawienia dla kolumny ShipCountry. Również dla niej włączamy filtrowanie: klikamy przycisk Filtrowanie i zaznaczamy pole Dostępne. STATISTICA - Przewodnik 115

116 ROZDZIAŁ 2: PRZYKŁADY Następnie dwukrotnie klikamy przycisk Dalej, aby zmienić ustawienia dla kolumny Freight. Dla tej kolumny z listy rozwijalnej Typ zmiennej wybieramy Właściwość liczbowa. Takie ustawienie oznacza, że dla kolumny będą domyślnie wykonywane analizy SPC: karty kontrolne, analiza zdolności procesu itp. Nie zmieniamy pozostałych ustawień dla tej kolumny. Po kliknięciu Dalej przejdziemy do określania uprawnień. Na liście Dostępni użytkownicy i grupy zaznaczamy Grupa testowa i klikamy, aby umieścić ją na liście Uprawnienia. Standardowo grupa uzyska uprawnienia do odczytu konfiguracji danych, natomiast nie będzie jej mogła zmieniać (prawdo do modyfikacji daje zaznaczenie pola Edycja). Zapisujemy konfigurację danych w systemie, klikając przycisk. 6. Nowa konfiguracja analizy Po przygotowaniu konfiguracji danych możemy stworzyć konfigurację analizy dla tych danych. Klikamy prawym klawiszem myszy folder Przykład 1 i z menu podręcznego wybieramy polecenie Nowa konfiguracja analizy. Następnie w oknie Wybierz konfigurację danych wskazujemy Dane jako źródło danych i klikamy OK. Program zapyta nas, czy uprawnienia dla analizy mają być takie same jak dla konfiguracji danych odpowiadamy twierdząco. 116 STATISTICA - Przewodnik

117 ROZDZIAŁ 2: PRZYKŁADY Pozostawiamy domyślną nazwę konfiguracji analizy, czyli taką jak konfiguracji danych. Klikamy Dalej, po czym ponownie akceptujemy domyślne ustawienia, jaszcze raz naciskając przycisk Dalej w panelu ustawień dla Właściwości SPC. Kolejny krok to określenie karty kontrolnej, która będzie kreślona dla właściwości liczbowej Freight. Zmieniamy typ karty na Pojedyncze obserwacje i rozstęp ruchomy (zob. rysunek poniżej). Nie ma potrzeby definiowania innych ustawień dla karty kontrolnej. Klikamy węzeł Opcje uruchamiania i zaznaczamy pole Wyświetl kryteria SQL (zob. rysunek poniżej). Wybranie tej opcji spowoduje wyświetlanie przed uruchomieniem analizy okna z warunkami dla zmiennych, dla których włączyliśmy filtrowanie (str. 115). Okno określania warunków pojawiać się będzie przy każdym uruchomieniu analizy. Zauważmy, iż określenie kryterium dla zmiennej jest konieczne, gdy w panelu ustawień dla filtrowania zaznaczymy pole Wymagana przy filtrowaniu. Tak jak w poprzednich etapach, potwierdzamy dokonane zmiany i zapisujemy je w systemie, klikając przycisk. STATISTICA - Przewodnik 117

118 ROZDZIAŁ 2: PRZYKŁADY 7. Uruchamianie konfiguracji analizy Teraz uruchomimy konfigurację analizy jako użytkownik o nazwie Testowy. Zamykamy menedżera systemu (aczkolwiek moglibyśmy pozostawić go aktywnego, bo na jednym stanowisku może pracować w systemie jednocześnie dwóch różnych użytkowników) i uruchamiamy program STATISTICA. Jako nazwę użytkownika podajemy Testowy i wpisujemy hasło takie jak w punkcie 1. Przy domyślnych ustawieniach na początku pracy program STATISTICA (w wersji korporacyjnej) wyświetla okno Wykonaj analizę lub raport, wybieramy w nim konfigurację Przykład 1 i klikamy OK. Okno wyboru uruchamianej analizy możemy przywołać poleceniem Uruchom analizę lub raport z menu Korporacyjne. Na ekranie pojawi się okno Kryteria SQL. (Uwaga: w systemie Vista możemy w tym momencie otrzymać komunikat o błędzie, jeżeli plik bazy danych znajduje się w folderze Program files komputera, na którym pracujemy. Jest to spowodowane przez zabezpieczenie tego systemu. Aby uniknąć tego problemu, należy przed rozpoczęciem pracy przenieść plik bazy danych w inne miejsce lub uruchomić STATISTICA poleceniem Uruchom jako administrator z menu podręcznego skrótu do STATISTICA). 118 STATISTICA - Przewodnik

119 ROZDZIAŁ 2: PRZYKŁADY Z listy rozwijalnej Kolumna wybieramy ShipCountry. Następnie klikamy przycisk obok pola Wartość, aby wyświetlić listę wartości kolumny ShipCountry. Wybieramy z niej Brazil i klikamy OK. Naciskamy przycisk Zakończ. Dane spełniające podany przez nas warunek zostaną pobrane z bazy, po czym program wykona analizę według szablonu określonego w punkcie 5. W naszym przypadku będzie to karta kontrolna pojedynczych pomiarów dla zmiennej Freight. STATISTICA - Przewodnik 119

120 ROZDZIAŁ 2: PRZYKŁADY Własne środowisko pracy Niniejszy prosty przykład pokazuje, jak stworzyć i uruchamiać analizę, korzystając ze standardowego środowiska pracy wersji korporacyjnej STATISTICA i dostępnych w niej narzędzi zarządzania wynikami. Jednak jedna z największych zalet STATISTICA to możliwość tworzenia własnych środowisk pracy (np. dla osób o różnych zadaniach, różnym stopniu przygotowania do pracy, zajmowanym stanowisku i uprawnieniach dostępu do informacji). Użytkownik systemu może tworzyć własne środowiska pracy o bardzo różnej złożoności i funkcjonalności: od bardzo prostych, zawierających np. cztery przyciski: do bardzo wyszukanych, o nieomal dowolnej funkcjonalności: 120 STATISTICA - Przewodnik

121 ROZDZIAŁ 2: PRZYKŁADY Więcej informacji o środowisku pracy można znaleźć w pomocy do STATISTICA Enterprise i STATISTICA Enterprise Server. STATISTICA Enterprise Server Oprogramowanie STATISTICA Enterprise Server zawiera wszystkie funkcje opisane wcześniej w tym przykładzie, a dodatkowo umożliwia wykonywanie zadań na serwerze (str. 95) i zdalny dostęp w środowisku przeglądarkowym. Więcej informacji o STATISTICA Enterprise Server znajduje się w Dodatku B na str STATISTICA - Przewodnik 121

123 ROZDZIAŁ 32: PRZYKŁADY ROZDZIAŁ 3 ŚRODOWISKO PRACY Ogólne właściwości Jednoczesne przeprowadzanie wielu analiz Trzy sposoby pracy z programem: Interakcyjne środowisko pracy STATISTICA Visual Basic i sterowanie programem STATISTICA z poziomu innych aplikacji Przeglądarka internetowa jako interfejs programu STATISTICA Enterprise Server Współpraca z Microsoft Office STATISTICA - Przewodnik 123

125 3 ROZDZIAŁ Sposoby działania ŚRODOWISKO PRACY OGÓLNE WŁAŚCIWOŚCI Programem STATISTICA można sterować na kilka sposobów. W tym rozdziale omawiamy podstawowe aspekty pracy z systemem: 1) Środowisko interakcyjne (zob. str. 127). 2) STATISTICA Visual Basic (zob. str. 138). 3) Interfejs bazujący na przeglądarce internetowej (zob. str. 139). 4) Współpracę z Microsoft Office (zob. str. 140). Zauważmy jednak, że: wiele funkcji środowisk pracy nie wyklucza się wzajemnie, a zatem w zależności od zastosowań i upodobań można je łączyć, do jednoczesnego korzystania z różnych środowisk możemy użyć zmodyfikowanych menu, paska szybkiego dostępu i pasków narzędzi, np. możemy uruchamiać makra (programy Visual Basic), klikając zdefiniowane przez nas przyciski paska narzędzi, niemal wszystkie właściwości różnych środowisk pracy mogą być zmieniane, aby odpowiadały potrzebom użytkownika (co prowadzi do zmiany wyglądu i zachowania programu). Na ogół zaleca się dostosowanie systemu do własnych potrzeb w celu pełnego wykorzystania możliwości pakietu STATISTICA, sprostania potrzebom użytkownika oraz wymogom zadań, które mają być wykonane (zob. Dostosowywanie środowiska pracy użytkownika, str. 209). Różne sposoby korzystania z tych samych narzędzi, style pracy Nawet bez wprowadzania jakichkolwiek zmian, domyślne ustawienia programu STATISTICA dostarczają różnorodnych środków i rozwiązań do osiągnięcia tych samych wyników. Zasada alternatywnego dostępu obowiązująca w każdym aspekcie środowiska użytkownika pozwala STATISTICA - Przewodnik 125

126 ROZDZIAŁ 3: ŚRODOWISKO PRACY na stosowanie różnych stylów pracy. Przykładowo większość najczęściej używanych narzędzi interakcyjnego środowiska pracy programu jest dostępna: na wstążce i w tradycyjnym menu, przez klawisze skrótów, na paskach narzędzi i na pasku stanu, na zdefiniowanych przez użytkownika przyciskach paska szybkiego dostępu, z podręcznych menu związanych z konkretnymi obiektami (komórkami arkusza, ikonami w skoroszycie, elementami wykresów), przywoływanych kliknięciem obiektu prawym klawiszem myszy. Przed wyborem stylu pracy warto wypróbować różne narzędzia środowiska programu. JEDNOCZESNE PRZEPROWADZANIE WIELU ANALIZ Jak wspomniano wcześniej, program STATISTICA można uruchomić wielokrotnie w celu jednoczesnego wykonywania wielu różnych analiz. Ponadto jednorazowo uruchomiony program pozwala wykonywać wiele analiz różnego rodzaju (np. pięć analiz Regresji wielorakiej i dwie analizy ANOVA), a każda z nich może dotyczyć danych z tego samego lub różnych plików (program pozwala jednocześnie otwierać wiele plików danych). Odrębne analizy podstawowe jednostki pracy. Wygodne korzystanie z wielozadaniowości ułatwia zorganizowanie pracy w logiczne jednostki, zwane analizami. Analizom odpowiadają przyciski na pasku Analizy, domyślnie umieszczane na dole okna programu (zob. ilustracja poniżej, na której widzimy program z działającymi jednocześnie trzema analizami: Podstawowymi statystykami, Analizą skupień i Analizą kanoniczną). Zazwyczaj pojawia się co najmniej jeden przycisk analizy, a kolejne dodawane są w momencie rozpoczynania kolejnych analiz. STATISTICA zawiera wiele narzędzi ustawiania i trwałego konfigurowania tego aspektu działania programu. Domyślnie po wybraniu w oknach dialogowych wyników analizy konkretnych statystyk lub wykresu pożądane wyniki wyświetlane są na ekranie, a okno dialogowe jest ukrywane w przycisku analizy na dole ekranu. W celu kontynuowania analizy przywracamy okno dialogowe wyników analizy, klikając przycisk analizy lub naciskając klawisze CTRL+R. Sposób zarządzania analizami określamy za pomocą menu podręcznego przycisku analizy (przywołujemy je, klikając odpowiedni przycisk analizy prawym klawiszem myszy). Na ilustracji poniżej widzimy rozwinięte menu podręczne dla przycisku analizy. 126 STATISTICA - Przewodnik

127 ROZDZIAŁ 3: ŚRODOWISKO PRACY Porada dla użytkowników dysponujących ekranem o dużej rozdzielczości. Jeżeli mamy ekran o dużej rozdzielczości, to warto wyłączyć domyślną opcję automatycznej minimalizacji okien dialogowych analizy. Ponieważ wszystkie okna będą jednocześnie widoczne na ekranie, będziemy mogli ich użyć jako paska narzędzi sterującego wyświetlaniem poszczególnych wyników różnych analiz. Dla konkretnej analizy opcję tę ustawiamy, anulując zaznaczenie polecenia Automatycznie minimalizuj w menu podręcznym przycisku analizy (zob. ilustracja powyżej). Automatyczną minimalizację wyłączamy globalnie na karcie Analiza lub wykres okna Opcje (okno to przywołujemy za pomocą przycisku Opcje na karcie Podstawowe). W programie STATISTICA przy jednoczesnym wykonywaniu wielu analiz po pewnym czasie możemy mieć otwartych wiele różnorodnych okien. Wszystkie okna związane bezpośrednio z analizami zamykamy poleceniem Zamknij wszystkie analizy z podręcznego menu przycisku analizy. Wprowadzenie INTERAKCYJNE ŚRODOWISKO PRACY Podstawowe składniki środowiska pracy w programie STATISTICA. Interakcyjny interfejs użytkownika nie jest jedynym dostępnym w programie (zob. rozdział 7 Dostosowywanie programu STATISTICA, str. 209 i rozdział 8 STATISTICA Visual Basic, str. 215), STATISTICA - Przewodnik 127

128 ROZDZIAŁ 3: ŚRODOWISKO PRACY jednak w większości przypadków jest on najwygodniejszy i w związku z tym jest najczęściej wykorzystywany. Wiele elementów interakcyjnego interfejsu użytkownika jest widocznych w oknie pakietu STATISTICA. Podobnie jak w przypadku większości programów, na górze okna programu STATISTICA znajdują się: pasek menu i różne paski narzędzi. Elementy te można modyfikować i dostosowywać, tak aby najlepiej odpowiadały zadaniom, które będziemy wykonywać. Na dole okna programu znajduje się pasek Analizy (ze zminimalizowanymi oknami dialogowymi analiz i wykresów) oraz pasek stanu. Po kliknięciu wybranego elementu prawym klawiszem myszy wyświetlane jest menu podręczne z poleceniami odpowiednimi dla tego elementu środowiska programu. Zbiory danych możemy przeglądać w arkuszach danych, skoroszytach i raportach. W zależności od wybranych ustawień wynikowe tabele i wykresy prezentowane są w skoroszytach, raportach lub w osobnych oknach. Kody makr (programów STATISTICA Visual Basic) przeglądamy i edytujemy w oknach makr. Zazwyczaj wszystkie te elementy nie są jednocześnie obecne na ekranie. Zawsze możemy zmienić środowisko programu na tak złożone lub tak proste, jak to jest aktualnie wymagane ze względu na rodzaj analizy i wygodę pracy (zob. str. 209). Szczegółowe informacje na ten temat znajdują się Podręczniku elektronicznym (Pomocy STATISTICA). Moduły. W skład programu STATISTICA wchodzi mnóstwo różnorodnych procedur statystycznych i graficznych pogrupowanych w moduły. Z każdej procedury możemy skorzystać w ramach jednorazowo uruchomionej aplikacji STATISTICA. Oznacza to, że możemy np. obliczyć statystyki reszt, klikając przycisk w oknie Regresji wielorakiej, i od razu wykorzystać uzyskane wyniki jako dane wejściowe dla Analizy czynnikowej, bez konieczności uruchamiania programu po raz kolejny. Więcej informacji o wykorzystaniu wyników jako danych wejściowych znajduje się w temacie Pomocy: Czy można wykorzystać wyniki analizy w innej analizie? Przebieg analizy interakcyjnej Panel początkowy. Po wybraniu analizy na karcie Statystyka, Wykresy lub Data Mining na ekranie pojawia się panel początkowy (jak pokazano na poniższej ilustracji oraz w Przykładzie 1. Korelacje na str. 15). Każdy panel początkowy zawiera listę analiz tworzących daną grupę (moduł). Kliknięcie myszą gdziekolwiek poza panelem minimalizuje go i umieszcza odpowiadającą mu ikonę na pasku Analizy. Jeżeli używamy monitora o dużej rozdzielczości, to możemy zmienić to domyślne zachowanie, tak aby wszystkie panele początkowe i okna dialogowe analiz były widoczne na ekranie jednocześnie. Będziemy mogli wtedy używać ich jako pasków narzędzi sterujących poszczególnymi analizami (zob. str. 127). 128 STATISTICA - Przewodnik

129 ROZDZIAŁ 3: ŚRODOWISKO PRACY Okna dialogowe określania analizy i wyboru wyników. Po wybraniu w panelu początkowym analizy i (w razie potrzeby) pliku danych na ekranie pojawia się okno definicji analizy. W oknie tym wybieramy zmienne do analizy oraz inne parametry zadania, które ma być wykonane. Okna określania analizy często zawierają wiele kart. Na kartach pogrupowano powiązane ze sobą opcje tak, aby łatwiej było odnaleźć żądaną funkcję. W niektórych prostych analizach, takich jak statystyki opisowe, których okno określania analizy widzimy powyżej, okno definicji analizy służy również jako okno wyboru wyników. W oknie wyboru wyników wskazujemy typ i format wyników, np. konkretny wykres bądź arkusz z zestawem statystyk, które zostaną wyświetlone na ekranie. Dodatkowe dane arkusza wspomagające badania wpływu przypadków, wykrywanie zależności i operowanie na zmiennych. W arkuszu możemy zapisać dodatkowe informacje o zmiennych i przypadkach (dane o danych, nazywane metadanymi). Dzięki temu możemy dokładniej opisać dane, ułatwić wybór zmiennych, badać wpływ poszczególnych przypadków, poszukiwać wzorców i zależności oraz określać sposób wyświetlania punktów na wykresach, a także pomijać wskazane przypadki w analizach i na wykresach. Przykładowym zastosowaniem są badania: co jeśli?. STATISTICA - Przewodnik 129

130 ROZDZIAŁ 3: ŚRODOWISKO PRACY Stany przypadków. Dla przypadków w arkuszu danych możemy określać stany. Decydują one o tym, jak traktowany będzie przypadek przez procedury statystyczne i graficzne programu STATISTICA. Do dyspozycji mamy następujące stany: 1) Przypadek oznaczany na wykresach specjalnym kształtem i kolorem znacznika. 2) Przypadek etykietowany będzie on opisywany na wykresach nazwą przypadku lub wartością zmiennej, wskazaną jako zmienna z etykietami. 3) Przypadek wyłączony będzie on pomijany w obliczeniach i na wykresach. 4) Przypadek ukryty niewidoczny na wykresach, ale brany pod uwagę przy wyznaczaniu statystyk. 5) Zaznaczone punkty oznacza przypadki, które będą zaznaczane na wykresach. Stany przypadków możemy przypisać na dwa sposoby. Pierwszy to wykorzystanie funkcji arkusza, np. poleceń z menu Dane Przypadki Stany przypadków lub menu podręcznego arkusza. Drugi sposób to wyróżnianie punktów na wykresie (graficzna eksploracja danych) opisane na str Do trybu wyróżniania punktów na wykresie przechodzimy, naciskając przycisk w grupie Modyfikowanie wykresu na karcie Edycja wstążki (gdy aktywnym oknem jest wykres). Stany przypadków ustawione za pośrednictwem wykresu są umieszczane w arkuszu. Obydwa sposoby określania stanów przypadków są bardzo przydatne w eksploracyjnej analizie danych. Typ skali pomiarowej i automatyczny wstępny wybór zmiennych. Dla zmiennych możemy określać typ skali pomiarowej. Skala pomiarowa wykorzystywana jest do selekcji zmiennych umieszczanych w oknach wyboru zmiennych do analiz. Pewne analizy nie mają sensu dla zmiennych wyrażonych w nieodpowiednich skalach pomiarowych. Przykładowo 130 STATISTICA - Przewodnik

131 ROZDZIAŁ 3: ŚRODOWISKO PRACY nie ma sensu wyznaczanie średniej z cech jakościowych, takich jak kolor oczu. Jeśli zaznaczona jest opcja Pokazuj tylko zmienne o odpowiedniej skali, to w oknach wyboru zmiennych dla analiz na listach dostępne będą tylko zmienne o odpowiednim typie skali. Np. w oknie wyboru zmiennych ANOVA dla układów czynnikowych na liście predyktorów jakościowych pojawią się tylko zmienne wyrażone na skali jakościowej. Typ skali pomiarowej określamy w oknie definicji zmiennej (przywoływanym dwukrotnym kliknięciem myszy nagłówka zmiennej). Domyślny typ to Automatyczny, przy którym program zgaduje typ skali zmiennej, według reguły określonej w grupie Automatyczne przeglądanie i klasyfikacja zmiennych na karcie Analiza lub wykres okna Opcje (przywoływanego przyciskiem Opcje na karcie Podstawowe). Autofiltr (ukrywanie zmiennych i przypadków). Filtrowanie jest szybkim i łatwym sposobem wyświetlania konkretnej części danych w arkuszu bez konieczności ich sortowania lub tworzenia podzbiorów. Po filtrowaniu zmiennej w arkuszu będą wyświetlane tylko wartości, które spełnią określone kryteria. Przypadki, które nie spełniają określonego kryterium, będą ukryte, ale nie usunięte z arkusza, i będą dostępne przy wykonywaniu analiz i wykresów. STATISTICA - Przewodnik 131

132 ROZDZIAŁ 3: ŚRODOWISKO PRACY Filtrowanie konfigurujemy poleceniami z menu przycisku Autofiltr na karcie Dane w grupie Przekształcenia. Poniżej widzimy plik danych Adstudy, w którym pokazywane są tylko przypadki spełniające warunek Płeć = Mężczyzna. Zarządzanie wynikami. Zarządzanie wynikami zostało dokładnie opisane w rozdziale 4 (str. 145) oraz zilustrowane przykładami: Korelacje (str. 15) i ANOVA (str. 38). Domyślnie wszystkie kolejno tworzone tabele (arkusze) i wykresy umieszczane są w skoroszycie. Skoroszyt można zapisać i później otwierać, co ułatwia odnajdywanie potrzebnych wyników. Wyniki możemy także skierować do raportu analizy (zob. str. 148), aby przechowywać je w postaci łatwej do porządkowania i przeglądania (za pomocą drzewa raportu), drukowania i formatowania. Istnieje również możliwość automatycznego umieszczania wyników wszystkich analiz w jednym, zbiorczym raporcie. Wyniki mogą być również automatycznie przesyłane do dokumentu MS Word otwartego w STATISTICA. Możemy wreszcie przeglądać uzyskiwane wykresy i tabele w oddzielnych oknach. Sposób zarządzania wynikami możemy określić dla pojedynczej analizy lub całej sesji w oknie Ustawienia wyjścia (aby je przywołać, klikamy przycisk w oknie definiowania analizy i wybieramy polecenie Ustaw wyjście). Zarządzanie wynikami konfigurujemy globalnie na karcie Globalne ustawienia wyjścia okna Opcje (najszybszy dostęp do tej karty daje polecenie Globalne ustawienia wyjścia z menu otwieranego poprzez naciśnięcie przycisku w lewym górnym rogu wstążki). Zob. informacje na ten temat w Podręczniku elektronicznym. Określanie analizy Okna dialogowe określania wszystkich analiz statystycznych programu STATISTICA możemy przywołać za pomocą przycisków na kartach wstążki Statystyka: i Data Mining: 132 STATISTICA - Przewodnik

133 ROZDZIAŁ 3: ŚRODOWISKO PRACY Narzędzia graficzne dostępne są na karcie Wykresy: Z kart Statystyka, Data Mining i Wykresy możemy skorzystać zawsze, gdy otwarty jest jakikolwiek dokument pakietu STATISTICA. Karta Statystyka umożliwia uruchamianie wszystkich dostępnych rodzajów analiz (z zakresu klasycznej statystyki; procedury data mining uruchamiamy za pomocą przycisków na karcie Data Mining). Na karcie Wykresy mamy bezpośredni dostęp do kilku najczęściej wykorzystywanych wykresów (np. histogramu i wykresu rozrzutu), a wszystkie inne rodzaje wykresów umieszczono w menu podrzędnych, rozwijanych poprzez naciśnięcie odpowiedniego przycisku: 2W, Sekwencyjne 3W, 3W XYZ, Macierz, Obrazkowy, Skategoryzowane, Użytkownika, Bloku danych i Wykresy danych wejściowych. Dostępny jest również przycisk Układ wielu wykresów, służący do tworzenia obrazów złożonych z wielu wykresów. Szczegółowe omówienie typów analiz i wykresów dostępnych w programie STATISTICA znajduje się w Podręczniku elektronicznym w części Glosariusz, a informacje o dostępności poszczególnych narzędzi w produktach firmy StatSoft przedstawiono w Dodatku C: Rodzina programów STATISTICA (str. 265). Korzystanie z paska Analizy. Korzystanie z wielozadaniowości STATISTICA (zob. Jednoczesne przeprowadzanie wielu analiz, str. 126) jest ułatwione przez zorganizowanie wykonywanych analiz w jednostki, którym odpowiadają przyciski na pasku Analizy (domyślnie umieszczonym na dole okna programu nad paskiem stanu). Na ilustracji poniżej widzimy okno programu z działającymi trzema analizami jednocześnie. STATISTICA - Przewodnik 133

134 ROZDZIAŁ 3: ŚRODOWISKO PRACY Porada dla użytkowników dysponujących ekranem o dużej rozdzielczości. Jeżeli mamy ekran o dużej rozdzielczości, to warto wyłączyć domyślną opcję automatycznej minimalizacji okien dialogowych analizy. Ponieważ wszystkie okna będą jednocześnie widoczne na ekranie, będziemy mogli ich użyć jako paska narzędzi sterującego wyświetlaniem poszczególnych wyników różnych analiz. Więcej informacji na ten temat znajduje się na str Kontynuowanie analizy. Możemy łatwo powrócić do przerwanej analizy lub wizualizacji (tzn. przywołać zminimalizowane uprzednio okno analizy). Analizę, która była ostatnio aktywna, przywołujemy poleceniem Kontynuuj z menu rozwijanego poprzez kliknięcie przycisku Analizy na karcie Narzędzia, przez naciśnięcie klawiszy CTRL+R albo przycisku odpowiadającego analizie na pasku Analizy. Jeżeli w toku jest wiele analiz, to możemy wybrać jedną z nich z menu przycisku Analizy (tak jak pokazano to poniżej). Zarządzanie oknami dialogowymi (i porada dla użytkowników dysponujących ekranem o dużej rozdzielczości). W zależności od indywidualnych upodobań można określić sposób postępowania z oknami dialogowymi analizy w momencie przejścia do innego okna programu STATISTICA lub innej aplikacji. Domyślnie w takiej sytuacji okno dialogowe analizy jest ukrywane na pasku Analizy. Takie działanie programu pozwala na bardziej oszczędne wykorzystanie ekranu (wyświetlane są tylko te okna dialogowe, które są niezbędne). Jeżeli jednak dysponujemy ekranem o odpowiednio dużej rozdzielczości, wygodniejsze jest wyłączenie automatycznej minimalizacji. Na str. 127 opisano, jak włączać i wyłączać automatyczną minimalizację okien dialogowych analiz. 134 STATISTICA - Przewodnik

135 ROZDZIAŁ 3: ŚRODOWISKO PRACY Ponadto możemy zamknąć wszystkie okna dokumentów wynikowych poleceniem Zamknij wszystkie, dostępnym w grupie Okna na karcie Podstawowe (skrót klawiaturowy CTRL+L), a wszystkie analizy zamykamy poleceniem Zamknij wszystkie analizy z menu przycisku Analizy na karcie Narzędzia. Kolejność dokumentów związanych z analizami. Jeśli w podmenu Opcje menu przycisku Analizy na karcie Narzędzia zaznaczona jest domyślna opcja Na wierzch po wybraniu, to po wybraniu analizy związane z nią dokumenty (np. źródłowy arkusz danych) znajdą się na początku kolejki okien w STATISTICA. Innymi słowy będą one na wierzchu na pulpicie programu. Przykładowo jeśli mamy w programie otwarte dwa źródłowe arkusze danych: Adstudy i Irisdat i dla pierwszego z nich mamy uruchomioną analizę regresji, a dla drugiego dyskryminacji, to gdy klikniemy przycisk analizy regresji na pasku Analizy, arkusz Adstudy znajdzie się przed arkuszem Irisidat. Ukrywanie pola podsumowania. Standardowo większość okien wyboru wyników (np. Wyniki regresji wielorakiej) w górnej części zawiera pole podsumowania z podstawowymi informacjami o analizie. Dla wybranego okna pole to ukrywamy klikając przycisk w jego prawym dolnym rogu. Aby wyłączyć pokazywanie pola podsumowania dla wszystkich analiz, zaznaczmy opcję Ukryte pole podsumowania w podmenu Opcje menu przycisku Analizy na karcie Narzędzia. STATISTICA - Przewodnik 135

136 ROZDZIAŁ 3: ŚRODOWISKO PRACY Rodzaje dokumentów W programie STATISTICA występuje siedem podstawowych typów dokumentów: skoroszyty (str. 146 i 165), arkusze danych (tabele multimedialne) (str. 169), raporty (str. 148 i 176), wykresy (str. 178 i 185), makra (programy STATISTICA Visual Basic) (str. 179 i 215), projekty STATISTICA (str. 180), projekty Data Miner (str. 64). Powyższe typy dokumentów umożliwiają operowanie na różnorodnych danych, wprowadzanie i analizę danych, tworzenie i przeglądanie wykresów, tworzenie własnych aplikacji oraz raportów o wybranej postaci. Szybki dostęp do ostatnio używanych dokumentów uzyskujemy po kliknięciu przycisku Start programu STATISTICA (w dolnym lewym rogu okna programu) i wybraniu polecenia Dokumenty. 136 STATISTICA - Przewodnik

137 ROZDZIAŁ 3: ŚRODOWISKO PRACY Na karcie Ogólne okna Opcje (przywoływanego za pomocą przycisku o tej samej nazwie w grupie Narzędzia na karcie Podstawowe wstążki) określamy m.in. liczbę pozycji na liście ostatnio otwieranych dokumentów (domyślnie wynosi ona 16). Bardziej szczegółowe informacje o każdym rodzaju dokumentów znajdują się w rozdziale Dokumenty STATISTICA (str. 165) oraz w Podręczniku elektronicznym. Karty związane z aktywnymi dokumentami. Każdy z podstawowych rodzajów dokumentów (zob. str. 136) podlega innym operacjom. W związku z tym dla różnych rodzajów dokumentów mamy różne narzędzia i możliwości dostosowania. Różnice te znajdują odzwierciedlenie na kartach towarzyszących oknom z dokumentami każdego typu. Polecenia menu i przyciski dla każdego rodzaju dokumentów szczegółowo omówiono w Podręczniku elektronicznym. Karty widoczne, gdy aktywny jest skoroszyt, zależą od dokumentu wybranego w skoroszycie. Dzięki temu, jeżeli edytujemy umieszczony w skoroszycie arkusz, wykres, raport, makro, to karty wstążki zawierają odpowiednie do tego celu narzędzia. Jeżeli w skoroszycie aktywny jest pusty węzeł (folder), to domyślnie widoczna jest karta Skoroszyt (zamiast paska odpowiedniego dokumentu). Paski narzędzi zdefiniowane przez użytkownika. Szeroką gamę pasków narzędzi dostępnych w programie STATISTICA (gdy korzystamy z klasycznego menu, włączanego za pomocą przycisku u góry wstążki) możemy dodatkowo rozbudować o własne paski narzędzi. Paski takie mogą zawierać dowolne polecenia pakietu STATISTICA, jak również elementy sterujące (w tym kroje i rozmiary czcionek, style wykresów itp.). Zdefiniowane paski narzędzi możemy nazywać w dowolny sposób. Możemy też wskazać dokumenty, przy aktywizacji których otwierany będzie utworzony przez nas pasek. Program pozwala również modyfikować wszystkie paski narzędzi (także te standardowo zdefiniowane w programie). Paski narzędzi tworzymy i modyfikujemy, wykorzystując kartę Paski narzędzi okna Dostosuj (okno to przywołujemy poleceniem Dostosuj z menu Narzędzia). Paski modyfikujemy, po prostu przeciągając myszą wybrane polecenia lub elementy sterujące na wybrany pasek (tak jak pokazano to na ilustracji poniżej). STATISTICA - Przewodnik 137

138 ROZDZIAŁ 3: ŚRODOWISKO PRACY Kształt i położenie pasków możemy łatwo zmieniać, przeciągając je myszą. Paski narzędzi mogą być swobodne lub zakotwiczone (zadokowane). Wszystkie te opcje pozwalają zbudować za pomocą pasków narzędzi wydajne, specjalistyczne środowisko pracy. W Podręczniku elektronicznym znajdują się proste instrukcje, jak krok po kroku dopasować środowisko pracy do własnych potrzeb; warto przeczytać zwłaszcza temat Tworzenie nowego paska narzędzi. U góry wstążki znajduje się pasek Szybki dostęp, który również można dostosowywać. Opis, jak to zrobić, znajduje się w rozdziale Pomocy: Dostosowywanie paska Szybki dostęp. Menu zdefiniowane przez użytkownika. Podobnie łatwe jest modyfikowanie menu. Do tego celu służy karta Menu okna Dostosuj (zob. informacje w Podręczniku elektronicznym). STATISTICA VISUAL BASIC I STEROWANIE PROGRAMEM STATISTICA Z POZIOMU INNYCH APLIKACJI Ze wszystkich funkcji programu STATISTICA możemy korzystać za pośrednictwem wbudowanego języka STATISTICA Visual Basic (skrót: SVB), który jest zgodny z najpowszechniej wykorzystywanym językiem programowania MS Visual Basic. STATISTICA Visual Basic to zdecydowanie więcej niż dodatkowy język programowania w aplikacji, służący tylko do rozszerzania funkcjonalności programu. W pełni wykorzystuje on zalety architektury obiektowej pakietu STATISTICA i daje programistom dostęp do każdej funkcji i aspektu działania tego programu. Po wykonaniu nawet bardzo złożonej analizy statystycznej lub wizualizacji odpowiadające jej makro uzyskujemy dosłownie dwoma kliknięciami myszy. Makro odpowiadające 138 STATISTICA - Przewodnik

139 ROZDZIAŁ 3: ŚRODOWISKO PRACY analizie możemy później wielokrotnie uruchamiać, modyfikować i wbudowywać je we własne aplikacje. Ponieważ w STATISTICA Visual Basic do standardowej składni Visual Basic dodano ponad funkcji, jest on jednym z najbogatszych środowisk programistycznych. Więcej informacji o STATISTICA Visual Basic znajduje się w rozdziale 8 (str. 215). Sterowanie programem STATISTICA z poziomu innych aplikacji. Narzędzia STATISTICA Visual Basic są bardzo użyteczne, między innymi dlatego, że można je wykorzystać do integracji różnorodnych aplikacji w jeden system. Przykładowo: możemy zarejestrować (lub napisać ręcznie) makro wyznaczające prognozę za pomocą procedur modułu Szeregi czasowe STATISTICA i uruchamiać je w środowisku MS Excel lub MS Word. Wymiana informacji między różnymi aplikacjami realizowana jest w ten sposób, że aplikacje te dostępne są jako obiekty w środowisku Visual Basic. Przykładowo: możemy skorzystać z procedur modułu Podstawowe statystyki w makrze Visual Basic w MS Excel, po zdefiniowaniu w nim obiektu typu Statistica.Application. Po utworzeniu obiektu aplikacji STATISTICA we własnym programie możemy skorzystać z właściwości i metod zawartych w tym obiekcie. Właściwości i obiekty można z grubsza traktować odpowiednio jako zmienne i procedury lub funkcje wykonujące operacje i obliczenia w obiekcie aplikacji. Procedury pakietu STATISTICA możemy wywoływać w wielu innych aplikacjach i za pomocą różnych języków programowania (np. C++ i innych). PRZEGLĄDARKA INTERNETOWA JAKO INTERFEJS PROGRAMU STATISTICA ENTERPRISE SERVER Oprócz opisanych wcześniej środowisk pracy, dostępny jest również interfejs uruchamiany w ramach przeglądarki internetowej, tzw. cienkiego klienta. W przeglądarkowym środowisku pracy możemy tworzyć i wykonywać zapytania do baz danych, przekształcać i analizować dane oraz tworzyć i publikować raporty. Dodatkowo środowisko przeglądarkowe w naturalny sposób umożliwia współpracę wielu osób. Do korzystania z programów STATISTICA poprzez przeglądarkę nie musimy mieć zainstalowanej lokalnie żadnej wersji STATISTICA ani żadnego niestandardowego oprogramowania (wystarczy podstawowa wersja maszyny wirtualnej Java). Dzięki temu ze środowiska przeglądarkowego można korzystać niemalże na dowolnym komputerze, jeśli tylko ma on zainstalowaną przeglądarkę. Należy zauważyć, że do takiego wykorzystania programu niezbędne jest posiadanie licencji na wersję klient-serwer programu STATISTICA. STATISTICA Enterprise Server jest w pełni skalowalnym, korporacyjnym, bazującym na technologii internetowej systemem gromadzenia i analizy danych przeznaczonym dla całych organizacji. System został zbudowany z myślą o technologii przetwarzania rozproszonego i w pełni wykorzystuje wielowarstwową architekturę klient-serwer. STATISTICA Enterprise Server dostarcza funkcjonalność narzędzi analitycznych, graficznych oraz narzędzi do budowy zapytań i raportów programu STATISTICA poprzez prosty w użyciu, interaktywny interfejs STATISTICA - Przewodnik 139

140 ROZDZIAŁ 3: ŚRODOWISKO PRACY przeglądarki internetowej. System oferowany jest jako kompletna, gotowa do instalacji aplikacja z interaktywnym, przeglądarkowym interfejsem użytkownika, pozwalającym w sposób interaktywny wykonywać analizy i przeglądać ich wyniki. Z drugiej strony, STATISTICA Enterprise Server umożliwia użytkownikom zwykłej wersji STATISTICA ( grubego klienta ) przekazywanie czasochłonnych zadań do wykonania na serwerze. Ze względu na otwartą architekturę systemu STATISTICA Enterprise Server zawiera narzędzia programistyczne (całkowicie zgodne ze standardami informatycznymi i konwencjami przyjętymi w składni, takimi jak VB Script, HTML, XML), umożliwiające pracownikom działu IT dostosowywanie wszystkich elementów systemu do własnych potrzeb lub rozszerzanie systemu, na przykład poprzez dodanie nowych komponentów, specjalistycznych komponentów analitycznych przeznaczonych dla korporacji lub komponentów dostępu do baz danych. Jak wspomniano wyżej, system STATISTICA Enterprise Server jest dostarczany z gotowym do użycia środowiskiem przeglądarkowym (w postaci prostych w obsłudze okien dialogowych), które umożliwia określanie analiz i przeglądanie wyników. Ponadto dostępne są narzędzia służące do dostosowywania tych okien dialogowych i tworzenia nowych środowisk pracy i rozszerzania systemu o nowe możliwości. Przykładowo, użytkownik może stworzyć prostą stronę zawierającą tylko trzy przyciski, uruchamiające złożone analizy i tworzące rozbudowane raporty. STATISTICA Enterprise Server dodaje do całej rodziny narzędzi analizy danych, data mining i sterowania jakością STATISTICA nowy wymiar funkcjonalności i mnóstwo nowych możliwości. System jest zgodny z popularnymi serwerami WWW (np. Apache, Microsoft IIS), współpracuje ze środowiskami opartymi na.net i Java, a ponadto nie wymaga modyfikowania zabezpieczeń Internetu lub Intranetu. Rozwinięcie niniejszego opisu znajduje się w Dodatku B STATISTICA Enterprise Server na str WSPÓŁPRACA Z MICROSOFT OFFICE Jeżeli mamy zainstalowaną aplikację Microsoft Office (od wersji 2003) i STATISTICA, to możemy otworzyć arkusz Excela bezpośrednio w środowisku STATISTICA i używać go jako źródło danych. Podobnie możemy wtedy przesyłać wyniki do dokumentu MS Word (przykłady opisano na str. 59 i 151). Excel jako źródło danych. Arkusz Excela otwieramy w środowisku STATISTICA poleceniem Otwórz z menu Plik, tak samo jak własne dokumenty STATISTICA. Przy otwieraniu pliku Excela STATISTICA pyta, czy ma on zostać zaimportowany do arkusza STATISTICA czy otwarty jako okno Excela w ramach środowiska STATISTICA. Po otwarciu dokumentu Excela w oknie STATISTICA mamy dostęp do menu, pasków narzędzi i wstążki dostępnej w naszej instalacji Excela. Dzięki temu możemy edytować i przeliczać formuły, kopiować, przeciągać wykonywać wszystkie czynności, które wykonujemy w Excelu. 140 STATISTICA - Przewodnik

141 ROZDZIAŁ 3: ŚRODOWISKO PRACY Główna zaletą otwierania arkusza Excela w ramach STATISTICA jest korzystanie z niego jako źródła danych do analizy. Wystarczy w tym celu uaktywnić okno dokumentu Excela i uruchomić analizę, tak samo jak w przypadku arkusza STATISTICA. Przy pierwszym uruchomieniu analizy dla arkusza Excela program poprosi o określenie zakresu wczytywanych danych, kolumny z nazwami przypadków i wiersza z nazwami zmiennych. Ustawienia te można zapisać w arkuszu, aby nie musieć ich ponownie dokonywać. Poza możliwością wykorzystania arkusza Excela jako źródła danych, można również korzystać z automatycznej aktualizacji wykresów. Jeśli utworzymy wykres danych z Excela z włączoną automatyczną aktualizacją, to zmiana zawartości Excela spowoduje ponowne wykreślenie wykresu (zauważmy, że zmiana ta musi dotyczyć obszaru określonego jako dane do analizy w STATISTICA). Raporty w dokumentach Worda. Podobnie jak arkusz Excela, w środowisku STATISTICA możemy otworzyć dokument MS Word i edytować go za pomocą narzędzi MS Word. Do dokumentu Worda możemy wstawiać automatycznie lub ręcznie wyniki analiz. Każdy wynik, który możemy przesłać do raportu STATISTICA, możemy również umieścić w dokumencie Worda. Jeśli aktywnym oknem w środowisku STATISTICA jest dokument Word, to wyświetlane są menu, paski narzędzi i wstążka dostępne w naszej instalacji Worda (i menu główne STATISTICA). Umożliwia to pracę z dokumentem tak, jakby był otwarty w standardowy sposób. Arkusz z wynikami przesyłany do dokumentu Worda jest automatycznie przekształcany na tabelę Worda. Dzięki temu możemy łatwo zmieniać wygląd tabeli, korzystając z narzędzi tego edytora tekstu. Tabele, które nie mieszczą się na jednej stronie są automatycznie dzielone między strony. Program najpierw umieszcza wszystkie wiersze tabeli dla pierwszej części kolumn (mieszczącej się na stronie), a następnie wiersze dla kolejnych kolumn (które nie mieściły się na stronie). Dzięki temu uzyskujemy w dokumencie wyniki, które można w naturalny sposób edytować i formatować oraz drukować z poprawnym podziałem na strony. STATISTICA - Przewodnik 141

142 ROZDZIAŁ 3: ŚRODOWISKO PRACY 142 STATISTICA - Przewodnik

143 4ROZDZIAŁ 5 ZARZĄDZANIE WYNIKAMI ANALIZ Przegląd Skoroszyty Osobne okna Raporty Microsoft Word Publikowanie wyników w Internecie i Intranecie SharePoint i STATISTICA Document Management System (SDMS) STATISTICA - Przewodnik 143

144

145 4 ROZDZIAŁ ZARZĄDZANIE WYNIKAMI ANALIZ PRZEGLĄD Po wykonaniu analizy w programie STATISTICA otrzymujemy wyniki w postaci multimedialnych tabel (arkuszy) i wykresów. Można wyróżnić sześć podstawowych, docelowych miejsc, do których kierowane są wyniki. Są to: 1) Skoroszyty (str. 146). 2) Osobne okna (str. 148). 3) Raporty (str. 148). 4) Dokumenty Microsoft Word (str. 151). 5) Strona WWW (str. 152). 6) SharePoint i STATISTICA Document Management System (SDMS). Cztery pierwsze docelowe miejsca (mechanizmy zarządzania wynikami) wybieramy poprzez opcje na karcie Globalne ustawienia wyjścia. Karta ta jest dostępna po wybraniu z menu przycisku Start opcji Globalne ustawienia wyjścia; w celu uzyskania dodatkowych informacji na temat Globalnych ustawień wyjścia w oknie Opcje oraz w oknie Ustawienia wyjścia patrz str. 27. Dostępnych jest też wiele sposobów kierowania wyników do sieci WWW, w zależności od posiadanej wersji programu STATISTICA. Do systemu SharePoint możemy uzyskać dostęp z poziomu STATISTICA, a SDMS jest dodatkowym produktem StatSoft. Docelowe miejsca, do których kierowane są wyniki, mogą być wykorzystywane w różnych kombinacjach (np. jednocześnie skoroszyt i raport), a ponadto każde z nich może być na wiele sposobów dostosowywane do konkretnych potrzeb użytkownika. Każdy z wynikowych obiektów (arkuszy i wykresów) może zawierać osadzone lub połączone obiekty i dokumenty. Wyniki uzyskiwane w pakiecie STATISTICA mogą być porządkowane hierarchicznie na kilka sposobów. Każdy sposób zarządzania wynikami w programie STATISTICA ma swoje zalety, opisane w kolejnych punktach. Bardziej szczegółowy opis typów dokumentów odpowiadających poszczególnym mechanizmom zarządzania wynikami znajduje się w następnym rozdziale poświęconym rodzajom dokumentów (str. 163). STATISTICA - Przewodnik 145

146 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Automatyczne zapisywanie i automatyczne odzyskiwanie dokumentów. Dla wszystkich dokumentów programu STATISTICA (tzn. arkuszy wejściowych, skoroszytów, raportów i makr), które gromadzą wyniki naszej pracy na przestrzeni dłuższego odcinka czasu, możemy włączyć Automatyczne zapisywanie. Ustawienie to znajduje się na karcie Ogólne okna Opcje (przywoływanego za pomocą przycisku Opcje w grupie Narzędzia na karcie Podstawowe wstążki). Po włączeniu opcji automatycznego zapisu, wyniki naszej pracy będą zachowywane w odstępach czasu podanych przez użytkownika (np. co 10 minut), dzięki czemu będziemy mieli możliwość odzyskania danych, które moglibyśmy utracić w przypadku zaniku zasilania lub awarii systemu. SKOROSZYTY Skoroszyty stanowią domyślny sposób zarządzania wynikami (patrz str. 165). Każdy z wynikowych dokumentów (np. arkusz lub wykres programu STATISTICA albo dokument programu Microsoft Word lub Excel) zachowywany jest w skoroszycie w postaci osobnej karty. Dokumenty możemy organizować w hierarchiczną strukturę folderów lub węzłów dokumentu (domyślnie dla każdej analizy tworzony jest osobny folder), wykorzystując widok drzewa, w którym w łatwy sposób można zarządzać poszczególnymi dokumentami, folderami lub całymi gałęziami drzew. Przykładowo wybraną grupę dokumentów możemy wydobyć ze skoroszytu (np. przeciągając myszką) i umieścić w raporcie lub na pulpicie programu STATISTICA (tzn. w pustym obszarze głównego okna programu, w którym STATISTICA wyświetla osobne okna). Całe gałęzie drzewa możemy na różne sposoby umieszczać w innych skoroszytach w celu uzyskania pożądanej struktury folderów. Z technicznego punktu widzenia skoroszyty programu STATISTICA to zoptymalizowane pojemniki ActiveX (patrz str. 231, zobacz również Podręcznik elektroniczny). Skoroszyty są zgodne z wieloma zewnętrznymi formatami plików (np. z dokumentami programu Microsoft Office). Pliki te można w łatwy sposób wstawiać do skoroszytów i w razie potrzeby poddawać edycji przez dwukrotne kliknięcie myszą. 146 STATISTICA - Przewodnik

147 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Zamieszczanie notatek i tekstów komentarzy w skoroszytach. Skoroszyty mają wiele wydajnych opcji efektywnego zarządzania wynikami i stanowią najlepsze rozwiązanie zarówno dla początkujących, jak i zaawansowanych użytkowników. Potencjalną wadą skoroszytów jest brak możliwości łatwego wstawiania w strumień wyników własnych komentarzy, tak jak w edytorach tekstowych, takich jak raporty programu STATISTICA (zob. następny punkt). Warto jednak zauważyć, że: do wszystkich dokumentów pakietu STATISTICA można łatwo dodawać komentarze a) bezpośrednio wpisując tekst na wykresach, tabelach i raportach albo b) pośrednio, wpisując uwagi w polu Komentarz, umieszczonym w oknie Właściwości dokumentu (przywoływanym poleceniem Właściwości z menu przycisku Start ), a ponadto w łatwy sposób można wstawiać w dowolnym miejscu hierarchicznego drzewa wyników skoroszytu sformatowane dokumenty zawierające uwagi i komentarze (w postaci plików tekstowych, dokumentów w formacie raportów programu STATISTICA, dokumentów Notatnika lub innych edytorów tekstowych itp.). Ponadto takie podsumowujące uwagi lub dokumenty z komentarzami mogą być węzłami dla grup podrzędnych obiektów, do których odnosi się dana uwaga, co może poprawić organizację dokumentów. Zapisywanie skoroszytów jako stron WWW. Skoroszyt można zapisać jako plik *.html, wybierając polecenie Zapisz jako z menu przycisku Zapisz na karcie Podstawowe wstążki Plik. Następnie w oknie Zapisz jako z rozwijanej listy Zapisz jako typ należy wybrać Strona WWW (*.htm; *.html). We wskazanym katalogu utworzony zostanie plik *.html, który można otwierać w standardowych przeglądarkach internetowych, takich jak Microsoft Internet Explorer. Podczas zapisywania skoroszytu jako strony WWW program STATISTICA tworzy również podkatalog zawierający wszystkie obrazki, do których odwołuje się strona WWW. Strona WWW zawiera drzewo, które umożliwia lokalizowanie i wyświetlanie różnych obrazów skoroszytu. STATISTICA - Przewodnik 147

148 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ OSOBNE OKNA Dokumenty programu STATISTICA mogą być także kierowane do kolejki osobnych okien, przy czym Długość kolejki określamy na karcie Globalne ustawienia wyjścia w oknie Opcje (przywoływanym poleceniem Globalne ustawienia wyjścia z menu przycisku ). Dość oczywistą wadą tego sposobu lokowania wyników jest niemal całkowity brak organizacji oraz pewien nieład w obszarze okna aplikacji (zauważmy, że w przypadku niektórych procedur kliknięcie jednego przycisku tworzy setki tabel lub wykresów). Z kolei jedną z zalet tego sposobu zarządzania wynikami jest to, że możemy łatwo rozmieszczać obiekty w obrębie obszaru aplikacji STATISTICA (np. w celu uwidocznienia kilku dokumentów wzorcowych do porównań z nowymi wynikami). Zauważmy jednak, że w celu uzyskania tego efektu nie musimy wybierać opcji osobnych okien, gdyż zawsze możemy, w razie potrzeby, w łatwy sposób pobierać ze skoroszytów lub raportów wybrane obiekty i umieszczać je w osobnych oknach. RAPORTY Ostatecznym celem analiz jest zwykle przedstawienie wyników w takiej postaci, która umożliwi zrozumienie danych. Sposób przedstawiania wyników jest również istotny. STATISTICA oferuje szereg metod tworzenia raportów, które zaspokajają rozmaite potrzeby użytkowników. Raporty w programie STATISTICA (zob. str. 176) umożliwiają zarządzanie wynikami w bardziej tradycyjny sposób, przypominający edytory tekstu. Poszczególne obiekty (np. arkusze lub wykresy pakietu STATISTICA czy arkusze Excela) umieszczane są w nim kolejno, jeden po drugim. 148 STATISTICA - Przewodnik

149 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Chociaż edytor raportów jest prostym narzędziem, to jednak kryje on zaawansowaną technologię i ma duże możliwości. Przykładowo, podobnie jak skoroszyt (zob. str. 146), również raport jest pojemnikiem ActiveX (zob. str. 231 lub w Podręczniku elektronicznym), w którym wszystkie dokumenty (nie tylko arkusze i wykresy pakietu STATISTICA, ale również innych aplikacji, np. arkusze Excela) są aktywnymi obiektami, które można modyfikować bezpośrednio w raporcie. Zaletą raportów, które są bardziej tradycyjnym mechanizmem zarządzania wynikami niż skoroszyty, jest możliwość wpisywania między obiektami opisów i komentarzy oraz możliwość przeglądania wyników w tradycyjny sposób, podobnie jak w edytorach tekstu. Edytor raportów umożliwia przewijanie tekstu ze zmienną szybkością oraz korzystanie z funkcji myszy IntelliMouse. Inną zaletą raportu jest możliwość automatycznego umieszczania w nim dodatkowych informacji o analizie (np. nazwy zmiennych wybranych do analizy, ich etykiety, długie nazwy itd.) w zależności od poziomu dodatkowej informacji określonego na karcie Globalne ustawienia wyjścia okna Opcje (przywoływany poleceniem Globalne ustawienia wyjścia z menu przycisku ). Najpoważniejszą wadą raportu jest to, że ma on jednopoziomową strukturę, tzn. nie można zdefiniować hierarchii obiektów. Jednak w pewnych sytuacjach właśnie taka prosta struktura dokumentu jest zaletą. Raporty ze skoroszytów Po zapisaniu wyników do skoroszytu programu STATISTICA, może pojawić się potrzeba przeniesienia ich do raportu. STATISTICA - Przewodnik 149

150 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Otwieramy skoroszyt programu STATISTICA. W skoroszycie wybierzmy wszystkie pliki: zaznaczamy pierwszy plik, naciskamy klawisz SHIFT na klawiaturze i wybieramy ostatni plik. Następnie na karcie Podstawowe klikamy przycisk Dodaj do raportu. Wszystkie pliki ze skoroszytu zostaną skopiowane do raportu programu STATISTICA. Raporty w formacie RTF (Rich Text Format) Format RTF (Rich Text Format) to standardowy sposób zapisu dokumentów zawierających sformatowany tekst i grafikę, opracowany przez Microsoft w celu ułatwienia wymiany dokumentów między aplikacjami. Po zapisaniu raportu w formacie Rich Text Format (*.rtf) może on zostać poprawnie odczytany z zachowaniem układu dokumentu i grafiką przez wszystkie programy obsługujące RTF (np. Microsoft Word). Domyślny format raportu programu STATISTICA (.str) jest zgodny z najważniejszymi konwencjami RTF, jednak zawiera dodatkowe informacje umożliwiające korzystanie w programie STATISTICA z drzewa raportu. Aby móc odczytać raport STATISTICA w innym programie obsługującym RTF, należy otworzyć raport w STATISTICA i wybrać polecenie Zapisz jako z menu przycisku Zapisz na karcie Podstawowe wstążki. Na ekranie pojawi się okno Zapisz jako. Następnie z rozwijanej listy Zapisz jako typ należy wybrać Rich Text Files (*.rtf), podać nazwę pliku w polu Nazwa pliku i kliknąć przycisk Zapisz. Tak zapisany plik można otworzyć w dowolnym programie obsługującym RTF. Raporty w formacie PDF PDF jest to skrót od nazwy Portable Document Format i jest to standardowy sposób zapisu dokumentów z zachowaniem ich wyglądu i struktury, dzięki czemu doskonale nadaje się do wymiany dokumentów i prezentacji informacji. Dokumenty PDF można przeglądać, a także przenosić ich fragmenty do innych aplikacji w trybie tekstowym i graficznym. Zapis PDF jest niezależny od komputera i systemu operacyjnego, a dla większości systemów dostępna jest bezpłatna przeglądarka plików PDF (np. Adobe Acrobat dla Windows oraz Ghostscript dla Linux). PDF został zaakceptowany jako sposób zapisu i przechowywania dokumentów przez FDA (21 CFR Part 11). W celu zapisania raportu programu STATISTICA do pliku w formacie PDF otwieramy raport. Następnie klikamy strzałkę pod przyciskiem Zapisz na karcie Podstawowe i wybieramy polecenie Zapisz jako PDF. Polecenie to wywołuje okno Opcje wydruku, gdzie wybieramy, czy chcemy wydrukować arkusze do pliku jako Obiekty (dopasowane do wielkości okna raportu) czy jako Kompletne arkusze (na osobnych stronach). Jeśli chcemy drukować arkusze do pliku zawsze w taki sam sposób, należy zaznaczyć opcję Użyj bieżących ustawień i nie wyświetlaj więcej tego okna. Klikamy przycisk OK, aby zamknąć okno Opcje wydruku i wyświetlić okno Zapisz raport jako PDF. Posługując się polem Zapisz w wskazujemy na 150 STATISTICA - Przewodnik

151 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ dysku lokalizację docelowego pliku, wpisujemy nazwę w polu Nazwa pliku i klikamy przycisk Zapisz. W programie STATISTICA w formacie PDF można zapisywać raporty, arkusze oraz wykresy. Zauważmy, że nie otrzymujemy w ten sposób uproszczonych plików PDF (na które składają się skompresowane bitmapy poszczególnych stron dokumentów z obrazkami), ale pliki PDF o pełnej funkcjonalności, umożliwiające m.in. wykonywanie takich operacji, jak selektywne kopiowanie czy przeszukiwanie tekstu. Raporty w formacie HTML Czasami pojawia się potrzeba umieszczenia raportów lub skoroszytów STATISTICA w Internecie, szybkiego udostępnienia ich wielu osobom. Program STATISTICA umożliwia zapis raportów i skoroszytów w formacie HTML (HyperText Markup Language). Otwieramy raport lub skoroszyt programu STATISTICA. Następnie klikamy strzałkę pod przyciskiem Zapisz na karcie Podstawowe w grupie Plik i wybieramy polecenie Zapisz jako, aby wyświetlić okno o tej samej nazwie. Z rozwijanej listy Zapisz jako typ wybieramy Pliki HTML (*.html; *.htm), aby zapisać plik z rozszerzeniem *.htm. Zauważmy, że wszystkie wykresy w raporcie lub skoroszycie zapisywane są jako pliki *.png w tym samym folderze co pliki HTM. Nazwy plików graficznych tworzone są zgodnie z następującą konwencją: nazwa_pict0001.png, nazwa_pict0002.png itd. Można również zapisać wykresy jako pliki JPG. W tym celu z głównego paska narzędzi wybieramy Narzędzie Opcje, aby wyświetlić okno Opcje, gdzie wybieramy kartę Raporty lub Skoroszyty, w zależności od tego, jaki dokument chcemy zapisać z rozszerzeniem.htm, i w polu Format eksportu HTML zaznaczamy opcję JPEG i klikamy OK. MICROSOFT WORD W programie STATISTICA dzięki integracji z pakietem Office możliwe jest również umieszczanie wyników bezpośrednio w dokumencie programu Word. Po otwarciu dokumentu Worda wewnątrz programu STATISTICA uzyskuje się dostęp do menu Worda poprzez standardową technologię ActiveX. W programie STATISTICA dostępne są opcje formatowania i edycji identyczne jak w aplikacji Word. Podczas wysyłania arkusza z wynikami analiz do Worda STATISTICA wykorzystuje możliwości edycyjne programu Word i przekształca arkusz w tabelę. W przypadku wielostronicowych arkuszy użytkownik ma możliwość ustalenia granic podziału kolumn i wierszy. Arkusze zostaną podzielone względem kolumn w taki sposób, aby nie przekraczały szerokości strony. Wszystkie wiersze dla danego zbioru kolumn zostaną wyświetlone przed kolejnym zbiorem kolumn. To rozwiązanie umożliwia edycję arkuszy w dokumencie Worda, wyświetlenie całej zawartości arkusza oraz poprawne drukowanie. STATISTICA - Przewodnik 151

152 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Podobnie jak w raportach STATISTICA (patrz str. 148), w dokumentach Worda również można przechowywać dodatkowe informacje (np. nazwy zmiennych wybranych do analizy, długie nazwy zmiennych itp.). Umieszczanie wyników w dokumencie MS Word włączamy na karcie Globalne ustawienia wyjścia (przywołujemy ją poleceniem Globalne ustawienia wyjścia z menu przycisku ). Z rozwijanej listy Wyjście do MS Word należy wybrać jedną z opcji: Wiele dokumentów (osobny dla każdej analizy), Jeden dokument (wspólny dla wszystkich analiz) lub [Wskaż plik], aby wskazać istniejący już dokument programu Word. Pomimo tego, że w dokumencie Worda nie ma drzewa ułatwiającego zarządzanie poszczególnymi elementami, jest wiele innych korzyści. Jedną z nich jest dostęp do wszystkich funkcji edytora tekstowego. Przykładowo można dołączyć szablony umożliwiające tworzenie dokumentów odpowiadających potrzebom użytkownika, dodawać tabele, śledzić zmiany itp. Podczas wstawiania dużego arkusza do dokumentu Worda program STATISTICA automatycznie wykrywa, ile zmiennych zmieści się na stronie i na tej podstawie dzieli arkusz na kilka tabel programu Word. Jeśli w arkuszu określono nazwy przypadków, wtedy znajdą się one w pierwszej kolumnie każdej tabeli. Dodatkową korzyścią umieszczania wyników w dokumencie Worda jest zwiększenie funkcjonalności dotyczącej drukowania (np. możliwość drukowania do pliku, ręczne ustawienie druku dwustronnego) oraz możliwość zapisania wyników jako stron WWW. Knowledge Portal PUBLIKOWANIE WYNIKÓW W INTERNECIE I INTRANECIE STATISTICA Enterprise Server umożliwia publikowanie raportów w Internecie lub Intranecie z wykorzystaniem Knowledge Portal. System ten udostępnia w sieci dokumenty STATISTICA (arkusze, wykresy, skoroszyty) użytkownikom o odpowiednich uprawnieniach. Prawa dostępu do dokumentów określamy w standardowy dla STATISTICA Enterprise Server sposób. W celu opublikowania dokumentu w Knowledge Portal najpierw tworzymy katalog w składnicy dokumentów STATISTICA Enterprise Server. Rozpoczynamy pracę w systemie jako użytkownik z uprawnieniami administratora i z menu File wybieramy polecenie My Directory Operations. Na ekranie pojawi się okno STATISTICA Enterprise Server My Directory, takie jak na poniższym rysunku. Przechodzimy do folderu Portal i klikamy przycisk Create, aby utworzyć nowy katalog. Na ekranie pojawi się okno, w którym wpisujemy nazwę tworzonego katalogu, np. Sample Portal Folder i klikamy OK. 152 STATISTICA - Przewodnik

153 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Po wykonaniu operacji otrzymamy potwierdzenie utworzenia foldera. Klikamy przycisk Show My Directory i wracamy do okna My Directory. Zaznaczamy opcję Show Empty Directories, aby widoczne były puste foldery i odświeżamy zwartość okna, klikając Refresh. Rozwijamy drzewo katalogu Portal, klikając umieszczony obok niego znak +. Spowoduje to pokazanie nowo utworzonego foldera Sample Portal Folder. Prawa dostępu do foldera określamy po kliknięciu przycisku Security (przy zaznaczonym folderze Sample Portal Folder). Publikowanie wyników uzyskiwanych na serwerze Po utworzeniu folderu możemy w nim udostępniać wyniki użytkownikom korzystającym z STATISTICA Enterprise Server lub STATISTICA. STATISTICA - Przewodnik 153

154 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ W STATISTICA Enterprise Server wykonamy typową analizę. Z menu File systemu wybieramy polecenie Open Data Spreadsheet. Następnie w oknie Select Data Source klikamy folder Datasets, wybieramy plik Adstudy.sta i klikamy OK. Zamykamy okno edytora danych STATISTICA Enterprise Server, ponieważ nie będziemy go używać. Pozostawiamy aktywne okno z podsumowaniem pliku Adstudy.sta. Z menu STATISTICA Enterprise Server Statistics Basic Statistics and Tables wybieramy polecenie Descriptive Statistics. W oknie przeglądarki zostanie wyświetlona lista wyboru zmiennych (w górnej części) oraz ustawienia analizy (na dole). Na liście Continuous variables wybieramy zmienne do analizy MEASURE01 i MEASURE02, tak jak na rysunku poniżej. Następnie przewijamy okno przeglądarki w dół i w panelu Descriptive Statistics w polu Detail of computed results reported zaznaczamy All results, po czym klikamy OK. 154 STATISTICA - Przewodnik

155 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Po zakończeniu obliczeń w oknie przeglądarki zostaną wyświetlone wyniki złożone z kilku arkuszy i wykresów. STATISTICA - Przewodnik 155

156 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Aby udostępnić wyniki użytkownikom systemu Knowledge Portal, klikamy przycisk Publish po prawej stronie u góry okna przeglądarki. Przywołany zostanie panel Publish Destination, w którym wskazujemy Sample Portal Directory jako miejsce przeznaczenia raportu. Przy zapisie możemy określić uprawnienia dostępu. Jeśli chcemy, aby uprawnienia do raportu były takie, jak do katalogu, w którym go zapisaliśmy, anulujemy zaznaczenie opcji I want to define who can access this output page. Klikamy przycisk Next i raport zostanie zapisany we wskazanym przez nas katalogu. Teraz użytkownicy systemu Knowledge Portal po zalogowaniu będą mieli dostęp do raportu. Publikowanie wyników analizy wykonanej lokalnie Dzięki współpracy STATISTICA Enterprise Server ze zwykłą wersją STATISTICA możemy publikować dokumenty STATISTICA (arkusze, wykresy, skoroszyty i raporty) w systemie Knowledge Portal bezpośrednio z programu pracującego lokalnie (tzn. na naszej stacji roboczej). 156 STATISTICA - Przewodnik

157 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Na początek musimy włączyć współpracę ze STATISTICA Enterprise Server. W tym celu naciskamy przycisk Opcje w grupie Narzędzia na karcie Podstawowe wstążki. Następnie przechodzimy na kartę Serwer/WebSTATISTICA okna Opcje. Zaznaczamy pole Współpraca z serwerem WebSTATISTICA. Jedyny wymagany parametr to pełna nazwa serwera (ewentualnie łańcuch połączenia, jeśli zastosowano niestandardowe ustawienia). Informacje niezbędne do połączenia z serwerem powinny być dostępne u administratora systemu. Jeżeli serwer STATISTICA Enterprise Server dopuszcza zintegrowane logowanie, to można automatycznie uwierzytelniać się w systemie użytkownik nie musi wtedy podawać swojego identyfikatora i hasła. Zintegrowane logowanie włączamy na stacji roboczej poprzez zaznaczenie pola Zintegrowane logowanie. Jeśli funkcja ta nie jest włączona, to rozpoczynając pracę ze STATISTICA Enterprise Server, będziemy musieli podawać nazwę użytkownika i hasło. Przy włączonej współpracy z serwerem uaktywnia się karta Serwer. Aby móc wykonywać operacje w STATISTICA Enterprise Server, naciskamy na niej przycisk Zaloguj. Jeśli działa zintegrowane logowanie, to zostaniemy zarejestrowani w systemie z bieżącą nazwą użytkownika i hasłem używanym w Windows. W przeciwnym wypadku lub gdy zintegrowane logowanie się nie uda, system poprosi nas o podanie nazwy użytkownika i hasła. Po udanym uwierzytelnieniu polecenia z menu Serwer staną się aktywne. STATISTICA - Przewodnik 157

158 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Teraz wykonamy analizę i opublikujemy jej wynik w Knowledge Portal. Klikamy przycisk i wybieramy polecenie Otwórz przykłady, a następnie w oknie Otwórz arkusz STATISTICA dwukrotnie klikamy folder Datasets, a potem dwukrotnie klikamy plik Adstudy.sta, aby otworzyć go w STATISTICA. Następnie na karcie Statystyka wstążki naciskamy przycisk Statystyki podstawowe i w panelu początkowym wybieramy Statystyki opisowe. Klikamy OK. Na ekranie pojawi się okno Statystyki opisowe. Przed wykonaniem analizy upewnijmy się, że wyniki będą kierowane do skoroszytu. W tym celu klikamy przycisk Opcje i z menu wybieramy Ustaw wyjście. Na ekranie pojawi się okno, w którym sprawdzamy, czy w grupie Umieszczaj wszystkie wyniki (arkusze, wykresy) w wybrano Jednym skoroszycie. Następnie klikamy OK, aby powrócić do okna Statystyki opisowe. Klikamy przycisk Zmienne i wybieramy POMIAR1 i POMIAR2, po czym potwierdzamy wybór, klikając OK. Klikamy przycisk Podsumowanie, program utworzy domyślny arkusz wyników i umieści go w skoroszycie. Okno Statystyki opisowe zostanie zminimalizowane, a skoroszyt stanie się aktywnym dokumentem. Utworzymy jeszcze histogramy dla obu zmiennych. Klikamy przycisk Statystyki opisowe na pasku Analizy na dole okna STATISTICA, aby 158 STATISTICA - Przewodnik

159 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ przywrócić okno Statystyki opisowe. W oknie tym klikamy przycisk Histogramy. Okno analizy zostanie ponownie zminimalizowane, a aktywnym dokumentem stanie się skoroszyt z wynikami, taki jak na poniższym rysunku. Ten właśnie dokument opublikujemy w systemie Knowledge Portal. Na karcie Serwer naciskamy przycisk Zapisz jako. STATISTICA - Przewodnik 159

160 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ Na ekranie pojawi się okno Repozytorium WebSTATISTICA z listą dostępnych folderów. Wybieramy folder Portal i klikamy OK. Spowoduje to zapisanie w folderze Portal skoroszytu pod domyślną nazwą (taką jak nazwa skoroszytu w STATISTICA). Dokumenty na serwerze możemy przeglądać w przeglądarce otwartej w STATISTICA. Na karcie Serwer wstążki klikamy Otwórz w przeglądarce. Następnie logujemy się do STATISTICA Enterprise Server i z menu File tego systemu wybieramy polecenie My Directory Operations. Przechodzimy do katalogu Portal i wybieramy plik Workbook1.stw, po czym klikamy przycisk View, by skoroszyt został wyświetlony w oknie przeglądarki. SHAREPOINT I STATISTICA DOCUMENT MANAGEMENT SYSTEM (SDMS) Wyniki analiz możemy umieszczać również w Microsoft SharePoint lub STATISTICA Document Management System (SDMS). MS SharePoint Dzięki współpracy STATISTICA z systemem MS SharePoint możemy otwierać, zapisywać, wyewidencjonowywać i zaewidencjonowywać pliki STATISTICA w bibliotekach SharePoint. Dokument przechowywany w SharePoint wczytujemy podobnie jak plik z dysku: na karcie Podstawowe w grupie Plik naciskamy przycisk Otwórz. Następnie rozwijamy listę Szukaj w i wskazujemy na niej miejsce sieciowe określone dla biblioteki dokumentów SharePoint (tworzenie takiego miejsca sieciowego opisano na str. 161). Wybieramy żądany dokument i klikamy Otwórz. Możemy zostać poproszeni o uwierzytelnienie w systemie SharePoint. Dokument STATISTICA (arkusz, skoroszyt, makro itd.) zapisujemy w SharePoint poleceniem Zapisz jako, dostępnym w menu przycisku Zapisz w grupie Plik na karcie Podstawowe. W oknie Zapisz jako z listy Szukaj w wybieramy miejsce sieciowe określone dla biblioteki dokumentów SharePoint (tworzenie takiego miejsca sieciowego opisano na str. 161) i określamy położenie pliku. Dotyczące współpracy z SharePoint przyciski Wyewidencjonuj, Zaewidencjonuj i Odrzuć znajdują się w grupie SharePoint na karcie Podstawowe wstążki. Polecenia dotyczące współpracy z SharePoint znajdują się również w menu przycisku. W celu nawiązania współpracy STATISTICA z SharePoint najpierw należy określić lokalizację sieciową. W tym celu w systemach Vista i Windows 7 naciskamy przycisk Start w lewym rogu paska zadań Widnows, klikamy Komputer, a następnie klikamy prawym klawiszem myszy wolne miejsce w oknie Eksploratora i z menu podręcznego wybieramy polecenie Dodaj lokalizację sieciową. Na ekranie pojawi się Kreator dodawania lokalizacji sieciowej. Klikamy w nim przycisk Dalej. 160 STATISTICA - Przewodnik

161 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ W kolejnym oknie dwukrotnie klikamy Wybierz niestandardową lokalizację sieciową. Następnie podajemy adres serwera SharePoint i biblioteki dokumentów (po ukośniku), z której chcemy korzystać, np. Klikamy Dalej. Uwierzytelniamy się w systemie SharePoint i klikamy OK. Na koniec nadajemy nazwę lokalizacji i klikamy Dalej. Teraz możemy zakończyć pracę kreatora i otworzyć lokalizację sieciową. Lokalizacja sieciowa została utworzona i będzie dostępna w eksploratorze Windows, pod taką nazwą, jaką jej nadaliśmy. Teraz w STATISTICA otwieramy dokument z lokalizacji sieciowej odwołującej się do biblioteki SharePoint za pomocą polecenia Otwórz, dostępnego w menu Plik na karcie Podstawowe wstążki. STATISTICA Document Management System (SDMS) STATISTICA Document Management System (SDMS) to rozwiązanie bazodanowe do zarządzania dokumentami. Produkt ten umożliwia użytkownikowi sprawne, wydajne i bezpieczne STATISTICA - Przewodnik 161

162 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ zapisywanie dokumentów różnego typu w bezpiecznej bazie danych, pozwalając na szybkie odnajdywanie dokumentów, udostępnianie ich, przeszukiwanie ich zawartości, a także na przeglądanie dokumentu, jego edycję (rejestrując przy tym proces edycji i odpowiednio zarządzając kolejnymi wersjami), a także zatwierdzanie itd. SDMS umożliwia zarządzanie dokumentami z dowolnego komputera w sieci lokalnej lub przez Internet. W STATISTICA Document Management System wszystkie działania są zapisywane. Przykładowo dokumenty nigdy nie są usuwane. Gdy użytkownik zmieni dokument, tworzona jest nowa wersja, z prawidłowym uwierzytelnieniem i podpisem elektronicznym. Uwierzytelnieni użytkownicy mogą wyewidencjonowywać dokumenty z repozytorium i zapisywać w nim nowe wersje z komentarzami i dokumentacją dotyczącą natury i przyczyny zmian. SDMS zaprojektowano z myślą o zapewnieniu zgodności z uregulowaniami norm ustalających sposób zarządzania dokumentami, jak np. FDA 21 CFR Część 11, ustawą Sarbanes-Oxley czy ISO 9000, 9001, STATISTICA Document Management System jest w pełni zgodny z jednostanowiskowymi wersjami STATISTICA, wersjami sieciowymi oraz z pełnymi instalacjami korporacyjnymi, jak np. STATISTICA Enterprise QC (przeznaczonym do badania procesów, sterowania i optymalizacji jakości). SDMS może także działać jako samodzielny system. SDMS jest w szerokim zakresie konfigurowalny i zgodny z innymi aplikacjami, tak więc można go dostosować do wykonywania rozmaitych zadań. SDMS można wbudować w istniejące systemy zarządzania danymi i dokumentami. 162 STATISTICA - Przewodnik

163 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI 5 ANALIZ ROZDZIAŁ DOKUMENTY STATISTICA Skoroszyty Arkusze (tabele multimedialne) Raporty Wykresy Makra (programy STATISTICA Visual Basic) Projekty STATISTICA STATISTICA - Przewodnik 163

164 ROZDZIAŁ 4: ZARZĄDZANIE WYNIKAMI ANALIZ 164 STATISTICA - Przewodnik

165 5 ROZDZIAŁ DOKUMENTY STATISTICA SKOROSZYTY Skoroszyty (opisane krótko na str. 146) stanowią domyślny sposób gromadzenia wyników i zarządzania nimi. Przechowują one dokumenty wynikowe (np. arkusze lub wykresy pakietu STATISTICA czy też dokumenty programu Microsoft Word lub Excel) w postaci kart. Z punktu widzenia rozwiązań informatycznych skoroszyty programu STATISTICA to zoptymalizowane pojemniki ActiveX (zob. str. 231), pozwalające efektywnie zarządzać dużą liczbą dokumentów. Dokumenty możemy organizować w hierarchiczną strukturę, zawierającą foldery lub pojedyncze dokumenty (domyślnie dla każdej analizy tworzony jest osobny folder). Struktura ta ma postać drzewa ułatwiającego zarządzanie dokumentami, folderami lub całymi gałęziami drzewa. Przykładowo wybraną grupę dokumentów możemy wydobyć ze skoroszytu (np. korzystając z techniki przeciągania myszą) i umieścić ją w raporcie lub na pulpicie programu STATISTICA (tzn. w pustym obszarze głównego okna programu, w którym STATISTICA wyświetla osobne STATISTICA - Przewodnik 165

166 ROZDZIAŁ 5: DOKUMENTY STATISTICA okna). Całe gałęzie drzewa skoroszytu możemy umieszczać na różne sposoby w innych skoroszytach, w celu uzyskania pożądanej struktury folderów. Każdy skoroszyt zawiera dwa panele: po lewej stronie drzewo (podobne do Eksploratora Windows), a po prawej panel podglądu dokumentu. Drzewo eksploracji (drzewo skoroszytu) możemy podzielić na foldery, tak aby uzyskać logiczne uporządkowanie dokumentów (np. według typu: w jednym folderze wszystkie wyniki analiz, w drugim makra wykorzystywane w analizie itd.). Na dole okna skoroszytu mamy zakładki z nazwami dokumentów w aktualnie otwartym folderze. Umiejscowienie zakładek możemy zmieniać, klikając na dowolnej z nich prawym klawiszem myszy i wybierając z podręcznego menu ich nowe umiejscowienie. Jedną z zalet umiejscowienia zakładek z boku panelu jest wyświetlenie ich w wielu wierszach (a nie jednym, ale bardzo długim), tak jak pokazano to na rysunku. Ułatwia to znalezienie zakładki pożądanego dokumentu. Dla zaoszczędzenia obszaru okna aplikacji mamy także możliwość zrezygnowania z wyświetlania zakładek. W skoroszycie programu STATISTICA dowolne dokumenty, a nie tylko foldery, mogą mieć potomków (innymi słowy, możemy zdefiniować dokument nadrzędny dla innych dokumentów i folderów). Przykładowo: w skoroszycie możemy umieścić arkusz danych, a wykresy tworzone na jego podstawie wstawiać do skoroszytu jako jego dokumenty potomne. Konstruowanie drzewa ułatwia szeroka gama operacji z użyciem Schowka i przeciągania myszą. Wszystkie dokumenty zawarte w wybranym folderze skoroszytu prezentowane są razem w panelu podglądu, jeśli klikniemy folder (innymi słowy wtedy, gdy aktywnym obiektem jest folder, a nie dokument). Dokumenty STATISTICA na podglądzie zawartości folderu możemy edytować po podwójnym kliknięciu. 166 STATISTICA - Przewodnik

167 ROZDZIAŁ 5: DOKUMENTY STATISTICA W skoroszytach możemy przechowywać wszystkie dokumenty programu STATISTICA (wykresy, arkusze, raporty i makra), jak również inne obiekty zgodne z technologią ActiveX (np. arkusze programu Excel, dokumenty programu Word i inne). Dokumenty innych aplikacji możemy przeglądać w skoroszycie, a jeżeli zechcemy je modyfikować, wystarczy po wybraniu nazwy dokumentu w drzewie skoroszytu dwukrotnie kliknąć lewym przyciskiem myszy. Dokument zostanie wyświetlony w prawym panelu skoroszytu wraz z odpowiednim menu programu operującego na danym typie dokumentu. Skoroszyty możemy także wykorzystywać do przechowywania wszystkich wyników analizy. Zarządzanie drzewem skoroszytu Drzewo skoroszytu odzwierciedla uporządkowanie plików i folderów w nim zawartych. Pliki i foldery prezentowane są w sposób analogiczny jak w Eksploratorze Windows. Znak plus obok pozycji informuje, że dany obiekt ma przypisanych potomków (dokumenty podrzędne). Wybraną gałąź drzewa możemy rozwinąć, klikając znak plus. W skoroszycie możemy zdefiniować dowolną liczbę poziomów, przy czym można interaktywnie zarządzać zarówno pojedynczymi pozycjami z widoku drzewa, jak i całymi gałęziami (np. stosując technikę przeciągania z użyciem prawego przycisku myszy, w celu skopiowania lub przesunięcia obiektu pomiędzy skoroszytami lub raportami, jak to pokazano poniżej na drugim rysunku). Dokument umieszczony w skoroszycie możemy przeglądać lub edytować po odnalezieniu go w strukturze drzewa i podwójnym kliknięciu jego ikony. Zostanie on wtedy otwarty w panelu podglądu dokumentu. Zauważmy, że pomiędzy zawartymi w aktywnym folderze dokumentami przechodzimy, klikając odpowiadające im zakładki (wyświetlane domyślnie na dole panelu podglądu dokumentu). Jak wspomniano wcześniej, zakładki te możemy ławo przenosić w inne miejsce, klikając prawym klawiszem myszy i wybierając odpowiednią opcję z podręcznego menu. Położenie zakładek można też ustalać poleceniami z menu rozwijanego poprzez naciśnięcie przycisku Zakładki w grupie Narzędzia na karcie Skoroszyt wstążki. Zauważmy, że zakładki STATISTICA - Przewodnik 167

168 ROZDZIAŁ 5: DOKUMENTY STATISTICA u góry lub na dole panelu podglądu dokumentu są przewijane od lewej strony na prawo, a zakładki umieszczone z boku wyświetlane są w wielu wierszach. Typ obiektu w drzewie rozpoznajemy po umieszczonej obok niego ikonie. Ikona reprezentuje folder (węzeł), który może zawierać różnorakie dokumenty i podfoldery. Natomiast ikona oznacza, że do folderu przypisano makro pozwalające utworzyć zawarte w folderze tabele i wykresy (makro to możemy uruchomić poleceniami z menu podręcznego foldera; zob. rozdział 8 STATISTICA Visual Basic, str. 220). Arkusz programu STATISTICA oznaczany jest ikoną, raport, makro, wykres reprezentuje ikona, a przestrzeń roboczą Data Miner. Dokumenty aplikacji innych niż STATISTICA są domyślnie oznaczane ikonami przypisanymi im przez system Windows (najczęściej tymi, które widzimy w Eksploratorze obok nazwy dokumentu). Przykładowo: dokument Word jest zwykle reprezentowany przez ikonę, a plik Excela oznaczany jest przez. Polecenia służące do wstawiania, wydobywania, zmiany nazwy oraz usuwania obiektów skoroszytu znajdują się w podręcznym menu (przywoływanym przez kliknięcie prawym klawiszem myszy w dowolnym miejscu drzewa skoroszytu). Polecenia te są również dostępne na karcie Skoroszyt. Drzewo skoroszytu możemy porządkować i zmieniać za pomocą przeciągania (jak również Schowka). Naciskając podczas przeciągania odpowiedni klawisz na klawiaturze, określamy, czy składniki skoroszytu mają zostać przeniesione czy skopiowane, oraz czy będą wstawione jako potomek (tzn. jako zależne do wskazanego składnika) czy jako składniki równorzędne (na tym samym poziomie w drzewie). W poniższej tabeli przedstawiono działania przeciągania wykonywane przy różnych wciśniętych klawiszach. 168 STATISTICA - Przewodnik

169 Działanie Przenieś jako potomka Przenieś jako równorzędny Kopiuj jako potomka Kopiuj jako równorzędny Wciśnięty klawisz (brak) SHIFT CTRL SHIFT + CTRL Kursor ROZDZIAŁ 5: DOKUMENTY STATISTICA Wynik Przenosi wybrany składnik i umieszcza go w nowym miejscu jako potomka składnika, wskazywanego przy zwolnieniu klawisza myszy Przenosi wybrany składnik i umieszcza go w nowym miejscu jako następny równorzędny do składnika, wskazywanego przy zwolnieniu klawisza myszy Kopiuje wybrany składnik i umieszcza go w nowym miejscu jako potomka składnika, wskazywanego przy zwolnieniu klawisza myszy Kopiuje wybrany składnik i umieszcza go w nowym miejscu jako następny równorzędny do składnika, wskazywanego przy zwolnieniu klawisza myszy Pierwsza czynność przy przeciąganiu to wskazanie obiektów, które mają zostać skopiowane lub przeniesione. Po wybraniu elementów drzewa po prostu przesuwamy wskaźnik myszy w pożądane miejsce przy wciśniętym lewym klawiszu myszy. Po ustawieniu kursora myszy w wybranym miejscu, zwalniamy wciśnięty do tej pory klawisz myszy (tzn. upuszczamy zaznaczone obiekty). Pojedynczy obiekt wybieramy, klikając go lewym klawiszem myszy. Składnik i wszystkie obiekty podrzędne do niego wybieramy, klikając ten składnik (węzeł). Zauważmy, że podczas przeciągania możemy przewijać drzewo w pionie i poziomie. ARKUSZE (TABELE MULTIMEDIALNE) Arkusze programu STATISTICA opierają się na opatentowanej przez firmę StatSoft technologii tabel multimedialnych i są wykorzystywane zarówno do zarządzania danymi wejściowymi, jak i wynikami w postaci numerycznej lub tekstowej (a opcjonalnie także każdym innym rodzajem wyników). Podstawowa postać arkusza to prosta dwuwymiarowa tablica, umożliwiająca operowanie praktycznie nieograniczoną liczbą przypadków (wierszy) i zmiennych (kolumn), a każda jej komórka może zawierać praktycznie nieograniczoną liczbę znaków. Do arkusza można również dołączać pliki dźwiękowe, wideo, wykresy, animacje, raporty z osadzonymi obiektami oraz inne dokumenty zgodne z technologią ActiveX. Arkusze programu STATISTICA mogą również zawierać makra i inne zdefiniowane przez użytkownika środowiska pracy i dlatego te multimedialne tabele mogą być wykorzystywane w charakterze szablonów własnych aplikacji (np. zawierających pole listy opcji lub zestaw przycisków umieszczonych w lewym górnym rogu arkusza), a także samouruchamiających się prezentacji, animacji, symulacji itp. STATISTICA - Przewodnik 169

170 ROZDZIAŁ 5: DOKUMENTY STATISTICA Struktura pliku danych w arkuszach. Dane w programie STATISTICA zorganizowane są w przypadki i zmienne. Przypadki to odpowiedniki rekordów w programach zarządzających bazami danych (lub wiersze w arkuszu kalkulacyjnym), a zmienne to odpowiedniki pól (kolumn w arkuszu kalkulacyjnym). Każdy przypadek to zbiór wartości zmiennych, a pierwsza kolumna w pliku może (opcjonalnie) zawierać nazwy przypadków. 170 STATISTICA - Przewodnik

171 Okno arkusza składa się z kilku podstawowych elementów. ROZDZIAŁ 5: DOKUMENTY STATISTICA Pasek tytułowy. W pasku tytułowym wyświetlana jest nazwa arkusza wraz z rozszerzeniem (.sta). Jeśli dany arkusz zawiera dane wejściowe, w pasku tytułowym jest także wyświetlana liczba zmiennych i liczba przypadków (np. 25zmn. * 50prz.). Na pokazanym powyżej rysunku pasek tytułowy zawiera tekst Dane: Adstudy.sta (25zmn. * 50prz.). Pole informacyjne. Klikając myszą jeden raz w środkową część Pola informacyjnego (kursor myszy przyjmuje postać domyślnej strzałki), umieszczonego w lewym górnym rogu okna arkusza, zaznaczamy całą zawartość arkusza. Aby wybrać samo Pole informacyjne (w celu jego sformatowania), klikamy jeden raz w jego lewym górnym rogu (kursor myszy przyjmuje tam postać znaku plus ). Z kolei aby w Polu informacyjnym wprowadzić lub poddać edycji tekst (np. dodatkowe informacje na temat arkusza), klikamy dwukrotnie gdziekolwiek w jego obszarze. Na pokazanym powyżej rysunku Pole informacyjne zawiera tekst Odpowiedzi. Nagłówek. Jest on umieszczony w górnej części okna arkusza, tuż nad nagłówkami zmiennych. Aby wprowadzić do Nagłówka nowy tekst lub poddać edycji tekst wcześniej wprowadzony, klikamy dwukrotnie lewym klawiszem myszy w jego obrębie. Aby wybrać sam Nagłówek (w celu jego sformatowania), klikamy jeden raz w lewym górnym rogu jego obszaru (kursor myszy przyjmuje tam postać znaku plus ). Aby wprowadzić nowy wiersz używamy kombinacji klawiszy CTRL+ENTER lub ALT+ENTER (zauważmy, że aby nowo wprowadzane wiersze były widoczne, musimy zwiększyć wysokość pola nagłówka). Nagłówki przypadków. Komórki umieszczone w lewej części okna arkusza zawierają informacje nagłówkowe dla każdego przypadku. Po dwukrotnym kliknięciu Nagłówka przypadku możemy wprowadzić nowy tekst lub poddać edycji tekst wprowadzony wcześniej. Aby wybrać sam Nagłówek przypadku (w celu jego sformatowania), klikamy jeden raz w lewym górnym rogu jego obszaru (kursor myszy przyjmuje tam postać znaku plus ). Aby wybrać cały wiersz dla danego przypadku (do edycji), klikamy dwukrotnie pośrodku lub z prawej strony Nagłówka przypadku (kursor myszy przyjmuje wtedy postać znaku plus ze strzałką ). Z kolei aby wybrać blok Nagłówków przypadków (ale bez odpowiadających im wierszy STATISTICA - Przewodnik 171

172 ROZDZIAŁ 5: DOKUMENTY STATISTICA z danymi), w podręcznym menu arkusza zaznaczamy opcję Wybierz tylko nazwy przypadków. Aby automatycznie dopasować szerokość Nagłówków przypadków, klikamy dwukrotnie lewym klawiszem myszy prawy brzeg dowolnego Nagłówka przypadku (kursor myszy przyjmuje postać znaku krzyżyka ze strzałkami ). Na pokazanym powyżej rysunku komórki Nagłówka przypadku zawierają pierwszą literę imienia oraz nazwisko respondentów. Zauważmy, że Nagłówki przypadków są opcjonalne oraz że możemy ich nie wyświetlać (do przełączania służy opcja Nazwy przypadków dostępna w menu przycisku Ustawienia wyświetlania na karcie Widok wstążki). Zamiast nazw przypadków wyświetlane są wówczas numery przypadków. Stan przypadków. Przy standardowej konfiguracji STATISTICA po lewej stronie nagłówków przypadków umieszczane są oznaczenia stanów przypadku. Stany przypadków decydują o tym, jak traktowany jest przypadek przez procedury statystyczne i graficzne STATISTICA; dokładniejsze informacje o stanach przypadków znajdują się na str. 130 i w Pomocy elektronicznej. Nagłówki zmiennych. Komórki umieszczone u góry każdej z kolumn arkusza zawierają informacje nagłówkowe dla każdej zmiennej. Klikając dwukrotnie w obrębie danego Nagłówka zmiennej, możemy wyświetlić szczegółowe informacje o danej zmiennej. Aby wybrać sam Nagłówek zmiennej (w celu jego sformatowania) klikamy jeden raz w górnej części jego obszaru (kursor myszy zamiast znaku przyjmuje postać znaku plus ). Aby wybrać kolumnę zmiennej (do edycji), klikamy jeden raz w dolnej części Nagłówka zmiennej (kursor myszy przyjmuje postać znaku plus ze strzałką ). Aby automatycznie dopasować szerokość kolumny zmiennej, klikamy dwukrotnie lewym klawiszem myszy prawy brzeg Nagłówka zmiennej (kursor myszy przyjmuje postać znaku krzyża ze strzałką o podwójnym grocie ). Na pokazanym powyżej rysunku dwie pierwsze komórki Nagłówka zmiennej zawierają nazwy Płeć i Reklama. Mamy możliwość zmiany sposobu wyświetlania informacji w komórce Nagłówka zmiennej, tak aby pokazywany był numer kolumny danej zmiennej, długa nazwa zmiennej oraz jej typ. Każda z tych opcji jest dostępna w menu przycisku Nagłówki zmiennych na karcie Widok. Dane (i formatowanie). Pozostała część arkusza zawiera dane odnoszące się do przypadków i zmiennych oraz dowolne inne, połączone lub osadzone obiekty (multimedialne, makra, własne interfejsy użytkownika). Tekst w komórkach może mieć praktycznie nieograniczoną długość (w większości instalacji programu STATISTICA jest ona jednak ograniczona do 1000 znaków, aby uchronić użytkownika przed nieumyślnym wklejeniem do jednej komórki ogromnych ilości danych). Tekst zawarty w komórkach może być formatowany na wiele sposobów: możemy np. zawijać tekst, wybierać rodzaj czcionki i jej właściwości. Arkusze wejściowe i wynikowe STATISTICA pozwala na jednoczesne otwieranie i korzystanie z wielu arkuszy, umożliwiając w ten sposób jednoczesną pracę z wieloma różnymi plikami danych. Oprócz przechowywania danych STATISTICA wykorzystuje arkusze do wyświetlania liczbowych wyników analiz. 172 STATISTICA - Przewodnik

173 ROZDZIAŁ 5: DOKUMENTY STATISTICA W programie łatwo jest wykorzystywać wyniki analizy jako dane wejściowe do dalszych analiz, gdyż nie ma różnicy w sposobie przetwarzania arkuszy wejściowych, z których program czerpie dane, oraz arkuszy wynikowych, gdzie są umieszczane wyniki analizy. Dowolny arkusz, otwarty z pliku dyskowego, jest automatycznie traktowany jako arkusz wejściowy (możliwe jest jednoczesne otwarcie dowolnej liczby arkuszy wejściowych). Aby jednak uniknąć zamieszania, arkusz wynikowy (zawierający rezultaty analizy) nie jest automatycznie dostępny jako dane wejściowe do analizy. Przed użyciem do dalszych analiz musi on zostać oznaczony jako arkusz wejściowy. Arkusze wejściowe w pasku tytułowym podają liczbę zmiennych i przypadków zawartych w danym arkuszu. Przykładowo: Exp.sta (88zmn. * 48prz.) jest arkuszem wejściowym, a Exp.sta nim nie jest. Aby użyć arkusza wynikowego jako arkusza wejściowego, wybieramy ten arkusz (tzn. uaktywniamy okno, w którym jest on zawarty), a następnie zaznaczamy pole Wejście na karcie Dane. Możemy teraz rozpocząć analizę, a STATISTICA wykorzysta do analizy dane z określonego w ten sposób arkusza wejściowego. Zauważmy, że jeśli przełączymy się ponownie na inny arkusz, który został wcześniej oznaczony jako arkusz wejściowy, będziemy go także mogli używać do analizy. W przypadku skoroszytu w danym momencie do analizy możemy wybrać tylko jeden arkusz, nawet jeśli skoroszyt zawiera kilka arkuszy wejściowych. Arkusz taki jest nazywany Aktywnym arkuszem wejściowym, a odpowiadająca mu ikona (w drzewie skoroszytu) jest otoczona czerwoną ramką. Jeśli arkusz wynikowy oznaczymy jako arkusz wejściowy, to STATISTICA domyślnie wybierze go jako aktywny arkusz wejściowy. Aby oznaczyć inny arkusz jako wejściowy, zaznaczamy dla niego pole Aktywny arkusz wejściowy, na karcie Skoroszyt wstążki lub w podręcznym menu drzewa skoroszytu. STATISTICA - Przewodnik 173

174 ROZDZIAŁ 5: DOKUMENTY STATISTICA Jest również możliwe pozostawienie otwartego arkusza wyświetlanego w osobnym oknie i oznaczenie go jako niedostępnego do analizy. Aby to zrobić, wybieramy ten arkusz i anulujemy wybór pola Wejście na karcie Dane wstążki. STATISTICA powróci wtedy domyślnie do arkusza ostatnio wybranego do analizy, pomijając wszystkie arkusze, które nie zostały oznaczone jako arkusze wejściowe. Dostęp do arkuszy STATISTICA przez OLE DB Z arkuszy możemy korzystać nie tylko w STATISTICA, ale również w systemach bazodanowych, wykorzystując do tego celu standard OLE DB. Z programem STATISTICA instalowany jest StatSoft OLE DB Provider for STATISTICA Spreadsheets, umożliwiający odczyt danych z arkuszy STATISTICA z wykorzystaniem języka SQL. Z dostawcy OLE DB możemy skorzystać w bardzo wielu rozwiązaniach, zawsze wtedy, gdy przywołujemy okno Właściwości łącza danych (np. w Excelu umożliwia to Kreator połączenia danych). Dane z arkusza odczytujemy przez OLE DB w STATISTICA w następujący sposób. Na początek naciskamy strzałkę pod przyciskiem Otwórz w grupie Plik wstążki. Spowoduje to wyświetlenie menu, z którego wybieramy pozycję Dane zewnętrzne, a potem Utwórz zapytanie. Spowoduje to uruchomienie STATISTICA Query, a na ekranie pojawi się okno Połączenie z bazą danych, w którym wybieramy StatSoft OLE DB Provider for STATISTICA Spreadsheets. Naciskamy przycisk Dalej, aby przejść na kartę Połączenie. 174 STATISTICA - Przewodnik

175 ROZDZIAŁ 5: DOKUMENTY STATISTICA W polu Źródło danych wpisujemy pełną nazwę katalogu, w którym znajdują się arkusze STATISTICA. Poszczególne arkusze z tego katalogu wybieramy, tworząc zapytanie w STATISTICA Query. W poniższym przykładzie korzystamy z katalogu z przykładowymi plikami danych STATISTICA. Każdy arkusz z tego katalogu widziany jest jako osobna tabela, na liście tabel do wyboru po lewej stronie okna STATISTICA Query. W zapytaniach SQL do arkuszy odwołujemy się po słowie kluczowym FROM, a zmienne wybieramy tak jak pola bazy danych - po słowie kluczowym SELECT. Zakres przypadków określamy, podając warunek po słowie kluczowym WHERE. Arkusze możemy łączyć, używając słowa kluczowego JOIN. STATISTICA - Przewodnik 175

176 ROZDZIAŁ 5: DOKUMENTY STATISTICA Za pomocą dostawcy OLE DB StatSoft możemy wczytywać dane z arkuszy STATISTICA do wszystkich aplikacji obsługujących standard OLE DB w tym także do STATISTICA. RAPORTY Raporty (opisane krótko na str. 148) umożliwiają zarządzanie wynikami w programie STATISTICA w bardziej tradycyjny sposób (w porównaniu ze skoroszytami). Raport przypomina dokument edytora tekstu, a poszczególne obiekty (np. wykresy, arkusze MS Excel) umieszczane są w nim kolejno, jeden za drugim. Chociaż edytor raportów wydaje się być prostym narzędziem, to wykorzystuje on zaawansowaną technologię i ma duże możliwości. Podobnie jak skoroszyt, raport również jest pojemnikiem ActiveX (zob. str. 231), w którym wszystkie dokumenty (nie tylko arkusze i wykresy programu STATISTICA, ale również inne dokumenty zgodne z technologią ActiveX, np. dokumenty MS Word albo bitmapy) są aktywnymi obiektami, które można modyfikować bezpośrednio w raporcie. Raporty zapisywane są w plikach formatu STR, który stanowi rozszerzenie wprowadzone przez firmę StatSoft w stosunku do formatu RTF firmy Microsoft (Rich Text Format, *.rtf). Pliki formatu STR zawierają informacje o formatowaniu, które zawiera format RTF, a ponadto zawierają również informację na temat struktury drzewa (która nie może być przechowywana w standardowych plikach formatu RTF). Dlatego też pliki raportów są domyślnie zapisywane z rozszerzeniem *.str. Mogą być również zapisywane w postaci standardowych plików RTF, ale wtedy informacja o strukturze drzewa nie jest zachowywana. Oczywistą zaletą tego sposobu zarządzania wynikami (bardziej tradycyjnego niż skoroszyt) jest możliwość umieszczania między obiektami opisów i komentarzy oraz możliwość przeglądania wyników w tradycyjny sposób, podobnie jak w edytorach tekstu. Edytor raportów pozwala przewijać tekst ze zmienną szybkością oraz korzystać z dodatkowych funkcji myszy Intelli- Mouse. 176 STATISTICA - Przewodnik

177 ROZDZIAŁ 5: DOKUMENTY STATISTICA Inną zaletą raportu jest możliwość automatycznego umieszczania w nim dodatkowych informacji o specyfikacji analizy, wybranych zmiennych itd., w zależności od wybranego poziomu szczegółowości informacji dodatkowych (który określamy na karcie Globalne ustawienia wyjścia w oknie Opcje, przywoływanej poleceniem Globalne ustawienia wyjścia z menu przycisku ), zob. str. 28. Z kolei oczywistą wadą tych tradycyjnych raportów jest to, że mają one płaską strukturę, tzn. nie można zdefiniować hierarchii obiektów. Wydaje się jednak, że część użytkowników preferuje właśnie taką prostą strukturę dokumentu. Zarządzanie drzewem raportu Drzewo raportu odzwierciedla uporządkowanie plików zawartych w raporcie. Pliki prezentowane są w sposób analogiczny jak w Eksploratorze Windows, jednak w odróżnieniu od skoroszytów, które mogą obsługiwać wiele poziomów organizacji plików, raport obsługuje tylko jeden poziom. Raport pozwala wybierać nieciągły zakres pozycji do drukowania, usuwania itd. (do tego celu wykorzystujemy konwencje Windows zestawienie CTRL i SHIFT). W raporcie możemy osadzić dowolny typ dokumentu programu STATISTICA, w tym arkusze, wykresy i analizy. Oprócz dokumentów programu STATISTICA możemy także osadzać w raporcie inne rodzaje obiektów zgodnych z technologią ActiveX/OLE, np. arkusze Excela, dokumenty Worda, mapy bitowe i inne. Edycję takiego dokumentu rozpoczniemy, dwukrotnie klikając na nim myszą. Plik zostaje wtedy otwarty w panelu podglądu dokumentu, a pasek STATISTICA - Przewodnik 177

178 ROZDZIAŁ 5: DOKUMENTY STATISTICA narzędzi raportu zostanie połączony z paskiem narzędzi pochodzącym z macierzystej aplikacji osadzonego pliku. W ten sposób są udostępniane wszystkie potrzebne narzędzia edycyjne. Typ obiektu w drzewie rozpoznajemy po ikonie umieszczonej obok niego. Ikona reprezentuje arkusz programu STATISTICA, ikona reprezentuje makro programu STATISTICA, odpowiada wykresowi, a przestrzeni roboczej Data Miner. Dokumenty aplikacji innych niż STATISTICA są domyślnie oznaczane ikoną przypisaną im przez system Windows (najczęściej tą samą, którą widzimy w Eksploratorze obok nazwy dokumentu). Przykładowo: dokument programu Word jest najczęściej reprezentowany przez ikonę, a plik Excela przez. Drzewo raportu możemy organizować i modyfikować za pomocą techniki przeciągnij i upuść, jak również wykorzystując mechanizmy Schowka. Polecenia służące do wstawiania, wydobywania, zmiany nazwy oraz usuwania obiektów z drzewa raportu są dostępne w podręcznym menu (przywoływanym przez kliknięcie prawym przyciskiem myszy w obszarze drzewa raportu, jak to zostało pokazane poniżej). WYKRESY Osobnym typem dokumentu programu STATISTICA są wykresy, cechujące się dużą funkcjonalnością i elastycznością ze względu na sposoby ich tworzenia oraz bogactwo narzędzi pozwalających dostosowywać je do aktualnych potrzeb. Podobnie jak wszystkie inne dokumenty programu STATISTICA, również wykresy są pojemnikami ActiveX (zob. str. 231), co oznacza, że mogą one zawierać w sobie różnorodne, kompaty- 178 STATISTICA - Przewodnik

179 ROZDZIAŁ 5: DOKUMENTY STATISTICA bilne dokumenty (jak rysunki programu Visio, ilustracje pakietu Adobe, arkusze Excela i inne). Wykresy programu STATISTICA są również obiektami ActiveX, mogą więc być łączone lub wklejane do innych, kompatybilnych dokumentów (jak np. dokumenty Worda), gdzie mogą być na miejscu edytowane. Wykresy szerzej omawiane są w rozdziale 6 Wykresy. MAKRA (PROGRAMY STATISTICA VISUAL BASIC) Jako alternatywny interfejs użytkownika można wykorzystać zintegrowany z programem STATISTICA język programowania STATISTICA Visual Basic, który jest zgodny ze standardami przyjętymi w informatyce. STATISTICA Visual Basic to nieporównanie więcej niż tylko język programowania przeznaczony do tworzenia własnych rozszerzeń programu. Zwróćmy uwagę, iż STATISTICA Visual Basic to nie Microsoft Visual Basic 6.0. StatSoft jest właścicielem kodu STATISTICA Visual Basic i utrzymuje go. SVB jest zgodny z Microsoft VB.NET, Visual Basic for Applications (VBA), a także z Microsoft Visual Basic 6.0 (VB6). Z poziomu SVB mamy dostęp do Visual Basic for Applications (służącego do sterowania aplikacjami Micorsoft Office) i jednocześnie do środowiska.net (zob. rozdział 10, str. 241). Można również uzyskać dostęp do innych API, takich jak np. Yahoo s Stock Quote API lub Google Analytics API. SVB oferuje potężne 64-bitowe rozwiązanie dla integracji systemów, rozszerzeń i tworzenia aplikacji. Korzysta on w pełni z obiektowej architektury programu STATISTICA, mając programistyczny dostęp do każdego aspektu i szczegółu jego funkcjonalności. STATISTICA - Przewodnik 179

180 ROZDZIAŁ 5: DOKUMENTY STATISTICA Nawet najbardziej złożone analizy i wykresy zapisywać można jako makra Visual Basic, by później wielokrotnie je uruchamiać, w razie potrzeby modyfikować, a także wykorzystywać jako części składowe innych aplikacji. STATISTICA Visual Basic to arsenał ponad nowych funkcji dodanych do standardowej, kompletnej składni Microsoft Visual Basic, tworzący w sumie jedno z największych i najbogatszych dostępnych środowisk programistycznych. Makra programu STATISTICA mogą być zapisywane w kilku formatach w zależności od planowanego ich wykorzystania (zob. Podręcznik elektroniczny). Można je też kopiować do Schowka i dalej wklejać do innych programów i dokumentów. Szersze omówienie STATISTICA Visual Basic znajduje się w rozdziale 8 (str. 215). PROJEKTY STATISTICA Pracując w STATISTICA często mamy otwartych wiele dokumentów i analiz. Stan środowiska pracy (w tym także analizy) możemy zapisać jako projekt. Dzięki temu na każdym etapie analizy możemy zapisać projekt i zamknąć program. Wczytanie projektu spowoduje otwarcie wszystkich dokumentów i okien analiz otwartych w chwili zapisu projektu. Projekt STATISTICA zapisujemy poleceniami Zapisz projekt lub Zapisz projekt jako z menu przycisku Zapisz w grupie Projekt na karcie Podstawowe. Przy pierwszym zapisie projektu na ekranie pojawia się okno Zapisz projekt STATISTICA. W oknie tym podajemy nazwę pliku projektu (z rozszerzeniem.spf). Możemy też wybrać typy okien, które będą zapisywane. W projekcie możemy uwzględniać wszystkie dokumenty STATISTICA (Arkusze, Wykresy, Skoroszyty, Makro, Raporty, projekty Data Mining, Tabele 180 STATISTICA - Przewodnik

181 ROZDZIAŁ 5: DOKUMENTY STATISTICA zdalnego przetwarzania) oraz okna analizy (określania analiz opcja Analizy, wyboru wyników opcja Wyniki analiz). Dla dokumentów zapisanych na dysku możemy wybrać Połącz z plikiem dokumentu lub zapisać kopię dokumentu w projekcie (Włącz dokument do projektu). Analizy zapisywane są w projekcie jako skrypty. Podczas określania analizy i wyboru wyników program automatycznie tworzy skrypt odpowiadający działaniom użytkownika. Przy otwieraniu projektu skrypt jest automatycznie wykonywany, a na ekranie pojawi się okno określania analizy lub wyboru wyników, otwarte przy zapisie projektu. Dzięki plikom projektów wiele osób może wspólnie wykonywać analizę (gdy pliki są zapisywane w projekcie, tzn. zaznaczono opcję Włącz dokument do projektu). Jedna osoba wykonuje analizę do pewnego momentu i przesyła plik projektu drugiej, a ta otwiera projekt i może prowadzić badania dalej dokładnie od tego momentu, do którego doszedł pierwszy użytkownik. Domyślnie przy kończeniu pracy program STATISTICA pyta, czy zapisać projekt, a przy następnym uruchomieniu automatycznie otwiera ostatni zapisany projekt. Dzięki temu możemy łatwo kontynuować pracę od tego miejsca, gdzie ją przerwaliśmy. Zauważmy, że projekt stanowi zapis stanu programu i dlatego w odróżnieniu od innych dokumentów STATISTICA możemy w danej sesji otworzyć tylko jeden projekt. Aby otworzyć wiele projektów jednocześnie należy uruchomić wiele kopii STATISTICA. STATISTICA - Przewodnik 181

182 ROZDZIAŁ 5: DOKUMENTY STATISTICA 182 STATISTICA - Przewodnik

183 6 ROZDZIAŁ WYKRESY Wprowadzenie Dostosowywanie wykresów Rodzaje wykresów Wykresy danych wejściowych Wykresy bloku danych Wykresy z menu Wykresy Stany przypadków i wyróżnianie Inne wykresy specjalistyczne Wykresy w STATISTICA Visual Basic STATISTICA - Przewodnik 183

184 ROZDZIAŁ 5: DOKUMENTY STATISTICA 184 STATISTICA - Przewodnik

185 6 ROZDZIAŁ WYKRESY WPROWADZENIE Wykresy wykorzystuje się najczęściej do efektywnego prezentowania informacji (zazwyczaj danych liczbowych). Istnieje jednak również wiele technik graficznych, które służą do eksploracji danych i sprawdzania hipotez. Obszerny wybór metod graficznych. STATISTICA zawiera obszerny wybór metod graficznych służących zarówno do analizy danych, jak i prezentacji wyników. Wszystkie wykresy dostępne w programie STATISTICA zawierają szereg wbudowanych interaktywnych technik analitycznych oraz szeroki zakres narzędzi dostosowywania umożliwiających użytkownikowi interaktywne sterowanie prawie wszystkimi aspektami wykresu. Dostępne są również wygodne narzędzia do zarządzania wieloma wykresami, umożliwiające użytkownikowi łączenie różnych obrazów graficznych oraz budowanie dynamicznych połączeń pomiędzy aplikacjami (np. przy użyciu mechanizmu OLE Łączenia i osadzania obiektów). Zgodność z Visual Basic i innymi językami. Opcje graficzne STATISTICA dostępne są z poziomu wbudowanego języka STATISTICA Visual Basic i z innych języków programowania. Daje to praktycznie nieograniczone możliwości tworzenia nowych, własnych typów wykresów i dostosowywania już istniejących. Takie własne wykresy można na trwałe dołączać do środowiska użytkownika w programie STATISTICA (np. przypisywać je do przycisków pasków narzędzi lub dodawać do menu). Różne rodzaje wykresów. W programie STATISTICA dostępne są różne metody tworzenia i definiowania wykresów. Obejmują one obszerne kategorie wykresów: wykresy danych wejściowych, wykresy bloku danych i wykresy specjalistyczne. Metody te (omówione w podrozdziale Rodzaje wykresów na str. 195) uzupełniają się wzajemnie i zapewniają integrację danych liczbowych (danych surowych, wyników pośrednich i wyników końcowych) z grafiką. Na przykład wykresy specjalistyczne dostępne bezpośrednio z okien wyboru wyników analiz można też tworzyć za pomocą zintegrowanych narzędzi i w ten sposób uzyskiwać wizualizację dowolnej kombinacji danych liczbowych i tekstowych, przeglądanych lub wygenerowanych w programie STATISTICA. STATISTICA - Przewodnik 185

186 ROZDZIAŁ 6: WYKRESY DOSTOSOWYWANIE WYKRESÓW Interakcyjne dostosowywanie wykresów. Możliwości dostosowywania wykresów w programie STATISTICA obejmują setki opcji i narzędzi, które mogą być użyte do dostosowania każdego szczegółu wyglądu wykresu i związanych z wykresem przekształceń danych. Opcje te zorganizowane są w sposób hierarchiczny, a opcje najczęściej wykorzystywane dostępne są bezpośrednio poprzez podwójne kliknięcie (lub kliknięcie prawym klawiszem myszy) odpowiedniego elementu wykresu. Ustawienia domyślne i opcje automatyzacji. Wstępne (domyślne) ustawienia wszystkich opcji można w prosty sposób zmienić tak, żeby nawet domyślny wygląd i domyślne zachowanie wykresów odpowiadało naszym potrzebom. Można to zrobić na jeden z poniższych sposobów: 1) Okno dialogowe Opcje. Najprostszą metodą dostosowania domyślnego wyglądu wykresu jest zmiana ustawień na kartach Wygląd i Ustawienia w węźle w oknie dialogowym Opcje (przywoływanym przyciskiem Opcje w grupie Narzędzia na karcie Podstawowe wstążki). Na kartach tych można w prosty sposób dostosować najczęściej wykorzystywane ustawienia, które zostaną zapisane w stylach domyślnych (zob. punkt 2) używanych przez system i jako takie będą automatycznie zapisywane w pliku konfiguracyjnym programu STATISTICA (dzięki temu w różnych projektach można wykorzystywać różne ustawienia). Dalsze szczegóły znajdują się w Podręczniku elektronicznym w opisie karty Konfiguracje okna dialogowego Opcje. 2) System stylów wykresów. Ustawienia mające wpływ na wygląd wykresów (od elementarnych, takich jak kolor czcionki w stopce, po ogólne właściwości całego dokumentu wykresu) można zapisywać jako pojedyncze style. Stylom tym można nadawać własne nazwy i później korzystać z nich w prosty sposób (na przykład poprzez skróty klawiaturowe lub przyciski na własnych paskach narzędzi). W program STATISTICA wbudowany jest inteligentny system zarządzania stylami i ich kombinacjami, który pomaga użytkownikowi uzyskać pożądany efekt przy minimalnym nakładzie pracy. Wszystkie style zdefiniowane lub zmodyfikowane przez użytkownika zapisywane są automatycznie w pliku konfiguracyjnym pakietu STATISTICA (dzięki temu można na przykład w różnych projektach korzystać z różnych zestawów stylów użytkownika). Dalsze szczegóły znajdują się w Podręczniku elektronicznym w opisie karty Konfiguracje okna dialogowego Opcje. 3) Wykresy użytkownika. Nowe typy wykresów można definiować na wiele sposobów i następnie dodawać do menu, okien dialogowych lub pasków narzędzi. Możemy utworzyć własny wykres do ponownego wykorzystania, nie budując go od podstaw (np. za pomocą elementarnych procedur graficznych), lecz poprzez dostosowanie niektórych opcji jednego z wykresów dostępnych na karcie Wykresy wstążki (nie dotyczy to Wykresów bloku i Wykresów danych wejściowych). Taki nowy typ wykresu możemy dodać jako nową pozycję do menu przycisku Wykresy użytkownika na karcie Wykresy wstążki, klikając przycisk Dodaj do menu jako wykres użytkownika na karcie Opcje 2 okna dialogowego definiowania wykresu. Wszystkie podane przez użytkownika opcje wykresu zostaną auto- 186 STATISTICA - Przewodnik

187 ROZDZIAŁ 6: WYKRESY matycznie zapisane w pliku konfiguracyjnym pakietu STATISTICA (dzięki temu można np. w różnych projektach korzystać z różnych zestawów wykresów użytkownika). Dalsze szczegóły znajdują się w Podręczniku elektronicznym w opisie karty Konfiguracje okna dialogowego Opcje. 4) STATISTICA Visual Basic. Należy zauważyć, że wykres użytkownika może być dostosowywany w nieograniczonym stopniu, gdyż w STATISTICA Visual Basic (zawierającym potężne możliwości wizualizacji i procedury graficzne programu STATISTICA) można utworzyć praktycznie każdy typ grafiki i dowolne obiekty multimedialne obsługiwane przez współczesny sprzęt komputerowy. Utworzone w ten sposób własne wykresy i multimedia można umieszczać na paskach narzędzi, w menu i w oknach dialogowych programu STATISTICA, mogą one również stanowić integralną część własnej aplikacji STATISTICA. Sposoby dostosowywania wykresów są dokładniej omówione w Podręczniku elektronicznym. Zawiera on również opis różnych rodzajów wykresów, przykłady i omówienie zastosowań poszczególnych typów wykresów. Domyślne ustawienia większości wykresów statystycznych oferowanych w STATISTICA są zgodne z powszechnie przyjętymi zasadami, które są dokładnie opisywane w literaturze poświęconej tworzeniu wykresów statystycznych i technicznych lub reprezentują standardy powszechnie akceptowane przez główne czasopisma naukowe (np. SCIENCE). Jednak praktycznie wszystkie domyślne ustawienia w programie STATISTICA mogą być dostosowywane tak, aby spełniały konkretne wymagania najróżniejszych zastosowań (zob. str. 186). Procedury graficzne w programie STATISTICA są tak zaprojektowane, aby mogły pełnić rolę wygodnych narzędzi zdolnych do tworzenia efektów wykraczających daleko poza utarte wzorce i schematy. Ponadto istnieje możliwość ich dostosowywania do konkretnych potrzeb oraz dodawania nowych narzędzi. Okno Opcje wykresu zawiera ustawienia odpowiednie dla danego typu wykresu. Okno to przywołujemy dwukrotnym kliknięciem na marginesie wykresu. Możemy też nacisnąć przycisk Opcje wykresu w grupie Narzędzia na karcie Format wstążki. Wszystkie ustawienia w oknie Opcje wykresu podzielone są na grupy według podobieństwa. Okno to obejmuje wszystkie ustawienia dostępne w menu podręcznych i przez dwukrotne kliknięcie składnika wykresu. STATISTICA - Przewodnik 187

188 ROZDZIAŁ 6: WYKRESY Na dole wykresu znajdują się elementy sterujące (kontrolki) umożliwiające określenie przeźroczystości pól i znaczników na wykresie oraz przywołanie okna Opcje wykresu (ikona z kluczem). W przypadku wykresów trójwymiarowych możemy dodatkowo obracać wykres. Ponadto po wskazaniu ikon i uzyskujemy interakcyjne panoramowanie i zmianę skalowania osi wykresu. Po lewej wykres 2W Na dole powiększony pasek z kontrolkami 188 STATISTICA - Przewodnik

189 ROZDZIAŁ 6: WYKRESY Po lewej stronie widzimy zaznaczoną powiększaną część wykresu, po prawej przeskalowany wykres pokazujący tylko zaznaczony po lewej obszar. Na wykresie po lewej stronie widzimy wykres rozrzutu z dużą gęstością punktów, po prawej zwiększona przezroczystość umożliwia odkrycie wzorca. STATISTICA - Przewodnik 189

190 ROZDZIAŁ 6: WYKRESY Zmiana przezroczystości obszarów (za pomocą suwaka na dole wykresu) pozwala zobaczyć nakładające się części wykresu (po lewej). Po prawej stronie widzimy wykres 3W z zakreślonymi suwakami sterującymi obrotem wykresu. Pod wykresami widzimy powiększony pasek z kontrolkami dla wykresu 3W. Oprócz szerokiego zestawu standardowych wykresów statystycznych i technicznych, program STATISTICA zawiera wiele unikalnych typów wykresów i narzędzi służących do ich modyfikacji. Większość z nich została zaprojektowana przez statystyków firmy StatSoft przy współudziale użytkowników programu: ostateczny zakres opcji graficznych zawartych w programie STATISTICA jest efektem informacji uzyskanych od tysięcy użytkowników, którzy przekazywali swoje opinie i listy życzeń, w odpowiedzi na prośby ze strony firmy StatSoft. Wiele z unikalnych własności wykresów programu STATISTICA zostało wprowadzonych na podstawie pomysłów i życzeń użytkowników programu. Firma StatSoft jest bardzo wdzięczna za wszelkie uwagi ze strony użytkowników programu. Jak już wcześniej wspomniano, istnieją różne metody tworzenia wykresów programu STATISTICA (szczegółowy opis znajduje się na str. 195). Można powiedzieć, że metody te reprezentują różne rodzaje połączeń pomiędzy danymi liczbowymi i wykresami. Przykładowo: liczby przedstawiane na wykresie kołowym mogą po prostu opisywać wartości występujące w kolumnie arkusza (np. zmiennej Liczba wypadków) w kolejnych wierszach (np. w przypadkach o etykietach: Styczeń, Luty, Marzec itd.). 190 STATISTICA - Przewodnik

191 ROZDZIAŁ 6: WYKRESY Podobny wykres może również pokazywać wyniki pewnych obliczeń, na przykład wycinki koła mogą przedstawiać względne częstości obserwacji, które należą do kategorii wyznaczanych przez jedną z procedur służących do tworzenia histogramu (np. liczby miesięcy, w których Liczba wypadków wynosiła od 35 do 40, od 40 do 45 itd.). STATISTICA - Przewodnik 191

192 ROZDZIAŁ 6: WYKRESY Niezależnie od zastosowanej metody tworzenia wykresu (tzn. niezależnie od tego, skąd zostały zaczerpnięte ani w jaki sposób były wyliczane liczby przedstawiane na wykresie) można zmieniać jego wygląd i łączyć go z innymi wykresami lub dokumentami za pomocą wszystkich narzędzi dostosowywania wykresów i zarządzania wieloma wykresami dostępnymi w programie STATISTICA. Można również korzystać ze wszystkich zintegrowanych narzędzi analitycznych, które są dostępne w obrębie wykresów w pakiecie STATISTICA (takich jak dopasowywanie funkcji, wygładzanie, obracanie, wyróżnianie, skalowanie itd.), i stosować je w odniesieniu do wykresów, niezależnie od pochodzenia liczb na wykresie lub metody, która została zastosowana do jego utworzenia. Narzędzia edycji wykresów programu STATISTICA umożliwiają użytkownikowi tworzenie nawet bardzo złożonych wykresów gotowych do opublikowania w zastosowaniach naukowych i technicznych: 192 STATISTICA - Przewodnik

193 ROZDZIAŁ 6: WYKRESY oraz precyzyjnych rysunków: STATISTICA - Przewodnik 193

194 ROZDZIAŁ 6: WYKRESY lecz także diagramów, plakatów, wykresów prezentacyjnych i innych obrazów: przeznaczonych do przekazywania informacji w najbardziej efektywny i atrakcyjny sposób. Wykresy zapisane w plikach lub tymczasowo wydzielone w jakiś inny sposób z programu STATISTICA (np. skopiowane do Schowka lub połączone z dokumentem innej aplikacji przy pomocy mechanizmu OLE) stanowią kompletne obiekty (mówiąc językiem informatycznym: obiekty ActiveX; zob. str. 231). Zachowują one przy tym nie tylko wszystkie własności dostosowywania i inne osadzone obiekty, lecz także wszystkie dane niezbędne do kontynuacji edycji wszystkich aspektów obrazu lub analizy jego zawartości (dopasowywanie, wygładzanie itp.). Ponieważ wykresy programu STATISTICA są obiektami ActiveX, można je łatwo łączyć i osadzać w innych dokumentach zgodnych z tym standardem (np. w dokumentach Excela lub Worda), w których mogą być edytowane po podwójnym kliknięciu. Wykresy te są również pojemnikami ActiveX i można w nich umieszczać, poprzez osadzanie lub tworzenie łączy, wiele rodzajów dokumentów, takich jak: rysunki programu Visio, ilustracje pakietu Adobe, arkusze Excela, dokumenty Worda. Oprócz tego program STATISTICA zapewnia obsługę obiektów osadzanych hierarchicznie (do czterech poziomów), co oznacza, że można korzystać z dokumentów, które zawierają dokumenty, zawierające dokumenty, które zawierają dokumenty. 194 STATISTICA - Przewodnik

195 RODZAJE WYKRESÓW ROZDZIAŁ 6: WYKRESY Oprócz wykresów specjalistycznych, które są dostępne w oknach wyników procedur statystycznych (zob. str. 204) istnieją dwa główne typy wykresów, dostępne na karcie Wykresy (i w menu o tej samej nazwie, gdy nie używamy wstążki), w menu podręcznym oraz w menu pojawiającym się po kliknięciu przycisku Start programu STATISTICA. Są to: Wykresy danych wejściowych, (zob. str. 195) i wykresy z menu Wykresy (zob. str. 199). Wykresy bloku danych (zob. str. 197). Te dwa typy wykresów różnią się ze względu na dane, do prezentacji których służą: Wykresy danych wejściowych. Wykresy te oraz ich rozszerzona wersja na karcie Wykresy wstążki oferują standardowe metody graficznej prezentacji danych surowych z aktualnie otwartego arkusza wejściowego (zazwyczaj dla wszystkich przypadków wybranych zmiennych lub ich podzbiorów, jeśli włączona jest selekcja przypadków). Należy zauważyć, że jeśli wykresy tego rodzaju tworzone są za pomocą menu podręcznego, wywołanego dla arkusza z wynikami, a nie z danymi wejściowymi (np. dla macierzy korelacji), to program przy tworzeniu wykresu będzie korzystał z odpowiednich surowych danych wejściowych (np. utworzony zostanie wykres rozrzutu dla zmiennych odpowiadających wybranej komórce macierzy korelacji, dla której otwarto menu podręczne). Wykresy bloku danych. Te wykresy są całkowicie niezależne od pojęcia danych wejściowych czy pliku danych. Są to ogólne narzędzia tworzenia własnych prezentacji wyników liczbowych z aktualnie zaznaczonego bloku danych dowolnego arkusza (mogą to być dowolne, wskazane przez użytkownika podzbiory danych z arkuszy z wynikami lub bloki danych wejściowych). Cechy wspólne obydwu rodzajów wykresów. Dla obydwu typów wykresów dostępne są te same opcje dostosowywania wykresów i te same rodzaje wykresów. Na przykład taki sam specjalistyczny skategoryzowany wykres trójkątny można utworzyć zarówno dla danych wejściowych (surowych), jak i dla zaznaczonego przez użytkownika bloku w arkuszu wyników. Te dwie ogólne kategorie wykresów zostaną pokrótce omówione poniżej, a następnie w rozdziale dotyczącym karty Wykresy, które zawiera obszerny wybór wykresów pierwszego typu (wykresów danych wejściowych), określanych jako wykresy z menu Wykresy, chociaż menu to zawiera również Wykresy bloku danych i inne opcje. WYKRESY DANYCH WEJŚCIOWYCH Polecenie Wykresy danych wejściowych znajduje się w menu podręcznym wszystkich arkuszy. Daje ono szybki dostęp do najczęściej wykorzystywanych typów wykresów do zastosowania dla bieżącego pliku danych. STATISTICA - Przewodnik 195

196 ROZDZIAŁ 6: WYKRESY Należy zauważyć, że wykresy te są również dostępne na karcie Wykresy, w menu przycisku Start programu STATISTICA na pasku zadań oraz po kliknięciu przycisku Galeria wykresów w każdym z okien definiowania wykresu. Wykresy danych wejściowych nie dają tylu możliwości co wykresy z menu Wykresy, można je jednak szybciej wybrać, ponieważ w odróżnieniu od wykresów z menu Wykresy: mogą zostać przywołane bezpośrednio z podręcznego menu arkusza, nie wymagają od użytkownika wybierania zmiennych (zmienne określone są przez wybrane komórki w arkuszu), nie wymagają od użytkownika wyboru opcji, nie potrzebują żadnych pośrednich okien dialogowych (stosowane są domyślne formaty odpowiednich wykresów). Wykresy danych wejściowych odnoszą się do danych z bieżącego pliku danych wejściowych i tworzone są dla zmiennych, które wskazuje bieżące położenie kursora (w dowolnym rodzaju arkusza). Na przykład jeśli klikniemy prawym klawiszem myszy jeden ze współczynników korelacji z arkusza wyników i wybierzemy Wykres rozrzutu względem, to STATISTICA utworzy wykres dwuwymiarowy dla oryginalnych wartości dwu zmiennych, dla których ta korelacja została policzona (zob. Przykład wprowadzający na str. 15). Najwygodniejszym sposobem wyboru Wykresu danych wejściowych jest menu podręczne arkusza, lecz są one również dostępne na karcie Wykresy oraz w menu przycisku Start pakietu STATISTICA). Niezależnie od sposobu wyświetlenia z tego menu można wybrać jeden z wykresów statystycznych, jakie mogą być utworzone dla bieżącej zmiennej (tzn. dla zmiennej wskazywanej przez aktualne położenie kursora w arkuszu). Jeśli arkusz ma format macierzowy lub format, w którym położenie kursora może wskazywać nie jedną, ale dwie zmienne (jak np. w macierzy korelacji widocznej na rysunku powyżej), 196 STATISTICA - Przewodnik

197 ROZDZIAŁ 6: WYKRESY w menu Wykresy danych wejściowych dostępne będą predefiniowane wykresy dwuwymiarowe dla określonej pary zmiennych. W przeciwnym razie (to znaczy, jeśli aktualne położenie kursora wskazuje jedną zmienną, jak na przykład w tabeli statystyk podstawowych z poniższego rysunku) po wybraniu z menu wykresu dwuwymiarowego pojawi się pytanie o drugą zmienną. Na przykład dla poniższego rysunku po wybraniu polecenia Wykres rozrzutu względem STATISTICA poprosi o wskazanie zmiennej, względem której ma być utworzony wykres rozrzutu zmiennej POMIAR5. Jeśli w arkuszu zaznaczono wiele zmiennych (tzn. podświetlony jest blok danych), to opcje menu Wykresy danych wejściowych odnosić się będą do pierwszej z zaznaczonych zmiennych. Podczas generowania Wykresu danych wejściowych STATISTICA uwzględni aktualne warunki selekcji przypadków i wagi dla zmiennych, dla których jest tworzony wykres. Należy jednak zaznaczyć, że warunki selekcji przypadków i wagi dla zmiennych muszą być określone dla aktualnego arkusza (za pomocą opcji menu Narzędzia Warunki selekcji Edycja), a nie tylko określone lokalnie dla analizy (tzn. wybrane w odpowiednich oknach specyfikacji analizy/wykresu za pomocą przycisków oraz ). Warunki wybrane w ten drugi sposób nie zostaną uwzględnione w Wykresach danych wejściowych. Aby uzyskać informacje na temat poszczególnych kategorii Wykresów danych wejściowych, należy sięgnąć do Podręcznika elektronicznego. WYKRESY BLOKU DANYCH W przypadku Wykresów bloku danych, w odróżnieniu od Wykresów danych wejściowych, wykres tworzony jest dla danych z zaznaczonych komórek aktywnego arkusza (ciągłego bloku danych). STATISTICA - Przewodnik 197

198 ROZDZIAŁ 6: WYKRESY Należy zauważyć, że wykresy tego typu przedstawiają wartości liczbowe z zaznaczonego bloku, ignorując niejako ich znaczenie (tzn. mogą to być równie dobrze dane surowe, jak i np. wartości współczynników korelacji). Wykresy te są też efektywnymi narzędziami do eksploracji i podsumowań liczbowych wyników analiz, wyświetlanych w arkuszach wyników, np. histogramy wyników wyjściowych metody Monte Carlo w module SEPATH lub wykres ramkowy zagregowanych średnich w tabeli wielowymiarowej klasyfikacji wielokrotnej w module ANOVA. Najwygodniejszym sposobem wyboru Wykresów bloku danych jest użycie menu podręcznego arkusza dla zaznaczonego bloku danych. Opcja ta jest również dostępna na karcie Wykresy oraz w menu przycisku Start pakietu STATISTICA. Tworząc Wykresy bloku danych, można wybrać jeden z wykresów domyślnych (np. Histogram: Kolumny bloku, Wykres liniowy: Wiersze bloku) lub stworzyć własny, specjalistyczny wykres dla danych z zaznaczonych komórek. Można również utworzyć wykres dla całych wierszy lub całych kolumn odpowiadających zaznaczonemu blokowi, tzn. obejmujących komórki wychodzące poza zaznaczenie. Wykresy domyślne. Pierwsze sześć poleceń menu widocznego na powyższym rysunku umożliwia tworzenie odpowiedniego wykresu jednym kliknięciem myszy. Dalsze informacje o wykresach domyślnych można znaleźć w Podręczniku elektronicznym. 198 STATISTICA - Przewodnik

199 ROZDZIAŁ 6: WYKRESY Wykresy użytkownika. Wybranie jednej z czterech opcji Wykresu użytkownika przywołuje okno Wybierz wykres, w którym dostępne są różne opcje. Dalsze informacje o wykresach użytkownika można znaleźć w Podręczniku elektronicznym. Dostosowywanie wykresów. Tak jak wszystkie narzędzia programu STATISTICA, Wykresy bloku danych mogą być w pełni dostosowywalne. W tym celu należy wybrać polecenie Dostosuj listę z menu Wykresy bloku danych. W oknie dialogowym Dostosuj menu Wykres można wykresy usuwać, dodawać nowe, zmieniać nazwę i edytować listę wykresów, które będą się pojawiać w menu Wykresy bloku danych. Jeśli na przykład chcemy dodać dopasowanie krzywej rozkładu normalnego do histogramów tworzonych za pomocą przycisku Histogram: Kolumny bloku, to w oknie dialogowym Dostosuj menu Wykres wybieramy Histogram: Kolumny bloku, klikamy przycisk Edytuj i zmieniamy opcję Wybierz Podtyp wykresu na Dopasuj normalny. Od tego momentu wszystkie wykresy typu Histogram: Kolumny Bloku zawierać będą dopasowanie rozkładu normalnego. WYKRESY Z MENU WYKRESY Polecenia znajdujące się na karcie Wykresy dają dostęp do wielu wykresów statystycznych i oferują wszystkie możliwości dostosowywania wykresów dostępne w programie STATISTICA. Oprócz menu Wykresy dostęp do tych wykresów daje również menu przycisku Start pakietu STATISTICA. Mamy tu setki rodzajów prezentacji i analitycznych zestawień danych. Należy zauważyć, że w odróżnieniu od Wykresów bloku danych (które również znajdują się w menu Wykresy, aby w jednym miejscu były dostępne wszystkie opcje graficzne), wszystkie pozostałe typy wykresów z karty Wykresy są ograniczone do wartości bieżącego arkusza. Wykresy te nie zależą od podświetlonych bloków ani położenia kursora, przetwarzają one dane bezpośrednio z aktualnego zbioru danych w sposób podobny do omówionych wcześniej Wykresów danych wejściowych. Reprezentują one standardowe metody graficznego przedstawienia danych surowych (np. rozmaite wykresy rozrzutu, histogramy lub wykresy miar położenia, np. median) lub standardowe graficzne techniki analityczne (np. skategoryzowane wykresy normalności, wykresy odchyleń od normalności lub wykresy przedziałów ufności linii regresji). Podczas generowania tych wykresów STATISTICA bierze pod uwagę aktualne warunki selekcji przypadków i wagi przypadków dla wykreślanych zmiennych. Na karcie Wykresy znajdują się: Wykresy 2W, Wykresy sekwencyjne 3W, Wykresy XYZ 3W, Wykresy macierzowe, Wykresy obrazkowe, Wykresy skategoryzowane oraz Wykresy użytkownika. W pierwszych pozycjach tego menu znajdują się najczęściej wykorzystywane STATISTICA - Przewodnik 199

200 ROZDZIAŁ 6: WYKRESY rodzaje wykresów (Histogramy, Wykresy rozrzutu, Wykresy średnia-błędy itd.), a w dalszej części wyczerpująca lista wszystkich rodzajów wykresów. STANY PRZYPADKÓW I WYRÓŻNIANIE Wykresy tworzone bezpośrednio dla arkuszy danych (poleceniami z karty Wykresy, nie dotyczy to wykresów bloków danych i uzyskiwanych z okien definiowania analiz i wyboru wyników) są powiązane ze źródłem danych. Na wykresie możemy wskazywać obiekty odpowiadające danym, np. punkty na wykresie rozrzutu lub słupki na histogramie i przypisywać im stany przypadków. Nasze działania będą odzwierciedlane nie tylko na samym wykresie, ale również w arkuszu danych. Z drugiej strony stany możemy przypisywać przypadkom w arkuszu (zob. str. 130), a wykresy automatycznie uwzględnią ustawione atrybuty. Przykładowo jeśli dla przypadku wybierzemy stan Ukryty, to z wykresów rozrzutu znikną odpowiadające mu punkty. Przypadkom i punktom danych możemy przypisać stan: zaznaczony, etykietowany, wyłączony, ukryty oraz określić specjalny znacznik i kolor punktu (zob. str. 130). Dzięki temu możemy między innymi rozpoznawać przypadki na wykresach i badać ich wpływ np. na równanie regresji. Zwróćmy uwagę, że opisane tu działanie programu dotyczy ustawień domyślnych, natomiast użytkownik może wyłączyć połączenie między danymi a wykresem. Wyróżnienia na wykresie uruchamiamy, klikając przycisk w grupie Modyfikowanie wykresu na karcie Edycja wstążki Widok. Innym sposobem jest kliknięcie marginesu wykresu prawym klawiszem myszy i wybranie z menu podręcznego polecenia Pokaż wyróżnianie. Wskaźnik myszy przybierze wówczas postać celownika (takiego jak na przycisku uruchamiającym wyróżnianie), a na ekranie pojawi się przedstawione obok okno. Przy domyślnym Celowniku (tzn. Punktowym) punkty wybieramy, przesuwając wskaźnik myszy przy wciśniętym lewym klawiszu myszy. Wybrane zostaną punkty leżące w obrębie narysowanego w ten sposób prostokąta (tak samo zaznaczamy obiekty na pulpicie Windows). Na rysunku poniżej widzimy przykładowy arkusz danych Adstudy.sta i utworzony dla niego wykres rozrzutu zmiennych POMIAR1 i POMIAR2. Na wykresie zaznaczyliśmy punkty znajdujące się w lewym górnym rogu. Zauważmy, iż odpowiadające punktom przypadki zostały wyróżnione w arkuszu. 200 STATISTICA - Przewodnik

201 ROZDZIAŁ 6: WYKRESY Jak już wspomnieliśmy, zamiast Wyróżniania możemy użyć narzędzi arkusza. Jeśli umieścimy wskaźnik myszy po lewej stronie nagłówków przypadków (poza nazwami przypadków), to przybierze on kształt celownika. Możemy wtedy zaznaczać przypadki tak jak foldery w eksploratorze Windows, np. przeciągając po nich myszą. Odpowiadające przypadkom punkty będą podświetlone na wykresach. Poniżej widzimy akusz z wybranymi przypadkami 1 4 oraz 6 i wykres rozrzutu z podświetlonymi punktami, które im odpowiadają. Konkretne stany przypadków możemy ustawić, zaznaczając blok przypadków, a potem klikając nagłówek przypadków prawym klawiszem myszy i wybierając z menu podręcznego pożądany stan: Wyłączone, Ukryte, Etykietowany, Zaznaczony. W menu podręcznym znajduje się również podmenu Stany przypadków z operacjami dotyczącymi stanów przypadków. Podobne polecenia są dostępne po kliknięciu prawym klawiszem myszy punktu na wykresie. STATISTICA - Przewodnik 201

202 ROZDZIAŁ 6: WYKRESY Zwróćmy uwagę, że w nagłówkach przypadków umieszczane są ikony odpowiadające przypisanym im stanom. Jeśli przykładowo z menu podręcznego wybierzemy Etykietowany, to punkty na wykresie zostaną opisane, a obok nazw przypadków pojawią się ikony symbolizujące etykiety, tak jak na rysunku poniżej. Po wybraniu z menu podręcznego polecenia Stany przypadków Edytuj stany przypadków na ekranie pojawi się okno Stany przypadków, w którym możemy m.in. określić znacznik i kolor stosowany dla punktów odpowiadających przypadkom. Wyróżnianie jest dostępne nie tylko dla wykresów rozrzutu. Dla histogramu możemy stosować wyróżnianie w odniesieniu do słupków. Stany są wtedy przypisywane wszystkim przypadkom odpowiadającym słupkowi. Podobnie sytuacja wygląda dla wykresu ramka-wąsy. Użyteczne mogą być również dwa stany: Ukryty i Wyłączony. Domyślnie zamiast tych stanów stosowany jest stan Pomijany. Aby móc skorzystać ze stanów Ukryty i Wyłączony, najpierw naciskamy przycisk Opcje na karcie Podstawowe wstążki. 202 STATISTICA - Przewodnik

203 ROZDZIAŁ 6: WYKRESY Następnie w drzewie po lewej stronie okna Opcje przechodzimy do węzła Dokumenty Arkusze i klikamy w nim Ustawienia. Na koniec usuwamy zaznaczenie pola Zamiast stanów przypadków Wyłączony i Ukryty użyj stanu Pomijany. Przypadek Ukryty nie jest widoczny na wykresach, ale jest brany pod uwagę w analizach. Natomiast przypadek Wyłączony jest widoczny na wykresach, ale pomijany w analizach. Jeśli na wykresie umieszczane są jakieś statystyki (np. równanie regresji na rysunku powyżej), to aby całkowicie zignorować przypadek, należy włączyć mu oba te stany: Ukryty i Wyłączony. Ponieważ stan Wyłączony powoduje pomijanie przypadków w analizach, za pomocą wyróżniania i przypisywania stanów przypadków możemy interakcyjnie eliminować z analizy obserwacje odstające. Jeśli na karcie Dokumenty: Arkusze Ustawienia okna Opcje zaznaczone jest pole Zamiast stanów przypadków Wyłączony i Ukryty użyj stanu Pomijany, to zamiast stanów Ukryty i Wyłączony mamy stan Pomijany. Ustawienie tego stanu powoduje pomijanie przypadku na wykresach i w analizach. STATISTICA - Przewodnik 203

204 ROZDZIAŁ 6: WYKRESY INNE WYKRESY SPECJALISTYCZNE Oprócz standardowego zestawu Wykresów danych wejściowych, Wykresów bloku danych i wykresów z menu Wykresy w STATISTICA dostępne są również specjalistyczne wykresy związane z konkretnym typem analizy (np. wyników analizy skupień). Te specjalistyczne wykresy tworzymy za pomocą okien dialogowych wyboru wyników analizy. Wykresy specjalistyczne zostały opisane w kontekście odpowiednich analiz, w których występują; tak więc po szczegółowe informacje należy sięgnąć do odpowiednich rozdziałów Podręcznika elektronicznego. WYKRESY W STATISTICA VISUAL BASIC Z narzędzi graficznych programu STATISTICA możemy korzystać we własnych programach utworzonych we wbudowanym języku STATISTICA Visual Basic (SVB) i innych językach programowania (zgodnych z COM). Daje to właściwie nieograniczone możliwości definiowania 204 STATISTICA - Przewodnik

205 ROZDZIAŁ 6: WYKRESY wykresów użytkownika, gdyż w STATISTICA Visual Basic (zawierającym wszystkie możliwości wizualizacji i procedury graficzne pakietu STATISTICA) można utworzyć praktycznie każdy rodzaj grafiki i multimediów obsługiwany przez współczesny sprzęt komputerowy. W STATISTICA Visual Basic wykorzystywane są trzy podstawowe sposoby działania na wykresach. Można: utworzyć nowy wykres, a następnie go modyfikować, drukować lub zapisywać itd., uzyskać dostęp do już istniejącego okna wykresu, by poddawać wykres modyfikacji, otworzyć wcześniej zapisany plik graficzny, po czym modyfikować go, drukować lub zapisywać itp. Każdy wykres statystyczny dostępny w programie STATISTICA może być utworzony za pomocą STATISTICA Visual Basic, a następnie dostosowywany za pomocą procedur programu STATISTICA lub ogólnych narzędzi dostępnych w tym języku programowania. Podobnie jak w przypadku innych narzędzi STATISTICA, funkcje dające dostęp do biblioteki procedur graficznych programu STATISTICA można łatwo włączać do programów za pomocą Przeglądarki obiektów, która porządkuje funkcje hierarchicznie, podaje ich opis i umożliwia STATISTICA - Przewodnik 205

206 ROZDZIAŁ 6: WYKRESY wstawianie funkcji bezpośrednio do kodu programu (w edytorze STATISTICA Visual Basic zob. str. 220). Więcej informacji o używaniu biblioteki graficznej STATISTICA znajduje się w Podręczniku elektronicznym. 206 STATISTICA - Przewodnik

207 7 ROZDZIAŁ DOSTOSOWYWANIE PROGRAMU STATISTICA Dostosowywanie środowiska pracy użytkownika Dostosowywanie dokumentów Ustawienia lokalne i globalne Ogólne ustawienia domyślne Dostosowywanie wykresów Zarządzanie wieloma konfiguracjami programu STATISTICA Własne konfiguracje w środowisku sieciowym STATISTICA - Przewodnik 207

208

209 7 ROZDZIAŁ DOSTOSOWYWANIE PROGRAMU STATISTICA STATISTICA daje duże możliwości tworzenia różnych interfejsów użytkownika. Ponadto program uwzględnia potrzebę dostosowywania standardowego środowiska pracy do specyficznych potrzeb. STATISTICA uprzedza potrzeby użytkownika, pamiętając wybierane opcje; można powiedzieć, że uczy się, jak użytkownik pracuje. Na przykład jeśli po uruchomieniu analizy w oknie definiowania analizy wybierzemy kartę Więcej, to przy następnym przywołaniu tego okna zostanie za nas dokonany wybór i wyświetlona będzie właśnie karta Więcej (zamiast karty Podstawowe). Praktycznie wszystkie elementy interfejsu użytkownika można dostosowywać do własnych potrzeb, w tym: menu, pasek szybkiego dostępu i skróty klawiaturowe. Elementy te można dostosowywać szybko i w prosty sposób (por. przykład dostosowania paska narzędzi na str. 137). Można dostosowywać opcje wykresów, arkuszy, skoroszytów, raportów itd. i zapisywać je jako ustawienia lokalne lub globalne, można też zarządzać różnymi konfiguracjami programu STATISTICA (dla pojedynczego użytkownika oraz dla użytkownika sieciowego). Możliwe jest również zdefiniowanie całkowicie nowego środowiska (zob. str. 137 i 138). DOSTOSOWYWANIE ŚRODOWISKA PRACY UŻYTKOWNIKA Jak już wspomniano wcześniej, STATISTICA umożliwia określanie nowych środowisk pracy (zob. str. 137), w tym także interfejsów bazujących na przeglądarce internetowej (zob. str. 139). Wiele ustawień domyślnego interfejsu użytkownika można zmienić na wiele sposobów. Ustawienia domyślne można rozbudowywać lub upraszczać w zależności od potrzeb. W zależności od wymogów zadania, które mamy do wykonania, indywidualnych przyzwyczajeń do konkretnych sposobów pracy oraz preferencji estetycznych możemy korzystać ze wstążki lub klasycznego menu, ukryć pasek stanu, menu, wyłączyć skoroszyt itd. Ponadto włączone lub wyłaczone może być dynamiczne (automatyczne) połączenie wykresów i arkuszy. Do dyspozycji mamy uproszczone zarządzanie wynikami, tak by w danej chwili STATISTICA - Przewodnik 209

210 ROZDZIAŁ 7: DOSTOSOWYWANIE PROGRAMU dostępny był co najwyżej jeden arkusz wynikowy (por. okno widoczne po lewej stronie na rysunku poniżej). Można też iść w przeciwnym kierunku: korzystać ze wszystkich istniejących przycisków, paska szybkiego dostępu, menu oraz rozszerzać środowisko o nowe skróty, paski i menu. Dzięki narzędziom dostosowywania systemu i szerokiemu zakresowi konfigurowalności użytkownik jest w stanie stworzyć złożone środowisko pracy dopasowane do swoich potrzeb i upodobań, umożliwiające wydajne i szybkie badanie złożonych zależności w danych. DOSTOSOWYWANIE DOKUMENTÓW Istnieje wiele różnych zaawansowanych, specjalistycznych narzędzi do dostosowywania wyglądu i sposobu działania dokumentów programu STATISTICA (zob. rozdział 5 Dokumenty STATISTICA, str. 163). W pakiet STATISTICA wbudowano zaawansowany system zarządzania ustawieniami domyślnymi każdej opcji wyglądu wykresu poprzez łączenie różnych ustawień w hierarchicznie uporządkowane style. Analogicznie można tworzyć własne szablony i formaty dla arkuszy (tabel multimedialnych), a nawet dostosowywać zdarzenia (np. co ma się stać po podwójnym kliknięciu arkusza). Dalsze szczegóły dotyczące tego tematu można znaleźć w Podręczniku elektronicznym. 210 STATISTICA - Przewodnik

211 ROZDZIAŁ 7: DOSTOSOWYWANIE PROGRAMU USTAWIENIA LOKALNE I GLOBALNE Wiele opcji wyglądu programu STATISTICA można dostosowywać zarówno w menu Widok jak i w menu Narzędzia. Metody te różnią się jednak swymi skutkami, co opisano poniżej. Karta Widok. Zmiany wprowadzone za pomocą poleceń z menu Widok mają wpływ na wygląd programu STATISTICA (np. ukrycie paska narzędzi) lub okna dokumentu (np. zmiana czcionki w arkuszu) w aktualnej sesji programu. Okno Opcje. Zmiany ustawień w oknie Opcje (omówione szczegółowo w następnym rozdziale) mają wpływ na trwałe, domyślne ustawienia programu. Należy jednak zauważyć, że wprowadzone ustawienia globalne, odnoszące się do dokumentów określonego typu (np. wykresów lub arkuszy), zaczynają obowiązywać od momentu ich ustawienia i nie mają wpływu na wygląd już utworzonych dokumentów. Zmiany te są zapisywane jako domyślne ustawienia globalne programu i będą obowiązywały dla tworzonych (tzn. nowych) dokumentów określonego typu. Przykładowo: jeśli zmienimy Domyślny wygląd arkusza (na karcie Arkusze - Ustawienia okna Opcje), to w zmienionym układzie pokazywane będą jedynie nowo utworzone arkusze. Opcje te nie będą miały wpływu na wygląd arkuszy otwieranych z plików, będą one wyświetlane w takiej postaci, w jakiej zostały zapisane (aby dostosować wygląd istniejących obiektów, należy skorzystać z karty Widok). OGÓLNE USTAWIENIA DOMYŚLNE Dostosowywanie ogólnych ustawień domyślnych. Ogólne ustawienia domyślne można zmienić w dowolnym momencie działania programu. Zmiany możemy wprowadzić za pomocą odpowiedniej karty okna dialogowego Opcje (dostępnego za pomocą przycisku Narzędzia na karcie Podstawowe). Możemy ustawiać: ogólne opcje działania programu STATISTICA (takie jak maksymalizacja okna programu przy uruchomieniu, działanie mechanizmu skoroszytu i raportu, położenie plików, własne listy nazw itd.), sposób tworzenia wyników (np. działanie skoroszytu i raportu analizy itp.), ogólny wygląd okna aplikacji (ikony, paski narzędzi itd.) oraz wygląd okien dokumentów. Kartę Ogólne okna dialogowego Opcje przedstawia poniższy rysunek. STATISTICA - Przewodnik 211

212 ROZDZIAŁ 7: DOSTOSOWYWANIE PROGRAMU Wszystkie przedstawione powyżej ogólne ustawienia (oraz wiele innych) są dostępne niezależnie od typu aktualnie otwartego okna dokumentu (np. arkusza lub wykresu). Dokładniejszy opis każdej z kart tego okna znajduje się w Podręczniku elektronicznym (przywołujemy go, naciskając klawisz F1, podręcznik zostanie otwarty na stronie dotyczącej aktualnie otwartego okna). Przełączanie aktywnych zestawów ustawień (konfiguracji). Za pomocą karty Konfiguracje okna dialogowego Opcje można zarządzać bibliotekami ustawień i korzystać z różnych konfiguracji przy różnych projektach (lub różnych użytkownikach). Dalsze szczegóły znajdują się w opisie karty Konfiguracje na str. 213 oraz w Podręczniku elektronicznym. DOSTOSOWYWANIE WYKRESÓW Interakcyjne dostosowywanie wykresów. Możliwości dostosowywania wykresów w programie STATISTICA obejmują setki opcji i narzędzi, które mogą być użyte do dostosowania każdego szczegółu wyglądu wykresu i związanych z wykresem przekształceń danych. Opcje te zorganizowane są w sposób hierarchiczny, a te najczęściej wykorzystywane 212 STATISTICA - Przewodnik

213 ROZDZIAŁ 7: DOSTOSOWYWANIE PROGRAMU dostępne są bezpośrednio poprzez podwójne kliknięcie (lub kliknięcie prawym klawiszem myszy) odpowiedniego elementu wykresu. Ustawienia domyślne i opcje automatyzacji. Wstępne (domyślne) ustawienia wszystkich opcji można w prosty sposób zmienić tak, by nawet domyślny wygląd i domyślne zachowanie wykresów programu STATISTICA odpowiadały naszym potrzebom i w minimalnym stopniu wymagały dalszych zmian. Różne aspekty wyglądu i działania wykresów w programie można zmieniać poprzez: okno dialogowe Opcje (menu przywoływane przyciskiem Opcje w grupie Narzędzia na karcie Podstawowe wstążki), zaawansowany mechanizm stylów wykresów, wykresy własne użytkownika, STATISTICA Visual Basic. Podstawowy opis tych metod znajduje się w rozdziale 6 Wykresy (str. 186). Dalsze informacje można znaleźć w Podręczniku elektronicznym. Wykres użytkownika może być dostosowywany w nieograniczonym stopniu, gdyż w STATISTICA Visual Basic (zawierającym wszechstronne możliwości wizualizacji i procedury graficzne pakietu STATISTICA) można utworzyć praktycznie każdy rodzaj grafiki i wszelkie obiekty multimedialne obsługiwane przez współczesny sprzęt komputerowy. Utworzone w ten sposób własne wykresy i multimedia można umieszczać na paskach narzędzi, w menu i w oknach dialogowych programu STATISTICA. ZARZĄDZANIE WIELOMA KONFIGURACJAMI PROGRAMU STATISTICA STATISTICA zapisuje wszystkie ustawienia globalne w momencie zakończenia pracy z programem i odtwarza te ustawienia przy następnym uruchomieniu. Można tworzyć różne konfiguracje ustawień, modyfikując ustawienia na karcie Konfiguracje okna dialogowego Opcje (przywoływanego przyciskiem Opcje w grupie Narzędzia na karcie Podstawowe wstążki). Bieżące ustawienia programu można zapisać w nowej lub istniejącej konfiguracji, można też uruchomić program STATISTICA w wybranej konfiguracji. Możliwe jest importowanie i eksportowanie konfiguracji do odrębnych plików i korzystanie z nich w różnych instalacjach programu STATISTICA. WŁASNE KONFIGURACJE W ŚRODOWISKU SIECIOWYM Zasady opisane w poprzednim akapicie odnoszą się również do instalacji sieciowych programu STATISTICA. W przypadku instalacji w środowisku sieciowym, pomimo że STATISTICA jest STATISTICA - Przewodnik 213

214 ROZDZIAŁ 7: DOSTOSOWYWANIE PROGRAMU instalowana w jednym miejscu (na serwerze), każdy użytkownik może skonfigurować pakiet wedle własnych potrzeb, gdyż informacje o ustawieniach konfiguracyjnych przechowywane są lokalnie. W celu zachowania tej funkcji, dla poprawnego zainstalowania programu na dysku sieciowym należy wybrać w programie instalacyjnym opcję Instalacja sieciowa. Należy zauważyć, że aby w środowisku sieciowym zarówno wielu użytkowników, jak i pojedynczy użytkownik mógł bezproblemowo korzystać z programu STATISTICA, należy używać wersji sieciowej programu. 214 STATISTICA - Przewodnik

215 8 ROZDZIAŁ STATISTICA VISUAL BASIC Rejestrowanie makr (programów) STATISTICA Visual Basic (SVB) Przykład zapisu analizy Obiekty i dokumenty ActiveX (uwagi techniczne)

216

217 8 ROZDZIAŁ STATISTICA VISUAL BASIC Wbudowany w pakiet STATISTICA język STATISTICA Visual Basic jest zgodny ze standardami przemysłu informatycznego i wzbogaca go o jeszcze jedno, dodatkowe środowisko użytkownika. Jest to jednak nieporównywalnie więcej niż tylko dodatkowy język programowania do tworzenia własnych rozszerzeń programu. Zwróćmy uwagę, iż STATISTICA Visual Basic to nie Microsoft Visual Basic 6.0. StatSoft jest właścicielem kodu STATISTICA Visual Basic i utrzymuje go. SVB jest zgodny z Microsoft VB.NET, Visual Basic for Applications (VBA), a także z Microsoft Visual Basic 6.0 (VB6). Z poziomu SVB mamy dostęp do Visual Basic for Applications (służącego do sterowania aplikacjami Micorsoft Office) i jednocześnie do środowiska.net (zob. rozdział 10, str. 241). Można również uzyskać dostęp do innych API, takich jak np. Yahoo s Stock Quote API lub Google Analytics API. SVB oferuje potężne 64-bitowe rozwiązanie dla integracji systemów, rozszerzeń i tworzenia aplikacji. STATISTICA Visual Basic (skrót SVB) w pełni wykorzystuje zalety modelu obiektowego pakietu STATISTICA i umożliwia programowy dostęp do praktycznie każdego elementu i każdej funkcji tego programu. Nawet najbardziej złożone analizy i wykresy można zarejestrować jako makra Visual Basic, a następnie wielokrotnie je uruchamiać lub edytować i wykorzystywać jako składniki innych aplikacji. STATISTICA Visual Basic rozszerza standardową składnię języka Visual Basic o ponad nowych funkcji, co daje w sumie jedno z największych i najbogatszych środowisk programistycznych. Zastosowania programów STATISTICA Visual Basic. Programy STATISTICA Visual Basic mogą mieć wiele różnych zastosowań, począwszy od prostych makr służących do rejestrowania rutynowych zadań, po rozbudowane specjalizowane systemy analityczne, które łączą potężne możliwości zoptymalizowanych procedur pakietu STATISTICA z różnymi rozszerzeniami i własnym interfejsem. Po uzyskaniu odpowiednich licencji utworzone w ten sposób skrypty analiz mogą być integrowane z dużymi systemami przetwarzania danych, działać jako części systemów korporacyjnych, portali internetowych lub intranetowych. Programy SVB mogą być też dołączane do wszystkich ważnych zdarzeń STATISTICA zachodzących w trakcie analizy, jak na przykład otwieranie i zamykanie plików, klikanie STATISTICA - Przewodnik 217

218 ROZDZIAŁ 8: STATISTICA VISUAL BASIC komórek arkusza i tym podobne. W ten sposób można interfejs STATISTICA dostosować do konkretnych operacji (np. wprowadzania specyficznych danych). STATISTICA obsługuje kilka języków skryptowych. Do dyspozycji mamy SVB, rozszerzony SVB, STATISTICA Visual Basic.NET i R. Rozszerzony SVB zawiera wszystkie funkcje SVB i dodatkowe funkcje. STATISTICA Visual Basic.NET umożliwia bezpośrednie korzystanie z obiektów.net, tzn. nie wymaga pośrednich obiektów COM, tak jak zwykły SVB. R to język programowania i środowisko do obliczeń statystycznych. Środowisko R i jego źródła są dostępne na podstawie licencji GNU GPL. Do pracy w R standardowo wykorzystywany jest wiersz poleceń. R jest w dużym stopniu rozszerzalny: użytkownicy mogą dodawać do niego biblioteki ( pakiety ) zawierające funkcje, zazwyczaj dotyczące ich dziedziny badań. Istnieje klika repozytoriów R zawierających setki takich pakietów dostępnych dla wszystkich przez Internet. Wiele z pakietów R jest przeznaczonych do bardzo specjalistycznych zastosowań. Skrypty R można uruchamiać z poziomu STATISTICA, STATISTICA Enterprise i STATISTICA Enterprise Server. Wyniki R mogą być wyświetlane w STATISTICA i zarządzane za pomocą skoroszytów STATISTICA. Do korzystania z języka R konieczne jest zainstalowanie go na komputerze, na którym uruchamiamy STATISTICA lub STATISTICA Enterprise. Będziemy mogli wtedy używać specjalistycznych możliwości R, a ponadto: Tworzyć nowe moduły wykorzystujące R. Zastosować możliwości graficzne STATISTICA oraz wygodne arkusze i skoroszyt do obsługi wyników R. Włączyć R do STATISTICA Enterprise, aby udostępnić specjalistyczne narzędzia R osobom nieznającym R. Użytkownicy mogą korzystać z funkcji R w postaci szablonów analiz wielokrotnego użytku, w bezpiecznym, korporacyjnym systemie analizy danych, umożliwiającym określenie uprawnień do analiz i raportów. Wykorzystać narzędzia R w węzłach STATISTICA Data Miner i dzięki temu korzystać ze wszystkich możliwości R w przestrzeni roboczej STATISTICA Data Miner. Tworzyć skalowalne serwery R, wykorzystując STATISTICA Enterprise Server do zapewnienia bezpieczeństwa w wymagających zastosowaniach korporacyjnych. Więcej informacji o językach skryptowych można znaleźć w Podręczniku elektronicznym. 218 STATISTICA - Przewodnik

219 ROZDZIAŁ 8: STATISTICA VISUAL BASIC REJESTROWANIE MAKR (PROGRAMÓW) STATISTICA VISUAL BASIC (SVB) Makra analiz, makra zbiorcze i makra klawiaturowe W programie STATISTICA makra, czyli programy SVB automatyzujące powtarzane operacje i poddające się ewentualnym modyfikacjom, zapisywać można na różne sposoby. Zarejestrowane makra są gotowe do uruchomienia albo też do użycia jako część składowa większych, skomplikowanych aplikacji Visual Basic. Makra rejestrujące pojedynczą analizę oraz makra zbiorcze mają tę samą składnię i mogą być dostosowywane do potrzeb w ten sam sposób, jednak ze względu na różny sposób ich otrzymywania, z punktu widzenia konkretnych zastosowań mogą mieć różne zalety i wady. Makra analiz. Proste makra pojedynczych analiz stanowią automatyczny zapis ustawień, czyli wszelkich wyborów opcji konkretnej analizy. Przy czym terminu analiza używa się tu w odniesieniu do zadań menu uruchamianych za pomocą przycisków na kartach Statystyka, Data Mining lub Wykresy. Analizy mogą być bardzo proste (np. histogram jednej zmiennej) i bardzo skomplikowane (np. model równań strukturalnych generujący setki dokumentów wyjściowych). Po wybraniu którejś z opcji na kartach Statystyka czy Data Mining lub analizy graficznej z karty Wykresy program rozpoczyna rejestrowanie (w tle, nie angażując użytkownika) wszystkich operacji, jak na przykład wybór zmiennych czy ustalanie opcji analizy. W każdej chwili natomiast użytkownik może zobaczyć realizowany zapis w edytorze Visual Basic w postaci kodu Visual Basic. Służy do tego polecenie Utwórz makro dostępna w oknach określania analiz w rozwijalnym menu wywoływanym kliknięciem przycisku Opcje (lub poprzez prawy przycisk myszki, gdy analiza jest zminimalizowana). Makra zbiorcze. Makro zbiorcze zapisuje całą sesję, w trakcie której wykonywać możemy wiele różnych, kolejnych analiz. Otrzymamy połączone analizy pochodzące nawet z różnych kart wstążki. Jednak inaczej niż w makrach analiz, które rejestrowane są domyślnie, w tym przypadku trzeba uruchomić rejestrację, czego dokonuje się za pomocą polecenia Zarejestruj makro zbiorcze, dostępnego w menu przycisku Makro na karcie Narzędzia wstążki. Wszystkie działania, jak wybory plików, operacje na danych, wybory opcji analiz, podejmowane pomiędzy uruchomieniem zapisu makra zbiorczego, a jego zatrzymaniem, są rejestrowane. Makra klawiaturowe. Ten typ makra rejestruje sekwencję naciśnięć klawiszy. Po wybraniu polecenia Zarejestruj makro klawiaturowe, dostępnej w menu przycisku Makro na karcie Narzędzia wstążki, STATISTICA będzie zapisywała wszystkie naciśnięcia klawiszy. Po zatrzymaniu rejestracji makra, w edytorze STATISTICA Visual Basic widzimy prosty program, zawierający komendę SendKeys z dopiero co naciskanymi przez użytkownika klawiszami. Tak proste makro nie zapisuje kontekstu, w jakim naciskano klawisze, co może łatwo spowodować zmianę efektu naciskania klawiszy (np. jakie komendy będziemy otrzymywać). Jednak STATISTICA - Przewodnik 219

220 ROZDZIAŁ 8: STATISTICA VISUAL BASIC w pewnych sytuacjach makra klawiaturowe bywają bardzo przydatne, na przykład do automatyzacji wpisywania tekstów, jak tytuły, warunki wyboru przypadków itp. Edycja i uruchamianie programów STATISTICA Visual Basic. Programy można też pisać samemu, używając profesjonalnego środowiska programistycznego STATISTICA Visual Basic, zawierającego debugger (z punktami przerwań itp.) i wiele innych opcji ułatwiających efektywne tworzenie kodu programu. Opcje te opisane są szczegółowo w Podręczniku elektronicznym. W trakcie wpisywania w edytorze Visual Basic komend programu otrzymujemy w poprawnej składni podpowiedzi co do możliwych funkcji czy elementów danej klasy. Na etapie wykonywania programu, mając ustawione w kodzie punkty przerwań, możemy obserwować na bieżąco wartości zmiennych, a także modyfikować je. Ponadto dostępne jest też interakcyjne narzędzie tworzenia okien dialogowych programu. Podsumowując, STATISTICA Visual Basic to nie tylko język programowania o wielkich możliwościach, ale i profesjonalne środowisko tworzenia zarówno prostych makr, jak i dużych, skomplikowanych aplikacji. 220 STATISTICA - Przewodnik

221 ROZDZIAŁ 8: STATISTICA VISUAL BASIC Visual Basic a inne aplikacje. Programy SVB można też tworzyć, rozbudowując programy Visual Basic pochodzące z innych aplikacji (jak np. Excel), przez dodawanie odwołań do funkcji i procedur STATISTICA. Wykonywanie programów STATISTICA Visual Basic Programy STATISTICA Visual Basic można wykonywać nie tylko w środowisku STATISTICA, lecz również w innych środowiskach bazujących na konwencjach Microsoft Visual Basic (jak np. Microsoft Excel, Microsoft Word lub samodzielne instalacje języka Visual Basic). Należy STATISTICA - Przewodnik 221

222 ROZDZIAŁ 8: STATISTICA VISUAL BASIC jednak zauważyć, że w przypadku uruchamiania programów napisanych w języku STATISTICA Visual Basic i wywoływania funkcji pakietu STATISTICA z innych aplikacji, wszelkie funkcje specyficzne dla programu STATISTICA (w przeciwieństwie do ogólnych funkcji Microsoft Visual Basic) zostaną wykonane tylko wtedy, gdy na komputerze użytkownika dostępne będą odpowiednie biblioteki programu STATISTICA. Tak więc użytkownik programu musi być legalnym użytkownikiem odpowiednich bibliotek procedur pakietu STATISTICA. Należy zauważyć, że ta bardzo obszerna biblioteka funkcji programu STATISTICA (obejmująca ponad procedur) jest dostępna nie tylko dla aplikacji w języku Visual Basic (wbudowanych w program lub też innych), lecz również z dowolnego innego środowiska programistycznego (pozwalającego korzystać z modelu COM), takiego jak C/C++, Java czy Delphi. Wydajność programów STATISTICA Visual Basic. Chociaż oczywistymi zaletami języka Visual Basic (zwłaszcza w porównaniu z innymi językami) są: prostota, łatwość użycia i jego powszechna znajomość wśród użytkowników komputerów, to jednak do jego wad można zaliczyć mniejszą szybkość w porównaniu z programami napisanymi w językach niższego poziomu (takich jak C). Problem ten jednak nie dotyczy zazwyczaj aplikacji STATISTICA Visual Basic, zwłaszcza tych, których działanie polega w głównej mierze na wywoływaniu procedur analitycznych, graficznych i zarządzania danymi pakietu STATISTICA. Procedury te stworzone są w sposób w pełni zoptymalizowany, tak aby szybkość ich wykonania w programie była porównywalna z wykonywaniem ich bezpośrednio w programie STATISTICA. Struktura STATISTICA Visual Basic. STATISTICA Visual Basic składa się z dwóch głównych części: (1) ogólnego środowiska programistycznego Visual Basic z narzędziami i rozszerzeniami do projektowania i obsługi interfejsu użytkownika (okien dialogowych), a także zarządzania plikami, oraz (2) bibliotek programu STATISTICA z tysiącami funkcji, które dają dostęp do praktycznie wszystkich aspektów programu STATISTICA. Jeśli chodzi o składnię języka, środowisko programistyczne Visual Basic jest zgodne ze standardem języka Microsoft Visual Basic. Różnice leżą głównie w sposobie tworzenia okien dialogowych (więcej informacji znajduje się w Podręczniku elektronicznym w części Okna dialogowe użytkownika, interfejsy użytkownika), który jest zaprojektowany tak, by zapewnić programistom i projektantom większe możliwości sterowania interfejsem użytkownika w złożonych programach. W środowisku programistycznym STATISTICA Visual Basic okna dialogowe mogą być obsługiwane w całości w odrębnych procedurach, co umożliwia wygodne włączanie ich do większych programów z wieloma oknami dialogowymi, natomiast w Microsoft Visual Basic poszczególne formatki (czyli okna dialogowe), wraz ze wszystkimi zdarzeniami na tych oknach, są ujęte w odrębne jednostki programu. Własne makra w paskach narzędzi i w menu Gdy korzystamy z klasycznego menu, zapisany na dysku program STATISTICA Visual Basic można przypisać do przycisku paska narzędzi lub umieścić jako pozycję menu. Natomiast gdy używamy wstążki, makro możemy przypisać do przycisku na pasku Szybki dostęp. Pozwala to w głęboki sposób rozszerzać i dostosowywać STATISTICA za pomocą własnych makr. Tak 222 STATISTICA - Przewodnik

223 ROZDZIAŁ 8: STATISTICA VISUAL BASIC więc po zapisaniu makra (Plik Zapisz jako makro globalne), z menu Narzędzia wybieramy opcję Dostosuj i w otrzymanym oknie, na karcie Polecenia/Makra wybieramy kategorię Makra. W polu Polecenie wymienione będą wszystkie zapisane makra zbiorcze. Na poniższym przykładzie jest to jedno makro: Mój_histogram. Wybrane makro przeciągamy z listy Polecenie do wybranego paska narzędzi lub menu. Zauważmy, że w trakcie przeciągania makra pozycje menu rozwijają się, umożliwiając umieszczenie makra również w menu podrzędnych. Po umieszczeniu makra w menu lub w pasku narzędzi, przy otwartym oknie Dostosuj możemy, korzystając z prawego przycisku myszki, dostosować wygląd utworzonego właśnie przycisku. Uruchamianie makr z wiersza poleceń. Mając STATISTICA, programy SVB wykonywać możemy bezpośrednio z wiersza poleceń, w następujący sposób: statist.exe /RunMacro=MojeMakro wpisując zamiast MojeMakro odpowiednią nazwę makra. Jeśli nie podamy pełnej ścieżki dostępu, to STATISTICA będzie próbowała uruchomić makro z aktualnego katalogu (zachowanie domyślne w Windows). Jeżeli działanie makra nie powoduje wyświetlenia okna programu lub jakiegoś dokumentu (np. poprzez Application.Visible = True lub ustawienie tej właściwości dla dokumentu, np. Spreadsheet.Visible = True), to dane uruchomienie STATISITCA zostanie po wykonaniu zadania automatycznie zamknięte. Jeśli natomiast aplikacja zrobiona jest jako widzialna, to niezbędne będzie ręczne zamknięcie okna programu. PRZYKŁAD ZAPISU ANALIZY W przykładzie zobaczymy, jak zarejestrować wykonywaną analizę w skrypcie makra, które będzie można uruchomić w celu powtórzenia analizy. Następnie edycja skryptu pozwoli STATISTICA - Przewodnik 223

224 ROZDZIAŁ 8: STATISTICA VISUAL BASIC zmodyfikować analizę. Ponadto zobaczymy, jak powtórzyć analizę, korzystając ze skryptu dołączanego automatycznie do skoroszytu wyników. Zaczynamy od wczytania przykładowego pliku danych, niech będzie to Adstudy.sta, który najszybciej znajdziemy, używając polecenia Otwórz przykłady z menu przycisku i wchodząc do katalogu Datasets. Wykonajmy podstawową analizę. Na karcie Statystyka naciskamy przycisk Statystyki podstawowe. Na ekranie pojawi się panel początkowy, w którym wybieramy Statystyki opisowe. Klikamy OK i otrzymujemy okno Statystyki opisowe. 224 STATISTICA - Przewodnik

225 ROZDZIAŁ 8: STATISTICA VISUAL BASIC Klikamy przycisk Zmienne i w oknie wyboru zmiennych przeciągamy myszką po zmiennych, od POMIAR1 do POMIAR23, by włączyć je wszystkie do analizy. Klikamy OK i w oknie Statystyki opisowe przechodzimy na kartę Więcej, zyskując dostęp do licznych opcji analizy. Pozostańmy jednak w naszym przykładzie przy domyślnym wyborze opcji. Klikamy więc przycisk Podsumowanie, by otrzymać wartości statystyk opisowych dla wybranych do analizy zmiennych. Po utworzeniu wynikowego arkusza okno Statystyki opisowe automatycznie minimalizuje się, by odsłonić skoroszyt. Okno przywracamy, klikając przycisk Statystyki opisowe znajdujący się na pasku analiz (w dole ekranu). Gdy prowadziliśmy tę (raczej prostą) analizę, STATISTICA automatycznie, w sposób niewidoczny dla użytkownika zapisywała wszystkie kroki. Dzięki temu teraz możemy zobaczyć gotowe makro STATISTICA Visual Basic (SVB), które pozwoli nam odtworzyć wykonaną analizę. STATISTICA - Przewodnik 225

226 ROZDZIAŁ 8: STATISTICA VISUAL BASIC W oknie Statystyki opisowe klikamy przycisk i z rozwijalnego menu wybieramy opcję Utwórz makro. W wywołanym oknie Nowe makro możemy wpisać odpowiednią nazwę dla makra i ewentualnie wprowadzić jakiś jego opis. Pozostańmy przy domyślnej nazwie i kliknijmy OK. Pojawia się okno ze skryptem makra stanowiącym zapis sesji analizy Statystyki opisowe. Aby uruchomić to makro, na karcie Szukaj błędów naciskamy przycisk Uruchom lub naciskamy klawisz F5. Otrzymujemy dokładnie taki sam wynik jak w analizie wykonywanej ręcznie arkusz statystyk opisowych dla wybranych zmiennych. Popatrzmy przez chwilę na tekst naszego makra SVB. Jeden z początkowych wierszy jest taki: Set newanalysis = Analysis (scbasicstatistics, ActiveInputDataSet) Oznacza on, że uruchomić trzeba Statytyki podstawowe (Basic Statistics), przy czym dane do analizy znajdują się w aktywnym zbiorze (data set), czyli arkuszu danych wybranym w oknie STATISTICA w momencie uruchamiania makra. Niżej, w ciągu podobnych wierszy ustalających parametry analizy, znajdziemy taki wiersz: oad2.mean = True Nazwa oad2 odnosi konkretny parametr do okna Statystyk opisowych, co wynika z wcześniejszych wierszy, zaczynających się od Dim i Set. Z kolei Mean oznacza średnią, a przypisanie True oznacza, że średnia ma być obliczana i podawana w wynikowym arkuszu. Jeżeli na przykład wolelibyśmy obliczyć medianę zamiast średniej, to przy średniej zmieniamy True 226 STATISTICA - Przewodnik

227 ROZDZIAŁ 8: STATISTICA VISUAL BASIC na False, a przy medianie (Median) odwrotnie. Oczywiście równie dobrze możemy włączyć do wyników obie statystyki. Zmodyfikowane ręcznie makro możemy ponownie uruchomić (najszybciej naciskając klawisz F5). W skoroszycie pojawia się kolejny arkusz wyników, w którym zamiast średniej jest mediana. Nie zamykając okna makra, możemy uruchomić nową analizę, dla tych samych danych. Na karcie Wykresy w grupie Więcej naciskamy przycisk 2W i wybieramy polecenie Wykresy normalności. STATISTICA - Przewodnik 227

228 ROZDZIAŁ 8: STATISTICA VISUAL BASIC Wybierzmy do analizy tym razem tylko trzy zmienne: POMIAR1, POMIAR2 i POMIAR3. Kliknięcie OK w oknie analizy generuje trzy wykresy normalności. Podobnie jak przy poprzednim obliczaniu statystyk opisowych tak i tutaj wszystkie kroki tworzenia wykresów były rejestrowane. Aby zobaczyć makro zawierające zapis, klikamy w oknie Wykresy normalności przycisk Opcje i z rozwijalnego menu wybieramy opcję Utwórz makro. W wywołanym oknie Nowe makro klikamy OK i otrzymujemy okno zawierające tekst makra stanowiący zapis tworzenia wykresów normalności. 228 STATISTICA - Przewodnik

229 ROZDZIAŁ 8: STATISTICA VISUAL BASIC Podobnie jak w poprzednim przypadku (przy Statystykach opisowych) w makrze są zapisane wszystkie opcje analizy. Daje nam to możliwość na przykład zmiany typu wykresu na wykres Normalności połówkowej. W tym celu modyfikujemy wiersz na:.graphtype = scprobnormal.graphtype = scprobhalfnormal Możemy też na przykład rozszerzyć zakres zmiennych, włączając następną zmienną. W tym celu odnajdujemy wiersz skryptu: ogd1.variables = "3-5" i korygujemy zakres numerów zmiennych na 3-6. Naciskając klawisz F5 uruchamiamy makro i otrzymujemy cztery nowe wykresy. Powyższy przykład zilustrował, jak utworzyć makro z wykonanej analizy, by następnie je modyfikować i uruchamiać. Ponowne wykonanie analizy za pomocą skoroszytu wyników Wykonując poprzedni przykład widzieliśmy, jak wszystkie analizy w STATISTICA zapisywane są w skryptach, które mogą stać się podstawą makra, które z kolei można edytować i wykonywać. Jednak w momencie, gdy wyniki analizy umieszczane są w skoroszycie, STATISTICA automatycznie dołącza do odpowiedniego katalogu skoroszytu również zapis analizy. Umożliwia to ponowne wykonanie analizy, jak również sprawdzenie parametrów, przy których otrzymano wyniki. W skoroszycie mamy jak dotąd wyniki kilkukrotnego uruchamiania zarówno Statystyk opisowych jak i Wykresu normalności. Skoroszyt wygląda więc mniej więcej tak: STATISTICA - Przewodnik 229

230 ROZDZIAŁ 8: STATISTICA VISUAL BASIC Zauważmy czerwone strzałki na ikonach katalogów. Wskazują one właśnie, że katalog zawiera skrypt analizy, która wygenerowała zawarte w nim wyniki. Umożliwia to STATISTICA powtórzenie analizy. Kliknijmy więc prawym klawiszem myszki katalog Statystyki opisowe i z rozwiniętego menu wybierzmy Wykonaj ponownie. Otrzymujemy okno przedstawione powyżej. Jak widać w powyższym oknie, analizę możemy powtórzyć dla nowych danych. Tak więc mamy tu gotowy szablon analizy, którego możemy używać za każdym razem, gdy pojawią się nowe dane. Opcja dotycząca wyjścia analizy pozwala zastąpić istniejące już wyniki nowymi lub dodawać nowe wyniki obok starych. Jeżeli pozostawimy domyślną opcję i klikniemy OK, to zobaczymy, jak poprzednie wyniki są usuwane i szybko pojawiają się nowe. Opcja wznawiania analizy pozwala wrócić do momentu przed wygenerowaniem wyników, co pozwala zmienić opcje analizy i otrzymać nowe wyniki lub sprawdzić, przy jakich opcjach otrzymano wyniki już istniejące. Podobnie jak poprzednio, kliknięciem prawym klawiszem katalogu Statystyk opisowych rozwijamy menu, w którym klikamy opcję Wznów analizę. Otrzymujemy okno zawierające, jak poprzednie, opcje dotyczące danych wejściowych oraz postępowania z nowymi wynikami. Pozostawiając domyślne ustawienia, klikamy OK. Wywołane zostaje okno Statystyki opisowe z opcjami, przy jakich otrzymano wyniki zawarte w klikniętym katalogu skoroszytu. Uruchomienie analizy (po ewentualnym skorygowaniu opcji analizy) spowoduje umieszczenie w bieżącym katalogu skoroszytu nowych wyników (gdyż taka była domyślna opcja okna Wznów analizę). 230 STATISTICA - Przewodnik

231 ROZDZIAŁ 8: STATISTICA VISUAL BASIC OBIEKTY I DOKUMENTY ACTIVEX (UWAGI TECHNICZNE) Terminu ActiveX używa się w różnych znaczeniach i jego różne definicje podkreślają różne aspekty tej technologii. W programie STATISTICA wykorzystywany jest on w znaczeniu obiektów i dokumentów ActiveX. Obiekty ActiveX. Obiekty typu ActiveX były wcześniej nazywane obiektami OLE (Object Linking and Embedding). Fundamentem obiektów ActiveX jest technologia Microsoft COM (Component Object Model), która umożliwia standardowy dostęp do różnorodnych obiektów. Obiekty utworzone za pomocą jednej aplikacji mogą być otwierane i przechowywane w innych programach dzięki zastosowaniu standardowych protokołów. Aplikacja przechowująca obce obiekty musi być klientem ActiveX, a aplikacja, w której obiekt został utworzony, musi działać jako serwer ActiveX. STATISTICA spełnia oba te wymogi: jako klient ActiveX pozwala osadzać i przyłączać obiekty innych programów w arkuszach, na wykresach i w raportach. Z kolei jako serwer ActiveX dopuszcza łączenie i osadzanie swoich arkuszy i wykresów w innych aplikacjach. Dokumenty ActiveX. Dokumenty ActiveX to dalszy krok naprzód w wykorzystaniu technologii ActiveX, polegający na tym, że kompletny dokument jednej aplikacji może być obsługiwany przez inne programy. W pojemniku dokumentów ActiveX można umieszczać dokumenty, a serwer dokumentów ActiveX pozwala korzystać ze swoich dokumentów w innych aplikacjach. STATISTICA działa zarówno jako pojemnik, jak i serwer dokumentów ActiveX. Skoroszyty pakietu STATISTICA są pojemnikami ActiveX i obsługują dokumenty serwerów dokumentów ActiveX. Przykładowo: w skoroszycie programu STATISTICA możemy bezpośrednio korzystać z dokumentów Worda i Excela. Podobnie dokumenty programu STATISTICA (arkusze, wykresy i raporty) są obsługiwane przez pojemniki dokumentów ActiveX (takie jak np. Microsoft Internet Explorer i Microsoft Binder). Dokumenty ActiveX a integracja z Microsoft Office. Technologia dokumentów ActiveX ma szczególne zastosowanie w odniesieniu do dokumentów Worda i Excela. Otóż STATISTICA otwiera dokumenty tych programów w ich własnych oknach, w przestrzeni roboczej STATISTICA. Pozwala to używać dokumentu Excela jako źródła danych, a dokumentu Worda jako raportu z analizy. Mając te dokumenty otwarte w oknie STATISTICA, mamy też dostęp do odpowiednich menu i pasków zadań Excela czy Worda. STATISTICA - Przewodnik 231

232 ROZDZIAŁ 8: STATISTICA VISUAL BASIC 232 STATISTICA - Przewodnik

233 9 ROZDZIAŁ STATISTICA QUERY Wprowadzenie Korzystanie z Query, opis krok po kroku Przetwarzanie danych po stronie serwera (technologia IDP) Kostki OLAP Duże zbiory danych Copyright StatSoft, 2007 STATISTICA Quick Reference 233

234

235 9 ROZDZIAŁ STATISTICA QUERY Uwaga: Wyjaśnienie wszelkich terminów technicznych pojawiających się w niniejszym wprowadzeniu (np. ODBC, SQL itp.) można znaleźć w słowniczku w Podręczniku elektronicznym. Niniejszy rozdział stanowi krótkie omówienie STATISTICA Query, elastycznego narzędzia dostępu do zewnętrznych baz danych. Przedstawimy opis dostępu do baz relacyjnych i kostek OLAP z wykorzystaniem dostawców, takich jak: MS OLE DB Provider for Analysis Services lub SAP Business Warehouse MDX. WPROWADZENIE STATISTICA Query umożliwia łatwy dostęp do danych z wielu różnych typów baz danych (również dużych systemów bazodanowych, takich jak Oracle, MS SQL Server, Sybase itp.) za pomocą standardu OLE DB firmy Microsoft. OLE DB jest zaawansowaną technologią baz danych umożliwiającą uniwersalną integrację danych z systemów korporacyjnych, od komputerów typu mainframe po komputery typu PC, niezależnie od typu danych. OLE DB zapewnia bardziej ogólny i bardziej wydajny dostęp do danych niż starszy standard ODBC; umożliwia dostęp do większej ilości typów danych i oparty jest na współczesnej technologii Component Object Model (COM). W programie STATISTICA Query za pomocą poleceń SQL można wybierać rekordy (wiersze tabel) z wielu tabel z bazy danych. Użytkownik, budując zapytania SQL w prostym środowisku graficznym, może dodatkowo korzystać z intuicyjnych opcji menu i okien dialogowych, a odpowiednie polecenia w języku SQL są automatycznie generowane przez STATISTICA Query. Bez zaawansowanej znajomości SQL można więc szybko i w prosty sposób tworzyć zaawansowane i wszechstronne zapytania. Można tworzyć kilka zapytań do tej samej lub różnych baz danych, tak by dane były zwracane do jednego arkusza danych; można też zarządzać połączeniami z wieloma zewnętrznymi bazami danych. STATISTICA - Przewodnik 235

236 ROZDZIAŁ 9: STATISTICA QUERY KORZYSTANIE ZE STATISTICA QUERY, OPIS KROK PO KROKU Aby pobrać dane zewnętrzne za pomocą STATISTICA Query, wykonujemy następujące kroki: 1) Przechodzimy na kartę Podstawowe wstążki. W grupie Plik naciskamy strzałkę pod przyciskiem Otwórz, aby rozwinąć menu tego przycisku. Wybieramy polecenie Utwórz zapytanie z podmenu Dane zewnętrzne i przywołujemy okno dialogowe Połączenie z bazą danych. W oknie tym należy wybrać utworzone połączenie z bazą danych (określające dostawcę, źródło danych oraz zaawansowane opcje serwera bazy danych lub katalog, w którym znajdują się dane). Należy zauważyć, że jeśli odpowiednie połączenie nie zostało wcześniej utworzone, można je zdefiniować, klikając przycisk Nowe w oknie dialogowym Połączenie z bazą danych. Zostanie wtedy wyświetlone okno dialogowe Właściwości łącza danych, w którym tworzymy połączenie z bazą danych za pomocą kreatora prowadzącego użytkownika krok po kroku. W oknie dialogowym Właściwości łącza danych można użyć klawisza F1, aby wyświetlić odpowiednią dokumentację. 2) Po wybraniu połączenia z bazą danych klikamy przycisk OK w oknie Połączenie z bazą danych i przechodzimy do STATISTICA Query, gdzie możemy tworzyć własne zapytania w SQL, podając tabele, pola, złączenia, kryteria itp. (poprzez menu Tabela, Złączenie oraz Kryteria), które mają być uwzględnione w zapytaniu. 3) Po określeniu zapytania wybieramy opcję Zwrot danych do STATISTICA z menu Plik. Zostanie wtedy przywołane okno dialogowe Dane zewnętrzne do arkusza, w którym podajemy nazwę zapytania, miejsce, do którego STATISTICA Query ma przesłać dane, oraz dodatkowe opcje. Dalsze szczegóły znajdują się w Podręczniku Elektronicznym. 236 STATISTICA - Przewodnik

237 ROZDZIAŁ 9: STATISTICA QUERY PRZETWARZANIE DANYCH PO STRONIE SERWERA (TECHNOLOGIA IDP) Opisane powyżej narzędzia do tworzenia zapytań w wersji korporacyjnej STATISTICA (zob. STATISTICA, str. 269) rozszerzone są o opcje umożliwiające przetwarzanie danych po stronie serwera, to znaczy bez konieczności importowania danych i tworzenia pliku lokalnego. Technologia IDP (In-Place Database Processing) jest użyteczna przy przetwarzaniu bardzo dużych zbiorów danych. W takich przypadkach jej zastosowanie daje duży zysk wydajności i umożliwia przetwarzanie zbiorów danych o wielkości przekraczającej pojemność urządzeń lokalnych. Uwaga techniczna. Technologia IDP bazuje na architekturze przetwarzania rozproszonego, gdzie zapytania wykonywane są po stronie serwera (z użyciem tamtejszej CPU), a do komputera STATISTICA przesyłane są (asynchronicznie) wyniki. KOSTKI OLAP Terminem OLAP (ang. On-Line Analytic Processing) określamy systemy umożliwiające szybki dostęp do podsumowań, zestawień tworzonych na podstawie baz danych (często bardzo dużych). W odróżnieniu od baz transakcyjnych, w których dane przechowywane są w postaci zbioru płaskich tabel, w systemach OLAP dane przechowywane są w wielowymiarowych strukturach, nazywanych kostkami. Przed wykonaniem w STATISTICA analizy danych pochodzących z kostki, należy przekształcić je do postaci płaskiego arkusza złożonego ze zmiennych i przypadków. W STATISTICA Query w graficznym środowisku pracy określamy wymiary i poziom agregacji danych pobieranych z kostki. Program automatycznie przechodzi do trybu MDX (ang. Multi-Dimensional expressions), gdy tylko wybierzemy źródło danych OLAP. DUŻE ZBIORY DANYCH Programy z rodziny STATISTICA są przystosowane do analizy dużych zbiorów danych i współpracują z systemami przeznaczonymi do zarządzania ogromnymi ilościami danych, takimi jak Teradata. Przykładowo STATISTICA może zarówno odczytywać dane z bazy Teradata, jak i tworzyć kod modeli, który może funkcjonować w Teradata jako funkcja określona przez użytkownika, co znacząco przyspiesza przetwarzanie dużych ilości danych. STATISTICA - Przewodnik 237

238 ROZDZIAŁ 9: STATISTICA QUERY 238 STATISTICA - Przewodnik

239 10 ROZDZIAŁ KORZYSTANIE ZE STATISTICA Z POZIOMU.NET Włączanie bibliotek STATISTICA do projektu.net Ręczne tworzenie obiektu COM Obsługa różnych wersji STATISTICA Odwoływanie się do STATISTICA z poziomu innych aplikacji Bibliotekowa wersja STATISTICA

240

241 10 ROZDZIAŁ KORZYSTANIE ZE STATISTICA Z POZIOMU.NET Niemal wszystkie narzędzia i ustawienia STATISTICA są dostępne dla innych aplikacji poprzez interfejs COM. Podczas instalacji STATISTICA rejestruje w systemie interfejsy potrzebne do współpracy z innymi aplikacjami. Ponieważ platforma.net nie współpracuje bezpośrednio z COM, dla korzystania ze STATISTICA w aplikacjach.net tworzone są obiekty COM Interop. Środowisko Visual Studio.NET tworzy je automatycznie, gdy do projektu dołączamy funkcje z innych aplikacji poprzez COM. Ponieważ COM Interop w pełni obsługuje interakcje COM i.net, obiekty COM są dostępne tak, jak obiekty.net. WŁĄCZANIE BIBLIOTEK STATISTICA DO PROJEKTU.NET Tak jak już wspomniano obiekt Interop jest tworzony automatycznie przy włączaniu biblioteki COM do projektu.net. Podstawową biblioteką, którą dołączamy do własnej aplikacji, aby w niej korzystać ze STATISTICA, jest STATISTICA Object Library. Dodajemy ją do naszego projektu poleceniem Add References z menu podręcznego (przywoływanego kliknięciem prawym klawiszem w projekcie.net). Na ekranie pojawi się wtedy okno Add Reference. W oknie tym przechodzimy na kartę COM i z listy Component Name wybieramy STATISTICA Object Library, a następnie klikamy OK. STATISTICA - Przewodnik 241

242 ROZDZIAŁ 10: STATISTICA Z POZIOMU.NET W tym momencie tworzony jest obiekt COM Interop. W węźle References pojawi się pozycja STATISTICA. W katalogu wyjściowym projektu powstaje plik Interop.STATISTICA.dll, w którym zapisywany jest obiekt STATISTICA COM Interop. W projekcie.net uzyskujemy dostęp do obiektów STATISTICA poprzez kliknięcie prawym klawiszem myszy pozycji STATISTICA w węźle References i wybranie polecenia View in Object Browser. RĘCZNE TWORZENIE OBIEKTU COM Obiekt COM Interop możemy utworzyć również ręcznie i wczytać go do projektu.net. Pozwala to określić własną nazwę dla pliku Interop DLL oraz zdefiniować własną przestrzeń nazw (ang. namespace). Do ręcznego tworzenia obiektu Interop służy program TLBIMP.EXE. 242 STATISTICA - Przewodnik

243 ROZDZIAŁ 10: STATISTICA Z POZIOMU.NET Program ten uruchamiamy w wierszu poleceń, podając jako parametr nazwę pliku z biblioteką, którą będziemy dołączać do projektów.net. Na rysunku poniżej dodatkowo określono nazwę wynikowego pliku dll i przestrzeń nazw. W powyższym przykładzie odwołujemy się do pliku STATIST.EXE, ponieważ zawiera on bibliotekę STATISTICA Object Library. Po utworzeniu w ten sposób pliku dll Interop włączamy go do projektu.net poleceniem Add Reference, lecz tym razem klikamy przycisk Browse i wskazujemy utworzony przez nas plik dll Interop. OBSŁUGA RÓŻNYCH WERSJI STATISTICA Dla różnych wersji STATISTICA należy utworzyć odrębne pliki STATISTICA Object Library Interop DLL, aby zapewnić ich poprawną obsługę. Do tworzenia obiektów Interop dla różnych wydań STATIST.EXE i innych bibliotek dll możemy zastosować program TLBIMP.EXE. Przy rozpowszechnianiu aplikacji należy zwrócić szczególną uwagę, aby towarzyszył jej właściwy plik Interop. ODWOŁYWANIE SIĘ DO STATISTICA Z POZIOMU INNYCH APLIKACJI Dzięki zgodności ze standardem COM STATISTICA może współpracować z różnorodnymi aplikacjami, utworzonymi za pomocą rozmaitych narzędzi programistycznych. Gdy korzystamy z programu STATISTICA z poziomu zewnętrznej aplikacji, musimy uzyskać dostęp do obiektu aplikacji, który obejmuje wszystkie obiekty zawarte w programie (przykładowo arkusze i wykresy). Jednak aby uzyskać dostęp do takiego obiektu, obiekt aplikacji musi być uruchomiony. Zakładając, że stosujemy domyślą przestrzeń nazw STATISTICA, odwołujemy się do zmiennej typu STATISTICA.Application. Aby utworzyć nową sesję STATISTICA, przypisujemy tej zmiennej wartość new STATISTICA.ApplicationClass(). STATISTICA - Przewodnik 243

244 ROZDZIAŁ 10: STATISTICA Z POZIOMU.NET Przy tworzeniu STATISTICA.ApplicationClass uruchamiany jest nowy proces STATIST.EXE. Odpowiada to uruchomieniu STATISTICA z menu Start. Utworzona w ten sposób sesja STATISTICA jest niewidoczna, ale możemy uczynić ją widoczną, czyli dostępną dla użytkownika. Zauważmy, że uruchomiona w ten sposób sesja STATISTICA jest oddzielnym procesem. BIBLIOTEKOWA WERSJA STATISTICA Oprócz obiektu STATISTICA.Application można skorzystać z wymagającego mniejszych zasobów i mającego większą wydajność obiektu STATISTICA.Library. Korzystanie z tego obiektu wymaga specjalnej licencji i nie jest on dostępny we wszystkich instalacjach STATISTICA. Do obiektu STATISTICA.Library odwołujemy się tak samo jak do STATISTICA.Application, dzięki temu w kodzie programów możemy tylko zastąpić odwołanie do obiektu Application przez odwołania do obiektu Library, bez konieczności wykonywania dodatkowych poprawek. Główne ograniczenie obiektu Library to brak środowiska użytkownika. Dlatego jeśli program uruchomimy, korzystając z nowego obiektu STATISTICA.LibraryClass, nie będzie można udostępnić użytkownikowi stanowiska pracy (uczynić go widocznym). Obiekt Library uruchamiany jest w taki sposób, że dostęp poprzez COM jest wydajniejszy niż dla obiektu Application. Nie można jednak uruchomić wielu procesów odpowiadających temu obiektowi. 244 STATISTICA - Przewodnik

245 A DODATEK ROZDZIAŁ 10: STATISTICA Z POZIOMU.NET WSZECHSTRONNA POMOC Podręcznik elektroniczny Inne możliwości i źródła pomocy technicznej STATISTICA - Przewodnik 245

246 ROZDZIAŁ 10: STATISTICA Z POZIOMU.NET 246 STATISTICA - Przewodnik

247 A DODATEK WSZECHSTRONNA POMOC Podręcznik elektroniczny Najwygodniejszym sposobem uzyskania pomocy i informacji o STATISTICA jest skorzystanie z Podręcznika elektronicznego (Pomocy). Zawiera on ponad 100 MB omówień i przykładów. W programie STATISTICA pomoc przywołujemy za pomocą przycisków na karcie Pomoc wstążki. Natomiast gdy korzystamy z klasycznego menu, pomoc udostępniają polecenia z menu Pomoc. Ponadto opis okien dialogowych uzyskujemy, naciskając przycisk okna dialogowego. w prawym górnym rogu Dokumentacja elektroniczna to znacznie więcej niż zbiór objaśnień do wszystkich opcji pakietu STATISTICA. Zawiera niezliczone przykłady, omówienia, rysunki i tysiące uwag pozwalających usprawnić pracę z programem. Ważną cechą Podręcznika elektronicznego jest jego kompletność. Zawiera on też wbudowany Poradnik statystyczny (str. 37). Uzupełnieniem dokumentacji jest Internetowy podręcznik statystyki. STATISTICA - Przewodnik 247

248 DODATEK A: WSZECHSTRONNA POMOC Internetowy podręcznik statystyki, udostępniany przez StatSoft na witrynie internetowej (wersja polska wersja angielska jest rekomendowany przez Encyclopedia Britannica z powodu jego wysokiej jakości, dokładności, wyglądu i użyteczności. Używany jest on od lat na całym świecie w edukacji i w nauce, na uniwersytetach i w innych instytucjach badawczych. Inne możliwości i źródła pomocy technicznej Witryna WWW StatSoft. W dziedzinie analizy danych jest to jeden z najczęściej odwiedzanych adresów Internetu. Znaleźć tu można nie tylko wiele źródłowych dokumentów przydatnych w pracy statystyka, ale również: Systematycznie uaktualnianą stronę Pytania i odpowiedzi. Możliwość pobierania uaktualnień programu. Ponieważ nie ustają prace nad zwiększeniem kompatybilności pakietu STATISTICA, nawet z programami łamiącymi standardy, często pobranie najnowszego uaktualnienia rozwiązuje bieżące problemy spowodowane przez niestandardowe konfiguracje systemów czy konflikty z innymi programami. Pomoc techniczna przez . Jeśli nie znajdujemy odpowiedzi na nasze pytanie we wskazanych wyżej źródłach, pozostaje kontakt owy ze StatSoft Polska (info@statsoft.pl). Prosimy przy tym pamiętać o umieszczeniu w liście numeru 248 STATISTICA - Przewodnik

249 DODATEK A: WSZECHSTRONNA POMOC seryjnego (dostępnego w oknie O STATISTICA przywoływanym przyciskiem STATISTICA na karcie Pomoc wstążki), jak również danych o komputerze (typ procesora, ilość pamięci, wielkość dysku) i o wersji używanego systemu operacyjnego. Telefoniczna pomoc techniczna. Można też dzwonić (w standardowych godzinach pracy, tel , ) do firmy StatSoft Polska, by porozmawiać z pracownikiem Działu Technicznego. Wówczas również należy mieć pod ręką numer seryjny, jak również dane o komputerze (typ procesora, ilość pamięci, wielkość dysku) i o wersji używanego systemu operacyjnego. STATISTICA - Przewodnik 249

250 DODATEK A: WSZECHSTRONNA POMOC 250 STATISTICA - Przewodnik

251 B DODATEK STATISTICA ENTERPRISE SERVER Wprowadzenie Szeroki wybór narzędzi analitycznych i konfiguracji Funkcjonalność i możliwe zastosowania Zalety technologii wielowątkowej Interfejs użytkownika STATISTICA Enterprise Server Zgodność ze standardami Architektura systemu (uwaga techniczna) Przewaga nad produktami konkurencyjnymi Knowledge Portal Film prezentujący STATISTICA Enterprise Server STATISTICA - Przewodnik 251

252 STATISTICA - Przewodnik 252

253 B DODATEK STATISTICA ENTERPRISE SERVER Wprowadzenie STATISTICA Enterprise Server jest w pełni skalowalnym, korporacyjnym, bazującym na technologii internetowej systemem gromadzenia i analizy danych przeznaczonym dla całych organizacji. System został zbudowany z myślą o technologii przetwarzania rozproszonego przepływu informacji i w pełni wykorzystuje wielowarstwową architekturę klient-serwer. STATISTICA Enterprise Server dostarcza funkcjonalność narzędzi analitycznych, graficznych oraz narzędzi do budowy zapytań i raportów programu STATISTICA poprzez prosty w użyciu, interaktywny interfejs przeglądarki internetowej. System oferowany jest jako kompletna, gotowa do instalacji aplikacja z przeglądarkowym interfejsem użytkownika, pozwalającym użytkownikowi, znajdującemu się w dowolnym miejscu na świecie, w sposób interaktywny wykonywać analizy i przeglądać ich wyniki. Z drugiej strony STATISTICA Enterprise Server umożliwia użytkownikom zwykłej wersji STATISTICA ( grubego klienta ) przekazywanie czasochłonnych zadań do wykonania na serwerze. Ze względu na otwartą architekturę systemu STATISTICA Enterprise Server zawiera narzędzia programistyczne (całkowicie zgodne ze standardami informatycznymi i konwencjami, takimi jak VB Script, HTML, XML, C++/C#, Java i XML), umożliwiające pracownikom działu IT dostosowywanie wszystkich elementów systemu do własnych potrzeb lub rozszerzanie systemu, na przykład poprzez dodanie nowych, specjalistycznych komponentów analitycznych przeznaczonych dla korporacji lub komponentów dostępu do baz danych. Jak wspomniano wyżej, STATISTICA Enterprise Server jest dostarczany z gotowym do użycia środowiskiem przeglądarkowym (w postaci prostych w obsłudze okien dialogowych), które umożliwia określanie analiz i przeglądanie wyników. Ponadto dostępne są narzędzia służące do dostosowywania tych okien dialogowych i tworzenia nowych środowisk pracy i rozszerzania systemu o nowe możliwości. Przykładowo, użytkownik może stworzyć prostą stronę zawierającą tylko trzy przyciski, uruchamiające złożone analizy i tworzące rozbudowane raporty. STATISTICA Enterprise Server dodaje do całej rodziny narzędzi analizy danych, data mining i sterowania jakością STATISTICA nowy wymiar funkcjonalności i mnóstwo nowych możliwości. System pracuje na popularnych serwerach WWW (np. Apache i Microsoft IIS), współpracuje ze środowiskiem Microsoft.NET i Sun/Java. System nie wymaga zmian istniejących systemów bezpieczeństwa. Szeroki wybór narzędzi analitycznych i konfiguracji System STATISTICA Enterprise Server jest oferowany jako kompletne rozwiązanie, zawierające funkcjonalność analityczną poszczególnych pro- STATISTICA - Przewodnik 253

254 DODATEK B: STATISTICA ENTERPRISE SERVER duktów z rodziny STATISTICA lub ich kombinacji, począwszy od STATISTICA Pakiet Podstawowy, a skończywszy na wszystkich systemach korporacyjnych: STATISTICA Enterprise i Data Miner. Minimalna instalacja STATISTICA Enterprise Server zawiera narzędzia analityczne z programu STATISTICA Pakiet Podstawowy. Klienci mogą zamówić określoną wersję STATISTICA Enterprise Server Server łącznie z narzędziami analitycznymi koniecznymi do jego funkcjonowania (np. STATISTICA Pakiet Podstawowy dla 10 użytkowników), jak również można dodać funkcjonalność Web Server (jak to opisano w tym rozdziale) do pewnych lub wszystkich aktualnie posiadanych licencji na produkty z rodziny STATISTICA (można np. dodać licencję WWW do 20 spośród 50 istniejących licencji STATISTICA Enterprise). Funkcjonalność i możliwe zastosowania W pełni dostosowywalny system business intelligence w skali całej organizacji. Ważnym elementem funkcjonalności STATISTICA Enterprise Server jest użycie tego systemu jako rdzenia i naturalnego rozszerzenia systemów korporacyjnych STATISTICA. W szczególności STATISTICA Enterprise Server może działać jako podstawa korporacyjnego systemu sieciowego, umożliwiając praktyczną realizację pracy grupowej, współdzielenie wyników (raportów), jak również skryptów do analiz lub zapytań. Za pomocą uprawnień określanych dla grup lub poszczególnych użytkowników administratorzy systemu mogą zarządzać prawami dostępu do danych i raportów. Możliwość zarządzania dostępem poprzez Internet czyni STATISTICA Enterprise Server idealnym systemem ułatwiającym wspólne tworzenie projektów przez wielu pracowników lub pracowników znajdujących się w podróży. Przetwarzanie rozproszone i wielowarstwowa architektura klient-serwer. Użytkownicy czerpią korzyści nie tylko z narzędzi do wspólnej pracy, ale również z możliwości wyko- 254 STATISTICA - Przewodnik nywania na serwerze czasochłonnych i wymagających dużych zasobów zadań. Serwery są zazwyczaj wyposażone w wiele wydajnych procesorów, dużo pamięci RAM oraz szybkie i pojemne systemy pamięci masowej. Dzięki temu możliwe jest wykonanie w rozsądnym czasie złożonych, wieloetapowych obliczeń dla ogromnych plików danych, pozostawiając jednocześnie komputer użytkownika do jego dyspozycji. Ponieważ STATISTICA Enterprise Server może działać w trybie przetwarzania rozproszonego, wykorzystuje wiele procesorów lub wiele komputerów do przetwarzania danych. Użytkownicy mogą w pełni wykorzystywać wielowarstwową architekturę klient-serwer, gdzie: Warstwa 1 to interfejs użytkownika (UI) na komputerze klienta (zwykła przeglądarka lub klient STATISTICA; patrz Klient STATISTICA str. 255). Warstwa 2 to oprogramowanie STATISTICA Enterprise Server i implementacja business intelligence, która może zawierać określone zapytania, skrypty własnych analiz itd.). Warstwa 3 warstwę tę stanowią bazy i hurtownie danych. Zwykła (lokalna) wersja STATISTICA wszystkie obliczenia wykonuje lokalnie, a zasoby innych komputerów wykorzystywane są jedynie przy korzystaniu ze zdalnych baz danych przez In-Place Database Processing (IDP). IDP umożliwia asynchroniczny, bezpośredni dostęp do bazy danych (z możliwością wykorzystania przetwarzania rozproszonego, jeśli oferuje je serwer bazy danych) i pozwala uniknąć zapisywania kopii danych na lokalnym dysku (importowania danych). Gdy korzystamy z IDP, serwer bazy danych generuje rekordy danych i przesyła je do STATISTICA Data Miner, który jednocześnie przetwarza dane na stacji roboczej użytkownika. W przypadku wersji klient-serwer STATISTICA wszystkie obliczenia odbywają się na serwerze, a stacja robocza użytkownika obsługuje wyłącznie interfejs użytkownika. Architektura klient-serwer daje wyraźne korzyści przy pracy z dużymi

255 DODATEK B: STATISTICA ENTERPRISE SERVER projektami, które wymagają złożonych obliczeń dla ogromnych zbiorów danych. Wykonanie takich projektów w skrajnych przypadkach może być realne tylko na specjalnym komputerze, a ponadto przeniesienie długotrwałych zadań na serwer pozwala korzystać z lokalnego komputera w czasie wykonywania zadania. Klient STATISTICA. Chociaż do pracy w STATISTICA Enterprise Server nie są wymagane żadne składniki oprogramowania STATISTICA, jednak zainstalowanie jej daje nowe możliwości. Powstaje pytanie: Dlaczego mam używać STATISTICA Enterprise Server, jeżeli na moim laptopie zainstalowana jest STATISTICA?. Odpowiedzią jest dostęp do dodatkowych zalet wielowarstwowej architektury klient-serwer (zob. str. 254) i interakcyjnej pracy w STATISTICA z możliwością przesyłania czasochłonnych zadań do wykonania na serwerze oraz wymiany danych i wyników między wszystkimi warstwami sytemu. Z poziomu pracującej na naszym komputerze STATISTICA możemy uruchamiać zadania w STATISTICA Enterprise Server (na serwerze) oraz sterować współpracą tych dwu aplikacji. Dostępnych jest wiele możliwości rozdzielania zadań między komputer użytkownika (stację roboczą) a serwer. Ponadto gdy korzystamy ze środowiska użytkownika STATISTICA Enterprise Server w przeglądarce internetowej, możemy pobrać uzyskane wyniki (arkusze, wykresy itp.) na stację roboczą, aby otworzyć je w pracującej na stacji roboczej STATISTICA. Z pobranymi w ten sposób dokumentami możemy pracować tak jak z utworzonymi lokalnie. Zalety technologii wielowątkowej STATISTICA Enterprise Server wykorzystuje przetwarzanie rozproszone i wielowątkowość, co pozwala optymalnie wykonywać bardzo duże zadania obliczeniowe. Technologia STATISTICA Enterprise Server umożliwia szybkie wykonywanie bardzo dużych projektów (takich jak przedstawiony na ilustracji poniżej) z pełnym wykorzystaniem wielu procesorów serwera lub wielu serwerów pracujących równolegle. Na rysunku poniżej przedstawiono wykonywanie pojedynczego projektu STATISTICA Data Miner na czteroprocesorowym serwerze oraz okno Menedżera zadań z informacjami o wykorzystaniu zasobów serwera. Jak widać, w pełni wykorzystywane są wszystkie cztery procesory. Skalowalność (dzięki technologii przetwarzania równoległego). Jedną z unikalnych cech technologii przetwarzania rozproszonego STATISTICA Enterprise Server jest możliwość korzystania nie tylko ze wszystkich procesorów jednego serwera, ale również z wielu serwerów. Wiele procesorów i serwerów może jednocześnie wykonywać wiele zadań zleconych przez różnych użytkowników, ale również jeden projekt data mining zawierający wiele różnych metod analizy danych. Możliwość wykorzystania wielu serwerów jest ważna, ponieważ w pewnych sytuacjach daje duży przyrost wydajności. STATISTICA Enterprise Server używa technologii przetwarzania równoległego dla oddzielnych komputerów (podobnie jak robią to niektóre superkomputery). Dzięki temu jeśli dysponujemy na przykład trzema serwerami, z których każdy ma 4 procesory, program może wykonywać jeden projekt, używając wszystkich 12 procesorów (jeśli tylko skala projektu uzasadnia uruchomienie tego trybu przetwarzania). STATISTICA - Przewodnik 255

256 DODATEK B: STATISTICA ENTERPRISE SERVER Interfejs użytkownika STATISTICA Enterprise Server Użytkownik wersji klient-serwer STATISTICA może interakcyjnie pracować z programem działającym na serwerze, korzystając z interfejsu w ramach przeglądarki internetowej uruchomionej na swoim komputerze (kliencie). Dzięki temu z systemu STATISTICA Enterprise Server można korzystać na dowolnym komputerze, korzystając z przeglądarki. Bez względu na to, na jakim komputerze pracuje użytkownik, wszystkie obliczenia wykonywane są na serwerze, który zazwyczaj będzie miał wydajniejsze procesory i więcej zasobów dyskowych. Środowisko STATISTICA Enterprise Server może być uruchamiane przez wielu użytkowników jednocześnie. System, działając na serwerze (lub wielu serwerach), wykonuje wszystkie obliczenia przy zachowaniu bezpieczeństwa i kontroli uprawnień dostępu do projektów przez określone grupy użytkowników. STATISTICA Enterprise Server ma prosty interfejs użytkownika dający dostęp do interaktywnych analiz, operacji data mining, kart kontrolnych, zarządzania bazą danych, stosowania zapytań do bazy oraz dostosowywania wykresów. 256 STATISTICA - Przewodnik

257 DODATEK B: STATISTICA ENTERPRISE SERVER wybierać zmienne, określić opcjonalne parametry analizy, Po uwierzytelnieniu w STATISTICA Enterprise Server użytkownik może wybrać źródło danych (plik lub połączenie z bazą danych), przeglądać i edytować dane w interaktywnym edytorze arkusza danych, wykonywać analizy, używając standardowego menu (lub skrótu ze zdefiniowanym przez użytkownika My Menu), oraz w sposób interakcyjny przeglądać wyniki. STATISTICA - Przewodnik 257

258 DODATEK B: STATISTICA ENTERPRISE SERVER Program STATISTICA Enterprise Server umożliwia dodatkowo rozszerzenie funkcji dostępnych poprzez interfejs użytkownika. W skład systemu wchodzi zbiór narzędzi umożliwiających użytkownikowi dostosowanie interfejsu do swoich potrzeb i zamieszczenie w nim zdefiniowanych wcześniej funkcji oraz grupowanie ich według przeznaczenia. Szeroka gama interakcyjnie działających funkcji umożliwiających dokonywanie operacji na bazach danych, używanie kart kontrolnych oraz technik data mining jest dostępna przy użyciu standardowej przeglądarki internetowej. Zgodność ze standardami Stopień zgodności ze standardami informatycznymi jest kolejną z listy zalet STATISTICA Enterprise Server. STATISTICA Enterprise Server może być instalowana na wszystkich popularnych serwerach WWW (np. Apache lub IIS) i dlatego może być dopasowana do istniejących, lokalnych protokołów zabezpieczeń (firewall), zgodnie z wymogami korporacyjnymi. 258 STATISTICA - Przewodnik

259 DODATEK B: STATISTICA ENTERPRISE SERVER STATISTICA Enterprise Server wykorzystuje zaawansowane, zastrzeżone technologie rozwijane przez StatSoft, co gwarantuje wysoką skuteczność i skalowalność systemu (np. w odniesieniu do wielu komputerów, wieloprocesorowych serwerów STATISTICA pracujących w środowisku zarządzania danymi i ich rozpowszechniania). Technologia ta bazuje na wieloletnim doświadczeniu StatSoft w dostarczaniu wysokowydajnych, skalowalnych systemów dla odbiorców na całym świecie. Jednocześnie system STATISTICA Enterprise Server wykorzystuje standardowe protokoły (np. XML), co zapewnia: (a) niezależność od platformy serwera, (b) łatwe dostosowanie do nowych technologii, (c) prostotę dostosowania się systemu do potrzeb użytkownika. Elementem wpływającym na elastyczność systemu jest niewątpliwie standard informatyczny w postaci skryptów Visual Basic, C++, HTML, XML, które mogą być wykorzystywane w STATISTICA Enterprise Server do definiowania operacji analitycznych i dostosowywania wszystkich wyników analiz. Architektura systemu (uwaga techniczna) STATISTICA Enterprise Server może wykorzystywać jeden komputer do obsługi serwisu WWW (np. wykorzystując oprogramowanie Apache pracujące w systemie UNIX) i co najmniej jedną maszynę, na której pracuje STATISTICA (maszyn takich może być wiele). W wielu przypadkach serwer STATISTICA może być instalowany na tym samym komputerze, na STATISTICA - Przewodnik 259

Pokazać jeszcze