Analiza danych Data Mining Inteligencja biznesowa (BI)



Podobne dokumenty
Badania eksperymentalne

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych

Operacjonalizacja zmiennych

Model procesu dydaktycznego

Graficzna prezentacja danych statystycznych

Podstawowe pojęcia statystyczne

Zmienne zależne i niezależne

Statystyka w pracy badawczej nauczyciela

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Metodologia badań psychologicznych

1551\ glrlrs ISSf'J '

Finanse i Rachunkowość

w ekonomii, finansach i towaroznawstwie

Badania Statystyczne

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Sprowadzenie rzeczywistości do pewnych jej elementów określanych jako zmienne i stałe, razem z relacjami, jakie między tymi elementami zachodzą.

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Analiza. danych jakoêciowych i symbolicznych z wykorzystaniem programu R. Eugeniusz Gatnar Marek Walesiak. Redakcja naukowa

Wykład 10 Skalowanie wielowymiarowe

(x j x)(y j ȳ) r xy =

STRA TEGIE POSTĘPOWANIA W BADANIACH STATYSTYCZNYCH W PRZYPADKU ZBIORU ZMIENNYCH MIERZONYCH NA SKALACH RÓŻNEGO TYPU**

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

STATYSTYKA EKONOMICZNA

ZAKRES TEMATYCZNY EGZAMINU LICENCJACKIEGO

Wykład ze statystyki. Maciej Wolny

Metody badań w naukach ekonomicznych

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Część I Formułowanie celów i organizacja badań

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Analiza danych. TEMATYKA PRZEDMIOTU

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

strona 1 / 12 Autor: Walesiak Marek Publikacje:

CZĘŚĆ I. PRZYGOTOWANIE PROCESU BADAŃ MARKETINGOWYCH Faza identyfikacji problemów decyzyjnych lub okoliczności sprzyjających

Wprowadzenie do analizy korelacji i regresji

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Zagadnienia na egzamin magisterski na kierunku Informatyka i Ekonometria (2 stopień studiów)

Propozycja obszarów tematycznych seminarium doktoranckiego na Wydziale Ekonomii, Zarządzania i Turystyki. (dla cyklu kształcenia )

Wydział Ekonomii, Zarządzania i Turystyki w Jeleniej Górze

Badania marketingowe : podstawy metodyczne / Stanisław Kaczmarczyk. - wyd. 4. Warszawa, 2011

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

7. Zastosowanie wybranych modeli nieliniowych w badaniach ekonomicznych. 14. Decyzje produkcyjne i cenowe na rynku konkurencji doskonałej i monopolu

MATRYCA EFEKTÓW KSZTAŁCENIA

Podsumowanie wyników ankiety

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Badania sondażowe. Wprowadzenie. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Wstęp Podstawowe oznaczenia stosowane w książce... 13

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Elementy logiki matematycznej

WYKAZ KIERUNKOWYCH EFEKTÓW KSZTAŁCENIA KIERUNEK: MATEMATYKA, SPS WIEDZA

Analiza składowych głównych. Wprowadzenie

Etapy modelowania ekonometrycznego

Wydział Ekonomii, Zarządzania i Turystyki w Jeleniej Górze

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 8 OPROGRAMOWANIE DO ANALIZ MARKETINGOWYCH (pom. nr 1.21)

ECTS Razem 30 Godz. 330

Opis efektów kształcenia dla modułu zajęć

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Transformacja wiedzy w budowie i eksploatacji maszyn

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

I. Oprogramowanie sieciowe do prowadzenia analiz statystycznych wyników badań naukowych

Badania marketingowe. Podstawy metodyczne Stanisław Kaczmarczyk

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

ANALIZA CZYNNIKOWA Przykład 1

Elementy statystyki wielowymiarowej

3-letnie (6-semestralne) stacjonarne studia licencjackie kier. matematyka stosowana profil: ogólnoakademicki. Semestr 1. Przedmioty wspólne

STATYSTYKA. dr Agnieszka Figaj

Badania marketingowe. - Konspekt wykładowy

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

SZTUCZNA INTELIGENCJA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Spis treści Urszula Gierałtowska Alicja Grześkowiak Stanisław Heilpern Grzegorz Kończak Sebastian Majewski, Mariusz Doszyń Zofia Mielecka-Kubień

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Wydział Ekonomii, Zarządzania i Turystyki w Jeleniej Górze

ANALIZA DANYCH PIERWOTNYCH mgr Małgorzata Kromka

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

III. Funkcje rzeczywiste

Badanie zależności skala nominalna

Modelowanie i obliczenia techniczne. dr inż. Paweł Pełczyński

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

DZISIAJ.

Wydział Ekonomii, Zarządzania i Turystyki w Jeleniej Górze

Dostawa oprogramowania. Nr sprawy: ZP /15

Analiza korespondencji

Analiza porównawcza koniunktury gospodarczej w województwie zachodniopomorskim i w Polsce w ujęciu sektorowym

Skalowanie wielowymiarowe idea

ALGORYTM RANDOM FOREST

5. Rozwiązywanie układów równań liniowych

Modelowanie wybranych pojęć matematycznych. semestr letni, 2016/2017 Wykład 10 Własności funkcji cd.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

1.1 Definicja. 1.2 Przykład. 1.3 Definicja. Niech G oznacza dowolny, niepusty zbiór.

Zaawansowane metody numeryczne

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).

Proces badawczy schemat i zasady realizacji

Wykład z dnia 8 lub 15 października 2014 roku

Transkrypt:

naliza danych (wielowymiarowa analiza statystyczna) odnosi się do grupy metod statystycznych, za pomocą, których jednoczesnej analizie poddane są pomiary na przynajmniej dwóch zmiennych opisujących każdy obiekt badania. Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiektem jest, więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zdarzenie. Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisującą zbiorowość obiektów. Metody wielowymiarowej analizy statystycznej operują na danych mierzonych na różnych skalach pomiaru: słabych (nominalnej i porządkowej) silnych. (przedziałowej i ilorazowej). Istotne jest to, aby stosując metody wielowymiarowej analizy statystycznej używane je dla danych z takich skal pomiaru, dla jakich zostały skonstruowane (np. nie stosować klasycznej metody k-średnich dla danych słabych). Najpopularniejsze grupy metod wielowymiarowej analizy statystycznej to: analiza skupień, analiza dyskryminacyjna, analiza regresji, drzewa klasyfikacyjne, sieci neuronowe, analiza czynnikowa, skalowanie wielowymiarowe, conjoint analysis. Data Mining (Eksploracja danych, drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych, głęboka analiza danych) czyli odkrywania wiedzy z baz danych Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych. Istnieją dwa główne wyróżniki metod data mining. Po pierwsze dane do data mining zawsze pochodzą z komputerowych baz danych, po drugie metody data mining nigdy nie definiują żadnych założeń dotyczących struktury danych (w tym sensie są zasadniczo różne od metod analizy danych, gdyż nie definiują skali pomiaru) natomiast wszystkie wzorce i zależności dla danych są znajdowane podczas badania. Inteligencja biznesowa (BI) to proces przekształcania danych w informacje, a informacji w wiedzę, która może być wykorzystana do zwiększenia konkurencyjności przedsiębiorstwa. Efektywne eksploatowanie narzędzi BI jest mocno uzależnione od utworzenia hurtowni danych uwalniających systemy transakcyjne od czasochłonnego generowania raportów. Systemy BI wyliczają kluczowe wskaźniki efektywności działania przedsiębiorstwa, na podstawie których stawia się hipotezy, po czym weryfikuje się je poprzez wykonywanie szczegółowych "przekrojów" danych poprzez narzędzia Online nalytical Protocol i pokrewne. Wyróżnikiem BI jest integracja z systemami informatycznymi zarządzania albo w postaci modułów dużych systemów albo poprzez odpowiednie standardy wymiany danych jak to jest w przypadku środowisk statycznych:

Statistika, SPSS czy R, przy czym, inaczej niż w przypadku data mining dane nie pochodzą bezpośrednio z baz danych (czyli nie są surowe) ale z samych systemów informatycznych zarządzania, ich modułów eksportujących, analitycznych, czy raportowych, są już więc wstępnie przetworzone. Sztuczna inteligencja zajmuje się tworzeniem modeli zachowań inteligentnych oraz programów komputerowych symulujących te zachowania. Głównym zadaniem badań nad sztuczną inteligencji jest konstruowanie maszyn i programów komputerowych zdolnych do realizacji wybranych funkcji umysłu i ludzkich zmysłów niepoddających się prostej numerycznej algorytmizacji, czyli można ją też zdefiniować jako dział informatyki zajmujący się rozwiązywaniem problemów, które nie są efektywnie algorytmizowalne. Do metod sztucznej inteligencji zalicza się m.in. logikę rozmytą, algorytmy ewolucyjne czy sieci neuronowe. Należy podkreślić, że w literaturze te cztery pojęcia są bardzo często używane zamiennie, granice są bardzo płynne. Np sieci neuronowe to metoda i analizy danych i sztucznej inteligencji, drzewa klasyfikacyjne zalicza się i do data mining i do analizy danych a w różnych opracowaniach data mining jest traktowana jako część inteligencji biznesowej lub odwrotnie a są też takie opracowania w których i data mining i inteligencję biznesową traktuje się jako podzbiór funkcjonalności hurtowni danych. Zastosowania metod analizy danych w ekonomii można podzielić na zastosowania metod jedno-, dwu- i wielowymiarowych (por. np. Hellwig [1968], s. 12). W przypadku tych pierwszych zakres zastosowań jest bardzo rozległy i trudny do jednoznacznego określenia (por. Gatnar, Walesiak (red.) [2004], s. 56). Tabela przedstawia najważniejsze metody wielowymiarowe podejścia ilościowego wraz z typowymi obszarami ich zastosowań. Zawiera ona tylko te metody podejścia ilościowego, które w ostatnich kilkudziesięciu latach odegrały i nadal odgrywają ważną rolę w badaniach ekonomicznych. 2

Jaki typ zależności jest badany? zależności Ilu zmiennych dotyczy predykcja? Struktra jakiego typu związków jest badana? Wielokrotne relacje pomiędzy zmiennymi zależnymi i niezależnymi Kilka zmiennych zależnych w pojedynczej relacji Jedna zmiena zależna w pojedynczej relacji Związki między zmiennymi Przypadki indywidualne / respondenci Obiekty "Klasyczna" analiza skupień Modele równań strukturalnych (SEM) Na jakiej skali mierzone są zmienne zależne? Na jakiej skali mierzona jest zmienna zależna? naliza czynnikowa Konfirmacyjna analiza czynnikowa naliza skupień oparta na modelu Sieci Kohonena Na jakiej skali mierzone są zmienne Skala metryczna Skala porządkowa lub nominalna Skala metryczna Skala porządkowa lub nominalna Porządkowanie liniowe Skala metryczna Skala porządkowa lub nominalna Skala metryczna Na jakiej skali mierzone są zmienne niezależne? Kanoniczna analiza korelacji ze zmiennymi sztucznymi Skala porządkowa lub nominalna Regresja wieloraka Conjoint nalysis naliza dyskryminacyjna Sieci neuronowe Drzewa klasyfikacyjne Liniowe modele probabislistyczne Skalowanie wielowymiarowe naliza korespondencji Kanoniczna analiza korelacji Wielowymiarowa analiza wariancji 3

Tabela Najważniejsze metody badawcze podejścia ilościowego Metoda Kategoria Źródła literaturowe Uwagi / przykłady zastosowań naliza regresji wielorakiej zależności Legendre [1805], Gauss [1809, 1821], Galton [1877, 1885], Fisher [1922] naliza popytu na samochody firmy Chrysler (Menezes, Currim [1992]), analiza ryzyka kredytowego (Szmit, Szmit, Kaniewski [2003]), projektowanie scenariuszy promocji cenowych (Błażejowski, Kufel [2007]), badanie reakcji klienta na zmiany cen paliw (Kufel, Błażejowski [2008]) Nieparametryczne metody regresji zależności Friedman [1991], Kooperberg, Bose, Stone [1997], Friedman, Stuetzle [1981], Rousseeuw, Struyf [1998] Najważniejsze algorytmy: MRT, POLYMRS, PPR, CE, vas, regresja oparta na głębi naliza regresji zmiennych dyskretnych i ograniczonych zależności Bliss [1934], Berkson [1944], McFadden [1974 ], Maddala [1986], gresti [2002] popytu na samochody (Cragg, Uhler [1970]), badanie czynników decydujących o głosowaniu w kongresie US nad ustawą medicare (McKelvey, Zavoina [1975]), analiza czynników wyboru zawodu (Schmidt, Strauss [1975]), badania przekształceń strukturalnych w przemyśle (Heckman [1976]), pomiar preferencji (Bąk [2004]), badanie preferencji klientów biur podróży (Rybicka [2006]), badania spłacalności kredytów (Chrzanowska, Kompa, Witkowska [2005], Marzec [2008]) naliza regresji wykorzystująca modele wywodzące się z koncepcji procesu stochastycznego (por. Jajuga [2003], s. 8) zależności Quenouille [1957], Box, Jenkins [1976], Bollerslev [1986], Heston [1993] Modele z tej grupy można podzielić na dwie podstawowe rodziny: analizy średniej ruchomej składnika losowego (RM, RIM i pokrewne) oraz modele dotyczące danych o małej stabilności wariancji składnika losowego (RCH, GRCH i pokrewne) wykorzystywane do analizy zjawisk wielosezonowych, takich jak np. prognozowanie obciążania mocą elektryczną (Nazarko, Chrabołowska, Rybaczuk [2004]). Modele z drugiej grupy znajdują zastosowanie zwłaszcza w analizie procesów finansowych (por. Welfe [2003], s. 125). Wśród innych zastosowań można wymienić badania wpływu liberalizacji polityki rolnej na ceny żywności (Yang, Haigh, Leathman [2001]) i badania makroekonometryczne poziomu inflacji, PKB i krótkoterminowych stóp procentowych Banku Centralnego (Engle, Rangel [2008]) naliza dyskryminacyjna zależności Bayes [1763], Fisher [1936], Hart [1968], Hand [1982], Vapnik [1998] Prognozowanie upadłości przedsiębiorstw (ltman [1968], Hadasik [1998], Hołda [2001]), badanie rentowności spółek giełdowych (Gierałtowska [2001]), badanie kondycji finansowej banków (Witkowska, Witkowski [2006]) Sieci neuronowe zależności McCulloch, Pitts [1943], Robbins, Monro [1951], Rosenblatt [1958], naliza rynku nieruchomości (Lula [1999]), konkurencyjności i innowacyjności regionów (Korol, Lis [2004]), ocena ryzyka kredytu 4

Tadeusiewicz [1993] konsumpcyjnego (Staniec, Szmit [2004]), badania spłacalności kredytów (Chrzanowska, Kompa, Witkowska [2005]), ocena ryzyka kredytowego klientów w telekomunikacji (Ząbkowski [2008]) Drzewa klasyfikacyjne zależności Breiman i in. [1984], Breiman [1994], Freund, Schapire [1996], Ho [1998], Breiman [1998], Hall [2000], Breiman [2001], Gatnar [2001] Identyfikacjia determinant jakości usług świadczonych przez przedsiębiorców (Holmes [1980]), badanie czynników warunkujących lojalność klientów na rynku motoryzacyjnym (Green, Tull, lbaum [1988]), poszukiwanie charakterystyki klientów o podobnych postawach (Magidson [1994]), wyodrębnienie potencjalnych segmentów klientów na podstawie wydatków na kulturę, rozrywkę sport i turystykę (Kurzydłowski [2000]), analiza zdolności kredytowej kredytobiorców (Staniec [2005]), analiza wymagań klientów na rynku nieruchomości (Mazur, Witkowska [2007]) Modele równań strukturalnych zależności Wright [1921], Haavelmo [1943], Simon [1953], Bollen [1989] Modelowanie indeksu wolności gospodarczej EFW (Zacny [2004]), badanie konkurencyjności i innowacyjności regionów (Korol, Lis [2004]) naliza skupień Sneath [1957], Ward [1963], MacQueen [1967], nderberg [1973], ldenderfer, Blashfield 1984], Gordon [1999], Everitt i in. [2001] Wspomaganie prac nad podziałem administracyjnym kraju (Gatnar, Wywiał [1998]), klasyfikacja funduszy inwestycyjnych (Salamaga [2008]). Szeroki przegląd zastosowań analizy skupień znajduje się w pracy Walesiak [1993] naliza skupień oparta na modelu McLachlan, Basford [1988], Banfield, Raftery [1993] Zakres zastosowań analogiczny do tradycyjnych metod analizy skupień naliza wariancji Fisher [1925], Hartley [1940], Speed [1987] Często stosowana jako wstępna technika przed innymi metodami analizy danych Samoorganizujące się mapy Kohonen [1982], Kohonen [2001], DeBoeck, Kohonen [2001] Klasyfikacja województw pod względem rozwoju infrastruktury i jakości życia (Siedlecki, Tarczyński [1998]), prognozowanie długookresowych stóp procentowych (De Bodt, Gregoire, Cottrel [2001]), wybór funduszy inwestycyjnych (DeBoeck [2001]), analiza potencjalnych bankructw małych i średnich przedsiębiorstw (Kiviluoto, Bergiud [2001]), analiza porównawcza banków (Szumski, Jarowoj [2001]), badanie innowacyjności i absorpcji szkoleń w przedsiębiorstwach (Jurkiewicz, Najman [2004] ) Skalowanie wielowymiarowe Young, Householder [1938], Torgerson [1952], Coombs [1950], Identyfikacja kryteriów, jakimi kierują się konsumenci przy wyborze określonych domów handlowych (Singson [1975]), określenie wpływu kampanii reklamowej na 5

Green [1952], Hurley, Cattell [1962], Kruskal [1964a], Kruskal [1964b], Sammon [1969], Cox, Cox [2001] zmianę pozycji na rynku papierosów (Smith, Lusch [1976]), wybór hasła reklamowego i zbadanie jego perswazyjnej efektywności (Lautman, Percy, Kordish [1978]), segmentacja rynku i pozycjonowanie produktów na przykładzie brytyjskiego rynku papierosów (Hooley [1980]), poszukiwanie kierunku zmiany pozycji na rynku (dams, Van nken [1995]), badania rozwoju społecznogospodarczego (Malina, Wanat 2000]) naliza czynnikowa Spearman [1904], Thurstone [1931], Kaiser [1970], Harman [1975], Kim, Mueller [1978] Pozycjonowanie kawy na rynku (Sztemberg [1999]), określanie pozycji nowych produktów (filmów) na rynku (Neelamegham, Jain [1999]) naliza głównych składowych Pearson [1901], Hotelling [1993], Jollife [2002] Zakres zastosowań analogiczny do analizy czynnikowej naliza korespondencji Burt [1950], Benzérci [1973], Greenacre [1984], Hoffman, Franke [1986] naliza nawyków palaczy papierosów w przedsiębiorstwie (Greenacre [1984], s. 55), badanie determinant wyboru linii lotniczych przez klientów (Erdener, Kucukemiroglu, Kara [1994]), wybór kanałów telewizyjnych pod kątem docelowych klientów dla reklamodawców (ssael, Poltrack [1999]), badanie związku między miejscem zakupów a wzorcem zakupów produktów (Yavas [2001]), wykorzystanie internetu w promocji i sprzedaży produktów (Kwak, Zinkhan, Domonick [2002]), badanie rynków zagranicznych dla produktu (dresów) (Sobczak [2008]), badanie rynku ubezpieczeń III filara (Batóg, Mojsiewicz, Wawrzyniak [2009]) Conjoint analysis Luce, Tukey [1964], Green, Wind [1973, 1975], Green [1984], Louviere [1988] Wprowadzanie nowego produktu na rynek (opona Goodyear) (Walesiak [1996], s. 90, (zaparzacze do kawy) (Churchil [1995], s. 505), oferta szkoleniowa szkoły policealnej (Dziechciarz, Walesiak [1996]), badanie preferencji nabywców nieruchomości (Bartłomowicz [2003]), ocena oferty ubezpieczeniowej (Tarka, Żuraw [2008]) Porządkowanie liniowe Hellwig [1968], Walesiak [1993] naliza standardów życia w 49 województwach Polski (Siedlecka, Siedlecki [1994], Malina, Zeliaś [1997]), ocena kapitału intelektualnego w przedsiębiorstwie (Staniec [2007]), ocena rynku nieruchomości według województw (Foryś [2008]) 6

Termin statystyczna analiza wielowymiarowa odnosi się do grupy metod statystycznych, za pomocą których jednoczesnej analizie poddane są pomiary na przynajmniej dwóch zmiennych opisujących każdy obiekt badania. Do podstawowych pojęć statystycznej analizy wielowymiarowej zalicza się pojęcie obiektu i zmiennej. Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiektem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zdarzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y, marka samochodu S, pacjent P, gmina G, przedsiębiorstwo F, rzeka R, rynek testowy T, hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I. Zbiór obiektów badania będzie oznaczany przez. n i 1 n 1,, Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisującą zbiorowość obiektów. W ujęciu formalnym zmienna M j to odwzorowanie (por. Borys [1984], s. 87): M j : Q ( j 1,,m ), (2.1) gdzie: Q zbiór obrazów (liczb rzeczywistych, kategorii), m liczba zmiennych. Z uwagi na to, że metody statystycznej analizy wielowymiarowej zwykle wymagają, aby realizacje zmiennych były liczbami rzeczywistymi zachodzi potrzeba kodowania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (2.1) zbiór obrazów jest zbiorem kategorii, to należy go przekodować na zbiór liczb rzeczywistych. Można wykorzystać następujące sposoby kodowania zmiennych: a) jeśli dana zmienna ma tylko dwie kategorie można ją zamienić na tzw. zmienną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość 1, a drugiemu wartość 0 (lub 1). Np. dla zmiennej płeć kodowanie będzie następujące: kobieta 1, mężczyzna 0 lub 1 ; b) jeśli zmienna ma więcej niż dwie kategorie, to stosujemy sposób zamiany, polegający na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynkowych). Obowiązuje tutaj zasada, według której liczba wprowadzonych zmiennych sztucznych musi być mniejsza o jeden od liczby poziomów (kategorii) danej zmiennej. Załóżmy, że dla zmiennej wykształcenie występują trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie zawodowe lub ogólne. Należy w tym przypadku wprowadzić dwie zmienne sztuczne zdefiniowane następująco: 7

Wyksztacen ie M j M j 1 podstawowe 0 0 zasadnicze zawodowe średnie zawodowelub ogólne 0 1 1 0 lub M j M j 1 1 1 c) poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma tutaj znaczenia czy kategorie można uporządkować według stopnia intensywności oddziaływania (zmienna porządkowa) czy też nie można uporządkować (zmienna nominalna). Np. dla zmiennej porządkowej organizacja pracy obejmującej kategorie bardzo bobra, dobra, słaba, zła można zastosować kodowanie: zła 1 słaba 2 dobra 3 bardzo dobra 4 Znajomość w analizie statystycznej zbioru obiektów i zmiennych pozwala zapisać macierz danych, w której dowolny element oznacza się przez x ij ( 0 1 i 1,,n ; 1 0 j 1,,m ). Jest to obserwacja j-tej zmiennej w i-tym obiekcie. Wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora (por. Jajuga [1993], s. 21): x i x, x 2,, x i1 i T im. (2.2) Jeśli do dwóch wymiarów (obiekty, zmienne) wprowadzi się wymiar czasu, to otrzymuje się tzw. kostkę danych. Pojęcia tego używają w swoich pracach m.in. Žukowska oraz Mučnik [1976], s. 15 i Jajuga [1987], s. 14-16; [1993], s. 21-23. Dowolną liczbę w kostce danych oznacza się przez x. Jest to wartość j-tej zmiennej w i-tym obiekcie w i jt okresie t ( i 1,,n ; j 1,,m ; t 1,,T ). W celu uproszczenia zapisu do wszystkich wzorów w pracy będzie stosowana zasada, według której indeks pasywny (stały) będzie pomijany. Trójwymiarowe ujęcie w postaci kostki danych pozwala stosować w badaniach następujące schematy badawcze: a) ujęcie całościowe, w którym wykorzystuje się całą kostkę danych analizowany jest tutaj zbiór n obiektów w T okresach ze względu na m zmiennych; b) ujęcie cząstkowe kostka ma trzy wymiary, więc możliwe są do uzyskania trzy różne jej przekroje: przekrój czas zmienna, w którym jeden z obiektów jest analizowany w T okresach ze względu na m zmiennych, 8

przekrój obiekt czas, w którym n obiektów jest analizowanych w T okresach ze względu na jedną zmienną, przekrój obiekt zmienna, w którym n obiektów jest analizowanych ze względu na m zmiennych w jednym okresie. W dalszej części pracy będą wykorzystywane dwa ujęcia: całościowe oraz cząstkowe w przekroju czas zmienna i obiekt zmienna z koncepcji kostki danych. Ujęcie cząstkowe w przekroju obiekt czas nie będzie rozpatrywane, ponieważ jest to zagadnienie analizy jednowymiarowej. 2.2. Typy skal pomiarowych i ich charakterystyka W klasycznym ujęciu przez pomiar rozumie się przyporządkowanie liczb obiektom zgodnie z określonymi regułami w taki sposób, aby liczby odzwierciedlały relacje zachodzące między tymi obiektami (por. np. Pawłowski [1969], s. 54; Choynowski [1971], s. 17). Podstawą teorii pomiaru jest pojęcie skali. DEFINICJ 1 (por. dams, Fagot i Robinson [1965], s. 101-102; Walesiak [1990], s. 37). Taką uporządkowaną czwórkę U ; G; H; F a) to niepusty zbiór obiektów, H zbiór liczb rzeczywistych, G klasa funkcji odwzorowujących w H, F klasa funkcji odwzorowujących H w H, b) dla wszystkich g G i f F, f g G,, że c) F zawiera przekształcenie H na H, a ponadto dla każdego f, f F k l złożenie f k f F, l nazywa się skalą pomiaru. W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone przez Stevensa [1959]. Definiując w odniesieniu do skali ilorazowej dopuszczalne przekształcenie, Stevens nie określił, do którego zbioru należy x w funkcji (2.6), tzn. czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodatnich, czy rzeczywistych nieujemnych. Dopiero definicja damsa, Fagota i Robinsona usunęła tę usterkę. DEFINICJ 2 (por. dams, Fagot i Robinson [1965] s. 103; Walesiak [1991], s. 13-14). U ; G; H; F jest skalą nominalną wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że f funkcja wzajemnie jednoznaczna. (2.3) 9

DEFINICJ 3 (por. dams, Fagot i Robinson [1965], s. 103; Walesiak [1991], s. 14). U ; G; H; F jest skalą porządkową wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że f funkcja ściśle monotonicznie rosnąca. (2.4) DEFINICJ 4 (por. dams, Fagot i Robinson [1965], s. 103; Walesiak [1990], s. 37). U ; G; H; F jest skalą interwałową (przedziałową) wtedy i tylko wtedy, gdy H jest zbiorem wszystkich liczb rzeczywistych R i F jest zbiorem funkcji f takich, że dla dodatniego b f ( x) bx a, f ( x) R (2.5) dla wszystkich x R. DEFINICJ 5 (por. dams, Fagot i Robinson [1965], s. 103; Walesiak [1990], s. 38). U ; G; H; F zbiorem liczb rzeczywistych dodatnich dodatniego b dla wszystkich x R. jest skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H jest R f ( x) bx, f ( x) R i F jest zbiorem funkcji f takich, że dla (2.6) Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną i porządkową do niemetrycznych. Z przytoczonych definicji 2-5 wynika, że z typem skali wiąże się grupa przekształceń, ze względu na które skala zachowuje swe własności. Dopuszczalnymi przekształceniami są więc te, które nie naruszają zasobu informacji zawartej dla mierzonej zmiennej. Skala mocniejsza od skali U 1 wtedy i tylko wtedy, gdy jej dopuszczalne przekształcenie jest zdegenerowanym przypadkiem dopuszczalnego przekształcenia skali U 1 (por. Walenta [1971], s. 52). Podstawowe własności skal pomiaru zawiera tab. 2.1. U 2 jest 10

Tabela 2.1. Podstawowe własności skal pomiaru Dozwolone przekształcenia Typ skali matematyczne Nominalna z f (x), dowolne przekształcenie wzajemnie jednoznaczne Porządkowa Przedziałowa Ilorazowa z f (x) f (x) f (x), dowolna ściśle monotonicznie rosnąca funkcja ( b 0) z R z bx a, dla wszystkich x zawartych w R, wartość zerowa na tej skali jest zwykle przyjmowana arbitralnie lub na podstawie konwencji* z bx ( b 0), R z R dla wszystkich x Dopuszczalne relacje równości ( ), x x B różności ( x x ) powyższe oraz większości ( mniejszości ( B x x B x x B powyższe oraz równości różnic i przedziałów ( x x B x C x D ) powyższe oraz równości ilorazów ( x x B x x C D ) i ) Dopuszczalne operacje arytmetyczne zliczanie zdarzeń (liczba relacji równości, różności) zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości) powyższe oraz dodawanie i odejmowanie powyższe oraz mnożenie i dzielenie zawartych w, naturalnym początkiem skali ilorazowej jest wartość zerowa (zero ) lewostronnie ogranicza zakres skali) * Por. ckoff [1969], s. 240. Źródło: opracowanie własne na podstawie prac: Stevens [1959], s. 25 i 27; dams, Fagot i Robinson [1965]; Walesiak [1995], s. 189-191; Walesiak i Bąk [2000], s. 17. Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej (por. np. Steczkowski i Zeliaś [1981], s. 17; [1997], s. 19; Wiśniewski [1986; 1987]; Walesiak [1990], s. 40). Transformacja skal polegająca na ich wzmacnianiu nie jest możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości. W literaturze (por. nderberg [1973], s. 53-69; Pociecha [1986]) podawane są pewne aproksymacyjne metody przekształcania skal słabszych w silniejsze, opierające się na pewnych dodatkowych informacjach. Stosując zaś dozwolone przekształcenie wartości na skali, zachowujemy niezmienność typu skali przyjętej dla danej zmiennej. Inna z reguł teorii pomiaru mówi, że metody ilościowe, które można stosować do wyników pomiaru w skali słabszej, stosuje się również do liczb uzyskanych z mierzenia na poziomie mocniejszym. Wynika to z tego, że skala mocniejsza zawiera w sobie dopuszczalne relacje skali słabszej. Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowalność rozmaitych technik statystyczno-ekonometrycznych. Technikami statystycznymi dopuszczalnymi dla danego typu skali są takie techniki, które dostarczają wyników (w sensie relacji) niezmiennych względem dopuszczalnych przekształceń (por. np. Walenta [1971], s. 61). W artykule Handa [1996] dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi dla nich technikami statystycznymi. Pokazano w nim przykłady, które są źródłem kontrowersji w wypadku ścisłego stosowania reguł pomiaru. 11