Analiza danych Data Mining Inteligencja biznesowa (BI)

naliza danych (wielowymiarowa analiza statystyczna) odnosi się do grupy metod statystycznych, za pomocą, których jednoczesnej analizie poddane są pomiary na przynajmniej dwóch zmiennych opisujących każdy obiekt badania. Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiektem jest, więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zdarzenie. Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisującą zbiorowość obiektów. Metody wielowymiarowej analizy statystycznej operują na danych mierzonych na różnych skalach pomiaru: słabych (nominalnej i porządkowej) silnych. (przedziałowej i ilorazowej). Istotne jest to, aby stosując metody wielowymiarowej analizy statystycznej używane je dla danych z takich skal pomiaru, dla jakich zostały skonstruowane (np. nie stosować klasycznej metody k-średnich dla danych słabych). Najpopularniejsze grupy metod wielowymiarowej analizy statystycznej to: analiza skupień, analiza dyskryminacyjna, analiza regresji, drzewa klasyfikacyjne, sieci neuronowe, analiza czynnikowa, skalowanie wielowymiarowe, conjoint analysis. Data Mining (Eksploracja danych, drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych, głęboka analiza danych) czyli odkrywania wiedzy z baz danych Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych. Istnieją dwa główne wyróżniki metod data mining. Po pierwsze dane do data mining zawsze pochodzą z komputerowych baz danych, po drugie metody data mining nigdy nie definiują żadnych założeń dotyczących struktury danych (w tym sensie są zasadniczo różne od metod analizy danych, gdyż nie definiują skali pomiaru) natomiast wszystkie wzorce i zależności dla danych są znajdowane podczas badania. Inteligencja biznesowa (BI) to proces przekształcania danych w informacje, a informacji w wiedzę, która może być wykorzystana do zwiększenia konkurencyjności przedsiębiorstwa. Efektywne eksploatowanie narzędzi BI jest mocno uzależnione od utworzenia hurtowni danych uwalniających systemy transakcyjne od czasochłonnego generowania raportów. Systemy BI wyliczają kluczowe wskaźniki efektywności działania przedsiębiorstwa, na podstawie których stawia się hipotezy, po czym weryfikuje się je poprzez wykonywanie szczegółowych "przekrojów" danych poprzez narzędzia Online nalytical Protocol i pokrewne. Wyróżnikiem BI jest integracja z systemami informatycznymi zarządzania albo w postaci modułów dużych systemów albo poprzez odpowiednie standardy wymiany danych jak to jest w przypadku środowisk statycznych:

Statistika, SPSS czy R, przy czym, inaczej niż w przypadku data mining dane nie pochodzą bezpośrednio z baz danych (czyli nie są surowe) ale z samych systemów informatycznych zarządzania, ich modułów eksportujących, analitycznych, czy raportowych, są już więc wstępnie przetworzone. Sztuczna inteligencja zajmuje się tworzeniem modeli zachowań inteligentnych oraz programów komputerowych symulujących te zachowania. Głównym zadaniem badań nad sztuczną inteligencji jest konstruowanie maszyn i programów komputerowych zdolnych do realizacji wybranych funkcji umysłu i ludzkich zmysłów niepoddających się prostej numerycznej algorytmizacji, czyli można ją też zdefiniować jako dział informatyki zajmujący się rozwiązywaniem problemów, które nie są efektywnie algorytmizowalne. Do metod sztucznej inteligencji zalicza się m.in. logikę rozmytą, algorytmy ewolucyjne czy sieci neuronowe. Należy podkreślić, że w literaturze te cztery pojęcia są bardzo często używane zamiennie, granice są bardzo płynne. Np sieci neuronowe to metoda i analizy danych i sztucznej inteligencji, drzewa klasyfikacyjne zalicza się i do data mining i do analizy danych a w różnych opracowaniach data mining jest traktowana jako część inteligencji biznesowej lub odwrotnie a są też takie opracowania w których i data mining i inteligencję biznesową traktuje się jako podzbiór funkcjonalności hurtowni danych. Zastosowania metod analizy danych w ekonomii można podzielić na zastosowania metod jedno-, dwu- i wielowymiarowych (por. np. Hellwig [1968], s. 12). W przypadku tych pierwszych zakres zastosowań jest bardzo rozległy i trudny do jednoznacznego określenia (por. Gatnar, Walesiak (red.) [2004], s. 56). Tabela przedstawia najważniejsze metody wielowymiarowe podejścia ilościowego wraz z typowymi obszarami ich zastosowań. Zawiera ona tylko te metody podejścia ilościowego, które w ostatnich kilkudziesięciu latach odegrały i nadal odgrywają ważną rolę w badaniach ekonomicznych. 2

Jaki typ zależności jest badany? zależności Ilu zmiennych dotyczy predykcja? Struktra jakiego typu związków jest badana? Wielokrotne relacje pomiędzy zmiennymi zależnymi i niezależnymi Kilka zmiennych zależnych w pojedynczej relacji Jedna zmiena zależna w pojedynczej relacji Związki między zmiennymi Przypadki indywidualne / respondenci Obiekty "Klasyczna" analiza skupień Modele równań strukturalnych (SEM) Na jakiej skali mierzone są zmienne zależne? Na jakiej skali mierzona jest zmienna zależna? naliza czynnikowa Konfirmacyjna analiza czynnikowa naliza skupień oparta na modelu Sieci Kohonena Na jakiej skali mierzone są zmienne Skala metryczna Skala porządkowa lub nominalna Skala metryczna Skala porządkowa lub nominalna Porządkowanie liniowe Skala metryczna Skala porządkowa lub nominalna Skala metryczna Na jakiej skali mierzone są zmienne niezależne? Kanoniczna analiza korelacji ze zmiennymi sztucznymi Skala porządkowa lub nominalna Regresja wieloraka Conjoint nalysis naliza dyskryminacyjna Sieci neuronowe Drzewa klasyfikacyjne Liniowe modele probabislistyczne Skalowanie wielowymiarowe naliza korespondencji Kanoniczna analiza korelacji Wielowymiarowa analiza wariancji 3

Tabela Najważniejsze metody badawcze podejścia ilościowego Metoda Kategoria Źródła literaturowe Uwagi / przykłady zastosowań naliza regresji wielorakiej zależności Legendre [1805], Gauss [1809, 1821], Galton [1877, 1885], Fisher [1922] naliza popytu na samochody firmy Chrysler (Menezes, Currim [1992]), analiza ryzyka kredytowego (Szmit, Szmit, Kaniewski [2003]), projektowanie scenariuszy promocji cenowych (Błażejowski, Kufel [2007]), badanie reakcji klienta na zmiany cen paliw (Kufel, Błażejowski [2008]) Nieparametryczne metody regresji zależności Friedman [1991], Kooperberg, Bose, Stone [1997], Friedman, Stuetzle [1981], Rousseeuw, Struyf [1998] Najważniejsze algorytmy: MRT, POLYMRS, PPR, CE, vas, regresja oparta na głębi naliza regresji zmiennych dyskretnych i ograniczonych zależności Bliss [1934], Berkson [1944], McFadden [1974 ], Maddala [1986], gresti [2002] popytu na samochody (Cragg, Uhler [1970]), badanie czynników decydujących o głosowaniu w kongresie US nad ustawą medicare (McKelvey, Zavoina [1975]), analiza czynników wyboru zawodu (Schmidt, Strauss [1975]), badania przekształceń strukturalnych w przemyśle (Heckman [1976]), pomiar preferencji (Bąk [2004]), badanie preferencji klientów biur podróży (Rybicka [2006]), badania spłacalności kredytów (Chrzanowska, Kompa, Witkowska [2005], Marzec [2008]) naliza regresji wykorzystująca modele wywodzące się z koncepcji procesu stochastycznego (por. Jajuga [2003], s. 8) zależności Quenouille [1957], Box, Jenkins [1976], Bollerslev [1986], Heston [1993] Modele z tej grupy można podzielić na dwie podstawowe rodziny: analizy średniej ruchomej składnika losowego (RM, RIM i pokrewne) oraz modele dotyczące danych o małej stabilności wariancji składnika losowego (RCH, GRCH i pokrewne) wykorzystywane do analizy zjawisk wielosezonowych, takich jak np. prognozowanie obciążania mocą elektryczną (Nazarko, Chrabołowska, Rybaczuk [2004]). Modele z drugiej grupy znajdują zastosowanie zwłaszcza w analizie procesów finansowych (por. Welfe [2003], s. 125). Wśród innych zastosowań można wymienić badania wpływu liberalizacji polityki rolnej na ceny żywności (Yang, Haigh, Leathman [2001]) i badania makroekonometryczne poziomu inflacji, PKB i krótkoterminowych stóp procentowych Banku Centralnego (Engle, Rangel [2008]) naliza dyskryminacyjna zależności Bayes [1763], Fisher [1936], Hart [1968], Hand [1982], Vapnik [1998] Prognozowanie upadłości przedsiębiorstw (ltman [1968], Hadasik [1998], Hołda [2001]), badanie rentowności spółek giełdowych (Gierałtowska [2001]), badanie kondycji finansowej banków (Witkowska, Witkowski [2006]) Sieci neuronowe zależności McCulloch, Pitts [1943], Robbins, Monro [1951], Rosenblatt [1958], naliza rynku nieruchomości (Lula [1999]), konkurencyjności i innowacyjności regionów (Korol, Lis [2004]), ocena ryzyka kredytu 4

Tadeusiewicz [1993] konsumpcyjnego (Staniec, Szmit [2004]), badania spłacalności kredytów (Chrzanowska, Kompa, Witkowska [2005]), ocena ryzyka kredytowego klientów w telekomunikacji (Ząbkowski [2008]) Drzewa klasyfikacyjne zależności Breiman i in. [1984], Breiman [1994], Freund, Schapire [1996], Ho [1998], Breiman [1998], Hall [2000], Breiman [2001], Gatnar [2001] Identyfikacjia determinant jakości usług świadczonych przez przedsiębiorców (Holmes [1980]), badanie czynników warunkujących lojalność klientów na rynku motoryzacyjnym (Green, Tull, lbaum [1988]), poszukiwanie charakterystyki klientów o podobnych postawach (Magidson [1994]), wyodrębnienie potencjalnych segmentów klientów na podstawie wydatków na kulturę, rozrywkę sport i turystykę (Kurzydłowski [2000]), analiza zdolności kredytowej kredytobiorców (Staniec [2005]), analiza wymagań klientów na rynku nieruchomości (Mazur, Witkowska [2007]) Modele równań strukturalnych zależności Wright [1921], Haavelmo [1943], Simon [1953], Bollen [1989] Modelowanie indeksu wolności gospodarczej EFW (Zacny [2004]), badanie konkurencyjności i innowacyjności regionów (Korol, Lis [2004]) naliza skupień Sneath [1957], Ward [1963], MacQueen [1967], nderberg [1973], ldenderfer, Blashfield 1984], Gordon [1999], Everitt i in. [2001] Wspomaganie prac nad podziałem administracyjnym kraju (Gatnar, Wywiał [1998]), klasyfikacja funduszy inwestycyjnych (Salamaga [2008]). Szeroki przegląd zastosowań analizy skupień znajduje się w pracy Walesiak [1993] naliza skupień oparta na modelu McLachlan, Basford [1988], Banfield, Raftery [1993] Zakres zastosowań analogiczny do tradycyjnych metod analizy skupień naliza wariancji Fisher [1925], Hartley [1940], Speed [1987] Często stosowana jako wstępna technika przed innymi metodami analizy danych Samoorganizujące się mapy Kohonen [1982], Kohonen [2001], DeBoeck, Kohonen [2001] Klasyfikacja województw pod względem rozwoju infrastruktury i jakości życia (Siedlecki, Tarczyński [1998]), prognozowanie długookresowych stóp procentowych (De Bodt, Gregoire, Cottrel [2001]), wybór funduszy inwestycyjnych (DeBoeck [2001]), analiza potencjalnych bankructw małych i średnich przedsiębiorstw (Kiviluoto, Bergiud [2001]), analiza porównawcza banków (Szumski, Jarowoj [2001]), badanie innowacyjności i absorpcji szkoleń w przedsiębiorstwach (Jurkiewicz, Najman [2004] ) Skalowanie wielowymiarowe Young, Householder [1938], Torgerson [1952], Coombs [1950], Identyfikacja kryteriów, jakimi kierują się konsumenci przy wyborze określonych domów handlowych (Singson [1975]), określenie wpływu kampanii reklamowej na 5

Green [1952], Hurley, Cattell [1962], Kruskal [1964a], Kruskal [1964b], Sammon [1969], Cox, Cox [2001] zmianę pozycji na rynku papierosów (Smith, Lusch [1976]), wybór hasła reklamowego i zbadanie jego perswazyjnej efektywności (Lautman, Percy, Kordish [1978]), segmentacja rynku i pozycjonowanie produktów na przykładzie brytyjskiego rynku papierosów (Hooley [1980]), poszukiwanie kierunku zmiany pozycji na rynku (dams, Van nken [1995]), badania rozwoju społecznogospodarczego (Malina, Wanat 2000]) naliza czynnikowa Spearman [1904], Thurstone [1931], Kaiser [1970], Harman [1975], Kim, Mueller [1978] Pozycjonowanie kawy na rynku (Sztemberg [1999]), określanie pozycji nowych produktów (filmów) na rynku (Neelamegham, Jain [1999]) naliza głównych składowych Pearson [1901], Hotelling [1993], Jollife [2002] Zakres zastosowań analogiczny do analizy czynnikowej naliza korespondencji Burt [1950], Benzérci [1973], Greenacre [1984], Hoffman, Franke [1986] naliza nawyków palaczy papierosów w przedsiębiorstwie (Greenacre [1984], s. 55), badanie determinant wyboru linii lotniczych przez klientów (Erdener, Kucukemiroglu, Kara [1994]), wybór kanałów telewizyjnych pod kątem docelowych klientów dla reklamodawców (ssael, Poltrack [1999]), badanie związku między miejscem zakupów a wzorcem zakupów produktów (Yavas [2001]), wykorzystanie internetu w promocji i sprzedaży produktów (Kwak, Zinkhan, Domonick [2002]), badanie rynków zagranicznych dla produktu (dresów) (Sobczak [2008]), badanie rynku ubezpieczeń III filara (Batóg, Mojsiewicz, Wawrzyniak [2009]) Conjoint analysis Luce, Tukey [1964], Green, Wind [1973, 1975], Green [1984], Louviere [1988] Wprowadzanie nowego produktu na rynek (opona Goodyear) (Walesiak [1996], s. 90, (zaparzacze do kawy) (Churchil [1995], s. 505), oferta szkoleniowa szkoły policealnej (Dziechciarz, Walesiak [1996]), badanie preferencji nabywców nieruchomości (Bartłomowicz [2003]), ocena oferty ubezpieczeniowej (Tarka, Żuraw [2008]) Porządkowanie liniowe Hellwig [1968], Walesiak [1993] naliza standardów życia w 49 województwach Polski (Siedlecka, Siedlecki [1994], Malina, Zeliaś [1997]), ocena kapitału intelektualnego w przedsiębiorstwie (Staniec [2007]), ocena rynku nieruchomości według województw (Foryś [2008]) 6

Termin statystyczna analiza wielowymiarowa odnosi się do grupy metod statystycznych, za pomocą których jednoczesnej analizie poddane są pomiary na przynajmniej dwóch zmiennych opisujących każdy obiekt badania. Do podstawowych pojęć statystycznej analizy wielowymiarowej zalicza się pojęcie obiektu i zmiennej. Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiektem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zdarzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y, marka samochodu S, pacjent P, gmina G, przedsiębiorstwo F, rzeka R, rynek testowy T, hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I. Zbiór obiektów badania będzie oznaczany przez. n i 1 n 1,, Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisującą zbiorowość obiektów. W ujęciu formalnym zmienna M j to odwzorowanie (por. Borys [1984], s. 87): M j : Q ( j 1,,m ), (2.1) gdzie: Q zbiór obrazów (liczb rzeczywistych, kategorii), m liczba zmiennych. Z uwagi na to, że metody statystycznej analizy wielowymiarowej zwykle wymagają, aby realizacje zmiennych były liczbami rzeczywistymi zachodzi potrzeba kodowania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (2.1) zbiór obrazów jest zbiorem kategorii, to należy go przekodować na zbiór liczb rzeczywistych. Można wykorzystać następujące sposoby kodowania zmiennych: a) jeśli dana zmienna ma tylko dwie kategorie można ją zamienić na tzw. zmienną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość 1, a drugiemu wartość 0 (lub 1). Np. dla zmiennej płeć kodowanie będzie następujące: kobieta 1, mężczyzna 0 lub 1 ; b) jeśli zmienna ma więcej niż dwie kategorie, to stosujemy sposób zamiany, polegający na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynkowych). Obowiązuje tutaj zasada, według której liczba wprowadzonych zmiennych sztucznych musi być mniejsza o jeden od liczby poziomów (kategorii) danej zmiennej. Załóżmy, że dla zmiennej wykształcenie występują trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie zawodowe lub ogólne. Należy w tym przypadku wprowadzić dwie zmienne sztuczne zdefiniowane następująco: 7

Wyksztacen ie M j M j 1 podstawowe 0 0 zasadnicze zawodowe średnie zawodowelub ogólne 0 1 1 0 lub M j M j 1 1 1 c) poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma tutaj znaczenia czy kategorie można uporządkować według stopnia intensywności oddziaływania (zmienna porządkowa) czy też nie można uporządkować (zmienna nominalna). Np. dla zmiennej porządkowej organizacja pracy obejmującej kategorie bardzo bobra, dobra, słaba, zła można zastosować kodowanie: zła 1 słaba 2 dobra 3 bardzo dobra 4 Znajomość w analizie statystycznej zbioru obiektów i zmiennych pozwala zapisać macierz danych, w której dowolny element oznacza się przez x ij ( 0 1 i 1,,n ; 1 0 j 1,,m ). Jest to obserwacja j-tej zmiennej w i-tym obiekcie. Wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora (por. Jajuga [1993], s. 21): x i x, x 2,, x i1 i T im. (2.2) Jeśli do dwóch wymiarów (obiekty, zmienne) wprowadzi się wymiar czasu, to otrzymuje się tzw. kostkę danych. Pojęcia tego używają w swoich pracach m.in. Žukowska oraz Mučnik [1976], s. 15 i Jajuga [1987], s. 14-16; [1993], s. 21-23. Dowolną liczbę w kostce danych oznacza się przez x. Jest to wartość j-tej zmiennej w i-tym obiekcie w i jt okresie t ( i 1,,n ; j 1,,m ; t 1,,T ). W celu uproszczenia zapisu do wszystkich wzorów w pracy będzie stosowana zasada, według której indeks pasywny (stały) będzie pomijany. Trójwymiarowe ujęcie w postaci kostki danych pozwala stosować w badaniach następujące schematy badawcze: a) ujęcie całościowe, w którym wykorzystuje się całą kostkę danych analizowany jest tutaj zbiór n obiektów w T okresach ze względu na m zmiennych; b) ujęcie cząstkowe kostka ma trzy wymiary, więc możliwe są do uzyskania trzy różne jej przekroje: przekrój czas zmienna, w którym jeden z obiektów jest analizowany w T okresach ze względu na m zmiennych, 8

przekrój obiekt czas, w którym n obiektów jest analizowanych w T okresach ze względu na jedną zmienną, przekrój obiekt zmienna, w którym n obiektów jest analizowanych ze względu na m zmiennych w jednym okresie. W dalszej części pracy będą wykorzystywane dwa ujęcia: całościowe oraz cząstkowe w przekroju czas zmienna i obiekt zmienna z koncepcji kostki danych. Ujęcie cząstkowe w przekroju obiekt czas nie będzie rozpatrywane, ponieważ jest to zagadnienie analizy jednowymiarowej. 2.2. Typy skal pomiarowych i ich charakterystyka W klasycznym ujęciu przez pomiar rozumie się przyporządkowanie liczb obiektom zgodnie z określonymi regułami w taki sposób, aby liczby odzwierciedlały relacje zachodzące między tymi obiektami (por. np. Pawłowski [1969], s. 54; Choynowski [1971], s. 17). Podstawą teorii pomiaru jest pojęcie skali. DEFINICJ 1 (por. dams, Fagot i Robinson [1965], s. 101-102; Walesiak [1990], s. 37). Taką uporządkowaną czwórkę U ; G; H; F a) to niepusty zbiór obiektów, H zbiór liczb rzeczywistych, G klasa funkcji odwzorowujących w H, F klasa funkcji odwzorowujących H w H, b) dla wszystkich g G i f F, f g G,, że c) F zawiera przekształcenie H na H, a ponadto dla każdego f, f F k l złożenie f k f F, l nazywa się skalą pomiaru. W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone przez Stevensa [1959]. Definiując w odniesieniu do skali ilorazowej dopuszczalne przekształcenie, Stevens nie określił, do którego zbioru należy x w funkcji (2.6), tzn. czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodatnich, czy rzeczywistych nieujemnych. Dopiero definicja damsa, Fagota i Robinsona usunęła tę usterkę. DEFINICJ 2 (por. dams, Fagot i Robinson [1965] s. 103; Walesiak [1991], s. 13-14). U ; G; H; F jest skalą nominalną wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że f funkcja wzajemnie jednoznaczna. (2.3) 9

DEFINICJ 3 (por. dams, Fagot i Robinson [1965], s. 103; Walesiak [1991], s. 14). U ; G; H; F jest skalą porządkową wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że f funkcja ściśle monotonicznie rosnąca. (2.4) DEFINICJ 4 (por. dams, Fagot i Robinson [1965], s. 103; Walesiak [1990], s. 37). U ; G; H; F jest skalą interwałową (przedziałową) wtedy i tylko wtedy, gdy H jest zbiorem wszystkich liczb rzeczywistych R i F jest zbiorem funkcji f takich, że dla dodatniego b f ( x) bx a, f ( x) R (2.5) dla wszystkich x R. DEFINICJ 5 (por. dams, Fagot i Robinson [1965], s. 103; Walesiak [1990], s. 38). U ; G; H; F zbiorem liczb rzeczywistych dodatnich dodatniego b dla wszystkich x R. jest skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H jest R f ( x) bx, f ( x) R i F jest zbiorem funkcji f takich, że dla (2.6) Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną i porządkową do niemetrycznych. Z przytoczonych definicji 2-5 wynika, że z typem skali wiąże się grupa przekształceń, ze względu na które skala zachowuje swe własności. Dopuszczalnymi przekształceniami są więc te, które nie naruszają zasobu informacji zawartej dla mierzonej zmiennej. Skala mocniejsza od skali U 1 wtedy i tylko wtedy, gdy jej dopuszczalne przekształcenie jest zdegenerowanym przypadkiem dopuszczalnego przekształcenia skali U 1 (por. Walenta [1971], s. 52). Podstawowe własności skal pomiaru zawiera tab. 2.1. U 2 jest 10

Tabela 2.1. Podstawowe własności skal pomiaru Dozwolone przekształcenia Typ skali matematyczne Nominalna z f (x), dowolne przekształcenie wzajemnie jednoznaczne Porządkowa Przedziałowa Ilorazowa z f (x) f (x) f (x), dowolna ściśle monotonicznie rosnąca funkcja ( b 0) z R z bx a, dla wszystkich x zawartych w R, wartość zerowa na tej skali jest zwykle przyjmowana arbitralnie lub na podstawie konwencji* z bx ( b 0), R z R dla wszystkich x Dopuszczalne relacje równości ( ), x x B różności ( x x ) powyższe oraz większości ( mniejszości ( B x x B x x B powyższe oraz równości różnic i przedziałów ( x x B x C x D ) powyższe oraz równości ilorazów ( x x B x x C D ) i ) Dopuszczalne operacje arytmetyczne zliczanie zdarzeń (liczba relacji równości, różności) zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości) powyższe oraz dodawanie i odejmowanie powyższe oraz mnożenie i dzielenie zawartych w, naturalnym początkiem skali ilorazowej jest wartość zerowa (zero ) lewostronnie ogranicza zakres skali) * Por. ckoff [1969], s. 240. Źródło: opracowanie własne na podstawie prac: Stevens [1959], s. 25 i 27; dams, Fagot i Robinson [1965]; Walesiak [1995], s. 189-191; Walesiak i Bąk [2000], s. 17. Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej (por. np. Steczkowski i Zeliaś [1981], s. 17; [1997], s. 19; Wiśniewski [1986; 1987]; Walesiak [1990], s. 40). Transformacja skal polegająca na ich wzmacnianiu nie jest możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości. W literaturze (por. nderberg [1973], s. 53-69; Pociecha [1986]) podawane są pewne aproksymacyjne metody przekształcania skal słabszych w silniejsze, opierające się na pewnych dodatkowych informacjach. Stosując zaś dozwolone przekształcenie wartości na skali, zachowujemy niezmienność typu skali przyjętej dla danej zmiennej. Inna z reguł teorii pomiaru mówi, że metody ilościowe, które można stosować do wyników pomiaru w skali słabszej, stosuje się również do liczb uzyskanych z mierzenia na poziomie mocniejszym. Wynika to z tego, że skala mocniejsza zawiera w sobie dopuszczalne relacje skali słabszej. Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowalność rozmaitych technik statystyczno-ekonometrycznych. Technikami statystycznymi dopuszczalnymi dla danego typu skali są takie techniki, które dostarczają wyników (w sensie relacji) niezmiennych względem dopuszczalnych przekształceń (por. np. Walenta [1971], s. 61). W artykule Handa [1996] dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi dla nich technikami statystycznymi. Pokazano w nim przykłady, które są źródłem kontrowersji w wypadku ścisłego stosowania reguł pomiaru. 11