Analiza danych Case study Województwa PIESI 2006/2007 Michał Pyda Marek Lewandowski Zajęcia: środa, 9.00

Analiza danych Case study Województwa PIESI 2006/2007 Michał Pyda Marek Lewandowski Zajęcia: środa, 9.00 1

Spis treści: 1 Wprowadzenie... 3 2 Analizowane dane... 5 2.1 Dostępne dane... 5 2.2 Brakujące wartości... 5 2.3 Błędy znalezione w danych... 5 2.4 Zależności w danych... 5 2.5 Przygotowanie danych do analizy... 6 3 Grupowanie algorytmem AHC... 7 3.1 Metoda pojedynczego wiązania... 7 3.2 Metoda pełnego wiązania... 11 3.3 Metoda średnich połączeń... 15 3.4 Podsumowanie grupowania algorytmem AHC... 19 4 Grupowanie algorytmem k-średnich... 20 4.1 Opis algorytmu... 20 4.2 Zastosowanie algorytmu... 20 4.3 Interpretacja wyników algorytmu k-średnich... 22 5 Interpretacja wyników... 22 2

1 Wprowadzenie Celem analizy jest zidentyfikowanie regionów Polski, wykazujących się podobieństwem ze względu na poziom życia ich mieszkańców. Dostępne dane zawierają informacje o przestrzennym zróżnicowaniu warunków życia w Polsce na początku lat 90 dwudziestego wieku i obejmują następujące atrybuty: - lud ludność w tysiącach, - prod produkcja sprzedana w miliardach złotych, - doch dochody budżetów terenowych w miliardach złotych, - ludprzed ludność w wieku przedprodukcyjnym w tysiącach, - ludprod ludność w wieku produkcyjnym w tysiącach, - ludpoprod ludność w wieku poprodukcyjnym w tysiącach, - przyrost przyrost naturalny na 1000 mieszkańców, - sredniewynag średnie wynagrodzenie w tysiącach złotych, - pracujacy pracujący ogółem w tysiącach, - bezrobocie stopa bezrobocia w %, - wodaogol sieć wodociągowa ogółem, - wodamiasto - sieć wodociągowa w miastach, - kanalogol sieć kanalizacyjna ogółem, - kanalmiasto sieć kanalizacyjna w miastach, - mieszkania liczba mieszkań oddanych od użytku na 1000 mieszkańców, - lekarz liczba lekarzy na 10000 mieszkańców, - lozko liczba łóżek w szpitalach ogółem na 10000 mieszkańców, - muzyka liczba teatrów i instytucji muzycznych, - kino liczba kin, - uzytki użytki rolne w % powierzchni ogółem, - naklad nakłady na inwestycje na 1 mieszkanca w miliardach złotych, - nakladsro Nakłady na inwestycje w ochronę środowiska na 1 mieszkanca w miliardach złotych, - student liczba studentów, - naucz liczba nauczycieli akademickich, - ablo liczba absolwentów liceów ogólnokształcących, - absz liczba absolwentów średnich szkół zawodowych, - absuma suma absolwentów, - abww liczba absolwentów szkół wyższych, - emisja - emisja zanieczyszczeń w tysiącach ton. Celem analizy jest pogrupowanie województw Polski w zbiory wykazujące się między sobą największym podobieństwem. Badanie prowadzone będzie pod kątem oceny profilu mieszkańców, poziomu wykształcenia oraz stopnia rozwinięcia infrastruktury, dlatego postanowiono pominąć następujące atrybuty: lekarz, lozko, muzyka, kino, uzytki, nakladsro, emisja. 3

Tak sformułowany problem postanowiono rozwiązać metodami grupowania: metodą aglomeracji hierarchicznej AHC z różnymi miarami odległości między skupieniami oraz metodą k-średnich. Metoda hierarchiczna miała wskazać liczbę skupień wykorzystywanych algorytmie k-średnich. Wykorzystano oprogramowanie Statistica firmy Statsoft, oraz Weka. 4

2 Analizowane dane 2.1 Dostępne dane Udostępnione zostały historyczne dane statystyczne z 49 województw oraz ich agregat w grupie Polska. Agregat ten był sumą wartości, lub odpowiednią średnią (ważoną bądź nieważoną) odpowiednich wartości atrybutów dla poszczególnych województw. 2.2 Brakujące wartości Brakujące dane występowały tylko w ramach jednego atrybutu, który de facto został pominięty (muzyka): w tym przypadku zamieniono wartości - na 0. 2.3 Błędy znalezione w danych Znaleziono znaczący błąd w wartościach atrybutu sredniewynag (przeciętne wynagrodzenie miesięczne w tysiącach złotych). Atrybut ten dla województwa zamojskiego był ok. 10 razy większy niż średnia dla wszystkich województw. Po konsultacjach uznano to za błąd wprowadzania danych i zamieniono wartość 8941 na 894,1. 2.4 Zależności w danych W celu odkrycia prostych, jednowymiarowych zależności pomiędzy atrybutami zbudowano tablicę współczynników korelacji Pearsona. Odkryto szereg bardzo silnych zależności, które postanowiono wykorzystać do redukcji liczby atrybutów. Tablica współczynników korelacji Pearsona dla atrybutów lud, prod, doch, ludprzed, ludprod, ludpoprod, pracujacy, nakład: Lud Prod Doch LudPrzed LudProd LudPoprod Pracujacy Naklad 1,00 0,96 0,96 0,99 1,00 0,97 1,00 0,97 Lud 1,00 0,91 0,95 0,96 0,91 0,95 0,95 Prod 1,00 0,93 0,96 0,97 0,97 0,97 Doch 1,00 0,99 0,94 0,98 0,96 LudPrzed 1,00 0,97 0,99 0,98 LudProd 1,00 0,98 0,95 LudPoprod 1,00 0,97 Pracujacy 1,00 Naklad 5

Bardzo silna korelacja pozwala na pominięcie atrybutów i uwzględnienie w analizie tylko jednego z nich (w tym przypadku lud). Tablica współczynników korelacji Pearsona dla atrybutów wodaogol, wodamiasto, kanalogol, kanalmiasto: WodaOgol WodaMiasto KanalOgol KanalMiasto 1,00 0,92 0,89 0,88 WodaOgol 1,00 0,93 0,94 WodaMiasto 1,00 0,99 KanalOgol 1,00 KanalMiasto Bardzo silna korelacja pozwala na pominięcie atrybutów i uwzględnienie w analizie tylko jednego z nich (w tym przypadku wodaogol). Tablica wspolcznnikow korelacji Pearsona dla atrybutów: student, naucz, ablo, absz, absuma, abww: Student Naucz AbLO AbSZ AbSuma AbWW 1,00 0,99 0,84 0,72 0,78 1,00 Student 1,00 0,83 0,71 0,76 0,99 Naucz 1,00 0,95 0,98 0,83 AbLO 1,00 0,99 0,72 AbSZ 1,00 0,77 AbSuma 1,00 AbWW Bardzo silna korelacja pozwala na pominięcie atrybutów i uwzględnienie w analizie tylko jednego z nich (w tym przypadku student). Lista atrybutów poddanych analizie wygląda więc następująco: - kraj (identyfikator) - lud - przyrost - sredniewynag - bezrobocie - wodaogolnie - mieszkania - student 2.5 Przygotowanie danych do analizy Dane zostały poddane normalizacji (za pomocą algorytmu wbudowanego w oprogramowanie Weka). Niestety, prawdopodobnie na skutek błędu implementacyjnego, jeden z atrybutów (student) nie został znormalizowany. Postanowiono więc poddać go standaryzacji za pomocą algorytmu zaimplementowanego w oprogramowaniu Statistica. 6

3 Grupowanie algorytmem AHC Grupowanie metodą aglomeracyjną przebiega w kilku krokach: początkowo, każdy element znajduje się w osobnym skupieniu. Następnie obniżany jest próg stanowiący o decyzji przypisania obiektów do tego samego skupienia tym samym wiązanych ze sobą jest coraz więcej obiektów, które są agregowane w coraz większe skupienia elementów coraz bardziej różniących się od siebie. Ostatecznie wszystkie obiekty znajdują się w jednym skupieniu. Analiza wykresów sopelkowych pozwala zdecydować, w którym momencie algorytm zaczął łączyć grupy bardzo od siebie odległe (czyli elementy do siebie niepodobne) i w którym momencie należałoby przerwać proces grupowania, uzyskując poprawne wyniki. Algorytm AHC pakietu Statistica pozwala na używanie 7 metod określania odległości: - metoda pojedynczego wiązania (najbliższego sąsiedztwa), - metoda pełnego wiązania (najdalszego sąsiedztwa), - metoda średnich połączeń, - metoda średnich połączeń ważonych, - metoda środków ciężkości, - metoda ważonych środków ciężkości, - metoda Warda. W analizie badano przebieg aglomeracji dla pierwszych trzech metod. 3.1 Metoda pojedynczego wiązania W tej metodzie odległość pomiędzy dwoma skupieniami określana jest jako odległość pomiędzy dwoma najbliższymi obiektami należącymi do dwóch różnych skupień. 7

8 Diagram dla 49 przyp. Pojedyncze wiązanie Odległości euklidesowe Odległość wiąz. 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 KATOWICK WROCLAWS POZNANSK LODZKIE LUBELSKI GDANSKIE SZCZECIN LEGNICKI RZESZOWS TORUNSKI OLSZTYNS BYDGOSKI BIALOSTO OPOLSKIE KIELECKI CZESTOCH ZIELONOG BIELSKIE TARNOBRZ SUWALSKI WALBRZYS TARNOWSK NOWOSADE PLOCKIE JELENIOG KROSNIEN PIOTRKOW SIEDLECK RADOMSKI LESZCZYN SLUPSKIE KONINSKI KALISKIE LOMZYNSK OSTROLEC PRZEMYSK KOSZALIN GORZOWSK PILSKIE ELBLASKI CIECHANO ZAMOJSKI SKIERNIE SIERADZK WLOCLAWS CHELMSKI BIALSKOP KRAKOWSK WARSZAWS

1,4 Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 1,2 1,0 0,8 Odległość 0,6 0,4 0,2 0,0-0,2 0 5 10 15 20 25 30 35 40 45 Etap Wiązania Odległ. 9

Jakość rezultatu uzyskanego w wyniku grupowania z wykorzystaniem odległości single linkage wydaje się być niska. Uzyskano bardzo wiele skupień, które (co wynika z diagramu) są do siebie podobne. Wyniki są niejednoznaczne. Wykres odległości wiązania względem etapów wiązania mógłby zostać zinterpretowany w inny sposób (kolejne dwa wiązania, z uwagi na relatywnie małą odległość, mogą być potraktowane jako łączenia podobnych do siebie skupień): jako punkt przerwania dalszego grupowania można by potraktować odległość 0,7 znacząco zmniejszyłoby to liczbę skupień (do 5 6), tworząc skupienia bardziej oddalone od siebie (mniej podobne). Województwem najbardziej niepodobnym do innych jest katowickie. Uzyskane skupienia (interpretacja z mniejszą liczbą skupień): skupienie 0 katowickie 1 wałbrzyskie, jeleniogórskie, opolskie, płockie, częstochowskie, zielonogórskie, kieleckie, bielskie, tarnowskie, nowosądeckie, krośnieńskie, suwalskie, konińskie, słupskie, ostrołęckie, łomżyńskie, pilskie, elbląskie, koszalińskie, gorzowskie, przemyskie, ciechanowskie, tarnobrzeskie, legnickie, sieradzkie, skierniewickie, piotrkowskie, zamojskie, kaliskie, włocławskie, chełmskie, siedleckie, radomskie, leszczyńskie, bialskopodlaskie 2 gdańskie, lubelskie, łódzkie, wrocławskie, Województwa 10

poznańskie 3 krakowskie, warszawskie 4 szczecińskie 3.2 Metoda pełnego wiązania W tej metodzie odległość pomiędzy dwoma skupieniami określana jest jako odległość pomiędzy dwoma najdalszymi obiektami należącymi do dwóch różnych skupień. 11

12 Diagram dla 49 przyp. Pełne wiązanie Odległości euklidesowe Odległość wiąz. 0 1 2 3 4 5 SZCZECIN RZESZOWS TORUNSKI OLSZTYNS BYDGOSKI BIALOSTO WALBRZYS PLOCKIE JELENIOG OPOLSKIE KIELECKI CZESTOCH ZIELONOG BIELSKIE TARNOWSK NOWOSADE KROSNIEN SUWALSKI KONINSKI SLUPSKIE OSTROLEC LOMZYNSK PILSKIE ELBLASKI KOSZALIN GORZOWSK PRZEMYSK CIECHANO TARNOBRZ LEGNICKI SKIERNIE SIERADZK PIOTRKOW ZAMOJSKI KALISKIE WLOCLAWS CHELMSKI SIEDLECK RADOMSKI LESZCZYN BIALSKOP KATOWICK WROCLAWS POZNANSK LODZKIE LUBELSKI GDANSKIE KRAKOWSK WARSZAWS

6 Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 5 4 Odległość 3 2 1 0-1 0 5 10 15 20 25 30 35 40 45 Etap Wiązania Odległ. 13

Jakość rezultatu uzyskanego w wyniku grupowania z wykorzystaniem odległości "complete linkage jest bardzo wysoka. Wykres odległości wiązania względem etapów wiązania jednoznacznie wskazuje punkt, w którym powinno nastąpić przerwanie grupowania (odległość ok. 1,7). Dokonując przecięcia w tym właśnie miejscu uzyskuje się 5 skupień (z czego 3 bardzo od siebie odległe). Widać, iż odległości łączenia są zdecydowanie większe niż w przypadku metody single linkage drzewo jest zdecydowanie bardziej zrównoważone i nie występuje żaden przypadek bardzo od innych odległego elementu (województwo katowickie różni się najbardziej, lecz nie tak znacząco jak w wyniku grupowania z wykorzystaniem odległości najbliższy sąsiad ). Uzyskane skupienia: skupienie 0 szczecińskie, toruńskie, rzeszowskie, bydgoskie, olsztyńskie, białostockie 1 wałbrzyskie, jeleniogórskie, opolskie, płockie, częstochowskie, zielonogórskie, kieleckie, bielskie, tarnowskie, nowosądeckie, krośnieńskie, suwalskie, konińskie, słupskie, ostrołęckie, łomżyńskie, pilskie, elbląskie, koszalińskie, gorzowskie, przemyskie, ciechanowskie, tarnobrzeskie, legnickie, sieradzkie, skierniewickie, piotrkowskie, zamojskie, kaliskie, włocławskie, chełmskie, siedleckie, radomskie, leszczyńskie, Województwa 14

bialskopodlaskie 2 gdańskie, lubelskie, łódzkie, wrocławskie, poznańskie 3 krakowskie, warszawskie 4 katowickie 3.3 Metoda średnich połączeń W tej metodzie odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. 15

16 Diagram dla 49 przyp. Średnich połączeń Odległości euklidesowe Odległość wiąz. 0,0 0,5 1,0 1,5 2,0 2,5 3,0 SZCZECIN OPOLSKIE KIELECKI CZESTOCH RZESZOWS TORUNSKI OLSZTYNS BYDGOSKI BIALOSTO SUWALSKI LEGNICKI ZIELONOG WALBRZYS PLOCKIE JELENIOG TARNOWSK NOWOSADE KROSNIEN BIELSKIE TARNOBRZ KONINSKI SLUPSKIE LOMZYNSK PILSKIE ELBLASKI OSTROLEC PRZEMYSK KOSZALIN GORZOWSK CIECHANO SKIERNIE SIERADZK PIOTRKOW KALISKIE ZAMOJSKI WLOCLAWS CHELMSKI SIEDLECK RADOMSKI LESZCZYN BIALSKOP KATOWICK WROCLAWS POZNANSK LODZKIE LUBELSKI GDANSKIE KRAKOWSK WARSZAWS

3,0 Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 2,5 2,0 Odległość 1,5 1,0 0,5 0,0-0,5 0 5 10 15 20 25 30 35 40 45 Etap Wiązania Odległ. 17

Rezultat grupowania z zastosowaniem odległości unweighted pair-group average jest, podobnie jak przy metodzie najdalszego sąsiada, czytelny. Punkt odcięcia na wykresie odległości wiązania względem etapów wiązania jest wyraźny i łatwy w interpretacji. Wykres drzewiasty (diagram) wydaje się jednak być mniej zrównoważony. Uzyskano cztery skupienia, bardzo od siebie oddalone. Uzyskane skupienia: skupienie Województwa 0 wałbrzyskie, jeleniogórskie, opolskie, płockie, częstochowskie, zielonogórskie, kieleckie, bielskie, tarnowskie, nowosądeckie, krośnieńskie, suwalskie, konińskie, słupskie, ostrołęckie, łomżyńskie, pilskie, elbląskie, koszalińskie, gorzowskie, przemyskie, ciechanowskie, tarnobrzeskie, legnickie, sieradzkie, skierniewickie, piotrkowskie, zamojskie, kaliskie, włocławskie, chełmskie, siedleckie, radomskie, leszczyńskie, bialskopodlaskie, szczecińskie, toruńskie, rzeszowskie, bydgoskie, olsztyńskie, białostockie 1 gdańskie, lubelskie, łódzkie, wrocławskie,

poznańskie 2 krakowskie, warszawskie 3 katowickie 3.4 Podsumowanie grupowania algorytmem AHC Przeprowadzono trzy serie badań z użyciem hierarchicznego algorytmu aglomeracyjnego każda z inną metodą określania odległości. Jako najlepsze uzyskane grupowanie przyjęto wynik działania algorytmu AHC z metodą określania odległości najdalszy sąsiad ( complete linkage ). W badaniu tym uzyskano 5 skupień. Metoda najbliższego sąsiada ( single linkage ) wskazała na istnienie dużej liczby skupień, relatywnie bardzo do siebie podobnych. Zaproponowana interpretacja, zmniejszająca liczbę skupień, może być jednak, z uwagi na ściśle określony sposób określania punktu przecięcia, traktowana jako nadinterpretacja. Metoda średnich połączeń wygenerowała jedno skupienie mniej, wskazując punkt przecięcia bardzo blisko punktu połączenia dwóch województw (krakowskiego i warszawskiego). Z uwagi na możliwość popełnienia błędu podczas interpretacji wykresów (zbyt duża skala na osi odległości) postanowiono przyjąć liczbę skupień wskazaną przez algorytm stosujący odległość complete linkage. 19

4 Grupowanie algorytmem k-średnich 4.1 Opis algorytmu Algorytm k-średnich jest metodą grupowania wymagającą podania żądanej liczby skupień. Początkowo elementy przypisywane są do skupień w sposób losowy. Następnie, w kolejnych iteracjach algorytmu, elementy przypisywane są do najbliższych skupień i obliczane są nowe środki (elementy centralne) skupień. Warunkiem stopu algorytmu jest brak przemieszczeń elementów pomiędzy skupieniami, lub wystąpienie określonej liczby iteracji. 4.2 Zastosowanie algorytmu W badaniu zastosowano algorytm k-średnich zaimplementowany w oprogramowaniu Weka (SimpleKMeans) z następującymi parametrami początkowymi: - liczba skupień: 5 - liczba iteracji: 9 Uzyskany rezultat: Number of iterations: 9 Within cluster sum of squared errors: 49.611625390492904 skupienie miara kraj lud przyrost sredniewynag bezrobocie wodaogol mieszkania student Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Clustered Instances 0 8 ( 16%) 1 15 ( 31%) 2 14 ( 29%) Mean/Mode: Czestochowskie 0.1407 0.2646 0.2867 0.621 0.1343 0.2778 5543.625 Std Devs: N/A 0.0645 0.1116 0.1063 0.1361 0.0485 0.1236 7589.5401 Mean/Mode: Ciechanowskie 0.0685 0.6234 0.2904 0.7333 0.1212 0.6074 2414.8 Std Devs: N/A 0.0317 0.1161 0.1726 0.1176 0.0699 0.1194 3856.8887 Mean/Mode: Bialskopodlaskie 0.0987 0.3663 0.2551 0.478 0.1104 0.709 5224.5714 Std Devs: N/A 0.0726 0.1315 0.1263 0.129 0.0962 0.1584 8481.5171 Mean/Mode: Bielskie 0.1242 0.6188 0.222 0.3493 0.1228 0.358 1945.1667 Std Devs: N/A 0.057 0.2565 0.1244 0.1335 0.0773 0.109 3059.8464 Mean/Mode: Warszawskie 0.4478 0.1826 0.5364 0.1631 0.3771 0.2346 38154.5 Std Devs: N/A 0.2979 0.1458 0.2431 0.1057 0.3177 0.2104 12092.9802 20

3 6 ( 12%) 4 6 ( 12%) Przypisanie do skupień: Skupienie Województwo 0 białostockie, bydgoskie, konińskie, piotrkowskie, sieradzkie, skierniewickie, tarnobrzeskie, toruńskie, włocławskie, 1 częstochowskie, jeleniogórskie, kaliskie, kieleckie, legnickie, łódzkie, opolskie, płockie, wałbrzyskie, zielonogórskie, 2 bialskopodlaskie, ciechanowskie, elbląskie, gorzowskie, koszalińskie, łomżyńskie, olsztyńskie, ostrołęckie, pilskie, przemyskie, słupskie, suwalskie, 3 gdańskie, katowickie, krakowskie, lubelskie, poznańskie, szczecińskie, warszawskie, wrocławskie, 4 bielskie, chełmskie, krośnieńskie, leszczyńskie, nowosądeckie, radomskie, rzeszowskie, siedleckie, tarnowskie, zamojskie. 21

4.3 Interpretacja wyników algorytmu k-średnich SSE (część niewyjaśniona przez zbudowany model) w ramach jednego skupienia wynosi 49%. Jak się wydaje, jest to rezultat wysoki, jednak najniższy z kilku serii pomiarów dla różnej liczby iteracji algorytmu. Wartości odchyleń standardowych, w porównaniu z wartościami średnimi, są znaczące co wskazuje, że elementy skupień nie są położone bardzo blisko ich elementów centralnych. W porównaniu z algorytmem AHC widać, że algorytm k-średnich nie ma tendencji do budowania skupień jednoelementowych (w przypadku algorytmu aglomeracji hierarchicznej praktycznie zawsze województwo katowickie stanowiło osobne skupienie). 5 Interpretacja wyników Algorytm k-średnich dokonał grupowania zgodnego z intuicją województwa, powszechnie uważane za podobne (pod względem zarówno stopnia rozwinięcia przemysłu jak i szeroko rozumianej jakości życia) znajdowały się w jednym skupieniu. Zastanawiające mogą wydawać się wyniki analizy za pomocą algorytmu AHC województwem najbardziej niepodobnym do innych było katowickie. Należy jednak pamiętać o specyfice danych (a w szczególności o okresie, z którego one pochodzą) na początku lat 90 dwudziestego wieku przemysł wydobywczy na Śląsku korzystał z bogactwa wypracowanego w latach socjalizmu, co można łatwo zauważyć w danych statystycznych: bardzo duża liczba ludności, wysoki przyrost naturalny, znikome bezrobocie i bardzo dobry stan infrastruktury. Znacząca na pewno jest również struktura administracyjna Śląska jest to konglomerat wielu miast, a jak powszechnie wiadomo poziom życia w miastach jest wyższy niż w mniejszych miejscowościach. Można podejrzewać, że gdyby przeprowadzić analogiczną analizę z wykorzystaniem danych z obecnego stulecia, rolę lidera przejęłoby województwo mazowieckie. Struktura zbudowanych skupień wskazuje, że kilkanaście lat temu w Polsce istniało kilka bardzo dobrze rozwiniętych województw (katowickie, warszawskie, krakowskie, poznańskie, wrocławskie, łódzkie, lubelskie) oraz mało od siebie różniąca się reszta regionów (patrz: wyniki algorytmu AHC z metodą średnich połączeń), co obrazuje przysłowiowy podział na Polskę A i Polskę B. Ciekawe więc byłoby przeprowadzenie analizy z wykorzystaniem aktualnych danych. Niektórzy ekonomiści twierdzą, że dzisiejsza Polska dzieli się na Polskę A (Warszawa), Polskę B (dawna Polska A ) i Polskę C (dawna Polska B ). 22