Analiza danych Case study Województwa PIESI 2006/2007 Michał Pyda Marek Lewandowski Zajęcia: środa, 9.00

Podobne dokumenty
ZESTAWIENIA DANYCH SPRAWOZDAWCZOŚCI ŁOWIECKIEJ 2016 ROK

ZESTAWIENIA DANYCH SPRAWOZDAWCZOŚCI ŁOWIECKIEJ 2017 ROK

ZESTAWIENIA DANYCH SPRAWOZDAWCZOŚCI ŁOWIECKIEJ 2018 ROK

ZESTAWIENIA DANYCH SPRAWOZDAWCZOŚCI ŁOWIECKIEJ 2013 ROK

ZESTAWIENIA DANYCH SPRAWOZDAWCZOŚCI ŁOWIECKIEJ 2015 ROK

ZESTAWIENIA DANYCH 2014 ROK

ZESTAWIENIA DANYCH SPRAWOZDAWCZOŚCI ŁOWIECKIEJ 2012 ROK

, , INTERNET: JAK WYPOCZYWALIŚMY LATEM?

GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Katowicach

STOMATOLOGIA ZACHOWAWCZA Z ENDODONCJĄ Prof. dr hab. Janina Stopa

Empiryczna weryfikacja prawa proporcjonalnego efektu

Metody analizy przestrzennego zróżnicowania rynku pracy

, , POWRÓT LECHA WAŁĘSY DO PRACY W STOCZNI WARSZAWA, MARZEC 96

PRZESTRZENNE ZRÓŻNICOWANIE AKTYWNYCH FORM PRZECIWDZIAŁANIA BEZROBOCIU W POLSCE

POSTĘPOWANIE MEDIACYJNE

STATYSTYCZNA ANALIZA PORÓWNAWCZA W BADANIACH ZJAWISK EKONOMICZNO-ROLNICZYCH W WOJEWÓDZTWACH

WOJEWÓDZKI URZĄD STATYSTYCZNY W KATOWICACH DZIAŁALNOŚĆ GOSPODARCZA ZAGRANICZNYCH PRZEDSIĘBIORSTW DROBNEJ WYTWÓRCZOŚCI

Przebieg Prac nad modernizacją sieci T-mobile na terenie Łodzi i okolic

Przebieg Prac nad modernizacją sieci T-Mobile na terenie częstochowy i okolic

URZĄD STATYSTYCZNY W OLSZTYNIE STATYSTYCZNE MONITOROWANIE OBSZARÓW WIEJSKICH

Jednostka podziału terytorialnego kraju

Metoda aglomeracyjna w analizie przestrzennego zróżnicowania bezrobocia w Polsce w latach

Mapa zasięgów lokalnych wydań Gazety Wyborczej

Meldunek kwartalny 3/98

Vus. PRYWATYZACJA PRZEDSIĘBIORSTW PAŃSTWOWYCH W WOJEWÓDZTWIE WROCŁAWSKIM Stan w dniu 31 XII 1994 r. WOJEWÓDZKI URZĄD STATYSTYCZNY we Wrocławiu

STRATEGIA ROZWOJU WOJEWÓDZTWA WIELKOPOLSKIEGO DO 2020 ROKU

Agroekologiczne i plonotwórcze działanie wapnowania gleb kwaśnych

Najniższe wydatki bieżące na administrację w przeliczeniu na 1 mieszkańca numer powiat województwo zł

Badania struktury zasobów mieszkaniowych w Polsce na przykładzie. budynków wznoszonych w technologii prefabrykowanej 1

Regionalne efekty procesu prywatyzacji przemysłu w Polsce w latach

SYTUACJA ZWIERZĄT ŁOWNYCH W POLSCE

RELACJE PRODUKCJI PRZEMYSŁOWEJ I ZANIECZYSZCZEŃ ŚRODOWISKA (Próba oceny zmienności w czasie związków przestrzennych w latach )

PRYWATYZACJA PRZEDSIĘBIORSTW PAŃSTWOWYCH W WOJEWÓDZTWIE WROCŁAWSKIM Stan w dniu 31 XII 1996 r.

1. ul. Staszica, Łanowa, Konarskiego, Miodowa, Kołłątaja, Ogrodowa, Żytnia, Zielna, Sikorskiego, Piękna, Krasickiego (poniedziałek po 1 i 15-tym)

1. ul. Staszica, Łanowa, Konarskiego, Miodowa, Kołłątaja, Ogrodowa, Żytnia, Zielna, Sikorskiego, Piękna, Krasickiego (poniedziałek po 1 i 15-tym)

PRYWATYZACJA PRZEDSIĘBIORSTW PAŃSTWOWYCH W WOJEWÓDZTWIE WROCŁAWSKIM Stan w dniu 31 XII 1995 r.

Przebieg prac nad modernizacją sieci T-Mobile na terenie Trójmiasta

Terytorialne zróżnicowanie funkcjonowania wydziałów karnych sądów rejonowych

Statystycznie rzecz biorąc patenty i egzaminy żeglarskie

WYKAZ KLUBÓW SPORTOWYCH AP POSIADAJĄCYCH LICENCJĘ KLUBU SPORTOWEGO NA ROK Modelarstwo lotnicze i kosmiczne.

Cechy diagnostyczne i metody analizy

OCENA SPÓJNOŚCI TERYTORIALNEJ POD WZGLĘDEM SPOŁECZNYM I GOSPODARCZYM PODREGIONÓW POLSKI

Techniki grupowania danych w środowisku Matlab

Rola Ministerstwa Sprawiedliwości w procesie upowszechniania instytucji mediacji w Polsce

REGIONALNA POLSKA. Instytut Nauk Ekonomicznych Polskiej Akademii Nauk Politechnika Warszawska Warszawa 2013

Gazeta Co Jest Grane piątkowy dodatek Gazety Wyborczej

PSZCZELNICZE ZESZYTY NAUKOWE OCENA SEZONÓW PSZCZELARSKICH W LATACH NA PODSTAWIE WAGOWEJ KONTROLI POZYTKU. Oddział Pszczelnictwa ISK

Hierarchiczna analiza skupień

LUBELSKIE Podregion bialski Bialski Parczewski Radzyński Włodawski m. Biała Podlaska Podregion chełmsko-zamojski Chełmski Hrubieszowski Krasnostawski

Załącznik nr 5 lista sądów dla których ma zostać wykonana usługa migrację i przyłączenia

4. Przeprowadzić analizę regresji gęstości gotowego wyrobu (Y ) od ilości wody w mieszaninie produktu (X 1 ), ilości przerobionego surowca w mieszanin

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

z dnia 9 grudnia 1994 r.

Załącznik nr 1 do umowy nr z dnia. a. 16 materiałów informacyjnych w 16 różnych tytułach prasy lokalnej, regionalnej

Praca badawcza pt. Raport końcowy

Poznań, 14 grudnia Case Study 2 Analiza skupień

ZASTOSOWANIE PRZESTRZENNEGO TAKSONOMICZNEGO MIERNIKA ROZWOJU (ptmr) W ANALIZIE RYNKU PRACY W POLSCE

SYTUACJA ZWIERZĄT ŁOWNYCH W POLSCE

ANNUARIUM STATISTICUM ECCLESIAE IN POLONIA AD 2015

Bezrobocie w Polsce - wielkość i struktura

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

PRÓBA OKREŚLENIA SYSTEMÓW ROLNICZEGO UŻYTKOWANIA ZIEMI ORAZ POZIOMU ICH INTENSYWNOŚCI W POLSCE

URZĄD STATYSTYCZNY W WARSZAWIE ul. 1 Sierpnia 21, Warszawa PRODUKT KRAJOWY BRUTTO W WOJEWÓDZTWIE MAZOWIECKIM W LATACH

STATYSTYKA I DOŚWIADCZALNICTWO

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

ZRÓŻNICOWANIE REGIONALNE WYNIKÓW WYBORÓW PARLAMENTARNYCH W POLSCE Z DNIA 19 WRZEŚNIA 1993 ROKU

ISS. Imigracja do Polski w świetle urzędowych statystyk. Seria: PRACE MIGRACYJNE, nr 5. Katarzyna Głąbicka, Ewa Kępińska, Piotr Koryś, Barbara Sakson

Oferta dzienników regionalnych. Biuro Reklamy Mediów Regionalnych

Regiony polskie w procesach integracyjnych

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Z BADAŃ NAD PARAFIAMI KATOLICKIMI W POLSCE

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wykorzystanie analizy skupień w ocenie zróżnicowania zagrożenia ubóstwem w podregionach Polski 1

KRAJOWY REJESTR SĄDOWY. Stan na dzień godz. 03:41:25 Numer KRS:

Czym jest analiza skupień?

ZRÓŻNICOWANIE POTENCJAŁU EKONOMICZNEGO I PROBLEMÓW SPOŁECZNYCH W PODREGIONACH POLSKI

cena szkolenia: teoretyczne zł, praktyczne 41h x 540 zł + 5h x 280 zł (kabina treningowa)

ATRAKCYJNOŚĆ INWESTYCYJNA WOJEWÓDZTW I PODREGIONÓW POLSKI

XX Ogólnopolska Olimpiada Języka Angielskiego Wyższych Uczelni Technicznych. Lista osób zakwalifikowanych do II etapu

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

STRUKTURA POZIOMU ZYCIA W SYSTEMIE REGIONALNYM POLSKI

Sytuacja młodych na rynku pracy

Institute of Economic Research Working Papers. No. 10/2014. Taksonomiczny miernik rozwoju (TMR) z uwzględnieniem zależności przestrzennych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

CLUSTERING. Metody grupowania danych

MAZOWIECKI RYNEK PRACY IV KWARTAŁ 2014 IV KWARTAŁ 2014 NAJWAŻNIEJSZE INFORMACJE

1. Udział dochodów z działalności rolniczej w dochodach gospodarstw domowych z użytkownikiem gospodarstwa rolnego w 2002 r.

INSTYTUT GEOGRAFII I PRZESTRZENNEGO ZAGOSPODAROWANIA

STRUKTURALNE ASPEKTY ALOKACJI USŁUG PRODUKCYJNYCH W ROLNICTWIE POLSKIM

Atlas jakości życia powiatów dolnośląskich metodologia i wyniki. Zespół Badawczy Przedsiębiorczości i Zarządzania Wyższa Szkoła Bankowa we Wrocławiu

STRUKTURA PRZESTRZENNA I KLASYFIKACJA FUNKCJONALNA OBSZARÓW WIEJSKICH POLSKI

RAPORT z diagnozy umiejętności matematycznych

Rejestr Zastawów. Opr. Anna Sierzputowska

Tabela 1.1 Statystyczny wizerunek Szczecina na tle innych dużych miast Polski, województwa zachodniopomorskiego i kraju Lp. 1. Liczba ludności (tys.)

Wyrażone w publikacji opinie są poglądami jej autora. Treści prezentowane w niniejszej publikacji nie są oficjalnym stanowiskiem Ministerstwa

Elementy statystyki wielowymiarowej

TENDENCJE SPOŻYCIA NAPOJÓW ALKOHOLOWYCH W POLSCE

W A R S Z A W A

Nasz region we współczesnym świecie

Transkrypt:

Analiza danych Case study Województwa PIESI 2006/2007 Michał Pyda Marek Lewandowski Zajęcia: środa, 9.00 1

Spis treści: 1 Wprowadzenie... 3 2 Analizowane dane... 5 2.1 Dostępne dane... 5 2.2 Brakujące wartości... 5 2.3 Błędy znalezione w danych... 5 2.4 Zależności w danych... 5 2.5 Przygotowanie danych do analizy... 6 3 Grupowanie algorytmem AHC... 7 3.1 Metoda pojedynczego wiązania... 7 3.2 Metoda pełnego wiązania... 11 3.3 Metoda średnich połączeń... 15 3.4 Podsumowanie grupowania algorytmem AHC... 19 4 Grupowanie algorytmem k-średnich... 20 4.1 Opis algorytmu... 20 4.2 Zastosowanie algorytmu... 20 4.3 Interpretacja wyników algorytmu k-średnich... 22 5 Interpretacja wyników... 22 2

1 Wprowadzenie Celem analizy jest zidentyfikowanie regionów Polski, wykazujących się podobieństwem ze względu na poziom życia ich mieszkańców. Dostępne dane zawierają informacje o przestrzennym zróżnicowaniu warunków życia w Polsce na początku lat 90 dwudziestego wieku i obejmują następujące atrybuty: - lud ludność w tysiącach, - prod produkcja sprzedana w miliardach złotych, - doch dochody budżetów terenowych w miliardach złotych, - ludprzed ludność w wieku przedprodukcyjnym w tysiącach, - ludprod ludność w wieku produkcyjnym w tysiącach, - ludpoprod ludność w wieku poprodukcyjnym w tysiącach, - przyrost przyrost naturalny na 1000 mieszkańców, - sredniewynag średnie wynagrodzenie w tysiącach złotych, - pracujacy pracujący ogółem w tysiącach, - bezrobocie stopa bezrobocia w %, - wodaogol sieć wodociągowa ogółem, - wodamiasto - sieć wodociągowa w miastach, - kanalogol sieć kanalizacyjna ogółem, - kanalmiasto sieć kanalizacyjna w miastach, - mieszkania liczba mieszkań oddanych od użytku na 1000 mieszkańców, - lekarz liczba lekarzy na 10000 mieszkańców, - lozko liczba łóżek w szpitalach ogółem na 10000 mieszkańców, - muzyka liczba teatrów i instytucji muzycznych, - kino liczba kin, - uzytki użytki rolne w % powierzchni ogółem, - naklad nakłady na inwestycje na 1 mieszkanca w miliardach złotych, - nakladsro Nakłady na inwestycje w ochronę środowiska na 1 mieszkanca w miliardach złotych, - student liczba studentów, - naucz liczba nauczycieli akademickich, - ablo liczba absolwentów liceów ogólnokształcących, - absz liczba absolwentów średnich szkół zawodowych, - absuma suma absolwentów, - abww liczba absolwentów szkół wyższych, - emisja - emisja zanieczyszczeń w tysiącach ton. Celem analizy jest pogrupowanie województw Polski w zbiory wykazujące się między sobą największym podobieństwem. Badanie prowadzone będzie pod kątem oceny profilu mieszkańców, poziomu wykształcenia oraz stopnia rozwinięcia infrastruktury, dlatego postanowiono pominąć następujące atrybuty: lekarz, lozko, muzyka, kino, uzytki, nakladsro, emisja. 3

Tak sformułowany problem postanowiono rozwiązać metodami grupowania: metodą aglomeracji hierarchicznej AHC z różnymi miarami odległości między skupieniami oraz metodą k-średnich. Metoda hierarchiczna miała wskazać liczbę skupień wykorzystywanych algorytmie k-średnich. Wykorzystano oprogramowanie Statistica firmy Statsoft, oraz Weka. 4

2 Analizowane dane 2.1 Dostępne dane Udostępnione zostały historyczne dane statystyczne z 49 województw oraz ich agregat w grupie Polska. Agregat ten był sumą wartości, lub odpowiednią średnią (ważoną bądź nieważoną) odpowiednich wartości atrybutów dla poszczególnych województw. 2.2 Brakujące wartości Brakujące dane występowały tylko w ramach jednego atrybutu, który de facto został pominięty (muzyka): w tym przypadku zamieniono wartości - na 0. 2.3 Błędy znalezione w danych Znaleziono znaczący błąd w wartościach atrybutu sredniewynag (przeciętne wynagrodzenie miesięczne w tysiącach złotych). Atrybut ten dla województwa zamojskiego był ok. 10 razy większy niż średnia dla wszystkich województw. Po konsultacjach uznano to za błąd wprowadzania danych i zamieniono wartość 8941 na 894,1. 2.4 Zależności w danych W celu odkrycia prostych, jednowymiarowych zależności pomiędzy atrybutami zbudowano tablicę współczynników korelacji Pearsona. Odkryto szereg bardzo silnych zależności, które postanowiono wykorzystać do redukcji liczby atrybutów. Tablica współczynników korelacji Pearsona dla atrybutów lud, prod, doch, ludprzed, ludprod, ludpoprod, pracujacy, nakład: Lud Prod Doch LudPrzed LudProd LudPoprod Pracujacy Naklad 1,00 0,96 0,96 0,99 1,00 0,97 1,00 0,97 Lud 1,00 0,91 0,95 0,96 0,91 0,95 0,95 Prod 1,00 0,93 0,96 0,97 0,97 0,97 Doch 1,00 0,99 0,94 0,98 0,96 LudPrzed 1,00 0,97 0,99 0,98 LudProd 1,00 0,98 0,95 LudPoprod 1,00 0,97 Pracujacy 1,00 Naklad 5

Bardzo silna korelacja pozwala na pominięcie atrybutów i uwzględnienie w analizie tylko jednego z nich (w tym przypadku lud). Tablica współczynników korelacji Pearsona dla atrybutów wodaogol, wodamiasto, kanalogol, kanalmiasto: WodaOgol WodaMiasto KanalOgol KanalMiasto 1,00 0,92 0,89 0,88 WodaOgol 1,00 0,93 0,94 WodaMiasto 1,00 0,99 KanalOgol 1,00 KanalMiasto Bardzo silna korelacja pozwala na pominięcie atrybutów i uwzględnienie w analizie tylko jednego z nich (w tym przypadku wodaogol). Tablica wspolcznnikow korelacji Pearsona dla atrybutów: student, naucz, ablo, absz, absuma, abww: Student Naucz AbLO AbSZ AbSuma AbWW 1,00 0,99 0,84 0,72 0,78 1,00 Student 1,00 0,83 0,71 0,76 0,99 Naucz 1,00 0,95 0,98 0,83 AbLO 1,00 0,99 0,72 AbSZ 1,00 0,77 AbSuma 1,00 AbWW Bardzo silna korelacja pozwala na pominięcie atrybutów i uwzględnienie w analizie tylko jednego z nich (w tym przypadku student). Lista atrybutów poddanych analizie wygląda więc następująco: - kraj (identyfikator) - lud - przyrost - sredniewynag - bezrobocie - wodaogolnie - mieszkania - student 2.5 Przygotowanie danych do analizy Dane zostały poddane normalizacji (za pomocą algorytmu wbudowanego w oprogramowanie Weka). Niestety, prawdopodobnie na skutek błędu implementacyjnego, jeden z atrybutów (student) nie został znormalizowany. Postanowiono więc poddać go standaryzacji za pomocą algorytmu zaimplementowanego w oprogramowaniu Statistica. 6

3 Grupowanie algorytmem AHC Grupowanie metodą aglomeracyjną przebiega w kilku krokach: początkowo, każdy element znajduje się w osobnym skupieniu. Następnie obniżany jest próg stanowiący o decyzji przypisania obiektów do tego samego skupienia tym samym wiązanych ze sobą jest coraz więcej obiektów, które są agregowane w coraz większe skupienia elementów coraz bardziej różniących się od siebie. Ostatecznie wszystkie obiekty znajdują się w jednym skupieniu. Analiza wykresów sopelkowych pozwala zdecydować, w którym momencie algorytm zaczął łączyć grupy bardzo od siebie odległe (czyli elementy do siebie niepodobne) i w którym momencie należałoby przerwać proces grupowania, uzyskując poprawne wyniki. Algorytm AHC pakietu Statistica pozwala na używanie 7 metod określania odległości: - metoda pojedynczego wiązania (najbliższego sąsiedztwa), - metoda pełnego wiązania (najdalszego sąsiedztwa), - metoda średnich połączeń, - metoda średnich połączeń ważonych, - metoda środków ciężkości, - metoda ważonych środków ciężkości, - metoda Warda. W analizie badano przebieg aglomeracji dla pierwszych trzech metod. 3.1 Metoda pojedynczego wiązania W tej metodzie odległość pomiędzy dwoma skupieniami określana jest jako odległość pomiędzy dwoma najbliższymi obiektami należącymi do dwóch różnych skupień. 7

8 Diagram dla 49 przyp. Pojedyncze wiązanie Odległości euklidesowe Odległość wiąz. 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 KATOWICK WROCLAWS POZNANSK LODZKIE LUBELSKI GDANSKIE SZCZECIN LEGNICKI RZESZOWS TORUNSKI OLSZTYNS BYDGOSKI BIALOSTO OPOLSKIE KIELECKI CZESTOCH ZIELONOG BIELSKIE TARNOBRZ SUWALSKI WALBRZYS TARNOWSK NOWOSADE PLOCKIE JELENIOG KROSNIEN PIOTRKOW SIEDLECK RADOMSKI LESZCZYN SLUPSKIE KONINSKI KALISKIE LOMZYNSK OSTROLEC PRZEMYSK KOSZALIN GORZOWSK PILSKIE ELBLASKI CIECHANO ZAMOJSKI SKIERNIE SIERADZK WLOCLAWS CHELMSKI BIALSKOP KRAKOWSK WARSZAWS

1,4 Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 1,2 1,0 0,8 Odległość 0,6 0,4 0,2 0,0-0,2 0 5 10 15 20 25 30 35 40 45 Etap Wiązania Odległ. 9

Jakość rezultatu uzyskanego w wyniku grupowania z wykorzystaniem odległości single linkage wydaje się być niska. Uzyskano bardzo wiele skupień, które (co wynika z diagramu) są do siebie podobne. Wyniki są niejednoznaczne. Wykres odległości wiązania względem etapów wiązania mógłby zostać zinterpretowany w inny sposób (kolejne dwa wiązania, z uwagi na relatywnie małą odległość, mogą być potraktowane jako łączenia podobnych do siebie skupień): jako punkt przerwania dalszego grupowania można by potraktować odległość 0,7 znacząco zmniejszyłoby to liczbę skupień (do 5 6), tworząc skupienia bardziej oddalone od siebie (mniej podobne). Województwem najbardziej niepodobnym do innych jest katowickie. Uzyskane skupienia (interpretacja z mniejszą liczbą skupień): skupienie 0 katowickie 1 wałbrzyskie, jeleniogórskie, opolskie, płockie, częstochowskie, zielonogórskie, kieleckie, bielskie, tarnowskie, nowosądeckie, krośnieńskie, suwalskie, konińskie, słupskie, ostrołęckie, łomżyńskie, pilskie, elbląskie, koszalińskie, gorzowskie, przemyskie, ciechanowskie, tarnobrzeskie, legnickie, sieradzkie, skierniewickie, piotrkowskie, zamojskie, kaliskie, włocławskie, chełmskie, siedleckie, radomskie, leszczyńskie, bialskopodlaskie 2 gdańskie, lubelskie, łódzkie, wrocławskie, Województwa 10

poznańskie 3 krakowskie, warszawskie 4 szczecińskie 3.2 Metoda pełnego wiązania W tej metodzie odległość pomiędzy dwoma skupieniami określana jest jako odległość pomiędzy dwoma najdalszymi obiektami należącymi do dwóch różnych skupień. 11

12 Diagram dla 49 przyp. Pełne wiązanie Odległości euklidesowe Odległość wiąz. 0 1 2 3 4 5 SZCZECIN RZESZOWS TORUNSKI OLSZTYNS BYDGOSKI BIALOSTO WALBRZYS PLOCKIE JELENIOG OPOLSKIE KIELECKI CZESTOCH ZIELONOG BIELSKIE TARNOWSK NOWOSADE KROSNIEN SUWALSKI KONINSKI SLUPSKIE OSTROLEC LOMZYNSK PILSKIE ELBLASKI KOSZALIN GORZOWSK PRZEMYSK CIECHANO TARNOBRZ LEGNICKI SKIERNIE SIERADZK PIOTRKOW ZAMOJSKI KALISKIE WLOCLAWS CHELMSKI SIEDLECK RADOMSKI LESZCZYN BIALSKOP KATOWICK WROCLAWS POZNANSK LODZKIE LUBELSKI GDANSKIE KRAKOWSK WARSZAWS

6 Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 5 4 Odległość 3 2 1 0-1 0 5 10 15 20 25 30 35 40 45 Etap Wiązania Odległ. 13

Jakość rezultatu uzyskanego w wyniku grupowania z wykorzystaniem odległości "complete linkage jest bardzo wysoka. Wykres odległości wiązania względem etapów wiązania jednoznacznie wskazuje punkt, w którym powinno nastąpić przerwanie grupowania (odległość ok. 1,7). Dokonując przecięcia w tym właśnie miejscu uzyskuje się 5 skupień (z czego 3 bardzo od siebie odległe). Widać, iż odległości łączenia są zdecydowanie większe niż w przypadku metody single linkage drzewo jest zdecydowanie bardziej zrównoważone i nie występuje żaden przypadek bardzo od innych odległego elementu (województwo katowickie różni się najbardziej, lecz nie tak znacząco jak w wyniku grupowania z wykorzystaniem odległości najbliższy sąsiad ). Uzyskane skupienia: skupienie 0 szczecińskie, toruńskie, rzeszowskie, bydgoskie, olsztyńskie, białostockie 1 wałbrzyskie, jeleniogórskie, opolskie, płockie, częstochowskie, zielonogórskie, kieleckie, bielskie, tarnowskie, nowosądeckie, krośnieńskie, suwalskie, konińskie, słupskie, ostrołęckie, łomżyńskie, pilskie, elbląskie, koszalińskie, gorzowskie, przemyskie, ciechanowskie, tarnobrzeskie, legnickie, sieradzkie, skierniewickie, piotrkowskie, zamojskie, kaliskie, włocławskie, chełmskie, siedleckie, radomskie, leszczyńskie, Województwa 14

bialskopodlaskie 2 gdańskie, lubelskie, łódzkie, wrocławskie, poznańskie 3 krakowskie, warszawskie 4 katowickie 3.3 Metoda średnich połączeń W tej metodzie odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. 15

16 Diagram dla 49 przyp. Średnich połączeń Odległości euklidesowe Odległość wiąz. 0,0 0,5 1,0 1,5 2,0 2,5 3,0 SZCZECIN OPOLSKIE KIELECKI CZESTOCH RZESZOWS TORUNSKI OLSZTYNS BYDGOSKI BIALOSTO SUWALSKI LEGNICKI ZIELONOG WALBRZYS PLOCKIE JELENIOG TARNOWSK NOWOSADE KROSNIEN BIELSKIE TARNOBRZ KONINSKI SLUPSKIE LOMZYNSK PILSKIE ELBLASKI OSTROLEC PRZEMYSK KOSZALIN GORZOWSK CIECHANO SKIERNIE SIERADZK PIOTRKOW KALISKIE ZAMOJSKI WLOCLAWS CHELMSKI SIEDLECK RADOMSKI LESZCZYN BIALSKOP KATOWICK WROCLAWS POZNANSK LODZKIE LUBELSKI GDANSKIE KRAKOWSK WARSZAWS

3,0 Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 2,5 2,0 Odległość 1,5 1,0 0,5 0,0-0,5 0 5 10 15 20 25 30 35 40 45 Etap Wiązania Odległ. 17

Rezultat grupowania z zastosowaniem odległości unweighted pair-group average jest, podobnie jak przy metodzie najdalszego sąsiada, czytelny. Punkt odcięcia na wykresie odległości wiązania względem etapów wiązania jest wyraźny i łatwy w interpretacji. Wykres drzewiasty (diagram) wydaje się jednak być mniej zrównoważony. Uzyskano cztery skupienia, bardzo od siebie oddalone. Uzyskane skupienia: skupienie Województwa 0 wałbrzyskie, jeleniogórskie, opolskie, płockie, częstochowskie, zielonogórskie, kieleckie, bielskie, tarnowskie, nowosądeckie, krośnieńskie, suwalskie, konińskie, słupskie, ostrołęckie, łomżyńskie, pilskie, elbląskie, koszalińskie, gorzowskie, przemyskie, ciechanowskie, tarnobrzeskie, legnickie, sieradzkie, skierniewickie, piotrkowskie, zamojskie, kaliskie, włocławskie, chełmskie, siedleckie, radomskie, leszczyńskie, bialskopodlaskie, szczecińskie, toruńskie, rzeszowskie, bydgoskie, olsztyńskie, białostockie 1 gdańskie, lubelskie, łódzkie, wrocławskie,

poznańskie 2 krakowskie, warszawskie 3 katowickie 3.4 Podsumowanie grupowania algorytmem AHC Przeprowadzono trzy serie badań z użyciem hierarchicznego algorytmu aglomeracyjnego każda z inną metodą określania odległości. Jako najlepsze uzyskane grupowanie przyjęto wynik działania algorytmu AHC z metodą określania odległości najdalszy sąsiad ( complete linkage ). W badaniu tym uzyskano 5 skupień. Metoda najbliższego sąsiada ( single linkage ) wskazała na istnienie dużej liczby skupień, relatywnie bardzo do siebie podobnych. Zaproponowana interpretacja, zmniejszająca liczbę skupień, może być jednak, z uwagi na ściśle określony sposób określania punktu przecięcia, traktowana jako nadinterpretacja. Metoda średnich połączeń wygenerowała jedno skupienie mniej, wskazując punkt przecięcia bardzo blisko punktu połączenia dwóch województw (krakowskiego i warszawskiego). Z uwagi na możliwość popełnienia błędu podczas interpretacji wykresów (zbyt duża skala na osi odległości) postanowiono przyjąć liczbę skupień wskazaną przez algorytm stosujący odległość complete linkage. 19

4 Grupowanie algorytmem k-średnich 4.1 Opis algorytmu Algorytm k-średnich jest metodą grupowania wymagającą podania żądanej liczby skupień. Początkowo elementy przypisywane są do skupień w sposób losowy. Następnie, w kolejnych iteracjach algorytmu, elementy przypisywane są do najbliższych skupień i obliczane są nowe środki (elementy centralne) skupień. Warunkiem stopu algorytmu jest brak przemieszczeń elementów pomiędzy skupieniami, lub wystąpienie określonej liczby iteracji. 4.2 Zastosowanie algorytmu W badaniu zastosowano algorytm k-średnich zaimplementowany w oprogramowaniu Weka (SimpleKMeans) z następującymi parametrami początkowymi: - liczba skupień: 5 - liczba iteracji: 9 Uzyskany rezultat: Number of iterations: 9 Within cluster sum of squared errors: 49.611625390492904 skupienie miara kraj lud przyrost sredniewynag bezrobocie wodaogol mieszkania student Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Clustered Instances 0 8 ( 16%) 1 15 ( 31%) 2 14 ( 29%) Mean/Mode: Czestochowskie 0.1407 0.2646 0.2867 0.621 0.1343 0.2778 5543.625 Std Devs: N/A 0.0645 0.1116 0.1063 0.1361 0.0485 0.1236 7589.5401 Mean/Mode: Ciechanowskie 0.0685 0.6234 0.2904 0.7333 0.1212 0.6074 2414.8 Std Devs: N/A 0.0317 0.1161 0.1726 0.1176 0.0699 0.1194 3856.8887 Mean/Mode: Bialskopodlaskie 0.0987 0.3663 0.2551 0.478 0.1104 0.709 5224.5714 Std Devs: N/A 0.0726 0.1315 0.1263 0.129 0.0962 0.1584 8481.5171 Mean/Mode: Bielskie 0.1242 0.6188 0.222 0.3493 0.1228 0.358 1945.1667 Std Devs: N/A 0.057 0.2565 0.1244 0.1335 0.0773 0.109 3059.8464 Mean/Mode: Warszawskie 0.4478 0.1826 0.5364 0.1631 0.3771 0.2346 38154.5 Std Devs: N/A 0.2979 0.1458 0.2431 0.1057 0.3177 0.2104 12092.9802 20

3 6 ( 12%) 4 6 ( 12%) Przypisanie do skupień: Skupienie Województwo 0 białostockie, bydgoskie, konińskie, piotrkowskie, sieradzkie, skierniewickie, tarnobrzeskie, toruńskie, włocławskie, 1 częstochowskie, jeleniogórskie, kaliskie, kieleckie, legnickie, łódzkie, opolskie, płockie, wałbrzyskie, zielonogórskie, 2 bialskopodlaskie, ciechanowskie, elbląskie, gorzowskie, koszalińskie, łomżyńskie, olsztyńskie, ostrołęckie, pilskie, przemyskie, słupskie, suwalskie, 3 gdańskie, katowickie, krakowskie, lubelskie, poznańskie, szczecińskie, warszawskie, wrocławskie, 4 bielskie, chełmskie, krośnieńskie, leszczyńskie, nowosądeckie, radomskie, rzeszowskie, siedleckie, tarnowskie, zamojskie. 21

4.3 Interpretacja wyników algorytmu k-średnich SSE (część niewyjaśniona przez zbudowany model) w ramach jednego skupienia wynosi 49%. Jak się wydaje, jest to rezultat wysoki, jednak najniższy z kilku serii pomiarów dla różnej liczby iteracji algorytmu. Wartości odchyleń standardowych, w porównaniu z wartościami średnimi, są znaczące co wskazuje, że elementy skupień nie są położone bardzo blisko ich elementów centralnych. W porównaniu z algorytmem AHC widać, że algorytm k-średnich nie ma tendencji do budowania skupień jednoelementowych (w przypadku algorytmu aglomeracji hierarchicznej praktycznie zawsze województwo katowickie stanowiło osobne skupienie). 5 Interpretacja wyników Algorytm k-średnich dokonał grupowania zgodnego z intuicją województwa, powszechnie uważane za podobne (pod względem zarówno stopnia rozwinięcia przemysłu jak i szeroko rozumianej jakości życia) znajdowały się w jednym skupieniu. Zastanawiające mogą wydawać się wyniki analizy za pomocą algorytmu AHC województwem najbardziej niepodobnym do innych było katowickie. Należy jednak pamiętać o specyfice danych (a w szczególności o okresie, z którego one pochodzą) na początku lat 90 dwudziestego wieku przemysł wydobywczy na Śląsku korzystał z bogactwa wypracowanego w latach socjalizmu, co można łatwo zauważyć w danych statystycznych: bardzo duża liczba ludności, wysoki przyrost naturalny, znikome bezrobocie i bardzo dobry stan infrastruktury. Znacząca na pewno jest również struktura administracyjna Śląska jest to konglomerat wielu miast, a jak powszechnie wiadomo poziom życia w miastach jest wyższy niż w mniejszych miejscowościach. Można podejrzewać, że gdyby przeprowadzić analogiczną analizę z wykorzystaniem danych z obecnego stulecia, rolę lidera przejęłoby województwo mazowieckie. Struktura zbudowanych skupień wskazuje, że kilkanaście lat temu w Polsce istniało kilka bardzo dobrze rozwiniętych województw (katowickie, warszawskie, krakowskie, poznańskie, wrocławskie, łódzkie, lubelskie) oraz mało od siebie różniąca się reszta regionów (patrz: wyniki algorytmu AHC z metodą średnich połączeń), co obrazuje przysłowiowy podział na Polskę A i Polskę B. Ciekawe więc byłoby przeprowadzenie analizy z wykorzystaniem aktualnych danych. Niektórzy ekonomiści twierdzą, że dzisiejsza Polska dzieli się na Polskę A (Warszawa), Polskę B (dawna Polska A ) i Polskę C (dawna Polska B ). 22