Ile w ilości jest jakości? Pięćlat inwentaryzacji usług Czyli dlaczego dążymy do 100%



Podobne dokumenty
Transkrypt:

Ile w ilości jest jakości? Pięćlat inwentaryzacji usług Czyli dlaczego dążymy do 100% Departament Strategii i Analiz Rynku Telekomunikacyjnego Zespół Wydziału Analiz Hurtowych KFS 2014-11-18

Agenda Zakres danych Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy Fakty i mity o inwentaryzacji Referencyjne zbiory danych geoadresowych Jakość danych wejściowych Proces kontroli, poprawy i wzbogacania danych Zastosowanie danych

Zakres danych Dane o ZAKOŃCZENIACH SIECI I USŁUGACH w ramach inwentaryzacji pokrycia istniejącąinfrastrukturątelekomunikacyjnąi publicznymi sieciami telekomunikacyjnymi zapewniającymi lub umożliwiającymi zapewnienie szerokopasmowego dostępu do Internetu oraz budynkami umożliwiającymi kolokację Kluczowe dane Adresy i współrzędne geograficzne Oferowane usługi na zakończeniu sieci Maksymalna oferowana przepustowość Liczba klientów z pakietem usług Technologia dostępowa Zakończenia i usługi w 2014 w liczbach Podmioty 2 685 Zakończenia sieci 11 500 000 Usługi - liczba rekordów 8 900 000 Usługi - liczba klientów 15 400 000

Czyli od TXT poprzez XLS i XML i z powrotem do CSV Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy 2010 Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z ) Problemy z przekazywaniem danych: Wykorzystywanie kilku kanałów równolegle i wysyłanie wielokrotnie różnych plików Nietrzymanie standardów nazewnictwa plików Błędna struktura: Błędna struktura plików : zamiany kolumn, wstawianie dodatkowych kolumn, usuwanie wymaganych kolumn, stosowanie różnych rozdzielaczy kolumn niezgodnych ze specyfikacją lub brak rozdziału kolumn, Zmienna liczba kolumn lub ich kolejności dla poszczególnych wierszy. Błędy struktury wewnętrznej zostały poprawione w przypadku ponad 2000 plików

Czyli od TXT poprzez XLS i XML i z powrotem do CSV Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy 2010 Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z ) Nieprawidłowe strony kodowe Stosowanie innych kodowań niż UTF-8. Stosowanie różnych stron kodowych w ramach tego samego pliku. Błędy w konwersji stron kodowych w trakcie przygotowywania danych, w efekcie polskie znaki diakrytyczne były zamieniane na: inne znaki lub litery łacińskie. Łódź = d Nieprawidłowe przypisanie identyfikatorów Teryt Błędne kody TERC Błędne kody SIMC Błędne kody ULIC Wyniki zgodności danych PT z TERYT po czyszczeniu 99,71% dla SIMC 98,21% dla SIMC + ULIC

Czyli od TXT poprzez XLS i XML i z powrotem do CSV Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy 2010 Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z ) Błędy wykryte przez reguły poprawności Brak własności infrastruktury Brak technologii dostępu Brak pakietu usług Brak informacji o przepustowości łącza Nieprawidłowe prędkości Brak liczby klientów w budynku Nieprawdziwe liczby klientów w budynku Doświadczenia przeniesione do SIIS Wprowadzenie obowiązkowych identyfikatorów Teryt TERC dla gmin, SIMC dla miejscowości, ULIC dla ulic, Wprowadzenie wymogu uzupełniania obowiązkowych pól Sprawdzanie zgodności pól słownikowych

Czyli od TXT poprzez XLS i XML i z powrotem do CSV Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy 2010 Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z ) 2011 SIIS 1.0 Problemy z generacjąi przetwarzaniem XML Awaryjne przetwarzanie plików XLS Dane czyszczone w systemie SDQ 2011 SIIS 1.0 Problemy z XML Duże problemy z wydajnością Dane w SIIS wprowadzane manualnie Wiele kanałów dostarczenia danych powoduje niejednoznaczności (różne daty, różne zawartości) Dane czyszczone offline w SDQ systemie do czyszczenia danych

Czyli od TXT poprzez XLS i XML i z powrotem do CSV Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy 2010 Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z ) 2011 SIIS 1.0 Problemy z generacjąi przetwarzaniem XML Awaryjne przetwarzanie plików XLS Dane czyszczone w systemie SDQ 2012 Generator XML Dopuszczenie plików CSV 2012 SIIS 2.0 Czyszczenie danych w UKE Zamiast nazw miejscowości podawane były nazwy miejscowości z placówką pocztową Nadużywanie 99998

Czyli od TXT poprzez XLS i XML i z powrotem do CSV Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy 2010 Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z ) 2011 SIIS 1.0 Problemy z generacjąi przetwarzaniem XML Awaryjne przetwarzanie plików XLS Dane czyszczone w systemie SDQ 2012 Generator XML Dopuszczenie plików CSV 2013 Moduł reguł poprawności Problemy z duplikacją danych Implementacja systemu do czyszczenia danych w UKE DART 2013 SIIS 3.0 Wprowadzenie modułu reguł poprawności danych w trakcie inwentaryzacji powoduje generację dużej liczby ostrzeżeń o błędach Dogrywanie kolejnych wersji plików z danymi w efekcie duplikacja danych w SIIS Dane z poprzedniej inwentaryzacji nieaktualizowane przez przedsiębiorców UKE wdraża system czyszczenia danych pozyskanych w trakcie inwentaryzacji Problemy z danymi referencyjnymi punktów adresowych 1 019 000 GUS NOBC 332 000 467 000 GUGIK 1 179 000 4 201 000 34 000 PESEL 67 000

Czyli od TXT poprzez XLS i XML i z powrotem do CSV Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy 2010 Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z ) 2011 SIIS 1.0 Problemy z generacjąi przetwarzaniem XML Awaryjne przetwarzanie plików XLS Dane czyszczone w systemie SDQ 2012 Generator XML Dopuszczenie plików CSV 2013 Moduł reguł poprawności Problemy z duplikacja danych Implementacja systemu do czyszczenia danych w DART UKE 2014 Nowe rozporządzenie Ograniczenia kanałów komunikacji Informacja podsumowująca Wyraźne efekty reguł poprawności 2014 SIIS 4.0 Ograniczenie kanałów komunikacji wyłącznie do SIIS znacząco niweluje poziom błędów Wprowadzenie informacji podsumowującej Atomowość ładowania danych Reguły poprawności dająefekt w postaci lepszej jakości danych adresowych od PT Nadal problem z wiarygodnościąinformacji od małych PT Nadal zdarzają się duże błędy kluczowym PT Znaczne błędy pomiędzy adresami a współrzędnymi geograficznymi

Fakty i mity o inwentaryzacji Czyli informacja z trzepaka bardziej wiarygodna niż instrukcja i rozporządzenie MIT Można agregować wiele różnych elementów do jednego węzła Można agregować klientów do serwerowni, a stacje bazowe WIFI wskazać jako zakończenia sieci Nie trzeba wykazywać infrastruktury dla sieci ETH i WiFi Nie trzeba wykazywać punktów adresowych w których świadczone są usługi z wykorzystaniem sieci WiFi lub ETH UKE żąda przekazywania danych z dokładnością do lokalu mieszkalnego FAKT Do jednego węzła można agregować elementy sieci aktywnej w jednej wspólnej lokalizacji Klienci i ich usługi musząbyćwykazani na zakończeniach sieci, a więc w konkretnych punktach adresowych Dla sieci ETH zbudowanej na kablach miedzianych gdy w domu klienta jest zainstalowane urządzenie operatora (np. switch) taki budynek musi być wykazany jako zasięg sieci ETH o ile pomiędzy routerem a switchem nie następuje zmiana medium np., z FO na Cu Inwentaryzacji podlegają wszystkie zakończenia sieci niezależnie od technologii dostępowej. W przypadku technologii mobilnej może być to adres korespondencyjny Nigdy nie było takiego oczekiwania. Dane o zakończeniach sieci przekazujemy z dokładnością do punktu adresowego, a więc numeru porządkowego budynku

Czyli jest nieźle choć mogłoby być jeszcze lepiej TERYT (GUS) Jednoznaczny podział administracyjny RP Jednoznaczna identyfikacja miejscowości w Polsce Jednoznaczna identyfikacja ulicy Nazwa miejscowości lub jej części Liczba wystąpień na terenie RP Stara Wieś 437 Podlesie 341 Nowa Wieś 317 Piaski 275 Góra 268 Kolonia 264 Dół 231 Dąbrowa 214 Krotność występowani a nazwy w RP Referencyjne dane o punktach adresowych Liczba miejscowości podstawowych Liczba miejscowości podstawowych i części miejscowości 1 28893 46436 2 3727 6038 3-5 2093 3685 6-10 543 1118 11-20 218 505 21-50 68 245 51-100 3 44 powyżej 100 3 32 SIMC MIEJSCOWOŚĆ ULIC CECHA NAZWA_1 NAZWA_2 0952232 Wieliczka 09569 pl. Kościuszki 0952232 Wieliczka 09578 os. Kościuszki Tadeusza 0952232 Wieliczka 09582 ul. Kościuszki Tadeusza 0957985 Łódź-Górna 18651 pl. Reymonta Władysława Stanisława 0957985 Łódź-Górna 18648 ul. Reymonta Władysława 0957985 Łódź-Górna 18647 park Reymonta im. Władysława 0988595 Sulechów 38274 park Powstańców Wielkopolskich 0988595 Sulechów 43311 rondo Powstańców Wielkopolskich 0988595 Sulechów 17377 ul. Powstańców Wielkopolskich

Czyli jest nieźle choć mogłoby być jeszcze lepiej TERYT (GUS) Jednoznaczny podział administracyjny RP Jednoznaczna identyfikacja miejscowości w Polsce Jednoznaczna identyfikacja ulicy Problemy Problemy z jakością danych Brak efektywnego śledzenia zmian nazw ulic (tylko dodaj usuń dla ulic) Referencyjne dane o punktach adresowych MIEJSCOWOŚ SIMC ULIC Cecha Nazwa_1 Nazwa_2 Ć 0988684 Żary 27440 ul. Baczyńskiego K. K. 0988684 Żary 34364 ul. Baczyńskiego K. 0977700 Gołdap 13085 os. Młodych 0977700 Gołdap 32346 os. Osiedle Młodych ULIC CECHA NAZWA_1 00008 pl. 1000-lecia 39516 pl. Plac 1000-lecia 45207 al. Aleje Jerozolimskie 07487 al. Jerozolimskie 07120 al. Jana Pawła II 35344 al. Aleje Jana Pawła II 37675 al. Aleja Jana Pawła II 33262 ul. Aleja Jana Pawła II SIMC MIEJSCOWOŚĆ ULIC ULICA 0919298 Praga-Północ 30810 al. "Solidarności" 0919298 Praga-Północ 40019 ul. Aleja "Solidarności" 0919298 Praga-Północ 45206 Aleja "Solidarności"

Referencyjne dane o punktach adresowych Czyli jest nieźle choć mogłoby być jeszcze lepiej PESEL (WSW) Lista punktów adresowych dla budynków mieszkalnych wraz z informacjąo wiekowaniu mieszkańców NOBC (GUS) Lista punktów adresowych dla budynków mieszkalnych wraz z informacjąo liczbie lokali mieszkalnych Brak współrzędnych geograficznych LP. Nazwa pola Opis pola 0 ID_Tech_Budynku numer techniczny budynku wspólny dla zbiorów danych ze stanami na dzień 1 WOJ symbol województwa 2 POW symbol powiatu 3 GMI symbol gminy 4 RODZ symbol rodzaju gminy 5 REJON numer rejonu statystycznego 6 OBWOD numer obwodu spisowego w rejonie 7 SYM_MIEJ identyfikator miejscowości 8 NAZWA_MIEJ nazwa miejscowości 9 SYM_UL identyfikator ulicy 10 NAZWA_UL nazwa ulicy w pełnym brzmieniu 11 CECHA określenie ulicy 12 NAZWA_1 częśćnazwy ulicy począwszy od słowa, które decyduje o pozycji nazwy ulicy w układzie alfabetycznym, aż do końca nazwy 13 NAZWA_2 pozostała część nazwy ulicy lub pole puste 14 DOD_A dodatkowa informacja ułatwiająca identyfikację budynku w terenie 15 NR_DOMU numer porządkowy nieruchomości (nr domu) 16 NRB_NIER numer budynku na nieruchomości 17 ID_NRB_NIER 18 NR_BUD_WA pole wypełnione tylko dla budynków na tej samej nieruchomości, jest to ID nieruchomości (z bazy NOBC) to samo dla wszystkich budynków na tej nieruchomości pole wypełnione tylko dla budynków wieloadresowych, jest to ID budynku wieloadresowego (z bazy NOBC) to samo dla wszystkich adresów tego samego budynku 19 RODZ_B rodzaj budynku (1 mieszkalny, 2 niemieszkalny, 3 z obiektem zbiorowego zakwaterowania, 0 obiekt prowizoryczny) 20 L_MIESZK liczba mieszkań znajdujących się pod danym adresem budynku 21 L_MIESZK_ZAM liczba mieszkań zamieszkanych znajdujących się pod danym adresem budynku 22 L_MIESZK_NIEZAM 23 STAN_NA liczba mieszkańniezamieszkanych, znajdujących siępod danym adresem budynku

Referencyjne dane o punktach adresowych i GEO Czyli było bardzo źle, jest źle ale kiedyś będzie lepiej GUGIK TBD GUGIK PRG

Referencyjne dane o punktach adresowych i GEO Czyli jak bardzo jest źle z geokodwaniem adresów i dlaczego GUS NOBC GUGIK PRG % PUNKTÓW % ADRESOWYCH Z NOBC Z NOBC MIEJSCOWOŚĆ SIMC MIEJSC W SYM_UL ROZPIĘTOŚC NAZWA_UL W NR WOJEWÓDZTWO GMINA SIMCPOSIADAJĄCYCH LICZBA LICZBA BEZPOŚREDNI PUNKTÓW DANYCH 0965016 % GUGIK KM OpoleLICZBA PUNKTÓW ODPOWIEDNIK Ulica Budowlanych W ADRESOWYCH PRG W PRG GUGIK GUGIK15 DOPASOWANIA 02 Horodło 0965016 DOLNOŚLĄSKIE Opole OpoleGMIN 0888787 ADRESOWYCH Ulica Major 0% DOPASOWANYCH a 62% 902 ""Hubala"" 16D Z NOBC DO PRG 04 KUJAWSKO-POMORSKIE Konin W NOBC Ulica Kazimierza 0% 82% PRG Kąkolewnica 1064640 864 06 0965016 Kędzierzyn-Koźle LUBELSKIEOpole 0% 90% 9 Wierzyńskiego 08 Świdnik LUBUSKIE 0% Przemyśl -10% 0957146 84 203976 0% 82% 831 1442 10 0965016 Mińsk ŁÓDZKIE Opole Ulica Grudzicka Mazowiecki 0% 88% 33 Pięćmorgi 12 0948667 10% -20% 0087461 Dobrzeń MAŁOPOLSKIE Wielki Konin 18 42895 775 6850 0% 71% 8 Podzamcze 14 0948667 20% MAZOWIECKIE Istebna -30% 0867880 Konin 26 60533 725 0% 72% 15717 8 16 Łódź 0948667 OPOLSKIE Dzierżoniów Konin 0957650 0% 25% 687 30% -40% 31 94722 3320 080 18 Bełchatów PODKARPACKIE Komprachcice 0% 79% 0948667 Konin 0967647 644 43 20 PODLASKIE 40%- Lipowa 50% 51 145538 0% 88% 67669 22 Kamieńsk 0948667 POMORSKIE Konin 0541180 Łubniany 0% 74% 638 45 50% - 60% 156 580917 325685 24 Brodno 0948667 ŚLĄSKIE Kłodzko Konin 0880739 0% 60% 492 45 60% - 70% 281 846951 550490 26 0948667 ŚWIĘTOKRZYSKIE Turawa Konin 0% 67% 45 Sułkowice 0952137 333 28 0948667 70% WARMIŃSKO-MAZURSKIE Dąbrowa -80% Konin 460 1029551 0% 81% 777179 8 30 0948667 80% WIELKOPOLSKIE Nowa -90% Ruda Konin 848 1825125 0% 74% 1557798 8 32 ZACHODNIOPOMORSKIE Garwolin 0% 85% 0948667 90% Konin 20 RAZEM -100% 519 1163496 74% 1088376 0948667 Konin 43

Proces kontroli, poprawy i wzbogacania danych Czyli co robimy aby za ilością szła również jakość Przygotowan ie danych Przedsiębiorca SIIS UKE Systemy PT Generator Wstępna walidacja danych NDDO Walidacja formalna Zgodnośćz rozporządze -niem Raport z ładowania Wstępna walidacja poprawności Reguły poprawności Raport reguł poprawności Proces kontroli, poprawy i wzbogacania danych w UKE Standaryzacja Mapowanie Analiza poprawności Oznaczanie danych niepoprawnych Wzbogacani e Wezwania do PT Wniosek o kontrolę PT Import do bazy raportowej

Moduł Reguł Poprawności Wywołania regułzaraz po załadowaniu plików i na żądanie użytkownika zamiast raz na dobę Poprawa wydajności reguł Eliminacja nadmiarowości raportowania ostrzeżeń Usunięcie niektórych regułpo analizie wyników Dodanie nowych reguł Zgrupowanie podobnych regułdo jednej o ile było to możliwe Ponad 30 regułpoprawności w 4 grupach Wprowadzamy bardziej aktywny model komunikacji w trakcie inwentaryzacji

Jakośćdanych wejściowych Największym problemem jakościowym jest poprawność adresów

Nazwy ulic operatorów pojedynek marszałek kontra noblistka Przykłady oryginalnej pisowni nazw ulic z danych operatorów Al. Marszalka Pilsudzkiego Józefa Piłsudzskiego c. sklodowskiej N:MARIICURIE SKŁODOWSKIEJ al. marszala pilsudskiego Józefa Piłsuskiego Curie Sdkłodowskiej N:MC SKŁODOWSKIEJ al. marszalka pilsudskiego Maeszalka Pilsudskiego Curie Sklodowska N:M-C Skłodowskiej Al.Józefa Pilusdskiego Maraszalka Pilsudskkiego Curie Sklodowskiej Marii Plac N:SKLODOWSKIEJ-CURIE Al.M.J. Pilsudskiego Marsz. Pilsudskiego M C Skłodwskiej N:SKŁODOWSKIEHJ Al.Marsz.Józefa Pilsudskego Marsz J Piłsudzkiego M Skłodowskiej - Curre NN-OSIEDLE M.C.SKŁODOWSKIEJ Al.Marszalka J.Pilsudskiego Marsz Piłsudkiego M.C., Sklodowskiej NN-OSIEDLE SKŁODOWSKIEJ Al.Marszalka Józefa Marszalka Jozefa Marii Curii Sklodowskiej sklodowskiej Pilsudskiego Al.Marszalka Pilsudskiego Marszalka Poilsudskiego Marii Cury Sklodowskiej Sklodowskiej Curie Marii Al.Pilduskiego Marszałka Józefa Piłsudskiego Marii Skladowskiej Curie Składowskiej aleja józefa pilsudskieg Marszałka Piłsudkiego marii sklowskiej curie Skłodowska Aleja Józefa Pilsudzkiego Marszałka Piłsudskiego N:C.SKŁODOWSKIEJ Skłodowskiej Aleja Józefa Piłsudskiego Marszałka Piłsudzkiego N:CURI SKŁODOWSKIEJ Skłodowskiej - Curkie Aleja Marszalka J. Pilsudskiego N:Al. J. PIŁSUDSKIEGO N:CURIE - SKŁODOWSKIEJ Skłodowskiej Cirie Brzeziny Ul. Marsz.J.Pilsudzkiego Bulwary Marszalka Pilsudskieg N:AL.M.PIŁSUDSKIEGO267 N:CURIE SKŁODOWSKA Skłodowskiej-Curie N:MARSZAŁKA PIŁSUDSKIEGO, AL N:M C SKŁODOWSKIEJ Mapowanie ulic z kodami 99998 na TERYT Ul.C.Sklodowskiej Bulwary Marszalka Pilsudskiego N:PIŁSODSKIEGO 22 N:M. SKŁODOWSKIEJ CURIE Ul.Marii Curie-Sklodoeskiej duzy im.j.pilsudskiego N:PIŁSUCKIEGO N:M. SKŁODOWSKIEJ-CURIE Ul.Sklodowdkiej Curie im. marsz. Józefa Piłsudskiego N:PIŁSUDDKIEGO N:MARI SKŁODOWSKIEJ CURIE Ul.Sklodowskiej józefa pilssudskiego N:PIŁSUDKIEGO N:MARII C.SKŁODOWSKIEJ Ul.Sklodowskiej Curie

Proces Jakości Danych wyniki końcowe 26 algorytmów standaryzacji i dopasowania nazw ulic operatorów do nazw ulic słownikowych Kontekstowa poprawa nazw ulic i miejscowości Uwzględnienie zmian nazw ulic z lat poprzednich Zastosowanie algorytmów odległości edycyjnej Levenshteina i Jaro-Winklera wyniki przybliżeńweryfikowane manualnie 17 algorytmów standaryzacji i dopasowania numerów porządkowych Ponad 1500 mapowańwartości inne na wartości słownikowe bazy raportowej Kontekstowe dopasowanie pakietów usług w obrębie technologii 99,84% zgodności na poziomie ulic 90,43% zgodności na poziomie budynków Nazwa po standaryzacji Liczba unikalnych nazw ulic PIŁSUDSKIEGO 437 CURIE-SKŁODOWSKIEJ 415 WYSZYŃSKIEGO 269 WOJSKA POLSKIEGO 216 KOŚCIUSZKI 206 JANA PAWŁA II 188 SIKORSKIEGO 171 DĄBROWSKIEGO 164 GROTA ROWECKIEGO 147 MICKIEWICZA 146 SŁOWACKIEGO 133 SOBIESKIEGO 128 SIENKIEWICZA 126 WESTERPLATTE 117 ARMII KRAJOWEJ 113 HALLERA 112 KONSTYTUCJI 3 MAJA 107 JAGIEŁŁY 107 CHROBREGO 105 KONOPNICKIEJ 99 Nazwa ulicy Dąbkowskiego Dąbkowskiego Nazwa Teryt ul. Jarosława Dąbrowskiego ul. Gen. Mieczysława Dąbkowskiego Jaro- Winkler Levens htein 64 50 38 42

Dane Orange znacząco wpływają na jakość wszystkich danych Zgodnośćpunktów adresowych zakończeńsieci z rejestrami państwowymi

Zgodnośćzakończeńsieci z referencyjnąbaząpunktów adresowych dla województw Zgodnośćpunktów adresowych zakończeńsieci z rejestrami państwowymi TERC Obszar % Przed % Po Polska 79% 90% 02 dolnośląskie 82% 92% 04 kujawsko-pomorskie 83% 92% 06 lubelskie 83% 92% 08 lubuskie 81% 90% 10 łódzkie 80% 90% 12 małopolskie 79% 93% 14 mazowieckie 78% 91% 16 opolskie 72% 85% 18 podkarpackie 67% 92% 20 podlaskie 85% 93% 22 pomorskie 81% 91% 24 śląskie 77% 88% 26 świętokrzyskie 81% 91% 28 warmińsko-mazurskie 81% 93% 30 wielkopolskie 79% 86% 32 zachodniopomorskie 81% 93%

Wypełnienie pól INNE nie niesie niejednokrotnie żadnej użytecznej informacji Mapowanie na wartości z bazy raportowej Wypełnienie pól INNE nie niesie niejednokrotnie żadnej użytecznej informacji Weryfikacja kontekstowa poprawności i mapowanie Medium + technologia Technologia + pakiet usług Technologia + przepustowość.. Kategoria Liczba unikalnych wartości PRZED czyszczeniem Liczba unikalnych wartości PO do raportowania Własność 39 9 Technologia 233 46 Pakiet usług 1128 92 Przepustowość 211 14 Popularne wartości dla pola INNE dla pakietów INNY inne -jakie? INNY Inne usługi INNY 1 INNY 0 PRZYKŁADY BŁĘDÓW MEDIUM TECHNOLOGIA RADIOWE ADSL2+ RADIOWE KABEL TAK -DLA MEDIUM RADIOWE ŚWIATŁOWODOWEGO, MIEDZIANEGO LUB RADIOWEGO WSPÓŁOSIOWE MIEDZIANE EURODOSIS - WIFI WSPÓŁOSIOWE MIEDZIANE WIFI - 2,4 GHZ PAROWE MIEDZIANE ZALEZNIE OD POTRZEB KLIENTA PAROWE MIEDZIANE NIE ŚWIATŁOWODOWE WIFI 5 GHZ ŚWIATŁOWODOWE ŚWIATŁOWODOWA I MIEDZIANA INNE - JAKIE? INNA UZUPEŁNIĆ INNA ETHERNET, WLAN, FO INNA MIEDZANE INNA TECHNOLOGIA WIFI 2,4 GHZ WIFI 5 GHZ WIFI 5 GHZ WIFI 2,4 GHZ WIFI 2,4 GHZ WIFI Standaryzacja i mapowania na wartości raportowe PAKIET ATV DTV_ATV WIFI DZIERŻAWA WŁÓKNA DOSTĘP DO SIECI SZKOLNEJ I INTERNETU INTERNET BEZPRZEWODOWY

Przykłady zidentyfikowanych nieprawidłowości Czyli błędne id miejscowości i nieprawdziwe dane o liczbie klientów na zakończeniu Punkty adresowe Nieprawidłowe przypisanie ulicy z kodem 99998 do miejscowości, w której taka ulica nie istnieje. Ulica taka istnieje w miejscowościach przyległych na terenie tej samej gminy Błędne przypisanie SIMC miejscowości o identycznej nazwie (PNA, ulica, węzeł dostępowy) Kod 99999 w miastach Nr porządkowe = 1,3,5,7,9, Nieprawidłowa liczba klientów w punkcie adresowym Operatorzy Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google. Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google.

Przykłady zidentyfikowanych nieprawidłowości Czyli rozbieżności pomiędzy adresami a podanymi współrzędnymi Geo Światowe metropolie według Geo Punkty skupienia Geo operatorów np. : Punkt G1 8 województw 15 powiatów 18 gmin i miejscowości Punkt G2 863 adresy z 27 miejscowości i 6 powiatów w jednym miejscu Odległości pomiędzy adresami a danymi Geo Województwo Powiat Gmina SIMC Miejscowość Województwo Powiat Gmina SIMC Miejscowość małopolskie Top 10 światowych wadowicki Andrychów metropolii 924023 według Andrychów zachodniopomo danych Geo PT goleniowski oświęcimsk Nowogard 979389 Nowogard rskie śląskie Kęty 045089 Inwałd i wielkopolskie kępiński Kępno Rozpiętość 936871 Kępno w km wg małopolskie Miejscowość nowotarski Nowy krakowski Skawina SIMC Targ 045221 Roczyny suski Osiek 045681 951876 Skawina danych Sułkowice geo PT śląskie Kraków Sucha Kraków 950463 Kraków żywiecki Święciecho 057247 Bulowice podkarpackie leszczyński Beskidzka 377035 Trzebiny Świnoujście bielski Wadowice wa 0979722 924365 Kęty 556 Łaziska podlaskie mikołowski Wieprz 057402 941139 Łaziska Malec Górne Darłowo Czernichów Górne 0949833 057477 Nowa Wieś 521 ropczycko- Sędziszów mazowieckie Kozy 057520 974937 Sędziszów Witkowice Małopolski Szczecin sędziszowski Porąbka Małopolski 0977976 961538 Nowy Targ 517 dolnośląskie sławieński Wilamowice Sławno 075660 750391 Rzyszczewo Głębowice Suwałki Sławno 063414 750497 Tychowo Osiek Szczecin Darłowo 925287 949833 Darłowo Sucha Beskidzka Sławno 0977410 506 Jeden Świnoujście z tajemniczych Sławno 926921 977410 Punktów Sławno Wadowice wodzisławski skupienia Szczecin 075587 977976 Geo Szczecin Gierałtowiczki 863 adresy na Rzyszczewo Tychy Suwałki 0750391 identycznych 075481 977456 Suwałki Gierałtowice 505 Tychowo współrzędnych wołomiński Świnoujście 0750497 075972 979722 Świnoujście Wieprz 501 Wrocław Tychy 944534 Tychy Widok Nowogard stworzony z Wodzisław 0979389 wykorzystaniem 058028 Kozy Google Maps 944853 Wodzisław Śląski 499 Śląski 064371 Bujaków podlega warunkom korzystania 064431z usług CzaniecGoogle. Suwałki Zielonka 0977456 921970 Zielonka 491 Wrocław 051090 Międzybrodzie Bialskie 064661 Kobiernice 986283 Wrocław 064773 Porąbka 076240 Hecznarowice 076279 Pisarzowice Mieroszyno 0170587 491 Kraków 0950463 926996 Wilamowice 487 076523 Zasole Bielańskie

Wykorzystanie danych Do czego służą zebrane dane? 1. Wyznaczenie obszarów dla działania 8.4 2. Analizy dostępności infrastruktury szerokopasmowej 3. Analizy udziałów różnych technologii dostępowych 4. Analizy konkurencyjności 5. Informacja publiczna 6. Analizy świadczenia usług dostępu do Internetu bez pobierania opłat dla gmin

Wykorzystanie danych Do czego służą zebrane dane? 1. Osiągniecie celów POPC 2. Informacja publiczna 3. Decyzje regulacyjne 4. Model interwencji w nowej perspektywie 5. Uzupełnienie i poprawa baz GUGIK/GUS 6. W planach realizacja portalu o dostępności usług szerokopasmowych

Wykorzystanie danych Dostępność 30Mbps

Podsumowanie 90% poprawności dla Polski może oznaczaćblisko 0% poprawności na terenie wielu powiatów i setek gmin Wysiłek wkładany przez PT w zakresie podnoszenia jakości danych z roku na rok jest widoczny, ale widzimy dalej miejsce na poprawę Dane są coraz lepsze choć niektórzy duzi operatorzy się pogorszyli Będziemy dążyć do ściślejszej kontroli danych wejściowych Będziemy dążyć do eliminacji przypadków przekazywania nieprawdziwych danych