Bezpieczeństwo i koszt ochrony statystycznych baz danych wykorzystywanych w jednostkach. administracji publicznej. Łukasz Ślęzak. Jarosław Butanowicz



Podobne dokumenty
Zdalny dostęp do Statystycznych Baz Danych a bezpieczeństwo danych jednostkowych.

Zaufanie i bezpieczeństwo w Europejskiej Agendzie Cyfrowej. Od idei do wdrożenia. Sesja Europejska droga do nowego ładu informacyjnego

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

PROJEKT Z BAZ DANYCH

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Transformacja wiedzy w budowie i eksploatacji maszyn

Żurek INFOBroker. Szkolenia warsztaty konsultacje MS Excel. tel

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zasoby i usługi elektroniczne w statystyce bibliotecznej, rankingach i badaniach efektywności

ANALIZA SYSTEMU POMIAROWEGO (MSA)

Weryfikacja hipotez statystycznych

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Rodzaje badań statystycznych

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

PRZEWODNIK PO PRZEDMIOCIE

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Wykład 4: Statystyki opisowe (część 1)

Zintegrowana Platforma Identyfikacji i Weryfikacji Zjawisk Przestępczości Ubezpieczeniowej: Funkcjonalności i korzyści dla Zakładów Ubezpieczeń

temat prelekcji.. Dynamiczne bazy danych platforma szkoleniowa Warszawskiej Wyższej Szkoły Informatyki prowadzący Andrzej Ptasznik

Jarosław Żeliński analityk biznesowy, projektant systemów

Konspekt: Bezpieczeństwo systemów bazodanowych. Autorzy: Grzegorz Dębiec, Edyta Gąsior, Łukasz Krzanik, Maciej Tokarczyk DUMF

Prawdopodobieństwo i statystyka

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Technologie informacyjne

Testowanie hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Projektowanie (design) Eurostat

ZAPYTANIE OFERTOWE WARUNKOWE NR 1/01/2017

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Pobieranie prób i rozkład z próby

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

JAKOŚD SPISÓW NOWEJ GENERACJI

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Application Security Verification Standard. Wojciech Dworakowski, SecuRing

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Testowanie hipotez statystycznych.

SQL z perspektywy hakera - czy Twoje dane są bezpieczne? Krzysztof Bińkowski MCT,CEI,CEH,ECSA,ECIH,CLFE,MCSA,MCSE..

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Statystyka w pracy badawczej nauczyciela

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Współczesna problematyka klasyfikacji Informatyki

Analiza statystyczna trudności tekstu

Wiarygodna elektroniczna dokumentacja medyczna dr inż. Kajetan Wojsyk

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne

Estymacja parametrów rozkładu cechy

Stan prac nad rozwojem państwowych rejestrów referencyjnych podległych MSWiA

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Analiza statystyczna. Ogólne własności funkcji. Funkcja liniowa. Równania i nierówności liniowe

Grupowe zakupy usług transportowych praktyczna redukcja kosztów transportu

Systemy GIS Tworzenie zapytań w bazach danych

Nazwa wnioskodawcy. Polska Organizacja Turystyczna. Naczelna Dyrekcja Archiwów Państwowych. Ministerstwo Administracji i Cyfryzacji

System prezentacji i udostępniania informacji sektora publicznego z zasobów Narodowego Funduszu Zdrowia

EXCEL DLA ŚREDNIOZAAWANSOWANYCH

4. EKSPLOATACJA UKŁADU NAPĘD ZWROTNICOWY ROZJAZD. DEFINICJA SIŁ W UKŁADZIE Siła nastawcza Siła trzymania

Definicje PN ISO Definicje PN ISO 3951 interpretacja Zastosowanie normy PN-ISO 3951:1997

Field of study: Computer Science Study level: First-cycle studies Form and type of study: Full-time studies. Auditorium classes.

INDYWIDUALNE KONTO ZABEZPIECZENIA EMERYTALNEGO (IKZE)

Autor: Artur Lewandowski. Promotor: dr inż. Krzysztof Różanowski

CELE I ZAKRES DZIAŁALNOŚCI

Agencja Interaktywna

Wyliczanie emerytury na zasadach zbliżonych do tych panujących przed r. Emerytura. Do kiedy stare emerytury?

Statystyka matematyczna dla leśników

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

GIS W SPISACH POWSZECHNYCH LUDNOŚCI I MIESZKAŃ. Katarzyna Teresa Wysocka

1. Dane podstawowe: MAŁŻONEK WSPÓŁWNIOSKODAWCY/PORĘCZYCIELA*

Zagrożenia związane z udostępnianiem aplikacji w sieci Internet

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu

Pomiar rezystancji metodą techniczną


estymacja wskaźnika bardzo niskiej intensywności pracy z wykorzystaniem modelu faya-herriota i jego rozszerzeń

22-24 września, Gdynia

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Projekt współfinansowany przez Unię Europejską z Programu Operacyjnego Innowacyjna Gospodarka na lata ZAMAWIAJĄCY:

Biblioteka Główna Gdańskiego Uniwersytetu Medycznego

Jakub Kisielewski.

DZIAŁ ZARZĄDZANIA RYZYKIEM INFORMATYCZNYM. Strategia i Polityka Bezpieczeństwa Systemów Informatycznych. Wykład. Aleksander Poniewierski

Najczęściej popełniane błędy w procesie walidacji metod badawczych

Bazy danych 2. Wykład 1

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka społeczna Redakcja naukowa Tomasz Panek

Założenia i planowane efekty Projektu. Rola Projektu w budowaniu infrastruktury informacji przestrzennych na obszarze województwa mazowieckiego

Centralne twierdzenie graniczne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Kodeks Cyfrowy. zakres regulacji / wstępna koncepcja /

Transkrypt:

Bezpieczeństwo i koszt ochrony statystycznych baz danych wykorzystywanych w jednostkach administracji publicznej Łukasz Ślęzak Jarosław Butanowicz Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego

Zaufanie i bezpieczeństwo Jednym z kluczowych obszarów działań Europejskiej agendy cyfrowej jest Zaufanie i bezpieczeństwo. Europejczycy nie będą korzystać z technologii, którym nie ufają. Epoka cyfrowa to nie wielki brat ani cybernetyczny dziki zachód. Bezpieczeństwo informacji jako czynnik: nieograniczający prowadzenia działalności operacyjnej, umożliwiający prowadzenie działalności operacyjnej, stwarzający możliwość rozwoju działalności operacyjnej. 2

Problem ochrony baz danych Faktograficzne bazy danych Statystyczne bazy danych Problem ochrony Bazy danych - Identyfikacja i uwierzytelnienie użytkownika - Udostępnianie statystyk obiektów, przy jednoczesnym ograniczeniu możliwości dostępu do informacji o indywidualnym obiekcie - Korelacja statystyk - Wiedza dodatkowa użytkownika 3

Statystyczne bazy danych przykłady zastosowań Przykłady zastosowań statystycznych baz danych: Informatyzacja ochrony zdrowia Wdrożenie Elektronicznej Platformy Gromadzenia, Analizy i Udostępniania zasobów cyfrowych o Zdarzeniach Medycznych Zbiory (bazy) danych medycznych. Spisy Powszechne Spis próbny do Narodowego Spisu Powszechnego Ludności i Mieszkań (1 kwietnia 31 maja 2010). Powszechny Spis Rolny 2010 (1 września 31 października 2010). Narodowy Spis Powszechny Ludności i Mieszkań 2011 (1 kwietnia 30 czerwca 2011). 4

Przykład Uczestnicy Forum TI 2011 Imię i Nazwisko Miejsce urodzenia Firma Zarobki miesięczne Adam Nowak Warszawa DBSA 900 PLN Adam Wójcik Warszawa HackerCorp 1100 PLN Aneta Kowalczyk Warszawa Computer 1200 PLN Arkadiusz Malinowski Warszawa HackerCorp 1240 PLN Jarosław Butanowicz Jastrzębie Zdrój Sabre 1000 PLN Konrad Dąbrowski Warszawa HackerCorp 680 PLN Łukasz Ślęzak Warszawa Ernst & Young 1000 PLN Mirosław Kowalski Warszawa Uni 990 PLN Zanonimizowane dane 5

Ujawnianie statystyk wrażliwych wybrane przykłady (1/5) Statystyka wrażliwa statystyka, która ujawnia informacje, które mogą doprowadzić do ujawnienia informacji dotyczących indywidualnego obiektu. Statystyka obliczana na podstawie poufnych informacji ze zbioru odpowiedzi o liczności 1 jest zawsze wrażliwa. Przykład: Wiemy, że miejsce urodzenia Jarosława Butanowicza to Jastrzębie Zdrój. Ilość (Miejsce urodzenia = Jastrzębie Zdrój) = 1. Suma (Zarobki miesięczne dla Miejsce urodzenia = Jastrzębie Zdrój) = 1000 PLN. Wniosek: Zarobki miesięczne Jarosława Butanowicza są równe 1000 PLN. Są to najprostsze sposoby ujawniania statystyk wrażliwych tzw. ataki z użyciem małych lub dużych zbiorów odpowiedzi. 6

Ujawnianie statystyk wrażliwych wybrane przykłady (2/5) Przykład ataku z użyciem dużego zbioru odpowiedzi: Analogicznie do poprzedniego przykładu jeśli wiemy, że miejsce urodzenia wszystkich uczestników konferencji poza Jarosławem Butanowiczem to Warszawa. Ilość (Wszyscy) = 8. Ilość (Miejsce urodzenia = Warszawa) = 7. Suma (Zarobki miesięczne dla Wszyscy) = 8110 PLN. Suma (Zarobki miesięczne dla Miejsce urodzenia = Warszawa) = 7110 PLN. Wniosek: Zarobki miesięczne Jarosława Butanowicza są równe: Suma (Zarobki miesięczne dla Wszyscy) - Suma (Zarobki miesięczne dla Miejsce urodzenia = Warszawa) = 1000 PLN. 7

Ujawnianie statystyk wrażliwych wybrane przykłady (3/5) Ochroną przed atakami z użyciem małych lub dużych zbiorów odpowiedzi jest technika oparta na sterowaniu licznością zbioru odpowiedzi: Odrzucenie zapytania odwołującego się do zbioru odpowiedzi mających mniej niż n lub więcej niż N n rekordów, gdzie: N liczba wszystkich rekordów, n dodatnia liczba całkowita mniejsza niż N. Technika sterowania licznością zbioru odpowiedzi może być rozszerzona o wskaźnik dominancji, czyli dodatkowo nieujawniane są zbiory odpowiedzi, w których suma wartości rekordów jest większa od k% sumy całej populacji. Przykład: Suma dochodów dużej firmy oraz małego sklepu. 8

Ujawnianie statystyk wrażliwych wybrane przykłady (4/5) Sterowanie licznością zbioru odpowiedzi nie jest rozwiązaniem gwarantującym bezpieczeństwo statystycznych baz danych. Przykładem łatwego do realizacji ataku na statystyczną bazę danych zabezpieczoną powyższą techniką jest użycie prostej techniki penetracji zwanej szperaczem. Wartym podkreślenia jest fakt, iż przeniknięcie jest możliwe nawet dla n bliskiego N/2. Podstawową ideą tej techniki jest: uzupełnianie małych zbiorów odpowiedzi taką liczbą dodatkowych rekordów, aby było możliwe uzyskanie odpowiedzi, odjęcie odpowiedzi opartej na rekordach dodatkowych. 9

Ujawnianie statystyk wrażliwych wybrane przykłady (5/5) Przykład z wykorzystaniem szperacza indywidualnego: Szukamy zapytania dozwolonego: Suma(Zarobki dla Firma = HackerCorp) = 3020 PLN. Zapytanie odwrotne: Suma(Zarobki dla Firma!= HackerComp) = 5090 PLN. A = Suma(Zarobki dla Wszyscy) = 3020 + 5090 = 8110 PLN. B = Suma(Zarobki dla (Firma = HackerComp lub Miejsce urodzenia = Jastrzębie Zdrój)) = 4020 PLN. C = Suma(Zarobki dla (Firma!= HackerComp lub Miejsce urodzenia = Jastrzębie Zdrój)) = 5090 PLN. Wniosek: Wykorzystując szperacz możemy stwierdzić, że Zarobki miesięczne Jarosława Butanowicza są równe: X = B + C A = 4020 + 5090 8110 = 1000 PLN. 10

Techniki ochrony statystycznych baz danych Obecnie istnieje wiele mechanizmów ochrony statystycznych baz danych (przy zachowaniu statystycznej poprawności uzyskiwanych statystyk), które możemy podzielić na cztery główne grupy: Ograniczenie zbioru zapytań Wprowadzenie ograniczeń dostępu do statystyk na podstawie rodzaju zapytania. Zniekształcanie danych Wprowadzenie szumów wyłącznie w odpowiedziach na zapytanie o statystykę, bez modyfikacji samych danych. Zniekształcanie odpowiedzi Wprowadzenie pewnej permutacji w danych przechowywanych w bazie danych. Inne Pozostałe techniki. 11

Techniki ochrony statystycznych baz danych Przykłady technik: Ograniczenie zbioru zapytań Zniekształcanie danych Zniekształcanie odpowiedzi Inne Metody bez historii Metody oparte na audycie Metody a priori Analiza formuły charakterystycznej Poziom tabel Poziom komórek Kontrola rzędu odpowiedzi* Rozmiar tabeli* Analiza ryzyka* Zamiana danych* Liczność zbioru zapytań Pytania implikowane* Pokrywanie się zbiorów odpowiedzi Audyt ekspert Ograniczenie komórek* Grupowanie* Partycjonowanie* Brak analizy formuły charakterystycznej Zniekształcanie przy pomocy drzewa-kd Stałe zniekształcanie danych Zamiana danych Losowanie podzbioru danych Losowanie zbioru odpowiedzi Partycjonowanie Zaokrąglanie odpowiedzi Szum niezależny Szum skorelowany Szum skorelowany z poprawionym odchyleniem Zaokrąglanie systematyczne Zaokrąglanie losowe Zaokrąglanie kontrolowane Dynamiczne bazy danych: Kontrola uaktualnień Zniekształcanie danych na zapytanie * 12

Parametry ochrony statystycznych baz danych (1/3) Techniki ochrony statystycznych baz danych zniekształcające dane pierwotne lub odpowiedzi, co wpływa na wartość otrzymywanych statystyk. Oprócz zależności pomiędzy bezpieczeństwem danych a dokładnością otrzymywanych statystyk, ważnym elementem jest koszt implementacji danej techniki, a także jej wpływ na efektywność działania bazy danych. Dla celów analizy porównawczej istniejących technik względem siebie została wyodrębniona podstawowa grupa parametrów ochrony statystycznych baz danych. 13

Parametry ochrony statystycznych baz danych (2/3) Parametr Definicja Bezpieczeństwo Odporność bazy danych na ataki użytkownika nie posiadającego dodatkowej wiedzy. Utrata zdolności informacyjnych Mierzona przez liczbę niewrażliwych statystyk, które są zastrzeżone dla użytkownika w związku z mechanizmami bezpieczeństwa. Koszt Koszt implementacji jak i koszt przetwarzania zapytań. Precyzja* Odchylenie zniekształconych wyników zapytań od rzeczywistych odpowiedzi. Konsekwencja* Zdolność systemu bazy danych do odpowiedzi na zapytania z uniknięciem błędów logicznych. * Precyzja i Konsekwencja są parametrami stosowanymi wyłącznie do ewaluacji technik zniekształcania danych i odpowiedzi. 14

Parametry ochrony statystycznych baz danych (3/3) Koszt Parametr, który przedstawia koszt implementacji mechanizmu ochrony, a także koszt dodatkowego procesowania każdego zapytania bazodanowego. Metoda pomiarowa sprawdzając dodatkowy koszt implementacji wyrażona jest w pieniądzach. Natomiast dodatkowy koszt procesowania zapytań bazodanowych wyrażony jest poprzez różnicę w czasie procesowania danego zapytania dla systemu bazy danych z wdrożonym mechanizmem ochrony bądź bez. Znaczenie każdego z tych dwóch czynników jest określane indywidualnie dla każdej organizacji. 15

Porównanie mechanizmów ochrony (1/2) Bezpieczeństwo 100% 80% 60% Spójność 40% Utrata zdolności informacyjnych 20% Oczekiwana wartość parametrów Wartość parametrów oferowana przez rozwiązanie 1 Precyzja Koszt Wartość parametrów oferowana przez rozwiązanie 2 16

Porównanie mechanizmów ochrony (2/2) Porównanie mechanizmów ochrony statystycznych baz danych pod kątem poszczególnych parametrów ochrony statystycznych baz danych: Technika Bezpieczeństwo Utrata zdolności informacyjnych Stałe zniekształcenie danych Zamiana danych Losowanie podzbioru danych Zniekształcenie danych na zapytanie Zaokrąglanie odpowiedzi Koszt Precyzja Konsekwencja wysokie wysokie średni słaba wysoka średnie wysokie wysoki średnia wysoka średnie średnie niski średnia wysoka średnie średnie niski średnia słaba średnie średnie niski średnia wysoka 17

Q & A Łukasz Ślęzak lslezak@wat.edu.pl 18

Bibliografia Dorothy Elizabeth Robling Denning, Cryptography and Data Security, 1982. G. T. Duncan and S. Mukherjee. Optimal disclosure limitation strategy in statistical databases: deterring tracker attackes through additive noise. Journal of the American Statistical Association, 95:720--729, 2000. SCHATZ J. M. Survey of Techniques for Securing Statistical Databases MURALIDHAR, K AND SARATHY, R. 1999. Security of Random Data Perturbation Methods - ACM Transactions on Database Systems, Vol. 24, No. 4, December 1999. ADAM, N. R. AND WORTMANN, J. C. 1989. Security-control methods for statistical databases: A comparative study. ACM Comput. Surv. 21, 4 (Dec. 1989), 515 556. TENDICK, P. AND MATLOFF, N. 1994. A modified random perturbation method for database security. ACM Trans. Database Syst. 19, 1 (Mar. 1994), 47 63. REISS, S. P. 1983. Practical Data-Swapping: The First Steps. ACM Transactions on Database Systems, Vol. 9, No. 1, March 1984. Klasyfikacja, opis i analiza porównawcza technik zniekształcania wartości obiektów bazy danych w procesach ochrony statystycznych baz danych 19