Jak się odnaleźć i co z tego wynika Tomasz Rybak rybak@wi.pb.edu.pl Podlaski Festiwal Nauki, 2009-04-21
Table of content 1 Istniejące technologie 2 System Sputnik 3 Dane z 24C3 4 Prosta analiza 5 Obliczanie pozycji 6 Entropia 7 AMD
Użycie telefonów komórkowych Badanie zachownia studentów i pracowników MIT 100 telefonów Nokia 6600 Specjalne oprogramowanie zbierające dane: pozycja prowadzone rozmowy wysłane SMS uruchamiane programy urządzenia BlueTooth Użytkownicy nadali nazwy miejscom w których najczęściej przebywali: dom, uczelnia, sala wykładowa, etc. Dane z BlueTooth zbierane i zapisywane co 5 minut BTID nazwa typ Zebrano między 300000 a 450000 godzin danych ze 100 telefonów podczas 9 miesięcy roku akademickiego 2004/2005
Zbieranie danych o pozycji Wieża GSM widziana przez telefon Identyfikatory wież GSM zostały przypisane do nazw miejsc; zapisywano wszystkie wieże, nazwane i nienazwane Urządzenia BlueTooth Podobny zbiór wież/urządzeń BT oznacza podobne osoby, znajdujące się blisko siebie
Wykorzystanie zebranych danych Jako że ludzie żyją wg. wzorców, a nie przypadkowo, ich zachowanie można opisać i przewidzieć Mając duży zbiór danych można obliczyć cechy zachowania Prawdopodobieństwo bycia w określonym miejscu w określonym czasie Rutynowe zachowania Entropia nieuporządkowanie życia, nieprzewidywalność zachowań
Związki: przyjaźń, partnerstwo, koleżeństwo Dane o położenia Dane dotyczące rozmów, SMS komunikacja Dane opisujące zachodzące kontakty (kiedy, gdzie) Zmiany w czasie więcej czasu w laboratorium może oznaczać że zbliża się termin oddania projektu Samopodobieństwo: cykle 24-ro godzinne, 7-mio dniowe
Context Oprogramowanie na telefony Nokia Symbian S60 umożliwiające zapis aktywności telefonu Groupa z Helsinki University http://www.cs.helsinki.fi/group/context/ Zastępuje książkę adresową i przechwytuje program do zarządzania ostatnimi połączeniami Jest też w stanie pełnić rolę komunikatora internetowego Przesyła dane o kontaktach i aktualnym stanie na serwer Wymaga połączenia z serwerem (data plan) Może również opartywać zdjęcia metadanymi
CellTrack CellTrack umożliwia wyświetlenie szczegółów odnośnie sieci GSM do której jesteśmy połączeni http://www.afischer-online.de/sos/celltrack/index.htmld Pokazuje CellId, LAC, nazwę sieci oraz kraj Podczas połączenia pokazywana jest również siła sygnału Umożliwia zgranie z bazą danych wież GSM i wówczas może wyświetlić szczegółowe informacje o wieży Położenie, nazwa, etc. Również zdjęcie jeśli takowe istnieje Korzystając z sygnału dochodzącego z wieży można również obliczyć w jakim kierunku jesteśmy zwróceni w stosunku do niej
Dane o rozmowach telefonicznych Badacze z MIT zebrali dane dot. elektronicznej komunikacji z Nowego Jorku Badanie pokazało ciekawe wzorce zachowań W celu ochrony prywatności nie badano pojedynczych osób lecz jedynie zgrupowane dane Lista miast do których najczęściej dzwoniono Ciekawe zachowania, np. wzrost liczby zagranicznych rozmów po otwarciu giełdy
Badanie położenia ludzi Artykuł z Nature odnośnie badania zachowania ludzi Dane dla niemal 100000 telefonów komórkowych Położenia (pozycja wieży GSM z którą następowała transmisja) podczas rozmowy, wysyłania/odbierania SMS lub połączenia internetowego Dane pochodzą z nieokreślonego kraju europejskiego Wiele różnych wzorców zachowań: dzienne zwyczaje, delegacje, wakacje, etc. Trzy różne typy zachowań Dla większości dwa najważniejsze miejsca to praca i dom Dane nie są zgodne z przypadkowym krążeniem Silna tendencja do powrotu do miejsc w których byliśmy
BlueTooth Vassilis Kostakos zbierał sygnały BlueTooth w Bath UK 7.5% przechodniów miało przy sobie urządzenia z aktywnym modułem BlueTooth Dla takiego urządzenia każdy może zebrać dane emitowane przez nie BT jest szeroko rozpowszechnionym standardem i ryzyko dla prywatności jest dość duże; jego zasięg może dochodzić do 100m W pobliżu jednego z czytników zdarzył się wypadek Analiza zebranych danych pozwoliła na wytypowanie kilku urządzeń które były tam w czasie wypadku Ale obecność urządzenia nie oznacza obecności człowieka Jedno z urządzeń należało do taksówkarza: odbiornik GPS który pojawiał się w różnych porach. Inne mogło należeć do strażnika jako że pojawiało się wyłącznie w nocy od 22 do 3
Sputnik System pozwalający na śledzenie dużej grupy osób wewnątrz budynków Nazwa Sputnik pochodzi od pierwszego sztucznego satelity Ziemi System składa się z: Urządzeń noszonych przez uczestników, które nieustannie wysyłają zaszyfrowany sygnał Stacji odbiorczych odczytujących sygnały i wysyłających je do serwera Serwera zbierającego oraz przetwarzającego dane
Użycie Konferencja Chaos Communication Congress w Berlinie, grudzień 2007 Konferencja The Last HOPE, Nowy Jork 2008 Warsztaty Sociophysics: status and perspectives, Maj 2008 w Turynie, Italy W ostatnim przypadku badano kontakty międzyludzkie uczestników konferencji
Strony opisujące projekt Sputnik Głowna strona projektu http://www.openbeacon.org/ Wiki z opisem upublicznionych danych http://wiki.openbeacon.org/wiki/datamining Wykresy stworzone na podstawie tych danych (Peter Meerwald) http://pmeerw.net/24c3 Sputnik/ Projekt Leica mający na celu wizualizację położenia uczestników http://leicas-dream.googlecode.com/ Strona opisująca badania socjologiczne http://www.sociopatterns.org/
Format danych Plik tekstowy z danymi identyfikator czas stacja bazowa siła wewnętrzny licznik przycisk
Podsumowanie zebranych danych 215 aktywnych urządzeń 37 stacji bazowych
Podsumowanie zebranych danych 215 aktywnych urządzeń 37 stacji bazowych 27,9M odczytanych pakiektów
Podsumowanie zebranych danych 215 aktywnych urządzeń 37 stacji bazowych 27,9M odczytanych pakiektów... co cało 1.9GB danych w bazie danych
Rysunek: Stacje bazowe na poziomie A
Rysunek: Stacje bazowe na poziomie B
Rysunek: Stacje bazowe na poziomie C
Liczba pakietów odczytanych przez stacje bazowe ID IP Opis Ilość C015 Canteen 10.254.3.15 2792683 C012 Canteen 10.254.3.12 1922226 G021 Saal 1 10.254.7.21 1611089 F011 Saal 1 10.254.6.11 1514885 A100 Saal 1 10.254.1.100 1505483 D001 Canteen 10.254.4.1 1332173 D010 Hackcenter 10.254.4.10 1328709 D011 Hackcenter 10.254.4.11 1038471 G016 Saal 1 10.254.7.16 952442 E017 Lounge 10.254.5.17 927320 C006 Canteen 10.254.3.6 896983 G022 Saal 1 10.254.7.22 865833 F017 Helpdesk 10.254.6.17 812258 E013 Lounge 10.254.5.13 777344 C023 Saal 3 10.254.3.23 756741 G002 Entrance 10.254.7.2 714647 B007 Checkroom 10.254.2.7 646734 D003 Hackcenter 10.254.4.3 643389 D005 Saal 2 10.254.4.5 635220 D015 Saal 2 10.254.4.15 627286 F002 Angel Heaven 10.254.6.2 527558 C005 Saal 3 10.254.3.5 527254 H017 POC Helpdesk VOIP 10.254.8.17 518718 H011 Wikipedia 10.254.8.11 434331 J013 Wikipedia 10.254.10.13 404046 H019 NOC Helpdesk 10.254.8.19 400254 E006 Hackcenter 10.254.5.6 386077 C150 Saal 3 10.254.3.150 367488 C007 Hardware Lab 10.254.3.7 360192 F012 Foebud 10.254.6.12 358423 I001 Debian 10.254.9.1 306797 B001 Stairs Speakers 10.254.2.1 249056 I005 Stairs Press 10.254.9.5 241902 I014 Chaoswelle CAcert 10.254.9.14 216644 Moc sygnału Ilość 0 8669189 1 7103390 2 6637093 3 5496778
Pakiety odczytane przez więcej niż jedną stację (> 10000)
Pakiety odczytane przez więcej niż jedną stację podczas 23C3
Liczba pakietów na minutę
Liczba pakietów na minutę podczas 23C3 i 24C3
Wstępna analiza danych Dane bez żadnego przetworzenia nie zawierają dokładnych pozycji Jednak znając położenie stracji bazowych i wiedząc co nieco o konferencji można dojść do ciekawych wniosków Te początkowe pomysły mogą nam wskazać interesujące kierunki dalszych badań
Blisko wyjścia lub w kantynie
Niemal cały czas w sali nr 1
Anioł odpowiedzialny za sprawdzanie biletów
Anioł siędzący niemal przez całą konferencję w Niebie
Kolejny Anioł
Ktoś uczestniczący w wielu wykładach
Co można powiedzieć o tej osobie?
ID Początkowy czas Końcowy czas Ilość pakietów 4148 2007-12-29 23:21:32+01 2007-12-30 21:58:38+01 1149 4123 2007-12-30 06:55:45+01 2007-12-30 18:49:20+01 1209 4003 2007-12-28 10:00:29+01 2007-12-30 19:49:51+01 1799 4322 2007-12-29 07:54:47+01 2007-12-30 20:08:21+01 1959 4042 2007-12-29 18:05:50+01 2007-12-29 18:27:19+01 2164 4086 2007-12-28 00:36:03+01 2007-12-30 21:49:26+01 2180 4034 2007-12-28 22:17:37+01 2007-12-30 22:15:18+01 3075 4026 2007-12-28 18:54:24+01 2007-12-30 02:23:49+01 4783 4289 2007-12-27 21:34:58+01 2007-12-30 17:58:09+01 5908 4032 2007-12-28 14:22:21+01 2007-12-30 08:06:08+01 6083 4301 2007-12-28 18:29:54+01 2007-12-30 18:05:04+01 6867 4060 2007-12-28 10:36:56+01 2007-12-30 18:36:45+01 7287 4101 2007-12-28 14:31:25+01 2007-12-30 14:19:41+01 7977 4091 2007-12-28 10:31:45+01 2007-12-28 17:33:03+01 14608 4021 2007-12-28 18:21:38+01 2007-12-30 23:03:52+01 14653 4097 2007-12-27 21:25:42+01 2007-12-30 20:40:01+01 17101 4290 2007-12-28 13:12:55+01 2007-12-30 18:53:40+01 17491 4139 2007-12-29 15:21:47+01 2007-12-30 23:03:54+01 17495 Prawdopodobnie Anioły
Inne zastowania śledzenia osób Technikę podobną do zaprezentowanej tutaj zastowosali Kimell i Lundel Umieścili oni czujniki w każdym pomieszczeniu domu zamieszkanego przez starsze osoby Analiza danych pochodzących z czujników pozwala na stwierdzenie jak często i jak długo ktoś przebywa w każdym z pomieszczeń Częste powracanie na krótki okres np. do kuchni może oznczać początki choroby Alzheimera Problemem zaobserwowanym przez nich było wyłączanie lub zasłanianie czujników
Obliczanie pozycji Każde urządzenie wysyłało pakiety danych częściej niż co sekundę Podczas 10 sekund (jeśli osoba nie przemieszczała się) system otrzymywał od 5 do 20 (czasem do 30) pakietów Pozwala to na obliczenie położenia z dość dobrą czasową rozdzielczością Ruch zmienia nieco sytuację
Obliczanie pozycji cd. Znamy pozycję stacji bazowych Urzędzenia wysyłają sygnał ze zmienną mocą Pozwala to na określenie odległości od stacji bazowej Znając odległość od kilku staji możemy użyć triangulacji aby obliczyć pozycję Różne sposoby obliczania położenia liniowy N i=0 Pos(X ) = S i(x ) (4 strength i ) N i=0 4 strength i wykładniczy N i=0 Pos(X ) = S i(x ) 2 4 strengthi N i=0 24 strengthi
Obliczone wartości współrzędnej X
Obliczone wartości współrzędnej Y
Obliczone wartości współrzędnej Z
Obliczone wartości pozycji
Obliczone wartości pozycji
Zagadka: kto to jest?
Kto to jest? Zielone stacje są niedaleko stanowiska projektu Sputnik Osoba ta przebywała tam niemal przez całą konferencję.
Kto to jest? Zielone stacje są niedaleko stanowiska projektu Sputnik Osoba ta przebywała tam niemal przez całą konferencję. Niebieskie stacje są w sali nr 2 Osoba ta przebywała tam trzeciego dnia konferencji pomiędzy 16:00 a 17:00
Kto to jest? Zielone stacje są niedaleko stanowiska projektu Sputnik Osoba ta przebywała tam niemal przez całą konferencję. Niebieskie stacje są w sali nr 2 Osoba ta przebywała tam trzeciego dnia konferencji pomiędzy 16:00 a 17:00 Odbywał się wówczas wykład opisujący dane zebrane podczas poprzedniej konferencji.
Kto to jest? Zielone stacje są niedaleko stanowiska projektu Sputnik Osoba ta przebywała tam niemal przez całą konferencję. Niebieskie stacje są w sali nr 2 Osoba ta przebywała tam trzeciego dnia konferencji pomiędzy 16:00 a 17:00 Odbywał się wówczas wykład opisujący dane zebrane podczas poprzedniej konferencji. Prawdopodobnie jest to Milosch Meriac.
Kto to jest? Zielone stacje są niedaleko stanowiska projektu Sputnik Osoba ta przebywała tam niemal przez całą konferencję. Niebieskie stacje są w sali nr 2 Osoba ta przebywała tam trzeciego dnia konferencji pomiędzy 16:00 a 17:00 Odbywał się wówczas wykład opisujący dane zebrane podczas poprzedniej konferencji. Prawdopodobnie jest to Milosch Meriac. Ciekawostka: stacja bazowa D003 znajdowała się poziom niżej.
Milosch Meriac, twórca projektu Sputnik
Położenie - podsumowanie Dokładna znajomość współrzędnych (X, Y, Z) nie zawsze jest niezbędna Częściej interesuje nas to w jakim obszarze ktoś się znajduje Obliczenie dokładnej pozycji przy uwzględnieniu szumów i zmienności sygnału może być trudne
Entropia Entropia pozwala na określenie jak dużo informacji znajduje się w strumieniu danych Wzór Shannona N E = p i log(p i ) i=0 W uproszczeniu entropia pozwala na określenie jak bardzo nieprzewidywalne są dane Obliczyłem dwa rodzaje entropii Globalna obliczona dla długich okresów czasu pozwala na określenie w jaki sposób ktoś spędzał ten czas Lokalna była obliczana dla 15-to minutowych okresów pozwalając na stwierdzenie co dana osoba robiła podczas tego czasu Duże wartości wskazują że ktoś poruszał się Niskie wartości oznaczają że dana osoba przebywała w jednym miejscu
Entropia globalna
Zmiana entropii w czasie
Zmiana entropii w czasie
Zmiana entropii w czasie
Anioł odpowiedzialny za sprawdzanie biletów
Anioł siędzący niemal przez całą konferencję w Niebie
Kolejny Anioł
Ktoś uczestniczący w wielu wykładach
AMD Attendee Meta Data (metadane o uczestnikach konferencji) to projekt aktywny podczas konferencji The Last HOPE Podczas tej konferencji wiele osób nosiło nadajniki (1200) Strona WWW umożliwiała podanie podstawowych danych o sobie Istniała również możliwość nawiązywania kontaktów z osobami o podobnych zainteresowaniach System podpowiadał wykłady zgodne z podanymi zainteresowaniami
Zebrane dane countries kraje z których pochodzili uczestnicy person dane o każdej z osób interests dane o zainteresowaniach poszczególnych osób ping kto wysłał komu wiadomość i w jaki sposób (SMS lub email) snapshot summary ile czasu dana osoba spędziła w każdym z pomieszczeń talks lista wykładów: tytuł, prezenter, dziedzina talk presence kto uczestniczył w którym wykładzie
Problemy z prywatnością Dane zebrane zostały upublicznione Przed tym dane osobowe zostały usunięte Numery telefonów nie zostały opublikowane Ale pseudonimy zostały usunięte z jednego zbioru lecz w innym pozostały W jednym miejscu zostały zastąpione przez usernnnn W innym pozostały w oryginale, tak jak były wpisane przez użytkowników
Entropia podczas The Last HOPE Ten zbiór danych został przetworzony w inny sposób Został już przetworzony przez zespół podczas konferencji Dlatego też wyników z 24C3 i The Last HOPE nie można porównywać bezpośrednio Można szukać podobnych trendów
Entropia podczas The Last HOPE Ten zbiór danych został przetworzony w inny sposób Został już przetworzony przez zespół podczas konferencji Dlatego też wyników z 24C3 i The Last HOPE nie można porównywać bezpośrednio Można szukać podobnych trendów ale nie należy bezpośrednio porównywać liczb dla osoby 4133 i 3098
Entropia podczas The Last HOPE
Entropia podczas The Last HOPE
Entropia podczas The Last HOPE
Podsumowanie Istnieje wiele technologii pozwalających na zbieranie danych o położeniu osób Telefony komórkowe BlueTooth Niekomercyjne rozwiązania Prowadzone są intensywne badania na danych zdobytych z tych źródeł Obecnie trwają próby łączenia danych pochodzących z różnych źródeł
Q & A Dziękuję za uwagę. Pytania? Tomasz Rybak rybak@wi.pb.edu.pl