System i jego wykorzystanie w badaniach wydajności systemów webowych, Ziemowit Nowak Zakład Rozproszonych Systemów Komputerowych (ZRSK) Instytut Informatyki Politechnika Wrocławska i3, Wrocław, 1-3.12.2010
Plan prezentacji Motywacja ZRSK opracowania własne System WING System Przykłady użycia Podsumowanie WING WING 2/25
Motywacja Speed wins (Google, 2006+) Rozwój otwartych internetowych infrastruktur pomiarowych dla potrzeb użytkowników końcowych Rozwój systemów wieloagentowych w realnych warunkach eksploatacyjnych Internetu Badania w zakresie: prognozowania wydajności globalnej Internetu predykcji czasu transferu dużych plików 3/25
Systemy w ZRSK własne rozwiązania WING Web ping - 2003 Multi-Agent WING Release 1-2006 Release 2 2008 WING IMES (PlanetLab) Internet Measurement & Exploration System 2009 IMES Laboratorium ZRSK (Distributed Computer Systems Laboratory) Hybrid Cloud Computing Center 2010+ HCCC 4/25
Diagram prostej transakcji WWW DNS server Client Server... www.xxx.yyy IP CONNECT (RTT) ACK, SYN GET SYN ACK OK LEFT_BYTES (transfer time) GET OK 5/25
System pomiarowy WING WING e Windows Nazwa domenowa IP Zestawienie połączenia Pobranie szkieletu HTML Pobranie pierwszego obiektu Pobranie drugiego obiektu... Internet Moduł wykonawczy Moduł sterującokomunikacyjny Baza danych Linux Moduł wykonawczy Moduł sterującokomunikacyjny 6/25
WING WING: Wizualizacja przykładowej transakcji http://szafir/~zn 337 http://szafir.ists.pwr.wroc.pl/~zn/ 207 http://156.17.10.4/~cichocki 203 http://alice.ci.pwr.wroc.pl/~cichocki/ 140 http://szafir.ists.pwr.wroc.pl/~zn/zn 340 http://szafir.ists.pwr.wroc.pl/~zn/zn/ 519 DNS http://szafir.ists.pwr.wroc.pl/~zn/zn/strona1.htm 105 CONNECT http://szafir.ists.pwr.wroc.pl/~zn/zn/strona5.htm 79 http://szafir.ists.pwr.wroc.pl/~zn/zn/strona2.htm 126 FIRST_BYTE http://szafir.ists.pwr.wroc.pl/~zn/zn/strona4.htm 81 LEFT_BYTES http://szafir.ists.pwr.wroc.pl/~zn/zn/strona3.htm 129 LENGTH [B] http://brylant.ists.pwr.wroc.pl/ 3 720 http://brylant.ists.pwr.wroc.pl/icons/jhe061.gif 17 175 http://brylant.ists.pwr.wroc.pl/icons/apache_pb.gi 2 326 http://memory.palace.org/public/rfc/txt/rfc1945.tx 312 http://www.ibm.com/us/... /02_lead_080302.gif 21 387 http://xml.resource.org/public/rfc/txt/rfc1945.txt 137 582 http://szafir.ists.pwr.wroc.pl/~zn/zn/ibm.htm 73 http://www.ibm.com/i/v11/m/en/gr760.gif 1 960 http://szafir.ists.pwr.wroc.pl/~zn/zn/n.htm 45 http://szafir.ists.pwr.wroc.pl/~zn/zn/logoanim.gif 27 508 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 7/25 Time [s]
WING: Opis eksperymentu WING typ eksperymentu: aktywny, plan eksperymentu: losowanie próbki rozproszonych po całym świecie serwerów WWW, z każdego serwera transmisja zasobu o jednakowej wielkości, transmisja do Wrocławia (WASK) powtarzana 10 razy na dobę, przedmiot pomiaru: czas pomiędzy momentami nadejścia pierwszego i ostatniego pakietu zawierającego zasób, kryteria doboru rozmiaru zasobu: czas transmisji musi być znacząco większy w stosunku do popełnianego błędu pomiarowego, transmisja nie może zbytnio obciążać sieci i serwerów. 8/25
WING Internet we Wrocławiu - zmiany po pięciu latach (2003-2008) 9/25
Projekt System wieloagentowy Agenty działają na rzecz klientów końcowych Wsparcie dla agentów o różnych funkcjonalnościach, konstrukcjach programowych i środowiskach operacyjnych Funkcje agentów zawierają funkcje wspólne oraz funkcje specyficzne Funkcje wspólne: zarządzanie agentami, szeregowanie, heartbeat (status i warunki działania), model danych, synchronizacja, lokalna baza danych, scentralizowana baza danych) Wspólny interfejs zarządzania agentami (parametry wejściowe, rejestracja, edycja, usuwanie, uruchamianie, zatrzymywanie, działania indywidualne i grupowe) Pomiary gromadzone lokalnie, automatyczna aktualizacja centralnej BD 10/25
: cechy Stabilność i dokładność pomiarów Skrócenie czasu pojedynczego pomiaru Zaawansowane możliwości harmonogramowania badań Możliwość przeprowadzania równoległych pomiarów Możliwość wykonywania badań w oparciu o rozproszoną architekturę agentową Przetwarzanie i analiza danych offline Wsparcie dla analiz wykorzystujących metody eksploracji danych (data mining) 11/25
Architektura a Windows DPU DEU Data Browser DataBase Linux/Windows/AIX DataBase SCH - Scheduler MC - Measurement Controller DPU- Data Processor Unit DEU- Data Exploration Unit Agent 1 Measurement Manager Windows Windows SCH MC MC Linux Agent 2 MC Agent 3 Windows Agent 4 Linux 12/25
Działanie a pomiar AgentEnv MM MM pomiar AgentEnv MM MM pomiar AgentEnv MM MM OpHost pomiar AgentEnv MM MM 13/25
Architektura OpHost OpHost App Server WebApp DB CLI HB NTP AgentEnv Interface DB Sync 14/25
Usługi OpHost centralna baza danych skalowalny system zarządzania bazą danych, zdolny przetwarzać duże woluminy danych, zaleca się, aby dodatkowo zawierał narzędzia do analizy danych oraz algorytmy ekstrakcji wiedzy serwer aplikacji środowisko uruchomieniowe aplikacji webowej do zarządzania systemem aplikacje webowe zestaw aplikacji do zarządzania systemem CLI - linia komend do zarządzania systemem HeartBeat usługa systemu zapewniająca monitoring stanu poszczególnych agentów DB Sync usługa systemowa zapewniająca import danych zebranych przez wszystkie działające agenty Interfejs agentowy komponent odpowiedzialny za komunikację z agentami NTP usługa systemowa realizująca synchronizację czasów 15/25
Architektura AgentEnv AgentEnv Measurement Module Local DB OpHost Interface CLI HB DB Sync OpCon SCH NTP CHK 16/25
Usługi AgentEnv Local DB - lokalne miejsce przechowywania danych OpHost Interface - odpowiada za komunikację z centralą OpCon - kontroler wykonania każdego pojedynczego badania CLI - linia komend SCH - harmonogram badań HB (HeartBeat) - usługa raportująca do centrali stan agenta - informuje o aktywności agenta lub jej braku, ale również o stanie środowiska w jakim działa agent, przesyłając raport o kluczowych wskaźnikach zdrowia środowiska agenta NTP - usługa synchronizacji DB Sync - synchronizacja z bazą centralną CHK - moduł sprawdzający poprawność pomiarów uruchamiany po każdym wykonanym badaniu pozwala odrzucić błędne wyniki tuż po ich uzyskaniu 17/25
: Eksperyment (2006-2010) Serwer #1 Serwer #2 Serwer #S 60 serwerów INTERNET Start: 04.2008 WROCŁAW campus network GDAŃSK campus network GLIWICE campus network LAS VEGAS campus network 4 agenty Agent #1 Agent #2 Agent #3 Agent #4 18/25
Wykaz badanych serwerów (częściowy) Serwer Adres IP Geolokalizacja ASN Dystans - Wrocław [km] Dystans - Gliwice [km] Dystans - Gdańsk [km] cs.anu.edu.au 150.203.164.35 Canberra, Australia 7575 15864 15757 15708 12677 www.embed.com.cn 203.86.7.136 Shenzhen, China 4134 8559 8480 8338 11695 www.teco.de 129.13.170.82 Karlsruhe, Germany 553 403 549 391 8858 www.isi.edu 128.9.176.20 Marina Del Rey, CA, US 4 9610 9751 9377 383 www.ii.uib.no 129.177.16.249 Bergen, Norway 224 1263 1401 1042 8003 dbweb.csie.ncu.edu.tw 140.115.51.50 Taoyüan, Taiwan 18420 8807 8744 8551 11008 Dystans - Las Vegas [km] www.watersprings.org 210.138.117.124 Tokyo, Japan 2497 8873 8857 8538 8902 curl.nedmirror.nl 85.12.47.162 Eindhoven, Netherlands 34305 805 934 941 8700 sunsite.icm.edu.pl 193.219.28.2 Warsaw, Poland 8664 302 272 280 9314 www.cs.huji.ac.il 132.65.16.18 Jeruzalem, Israel 378 2618 2473 2835 11868 www.compsci.buu.ac.th 202.28.77.252 Chonburi, Thailand 24082 5910 5870 6286 12252 www.w3.org 128.30.52.168 Cambridge, MA, US 3 6382 6527 6308 3816 19/25
Eksperyment Agent Las Vegas Server harvard.edu 3816 km 8003km 3784 km Server cgisecurity.com 6527 km 6291 km 6382 km 6308 km Server uib.no 6370 km 6515 km 1042 km 1263km 1401 km Agent Gdańsk Agent Wrocław Agent Gliwice 20/25
Tygodniowa sezonowość. Prawo potęgowe THROUGHPUT [Mb/s] 100 10 y = 49,986x -0,929 R² = 0,7232 Wrocław 1 y = 261,25x -1,105 R² = 0,8728 y = 250,15x -1,137 R² = 0,8343 Gdańsk Gliwice 0,1 y = 59,286x -0,801 R² = 0,5237 Las Vegas 0,01 10 100 1000 CONNECT [ms] 21/25
Inna analiza: Szeregi czasowe predykcja efektywnej przepustowości (goodput). Model danych Rozkłady długoogonowe najlepiej modelują procesy pomiarowe P(X > x) ~ b x a 22/25
Podobieństwo średnich efektywnych przepustowości (goodput) Najwyższą korelację między pogodą w Internecie zaobserwowano dla Gdańska i Gliwic. Dokładność predykcji 90%. 23/25
Predykcja wydajności wykorzystanie metod data mining Dotychczasowe obszary Web Mining: Web Content Mining Web Usage Mining Web Structure Mining Web User Profile Mining Nowa koncepcja w Web Mining: Web Performance Mining (WPM) 1 1 Borzemski L., The use data mining to predict Web performance. Cybernetics and Systems. 2006 Leszek Vol. Borzemski 37 (6), s. 587-608. 24/25
Dziękuję za uwagę! 25/25
Zaproszenie do współpracy! Poszukujemy partnerów w projektach: + mapa prognozy wydajności Internetu Hybrid Cloud Computing Center (HCCC) 26/25
Nasze wyposażenie Podstawowy sprzęt (konfiguracja hybrydowa): Serwery wielordzeniowe IBM RISC servers p570 i p520 (2x) Serwery wielordzeniowe IBM Dual/Quad blade servers 22 serwery w klastrze (2xIBM BladeCenter H chassis) Serwery wielordzeniowe IBM POWER6 blade (3x) Serwery wielordzeniowe IBM Cell B.E. blade (2x) Klaster 16xIBM rack serwer wielordzeniowy x3550 i x3650 (16x+4x) Tesla GPU serwer (2x) Sieci: LAN Infiniband (4X), Ethernet 10 GbE, 1GbE; MAN/Internet 1GbE; Storage - SAN (FC) and NAS (iscsi) Całkowita teoretyczna moc obliczeniowa: 5 TFLOPS (bez GPUs). 27/25