Passus DAY Quo vadis APM & NPM Kluczowe funkcje, które należy rozważyć podczas oceny narzędzi do zarządzania wydajnością sieci i aplikacji Bartosz Dzirba bartosz.dzirba@passus.com.pl Warszawa, 06.10.2016
Agenda 1. Po co nam monitoring? 2. Co mierzymy jak to rozumieć? 3. Kluczowe cechy dobrego systemu 4. Wyzwania na dziś 5. SDN i przyszłość monitoringu
01 Ale po co?
Wydajność aplikacji Customers wydajność aplikacji APPS = wydajność biznesu Business Employees
Wydajność aplikacji może wpłynąć [pozytywnie negatywnie] na markę
If you can t measure it, you can t manage it.
Obecne sieci są skomplikowane End User Network Web Tier App Tier Services Tier Database Tier
Trendy rynkowe jedynie komplikują
Podejście do monitoringu Wcześniej: Rozwiązania punktowe
Podejście do monitoringu Dziś: częściowa współpraca
Podejście do monitoringu Globalny wgląd Cel: zunifikowany monitoring biznesowy CxO
Czego wymaga dziś biznes? UC Systemy UC, Contact Center, współpracy Grupowej (Lync, itd.) CLOUD Chmura publiczna, Prywatna, SDN w DC NPM Planowanie infrastruktury Rozwiązywanie problemów Zarządzanie wydajnością MOBILITY Rozwiązania webowe Praca zdalna i mobilna VDI, Citrix itd.
02 Co mierzymy i jak to rozumieć
Czym jest wydajność aplikacji? Prędkość, czas Dostępność, pewność Wydajność aplikacji: czas odpowiedzi z punktu widzenia jej użytkownika Sieć Przełączniki Routery Firewalle Łącza (przepustowość) Aplikacja Intranet CRM Program do fakturowania Baza danych Serwery bazodanowe
Wydajność Wydajność Czy działa? Czy działa prawidłowo? Czy nie jest problemem dla aplikacji? Różne mechanizmy, często rożne narzędzia Wiedza Co/kto, gdzie, kiedy, ile, jak... zrobił Czy znam swoją sieć Dokumentacja Kluczowe jest dobre narzędzie i prawidłowe podstawy sieci
Czas odpowiedzi aplikacji 0,1s komfort natychmiastowa odpowiedź Start 1s wciąż komfort wrażenie ciągłej pracy 10s Loading niezadowolenie odczuwalne spowolnienie działania
Network Monitoring & Troubleshooting Network Performance Management
Czas odpowiedzi i jego składniki Wizualizacja głównego parametru wydajnościowego z punktu widzenia użytkownika Podział na części składowe (przyczyny)
Parametry -> przyczyny Klient MONITORING Serwer SYN ACK REQUEST ACK FIN ACK SYN+ACK ACK+DATA DATA ACK FIN Connection setup time(rtt) =35ms Server response time=250ms Data transfer time=200ms RTT User response time 35+250+200 =485ms Czas [ms] Czas [ms] Czas [ms]
Parametry -> przyczyny Server SYN+ACK ACK+DATA DATA ACK FIN Connection setup time(rtt) =35ms Server response time=250ms Data transfer time=200ms RTT - Wysokie opóźnienie na łączu [problem po stronie operatora] - Wysokie obciążenie CPU [problem po stronie serwera] - Wysoka zajętość RAM [problem po stronie serwera] - Niewydajna macierz dyskowa lokalna lub zdalna [problem po stronie serwerów] - Niewydajne połączenie naszego serwera z serwerami, które dostarczają dane [problem po stronie urządzeń sieciowych, lub po stronie zdalnego serwera, do dalszej analizy] - Wysycone niskiej przepustowości łącze [problem po stronie urządzeń sieciowych] - Niepoprawna konfiguracja QoS [problem po stronie urządzeń sieciowych] - Bardzo dużą liczba danych do przesłania Time[ms]
Parametry Opóźnienie CIFS setki komunikatów, ważna każda ms Brak czasu rzeczywistego Straty pakietów Retransmisje, zajętość pasma, opóźnienie Niedozwolone podczas 3-way handshake Zmienność opóźnienia Zabójcze dla VoIP/Video (>30ms) TCP (Tahoe, Reno, FAST, Vegas, Cubic, Compound: CTCP, DCTCP) Zero window
Wymagania VoIP/Video Typowo mierzymy: Opóźnienie Zmienność opóźnienia (jitter) Straty pakietów MOS (https://pl.wikipedia.org/wiki/mean_opinion_score) A jakie wartości są OK? ITU-T G.114 rekomenduje opóźnienie do 150ms (roundtrip) IETF sugeruje że bufory anty-jitter mogą porawdzić sobie max z 100ms (sugerowany max 30ms) Kodek G.729 wymaga strat pakietów <1% http://www.cisco.com/c/en/us/support/docs/voice/voicequality/5125-delay-details.html http://www.voiptroubleshooter.com/problems/jitter.html
Parametry -> wpływ Wersja optymistyczna czekamy dłużej Wersja pośrednia aplikacja potrafi przywrócić sesję/działanie/zapisane dane Wersja pesymistyczna aplikacja nie jest przygotowana, traci dane, przestaje działać, wymaga zaczęcia od początku
03 Kluczowe cechy dobrego systemu
Kompleksowość Wszystkie aplikacje Moduły Application Stream Analysis Dane wydajnościowe Web Web Transaction Analysis Dane aplikacyjne (Pakiety + Przepływy) Citrix Bazy danych CX-Tracer DB Performance Metryki bieżące + Archiwum pakietów VoIP VoIP & Video Performance NetFlow NetFlow
Kompleksowość
Analiza pakietowa (L7, DPI ) Analiza danych użytkownika, przykłady działań (workflow) Wykonywana onsite oszczędność pasma i zasobów
DPI i analiza L7
Unified Communications UC, Voice/Video, SIP Trunking, UC Lync, Jabber Konwergencja usług i elementów infrastruktury UC, audio, video, dane Nie tylko DC oddziały, CallCenter, pracownicy mobilni
Skype for Business (Lync) Wszechstronny komunikator W pakiecie z Office 365 Opcja chmurowa lub własny serwer Możliwość komunikacji pomiędzy domenami (organizacjami) Nie do końca typowe kodeki https://technet.microsoft.com/enus/library/gg425841.aspx
Systemy konferencyjne Cisco Webex Citrix GoToMeeting Adobe Connect Join.me To też audio [+video] Podatne na te same problemy Audio działa kiepsko czy problem leży po stronie: Mojej (host/prezenter) Uczestników Dostawcy systemu
Co wpływa na problemy? Users not registering Phones not connecting Slow to connect call Takes a long time to connect No Dial Tone Bad Voice Quality I can t hear you The picture is blocky My Video has no audio Network and Enablers Infrastructure Performance Call Signaling and UC Server Performance Voice and Video Media Performance Call Processing Servers Presence Session Servers Border Controllers (Network Congestion, QoS, LDAP/AD, DNS, DHCP) (Server Load Balancing, Signaling Errors) QoS Mismatch / CODEC MOS, One way calls, loss, jitter
Zależności pomiędzy komponentami Discovered interactions This is the real network. SIP signaling issues can be quite intensive to solve.ngeniusone can help you find these issues as quickly as possible.
To gdzie jest problem?
04 Wyzwania na dziś
Chmura Internet Oddział MPLS DC Użytkownik
Aplikacje w chmurze Integracja monitoringu ( sond ) w istniejących rozwiązaniach Admin SteelFlow WTA AppResponse Data Center
Użytkownicy mobilni Pomiar rzeczywistej wydajności dla użytkowników aplikacji webowych Przezroczyste dla użytkownika i przeglądarki wspiera wszystkie dostępne, także mobilne Przezroczyste dla aplikacji możliwość monitorowania nie swoich aplikacji webowych
Środowiska wirtualne Wirtualna sonda Pełna funkcjonalność Analiza ruchu pomiędzy maszynami wirtualnymi na tym samym hypervisorze
App Tier Web Tier Kompleksowy wgląd w aplikacje!@#$ BEGIN End-Users Experience Page Render Time END Przeglądarka, użytkownicy mobilni WAN Congestion & Latency SNMP, Flow, Pakiety Queuing Code Processing Application Latency Code Processing Metryki Code Instrumentation LAN Congestion & Latency Hypervisor Oversubscription Queuing Application Latency Code Processing Code Processing SNMP, Flow, Pakiety Metryki Analiza kodu Remote Calls, Web Services, DB, etc. Pakiety
Kompleksowość Szybka i sprawna wizualizacja wydajności
05 SDN i przyszłość monitoringu
SDN Software Defined Networks
Czy SDN to coś nowego? Idea znana z Wifi Kontroler, lekki AP Xirrus radio (Data Plane) programowalne przez kontroler (Control Plane) i obudowane usługami biznesowymi (XMS Portal) Cisco Meraki Przeniesienie rozwiązania na urządzenia brzegowe, przełączniki, integracja w spójną całość Aplikacje i programowalność przyszłość?
Jak monitoring widzi Cisco?
Jak monitorować SDN? Monitoring planowany na wczesnym stadium Data Plane nic się nie zmienia Control Plane Urządzenia, maszyny wirtualne Analiza OpenFlow OpenDaylight project ( capwap, snmp )
Jak monitorować SDN? Urządzenia SNMP Dostarczanie ruchu NetScout Packet Flow Switch, Cisco Nexus 3000 Inne Integracja z optymalizacją WAN SteelHead wysyłający SteelFlow do systemu monitoringu Analiza ruchu w VXLAN Wirtualizacja komponentów Wirtualne sondy: NetScout Infinistream, Riverbed VMon
SDN w wydaniu Riverbed SteelConnect SteelHead + SteelConnect Smaller Branches Secure Gateway 100/300/1000 Series SD-LAN Connectivity WiFi + Switching Infrastructure-as-a-Service Secure Cloud Gateway Larger Branches Secure Gateway with Extensible Services Platform (, Firewall, IPAM, DDI, UC, ) 2000/3000/5000 Series Centralized Management Deployed On-Premises or In The Cloud Zero-Touch Provisioning & Management Global Policy & Visibility Open RESTful APIs Physical or Virtual DC SD-WAN Concentrator 5000 Series Wbudowana wirtualizacja i HA oraz monitoring Niezależność poszczególnych usług i ich zmian
SDN w wydaniu Riverbed SteelConnect SD-WAN Gateway with Riverbed SteelOS TM Core Services Advanced Services 3 rd Party Services Routing Services (OSPF, BGP) Application Classification (DPI w/ SSL/TLS) Secure Overlays (IPSEC & Multi- Tenant) HTTPS Web Proxy Ext. Firewall IPAM Firewall & Threat Protection Quality Path Selection & Network QoS SteelFlow TM Telemetry Packet Capture Ext. DNS/DHCP UC 100 / 300 / 1000 / vgw Series Gateways + + 2000 / 3000 / 5000 Series Gateways
Podsumowanie
Podsumowanie
Bartosz Dzirba bartosz.dzirba@passus.com.pl Dziękuję za uwagę