Sprzętowo wspomagane metody klasyfikacji danych

Podobne dokumenty

Kaspersky Hosted Security

Wykorzystanie układów FPGA w implementacji systemów bezpieczeństwa sieciowego typu Firewall

Semantyczny Monitoring Cyberprzestrzeni

Architektura Systemu. Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu.

Projektowanie zabezpieczeń Centrów Danych oraz innych systemów informatycznych o podwyższonych wymaganiach bezpieczeństwa

Automatyzacja procesu tworzenia sprzętowego narzędzia służącego do rozwiązywania zagadnienia logarytmu dyskretnego na krzywych eliptycznych

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

INŻYNIERIA OPROGRAMOWANIA

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

Antywirusy. Marcin Talarczyk. 2 czerwca Marcin Talarczyk Antywirusy 2 czerwca / 36

Wprowadzenie do zagadnień związanych z firewallingiem

Arkanet s.c. Produkty. Norman Produkty

13. Konfiguracja proxy http, smtp, pop3, ftp, ssl

Funkcjonalność ochrony antywirusowej w urządzeniach UTM oraz specjalizowanych rozwiązaniach zabezpieczeń AV

OPIS PRZEDMIOTU ZAMÓWIENIA w odniesieniu do zadania antywirus - dostawa oprogramowania antywirusowego

Produkty. ESET Produkty

Język opisu sprzętu VHDL

TECHNOLOGIE INFORMACYJNE

Tomasz Grześ. Systemy zarządzania treścią

System wspomagania harmonogramowania przedsięwzięć budowlanych

Bezpieczeństwo danych w sieciach elektroenergetycznych

Język UML w modelowaniu systemów informatycznych

PROGRAMY NARZĘDZIOWE 1

Tworzenie plików w formacie DjVu z wykorzystaniem oprogramowania DocumentExpress Enterprise Edition

Projekt i implementacja filtra dzeń Pocket PC

Odpowiedzi na pytania do postępowania na zakupu oprogramowania antywirusowego (NR BFI 1S/01/10/05/2019) z dnia

Systemy na Chipie. Robert Czerwiński

Security Master Class

Win Admin Replikator Instrukcja Obsługi

Metody optymalizacji soft-procesorów NIOS

Programowanie sterowników przemysłowych / Jerzy Kasprzyk. wyd. 2 1 dodr. (PWN). Warszawa, Spis treści

Test sprawdzający kompetencje cyfrowe

Informatyka Studia II stopnia

BEZPIECZEŃSTWO W SIECIACH

Jak efektywnie wykrywać podatności bezpieczeństwa w aplikacjach? OWASP The OWASP Foundation

PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL III TI 4 godziny tygodniowo (4x30 tygodni =120 godzin ),

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Programowanie w C. dr inż. Stanisław Wszelak

n6: otwarta wymiana danych

Autor: inż. Wojciech Zatorski Opiekun pracy: dr inż. Krzysztof Małecki

Produkty. Panda Produkty

Win Admin Replikator Instrukcja Obsługi

Biuletyn techniczny. CDN OPT!MA 8.5 Wskazówki dotyczące instalacji programu. Copyright 2006 COMARCH SA

Politechnika Białostocka Wydział Elektryczny Katedra Automatyki i Elektroniki

Komputery przemysłowe i systemy wbudowane

Analiza i projektowanie aplikacji Java

ROZDZIAŁ I. BUDOWA I FUNKCJONOWANIE KOMPUTERA PC

Projektowanie, tworzenie aplikacji mobilnych na platformie Android

Transformacja wiedzy w budowie i eksploatacji maszyn

Plan testów. Robert Dyczkowski, Piotr Findeisen, Filip Grzdkowski. 4 czerwca 2006

System komputerowy. Sprzęt. System komputerowy. Oprogramowanie

Wykład Ćwiczenia Laboratorium Projekt Seminarium

CENTRALNA KOMISJA EGZAMINACYJNA

Plan Prezentacji Wprowadzenie Telefonia IP a bezpieczeństwo istotne usługi ochrony informacji i komunikacji w sieci Klasyczna architektura bezpieczeńs

Cechy systemu X Window: otwartość niezależność od producentów i od sprzętu, dostępny kod źródłowy; architektura klient-serwer;

poziom: Core wersja: 2.6 moduł: C : Eksploatacja SYLLABUS

POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych. Instytut Telekomunikacji Zakład Podstaw Telekomunikacji

Moduł 2 Użytkowanie komputerów i zarządzanie plikami wymaga od kandydata znajomości obsługi komputera osobistego.

Informatyka. Michał Rad

INŻYNIERIA OPROGRAMOWANIA

Generator przebiegów pomiarowych Ex-GPP2

Zagadnienia egzaminacyjne ELEKTRONIKA I TELEKOMUNIKACJA studia rozpoczynające się przed r.

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

Zarządzanie pamięcią operacyjną

Next Generation Firewall (NGF) kontra Unfied Threat Management (UTM)

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Prezentacja specjalności Inżynieria Systemów Informatycznych

Piotr Majkowski. Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Instytut Telekomunikacji

Tytuł prezentacji. Wykrywanie cyberzagrożeń typu Drive-by Download WIEDZA I TECHNOLOGIA. Piotr Bisialski Security and Data Center Product Manager

d) program działający w środowisku Windows 10. Edytorem tekstu jest: a) Paint b) WordPad c) PowerPoint d) Excel

Rzeszów, r. ZAPYTANIE OFERTOWE. Szanowni Państwo,

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

Open Source w Open e-learningu. Przykłady zastosowania

SZKOLENIE: METODYKA E-LEARNINGU (50h) Tematyka zajęć: PROGRAM EXE NARZĘDZIE DO TWORZENIA ELEKTRONICZNYCH MATERIAŁÓW DYDAKTYCZNYCH (10h)

1 Dostarczony system bezpieczeństwa musi zapewniać wszystkie wymienione poniżej funkcje bezpieczeństwa oraz funkcjonalności dodatkowych.

Opis przedmiotu zamówienia

Zagadnienia egzaminacyjne TELEKOMUNIKACJA studia rozpoczynające się po r.

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Programowanie obiektowe zastosowanie języka Java SE

Nazwa kwalifikacji: Montaż i eksploatacja komputerów osobistych oraz urządzeń peryferyjnych Oznaczenie kwalifikacji: E.12 Numer zadania: 01

WYMAGANIA EDUKACYJNE. Witryny i Aplikacje Internetowe klasa I

ROZSZERZANIE MOŻLIWOŚCI...

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

Usługi przechowywania danych KMD/PLATON-U4 dla bibliotek cyfrowych. Maciej Brzeźniak, Norbert Meyer, Rafał Mikołajczak, Maciej Stroiński

MATERIAŁY DO ZAJĘĆ I. Podstawowe pojęcia. Algorytm. Spis treści Przepis

Axence nvision Nowe możliwości w zarządzaniu sieciami

Arkanet s.c. Produkty. Sophos Produkty

Investing f or Growth

Rok akademicki: 2014/2015 Kod: CCB s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

ABC języka HTML i XHTML / Maria Sokół. wyd. 2. Gliwice, cop Spis treści

METODY REPREZENTACJI INFORMACJI

Win Admin Replikator Instrukcja Obsługi

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE

Zarządzenie wchodzi w życie z dniem podpisania.

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Web frameworks do budowy aplikacji zgodnych z J2EE

Przykładowe zagadnienia na sprawdzian z wiedzy ogólnej. Linux to nazwa: A. Programu biurowego. B. Systemu operacyjnego. C. Przeglądarki internetowej.

LABORATORIUM WIRTUALNE W DYDAKTYCE I BADANIACH NAUKOWYCH

Transkrypt:

Sprzętowo wspomagane metody klasyfikacji danych Jakub Botwicz Politechnika Warszawska, Instytut Telekomunikacji

Plan prezentacji 1. Motywacje oraz cele 2. Problemy klasyfikacji danych 3. Weryfikacja integralności plików 4. Architektury sprzętowe 5. Wyniki eksperymentów

Motywacje Duże ilości danych są przetwarzane w formie elektronicznej: załączniki poczty elektronicznej, obieg dokumentów wewnątrz firmy Zwiększenie bezpieczeństwa jest możliwe poprzez podział systemu na części i kontrolę transferu danych za pomocą firewalli, IPS

Motywacje Organizacje powinny ustalać i wdrażać polityki bezpieczeństwa określające jakie akcje można wykonywać na różnych typach plików Potrzebne są systemy wspomagające wdrażanie polityk wymiany danych jednocześnie o dużej przepustowości oraz o niskich kosztach użycia

Zbliżone problemy klasyfikacji Klasyfikacja typów plików na podstawie ich zawartości Wykrywanie złośliwego oprogramowania Identyfikacja stron internetowych zmodyfikowanych przez włamywaczy Wykrywanie niechcianych wiadomości poczty elektronicznej (spam) Identyfikacja języka / tematyki dokumentu tekstowego

Klasyfikacja typów plików Problem: otrzymujemy nieznany plik Odpowiedź: typ pliku (wykonywalny, dokument, grafika) Pomocniczo: rozszerzenie, liczba magiczna Pełna analiza wymaga znajomości formatu oraz jest kosztowna obliczeniowo Rozwiązanie: stosowanie podpisów cyfrowych dla plików oraz PKI

Identyfikacja złośliwego oprogr. Problem: otrzymujemy nieznany plik Odpowiedź: czy plik jest złośliwym oprgr. (wirus, robak, koń trojański) Może dotyczyć fragmentu pliku Obecnie stosowane: wykrywanie znanych wzorców malware u Rozwiązanie: stosowanie podpisów cyfrowych dla plików oraz PKI

Zbliżone problemy klasyfikacji Klasyfikacja typów plików na podstawie ich zawartości Wykrywanie złośliwego oprogramowania Identyfikacja stron internetowych zmodyfikowanych przez włamywaczy Wykrywanie niechcianych wiadomości poczty elektronicznej (spam) Identyfikacja języka / tematyki dokumentu tekstowego

Weryfikacja integralności plików Zgodność najważniejszych elementów pliku: rozszerzenia, nagłówka, liczby magicznej oraz całej jego zawartości Brak wykonywalnego kodu źródłowego wewnątrz plików niewykonywalnych Brak znanych sygnatur malware u wewnątrz Zgodność ze zdefiniowaną polityką wymiany plików (np. załączników pocztowych)

Cechy rozwiązania Plik jest traktowany jako zbiór bloków (próbek) o stałym rozmiarze Analiza za pomocą przesuwnego okna Rozmiar okna oraz krok przesunięcia muszą być dopasowane do oczekiwanego poziomu dokładności klasyfikacji oraz przepustowości

Architektury sprzętowe Procesory ogólnego przeznaczenia GPP struktura układu ustalona przez producenta Specjalizowane układy scalone ASIC struktura układu ustalona na zamówienie Układy reprogramowalne FPGA struktura układu możliwa do zmiany w gotowym układzie na płycie urządzenia

Akceleracja sprzętowa + Zalety: ominięcie ograniczeń procesorów GPP większa skalowalność rozwiązania niskie koszty gotowego systemu w stosunku do uzyskanej przepustowości Wady: zwiększone koszty implementacji, zmian niedojrzałość narzędzi wspomagających

Cele projektu Szkielet modułu sprzętowego który będzie wydajnie wykonywał weryfikację integralności plików Zestaw narzędzi wspomagających proces eksploracji danych od zbioru plików przykładowych do kodu źródłowego modułu

Architektura modułu sprzętowego Bloki danych Atrybuty Źródło danych Ekstrakcja atrybutów Klasyfikacja bloków pamięć dysk interfejs sieciowy częstości znaków wystąpienia n-gramów metryki entropijne drzewa decyzyjne reguły decyzyjne lasy losowe Klasa bloku Wykrywanie wzorców Korelacja wyników Wzorce odpowiednie dla klasy bloku Klasa pliku

Proces generacji modułu Zbiór wstępnie sklasyfikowanych plików Generator atrybutów Parametry procesu eksploracji danych Parametry procesu generacji modułu Atrybut buty Pakiet narzędzi do eksploracji danych Weka Wybrane atrybuty, klasyfikator Generator kodu modułu Kod modułu Pakiet narzędzi do syntezy Altera Quartus II Konfiguracja układu FPGA Przygotowane oprogramowanie w Javie Kod źródłowy w języku opisu sprzętu Verilog

Zbiór danych wejściowych 6000 plików z 11 typów danych: dokumenty: *.pdf, *.rtf, *.html kod wykonywalny: M$ Win *.exe, Linux ELF, Java bytecode skrypty: Perl, PHP, Unix shell pliki graficzne: *.gif, *.jpg pliki kompresowane: *.zip, *.gz

Wnioski z eksperymentów Pliki powinny być podzielone na obszary: nagłówek wnętrze końcówka Różne typy plików mają wewnątrz trudne do odróżnienia rodzaje bloków: x86_executable_code (Linux ELF, M$ EXE) compressed_content (archiwa, grafika, PDF)

Reguły integralności plików ZIP archive: ZIP_head { } n Compressed_content PDF document: PDF_head { Compressed_content } n Windows x86 executable: EXE_head { } n x86_executable_code Linux x86 ELF: ELF_head PDF_content { } n x86_executable_code PDF_tail EXE_tail ELF_tail

Macierz pomyłek dla nagłówków Classification as a b c d e f g h i j k l Class % % % % % % % % % % % % a bytecode_head 100 b elf_head 98 2 c gif_head 100 d gzip_head 97 3 e html_head 97 3 f jpg_head 99 1 g pdf_head 100 h rtf_head 99 1 i shell_head 93 7 j win_exe_head 99 1 k zip_head 100 l other 1 99 Wyniki eksperymentów na zbiorze 6000 plików w 11 klasach Poprawność klasyfikacji: 98.6%

Macierz pomyłek dla próbek Classification as a b c d e f g h Class % % % % % % % % a bytecode_cont_tail 96 1 2 1 b compressed_content 100 c html_cont_tail 94 3 2 d pdf_cont_tail 1 1 1 96 1 e rtf_cont_tail 2 97 1 f shell_cont_tail 2 2 92 2 2 g x86_exe_content 1 99 h other 1 1 98 Wyniki eksperymentów na zbiorze 6000 plików w 11 klasach Poprawność klasyfikacji: 96.3%

Aktualny stan prac Przygotowane: automatyczne generacja atrybutów szkielety modułów sprzętowych ekstrakcji cech, klasyfikacji danych Wstępne oszacowania: przepustowość modułu >1 Gbps zużycie zasobów sprzętowych <10%

Możliwe zastosowania Urządzenia skanujące dane: Systemy przeciwdziałania włamaniom Zapory przeciwogniowe (FTP, SMTP) Bramy skanujące pocztę elektroniczną Komponenty: Specjalizowany układ scalony ASIC IPCore (biblioteka sprzętowa)

Podsumowanie Organizacje powinny ustalać i wdrażać politykę wymiany plików Celem projektu jest przygotowanie efektywnego komponentu weryfikującego integralność plików Uzyskane na tym etapie rezultaty: poprawność klasyfikacji, wydajność, zużycie zasobów są obiecujące