WYKORZYSTANIE METOD WIELOWYMIAROWEJ ANALIZY STATYSTYCZNEJ I SZTUCZNEJ INTELIGENCJI W SIECI INTERNET

Podobne dokumenty
1 Technologie Informacyjne WYKŁAD I. Internet - podstawy

Internet w przedsiębiorstwie

Sieci komputerowe. Wstęp

Model sieci OSI, protokoły sieciowe, adresy IP

MODEL WARSTWOWY PROTOKOŁY TCP/IP

Dr Michał Tanaś(

Technologie informacyjne (6) Zdzisław Szyjewski

Plan wykładu. Sieci Komputerowe. Literatura. Historia 1/3

Bazy Danych i Usługi Sieciowe

Sieci komputerowe. Wykład dr inż. Łukasz Graczykowski

Adres IP

SIECI KOMPUTEROWE mgr inż. Adam Mencwal Katedra Informatyki Stosowanej

Plan wykładu. 1. Sieć komputerowa 2. Rodzaje sieci 3. Topologie sieci 4. Karta sieciowa 5. Protokoły używane w sieciach LAN 6.

System operacyjny UNIX Internet. mgr Michał Popławski, WFAiIS

Sieci komputerowe i bazy danych

Sieci Komputerowe. Wykład 1: TCP/IP i adresowanie w sieci Internet

systemów intra- i internetowych Platformy softwarowe dla rozwoju Architektura Internetu (2) Plan prezentacji: Architektura Internetu (1)

Wykład 3 / Wykład 4. Na podstawie CCNA Exploration Moduł 3 streszczenie Dr inż. Robert Banasiak

TCP/IP. Warstwa aplikacji. mgr inż. Krzysztof Szałajko

Akademia Techniczno-Humanistyczna w Bielsku-Białej

Sieci komputerowe. Wykład 1: Podstawowe pojęcia i modele. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Plan prezentacji. Wprowadzenie Przesyłanie Informacji w Internecie Funkcjonowanie stron internetowych Działanie narzędzi internetowych.

Wykład 5: Najważniejsze usługi sieciowe: DNS, SSH, HTTP, . A. Kisiel,Protokoły DNS, SSH, HTTP,

Studium przypadku Case Study CCNA2-ROUTING. Warianty projektów

Internet to ogólnoświatowy zbiór wzajemnie połączonych ze sobą sieci komputerowych (lokalnych LAN i rozległych WAN). Za datę powstania Internetu

WYŻSZA SZKOŁA ZARZĄDZANIA I MARKETINGU BIAŁYSTOK, ul. Ciepła 40 filia w EŁKU, ul. Grunwaldzka

Narodziny Rozwój Dojrzałość Historia Internetu

1999 dialnych w czasie rzeczywistym Liczba użytkowników Internetu przekroczyła 1 miliard.

Model warstwowy Warstwa fizyczna Warstwa łacza danych Warstwa sieciowa Warstwa transportowa Warstwa aplikacj. Protokoły sieciowe

Protokoły sieciowe - TCP/IP

Sieci komputerowe Modele OSI i TCP/IP

Technologie cyfrowe semestr letni 2018/2019

Stos protokołów TCP/IP (ang. Transmission Control Protocol/Internet Protocol)

Zdalne logowanie do serwerów

Dr Michał Tanaś(

Zestaw ten opiera się na pakietach co oznacza, że dane podczas wysyłania są dzielone na niewielkie porcje. Wojciech Śleziak

Pomiary jakości w dostępie do Internetu

DR INŻ. ROBERT WÓJCIK DR INŻ. JERZY DOMŻAŁ

SERWERY WIRTUALNE Stabilność, szybkość i bezpieczeństwo danych...

O Internecie. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

KLASYFIKACJA. Słownik języka polskiego

Podstawy użytkowania systemu Linux

Programowanie Sieciowe 1

Sieć Internet - historia, pojęcia

DOSTĘP ZDALNY PRZEZ DDNS

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.

Laboratorium - Obserwacja procesu tłumaczenia nazw DNS

Internet (skrótowiec od ang. inter-network, dosłownie "między-sieć") ogólnoświatowa sieć komputerowa, określana również jako sieć sieci.

IPv6 w pracach IETF. Tomasz Mrugalski <tomasz.mrugalski(at)eti.pg.gda.pl> Politechnika Gdańska, Gdańsk

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

Temat: Sieci komputerowe.

1. FTP 2. SMTP 3. POP3

Instrukcja do panelu administracyjnego. do zarządzania kontem FTP WebAs.

Prof. Stanisław Jankowski

System komputerowy. Sprzęt. System komputerowy. Oprogramowanie

Sieci komputerowe. Wykład 0: O czym jest ten przedmiot. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Regulamin korzystania z usługi bezpłatnego dostępu do sieci Internet dla mieszkańców gminy Mrozy. Postanowienia ogólne

E.13.1 Projektowanie i wykonywanie lokalnej sieci komputerowej / Piotr Malak, Michał Szymczak. Warszawa, Spis treści

Podstawy sieci komputerowych

Bezpieczeństwo poczty elektronicznej

PROTOKOŁY OBSŁUGI POCZTY ELEKTRONICZNEJ

Wprowadzenie do informatyki i wykorzystanie internetu studia podyplomowe

TIN Techniki Internetowe zima

Podstawy Informatyki. Inżynieria Ciepła, I rok. Wykład 14 Protokoły sieciowe

IPsec bezpieczeństwo sieci komputerowych

Lab5 - Badanie protokołów pocztowych

Usługi w sieciach informatycznych. Mariusz Stenchlik mariuszs@onet.eu

Spis treści. Człony URL -Uniform Resource Locator Najpowszechniejsze usługi internetowe

World Wide Web? rkijanka

Podstawy działania sieci

Sieci komputerowe. Narzędzia Informatyki

Omówienie TCP/IP. Historia

ROZPORZĄDZENIE RADY MINISTRÓW. z dnia 11 października 2005 r. (Dz. U. z dnia 28 października 2005 r.)

Sieci komputerowe Wykład

Wymagania techniczne dla programów antywirusowych. Oprogramowanie dla serwerów i stacji roboczych będących w sieci - ilość 450 sztuk:

9. System wykrywania i blokowania włamań ASQ (IPS)

Stos TCP/IP. Warstwa aplikacji cz.2

ZiMSK NAT, PAT, ACL 1

Symantec Enterprise Security. Andrzej Kontkiewicz

Wprowadzenie do programowania www

TIN Techniki Internetowe zima

Sieci komputerowe. Narzędzia Informatyki

dwie lub więcej sieci komputerowych połączonych ruterami (router) i przełącznikami (switch)

PRZEŁOMOWA INNOWACJA CYFROWA KLUCZ DO SPECJALIZACJI PRZEMYSŁOWEJ ISTOTA ROZWOJU CYFROWEGO INFRASTRUKTURY I PRZEMYSŁU

Warstwa transportowa

(Przy rozwiązywaniu testu (28 pytań) masz prawo wykorzystać wszystkie dostępne aplikacje na Twoim komputerze), dostęp do Internetu jest zabroniony.

Akademickie Centrum Informatyki PS. Wydział Informatyki PS

Pełna specyfikacja pakietów Mail Cloud

Sieci komputerowe Warstwa aplikacji

Wykorzystanie Internetu i poczty elektronicznej do celów geodezyjnych

Technologie informacyjne - wykład 8 -

Sieci komputerowe - Wstęp do intersieci, protokół IPv4

Sieci Komputerowe. Wykład 1: Historia, model ISO, Ethernet, WiFi

Protokół sieciowy Protokół

KURSY I SZKOLENIA REALIZOWANE W RAMACH PROJEKTU:

Sieci Komputerowe Modele warstwowe sieci

Instrukcja konfigurowania poczty Exchange dla klienta pocztowego użytkowanego poza siecią uczelnianą SGH.

Sieci komputerowe - administracja

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej

Rozdział 6 - Z kim się kontaktować Spis treści. Wszelkie prawa zastrzeżone WiedzaTech sp. z o.o Kopiowanie bez zezwolenia zabronione.

Transkrypt:

Uniwersytet Ekonomiczny we Wrocławiu Wydział Ekonomii Zarządzania i Turystyki Katedra Ekonometrii i Informatyki Andrzej Dudek WYKORZYSTANIE METOD WIELOWYMIAROWEJ ANALIZY STATYSTYCZNEJ I SZTUCZNEJ INTELIGENCJI W SIECI INTERNET

zastosowań wielowymiarowej analizy statystycznej i sztucznej inteligencji w sieci Internet Markery na mapach obszary zastosowań (rewolucja?) 2/26

Internet to globalna, ogólnoświatowa sieć komputerowa oparta na protokole adresowym IP i protokole transportowym TCP. 29 października 1969 połączenie pomiędzy Szkołą Inżynierii i Nauk Stosowanych Uniwersytetu Kalifornijskiego w Los Angeles (UCL) I Instytutem Badawczym uniwersytetu Stanford w Menlo Park (SRI International) początek sieci ARPANET, pracującej jeszcze w protokole X.25, Lata 70. XX w. połączenie uczelni i instytutów badawczych zachodniego wybrzeża Stanów Zjednoczonych. 1983 r. początek w protokole TCP/IP opracowanym przez agencję obronną DARPA i wykorzystywanym do tej pory testowo tzn. sieci DARPANET. 3/26

1989 - w Centrum badawczym energetyki jądrowej w Bernie (CERN) opracowany język znaczników HTML, który dość szybko został wykorzystany w pierwszej przeglądarce sieci word-wide-web, której udało się uzyskać dużą popularność, jaką była przeglądarka Mosaic. Koniec lata 80. XX w. - do sieci ARPANET podłączane są inne funkcjonujące wtedy sieci rozległe takie jakie EARNET, USETNET czy BITNET a całość zyskuje obecną nazwę Internetu Od początku lat 90. XX w. - bardzo gwałtowny rozwój Internetu, który szybko stał się globalnym medium komunikacyjnym 4/26

IP - Wszystkie komputery w sieci Internet posiadają unikalny adres zwany adresem IP, składający się z czterech liczb z przedziału 0-255 rozdzielonych kropkami (np. 156.17.118.250). Przydziałem adresów zajmuje się powałana przez rząd amerykański ICANN (Internet Corporation for Assigned Names and Number). DNS (Domain Name System) tłumaczy adresy IP na nazwy łatwiejsze do zapamiętania przez użytkowników (np. w postaci www.ue.wroc.pl ). Do tego celu niezbędna jest sieć serwerów zarządzana przez INTERNIC (Internet Network Information Center) również instytucję rządową USA 5/26

RFC - Standardy techniczne Internetu ustalane są demokratycznie przez wszystkich jego użytkowników w postaci dokumentów RFC (Request For Comments) zatwierdzonych w drodze consensusu przez użytkowników sieci. Wszystkie tego typu dokumenty znajdują się na stronie IETF (Internet Engineering Task Force). www (word-wide web) bazuje na protokole transportowym HTTP (Hyper-Text Transfer Protocol) i języku opisu stron HTML (Hyper-Text Mark-up Language) poczta elektroniczna (e-mail) opiera się na protokołach SMTP (Simple Mail Transfer Protocol), POP3 (Post-Office Protocol) oraz IMAP (Internet Message Access Protocol) Protokoły FTP, SCP, telnet, SSH, UseNet, edonkey, bittorrent SKYPE, GADU-GADU i inne... 6/26

Metody WAS i AI w grach Markery na mapach zastosowań : Filtry antyspamowe sieciowych (exploits) wirusów komputerowych Klasyfikacja punktów na mapie Gry komputerowe Agenci AI w elektronicznych biurach obsługi klienta Boty (programy wykonujące pewne czynności za człowieka, np. udające rozmówcę) Systemy ekspertowe } } 7/26

Problem niezamawianej elektronicznej (spamu) generuje rokrocznie wielomiliardowe straty w realnej gospodarce. Szacunkowy koszt wszystkich niezamówionych wiadomości na całym świecie w roku 2009, według Ferris Research, to 130 miliardy dolarów, z czego 42 miliardy to koszty dla samej tylko gospodarki USA. Na tę liczbę składają się: koszt spadku produktywności użytkownika (usuwanie spamu, szukanie fałszywych alarmów, itp.): 85% pomoc help desk konsultantów IT: 10% oprogramowanie filtrujące niezamówioną pocztę (opłaty licencyjne, opłaty za utrzymanie i aktualizowanie reguł.): 5% 8/26

Jedną z najbardziej skutecznych metod walki ze spamem są filtry antyspamowe, automatycznie dzielące przychodzącą pocztę email na dwie klasy odpowiadające poczcie zamówionej i poczcie. Szacuje się, że zainstalowanie na komputerze pracownika filtra antyspamowego redukuje koszty związane ze spamem o ok. 35%-50% (por. Caliendo i in. [2011]). Filtry te są zazwyczaj oparte na regule maksymalnego podobieństwa mówiącej o tym, że spośród klas zbioru uczącego (przesyłek, o których wiemy czy są czy nie są spamem) badany obiekt trafi do tej, dla której wartość funkcji gęstości rozkładu dla tego obiektu jest największa lub na regule Bayes-owskiej, definiującej ryzyko błędnej klasyfikacji w zależności od prawdopodobieństw a-priori. 9/26

Parametry oceny skuteczności filtrów (Holden [2004]) : współczynnik dokładności określa ile listów zakwalifikowanych przez spam jest nim faktycznie; współczynnik odtworzenia określa ile listów spośród tych, które są spamem zostało rozpoznanych; fałszywe alarmy określa liczbę listów błędnie zakwalifikowanych jako spam; przeoczenia określa liczbę listów błędnie zakwalifikowanych jako poczta pożądana; współczynnik fałszywych alarmów stosunek liczby listów błędnie zakwalifikowanych jako spam do wszystkich listów zakwalifikowanych jako spam. 10/26

W badaniu zostały użyte: jądrowy estymator intensywności dla obiektów symbolicznych; odległość Ichino i Yaguchiego (w postaci znormalizowanej). Obiekty symboliczne opisywane były przez zmienne: długość wiadomości; liczba załączników; liczba adresatów; słowa kluczowe (jako lista słów); tytuł (jako lista słów); adres nadawcy; 11/26

12/26

liczba obiektów w zbiorze uczącym (początkowym) 118 w tym spam 27 w tym poczta pożądana 91 liczba listów w zbiorze testowym 300 w tym zakwalifikowanych jako spam 207 w tym zakwalifikowanych jako pożądane 93 współczynnik dokładności 197/207 96,1% współczynnik odtworzenia 197/205 95,2% fałszywe alarmy 10 przeoczenia 8 współczynnik fałszywych alarmów 10/205 4,83% 13/26

Do wykrywania sieciowych oraz obecności wirusów komputerowych są często wykorzystywane sieci neuronowe. Na podstawie zbioru uczącego zawierającego z zainfekowanych systemów komputerowych tworzone są sieci neuronowe, służące do detekcji wirusów / prób naruszenia integralności systemu. Schemat takiej detekcji przedstawia rys.: cecha 1 cecha 2 cecha n-1 cecha n Agregacja Miara ryzyka > próg zagrożenie występuje < próg brak zagrożenia Sieci neuronowe opracowane przez firmę IBM są częścią pakietu Symantec Protection. 14/26

15/26

16/26

Dla parametru skali mapy (zoom) zmieniającego się od 8 do 20: Punktem wyjścia jest wstępny podział zbioru obiektów na s klas ustalony losowo; a) dla każdej klasy wstępnego podziału oblicza się środki ciężkości oraz odległości GD każdego obiektu od środków ciężkości tych klas. Przy ograniczeniu, że maksymalna odległość wewnątrz klasy nie może być większa niż d*(zoom) b) zmienia się przyporządkowanie obiektów do klas o najbliższym wg odległości GD środku ciężkości; c) oblicza się nowe środki ciężkości dla każdej klasy; d) powtarza się kroki b) i c) do chwili, gdy nie nastąpią przesunięcia obiektów między klasami; e) Usuwa się klasy nie zawierające punktów. W wyniku otrzymujemy iteracyjnie struktury klas dla wszystkich wartości parametru skali mapy. 17/26

Odległość między dwoma punktami: - długość i szerokość geograficzna pierwszego punktu - długość i szerokość geograficzna drugiego punktu 18/26

19/26

20/26

21/26

22/26

obszary zastosowań: Gry Komputerowe 1951 Gra Alana Turinga w odgadywanie płci gracza (na kartkach) 1954 Artur Samuel - warcaby (komputer pokonał czwartego gracza w warcaby w USA) 1967 MacHack Richard Greenblatt szachy 1983 Gra Hobbit postacie komputerowe (agenci) doradzający graczowi głównemu 1994 World of Warcraft algorytm heurystycznego znajdowania drogi 1997 komputer Deeper Blue wygrywa w szachy 3 ½ do 2 ½ z G. Kasparowem; 1999 Unreal: Tournament komputerowi agenci naśladujący zachowania graczy 2000 Collin MacRae Rally 2.0 - sieci neuronowe sterują symulatorem samochodu 2001 Black & White metody analizy dyskryminacyjnej i sieci neuronowych umożliwiające uczenie się agentów komputerowych 23/26

obszary zastosowań: Systemy ekspertowe SPINX Boty CLIPS Macsyma Mycin Prospector Dendral Tłumaczenie automatyczne Analiza języka naturalnego Rozpoznawanie mowy 24/26

W styczniu 2014 roku zakupiło za 0,5 mld USD firmę DeepMind Równocześnie zatrudniło na stanowisku Dyrektora wykonawczego Raym 25/26

DZIĘKUJĘ ZA UWAGĘ 26/26