TECHNIKI FILTROWANIA SPAMU



Podobne dokumenty
POLITYKA ANTYSPAMOWA. załącznik do Ramowego Regulaminu Usługi HotSender.pl [ link ]

Polityka antyspamowa platformy mailingowej Mail3

Nieustanny rozwój. Tomasz Leśniewski

e-awizo SYSTEM POTWIERDZANIA DORĘCZEŃ POCZTY ELEKTRONICZNEJ

Instrukcja aktywacji tokena w usłudze BPTP

Kaspersky Hosted Security

REFERAT O PRACY DYPLOMOWEJ

Pełna specyfikacja pakietów Mail Cloud

Pełna specyfikacja pakietów Mail Cloud

Arkanet s.c. Produkty. Sophos Produkty

OCHRONA PRZED RANSOMWARE. Konfiguracja ustawień

Metody walki z niezamawianą treścią

Certyfikat. 1 Jak zbieramy dane?

Odpowiedzi na pytania do postępowania na zakupu oprogramowania antywirusowego (NR BFI 1S/01/10/05/2019) z dnia

1 Jak zbieramy dane? 1/5

Polityka ochrony danych osobowych w programie Norton Community Watch

Pełna specyfikacja pakietów Mail Cloud

W tym raporcie znajdziesz 10 praktycznych wskazówek, które pomogą Ci zminimalizować ryzyko zakwalifikowania Twoich wiadomości jako spam.

POLITYKA PRYWATNOŚCI ORAZ POLITYKA PLIKÓW COOKIES W Sowa finanse

OCHRONA PRZED RANSOMWARE

Początek formularza Dół formularza

3S TeleCloud - Aplikacje Instrukcja użytkowania usługi 3S FAX SYSTEM

Skrócony podręcznik dla partnerów

Bezpieczeństwo poczty elektronicznej

Pomoc dla r.

AKTUALNA OFERTA ORAZ MOŻLIWOŚĆ ZAKUPU LICENCJI:

Różnice pomiędzy hostowanymi rozwiązaniami antyspamowymi poczty firmy GFI Software

POLITYKA PRYWATNOŚCI

Opis przedmiotu zamówienia w postępowaniu na usługę udostępniania/świadczenia poczty elektronicznej on-line (z aplikacją kalendarza).

ZASADY KORZYSTANIA Z PLIKÓW COOKIES ORAZ POLITYKA PRYWATNOŚCI W SERWISIE INTERNETOWYM PawłowskiSPORT.pl

Prezentacja systemów raportowania. oraz badania skuteczności przeprowadzonych kampanii

Arkanet s.c. Produkty. Norman Produkty

Autorytatywne serwery DNS w technologii Anycast + IPv6 DNS NOVA. Dlaczego DNS jest tak ważny?

POLITYKA PRYWATNOŚCI

SPAM studium przypadku

Polityka prywatności

POLITYKA PRYWATNOŚCI

Zajęcia e-kompetencje

Jak bezpiecznie korzystać z usług świadczonych przez Uczelnię. Jak się zabezpieczać oraz na co zwracać szczególną uwagę.

Spis treści. CRM. Rozwijaj firmę. Uporządkuj sprzedaż i wiedzę o klientach. bs4 intranet oprogramowanie, które daje przewagę

POLITYKA PRYWATNOŚCI

INSTRUKCJA OBSŁUGI. Pakietu Bezpieczeństwa UPC (ios) Radość z. każdej chwili

RAPORT Z BADANIA ZJAWISKA SPAMU W POLSCE

Regulamin aktywacji i korzystania z darmowego Pakietu Poczty Elektronicznej oraz strony WWW w Młodzieżowej Spółdzielni Mieszkaniowej.

Szczegółowe warunki korzystania z dodatkowych adresów IP

Symantec Enterprise Security. Andrzej Kontkiewicz

3. DyplomyDlaDzieci.pl dokłada szczególnej staranności do poszanowania prywatności Klientów odwiedzających Sklep. 1 Zbieranie danych

ZARZĄDZANIE FLOTĄ URZĄDZEŃ DRUKUJĄCYCH

wersja dokumentu 1.0 data wydania

POLITYKA PRYWATNOŚCI sklepu

POLITYKA PRYWATNOŚCI

Produkty. MKS Produkty

Administratorem danych osobowych RehShop.pl (dalej Administrator), czyli odpowiedzialnym za zapewnienie bezpieczeństwa Twoim danym osobowym jest:

POLITYKA PRYWATNOŚCI

Administratorem danych osobowych PAN BRAND (dalej Administrator), czyli odpowiedzialnym za zapewnienie bezpieczeństwa Twoim danym osobowym jest:

P O L I T Y K A P R Y W A T N O Ś C I. 1 Jak zbieramy dane?

Zbiory danych powstające w Internecie. Maciej Wierzbicki

Do jakich celów używamy komputera.

POLITYKA PRYWATNOŚCI. 1 Jak zbieramy dane?

Ochrona poczty elektronicznej przed spamem. Olga Kobylańska praca dyplomowa magisterska opiekun pracy: prof. nzw.. dr hab.

POLITYKA PRYWATNOŚCI Polityka prywatności abcedukacja.pl I. Kto jest administratorem danych osobowych abcedukacja pl?

Fundacja Ośrodka KARTA z siedzibą w Warszawie, przy ul. Narbutta 29 ( Warszawa),

POLITYKA PRYWATNOŚCI

Ochrona antyspamowa w podmiotach publicznych

Konfiguracja programu pocztowego dla kont w domenie spcsk.pl


POLITYKA PRYWATNOŚCI

Administratorem danych osobowych Paisley.pl (dalej Administrator), czyli odpowiedzialnym za zapewnienie bezpieczeństwa Twoim danym osobowym jest:

POLITYKA PRYWATNOŚCI Konkurs wiedzy dermatologicznej dla lekarzy

E safety bezpieczny Internet. Mariusz Bodeńko Białystok,

Wykorzystanie SMTP w PHP

9. System wykrywania i blokowania włamań ASQ (IPS)

Kaspersky Security Network

Konfiguracja poczty IMO dla urządzeń mobilnych z systemem ios oraz Android.

P O L I T Y K A P R Y W A T N O Ś C I

POLITYKA PRYWATNOŚCI

Regulamin Serwera Ardanis.pl

Vario.Kancelaria kompleksowe zarządzanie informacją i dokumentem

ATAKI NA SYSTEMY KOMPUTEROWE POZNAJ SWOJEGO WROGA. opracował: Krzysztof Dzierbicki

Kontakt Infolinia:

Polityka prywatności i bezpieczeństwa przetwarzania danych osobowych w zbiorze czas-na-przeglad.pl

Jak radzić sobie ze spamem

Rozdział 6 - Z kim się kontaktować Spis treści. Wszelkie prawa zastrzeżone WiedzaTech sp. z o.o Kopiowanie bez zezwolenia zabronione.

Budowa i działanie programów antywirusowych

Sieci komputerowe i bazy danych

Najwyższa jakość ochrony na każdym poziomie.

Klient poczty elektronicznej - Thunderbird

Zarządzanie korespondencją

Polityka prywatności. Obowiązująca do dnia r.

SPECYFIKACJA USŁUG HOSTINGOWYCH

POLITYKA PRYWATNOŚCI

Elektroniczna Skrzynka Podawcza

Przesyłania danych przez protokół TCP/IP

Administratorem danych osobowych Voida.pl (dalej Administrator), czyli odpowiedzialnym za zapewnienie bezpieczeństwa Twoim danym osobowym jest:

Polityka Prywatności i Cookies

Przykładowa konfiguracja konta pocztowego w programie Outlook Express z wykorzystaniem MKS 2k7 (MS Windows 2000 Proessional)

Wymagania techniczne dla programów antywirusowych. Oprogramowanie dla serwerów i stacji roboczych będących w sieci - ilość 450 sztuk:

1 Jak zbieramy dane? 1/5

Transkrypt:

Scientific Bulletin of Che lm Section of Mathematics and Computer Science No. 1/2008 TECHNIKI FILTROWANIA SPAMU MAREK ZARYCHTA Instytut Informatyki, Państwowa Wyższa Szkoła Zawodowa w Jarosławiu Streszczenie. Artykuł zawiera przegląd wykorzystywanych obecnie technik filtrowania spamu. Opis każdej z metod przedstawia jej krótką charakterystykę z uwzględnieniem korzyści i ograniczeń omawianej metody. Zaprezentowane metody obejmują: filtrowanie słów kluczowych, czarne listy serwerów open relay i open proxy, czarne listy adresów dial up i list mailingowych, szare listy, system pytanie - odpowiedź, współdzielone sygnatury spamowe i filtry bayesa. 1. Wprowadzenie Spam to etymologicznie mielonka, która w odróżnieniu od ham u (szynki) jest obiektem zdecydowanie mniej pożądanym i wywołującym szybko odczucie przesytu u konsumenta. Przyjęto, że pierwszy spam został rozesłany 5 marca 1994 roku [1]. W ciągu kolejnych 10 lat spam rozpowszechnił się do tego stopnia, iż stanowił już około 65% wiadomości rozsyłanych pocztą elektroniczną. Nadmierny udział spamu wśród wiadomości e-mail może wkrótce uczynić pocztę elektroniczną bezużytecznym reliktem epoki wczesnego Internetu. Mając na uwadze te fakty, postaram się dokonać przeglądu technik filtrowania oraz blokowania spamu ze szczególnym uwzględnieniem sposobów funkcjonowania poszczególnych rodzajów filtrów, gromadzenia przez nie danych oraz korzyści płynących z ich wykorzystywania. Wiadomość elektroniczną klasyfikuje się jako spam, gdy posiada ona jednocześnie następujące cechy [2]: - treść i kontekst wiadomości są niezależne od tożsamości odbiorcy, ponieważ ta sama treść może być skierowana do wielu różnych potencjalnych odbiorców, - odbiorca nie wyraził uprzedniej, możliwej do weryfikacji, zamierzonej, wyraźnej i zawsze odwoływalnej zgody na otrzymanie tej wiadomości, - treść wiadomości daje odbiorcy podstawę do przypuszczeń, iż nadawca wskutek jej wysłania może odnieść korzyści nieproporcjonalne w stosunku do korzyści odbiorcy wynikających z jej odebrania. Skala zjawiska, jakim jest spam, rozszerzyła się znacznie w ciągu 14 lat, które upłynęły od jego narodzin. Z nieobyczajnego łamania netykiety przez użytkowników USENT u zamieszczających posty reklamowe, spam urósł do rangi poważnego problemu społecznego, który postrzegany jest jako zagrożenie dla funkcjonowania poczty elektronicznej, 333

334 MAREK ZARYCHTA a do walki z nim angażują się kolejne organizacje i rządy wielu państw uprzemysłowionych. Aby lepiej pojąć istotę spamu i negatywne emocje, jakie wzbudza on wśród użytkowników poczty elektronicznej oraz administratorów serwerów pocztowych, należy uświadomić sobie skalę i rozmiar zjawiska. Firma Sophos w swoim kwartalnym raporcie szacuje, że aż 92,3% wiadomości przesyłanych pocztą elektroniczną to spam [3]. Według tego samego raportu w czołówce państw - producentów spamu znajdują się: USA, Rosja i Turcja. Udział spamu generowanego przez maszyny z tych krajów wynosi odpowiednio: 15,4%, 7,4% i 5,9%. Polska z wynikiem 3,8% uplasowała się na siódmej pozycji w tym niechlubnym rankingu. Istotnym czynnikiem wpływającym na uciążliwość spamu jest koszt jego odbioru i przetwarzania. Tym kosztem jest utrata produktywności pracownika i sam koszt filtrowania spamu. Przyjmując, że przeciętny pracownik poświęca dziennie 30 sekund na oczyszczenie swojej skrzynki pocztowej z niepożądanych wiadomości, skonkludujemy zatem, że 1000 pracowników potrzebuje na to rocznie 3416 roboczogodzin. Spam podnosi także koszty użytkowania Internetu dla domowych odbiorców sieci korzystających z usług firm providerskich (ISP). Amerykańska korporacja AOL twierdzi, że 15% wpływów z opłat abonamentowych za dostęp do Internetu jest przeznaczane na walkę ze spamem i reagowanie na skargi od niezadowolonych klientów [4]. W świetle tych informacji oczywistym wydaje się stwierdzenie, iż kosztami dystrybucji spamu obciążany jest jego odbiorca w stopniu niewspółmiernie większym niż nadawca. Idąc dalej, można uznać spam za formę niezamawianej reklamy na koszt odbiorcy. Na zakończenie rozważań należy zauważyć, że treść niechcianych przesyłek e-mailowych bardzo często zawiera oszukańcze, kłamliwe, obraźliwe i obsceniczne treści. Odbiorca spamu pozostaje anonimowy dla nadawcy, w związku z tym bardzo często adresatami reklam przeznaczonych dla dorosłych stają się dzieci. Ponadto większość spośród spamowych przesyłek podaje nieprawdziwe informacje na temat reklamowanych produktów i usług. 2. Techniki filtrowania Biorąc pod uwagę uciążliwość i skalę zjawiska nie dziwi fakt, iż do tej pory opracowano wiele rozwiązań mających na celu automatyzację filtrowania, usuwania i blokowania spamu. Wszystkie znane rozwiązania bazują na zaledwie kilku metodach. Filtrowanie może przebiegać w dwóch kategoriach: na podstawie zawartości lub pochodzenia wiadomości. Mechanizmy filtrujące mogą działać na różnych etapach dostarczania wiadomości, mogą być implementowane na poziomie serwera: przez mechanizmy MTA (mail transport agent) lub MDA (mail delivery agent) albo w programie pocztowym odbiorcy - MUA (mail user agent). Jedne z najstarszych metod filtrowania polegają na wykorzystaniu tzw. czarnych list - może to być lista nadawców, adresów IP, słów itp. 2.1. Analiza słownikowa. Omawiana metoda ma istotną zaletę - jest stosunkowo łatwa do zastosowania. Wykorzystuje się fakt, iż większość przesyłek spamowych zawiera te same, charakterystyczne grupy słów, np.: viagra, free, money, unsubscribe itd. Filtry tego typu są dość powszechnie implementowane w programach pocztowych. Skuteczność filtra słownikowego zależy w dużej mierze od doboru niepożądanych fraz przez użytkownika w trakcie przygotowywania czarnej listy. Zbyt dyskryminująca, źle przygotowana

TECHNIKI FILTROWANIA SPAMU 335 czarna lista słów może w konsekwencji doprowadzić do nadmiernej ilości fałszywych pozytywów generowanych przez filtr. Z tego punktu widzenia zastosowanie restrykcyjnego filtra słownikowego daje najlepsze wyniki, gdy odbiorca nie przewiduje przyjmowania żadnej korespondencji biznesowej w języku angielskim. Na niekorzyść filtra przemawia sprawność i szybkość działania środowisk spamerskich. Adaptacyjne działania spamerów polegające na zamianie blokowanych słów na inne (np.: viagra na v1agra) są podejmowane dość szybko i potrafią skutecznie ograniczyć działanie filtra, jeżeli lista słów nie jest dostatecznie często aktualizowana. Kolejnym mankamentem tej metody jest nakład pracy i czas odbiorcy poświęcany na aktualizowanie listy słów, można go porównać z nakładem na opróżnienie skrzynki pocztowej ze spamu. 2.2. Czarne listy (RBL). Listy RBL (Real-time Black Lists) to dostępne online bazy adresów IP podejrzewanych o rozsyłanie spamu. Znakomita większość spośród wpisów na tych listach to adresy serwerów open relay i adresy użytkowników dial-up. Serwer open relay (dosł. otwarty przekaźnik) jest przykładem, jak niewiedza i brak przygotowania początkującego administratora serwera pocztowego mogą przysłużyć się spamerom. Serwery open relay umożliwiają przekazywanie poczty bez dokonania autoryzacji nadawcy. Złośliwe aplikacje nieustannie skanują Internet w poszukiwaniu serwerów open relay. Od momentu znalezienia niezabezpieczonego serwera do jego wykorzystania przez boty spamerów upływają zaledwie minuty. Lawinowy wzrost ilości dystrybuowanego w ten sposób spamu skłania do masowego bojkotowania serwerów open relay, chociaż istnieje pewne ryzyko, że serwer znajdzie się na blokowanej czarnej liście w wyniku krótkotrwałego błędu lub przypadku. Odsetek niesłusznie zablokowanych w ten sposób wiadomości wydaje się niewielki, gdyż taki incydent najczęściej szybko kończy reakcja odpowiedzialnego administratora serwera pocztowego. Złą sławą cieszą się również serwery open proxy. Serwery tego typu bywają instalowane jako serwery pośredniczące dla wybranej grupy użytkowników inter- czy intranetowych, jednak najczęściej wskutek błędnej konfiguracji, są dostępne dla wszystkich. Spamerzy wykorzystują serwery open proxy, podobnie jak open relay, aby zamaskować własny adres IP, co pozwala pozostać im anonimowymi. Korzyści i wady z blokowania serwerów open proxy są podobne do tych wynikających z blokowania open relay. Czarne listy dial-up obejmują bloki adresów internetowych przydzielane przez operatorów ISP do obsługi klientów korzystających z łącz komutowanych i linii ADSL. Zakłada się, że użytkownicy korzystający z dynamicznych pul adresowych nie powinni mieć możliwości wysyłania poczty elektronicznej bezpośrednio do serwera pocztowego odbiorcy. Wszystkie e-maile pochodzące z tych przestrzeni adresowych powinny być wysyłane za pośrednictwem dodatkowego serwera pocztowego, np.: należącego do ISP, czy korporacyjnego serwera SMTP. Blokowanie przestrzeni adresowych dial-up nie powinno sprawiać kłopotu użytkownikom komputerów domowych, a jednocześnie pozwala w znacznym stopniu ograniczyć ilość rozsyłanego za ich pośrednictwem spamu. Niska kultura informatyczna użytkowników komputerów, wadliwie funkcjonujące oprogramowanie, powszechny brak oprogramowania antywirusowego powodują, że firmy mailingowe działające na pograniczu prawa chętnie korzystają z usług programistów do opracowywania wirusów komputerowych umożliwiających rozsyłanie spamu za pośrednictwem komputerów osobistych podłączonych do Internetu. Zainfekowany komputer działa wtedy jako serwer open relay lub open proxy [5]. Na usługach spamerów działają całe tzw. botnety (grupy komputerów zainfekowanych złośliwym oprogramowaniem

336 MAREK ZARYCHTA pozostające pod całkowitą kontrolą twórcy botnetu). Eksperci firmy Spamhaus szacują, że około 70% spamu jest rozsyłane właśnie z wykorzystaniem botnetów [6]. Blokowanie hostów z adresów dynamicznych niestety godzi w interesy małych firm, biur i hobbystów pragnących posiadać własny serwer pocztowy. Kolejnym powodem dołączenia adresu hosta na czarną listę może być prowadzenie listy dyskusyjnej niewymagającej potwierdzania subskrypcji. Normalnie działająca lista dyskusyjna umożliwia subskrybentowi wypisanie się z niej w dowolnym terminie, a sam proces zapisywania na taką listę wymaga potwierdzenia uczestnictwa na drugim etapie subskrypcji. Potwierdzenie polega na wykonaniu przez subskrybenta określonej w inicjującym e-mailu czynności, np. odesłaniu e-maila pod wskazany adres czy otwarciu podanego w wiadomości URLa. Nieuczciwe firmy mailingowe prowadzą listy pozbawione możliwości wypisania się, a subskrypcja jest dokonywana bez wiedzy zainteresowanego. Subskrypcji na taką listę może dokonać sama firma mailingowa lub osoba trzecia, np. w ramach złośliwego żartu. Blokowanie niewymagających potwierdzenia list dyskusyjnych niesie pewne ryzyko odrzucenia pożądanych e-maili, lecz konsekwencje odrzucenia nawet istotnej wiadomości z listy dyskusyjnej są zdecydowanie mniejsze niż konsekwencje odrzucenia przesyłki od nadawcy indywidualnego. 2.3. Szare listy. Szare listy (greylisting) to jedna z młodszych technik filtrowania opracowana przez Harrego Evansa. Skuteczność metody jest bardzo wysoka, a jej jedyna wada to niewielkie opóźnienie w dostarczaniu wiadomości do adresata. Technika szarych list opiera się na następujących założeniach [7]: - spamerzy zwykle nie korzystają z normalnych serwerów pocztowych do rozsyłania spamu (wyjątek to open relay i open proxy), lecz wykorzystują do tego programy, które nie posiadają pełnej funkcjonalności serwera pocztowego. - spamerzy nie wysyłają tego samego spamu po raz drugi do tego samego adresata. Szara lista musi być zaimplementowana na poziomie MTA (Mail Transport Agent). Wszystkie przychodzące e-maile są identyfikowane na podstawie trzech informacji kopertowych: numeru IP komputera dostarczającego pocztę, adresu nadawcy oraz odbiorcy. Trójki (triplets) przechowywane są w bazie. Docierająca do serwera przesyłka, która zawiera nową, dotychczas nie napotkaną trójkę, jest odrzucana z komunikatem o tymczasowym błędzie (komunikat protokołu SMTP z serii 4xx). Po odrzuceniu połączenia trójka jest zapisywana do bazy tak, aby następne połączenie o tej samej trójce mogło być przyjęte. Jeśli trójka zostanie rozpoznana, list jest przyjmowany. Zgodnie z przyjętym założeniem oprogramowanie SMTP wykorzystywane przez spamerów nie posiada pełnej funkcjonalności serwera pocztowego. Nie jest ono w stanie odróżnić tymczasowego (kod 4xx) od permanentnego (kod 5xx) odrzucenia wiadomości, nie posiada także mechanizmów kolejkowania. Zaimplementowanie mechanizmów kolejkowania wiadomości wymagałoby rozbudowy aplikacji spamerskich i dodatkowych zasobów na przetwarzanie informacji. Serwery pocztowe natomiast posiadają wbudowany mechanizm kolejkowania wiadomości. Przetwarzanie kolejki odbywa się w ustalonych odstępach czasu, zwykle co pół godziny. Przy ponownej próbie wysłania wiadomości, e-mail zostanie już zaakceptowany przez serwer chroniony szarą listą. Metoda szarych list jest wysoce skuteczna i nie niesie z sobą ryzyka odrzucenia pożądanych wiadomości. Metoda jest w pełni zautomatyzowana i nie wymaga interwencji użytkownika. Kolejny walor tej metody to oszczędność zasobów serwera pocztowego.

TECHNIKI FILTROWANIA SPAMU 337 Zablokowanie wiadomości daje spore oszczędności pasma, a niechciane wiadomości nie muszą już być przetwarzane przez serwer czy dodatkowe filtry klasyfikujące. 2.4. Pytanie - odpowiedź. Systemy pytanie - odpowiedź (challenge response) działają podobnie do szarej listy. Metoda jest jedną z najskuteczniejszych, chociaż powszechnie krytykowana, a według niektórych osób uznawana za niedopuszczalną i szkodliwą dla społeczności internetowej. Działanie metody polega na założeniu, że spamer nie czyta odpowiedzi na swoje listy. Zanim list od nieznanego nadawcy zostanie dostarczony do odbiorcy, system challenge response wysyła do nadawcy wygenerowaną automatycznie odpowiedź z prośbą o potwierdzenie, np.: odpowiedź na e-mail, otwarcie linka itp. Dopiero po weryfikacji przez nadawcę, oryginalny list dostarczany jest do odbiorcy. Technika challenge response wydaje się być mało eleganckim, ale skutecznym rozwiązaniem, gdy korespondujemy z ludźmi, tymczasem wiele pożądanych wiadomości pochodzi od automatów (powiadomienia, potwierdzenia rejestracji, korespondencja z list dyskusyjnych. itp.). Prawidłowe funkcjonowanie mechanizmu wymaga, aby nadawców tych wiadomości umieścić na białej liście. Kolejny mankament: spamerzy lubią podszywać się pod swoje ofiary. W takim przypadku system challenge response generując e-maile z prośbą o weryfikację do osób, które nie są prawdziwymi nadawcami, sam pośrednio przyczynia się do zaśmiecania sieci przez zwiększenie ilości spamu. Wreszcie wiele osób ignoruje prośby o weryfikację, w myśl zasady Dlaczego twój czas ma być cenniejszy niż mój?. 3. Współdzielone sygnatury spamowe Jedna z nowszych metod detekcji spamu jest podobna do wykorzystywanej przez skanery antywirusowe. Polega ona na współdzieleniu sum kontrolnych lub rozmytych sum kontrolnych wiadomości albo ich fragmentów. Istnieje centralna baza sygnatur, a każda kolejna kwerenda w stosunku do wiadomości wcześniej zaraportowanej jako spam obciąża ją dodatkowo. Projekty bazujące na rozwiązaniu tego rodzaju to m.in. Vipul s Razor i Distributed Checksum Clearinghouse. Zaletą tej metody filtracji jest pełna automatyzacja procesu. Baza danych filtra jest na bieżąco aktualizowana, a od użytkownika końcowego nie wymaga się żadnych działań. Niestety systemy oparte o sumy kontrolne nie zawsze potrafią rozróżnić spam od pożądanej korespondencji masowej, np. e-maili z list dyskusyjnych, stąd ich ograniczona przydatność. 4. Filtry bayesowskie Jedna z najbardziej popularnych i najskuteczniejszych metod zwalczania spamu wykorzystuje analizę statystyczną. Wykorzystanie metody zaproponował Paul Graham w prowokacyjnym artykule A plan for spam [8]. Graham zaproponował budowę filtra opartego o naiwny klasyfikator bayesowski. Klasyfikator bazujący na twierdzeniu Bayesa, wydaje się być szczególnie przydatny do rozwiązywania problemów o wielu wymiarach na wejściu. Metoda, pomimo swojej prostoty, często działa lepiej od innych, bardziej skomplikowanych metod klasyfikujących i jest stosunkowo łatwa do zaimplementowania. Przygotowanie filtra do pracy polega na przetworzeniu przezeń dwóch zbiorów uczących: pożądanej i niechcianej poczty: ham i spam. Dla każdego wyrazu, który pojawił się w tych zbiorach, wyznaczone zostaje prawdopodobieństwo, na podstawie proporcji jego

338 MAREK ZARYCHTA wystąpień. Przetworzenie nowej wiadomości przez filtr polega na obliczeniu całkowitego prawdopodobieństwo tego, że e-mail jest spamem. Filtry bayesowskie cieszą się duża popularnością, są dokładne i adaptacyjne. Mogą uczyć się ciągle na żywych zbiorach danych. Filtry bayesowskie okazują się też być skuteczne w eliminowaniu fałszywych pozytywów. Jedyną wadą tego typu filtrów jest konieczność wytrenowania filtra według własnych potrzeb. Użytkownik musi zabezpieczyć filtrowi odpowiednie zbiory uczące i korygować jego działanie w wypadku, gdy ten dokona błędnej klasyfikacji. 5. Polityka antyspamowa a budowa filtra Ustalając założenia polityki antyspamowej, należy na wstępie zdecydować, czy ochrona ma mieć charakter globalny czy indywidualny. Wybierając rozwiązanie globalne, oszczędzamy zasoby (czas ludzi i maszyn, pasmo itp.), gdyż możemy przeprowadzić filtrację na poziomie MTA i wstępnie wyeliminować sporą część przesyłek. Jeżeli wybierzemy rozwiązanie indywidualne, użytkownik może sam podejmować decyzje odnośnie doboru filtrów, lecz pewne mechanizmy działające na poziomie MTA nie będą dostępne, a każdy e-mail będzie musiał zostać przetworzony przez filtry. Metoda globalna wydaje się idealna dla firm, gdzie administrator po ewentualnym uzgodnieniu z kierownictwem firmy ustala reguły. Metoda indywidualna z kolei nadaje się lepiej dla firm typu ISP (internet service provider) imsp(mail service provider). Oferta skierowana do wybrednego klienta indywidualnego musi uwzględniać jego preferencje. Firmy oferujące komercyjne skrzynki pocztowe nie mogą z góry narzucać rozwiązań, powinny tylko proponować odpowiednie zestawy filtrów. Dobrych efektów można się spodziewać dopiero wtedy, gdy zostanie uruchomiony mechanizm oparty na sekwencyjnym i zagregowanym zestawie filtrów. Większość pakietów komercyjnych i narzędzi open source wykorzystuje właśnie takie agregaty i zespoły filtrów. Warto w tym miejscu wspomnieć choćby popularny spamassassin, który jest wyposażony m.in. w klasyfikator bayesa, współpracuje z kilkunastoma serwisami RBL oraz umożliwia dołączenie klasyfikatorów wykorzystujących sygnatury spamu DCC i Razor. Jak wobec tego konstruować sprawnie działające rozwiązanie? Wysoce efektywnym wydaje się być zastosowanie szarej listy i zablokowania poczty z adresów znajdujących się na listach RBL - daje to skuteczną ochronę na wejściu MTA, eliminując ponad 95% potencjalnego spamu. Uzupełnieniem rozwiązania powinien być zagregowany klasyfikator filtrujący na poziomie MDA, oparty np. o spamassasin. Przy tak dobranym zestawie filtrów zaporowych klasyfikator raportuje tylko 5% spamu w korespondencji, z czego niewielka część to fałszywe pozytywy pochodzące z anglojęzycznych list mailigowych. Nie stwierdza się fałszywych negatywów. Wyliczenia współczynników dokonano na podstawie pomiarów wielkości w systemie obsługującym 400 kont pocztowych, są to wielkości uśrednione mierzone w okresie rocznym między 1 maja 2007r. a 30 kwietnia 2008r. Bibliografia [1] Moody G., Spam s tenth birthday today, http://news.netcraft.com/archives/2004/03/05/spams tenth birthday today.html [2] Mail Abuse Prevention System, http://www.mail-abuse.com/

TECHNIKI FILTROWANIA SPAMU 339 [3] Raport kwartalny Sophos, http://www.sophos.com/sophos/docs/eng/marketing material/sophosthreat-report-q108.pdf [4] Gaspar S., Gaudin S., Network World, 10-09-2001. [5] Leyden J., Spam fighters infiltrate spam clubs, http://www.theregister.co.uk/2004/05/14/spam club/ [6] Linford S., Most spam generated by botnets, says expert, http://news.zdnet.co.uk/security/ 0,1000000189,39167561,00.htm [7] Harris E., The Next Step in the Spam Control War: Greylisting, http://projects.puremagic.com/ greylisting/whitepaper.html [8] Graham P., Aplanforspam, http://www.paulgraham.com/spam.html SPAM FILTERING TECHNIQUES MAREK ZARYCHTA Abstract. This paper looks at the major spam filtering techniques in present use. In looking at methods both success rates and possible problems with each method are explored. Methods discussed include keyword filtering, open relay and open proxy filtering, dial-up filtering, non conforming mailing list filtering, grey listing, challenge response, cooperative sharing of spam samples and Bayesian filtering.