System Msarch 2.1. informacje techniczne



Podobne dokumenty
MSARCH - system archiwizacji przesyłek

2014 Electronics For Imaging. Informacje zawarte w niniejszej publikacji podlegają postanowieniom opisanym w dokumencie Uwagi prawne dotyczącym tego

Instrukcja instalacji usługi Sygnity Service

Wykaz zmian w programie WinAdmin Replikator

Instrukcja konfiguracji funkcji skanowania

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

instrukcja INSTALACJI APi_proxy

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

Jarosław Kuchta Administrowanie Systemami Komputerowymi. Internetowe Usługi Informacyjne

Fiery Remote Scan. Uruchamianie programu Fiery Remote Scan. Skrzynki pocztowe

Wykaz zmian w programie SysLoger

Win Admin Replikator Instrukcja Obsługi

Win Admin Replikator Instrukcja Obsługi

Biuletyn techniczny. CDN OPT!MA 8.5 Wskazówki dotyczące instalacji programu. Copyright 2006 COMARCH SA

Instrukcja instalacji i obsługi programu Szpieg 3

Wykaz zmian w programie SysLoger

Wymagania systemowe. Wersja dokumentacji 1.12 /

KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED

Sieci komputerowe i bazy danych

WEBCON BPS Instalacja Standalone

Dokumentacja wstępna TIN. Rozproszone repozytorium oparte o WebDAV

Wykaz zmian w programie WinAdmin Replikator

Currenda EPO Instrukcja Konfiguracji. Wersja dokumentu: 1.3

Szczegółowa specyfikacja funkcjonalności zamawianego oprogramowania.

7. zainstalowane oprogramowanie zarządzane stacje robocze

SKRÓCONA INSTRUKCJA OBSŁUGI POCZTY ELEKTRONICZNEJ ZIMBRA WEBMAIL

Zadanie1: Odszukaj w serwisie internetowym Wikipedii informacje na temat protokołu http.

Tomasz Greszata - Koszalin

Konfiguracja konta pocztowego w Thunderbird

Szpieg 2.0 Instrukcja użytkownika

Instrukcja instalacji usługi Sygnity SmsService

Dokumentacja aplikacji Szachy online

INSTRUKCJA OBSŁUGI Wersja: 2.5

Instrukcja instalacji usługi Sygnity SmsService

INSTRUKCJA OBSŁUGI Wersja: 1.8

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

INSTRUKCJA KONFIGURACJI KLIENTA POCZTOWEGO

Internetowy serwis Era mail Aplikacja sieci Web

Instrukcja instalacji usługi Sygnity Service

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

System archiwizacji i konserwacji baz danych MS SQL

DHL CAS ORACLE Wymagania oraz instalacja

Asix. Konfiguracja serwera MS SQL dla potrzeb systemu Asix. Pomoc techniczna NIEZAWODNE ROZWIĄZANIA SYSTEMÓW AUTOMATYKI

Wykaz zmian w programie SysLoger

Wymagania systemowe. Wersja dokumentacji 1.9 /

edziennik Ustaw Opis architektury

ZAŁĄCZNIK NR 1.8 do PFU Serwery wraz z system do tworzenia kopii zapasowych i archiwizacji danych - wyposażenie serwerowni

Silent setup SAS Enterprise Guide (v 3.x)

Produkty. ESET Produkty

Obsługa poczty elektronicznej w domenie emeritus.ue.poznan.pl

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.

Procedury techniczne modułu Forte Kontroling. Środowisko pracy programu i elementy konfiguracji

Dokonaj instalacji IIS opublikuj stronę internetową z pierwszych zajęć. Ukaże się kreator konfigurowania serwera i klikamy przycisk Dalej-->.

Instrukcja instalacji Control Expert 3.0

Tytuł: Instrukcja obsługi Modułu Komunikacji internetowej MKi-sm TK / 3001 / 016 / 002. Wersja wykonania : wersja oprogramowania v.1.

INSTRUKCJA OBSŁUGI KLIENTA POCZTY WWW

SYSTEM ZARZĄDZANIA TREŚCIĄ (CMS) STRONY INTERNETOWEJ SZKOŁY PRZEWODNIK

1. Pobieranie i instalacja FotoSendera

Bezpieczne strony WWW dla edukacji, organizacji non-profit i uŝytkowników indywidualnych.

Opracowanie protokołu komunikacyjnego na potrzeby wymiany informacji w organizacji

ZPKSoft WDoradca. 1. Wstęp 2. Architektura 3. Instalacja 4. Konfiguracja 5. Jak to działa 6. Licencja

Dokumentacja fillup - MS SQL

Fiery Remote Scan. Łączenie z serwerami Fiery servers. Łączenie z serwerem Fiery server przy pierwszym użyciu

e-audytor v.3.x INSTRUKCJA INSTALACJI I URUCHOMIENIA SYSTEMU

TRX API opis funkcji interfejsu

PODRĘCZNIK UŻYTKOWNIKA programu Automat 3

SysLoger. Instrukcja obsługi. maj 2018 dla wersji aplikacji (wersja dokumentu 2.5)

Instrukcja instalacji v2.0 Easy Service Manager

Wymagania techniczne dla programów antywirusowych. Oprogramowanie dla serwerów i stacji roboczych będących w sieci - ilość 450 sztuk:

e-awizo SYSTEM POTWIERDZANIA DORĘCZEŃ POCZTY ELEKTRONICZNEJ

System kontroli wersji - wprowadzenie. Rzeszów,2 XII 2010

Świadczenie usługi hurtowej wysyłki wiadomości SMS dla Urzędu Miasta Torunia w latach

Dokument zawiera instrukcję samodzielnej Instalacji Microsoft SQL Server 2005 Express Edition Service Pack 3 na potrzeby systemu Sz@rk.

Instalacja aplikacji

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Kancelaria Prawna.WEB - POMOC

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

Instrukcja administratora Agenta Administracji i Aktualizacji Aplikacji oraz baz danych Polskiego FADN oraz pobierania danych słownikowych

Wszystkie parametry pracy serwera konfigurujemy w poszczególnych zakładkach aplikacji, podzielonych wg zakresu funkcjonalnego.

Zarządzanie Infrastrukturą IT

Win Admin Replikator Instrukcja Obsługi

POLITYKA PRYWATNOŚCI ORAZ POLITYKA PLIKÓW COOKIES W Sowa finanse

Sposób funkcjonowania

OPIS PRZEDMIOTU ZAMÓWIENIA w odniesieniu do zadania antywirus - dostawa oprogramowania antywirusowego

Wykonać Ćwiczenie: Active Directory, konfiguracja Podstawowa

Usługi sieciowe systemu Linux

Kielce, dnia roku. HB Technology Hubert Szczukiewicz. ul. Kujawska 26 / Kielce

Instrukcja użytkownika

systemu informatycznego do przyjmowania i rozpatrywania wniosko w Dokumentacja Techniczna

Instrukcja instalacji wersja 1.01

Acronis Backup & Recovery 10 Server for Windows, Acronis Backup & Recovery 10 Workstation. Instrukcja szybkiego rozpoczęcia pracy

Program szkolenia KURS SPD i PD Administrator szkolnej pracowni internetowej Kurs MD1 Kurs MD2 Kurs MD3 (dla szkół ponadgimnazjalnych)

Windows Serwer 2008 R2. Moduł 8. Mechanizmy kopii zapasowych

Skrócona instrukcja konfiguracji skanowania iwysyłania wiadomości

Program Rejestr zużytych materiałów. Instrukcja obsługi

Aplikacja npodpis do obsługi certyfikatu

Transkrypt:

System Msarch 2.1 informacje techniczne 1

Spis treści 1 Opis ogólny...4 1.1 Funkcjonalność...4 1.2 Technologia...4 1.2.1 Przechwytywanie ruchu pocztowego...4 1.2.2 Archiwizacja...4 1.2.3 Indeksowanie danych...5 1.2.4 Przeszukiwanie archiwum...5 1.3 Wspierane platformy...5 1.4 Zakres przechowywanych informacji...6 1.5 Terminologia w dalszej części dokumentu...7 2 Architektura...8 2.1 Główne komponenty systemu...8 2.1.1 Indekser (archindex)...8 2.1.2 Parser (archparser)...9 2.1.3 Wyszukiwarka...9 2.1.4 System transferu danych...10 2.1.5 Serwer autoryzacji...12 2.2 Przepływ danych...13 3 Dane techniczne, statystyki, wersje...15 3.1 Dane statystyczne z instalacji...15 3.2 Numeracja wersji...15 3.3 Dane techniczne...16 3.4 Najważniejsze zmiany względem wersji 1.5...17 4 Kontakt...18 2

Wersja dokumentu: 1.0, ostatnia aktualizacja: 07.03.05 14:30:12 dotyczy wersji Msarch: 2.1.0 zmiany względem poprzedniej wersji (2.0.3): interfejs graficzny: możliwość wybierania wiadomości z listy wyników, możliwość przesyłania zarchiwizowanych wiadomości z powrotem do aktualnie zalogowanego użytkownika; ulepszenie arkusza stylów archiwizacja: zapisywanie wiadomości razem z oryginalnymi źródłami, skompresowanymi GZIPem, nie podlegającymi indeksowaniu; kasowanie wiadomości w postaci źródłowej parsowanie wiadomości: zapisywanie wiadomości w postaci źródłowej, kompresja przy pomocy GZIP przesyłanie wiadomości: poprawka drobnego błędu 3

1 Opis ogólny System Msarch w wersji 2.X jest zestawem aplikacji zapewniającym pełną archiwizację komunikacji wykorzystującej pocztę elektroniczną. Może być zastosowany zarówno do ruchu internetowego (wiadomości wysyłane z firmy na zewnątrz i otrzymywane z zewnątrz), jak i intranetowego (wiadomości wysyłane w ramach jednej domeny pocztowej). Od wersji 2.1 możliwe jest także odzyskiwanie zarchiwizowanych wiadomości w postaci oryginalnej przez przesłanie ich do użytkownika z wykorzystaniem protokołu SMTP. 1.1 Funkcjonalność Podstawowa funkcjonalność systemu Msarch obejmuje: a) gromadzenie na centralnym serwerze wiadomości pocztowych pochodzących z jednego lub kilku serwerów pocztowych (MTA) b) parsowanie wiadomości z uwzględnieniem różnorodnych konwencji przyjmowanych przez programy pocztowe, rozszerzeń do standardów MIME oraz błędów popełnianych przez programy pocztowe c) indeksowanie wiadomości oraz załączników d) wyszukiwanie danych w archiwum na podstawie zestawu opcjonalnych kryteriów filtrowania e) automatyczne usuwanie starych danych z archiwum Opcjonalnie, system może być wyposażony w funkcję autoryzacji dostępu na poziomie aplikacyjnym, co zapewnia dodatkowo: a) umożliwienie użytkownikowi wyszukiwania wiadomości wysłanych do niego lub od niego, także z możliwością uwzględnienia aliasów pocztowych i adresów grupowych b) zaznaczanie i odzyskiwanie wiadomości z wykorzystaniem protokołu SMTP W chwili obecnej autoryzacja dostępu współpracuje z Sun Java Enterprise Directory Server 5.X. Oczywiście możliwe jest rozszerzanie funkcjonalności systemu. 1.2 Technologia System Msarch składa się się z szeregu współpracujących ze sobą komponentów, co umożliwia łatwą modyfikację konfiguracji i dostosowanie jej do konkretnych potrzeb użytkownika. Swoją funkcjonalność system realizuje w czterech głównych krokach: (i) przechwytywanie ruchu pocztowego, (ii) archiwizacja, (iii) indeksowanie, (iv) wyszukiwanie i opcjonalne odzyskiwanie. 1.2.1 Przechwytywanie ruchu pocztowego System umożliwia przechwytywanie ruchu pocztowego przechodzącego przez serwer pocztowy (MTA) firmy. Zalecane aplikacje tego rodzaju, z którymi Msarch gwarantuje bezproblemową współpracę, to Clearswift MAILsweeper oraz MTA Postfix (www.postfix.org). Możliwe jest dostosowanie systemu do współpracy z innymi aplikacjami. Transfer wiadomości odbywa się przy pomocy usługi (w przypadku systemu Windows) lub demona (w przypadku systemów unixowych / linuksowych) działającego na maszynie, na której działa MTA, przesyłającego wiadomości pocztowe na centralny serwer archiwizacji. Aplikacja MTA jest odpowiedzialna jedynie za zapisywanie przesyłanej komunikacji do folderu na dysku twardym. Takie rozwiązanie umożliwia minimalną ingerencję w infrastrukturę pocztową firmy. 1.2.2 Archiwizacja Za wprowadzanie danych do archiwum odpowiedzialny jest specjalnie zaprojektowany, szybki parser, 4

przystosowany do parsowania wiadomości zgodnych z RFC822 z późniejszymi aktualizacjami oraz rozszerzeniami MIME. Komponent został wyposażony dodatkowo w szereg algorytmów umożliwiających parsowanie wiadomości wykraczających poza przyjęte standardy RFC oraz w mechanizmy pomiaru wielkości ruchu pocztowego i raportowania o nie sparsowanych z powodu błędów wiadomościach. Takie niesparsowane wiadomości można znaleźć przy pomocy interfejsu wyszukiwania. Treść wszystkich wiadomości konwertowana jest do Unicode (UTF8), co umożliwia przeszukiwanie danych z wykorzystaniem dowolnych znaków narodowych (w tym cyrylicy lub znaków dalekowschodnich). Wiadomości przechowywane są w postaci plików HTML z odpowiednimi tagami META i linkami do dokumentów powiązanych (załączników, treści alternatywnej). W opcji odzyskiwania wiadomości oprócz dwóch repozytoriów dyskowych (dla wiadomości i załączników) utrzymywane jest dodatkowe repozytorium przechowujące skompresowane oryginalne wiadomości w formacie MSG/EML. 1.2.3 Indeksowanie danych Jako silnik indeksujący wykorzystany został zaawansowany technicznie indekser Microsoft Indexing Service w wersji 3. Dzięki temu nawet w przypadku bardzo dużego ruchu sieciowego możliwe jest zachowanie opóźnienia indeksowania (czasu między przesłaniem wiadomości a możliwością znalezienia jej mechanizmem wyszukiwania) na poziomie poniżej 2 minut. Specjalnie dostrojony indekser oraz zarządzany przez dedykowaną usługę systemu Windows zestaw wykazów zapewnia wyłączanie skanowania archiwów, które już nie ulegają zmianie, co zmniejsza obciążenie dysku i procesora maszyny archiwizującej. System Msarch bez problemu przechowuje dane o wielkościach przekraczających 400 GB, zapewniając czas dostępu do archiwum na poziomie 5-45 sekund. Automatyczna rotacja indeksów umożliwia dobranie odpowiedniego okresu, przez jaki dane mają być przechowywane. Dane starsze są automatycznie usuwane z archiwum w okresie najmniejszej aktywności użytkowników. Indeksowane dane obejmują nie tylko treść przesyłanych wiadomości pocztowych, ale także treść i właściwości załączników pocztowych. 1.2.4 Przeszukiwanie archiwum Interfejs wyszukiwania jest aplikacją dostępną przez WWW, umożliwiającą podanie kryteriów wyszukiwania (pola nagłówka wiadomości, czas wprowadzenia do archiwum, rozmiary i nazwy załączników, treść wiadomości i załączników i inne) oraz przeglądanie i sortowanie wyników wyszukiwania. Możliwe jest określenie stronicowania wyników oraz maksymalnej liczby oczekiwanych rezultatów. Zastosowany zaawansowany język zapytań Indexing Service Query Dialect 2 umożliwia stosowanie łączenia zapytań przy pomocy operatorów logicznych, wyszukiwanie prefiksowe oraz wyszukiwanie przy pomocy tzw. wildcardów. Aplikacja działa wykorzystując serwer WWW Microsoft Internet Information Services oraz API Content Index Server Side Objects. 1.3 Wspierane platformy Archiwum musi znajdować się na systemie Windows 2003 Server Standard Edition / Enterprise Edition, podobnie parser oraz aplikacja wyszukiwania (teoretycznie możliwe jest umieszczenie aplikacji wyszukiwania na innej maszynie, nie było to jednak testowane i nie jest konfiguracją wspieraną). Maszyna musi mieć zainstalowane Microsoft.NET Framework 1.1 oraz Internet Information Services i Indexing Service. Zalecane jest zastosowanie na maszynie archiwizacyjnej oprogramowania antywirusowego, jednak z zachowaniem szczególnej ostrożności i w zgodzie z wytycznymi technicznymi otrzymanymi podczas instalacji systemu. Niezastosowanie się do instrukcji konfiguracji oprogramowania antywirusowego może z dużym prawdopodobieństwem spowodować uszkodzenie archiwum lub powtarzające się awarie systemu antywirusowego. W chwili obecnej najlepiej przetestowanym pod kątem współpracy z systemem Msarch jest 5

oprogramowanie McAfee Virus Scan. Parser wiadomości oraz serwer transferu danych (tzw. hub) powinny znajdować się na tej samej maszynie, co archiwum. Aplikacje pobierania danych (agenci systemu Msarch) działają na takiej platformie, jak MTA, od których pobierają dane. Wspierane przez Msarch platformy to: Microsoft Windows w wersji umożliwiającej uruchomienie.net Framework 1.1 Systemu unixowe (np. Solaris) umożliwiające kompilowanie i wykonywanie programów w C++, zgodne z gcc-2.95 lub gcc 3 oraz nowsze; Systemy linuksowe, umożliwiające kompilowanie i wykonywanie programów w C++, zgodne z gcc >= 2.95 Sama maszyna produkcyjna nie musi być wyposażona w kompilator, a jedynie w biblioteki umożliwiające wykonywanie programów napisanych w C++. Dystrybucja aplikacji Msarch przeznaczonych dla platform unixowych/linuksowych jest binarna, jednak zakłada kompilowanie aplikacji na platformę docelową u użytkownika końcowego. Na prośbę użytkownika możliwe jest przygotowanie wersji binarnej aplikacji na konkretną platformę. 1.4 Zakres przechowywanych informacji System Msarch gromadzi na temat każdej wiadomości pocztowej następujące informacje (po danych oznaczonych gwiazdką * możliwe jest wyszukiwanie przy pomocy standardowego interfejsu): data wysłania wiadomości 1 * odbiorcę wiadomości (pola to, cc, bcc 2 ) * nadawcę wiadomości (pola from, sender) * identyfikator wiadomości (message-id) * temat wiadomości * nazwy załączników * treść wiadomości (w tym pełna treść nagłówka) * klient poczty nadawcy (X-Mailer) * czas sparsowania wiadomości typ treści (content-type) informacja o drodze wiadomości (kolejne MTA, pole received) postać źródłowa wiadomości 3 Dodatkowo wraz z wiadomością przechowywana jest informacja o załącznikach, ich rozmiarze, nazwie pliku, typie MIME, wraz z linkiem do załącznika przechowywanego w archiwum. W przypadku wiadomości będącej załącznikiem przechowywane są następujące informacje (oznaczenie gwiazdką jak powyżej): rozmiar pliku * rozszerzenie załącznika * treść * tytuł (jeśli został rozpoznany typ dokumentu zob. poniżej) 1 najstarsza data umieszczona w polu received nagłówka wiadomości pocztowej 2 w przypadku bcc to, czy możliwe jest wyszukiwanie po tym polu, zależy od zastosowanych MTA oraz od konfiguracji agentów Msarch, w niektórych przypadkach uzyskanie tej informacji z MTA może być utrudnione 3 tylko w przypadku użytych opcji autoryzacji oraz odzyskiwania wiadomości 6

W przypadku załączników do indeksowania treści wykorzystywane są standardowe mechanizmy Indexing Service. Bez instalacji dodatkowych komponentów poprawnie indeksowane są pliki: tekstowe (.txt,.asc,.tab,.csv,.rtf) hipertekst (.html,.htm, inne rozszerzenia powiązane z HTML) dokumenty Microsoft Office (.doc,.dot,.xls,.xlt) dokumenty o nie rozpoznanym typie traktowane są jak dokumenty tekstowe Bez dodatkowych kosztów możliwe jest zastosowanie filtru Adobe PDF IFilter, umożliwiającego indeksowanie dokumentów PDF. Aby indeksować inne formaty plików, można doinstalować komercyjne filtry dostępne w Internecie, tworzone przez zewnętrzne firmy. Filtr PDF został przetestowany i jego zastosowanie jest zgodne z zalecaną konfiguracją archiwizatora. Testy zastosowania pozostałych filtrów komercyjnych nie zostały przeprowadzone w przypadku systemu Msarch i nie ma gwarancji poprawnego funkcjonowania systemu po ich zastosowaniu. Na prośbę użytkownika możliwe jest wykonanie dodatkowych testów i udzielenie gwarancji na poprawność funkcjonowania określonych filtrów. 1.5 Terminologia w dalszej części dokumentu W celu uproszczenia i doprecyzowania informacji umieszczonych w dalszej części dokumentu wprowadzono następującą terminologię: archiwizator, Msarch, system, aplikacja, system archiwizacji jeśli nie jest określone inaczej, chodzi o całość systemu archiwizacji Msarch indekser, archindex - aplikacja Microsoft Indexing Service wraz z kontrolującym ją serwisem archindex (Archive Manager Service) archiwum, indeks, repozytorium całość przechowywanych przez system danych pocztowych wraz z wykazami indeksera i zawartymi w nich indeksami parser, archparser aplikacja parsera wiadomości, serwis Windows wykonujący parsowanie wiadomości wykaz część archiwum odpowiadająca pojedynczemu indeksowi logicznemu (najczęściej przechowująca informacje z okresu tygodnia) folder folder / katalog na dysku twardym systemu operacyjnego agent, archmtclt, klient transferu danych serwis Windows lub demon odpowiedzialny za przechwytywanie wiadomości pocztowych i przesyłanie ich na serwer archiwizacji hub, archmtsrv, serwer transferu danych serwis Windows odpowiedzialny za pobieranie wiadomości od agentów systemu Msarch gui, wyszukiwarka aplikacja wyszukiwania wiadomości i załączników iis serwer WWW Microsoft Indexing Service serwer archiwizacji maszyna, na której znajdują się: archiwizator, hub, parser, gui serwer autoryzacji demon realizujący autoryzację dostępu do wyszukiwarki przy pomocy danych pobranych z LDAP 7

2 Architektura Poniższy rozdział dokumentu prezentuje architekturę systemu Msarch. Nie ma tutaj instrukcji instalacji ani konfiguracji systemu. Te tematy zawarte zostały w dokumencie Msarch 2.1 podręcznik użytkownika. 2.1 Główne komponenty systemu Podstawowymi komponentami systemu są: indekser aplikacja Microsoft Indexing Service + usługa nadzorująca pracę tej aplikacji parser usługa Windows parsująca wiadomości pocztowe oraz wprowadzająca dane do archiwum wyszukiwarka aplikacja WWW serwowana przez Internet Information Services umożliwiająca formułowanie zapytań i przeglądanie wyników. serwer transferu danych usługa Windows odbierająca wiadomości pocztowe od agentów rozlokowanych na serwerach pocztowych (MTA) agenci (klienci transferu danych) usługi Windows lub unixowe demony przechwytujące korespondencję pocztową i przekazujące ją do serwera transferu danych serwer autoryzacji, archuasvc demon umożliwiający autoryzację dostępu do wyszukiwarki oraz danych w repozytorium na podstawie danych zawartych w serwerze LDAP 2.1.1 Indekser (archindex) Microsoft Indexing Service realizuje funkcjonalność indeksowania oraz przeszukiwania archiwów. Ta aplikacja jest standardowo dostępna jako komponent systemu Microsoft Windows 2003 Server Standard/Enterprise Edition. Zarządca Archiwów (Msarch Archive Manager Service) jest aplikacją napisaną w Microsoft.NET 1.1, działającą jako usługa Windows, nadzorującą pracę Indexing Service oraz utrzymującą poprawną strukturę wykazów. Do jej zadań należy: eliminowanie niepotrzebnych wykazów z konfiguracji Indexing Service zakładanie nowych wykazów dla kolejnych tygodni przechowywanych danych, tworzenie folderów przełączanie już nie zmieniających się indeksów w tryb read-only usuwanie starych wykazów, indeksów oraz danych. Repozytorium skonstruowane jest jako drzewo folderów zorganizowane według czasu, jak na rysunku: na górze znajdują się lata (tutaj: 2005) dla każdego roku jest 12 folderów na miesiące w każdym folderze dla miesiąca znajduje się 28,30 lub 31 folderów na dni w każdym folderze dla dni znajdują się 24 foldery dla godzin w folderach godzin znajdują się właściwe dane archiwum Są dwa oddzielne drzewa, jedno na załączniki, jedno na wiadomości. W przypadku wykorzystania opcji odzyskiwania wiadomości jest także trzecie drzewo, na wiadomości przechowywane w oryginalnej postaci. Pliki z tego drzewa przechowywane są w postaci skompresowanej i nie są indeksowane. Podobnie zorganizowane są foldery na indeksy. 8

2005 rok marzec dni miesiąca 3 14 15 16 4 5 6 7 godziny 4 5 6 7 godziny 4 5 6 7 godziny Struktura archiwum (fragment) W momencie rotacji indeksów następuje skasowanie folderów odpowiadających dniom dla wykazu, który ma zostać skasowany. Wątek kasujący jest uruchamiany przez zarządcę indeksów i działa niezależnie aż do zakończenia kasowania. 2.1.2 Parser (archparser) 8 8 8 Parser jest usługą Windows napisaną w Microsoft.NET 1.1, wykonującą parsowanie wiadomości pocztowych i umieszczanie ich w archiwum. Aplikacja wykonuje: parsowanie wiadomości pocztowych w formacie msg (eml) tworzenie folderów archiwum wprowadzanie danych do archiwum pomiar statystyk przetwarzania Parser jest wielowątkowy, można ustawić w konfiguracji tyle wątków parsujących, ile jest procesorów na maszynie. Wiadomości dekomponowane są na podstawowy plik (dane, plik HTML ze specjalnymi znacznikami HTML oraz z linkami do załączników) oraz załączniki w postaci oryginalnej, następnie umieszczane w archiwum. Parser wykonuje pomiar wielkości przetwarzanego ruchu, informacje zapisując w logu. W przypadku niesparsowania wiadomości lub jednego z jej komponentów tworzony jest komponent informujący o niesparsowaniu i podający przyczynę błędu. Takie niesparsowane wiadomości można następnie znaleźć przy pomocy interfejsu wyszukiwania. 2.1.3 Wyszukiwarka Filtrowanie danych wykonywane jest przy pomocy aplikacji ASP.NET i modułu Content Index Server Side Objects (CISSO). Do funkcjonalności aplikacji wyszukiwania należy: umożliwienie użytkownikowi podania kryteriów wyszukiwania kontrola poprawności podanych kryteriów przeszukiwanie archiwów prezentacja wyników, z możliwością ich stronicowania i sortowania (opcjonalnie) kontrola dostępu do aplikacji wyszukiwania połączona z autoryzacją w systemie LDAP (przy 9

wykorzystaniu serwera archuasvc) (opcjonalnie) kontrola dostępu do danych w archiwum (przez WWW) przy pomocy autoryzacji LDAP W razie użycia konfiguracji z autoryzacją LDAP dostęp do archiwum jest chroniony przy pomocy Forms Authentication, a wszystkie zadawane zapytania są uzupełnione o klauzule ograniczające znajdowane wyniki do wiadomości wysłanych przez zautoryzowanego użytkownika lub do niego (lub do grup, do których należy użytkownik). Wyniki prezentowane są przy pomocy dwóch tabel jednej dla wiadomości, jednej dla załączników. W przypadku wiadomości w tabeli dla każdej wiadomości wyświetlane są: link do wiadomości nadawca odbiorca temat datę wprowadzenia do archiwum W przypadku załączników informacje obejmują: link do załącznika link do wiadomości zawierającej załącznik rozmiar w bajtach tytuł (jeśli jest ustawiony, jeśli nie, informacja o rozszerzeniu pliku) W przypadku wykorzystania opcji odzyskania danych, dostępnej jedynie z opcją autoryzacji dostępu do archiwów, wyświetlana jest dodatkowa kolumna służąca do zaznaczania wiadomości. Po zaznaczeniu możliwe jest wydanie polecenia odzyskania danych. W takiej sytuacji zaznaczone wiadomości zostaną przesłane na główny adres e-mail zalogowanego użytkownika. Wiadomości łączone są w pakiety po kilka sztuk tak, żeby sumaryczna wielkość przesyłanego pakietu nie przekroczyła maksymalnego rozmiaru wiadomości pocztowej (domyślnie ok. 5MB). Jeden pakiet zawiera na początku informację o tym, że przesyłane wiadomości zostały odzyskane z systemu Msarch, a następnie (jako załączniki w formacie message/rfc822) odzyskane wiadomości w oryginalnej postaci. 2.1.4 System transferu danych Serwer transferu danych to usługa Windows pobierająca wiadomości pocztowe od agentów działających na serwerach pocztowych. Do jej zadań należy: autoryzacja połączeń od agentów i odbieranie danych pocztowych (po protokole TCP, standardowy port docelowy 889) dbanie o nieprzerwane przesyłanie danych od agentów (kontrola poprawności połączeń, timeouty, ponawianie nieudanych połączeń) dbanie o unikalność nazw wiadomości zapisywanie wiadomości do kolejki (folder na dysku) oczekujących na sparsowanie Klient transferu danych (agent) to usługa Windows lub unixowy demon zapewniający transfer wiadomości z serwerów pocztowych na serwer archiwizacji. Realizuje: połączenie z serwerem transferu danych z opcjonalną autoryzacją typu shared secret pobieranie danych z folderu-kolejki i wysyłanie ich do serwera transferu danych zapewnienie ciągłego przesyłania danych (timeouty, ponawianie połączeń) Transport danych odbywa się po protokole TCP przy wykorzystaniu architektury klient-serwer. Serwer działa na maszynie archiwizacji i odbiera dane od klientów (agentów Msarch). 10

Agenci łączą się z serwerem i dokonują autoryzacji, albo z wykorzystaniem shared secret, albo przy pomocy bindowania do określonego adresu IP. Można także łączyć obie metody. Połączenie między serwerem a klientami jest zamykane po kilku-kilkunastu sekundach nieaktywności. 11

2.1.5 Serwer autoryzacji Demon unixowy zapewniający autoryzację użytkowników zgodnie z wpisami w drzewie LDAP. Autoryzacja jest wykonywana przez: połączenie z klientem autoryzacji (moduł wbudowany w GUI wyszukiwarki) pobranie od klienta loginu użytkownika i hasła dokonanie autoryzacji i zwrócenie informacji o przyznaniu lub odmowie dostępu, w przypadku przyznania dostępu dodatkowo przesyłane są informacje o trybie przyznanego dostępu i zakresie dostępu (adresy e- mail użytkownika, jego aliasy pocztowe i adresy grup, do których użytkownik należy) w przypadku pomyślnej autoryzacji przesłanie informacji o trybie dostępu do archiwów (w chwili obecnej możliwe są dwa tryby: domyślny ograniczony oraz administrator 4 ) Komunikacja autoryzacyjna jest szyfrowana prostym szyfrem symetrycznym kluczem podanym w konfiguracji. Uwaga. Szyfrowanie tego ruchu służy tylko utrudnieniu procesu sniffowania danych szyfr nie jest kryptograficznie bezpieczny. Jego poziom bezpieczeństwa jest nieznacznie wyższy (dzięki pewnej randomizacji kryptogramu) od bezpieczeństwa szyfru Vernama. 4 W tym trybie nie ma ograniczeń na nadawców i odbiorców wiadomości, które może przeszukiwać zalogowany użytkownik 12

2.2 Przepływ danych Podstawowy przepływ danych ilustruje poniższy diagram: MTA Serwer transferu danych Parser wiadomości Load Balancer Klient t.d. MTA Klient t.d. MTA wiadomości SMTP kolejka parsera Zarządca archiwów wiadomości załączniki użytkownik Klient t.d. ARCHIWUM HTTP GUI Internet Information Services zapytania CISSO i wyniki Indexing Service INDEKSY Serwer LDAP dane autoryzacyjne / informacja o użytkowniku maszyna archiwizacyjna Autoryzacja LDAP Kolejne etapy przepływu danych to: 1. pobranie wiadomości z serwera pocztowego / serwerów pocztowych 2. transfer danych w postaci oryginalnej po TCP na serwer archiwizacji 3. zapisanie danych (ciągle w postaci oryginalnej) na dysk lokalny do kolejki parsowania 4. pobranie danych z kolejki parsowania i umieszczenie w tymczasowym katalogu (w którym także gromadzone są maile na tyle niezgodne ze standardami, że parser nie potrafi ich jednoznacznie przetworzyć) 5. sparsowanie wiadomości i umieszczenie pliku HTML opisującego wiadomość w odpowiednim wykazie wiadomości; umieszczenie załączników w odpowiednim wykazie załączników 6. indeksowanie wiadomości (robi to asynchronicznie Microsoft Indexing Service) 7. cotygodniowa rotacja indeksów (zatrzymanie IS, rotacja wykazów, ponowne uruchomienie IS, uruchomienie niezależnego wątku usuwania starych danych) 8. wyszukiwanie: a) w przypadku braku autoryzacji LDAP: wyspecyfikowanie kryteriów wyszukiwania wyszukiwanie (zapytanie CISSO do IS, odpowiedź) pobranie listy wyników, sortowanie, paging bezpośredni dostęp do danych w archiwach, realizowany przez IIS (wiadomości w postaci HTML są połączone hiperłączami z odpowiadającymi im załącznikami) b) w przypadku konfiguracji z autoryzacją LDAP logowanie do systemu (wymiana danych z modułem autoryzacji umieszczonym na serwerze LDAP, 13

uzyskanie informacji o typie dozwolonego dostępu) wyspecyfikowanie kryteriów wyszukiwania wyszukiwanie (zapytanie CISSO do IS, odpowiedź) pobranie listy wyników, sortowanie, paging dostęp do danych w archiwach przy pomocy przekierowania na skrypt ASP.NET, sprawdzający uprawnienia użytkownika do żądanego pliku 14

3 Dane techniczne, statystyki, wersje 3.1 Dane statystyczne z instalacji Poniżej prezentujemy przykładowe dane statystyczne z dużej instalacji systemu Msarch: Ilość agentów Msarch 3, w sklastrowanej konfiguracji MTA (jak na rysunku przepływu danych) Serwer archiwizacji: dwuprocesorowa maszyna Xeon 2.4 GHz, 1 GB RAM, dyski SCSI w konfiguracji RAID5 Przestrzeń na dane: 450 GB Przestrzeń na indeksy: 60 GB Ilość poindeksowanych wiadomości: ok. 3,5 mln Natężenie ruchu: przetwarzanych wiadomości dziennie: ok. 53 000 (po odfiltrowaniu wiadomości zawirusowanych) zapisywanych danych dziennie: ok. 9 GB (dane przybliżone) Czas wyszukiwania przy dowolnym zapytaniu: < 30 sekund Ilość wykazów w archiwum: około 20, z czego 6 pracuje normalnie, pozostałe w trybie read-only Średnia wielkość wiadomości: 170 KB (w sieci przesyłanych jest bardzo dużo załączników) Kontrola dostępu do archiwów: autoryzacja Windows, tryb administracyjny 3.2 Numeracja wersji Aktualna podwersja systemu Msarch, której dotyczy ta dokumentacja, podana jest po spisie treści dokumentu. Numeracja wersji systemu jest następująca: X.Y.Z. Numer X oznacza numer główny wersji obecnie jest to 2. Numer Y oznacza numer poboczny wersji i zmienia się przy wprowadzeniu ważnej nowej funkcjonalności w systemie. Numer Z zmienia się przy każdym pełnym przebudowaniu systemu. W ramach jednej wersji oznaczonej numeracją X.Y.Z mogą pojawić się poprawki (numeracja: msarch-x.y.zpyyyymmdd) lub rozszerzenia (numeracja: msarch-x.y.z-eyyyymmdd). Nie jest zagwarantowane, że wersje o tych samych numerach X oraz Y będą w 100% kompatybilne. Mogą być wprowadzane np. dodatkowe wpisy do plików konfiguracyjnych systemu. Wersja X.Y.Z+1 zawiera wszystkie poprawki i rozszerzenia wydane do wersji X.Y.Z. 15

3.3 Dane techniczne Cecha Minimalne wymagania sprzętowe Opis Agenci Msarch, serwer autoryzacji brak specyficznych wymagań Serwer archiwizacji: wymagania silnie zależą od wielkości ruchu pocztowego w firmie oraz spodziewanej długości okresu przechowywania danych w archiwum. Dla ruchu rzędu 50 tysięcy wiadomości dziennie i okresu przechowywania danych ok. 2-3 miesięcy zalecaną konfiguracją jest: 1024 MB RAM Wyszukiwanie załączników mocny procesor (rzędu Xeon 2 GHz) szybkie dyski, zalecane SCSI, w macierzy RAID5 (wykonywanie kopii zapasowych systemu Msarch jest utrudnione ze względu na dużą ilość danych do backupowania) Oczywiście, maszyna może posiadać więcej procesorów. Maszyna może także posiadać zwykłe dyski IDE. W przypadku korzystania z wyszukiwarki przez wielu użytkowników konieczne może być zastosowanie mocniejszej maszyny. Po treści i właściwościach rozpoznawanych przez Indexing Service, w przypadku konfiguracji bez autoryzacji LDAP Wyszukiwanie po załącznikach w przypadku z autoryzacją LDAP jest w fazie implementacji Sposób wykorzystania Indexing Service Dedykowany, nie jest możliwe wykorzystanie Indexing Service do innych celów (wszystkie wykazy nie należące do systemu Msarch zostaną usunięte) Metoda notyfikacji o nowych plikach Metoda usuwania plików Autoryzacja LDAP Notyfikatory wpięte w system plików NTFS, powiadamiające indekser o zmianach danych Co tydzień, standardowo w niedzielę o g. 02:02, usuwanie danych z ostatniego tygodnia archiwum Wspierane serwery LDAP: Sun Java Enterprise Directory Server 5.X IPlanet Directory Server Netscape Directory Server umożliwia wykorzystanie SHA-1 oraz SSHA Tryby dostępu do archiwów Adresy pocztowe wyznaczane dla użytkownika Instalacja systemu Aktualizacje oprogramowania Ograniczony (maile do autoryzowanego użytkownika lub od niego, oraz na adresy grupowe, do których użytkownik należy) Administracyjny (wyszukiwanie bez ograniczeń) Adres główny, aliasy pocztowe, grupy statyczne, grupy dynamiczne (wyznaczane przy pomocy LDAP query) Ręczna wg instrukcji, brak instalatora automatycznego, zalecane wdrożenie przez producenta, dalszą administrację oraz instalowanie aktualizacji może wykonywać użytkownik. Aktualizacje Windows Update zalecane. Aktualizacje Msarch w postaci poprawek / rozszerzeń lub aktualizacja do nowszej wersji. 16

3.4 Najważniejsze zmiany względem wersji 1.5 W stosunku do wersji 1.5 w systemie Msarch wprowadzono następujące zmiany: kod został przepisany na Microsoft.NET i lepiej zoptymalizowany wprowadzono opcjonalną autoryzację dostępu do archiwów z wykorzystaniem serwera LDAP wprowadzono autoryzację klientów transferu danych przy pomocy mechanizmu shared secret zaimplementowano wydajniejszy i lepiej dostosowany do występujących w wiadomościach błędów parser, w który wbudowano mechanizmy pomiaru wielkości przetwarzanego ruchu oraz mechanizmy raportowania o błędach parsowania zmieniono strukturę archiwów z równomiernie obciążonego zestawu równolegle działających wykazów na wykazy pojedyncze, działające przez tydzień, po którym następuje rotacja, uporządkowanie i wreszcie przełączenie wykazu w tryb read-only; dzięki temu zmniejszono obciążenie serwera oraz zwiększono maksymalny rozmiar repozytorium zmieniono mechanizm usuwania danych z ciągłego (usuwanie codzienne wiadomości) na cotygodniowy, przeprowadzany podczas rotacji wykazów wprowadzono Zarządcę Indeksów, usługę nadzorującą pracę Indexing Service i wykonującą kasowanie danych; tym samym usunięto serwis kasowania danych z wersji 1.5 zmieniono sposób wykorzystania Indexing Service na dedykowany IS może być wykorzystywany wyłącznie przez system Msarch, każdy inny wykaz zostanie usunięty usunięto nie wykorzystywane przez użytkowników kryteria wyszukiwania (np. content-type), wprowadzono ulepszone stronicowanie i możliwość wyłączenia stronicowania, wprowadzono możliwość określenia maksymalnej ilości rezultatów rozszerzono język zapytań, wprowadzając zapytania logiczne typu &! (and not), wprowadzono możliwość wybrania składni zapytań LIKE lub CONTAINS 17

4 Kontakt W sprawach technicznych lub handlowych dotyczących systemu należy się kontaktować przez e-mail lub telefonicznie: CC Otwarte Systemy Komputerowe Sp. z o.o. ul. Rakowiecka 36 02-532 Warszawa tel.: +48 22 646 68 73 fax: +48 22 606 37 80 e-mail: cc@cc.com.pl http://www.cc.com.pl System Msarch w obecnej postaci prezentuje funkcjonalność opisaną w tym dokumencie. Na prośbę użytkowników funkcjonalność może zostać rozszerzona. 18