Zorientowany na użytkownika portal gridowy dla dopasowania dużych zbiorów sekwencji

Podobne dokumenty
Zorientowany na użytkownika portal gridowy dla dopasowywania dużych zbiorów sekwencji

JTW SP. Z OO. Zapytanie ofertowe. Zakup i dostosowanie licencji systemu B2B część 1

PLATFORMA COMARCH SECURITY. Analiza danych z cyberprzestrzeni

Ćwiczenie nr 2 Zbiory rozmyte logika rozmyta Rozmywanie, wnioskowanie, baza reguł, wyostrzanie

Instrukcja Obsługi STRONA PODMIOTOWA BIP

Microsoft Management Console

Zobacz to na własne oczy. Przyszłość już tu jest dzięki rozwiązaniu Cisco TelePresence.

DECYZJA NR 2/11 SZEFA CENTRALNEGO BIURA ANTYKORUPCYJNEGO. z dnia 3 stycznia 2011 r.

Przykłady wybranych fragmentów prac egzaminacyjnych z komentarzami Technik ochrony fizycznej osób i mienia 515[01]

epuap Ogólna instrukcja organizacyjna kroków dla realizacji integracji

elektroniczna Platforma Usług Administracji Publicznej

DOTACJE NA INNOWACJE. Zapytanie ofertowe

Bazy danych. Andrzej Łachwa, UJ, /15

InsERT nexo InsERT nexo InsERT nexo InsERT nexo InsERT nexo

DOTACJE NA INNOWACJE ZAPYTANIE OFERTOWE

Załącznik nr 8. Warunki i obsługa gwarancyjna

ZARZĄDZENIE NR 62/2015 BURMISTRZA MIASTA LUBAŃ. z dnia 17 marca 2015 r.

OPIS PRZEDMIOTU ZAMÓWIENIA DO ZAPYTANIA KE1/POIG 8.2/13

(Wsparcie techniczne dla użytkowników HelpDesk) Wersja dokumentu: 1.0 1

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Ewidencja abonentów. Kalkulacja opłat

Podejmowanie decyzji. Piotr Wachowiak

Harmonogramowanie projektów Zarządzanie czasem

Platforma do obsługi zdalnej edukacji

Systemy informatyczne w zarządzaniu wiedzą. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Nowości w module: BI, w wersji 9.0

POLITYKA PRYWATNOŚCI

PRZETWORNIK NAPIĘCIE - CZĘSTOTLIWOŚĆ W UKŁADZIE ILORAZOWYM

Rok akademicki: 2015/2016 Kod: RBM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Zaadresowanie bezpieczeństwa informacji w projektach podmiotów publicznych wymagania Krajowych Ram Interoperacyjności

Charakterystyka systemów plików

zone ATMS.zone Profesjonalny system analizy i rejestracji czas pracy oraz kontroli dostępu

PROCEDURA EWALUACJI WEWNĘTRZNEJ W SZKOLE PODSTAWOWEJ IM. JANA PAWŁA II W GRZĘDZICACH

POLITYKA PRYWATNOŚCI SKLEPU INTERNETOWEGO

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

System do kontroli i analizy wydawanych posiłków

Sprawozdanie z ankiety Uczelni Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie w roku akademickim 2012/2013

Projektowanie bazy danych

Pracownia internetowa w każdej szkole. Opiekun pracowni internetowej SBS 2003 PING

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Znak: OR

I. LOGICZNE STRUKTURY DRZEWIASTE

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

POLITYKA PRYWATNOŚCI. Strona główna > Strefa użytkownika > Regulamin

Usprawnij kontrolę nad produkcją i obiegiem dokumentów

Budowanie roli HR Business Partnera w firmach świadczących usługi profesjonalne - wdrożenie projektu

Poznań: Usługa ochrony szpitala Numer ogłoszenia: ; data zamieszczenia: OGŁOSZENIE O ZAMÓWIENIU - usługi

KONCEPCJA NAUCZANIA PRZEDMIOTU RACHUNKOWOŚĆ SKOMPUTERYZOWANA" NA WYDZIALE ZARZĄDZANIA UNIWERSYTETU GDAŃSKIEGO

Dobre praktyki w zakresie zarządzania ładem architektury korporacyjnej

INSTRUKCJA WebPTB 1.0

Windows Serwer 2008 R2. Moduł 3. DHCP

Sieci komputerowe cel

Procedura działania Punktu Potwierdzającego Profile Zaufane epuap Urzędzie Gminy w Ułężu

Roman Dmowski Centrum Usług Wspólnych

Opis obsługi systemu Ognivo2 w aplikacji Komornik SQL-VAT

Rozliczenia z NFZ. Ogólne założenia. Spis treści

Instrukcja postępowania w celu podłączenia do PLI CBD z uwzględnieniem modernizacji systemu w ramach projektu PLI CBD2

Urząd Miasta Krakowa Wydział Spraw Społecznych RAPORT

Łańcuch Krytyczny w Zarządzaniu Projektami

I.1.1. Technik mechanizacji rolnictwa 311[22]

- o zmianie o Krajowym Rejestrze Sądowym

Gdynia: Księgowość od podstaw Numer ogłoszenia: ; data zamieszczenia: OGŁOSZENIE O ZAMÓWIENIU - usługi

Opis zmian funkcjonalności platformy E-GIODO wprowadzonych w związku z wprowadzeniem możliwości wysyłania wniosków bez podpisu elektronicznego

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie arkusza kalkulacyjnego EXCEL do rozwiązywania układów równań liniowych metodą wyznacznikową

PROCEDURA ADMINISTROWANIA ORAZ USUWANIA

Generowanie kodów NC w środowisku Autodesk Inventor 2014

Excel w logistyce - czyli jak skrócić czas przygotowywania danych i podnieść efektywność analiz logistycznych

Integracja systemów, integracja procesów

SPRAWOZDANIE z podróŝy słuŝbowej poza granicami kraju

KRYTERIA DOSTĘPU. Działanie 2.1,,E-usługi dla Mazowsza (typ projektu: e-administracja, e-zdrowie)

Warunki Oferty PrOmOcyjnej usługi z ulgą

Systemy mikroprocesorowe - projekt

System Informatyczny CELAB. Przygotowanie programu do pracy - Ewidencja Czasu Pracy

U M O W A. zwanym w dalszej części umowy Wykonawcą

Intellect. Business Intelligence. Biblioteka dokumentów Podręcznik. Business Intelligence od 2Intellect.com Sp. z o.o.

ZESPÓŁ LABORATORIÓW TELEMATYKI TRANSPORTU ZAKŁAD TELEKOMUNIKACJI W TRANSPORCIE

Ekran startowy płyty instalacyjnej umozliwia nam wybór

art. 488 i n. ustawy z dnia 23 kwietnia 1964 r. Kodeks cywilny (Dz. U. Nr 16, poz. 93 ze zm.),

Administrator Konta - osoba wskazana Usługodawcy przez Usługobiorcę, uprawniona w imieniu Usługobiorcy do korzystania z Panelu Monitorującego.

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Wdrożenie modułu płatności eservice dla systemu Virtuemart 2.0.x

INSTRUKCJA RUCHU I EKSPLOATACJI SIECI DYSTRYBUCYJNEJ

Bolączki międzynarodowego systemu - jak z tego korzystać?

Ewidencjonowanie nieruchomości. W Sejmie oceniają działania starostów i prezydentów

Załącznik nr 1 do projektu wzoru umowy - szczegółowe zasady realizacji i odbioru usług

z dnia 6 lutego 2009 r.

Eksperyment,,efekt przełomu roku

mprofi.pl nowa generacja usług mobilnych TWOJA APLIKACJA MOBILNA: Komunikator na smartfony

System nagłośnieniowy i dźwiękowy system ostrzegawczy Bosch Praesideo

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

Rozwiązywanie nazw w sieci. Identyfikowanie komputerów w sieci

INSTRUKCJA OBSŁUGI URZĄDZENIA: HC8201

Angular 2 - budowanie nowoczesnych i wydajnych aplikacji przeglądarkowych

Konfiguracja programu Outlook 2007 do pracy z nowym serwerem poczty (Exchange)

Wykład 2. Budowa komputera. W teorii i w praktyce

OGŁOSZENIE O ZAMÓWIENIU- DOSTAWY

POLITYKA JAKOŚCI. Międzyzakładowej Spółdzielni Mieszkaniowej Energetyka

USTAWA. z dnia 26 czerwca 1974 r. Kodeks pracy. 1) (tekst jednolity)

Transkrypt:

Zorientowany na użytkownika portal gridowy dla dopasowania dużych zbiorów sekwencji Piotr Dziubecki 1 1 Wydział Inżynierii Mechanicznej i Informatyki Kierunek Informatyka, Rok V pdziubecki@o2.pl Streszczenie Wobec ciągłego wzrostu ilości przetwarzanych danych, coraz większą popularność zdobywa wykorzystanie zasobów rozproszonych. Celem tej pracy jest wykorzystanie infrastruktury typu Grid w bioinformatyce. Dzisiaj termin ten obejmuje zarówno skoordynowane współdzielenie zasobów, jak i model przetwarzania danych i prowadzenia obliczeń. Niestety, obecnie dostęp do tego rodzaju zasobów i wykorzystujących je aplikacji jest problematyczny, z punktu widzenia osoby nie posiadającej specjalistycznej wiedzy w tym zakresie. Ogranicza to znacznie grono użytkowników docelowych. Celem tego projektu jest stworzenie systemu umożliwiającego przeprowadzanie obliczeń związanych z zagadnieniem dopasowania wielu sekwencji genetycznych. Został on tak zaprojektowany, by ukryć warstwę konfiguracji i obsługi systemów gridu przed użytkownikiem. Otrzymał on intuicyjny interfejs, który jednocześnie udostępnia pełną funkcjonalność aplikacji oraz zasobów. 1 Wstęp Naukowcy nieustannie pracują nad nowymi podejściami, które będą w stanie rozwiązywać złożone problemy inżynierskie. Dzięki wzrostowi mocy obliczeniowej współczesnych komputerów, możliwe jest tworzenie coraz bardziej wyrafinowanych narzędzi. Obecnie jesteśmy świadkami przełomu, jaki dokonuje się w związku z dostępem do zasobów rozproszonych o ogromnych mocach obliczeniowych. 1.1 Wymagania stawiane przez bioinformatykę Współczesne zadania z dziedziny biologii są ściśle związane z bioinformatyką i z biologią obliczeniową. Według The National Institutes of Health s Biomedical Information and Technology Initiative Consortium [1] te dwa pojęcia można zdefiniować jako: Bioinformatyka: badania, rozwój i zastosowanie technik obliczeniowych i podejść stworzonych, by efektywniej wykorzystywać dane biologiczne, medyczne, behawioralne.. 1

Biologia obliczeniowa: badania i zastosowanie teorii, metod analizujących dane, matematycznego modelowania, technik symulacji obliczeniowej w celu poznawania systemów biologicznych. Obecnie niemożliwe jest rozwiązywanie problemów, z jakimi zmaga się współczesna biologia bez zaangażowania bioinformatyki i biologii obliczeniowej [2]. Dobrym tego przykładem jest chociażby opublikowanie mapy ludzkiego genomu w 2001 roku. To wydarzenie, ogłoszone jako przełom w badaniach związanych z genetyką, w rzeczywistości przyczyniło się do otrzymania ogromnej ilości nieprzetworzonych danych. Nasze możliwości związane z transformacją tych danych w użyteczną informację są wciąż niewystarczające i realizacja takich zadań jest jednym z głównych celów bioinformatyki i biologii obliczeniowej. Celem prezentowanego projektu jest opracowanie interfejsu webowego, udostępniającego funkcjonalność aplikacji związanymi z zagadnieniem dopasowania sekwencji - Multiple Sequence Alignment (MSA). Obliczenia związane z tym problemem wymagają dużej mocy obliczeniowej do efektywnego działania. Na przykład, General Tree Alignment (GTA), przy którym obliczenia związane z MSA są warunkiem wstępnym, jest problemem klasy Max - SNP - Hard. W praktyce oznacza to, że np. obliczenie dopasowania zbioru 1024 sekwencji na 32 węzłach klastra, gdzie każdy węzeł wyposażony w procesor Itanium2 900 MHz i 3 GB pamięci RAM, może być mierzone w dniach [3]. 1.2 Dostęp do zasobów W obliczu takich skali czasowych, korzystanie z rozproszonych zasobów jest jednym rozsądnym wyjściem. Niestety, obecnie dostęp oraz swobodne poruszanie się w tym środowisku wymaga niedostępnej wszystkim biologom wiedzy, dotyczącej zagadnień związanych z bezpieczeństwem, autoryzacją czy choćby z podstawową znajomością pisania skryptów w języku powłoki. Użytkownik również musi być świadomy, jakie ograniczenia ma użytkowany przez niego system (ograniczenia związane z wykorzystaniem pamięci, liczby węzłów, rezerwacji czasu itp.). Powyższe wymagania stały się podstawą specyfikacji tego projektu. Zakłada ona ukrycie przed użytkownikiem, za pomocą dostępnych technologii (omówionych później), szczegółów technicznych związanych z komunikacją z zasobami obliczeniowymi. Nie wiążę się to jednak z ograniczeniem funkcjonalności oferowanej przez aplikacje związane z MSA. Głównym powodem powstania tego rodzaju projektu jest ścisła zależność pomiędzy stopniem, w którym jest wykorzystywane oprogramowanie bioinformatyczne, jako naturalny aspekt metod badawczych, a przyjaznemu interfejsowi użytkownika tegoż oprogramowania. 2 Rozwiazania stosowane obecnie Portale zbliżone funkcjonalnością i postawionymi przed nimi zadaniami, skupiają sie obecnie głównie na samym udostępnianiu zasobów, przy minimalnym poziomie zabezpieczeń. Poniżej zostaną zaprezentowane trzy rozwiązania, z których każde kładzie na nacisk na inny aspekt systemu. 2

2.1 PARALIGN Jest to projekt rozwijany przez naukowców z University of Oslo. Składa się on z dwóch części: implementacji dwóch algorytmów (accelerated Smith-Waterman i heurystycznego Paralign) oraz webowego interfejsu (www.paralign.org). Algorytmy są również dostępne w postaci samodzielnej aplikacji. Zastosowano tu szereg innowacyjnych rozwiązań (accelerated Smith-Waterman wykorzystuje instrukcje procesorów MMX, SSE czy AltiVec w celu optymalnego wykorzystania zasobów przy przeszukiwaniu baz danych sekwencji). Algorytm Paralign działa w środowisku rozproszonym: najpierw dzieli zadania pomiędzy poszczególne węzły klastra, następnie zbiera wyniki cząstkowe na jednym z węzłów, po czym przekazuje je do web serwera [4]. Sam interfejs web został zaprojektowany, aby umożliwiać zgłaszanie zadań do systemu kolejkowego (TORQUE) klastra. Dostęp do tych zasobów jest publiczny, bez mechanizmów identyfikujących użytkownika, czy zapewniających podstawowe bezpieczeństwo podczas użytkowania portalu (poza walidacją danych wejściowych). Same dane mogą być wprowadzane przez użytkownika, mogą też być wykorzystywane bazy danych (umieszczone na serwerze i replikowane na węzłach klastra). Wedle zapewnień autorów, bazy te są cotygodniowo, manualnie aktualizowane. 2.2 EBI tools - interfejs dla ClustalW Jest to część dużego serwisu poświęconemu bioinformatyce, tworzonego przez European Bioinformatics Institute (EBI) [5]. Rozwinięto tu wiele użytecznych narzędzi z dziedziny biologii. Mimo, że obecnie serwis ten nie wspiera bezpośrednio technologii związanych z wykorzystaniem zasobów rozproszonych, jest on warty wspomnienia ze względu na dopracowany interfejs użytkownika. Jest to przykład na wzorcowe zastosowanie technik zorientowanych na użytkownika, nie zapomniano tu o zasadach ergonomii jak i o spójnym układzie graficznym serwisu (Rys. 1). Rys. 1: EBI - ClustalW. Ciekawym zabiegiem jest stworzenie tematycznych sekcji, które grupują pewne kla- 3

sy powiązanych ze sobą parametrów. Oszczędza to niewątpliwie czas użytkownika, który prowadzony jest poprzez kolejne etapy, aż do odebrania wyników. Jednak także i tu, nie znalazły miejsca mechanizmy związane z bezpieczeństwem i autoryzacją, co stwarza zagrożenie w postaci ewentualnych ataków anonimowych użytkowników. 2.3 GPS@: bioinformatic Web portal GPS@ jest projektem realizowanym przez zespół z Institute of Biology and Chemistry of Proteins z Lyonu. Jest to rozszerzenie uznanego serwisu NPS@, sami autorzy nazywają ten proces ugridowieniem. Zadania serwisu skupiają się na między innymi: zagadnieniach bioinformatycznych, medyczną wizualizacją i innymi dziedzinami związanymi ze zdrowiem. Implementacja tych serwisów w środowisku rozproszonym stała się możliwa dzięki projektowi Enabling Grids for E-Science (EGEE). Z założenia system ten będzie wspierał szeroką gamę aplikacji (część będzie dostarczona od razu, część będzie dostarczona przez partnerów projektu, reszta na drodze kwalifikacji) [6]. Obecna działająca wersja systemu jest dostępna pod adresem http://gpsa-pbil.ibcp.fr/. Głównymi założeniami systemu było pozostawienie dotychczasowego interfejsu użytkownika, brak ingerencji w kod udostępnianych aplikacji, automatyczna replikację danych na potrzebne węzły systemu. Mimo, że mamy tu do czynienia z migracją serwisu w środowisko rozproszone, postawione zostały tu zupełne inne wymagania, zamiast nacisku na zwiększenie wydajności - wydajniejsze składowanie większej ilości danych biologicznych. W obecnym stadium rozwoju również nie uwzględniono mechanizmów autoryzacji, użytkownicy są zaledwie identyfikowani przez ich adres IP, w przyszłości autorzy zakładają dodanie procedur zwiększających bezpieczeństwo [6]. 3 Projekt portalu Poniższy schemat portalu (Rys. 2) przedstawia strukturę i hierarchię poszczególnych warstw systemu, które zostaną scharakteryzowane w dalszej części rozdziału. Globus Toolkit + MyProxy MSA Applications Java Cog Tomcat Containter GridSphere Framework GridPortlets + Interface Grid System Server Rys. 2: Struktura portalu. 4

3.1 Warstwa Grid Określenie Grid powstało ok. roku 1990 jako termin oznaczający infrastrukturę dla obliczeń rozproszonych, mającą zastosowanie w zaawansowanych badaniach naukowych i inżynierii. Obecnie termin ten obejmuje zarówno skoordynowane współdzielenie zasobów, jak i model przetwarzania danych i prowadzenia obliczeń [7]. Systemy typu Grid powstały, by zunifikować zasady bezpiecznego współdzielenia i zarządzania zasobami. W tym celu zostały stworzone nowe protokoły, serwisy i narzędzia radzące sobie z wyzwaniami jakie stwarza budowanie i zarządzanie zasobami. Te technologie zawierają mechanizmy bezpieczeństwa, wspierające zarządzanie tożsamościami i polityką obliczeń wykonywanych przez wielu użytkowników równocześnie; systemów zarządzających danymi, umożliwiających transport danych między zbiorami danych, a aplikacjami [8]. Zadania określone powyżej realizowane są przez oprogramowanie nazywane middleware [8]. W tym przypadku jest to Globus Toolkit, który jest właśnie zbiorem takich narzędzi. Zapewnia on również zbiór implementacji funkcji, narzędzia do budowania Web services, podstawowe struktury związane z bezpieczeństwem, API dla klientów i programy do dostępu do wcześniej wymienionych elementów. Jednym z najważniejszych, jeżeli nie najważniejszym elementem tego pakietu jest GRAM (Grid Resource and Administration Manager), który jest odpowiedzialny za przetwarzanie i zarządzanie zadaniami zgłaszanymi przez użytkownika oraz monitorowaniem i alokacją zasobów. Co więcej GRAM oferuje API dla Web services umożliwiające zdalne zarządzanie zadaniami (zgłaszanie, kasowanie, sprawdzanie statusu zadań). Właśnie z GRAM em komunikuje się poprzez pakiet Java Cog opisywany portal w celu uzyskania, czy też wysłania wszystkich informacji niezbędnych do wykonywania zadań użytkownika. Globus Toolkit zawiera kompleksowy zestaw komponentów, również jeżeli chodzi o bezpieczeństwo i autoryzację, odpowiednio: za autoryzacje odpowiada: Grid-Mapfile/SAML delegacja proxy: Certyfikaty Proxy standardu X.509 uwierzytelnianie: Certyfikaty ID standardu X.509 Najnowsze wersje tego oprogramowania zawierają w sobie MyProxy [9] - system zarządzającymi tożsamościami (ang. credentials) użytkowników. Umożliwia on delegowanie tymczasowych certyfikatów do zdalnego repozytorium, co pozwala na dostęp do zasobów użytkownikom, czy aplikacjom znajdujących się na zewnatrz systemu (np. będących poza domeną). W trakcie osadzania (ang. deployment) portalu niezbędna jest wiedza dotycząca parametrów konfiguracji serwera MyProxy. W opisywanym systemie serwer zabrania pobierania tymczasowych proxy przez anonimowych użytkowników i z racji tego potrzebny był dodatkowy certyfikat, tzw. host certificate, umożliwiający pobieranie proxy bez hasła. Dzięki niemu serwisy działające w ramach portalu są w stanie przeprowadzić operację uwierzytelniania poprzez Java Cog na węźle dostępowym maszyny docelowej (ang. front end server). 5

3.2 Warstwa portalu Jak widać na Rys. 2 całość oparta jest na serwerze Tomcat - tu pełni on funkcję pojemnika na serwlety. W nim osadzony jest framework GridSphere [10], narzędzie wspierające technologię portletów (zarówno standard JSR 168 jak i standard WebSphere a firmy IBM). Ten zbiór oprogramowania udostępnia spójny zbiór funkcji oraz API dla projektowania aplikacji typu web. W podstawowej wersji są to podstawowe elementy umożliwiające zarówno budowanie części wizualnej portalu (m.in. tzw. tagi, których używa się analogicznie jak Java Beans), jak i tworzenie logiki biznesowej w oparciu o dostarczone wzorce projektowe (singleton & factory). Jednakże by wykorzystać to oprogramowanie w celu stworzenia portalu umożliwiającego dostęp do zasobów typu grid (ang. grid-aware) należy skorzystać z pakietu portletów GridPortlets [10]. Jest to projekt stworzony przy wykorzystaniu framework u GridSphere, dostarczający w pełni konfigurowalny zbiór serwisów i portletów odpowiedzialnych za komunikację ze zdalnymi zasobami. Istota tego oprogramowania polega na tym, że jest to niejako rozszerzenie funkcjonalności podstawowego framework u. Sam autor zaznacza, że dostarczone wraz z pakietem aplikacje są tylko przykładowym wykorzystaniem API GridPortlets. Projektant portalu dostaje narzędzia pozwalające na zbudowanie portalu w pełni korzystającego z dodatkowych możliwości związanych z operowaniem na zasobach rozproszonych. Jednocześnie nie musi on od początku tworzyć potrzebnej do tego warstwy oprogramowania. Oczywiście, wiąże się to z dostosowaniem do zaproponowanych przez autora pakietu konwencji, jednak w przypadku zestawu GridSphere + GridPortlets można tu mówić o przemyślanym projekcie ze stabilna i wewnętrznie spójna strukturą. Na podstawie dostarczonych narzędzi oraz elementów budowany jest interfejs portalu, obecnie będzie to interfejs sprofilowany dla programu ClustalW-MPI [11] - zrównoleglonej wersji programu ClustalW. Ta aplikacja została wybrana, ze względu na jej wzorcowy charakter, zarówno jeżeli chodzi o jej interfejs, jak i obliczane przez nią dopasowania (często pojawiające się jako referencyjne w testach podobnych aplikacji). Użytkownik obecnie może korzystać z baz danych zgromadzonych na serwerze, lub dostarczyć własne sekwencje do analizy i dopasowania. Na obecnym etapie użytkownik docelowy, by wykorzystać portal w celu przeprowadzenia swoich obliczeń, musi jedynie wydelegować swoje proxy do zdalnego repozytorium z poziomu węzła dostępowego na gridzie. Zwykle okres ważności takiego tymczasowego certyfikatu wynosi siedem dni, więc czynność ta nie powinna być aż nadto uciążliwa. Cała reszta związana z zarządzaniem danymi, zgłaszaniem zadań odbywać się będzie z poziomu portalu (Rys. 3). Obecnie prowadzone są prace nad pełnym wykorzystaniem API (pojawiły się nowe stabilne wersje oprogramowania, rozszerzające oferowany zakres funkcji) oraz nad ergonomią interfejsu. Ostatnim etapem będzie opracowanie szaty graficznej. Powodem takiej kolejności jest zapewniony przez GridSphere system tematów graficznych dla aplikacji, opartych na plikach xml. Dzięki temu projektant jest w stanie zaplanować układ graficzny całości odpowiednio wcześniej, a do zadań grafika należy odpowiednie wypełnienie luk w interfejsie. 6

4 Podsumowanie Rys. 3: Interfejs portalu - zarządzanie plikami. Należy wspomnieć tu o ważnym aspekcie dotyczącym projektowania i budowy omawianego portalu. Otóż większość jego elementów jest obecnie intensywnie rozwijana, co skutkuje problemami przy współdziałaniu poszczególnych elementów. Jest to jednak rekompensowane szybką reakcją deweloperów pracujących nad tym oprogramowaniem, w przypadku zgłoszenia problemu lub błędu. Na obecnym etapie można stwierdzić, że jest to obiecująca platforma, która wyznacza właściwy kierunek rozwoju tego typu aplikacji. Dzięki modularnej budowie, można w względnie łatwy sposób wymieniać poszczególne elementy, czego dobrym przykładem jest system GAMA [13], który prawdopodobnie w najbliższym czasie zastąpi MyProxy i zupełnie wyeliminuje kontakt docelowego użytkownika z konsolą. W przyszłości planowane jest dodanie obsługi meta-schedulera GRMS [12], dzięki temu można uzyskać dostęp do systemów klasy Clusterix oferujących większą moc przetwarzania. W planach jest również kompleksowa obsługa baz danych, z możliwością ich aktualizacji i replikacji przy wykorzystaniu Web services. Aby zwiększyć funkcjonalność oferowanych użytkownikowi narzędzi, należy się również skupić na możliwości natychmiastowej analizy otrzymanych wyników, chociażby dodając możliwość obsługi wyników przez program JalView. Literatura [1] Biological Information Science and Technology Consortium Definition Committee. National Institutes of Health working definition of bioinformatics and computational biology, http://www.bisti.nih.gov/compubiodef.pdf, 2000. [2] D. Bader. Computational biology and high-performance computing. Communication of the ACM, 47:3540, 2004. [3] J. Żola, Parallel Server for Multiple Sequence Alignment, PhD thesis, INPG Grenoble, France, 2005. 7

[4] PARALIGN: Rapid and Sensitive Sequence Similarity Searches Powered by Parallel Computing Technology, Nucleic Acids Research, 2005. [5] EBI - strona domowa, http://www.ebi.ac.uk/, 2006. [6] GPS@: Bioinformatics grid portal for protein sequence analysis on EGEE grid, egee.pnpi.nw.ru/presentation/06.03.01.egeeuf.gpsa.pdf, 2006. [7] The Anatomy of the Grid: Enabling Scalable Virtual Organizations, Lecture Notes in Computer Science, 2001. [8] Globus Toolkit Version 4: Software for Service-Oriented Systems, IFIP International Conference on Network and Parallel Computing, Springer-Verlag LNCS 3779, 2005. [9] J. Basney, W. Yurcik, R. Bonilla, and A. Slagell. The Credential Wallet: A Classification of Credential Repositories Highlighting MyProxy. Communication, Information and Internet Policy, 2003. [10] GridSphere and GridPortlets - strona domowa, www.gridsphere.org, 2006. [11] CLUSTALW-MPI - strona domowa, http://web.bii.a-star.edu.sg/ kuobin/clustalg/, 2006. [12] GRMS - strona domowa projektu, http://www.gridlab.org/grms, 2006. [13] GAMA: Grid Account Management Architecture, www.gridsphere.org/gridsphere/html/mardigrasworkshop2005/09_sdsc_gamma.pdf, 2005. 8