POLITECHNIKA WARSZAWSKA. Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA. mgr inż. Tymon Rubel

Wielkość: px
Rozpocząć pokaz od strony:

Download "POLITECHNIKA WARSZAWSKA. Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA. mgr inż. Tymon Rubel"

Transkrypt

1 POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA mgr inż. Tymon Rubel Wybrane metody analizy danych w proteomice. Promotor prof. nzw. dr hab. inż. Krzysztof Zaremba Warszawa, 2009

2 Streszczenie Spektrometria mas jest obecnie jedną z podstawowych technik analitycznych wykorzystywanych w badaniach dużych zbiorów białek tworzących proteomy organizmów. W typowych eksperymentach proteomicznych zadaniem układu pomiarowego złożonego ze spektrometru mas sprzężonego z systemem chromatografii cieczowej (LC-MS) jest identyfikacja składu białkowego próbek. W ostatnich latach można jednak zaobserwować wzrastające zainteresowanie wykorzystaniem spektrometrii mas również w badaniach o charakterze ilościowym. W rozprawie przedstawiono metodę umożliwiającą przeprowadzenie analizy ilościowej na podstawie danych dostarczanych przez technikę pomiarową LC-MS bez konieczności znakowania próbek izotopami stabilnymi. Opracowany został zestaw algorytmów realizujących wszystkie konieczne do przeprowadzenia tego typu analizy kroki przetwarzania danych spektrometrycznych, począwszy od gromadzenia wiedzy o składzie białkowym próbek, przez wykorzystanie jej podczas ekstrakcji cech o charakterze ilościowym z widm mas, aż do etapu obróbki mającej na celu poprawę jakości danych sprowadzonych do postaci liczbowej. Prezentowana metoda ma szeroki zakres stosowalności i może być użyta do oceny względnych zmian ekspresji zarówno peptydów, jak i białek. Działanie metody i implementującego ją oprogramowania zostało zweryfikowane przy użyciu zbiorów danych pochodzących z rzeczywistych badań proteomicznych, jak i danych syntetycznych, przygotowanych na potrzeby niniejszej rozprawy. Wyniki działania algorytmów realizujących kolejne kroki przetwarzania danych zostały porównane z rozwiązaniami prezentowanymi w literaturze. 2

3 Summary Mass spectrometry has increasingly become the method of choice for large-scale analysis in the field of proteomics. In typical proteomic experiments liquid chromatography coupled to tandem mass spectrometry (LC-MS) was mostly used for the identification of proteins in complex biological samples. Recently, there is an increasing interest in obtaining also protein abundance measurements directly form mass spectrometry data. In this thesis a LC-MS-based methodology is presented that allows relative changes in abundance of peptides and proteins to be determined without the use of stable isotope labelling. An integrated suite of algorithms was developed for all mass spectrometry data processing stages needed for quantitative analysis, including: collecting information on the samples composition, quantitative features extraction from mass spectra and further processing aimed at enhancing the quality of the data. The proposed method and software were verified on both real-studies and synthetic datasets. The results obtained with the developed algorithms for data processing have been compared to the results of commonly used reference techniques. 3

4 Podziękowania Niniejsza rozprawa nie mogłaby powstać bez pomocy szeregu osób, którym w tym miejscu chciałbym gorąco podziękować. W pierwszej kolejności promotorowi rozprawy, Krzysztofowi Zarembie za pomoc merytoryczną podczas przygotowywania rozprawy, ale również za wręcz nieprzebrane zasoby optymizmu, cierpliwości i dobrej woli. Nie sposób również nie wspomnieć w tym miejscu prof. Zdzisława Pawłowskiego, człowieka o imponującej wiedzy i niespotykanej serdeczności, któremu zawdzięczam wejście na drogę prowadzącą do napisania tej pracy. Trudny do przecenienia wpływ, zarówno na niniejszą pracę, jak i na całokształt mojej działalności badawczej mieli prof. Jerzy Ostrowski oraz prof. Michał Dadlez. Dziękuje im za wsparcie, inspirację, motywację i, co być może najważniejsze, nadanie mojej pracy sensu praktycznego. Osobne podziękowania kieruję do wszystkich osób z Instytutu Biochemii i Biofizyki PAN i Centrum Onkologii w Warszawie, które przyczyniły się powstania związanego z niniejszą pracą oprogramowania. W szczególności chciałbym podziękować Magdzie Bakun, Agacie Malinowskiej, Jarkowi Poznańskiemu, Jackowi Sikorze i Kubie Karczmarskiemu za pomoc, radę i miło spędzony wspólnie czas. 4

5 SPIS TREŚCI 1. Wstęp Motywacja Cel i zakres pracy Układ pracy Proteomika Budowa białek Związek pomiędzy proteomiką a genomiką i transkryptomiką Spektrometria mas Widmo mas Metody jonizacji używane do badania biomolekuł Jonizacja przez rozpylanie w polu elektrycznym Jonizacja przez desorpcję laserową w matrycy Parametry i rodzaje analizatorów Podstawowe parametry analizatorów Analizatory stosowane w badaniach proteomicznych Tandemowa spektrometria mas (MS/MS) Wstępne rozdzielanie chromatograficzny składowych próbek Zasada rozdziału w HPLC o odwróconej fazie Łączenie HPLC ze spektrometrem mas Spektrometria mas w badaniach proteomicznych Identyfikacja białek Zasady fragmentacji peptydów Algorytmy identyfikacji z użyciem baz danych Ograniczenia skuteczności identyfikacji peptydów i białek Analiza ilościowa Metody ze znakowaniem izotopowym Metody bez znakowania izotopowego Ograniczania metod analizy ilościowej bez znakowania izotopowego Metoda analizy ilościowej zmian ekspresji białek i peptydów w oparciu o dane z techniki LC-MC Ogólna charakterystyka proponowanej metody Gromadzenie wiedzy o składzie próbek Eliminacja fałszywie pozytywnych identyfikacji Wyznaczanie parametrów przeszukiwania bazy danych Redukcja redundancji wyników identyfikacji Model widma mas peptydu Położenie widma wzdłuż osi m/z

6 Kształt przekroju widma w kierunku osi m/z Położenie widma wzdłuż osi czasu retencji Kształt przekroju widma w kierunku osi czasu retencji Przetwarzanie pełnych widm mas próbek Dwuwymiarowa reprezentacja pełnych widm mas próbek Ekstrakcja wartości liczbowych z pełnych widm mas próbek Przetwarzanie danych liczbowych Transformata logarytmiczna Imputacja brakujących wartości Normalizacja Redukcja szumu Wyniki Opis zbiorów danych Gromadzenie wiedzy o składzie próbek Eliminacja fałszywie pozytywnych identyfikacji Kalibracja widm fragmentacyjnych Model widma mas peptydu Predykcja czasu retencji Obwiednia izotopowa i profil elucji Ekstrakcja wartości liczbowych z pełnych widm mas próbek Przetwarzanie danych liczbowych Imputacja brakujących wartości Normalizacja Zakończenie Dodatek Rozszerzenia modelu widma mas peptydu Wyznaczanie pełnego rozkładu izotopowego Wyznaczanie przybliżonego rozkładu izotopowego bez znajomości sekwencji Wybrane metody referencyjne Normalizacja kwantylowa Imputacji brakujących przy użyciu rozkładu na wartości szczególne Oprogramowanie MascotScan przetwarzanie wyników identyfikacji składu próbek MSparky przetwarzanie pełnych widm mas próbek ShowArray przetwarzanie danych w postaci liczbowej i analiza statystyczna Spis skrótów i oznaczeń Bibliografia 129 6

7 1. WSTĘP 1.1. Motywacja Spektrometria mas, technika analityczna umożliwiająca dokładny pomiar mas cząsteczek, jest obecnie jednym z podstawowych narzędzi proteomiki, dziedziny wiedzy zajmującej się badaniem zbiorów białek kodowanych przez genomy organizmów [1-4]. Stało się to możliwe dzięki wprowadzeniu technik łagodnej jonizacji próbek biologicznych, postępowi technicznemu w zakresie konstrukcji spektrometrów mas o wysokiej rozdzielczości, doskonaleniu protokołów laboratoryjnych, jak i opracowaniu nowych metod analizy danych spektrometrycznych. Rozwój tych ostatnich jest niezwykle istotny, zważywszy, że spektrometr jest przyrządem o bardzo prostej zasadzie pomiarowej, potrafiącym rejestrować jedynie liczby jonów o różnych wartościach stosunku masy do ładunku. Powoduje to, że bezpośrednie wyniki pomiaru nie poddają się łatwej interpretacji, a wnioskowanie na ich podstawie o strukturze złożonych cząstek, takich jak białka, jest możliwe wyłącznie dzięki stosowaniu odpowiednich algorytmów przetwarzania danych. W typowych eksperymentach proteomicznych spektrometr mas dostarcza informacji o składzie białkowym próbek wstępnie rozdzielonych przy użyciu jedno- lub dwukierunkowej elektroforezy w żelach poliakrylamidowych [5]. Analizie spektrometrycznej poddawane są pojedyncze białka, po uprzednim podzieleniu ich sekwencji na mniejsze fragmenty (peptydy) przez specyficznie działający enzym proteolityczny. Ze względu na dużą czasochłonność i utrudnioną automatyzację opisanego powyżej procesu, coraz większą popularność zdobywa alternatywne podejście, w którym pomijany jest krok elektroforezy, a do spektrometru wprowadzane są peptydy pochodzące z wielu białek. Wstępne rozdzielenie powstałych w ten sposób złożonych mieszanin następuje w sprzężonym ze spektrometrem systemie wysokosprawnej chromatografii cieczowej. Zastosowanie techniki LC-MS (Liquid Chromatography Mass Spectrometry) pozwala w pojedynczym eksperymencie uzyskać informacje o nawet tysiącach białek znajdujących się w próbkach biologicznych i ułatwia badanie występujących pomiędzy nimi interakcji. Okupione jest to jednak znacznym wzrostem złożoności otrzymywanych danych oraz niemożnością wykorzystania analizy densytometrycznej obrazów żeli w celu przeprowadzenia porównań ilościowych, przez co konieczne staje się oparcie ich w całości na danych dostarczanych przez spektrometr. 7

8 Ze względu na fakt, że pierwotnym zastosowaniem spektrometrii mas w badaniach proteomicznych była analiza jakościowa składu próbek, większość prowadzonych początkowo prac badawczych skupiała się nad rozwojem metod identyfikacji sekwencji białek i peptydów. W ich wyniku powstał szereg powszechnie używanych systemów identyfikacji opartych na wykorzystaniu baz danych sekwencji aminokwasowych [6-18]. Natomiast zagadnienia związane z wykorzystaniem danych z techniki LC-MS w analizie ilościowej białek wciąż nie doczekały się w pełni satysfakcjonujących rozwiązań, ani o charakterze komercyjnym, ani wolnodostępnym. Trudnością jest w tym wypadku nie tylko stopień skomplikowania i dochodzący do wielu gigabajtów rozmiar widm mas próbek. Poważnym problemem jest również rozdzielenie informacji ilościowych i jakościowych pomiędzy dwa rodzaje danych pomiarowych, pochodzących z dwóch różnych trybów pracy spektrometru. Umożliwiające identyfikację białek dane z trybu sekwencjonowania nie niosą informacji o ich ilości, natomiast dane generowane w trybie zbierania pełnych widm mas mają charakter czysto ilościowy i nie pozwalają określić sekwencji aminokwasów. Pomimo wspomnianych przeszkód wiele zespołów prowadzi intensywne prace badawcze nad metodami analizy ilościowej w oparciu o dane spektrometryczne [19-29]. Duże zainteresowanie tą problematyką wynika z faktu, że jakkolwiek w części badań proteomicznych już samo poznanie składu próbek jest w zupełności wystarczające, to jednak istnieją zastosowania, dla których kluczowe znaczenie ma możliwość oceny zmian ekspresji białek i peptydów. Szczególnie istotne jest to w przypadku zastosowań związanych z medycyną, o których myśl towarzyszy proteomice niemalże od samego początku jej istnienia, co nie może dziwić, zważywszy, że białka pełnią kluczową rolę w bez mała wszystkich procesach zachodzących w organizmie. Wyniki prowadzonych na świecie prac pozwalają wierzyć, że możliwość śledzenia jakościowych i ilościowych zmian w składzie dużych zespołów białek tworzących proteom komórek nie tylko przyczyni się do lepszego zrozumienia molekularnego podłoża szeregu schorzeń, ale może również dostarczyć medycynie nowych narzędzi diagnostycznych [30-33]. W tym kontekście duże znaczenie mają prace nad rozwojem metod nie wymagających stosowania znakowania izotopowego, które ze względu na relatywnie prosty proces przygotowania próbek, uniwersalność i niskie koszty wydają być się szczególnie dobrze dostosowane do potrzeb diagnostyki medycznej. 8

9 1.2. Cel i zakres pracy Zasadniczym celem pracy było opracowanie metod przetwarzania danych pochodzących z techniki LC-MS umożliwiających przeprowadzenie ilościowej oceny względnych zmian ekspresji peptydów i białek bez konieczności stosowania znakowania izotopami stabilnymi. W pracy przedstawiony zostanie zestaw algorytmów realizujących kolejne kroki procesu przetwarzania danych LC-MS, w wyniku którego zostają one przekształcone ze swej pierwotnej postaci widm mas w zbiór jednoznacznie określonych cech (peptydów lub białek) o wartościach proporcjonalnych do ilości w jakiej odpowiadające im cząstki występują w poszczególnych próbkach. Ten wieloetapowy proces obejmuje: gromadzenie, weryfikację i porządkowanie wiedzy jakościowej o obecnych w badanych próbkach peptydach i zidentyfikowanych na ich podstawie białkach; utworzenie dla każdego znanego peptydu teoretycznego modelu opisującego dokładny kształt widm mas reprezentujących go jonów oraz ich przybliżone położenia w widmach mas próbek i jednocześnie uwzględniającego charakterystykę używanego spektrometru; automatyczne wyszukanie widm mas jonów peptydowych jako tych obszarów widm mas próbek, w których dane eksperymentalne wykazują największe dopasowanie do wyznaczonych wcześniej teoretycznych modeli; określenie ilości peptydów (a przez to w pośredni sposób również białek) na podstawie parametrów dopasowanych modeli ich jonów; dalsze przetwarzanie danych, sprowadzonych już do postaci liczbowej, mające na celu eliminację artefaktów w postaci brakujących wartości, minimalizację wpływu źródeł zmienności o niebiologicznym pochodzeniu oraz redukcję poziomu szumu. Podstawową cechą proponowanej metody, wyróżniającą ją spośród rozwiązań prezentowanych w literaturze, jest oparcie analizy ilościowej na szerokim wykorzystaniu zgromadzonej uprzednio wiedzy o składzie białkowym próbek. W efekcie cały proces przetwarzania danych ukierunkowany jest na uzyskanie w pełni wartościowej informacji biologicznej. Jednocześnie, dzięki wykorzystaniu dodatkowych informacji zawartych w sekwencjach peptydów, możliwe staje się zmniejszenie podatności na błędy etapu 9

10 ekstrakcji cech ilościowych z pełnych widm mas, co ma kluczowe znaczenie dla jakości uzyskanych wyników. Teza rozprawy. Wykorzystanie informacji jakościowych o sekwencjach peptydów we wszystkich etapach analizy ilościowej zmian ekspresji peptydów i białek na podstawie danych ze spektrometrii mas sprzężonej z chromatografią cieczową pozwala znacząco poprawić efektywność tej analizy i wiarygodność jej wyników Układ pracy Rozdziały 2 i 3 poświęcone są przedstawieniu podstawowych pojęć z zakresu proteomiki, spektrometrii mas oraz wysokosprawnej chromatografii cieczowej. Rozdział 4 zawiera opis zastosowań spektrometrii mas w badaniach proteomicznych, ze szczególnym uwzględnieniem zagadnień związanych z metodami identyfikacji białek i analizy ilościowej ich ekspresji. Ze względu na szeroki zakres tematyczny, opis części zagadnień szczegółowych przeniesiony został do rozdziału 5, gdzie są one omawiane w bezpośrednim odniesieniu do prezentowanych tam rozwiązań będących elementami proponowanej w rozprawie metody analizy ilościowej. W rozdziale 6 przedstawione zostały wyniki porównań opracowanych algorytmów z wybranymi metodami referencyjnymi. Rozdział 7 zawiera podsumowanie przeprowadzonych badań. 10

11 2. PROTEOMIKA Proteomika jest dziedziną wiedzy zajmującą się badaniem proteomów [1-5]. Termin proteom definiowany jest jako ogół kodowanych przez genom organizmu białek wraz z ich możliwymi modyfikacjami. Często jednak stosowany jest w węższym znaczeniu i rozumiany jako zbiór białek ulegających ekspresji w danym rodzaju komórek i w danym czasie. Różnica pomiędzy tymi dwiema definicjami wynika z faktu, że w odróżnieniu od genomu, który jest jednakowy dla całego organizmu i w przybliżeniu niezmienny w czasie, proteom jest tworem dynamicznym. Jego chwilowy skład nie tylko różni się pomiędzy komórkami tego samego organizmu, ale również zmienia się w czasie, w zależności od fazy ich rozwoju, czynników środowiskowych, a także oddziaływań z innymi komórkami. Niezależnie jednak od sposobu definiowania samego proteomu, celem proteomiki jest badanie budowy, funkcji i lokalizacji subkomórkowej białek oraz interakcji między nimi. Dlatego też w tym rozdziale, w skrótowej formie, przedstawione zostaną podstawowe informacje dotyczące tych cząstek. Pokazany zostanie również ścisły związek pomiędzy proteomiką a genomiką i transkryptomiką Budowa białek Peptydy i białka są cząstkami polimerowymi złożonymi z aminokwasów [34, 35]. Aminokwasy to związki chemiczne, w budowie których możemy wyróżnić przynajmniej dwie grupy funkcyjne: aminową i karboksylową. W skład białek i peptydów organizmów żywych wchodzi 20 aminokwasów należących do grupy L-α-aminokwasów. W związkach tych grupy funkcyjne połączone są centralnym atomem węgla C α, do którego dołączone są również atom wodoru oraz łańcuch boczny o strukturze chemicznej charakterystycznej dla danego aminokwasu. Podstawową cechą aminokwasów jest ich zdolność do łączenia się ze sobą za pośrednictwem wiązania peptydowego pomiędzy grupami aminową i karboksylową. Łańcuch złożony z co najmniej dwóch połączonych ze sobą aminokwasów określany jest peptydem. Połączone w łańcuchu aminokwasy nazywane są resztami aminokwasowymi. Reszta aminokwasowa zawierająca wolną grupę aminową nazywana jest N-końcem peptydu, podczas gdy reszta z wolną grupą karboksylową jest jego C-końcem. Zgodnie z konwencją, sekwencje peptydu zapisuje się rozpoczynając od lewej strony N-końcową resztą 11

12 aminokwasową i kończąc C-końcową. Reszty aminokwasowe oznaczane są w takim zapisie za pomocą jedno- lub trzyliterowych symboli (tabela 9.1 w Spisie skrótów i oznaczeń). Peptyd zawierający więcej niż 10 reszt aminokwasowych nazywany jest polipeptydem. Białko jest polipeptydem o długości łańcucha większej od reszt aminokwasowych, przy czym granica ta nie jest ściśle określona [34-36]. Opis budowy białek obejmuje cztery stopnie ich struktury. Struktura pierwszorzędowa określa kolejność reszt aminokwasowych w sekwencji liniowej białka i jest najważniejszą jego właściwością, w znacznej mierze warunkującą wszystkie pozostałe. Struktura drugorzędowa charakteryzuje wzajemne przestrzenne ułożenie reszt aminokwasowych sąsiadujących ze sobą w sekwencji. Przykładami struktur drugorzędowych są α-helisa lub β-kartka. Struktury drugorzędowe zwykle tworzą większe zespoły, zwane motywami. Trójwymiarowa budowa cząsteczki białka, czyli wzajemne położenie lokalnych struktur drugorzędowych, opisywana jest przez strukturę trzeciorzędową. W łańcuchach polipeptydowych wielu białek można wyróżnić domeny, czyli fragmenty o długości od kilkudziesięciu do kilkuset reszt aminokwasowych, charakteryzujące się zdolnością do samoistnego zachowania swojej struktury trójwymiarowej. Jeżeli w budowie cząsteczki białka można wyróżnić dwa lub większą liczbę łańcuchów polipeptydowych lub zawiera ona elementy niebiałkowe, takie jak np. cukry i lipidy, wówczas ich konformacja i rodzaj łączących je wiązań nazywane są strukturą czwartorzędową Związek pomiędzy proteomiką a genomiką i transkryptomiką Proteomika jest ściśle związana z genomiką i tanskryptomiką, dziedzinami biologii molekularnej zajmującymi się dwoma innymi rodzajami aktywnych cząstek biologicznych: kwasem dezoksyrybonukleinowym (DNA) i kwasem rybonukleinowy (RNA). DNA zawiera pełną informację o budowie oraz sposobie funkcjonowania organizmu i jest chemiczną podstawą dziedziczności. Cząsteczka tego polimeru ma strukturę podwójnej helisy, złożonej z dwóch pasm stanowiących sekwencje czterech rodzajów nukleotydów: adeniny, guaniny, cytozyny i tyminy [34, 35]. Zawarta w sekwencji nukleotydów DNA treść informacyjna rozdzielona jest pomiędzy obydwa pasma. Jedno z nich, zwane pasmem matrycowym, dostarcza informacji dziedziczonej przez komórki potomne, zaś drugie, określane jako pasmo kodujące, stanowi źródło informacji niezbędnej do syntezy białek. Ogół DNA zawartego w komórce nazywany jest genomem. 12

13 Struktury pierwszorzędowe białek zapisane są w sekwencjach nukleotydów fragmentów pasma kodującego DNA, zwanych genami. Mechanizmem umożliwiającym przetłumaczenie składającego się z czterech znaków alfabetu DNA na dwudziestoznakowy alfabet białek jest kod genetyczny, określający przyporządkowanie trójek nukleotydów (kodonów) poszczególnym aminokwasom. W procesie prowadzącym do powstania białka uczestniczy wiele odmian RNA, którego cząsteczki są pod względem budowy podobne do pojedynczego pasma DNA, przy czym w ich wypadku tyminę zastępuje uracyl. Szczególne znaczenie mają cząsteczki matrycowego RNA (mrna), których rolą jest przekazywnie przepisanej z genów informacji do rybosomów, gdzie w procesie translacji syntetyzowane są białka. Zbiór wszystkich cząsteczek mrna obecnych w określonym momencie w komórce nazywany jest transkryptomem. Liczba genów u człowieka wynosi około tysięcy, podczas gdy liczbę form białkowych szacuje się na co najmniej kilkaset tysięcy. Za tak dużą nierównowagę odpowiedzialne są głównie dwa zjawiska: alternatywny splicing genów i modyfikacje potranslacyjne białek. W wyniku pierwszego z nich cząsteczka mrna nie zawsze zawiera wszystkie obszary kodujące genu, a wręcz możliwe jest, że będzie ona zawierać obszary niekodujące. Tak więc liczba tworzących transkryptom cząsteczek mrna jest większa od liczby genów. Dalszy wzrost różnorodności białek wynika z faktu, że już po zakończeniu syntezy mogą one ulegać modyfikacjom potranslacyjnym poprzez dołączenie cząstek zmieniających ich właściwości biochemiczne. Wymienione zjawiska sprawiają, że samo poznanie sekwencji genomu nie jest wystarczające do pełnego opisu jego ekspresji. W efekcie, genomika, transkryptomika i proteomika są komplementarnymi dziedzinami, badającymi różne aspekty tego samego mechanizmu, w ramach którego statyczna informacja genetyczna zawarta w sekwencji nukleotydów genomu jest w sposób zależny od potrzeb komórki odczytywana i zamieniana na zbiór aktywnie działających białek tworzących proteom. 13

14 3. SPEKTROMETRIA MAS Spektrometria mas jest techniką analityczną umożliwiającą dokładny pomiar mas atomów oraz związków chemicznych po uprzedniej ich jonizacji i przetransferowaniu do fazy gazowej [36, 38, 39]. W spektrometrii mas badane są jony, tak więc pomiar dotyczy stosunku masy jonu do jego ładunku. Masa wyrażana jest w atomowych jednostkach masy (u) lub daltonach (Da). Obie jednostki są równoważne i wynoszą 1, kg, co odpowiada jednej dwunastej masy pojedynczego atomu izotopu węgla 12C. Jednostką stosunku masy do ładunku jest thompson (Th), zdefiniowany jako 1 Da/e, gdzie e jest elementarnym ładunkiem elektrycznym. Jednostka ta jednak jest rzadko używana literaturze dotyczącej spektrometrii mas, w której bardziej powszechne jest stosowanie bezwymiarowej wartości m/z. W tym wypadku m oznacza względną masę jonu (odniesioną do 1 Da), a z jest stopniem naładowania, czyli liczbą niesionych przez jon ładunków. Chcąc przedstawić konstrukcję spektrometru mas, w najprostszy sposób należy powiedzieć, że składa się on z trzech podstawowych części: źródła jonów, w którym obojętne cząstki zamieniane są na jony, analizatora rozdzielającego jony pod względem ich stosunków masy do ładunku oraz detektora zliczającego liczbę jonów danego rodzaju. We współczesnych spektrometrach całość pomiaru sterowana jest przez system komputerowy, którego zadaniem jest również rejestracja, przetwarzanie i udostępnianie wyników analizy. Bezpośrednim wynikiem pomiaru jest widmo mas. Postać widma mas zależna jest od rodzaju stosowanego przyrządu, jednak pewne ogólne zasady jego powstawania opisane zostały w następnym podrozdziale Widmo mas Widmo mas jest zwykle prezentowane w postaci graficznej, jako wykres liczby zarejestrowanych jonów o danych wartościach m/z. Występujące w tym wykresie piki mogą odpowiadać jonom molekularnym substancji występujących w badanej próbce lub jonom ich mniejszych fragmentów. Związek pomiędzy masą cząstki a wartością m/z odpowiadającego mu w widmie piku jest zależny od użytej metody jonizacji, której wybór jest z kolei zwykle podyktowany właściwościami badanych substancji. Peptydy i białka, jako związki organiczne zawierające 14

15 w swej strukturze grupy funkcyjne łatwo akceptujące protony, jonizowane są przez przyłączenie jednego lub większej liczby protonów. Oznacza to, że jeżeli względna masa cząstki wynosi M0, a stopień naładowania równy jest z, to wartość m/z jonu można określić z zależności1: m 0= M 0 z M p, z (3.1) gdzie Mp jest masą protonu. Większość naturalnie występujących w przyrodzie pierwiastków jest zróżnicowana pod względem składu izotopowego. Przykładowo, jądra około 98,93% atomów węgla składają się z 6 protonów i 6 neutronów, a ich masy wynoszą 12,00000 Da. Jednak w wypadku około 1,07% atomów liczba neutronów w jądrze jest większa o jeden. Masy tych atomów, określanych jako izotop 13 C, są równe 13, Da [37]. Fakt ten wpływa na kształt widma mas cząstek i powoduje, że składa się ono nie z pojedynczego piku, ale całej ich serii. Dokładne położenia i wzajemne relacje pomiędzy wysokościami pików widma zależne są od rozkładu izotopowego cząstki, czyli mas i prawdopodobieństw wystąpień jej odmian izotopowych. Dla cząstek o dużych masach zbiór odmian izotopowych może być bardzo liczny, co skutkuje złożoną strukturą widma. Jednak ze względu na skończoną rozdzielczość spektrometru piki pochodzące od odmian izotopowych o zbliżonych masach mogą być nierozróżnialne. W efekcie obserwowana jest obwiednia izotopowa z pikami o skończonej szerokości, będącymi wynikiem detekcji odmian izotopowych o takiej samej sumarycznej liczbie nukleotydów w jądrach atomów (rysunek 3.1). Pik obwiedni o najniższej wartości m/z (pik monoizotopowy) pochodzi od jonów, w których atomy wszystkich pierwiastków były w podstawowym stanie izotopowym. Położenie tego piku dla z-krotnie naładowanego jonu, reprezentującego cząstkę o masie M0, dane jest zależnością 3.1. Jony, których detekcja objawia się powstaniem drugiego piku miały w swoim składzie jeden atom z większą liczbą neutronów w jądrze, itd. Często przyjmuje się, że odległości pomiędzy takimi sumarycznymi pikami są stałe i równe odwrotności stopnia naładowania jonu. Należy jednak pamiętać, że jest to jedynie uproszczenie: w rzeczywistości odległości te nie są stałe, 1 W znanej autorowi literaturze nie są wprowadzane osobne oznaczenia dla wartości m/z i są one, podobnie jak wartości masy, oznaczane małą literą m (np. [36, 38]). Rozróżnienie następuje jedynie przez użycie indeksów dolnych lub górnych. Często można również spotkać się ze stosowaniem określenia masa w kontekście sugerującym, że chodzi o wartość m/z, co jest błędne w wypadku jonizacji przez dołączenie protonów i możliwości występowania jonów wielokrotnie naładowanych. W niniejszej pracy stosowane będzie wyraźne rozdzielenie obu tych określeń. W celu zachowania większej jednoznaczności zapisu, dla oznaczenia konkretnych wartości masy (atomu, cząstki) stosowana będzie duża litera M, natomiast dla wartości m/z mała litera m. W obydwu wypadkach oznaczeniom towarzyszyć będą indeksy górne lub dolne. 15

16 gdyż masy izotopów poszczególnych pierwiastków nie różnią się dokładnie o 1 Da. Zagadnienia związane z wyznaczaniem obwiedni izotopowej widm peptydów zostaną jeszcze dokładnie omówione w rozdziale Rys Widmo mas złożonej próbki biologicznej. Powiększony fragment przestawia zakres wartości m/z mieszczący obwiednię izotopową przykładowego jonu peptydowego o stopniu naładowania +2 Obecność naturalnych izotopów pierwiastków i wynikający z niej kształt widm powoduje konieczność rozróżnienia pomiędzy dwoma rodzajami masy cząsteczki. Masa monoizotopowa wyznaczana jest na podstawie dokładnych mas podstawowych odmian izotopowych pierwiastków wchodzących w skład cząstki. W widmie mas jest ona reprezentowana przez położenie piku monizotopowego. Masa średnia wyznaczana jest jako średnia ważona mas wszystkich odmian izotopowych pierwiastków tworzących cząstkę, przy czym wagami są procentowe udziały poszczególnych odmian. W widmie mas odpowiada jej centroid (środek masy) obwiedni izotopowej. Tylko masa monizotopowa jest jednoznaczna, gdyż dokładność określenia masy średniej jest ograniczona zmiennością procentowego udziałów odmian izotopowych pierwiastków [40]. Z drugiej jednak strony, masa monoizotopowa ma w spektrometrii praktyczne znaczenie jedynie dla związków o względnie małych masach, dla których występuje wyraźny pik monoizotopowy, często będący również najwyższym pikiem w obwiedni. Zwiększające się wraz z masą cząstki prawdopodobieństwo wielokrotnego występowania cięższych odmian izotopowych powoduje zmniejszenie 16

17 relatywnej wysokości piku monoizotopowego. W efekcie dla dużych cząstek, takich jak białka, obwiednia izotopowa staje się bardziej symetryczna, a pik monoizotopowy może być nieobserwowalny Metody jonizacji używane do badania biomolekuł Aby był możliwy pomiar masy w spektrometrze, cząstki muszą zostać zjonizowane i przeprowadzone do fazy gazowej. Głównym powodem stosunkowo późnego wprowadzenia spektrometrii mas do nauk biologicznych był brak odpowiednich metod łagodnej jonizacji, umożliwiających przeniesienie do fazy gazowej dużych, nielotnych i łatwo ulegających rozkładowi termicznemu cząstek biologicznych bez doprowadzenia do ich fragmentacji. Pierwszą techniką, która umożliwiała analizę za pomocą spektrometru tego typu cząstek, była opisana w 1981 r. jonizacja przez bombardowanie szybkimi atomami (FAB Fast Atom Bombardment) [41], jednak ze względu na jej ograniczenia prawdziwym przełomem stało się dopiero wprowadzenie na początku lat 90. spektrometrów wykorzystujących rozpylanie w polu elektrycznym oraz jonizację przez desorpcję laserową w matrycy Jonizacja przez rozpylanie w polu elektrycznym Elekrorozpylanie (ESI ElectroSpray Ionisation) [42] należy do grupy metod jonizacji prowadzonych pod ciśnieniem atmosferycznym (API Atmospheric Pressure Ionization). Próbka jest rozpuszczana w lotnym rozpuszczalniku i pompowana przy zachowaniu przepływu rzędu pojedynczych μl/min przez metalową kapilarę, do której przyłożone jest napięcie 3-6 kv. W wyniku akumulacji ładunków w powierzchniowej warstwie cieczy na końcu kapilary, próbka wydostaje się w postaci aerozolu wysoko naładowanych kropelek, w czym dodatkowo pomaga płynący współosiowo wobec kapilary gaz nebulizujący, którym zwykle jest azot. Odparowanie rozpuszczalnika z kropelek pod wpływem ciepłego gazu suszącego powoduje ich kurczenie się i rozerwanie na skutek działania sił odpychania kulombowskiego. Proces następuje kaskadowo, prowadząc do powstania coraz mniejszych kropli, aż do momentu gdy następuje desorpcja jonów. Elektrorozpylanie jest bardzo wydajną techniką jonizacji, która dzięki swej łagodności nie powoduje dysocjacji badanych cząstek. Może być stosowana dla wielu rodzajów 17

18 substancji chemicznych i wydaje się, że nie ma w jej wypadku górnego ograniczenia masy badanych cząstek. Duże cząstki polimerowe, mające w swej strukturze wiele miejsc protonacji, generują jony wielokrotnie naładowane, widoczne w widmach mas jako kolejne serie pików o takim samym kształcie obwiedni izotopowej, ale różniących się położeniem piku monizotopowego oraz odstępami pomiędzy kolejnymi pikami. Generowanie podczas jonizacji ESI jonów wielokrotnie naładowanych ma ogromne znaczenie praktyczne, gdyż umożliwia pomiar cząstek o masach przekraczających nominalny zakres pomiarowy analizatora. Z drugiej jednak strony jest przyczyną większego skomplikowania widm, wymuszającego konieczność deizotopizacji, czyli identyfikacji i sumowania sygnałów pochodzących od jonów reprezentujących tę samą cząstkę [43-45] Jonizacja przez desorpcję laserową w matrycy W technice jonizacji przez desorpcję laserową w matrycy (MALDI Matrix Assisted Laser Desorption/Ionization) [46] analizowana substancja jest mieszana z roztworem zawierającym nadmiarową ilość małych, silnie absorbujących światło cząstek organicznych, zwanych matrycą. Tak przygotowana próbka po wyschnięciu jest napromieniowywana impulsowym światłem lasera, w efekcie czego następuje transfer do fazy gazowej na drodze desorpcji, której towarzyszy jonizacja przez przeniesienie protonów między wzbudzoną matrycą a analitem. MALDI jest więc odmianą jonizacji przez desorpcję laserową (LDI Laser Desorption Ionization), w której dzięki użyciu matrycy wyeliminowana została potrzeba każdorazowego dostrajania długości fali lasera do charakterystyki absorpcji próbki. Jednocześnie matryca chroni badane cząstki przed otrzymaniem nadmiernej energii, która mogłaby spowodować fragmentację oraz separuje je od siebie, zapobiegając tworzeniu się agregatów, co ułatwia tworzenie jonów molekularnych. Detekcja widma następuje po każdym, trwającym kilka nanosenkund, impulsie lasera i jest powtarzana wielokrotnie w celu uzyskania zadowalającej liczby jonów. W odróżnieniu od przedstawianej wcześniej jonizacji przez elektrorozpylanie, MALDI zwykle generuje jony jednokrotnie naładowane, co uniemożliwia rejestrację widm związków chemicznych o masie przekraczającej zakres analizatora. Nie jest to również metoda tak łagodna jak ESI i częściej prowadzi do fragmentacji. Dodatkową wadą jest występowanie pochodzącego od cząstek matrycy szumu chemicznego w zakresie niskich mas. 18

19 Natomiast niezaprzeczalną zaletą jonizacji MALDI jest szybkość pomiaru i łatwość jego automatyzacji, które to cechy umożliwiają osiągnięcie dużej wydajności analiz Parametry i rodzaje analizatorów Podstawowe parametry analizatorów Analizator jest najważniejszą częścią spektrometru mas, mającą decydujące znaczenie dla jego parametrów. Zadaniem analizatora jest rozdzielenie jonów pod względem ich stosunku masy do ładunku i skierowanie ich skupionej wiązki do detektora. Trzema podstawowymi parametrami analizatora są: rozdzielczość, dokładność pomiaru m/z oraz zakres mierzonych wartości m/z [36, 38, 39, 47]. Decydująca o precyzji pomiaru rozdzielczość jest miarą zdolności rozróżnienia sygnałów pochodzących od dwóch jonów o bliskich wartościach m/z. Dla dwóch sąsiednich, rozdzielonych pików o wartościach m/z, równych odpowiednio m0 i m0+δm0, zdolność rozdzielcza definiowana jest jako: RP= m0. m0 (3.2) W podanej definicji, stosowanej najczęściej w przypadku klasycznych analizatorów z sektorem magnetycznym, dwa piki o jednakowej wysokości uznaje się za rozdzielone gdy znajdująca się pomiędzy nimi dolina ma 10% ich wysokości. Dla pozostałych typów analizatorów częściej używana jest definicja oparta na szerokości pojedynczego, izolowanego piku. W tym wypadku we wzorze (3.2) Δm0 oznaczać będzie szerokość piku mierzoną w połowie jego wysokości (FWHM Full Witdh at Half Maximum), natomiast m0 wartość m/z jego wierzchołka. Z rozdzielczością blisko powiązana jest dokładność pomiaru wartości m/z. Ponieważ maleje ona wraz ze wzrostem wartości m/z, zwykle wyrażana jest w sposób względny i podawana w jednostkach ppm (parts per milion). Zakres pomiarowy wyznaczony jest przez graniczne możliwe do zmierzenia wartości m/z. Jest on zależny od konstrukcji analizatora, ale w konkretnych zastosowaniach jego praktyczne ograniczenie może również wynikać ze skończonej rozdzielczości i dokładności. Czułość, rozumiana jako najmniejsza możliwa do wykrycia ilość badanego związku, ma ogromne znaczenie podczas pomiarów próbek biologicznych, szczególnie tych pochodzących z tkanek lub płynów ustrojowych, w których badane substancje mogą pojawiać 19

20 się w attomolarnych, a często nawet mniejszych stężeniach. Rozpiętość obserwowanych stężeń różnych substancji występujących jednocześnie w próbkach biologicznych również może być bardzo duża. Przykładowo, dla białek i peptydów zakres dynamiczny stężeń wynosi od 105 u bakterii, przez w ludzkich komórkach, do nawet 1012 w osoczu i surowicy krwi [48]. Dlatego też istotnym parametrem, szczególnie w podczas analizy ilościowej, jest zakres dynamiczny analizatora, czyli zakres, w którym zmierzony sygnał pochodzący od jonu jest liniowo zależny od jego ilości w próbce. Szybkość analizatora, czyli liczba cykli akwizycji widma mas (skanów) w jednostce czasu, zazwyczaj nie ma decydującego znaczenia podczas dokładnych pomiarów mas pojedynczych związków. Może być jednak bardzo ważna w wypadku próbek o dynamicznie zmieniającym się składzie lub podawanych na wejście spektrometru bezpośrednio z połączonego ze spektrometrem układu chromatograficznego Analizatory stosowane w badaniach proteomicznych Historycznie pierwszym, bo użytym już w 1910 r. przez J. J. Thompsona, ale wciąż wykorzystywanym rodzajem analizatora jest sektor magnetyczny. Jednak w badaniach proteomicznych używane są zwykle przyrządy innego typu, głównie wyposażone w analizatory kwadrupolowe, analizatory czasu przelotu lub pułapki jonowe [36, 38, 39]. Ze względu na duże koszty i trudności w eksploatacji rzadziej spotykane są spektrometry z oferującym obecnie najlepsze parametry analizatorem jonowego rezonansu cyklotronowego z transformacją Fouriera, choć i one w ostatnich latach stały się bardziej powszechne. Analizator czasu przelotu Analizator czasu przelotu (TOF Time of Flight) rozdziela przyspieszone w polu elektrycznym jony na podstawie zależnej od masy i ładunku prędkości z jaką się poruszają. Jony o mniejszych wartościach m/z uzyskują w wyniku impulsu przyspieszającego większe prędkości i tym samym docierają do detektora wcześniej. Zmierzone czasy przelotu dla wszystkich jonów zamieniane są na widmo przy użyciu funkcji kalibracyjnej, której współczynniki wyznaczane są na podstawie pomiarów przeprowadzonych dla substancji referencyjnych o znanych masach. 20

21 Współczesne analizatory TOF, wyposażone w reflektor elektryczny odwracający tory lotu jonów w celu zniwelowania różnic w ich początkowej energii kinetycznej, osiągają rozdzielczości rzędu i dokładności określenia masy na poziomie 5 ppm, jednocześnie charakteryzując się dużą szybkością skanowania, szerokim zakresem pomiarowym i czułością na poziomie femtomoli. Analizator kwadrupolowy Analizator kwadrupolowy zbudowany jest z czterech równoległych, symetrycznie ułożonych metalowych prętów o przekroju hiperbolicznym. Przyspieszone jony wprowadzane są w kierunku równoległym do osi prętów a tory ich lotu ulegają destabilizacji pod wpływem wytworzonego przez przyłożenie do przeciwległych par prętów superpozycji potencjału stałego i zmiennego, o częstotliwości radiowej. W efekcie analizator kwadrupolowy działa jak filtr, który przy danych parametrach pola pozwala przejść tylko jonom o wybranych wartościach m/z, podczas gdy pozostałe jony poruszają się po niestabilnych trajektoriach i nie docierają do detektora. Widmo mas generowane jest poprzez zmianę potencjału stałego i amplitudy potencjału zmiennego przy zachowaniu stałej częstotliwości pola. Spektrometry z analizatorem kwadrupolowym są prostymi przyrządami o zdolności rozdzielczej do 4000, jednak niski koszt, małe wymiary, niezawodność i uniwersalność przyczyniły się do ich dużej popularności. Analizator typu pułapka jonowa Kwadrupolowa pułapka jonowa (QIT Quadrupole Ion Trap) zbudowana jest z elektrody w kształcie pierścienia oraz dwóch elektrod o przekroju sferycznym, ograniczających obszar pułapki od góry i dołu. Zmienny potencjał przyłożony do elektrody kołowej wytwarza trójwymiarowe pole kwadrupolowe, wymuszające ruch jonów po trajektoriach w formie trójwymiarowej ósemki. W odróżnieniu od klasycznego kwadrupola, w obszarze pułapki wiele rodzajów jonów może jednocześnie mieć stabilne tory lotu. W utrzymaniu wzajemnie odpychających się jonów na orbitach o niewielkich promieniach mają udział również zderzenia z cząsteczkami gazu obojętnego (najczęściej helu). Generacja widma odbywa się poprzez zmianę amplitudy potencjału zmiennego w taki sposób aby doprowadzić do 21

22 destabilizacji torów i, w efekcie, ekspulsji jonów w kolejności wzrastających wartości m/z. Możliwa jest również selektywna ekspulsja rezonansowa jonów o wybranych m/z poprzez przyłożenie do elektrod sferycznych dodatkowego potencjału zmiennego o częstotliwości pokrywającej się z częstotliwością ich drgań własnych. Rozdzielczość i zakres mas pułapek jonowych są zbliżone do oferowanych przez analizatory kwadrupolowe. Zakres dynamiczny pułapki jest jednak ograniczany przez maksymalną liczbę jonów, które mogą jednocześnie przebywać w jej obszarze bez zaburzania rozkładu pola w stopniu prowadzącym do zmniejszenia dokładności pomiaru masy. Liniowa pułapka jonowa (LTQ Linear Trap Quadrupole) jest analizatorem o konstrukcji zbliżonej do klasycznego kwadrupola, ale zasadzie działania takiej samej jak w kwadrupolowej pułapce jonowej. Jony są w tym wypadku przechowywane w cylindrycznej objętości znacząco większej niż w klasycznej, trójwymiarowej pułapce jonowej, dzięki czemu możliwe jest zwiększenie czułości, rozdzielczości i dokładności pomiaru. Analizator cyklotronowego rezonansu jonów Analizator cyklotronowego rezonansu jonów (ICR Ion Cyclotron Resonance) jest odmianą analizatora pułapkującego, który więzi jony w polu magnetycznym. Wykorzystuje on fakt, że częstotliwość cyklotronowa ruchu obrotowego jonów w polu magnetycznym jest zależna od ich wartości m/z, tak więc pomiar tej częstotliwości umożliwia określenie masy jonów. Dostarczenie jonom energii przez impuls elektromagnetyczny o częstotliwości rezonansowej powoduje sfazowanie ich ruchu, przy jednoczesnym zwiększeniu orbity lotu. Detekcja wzbudzonych jonów odbywa się poprzez pomiar prądów indukowanych w płytach odbiorczych. Jeżeli w komorze ICR znajduje się wiele różnych jonów, to konieczny jest impuls zawierający składowe o wszystkich częstotliwościach cyklotronowych. Można to osiągnąć przez przemiatanie częstotliwości i rejestrację prądów generowanych przez kolejne grupy jonów, jednak bardziej wydajną techniką jest ukształtowanie pojedynczego impulsu w taki sposób, aby możliwe było jednoczesne wzbudzenie wszystkich jonów. Indukowane w płytach odbiorczych prądy będą wówczas zawierać wiele składowych częstotliwościowych, które mogą być wyodrębnione za pomocą transformaty Fouriera. Analizator działający zgodnie z tym schematem nazywany jest FT-ICR (Fourier Transform Ion Cyclotron Resonance). 22

23 Do generacji pola magnetycznego zazwyczaj wykorzystywane są nadprzewodzące magnesy, co pozwala uzyskać dużą stabilność czasową parametrów, ale jednocześnie jest przyczyną dużych kosztów i rozmiarów analizatora oraz trudności w jego eksploatacji. Natomiast zaletami analizatorów FT-ICR są: sięgająca 106 rozdzielczość, dokładność określenia masy nawet poniżej 1 ppm oraz wysoka czułość przy zachowaniu stosunkowo szerokiego zakresu dynamicznego Tandemowa spektrometria mas (MS/MS) W badaniach strukturalnych, takich jak określanie sekwencji aminokwasowej peptydów, pomiar mas jonów molekularnych nie jest wystarczający. Nawet bardzo dokładany pomiar masy peptydu umożliwia jedynie określenie jego składu aminokwasowego. Wnioskowanie o kolejności reszt aminokwasowych w sekwencji możliwe jest dopiero po doprowadzeniu do dysocjacji wiązań w cząstce i zmierzeniu mas powstałych w ten sposób fragmentów. Wymaga to wykonania dwóch cykli analizy spektrometrycznej, pomiędzy którymi następuje fragmentacja, najczęściej poprzez dysocjację wywołaną kolizjami z cząstkami gazu obojętnego (CID Collision Inducted Disocciation) [36, 38, 39]. Spektrometry umożliwiające przeprowadzenie tego typu dwuetapowej analizy nazywa się spektrometrami tandemowymi. Najprostszym koncepcyjnie spektrometrem tandemowym jest przyrząd złożony z trzech połączonych szeregowo kwadrupoli, z których dwa skrajne zajmują się separacją mas, podczas gdy środkowy pełni funkcję komory kolizyjnej. Przyrząd taki może pracować w dwóch trybach: zbierania pełnego widma (tryb MS) oraz tandemowym (tryb MS/MS, który w wypadku proteomiki często nazywany jest trybem sekwencjonowania). Przy pomiarze pełnego widma pierwsze dwa kwadrupole pełnią funkcję kolimatorów wiązki, a cała analiza wykonywana jest w trzecim kwadrupolu, czyli przyrząd zachowuje się tak jak klasyczny spektrometr. W trybie MS/MS pierwszy kwadrupol przepuszcza tylko jony o określonym stosunku masy do ładunku, zwane jonami macierzystymi, które następnie ulegają fragmentacji w wypełnianej gazem szlachetnym komorze kolizyjnej. Widmo fragmentacyjne, czyli wartości m/z powstałych w wyniku fragmentacji jonów potomnych, jest rejestrowane w trzecim kwadrupolu. Analogiczna jest zasada działania spektrometrów TOF-TOF, złożonych z dwóch analizatorów czasu przelotu przedzielonych komorą kolizyjną. 23

24 Kolejne kroki spektrometrii tandemowej nie muszą być wykonywane przez analizatory wykorzystujące te same metody separacji jonów. Przykładem łączenia różnych typów analizatorów są spektrometry Q-TOF, w których trzeci z opisywanych wyżej kwadrupoli zastąpiony jest analizatorem czasu przelotu. Analiza tandemowa może być również przeprowadzona w pułapce jonowej. Co ważne, zarówno QIT, jak i LTQ są w stanie mierzyć widma fragmentacyjne samodzielnie, bez udziału drugiego analizatora. Poprzez odpowiednią kombinację potencjału stałego oraz amplitudy i częstotliwości potencjału zmiennego możliwe jest usunięcie z obszaru pułapki wszystkich jonów, z wyjątkiem tych o wybranej wartości m/z. Fragmentacja wybranego jonu następuje na skutek zderzeń z cząstkami helu, po dostarczeniu mu dodatkowej energii poprzez wzbudzenie rezonansowe potencjałem zmiennym o małej amplitudzie. Tak więc w tym wypadku cykle analizy spektrometrycznej rozdzielone są czasowo, a nie przestrzennie, jak to ma miejsce w omawianych wcześniej spektrometrach. Podobnymi możliwościami charakteryzują się również analizatory FT-ICR, jednak w praktyce są one rzadko wykorzystywane do spektrometrii tandemowej. Zwykle występują one w przyrządach hybrydowych, w których zadaniem analizatora FT-ICR jest dokładny pomiar pełnego widma mas, podczas gdy sekwencjonowaniem zajmuje się drugi analizator, o niższej rozdzielczości, najczęściej liniowa pułapka jonowa. Przykładem takiego urządzenia jest spektrometr Finnigan LTQ-FT firmy Thermo [49], z którego pochodzą wykorzystywane w niniejszej pracy dane Wstępne rozdzielanie chromatograficzne składowych próbek Dokładny pomiar mas całych cząstek i specyficznych dla ich struktury fragmentów czyni ze spektrometrii mas najdoskonalszą z obecnie dostępnych metod identyfikacji szerokiej klasy związków chemicznych. Jednak skuteczność identyfikacji i jej jednoznaczność znacząco maleją, gdy badane są skomplikowane mieszaniny substancji występujących w różnych stężeniach. Z taką sytuacją mamy zwykle do czynienia w przypadku próbek biologicznych. Rozwiązaniem tego problemu może być bezpośrednie połączenie spektrometru mas z układem chromatograficznym, w którym następuje wstępne rozdzielenie składników próbki. Chromatografia jest metodą rozdzielania składników mieszanin w wyniku ich różnego podziału pomiędzy fazę ruchomą i stacjonarną układu chromatograficznego [50, 51]. W zależności od stosowanej techniki chromatograficznej, fazą ruchomą może być gaz, ciecz 24

25 lub fluid, a fazą stacjonarną ciało stałe lub ciecz. Przemieszczanie się składników wzdłuż układu chromatograficznego jest możliwe tylko w fazie ruchomej, dlatego też dłużej będą w nim przebywać składniki silniej oddziałujące z fazą stacjonarną. Rozdzielonym składnikom mieszaniny, opuszczającym układ chromatograficzny w różnym czasie, odpowiadać będą osobne piki w rejestrowanym przez detektor chromatogramie. Czas od wprowadzenia badanej mieszaniny do detekcji maksimum piku nazywany jest całkowitym czasem retencji. Najbardziej oczywiste wydaje się połączenie spektrometrii mas z chromatografią gazową (GC Gas Chromatography), jednak technika GC-MS nadaje się jedynie do badania małych, lotnych i odpornych na temperaturę cząstek. W wypadku peptydów i białek stosowana jest technika LC-MS, w której rozdzielenie składników próbki następuje przy wykorzystaniu wysokosprawnej chromatografii cieczowej (HPLC High Performance Liquid Chromatography) Zasada rozdzielania w HPLC o odwróconej fazie HPLC jest odmianą tradycyjnej cieczowej chromatografii kolumnowej, w której analizowana mieszanina związków wprowadzana jest do strumienia płynnej fazy ruchomej (eluentu) i tłoczona pod ciśnieniem przez kolumnę chromatograficzną wypełnioną fazą stacjonarną. W przypadku najczęściej łączonej ze spektrometrią mas techniki HPLC w układzie odwróconej fazy (RP Reversed Phase), faza stacjonarna jest niepolarna (hydrofobowa), a faza ruchoma jest polarna (hydrofilowa). Typowym wypełnieniem kolumn są porowate granulki żelu krzemionkowego, o powierzchni zmodyfikowanej przez związanie z nią łańcuchów alkilowych. O hydrofobowości powierzchni czynnej fazy stacjonarnej decyduje długość i ilość związanych z nią łańcuchów. W RP-HPLC stosowana jest silnie hydrofobowa faza oktadecylosilanowa o 18 atomach węgla w łańcuchach (C18). Fazą ruchomą zwykle jest woda z dodatkiem organicznego niepolarnego rozpuszczalnika, którym najczęściej jest acetonitryl (ACN). Podstawą rozdzielania w RP-HPLC są wzajemne oddziaływania pomiędzy analitem a niepolarną fazą stacjonarną i polarnym rozpuszczalnikiem. Cząstki hydrofobowe (niepolarne), dążąc do zmniejszenia powierzchni wystawionej na działanie polarnego rozpuszczalnika, silniej oddziałują z fazą stacjonarną, natomiast cząstki bardziej hydrofilowe (polarne) spędzać będą więcej czasu w fazie ruchomej. Tym samym rozdzielenie mieszaniny 25

26 następuje zgodnie z hydrofobowością jej składników: w pierwszej kolejności kolumnę opuszczają cząstki hydrofilowe, podczas gdy cząstki hydrofobowe będą charakteryzować się większymi czasami retencji. Zwiększenie efektywności rozdzielania możliwe jest przez zastąpienie elucji izokratycznej, w której skład fazy ruchomej jest stały, przez elucję gradientową, z liniowo zwiększającym się udziałem rozpuszczalnika organicznego. Uzyskane w ten sposób zmniejszenie polarności fazy ruchomej zwiększa jej siłę elucji i wymusza zejście z kolumny silniej oddziałujących z fazą stacjonarną związków hydrofobowych. Efektywność rozdzielania jest dodatkowo poprawiana przez dodanie do fazy ruchomej kwasu organicznego (np. mrówkowego, octowego lub trójfluorooctowego) w celu regulacji ph i neutralizacji ładunku na odsłoniętych fragmentach krzemionki będącej podłożem fazy nieruchomej. Obserwowane czasy retencji są wynikiem interakcji analitu z systemem chromatograficznym i tym samym są zależne nie tylko od właściwości badanych cząstek, ale również od parametrów samego systemu (ciśnienia, wymiarów kolumny i wielkości granulek będących jej wypełnieniem) oraz warunków chromatograficznych (składu fazy ruchomej i sposobu jej zmiany w czasie, użytych modyfikatorów ph). Zagadnienia z tym związane zostaną dokładniej omówione w rozdziale 5.3.3, poświęconym predykcji czasu retencji Łączenie HPLC ze spektrometrem mas Na przestrzeni ostatnich 30 lat opracowano szereg rozwiązań konstrukcyjnych, które umożliwiają połączenie RP-HPLC ze spektrometrem mas [36, 38], jednak na szerokie zastosowanie LC-MS w naukach biologicznych pozwoliło dopiero wprowadzenie techniki jonizacji przez rozpylanie w polu elektrycznym (ESI). Dzięki kompatybilności ze stosowanymi w RP-HPLC eluentami, źródło jonów ESI może jednocześnie pełnić rolę efektywnego interfejsu transferującego kolejne rozdzielone chromatograficznie frakcje próbki do spektrometru. Osiągnięcie optymalnych dla jonizacji ESI warunków wymaga stosowania systemów HPLC o przepływach na poziomie nl/min z kolumnami w postaci kapilar o długości około 500 mm i średnicy μm [51]. Do układu zazwyczaj włączone są również prekolumny, których zadaniem jest oczyszczanie próbki z zanieczyszczeń zmniejszających wydajność źródła jonów. W efekcie oczyszczenie, rozdzielenie i pomiar odbywają się w jednym kroku. Jakkolwiek możliwe jest także bezpośrednie sprzężenie 26

27 z układem HPLC spektrometru ze źródłem jonów MALDI, częściej spotykane jest w tym wypadku połączenie typu off-line. W typowym eksperymencie LC-MS badana próbka jest wstępnie rozdzielana pod względem hydrofobowości w systemie RP-HPLC, a kolejne jej frakcje schodzące z kolumny chromatograficznej są poddawane jonizacji i wprowadzane do spektrometru. Pomiar widm mas następuje zwykle w regularnych odstępach czasu, zależnych od szybkości skanowania spektrometru. Taki proces pomiarowy generuje ogromne ilości danych: widmo w pojedynczym skanie może zawierać nawet kilkaset tysięcy punktów, zaś liczba skanów może, zależnie od długości przebiegu chromatograficznego, sięgać kilku tysięcy. W efekcie rozmiary plików z danymi LC-MS mierzone są w gigabajtach. Możliwe jest również połączenie chromatografii ze spektrometrią tandemową (LC-MS/MS), dzięki czemu rozdzielone substancje mogą być identyfikowane na podstawie widm fragmentacyjnych. Co istotne, współczesne spektrometry są w stanie dynamicznie przełączać się pomiędzy trybami MS i MS/MS. Pozwala to na tzw. akwizycję zależną od danych (DDA Data Dependent Acquisition), polegającą na cyklicznym wykonywaniu serii skanów zaczynających się od pomiaru pełnego widma próbki [2, 36]. Na jego podstawie wybierana jest pewna liczba jonów macierzystych, których widma fragmentacyjne są mierzone w kolejnych skanach. Jony macierzyste zwykle są wybierane na podstawie wysokości pików w pełnym widmie, a ich liczba jest zależna od szybkości skanowania spektrometru. Możliwe dzięki jonizacji ESI efektywne połączenie HPLC i spektrometrii mas miało kluczowe znaczenie dla rozwoju proteomiki. Próbki biologiczne pochodzące z tkanek mogą zawierać wiele tysięcy białek i ich bezpośrednia analiza w spektrometrze nie byłaby możliwa bez wykonania wcześniejszego rozdzielenia chromatograficznego. W pojedynczym przebiegu LC-MS/MS możliwe jest zidentyfikowanie wielu tysięcy peptydów, nawet o jednakowych masach cząsteczkowych, pod warunkiem, że różnią się hydrofobowością. Dzięki minimalizacji efektów supresji jonów w skomplikowanych mieszaninach możliwe stało się też znaczne zwiększenie czułości analizy, co umożliwia detekcję białek występujących nawet w niewielkiej liczbie kopii. Należy przy tym podkreślić, że dla proteomiki czułość ma szczególne znaczenie, gdyż, w odróżnieniu od sekwencji nukleotydowych, dla białek nie dysponujemy skutecznymi metodami amplifikacji. 27

28 4. SPEKTROMETRIA MAS W BADANIACH PROTEOMICZNYCH Spektrometria stała się w ostatnich latach jedną z podstawowych technik analitycznych wykorzystywanych w badaniach proteomicznych, szczególnie z zakresie identyfikacji składu białkowego próbek [1-4]. W tym zakresie wyparła inne, wcześniej stosowane techniki, takie jak degradacja Edmana [39]. Nowszym obszarem zastosowań jest analiza ilościowa. Możliwe są również badania nad trójwymiarową strukturą białek [52], jakkolwiek wciąż są one głównie domeną krystalografii rentgenowskiej i spektroskopii magnetycznego rezonansu jądrowego (NMR Nuclear Magnetic Resonance). Ze względu na bardzo ograniczoną możliwość rozróżniania białek na podstawie pomiaru masy całych cząstek, proteomika oparta o spektrometrię mas zajmuje się głównie analizą peptydów. Mogą to być peptydy tworzące tzw. peptydom, czyli zbiór peptydów naturalnie występujących w organizmie, lub też peptydy powstałe w wyniku trawienia białek in vitro. W tym drugim wypadku przed wprowadzeniem próbki do spektrometru znajdujące się w niej białka poddawane są działaniu enzymu proteolitycznego, który dzieli ich sekwencje w ściśle określonych miejscach. Podział ten jest na tyle specyficzny, że możliwa staje się identyfikacja całego białka na podstawie znajomości nawet niewielkiej liczby peptydów proteolitycznych, pokrywających jedynie częściowo jego sekwencję. Takie podejście w literaturze określane jest mianem bottom-up proteomics. Jego podstawową zaletą jest to, że badane cząstki mają relatywnie krótkie sekwencje i niewielkie masy, co ułatwia ich jednoznaczną identyfikację, która w wypadku pomiaru mas całych białek jest zadaniem znacznie trudniejszym lub wręcz niemożliwym, szczególnie gdy występują one w mieszaninach. Najczęściej wykorzystywanym enzymem proteolitycznym jest trypsyna, która dokonuje podziału po C-końcowej stronie argininy (R) i lizyny (K), z wyjątkiem miejsc gdzie następnym aminokwasem jest prolina (P). Ze względu na dość częste występowanie tych aminokwasów w sekwencjach białek (ich procentowe udziały w sekwencjach białek zgromadzonych w bazie danych SwissProt [53] wynoszą odpowiednio 5,53% i 5,86%), generowane przez trypsynę peptydy mają masy zwykle mniejsze od 4 kda i tym samym mieszczą się w typowo stosowanych zakresach pomiarowych spektrometru. Ponadto, peptydy te łatwo ulegają jonizacji dzięki zasadowemu charakterowi występujących na ich C-końcach reszt aminokwasowych. 28

29 W początkowej fazie rozwoju badań proteomicznych białka z próbek poddawane były wstępnemu rozdzieleniu przy użyciu jedno- lub dwukierunkowej elektroforezy w żelach poliakrylamidowych [5]. Po rozdziale i wybarwieniu poszczególne spoty z żelu były wycinane, a znajdujące się w nich pojedyncze białka były poddawane trawieniu enzymem proteolitycznym i osobno analizowane w spektrometrze mas w celu identyfikacji. Czasochłonność, słaba powtarzalność i trudności w automatyzacji takiej procedury sprawiły, że w ostatnich latach coraz większą popularność zdobywa podejście określane jako shotgun proteomics, w którym do spektrometru wprowadzana jest mieszanina peptydów pochodzących z jednoczesnego trawienia wszystkich białek znajdujących się w badanej próbce [1-4] Identyfikacja białek Podstawowym zadaniem spektrometrii mas w badaniach proteomicznych jest identyfikacja białek. Należy jednak podkreślić, że słowo identyfikacja rozumiane jest tutaj jako rozpoznawanie w próbce białek, na temat których mamy już pewną wstępną wiedzę w szczególności znamy, przynajmniej częściowo, ich sekwencje. Wyznaczanie sekwencji nieznanego białka jest bardzo rzadko wykonywane w oparciu jedynie o dane dostarczane przez spektrometr mas. Zdecydowanie częściej w procesie identyfikacji wykorzystywane są informacje zgromadzone w bazach danych sekwencji białkowych [6-18]. Pierwszą powszechnie stosowaną metodą identyfikacji był PMF (Peptide Mass Fingerprinting). Technika ta nie wykorzystuje danych ze spektrometrii tandemowej i opiera się jedynie na pomiarze mas peptydów powstałych w wyniku trawienia proteolitycznego białek. Uzyskana w wyniku pomiaru lista mas jest następnie porównywana z wyznaczonymi na podstawie znajomości sposobu działania enzymu listami mas peptydów wszystkich białek z bazy danych. Każda zmierzona masa różniąca się od masy teoretycznej o wartość mniejszą od zadanej tolerancji traktowana jest jako dopasowanie do białka. W najprostszym wypadku wybierane jest białko charakteryzujące się największą liczbą dopasowań. Bardziej zaawansowane algorytmy dodatkowo przypisują dopasowaniom wagi wyznaczone w oparciu o empiryczny rozkład częstości występowania mas peptydów w bazie danych [6]. Skuteczność działania techniki PMF jest jednak ograniczona do próbek, w których występują peptydy pochodzące z trawienia proteolitycznego pojedynczych białek. Wraz ze wzrostem 29

30 liczby białek pomiar samych mas peptydów nie jest już w stanie zapewnić wystarczającej specyficzności identyfikacji. Bezpośrednia analiza próbek zawierających skomplikowane mieszaniny białek stała się możliwa dopiero przy użyciu spektrometrii tandemowej, w której mierzone są nie tylko masy całych peptydów, ale również masy jonów będących efektem ich fragmentacji wewnątrz spektrometru. Powstałe w wyniku podziału peptydów widma fragmentacyjne pozwalają wnioskować o kolejności tworzących peptyd aminokwasów. Podobnie jak to ma miejsce w technice PMF, również w tym wypadku identyfikacja zazwyczaj wspierana jest przez bazy zawierające sekwencje białek. Zastosowanie bazy danych pozwala ominąć trudny, w ogólnym przypadku nierozwiązany w sposób satysfakcjonujący problem sekwencjonowania de-novo, czyli określenia nieznanej sekwencji peptydu na podstawie zmierzonego widma fragmentacyjnego. Zastąpiony zostaje on znacznie prostszym w praktycznej realizacji zadaniem, polegającym na wyszukaniu spośród zbioru sekwencji znanych peptydów tej, której teoretyczne widmo MS/MS najlepiej pasuje do widma eksperymentalnego. Wykorzystywany jest przy tym fakt, że znajomość zasad fragmentacji pozwala wyznaczyć teoretyczne położenia pików w widmie MS/MS peptydu o dowolnej sekwencji. W pierwszym kroku spośród wszystkich peptydów, które mogą powstać w wyniku trawienia znajdujących się w bazie danych białek przez użyty enzym proteolityczny, wybierane są te o masach mieszczących się w zadanej tolerancji wokół zmierzonej masy jonu macierzystego. Następnie widma teoretyczne odpowiadające ich sekwencjom porównywane są z widmem eksperymentalnym, czemu towarzyszy wyznaczenie pewnej miary dopasowania. Widmu eksperymentalnemu przypisywana jest sekwencja charakteryzująca się największym dopasowaniem (w literaturze anglojęzycznej pary powstałe przez przypisanie sekwencji do widm określane są skrótem PSM Peptide Spectrum Match, który będzie stosowany również w niniejszej pracy). Proces ten powtarzany jest dla wszystkich zarejestrowanych podczas analizy LC-MS/MS widm fragmentacyjnych. Dzięki specyficzności podziału proteolitycznego, znajomość sekwencji peptydów pozwala z pewnym prawdopodobieństwem określić z jakich białek one pochodzą. Ostatecznym wynikiem przeszukania jest lista peptydów i białek, wraz z parametrami świadczącymi o jakości ich identyfikacji. 30

31 Zasady fragmentacji peptydów Najczęściej wykorzystywaną metodą fragmentacji peptydów jest CID, czyli dysocjacja wywołana kolizjami z cząstkami gazu szlachetnego, zwykle argonu. Sposób w jaki peptydy ulegają fragmentacji, a tym samym uzyskane dla nich widma fragmentacyjne, są silnie zależne od energii kolizji. W większości komercyjnie dostępnych spektrometrów stosowane są niskie energie, w zakresie od kilku do 100 ev [2, 39]. Przy takich energiach kolizji, dysocjacji najczęściej ulegają pojedyncze wiązania łańcucha głównego peptydu, w efekcie czego powstają dwa jony, z których jeden zawiera C-koniec, a drugi N-koniec peptydu [39, 54, 55]. W zależności od miejsca dysocjacji, powstające jony nazywane są odpowiednio a, b, c jeżeli zawierają N-koniec peptydu oraz x, y, z jeżeli zawierają C-koniec (rysunek 4.1). Indeksy przy nazwach jonów określają pozycję aminokwasu, którego wiązanie uległo przerwaniu. Dla jonów a, b, c indeksy liczone są zwykle od N-końca, podczas gdy dla x, y, z od C-końca. Jony oznaczone jako bi i yl-i są zatem dwoma jonami powstałymi w wyniku rozerwania wiązania pomiędzy atomami węgla i azotu w i-tym aminokwasie peptydu o sekwencji długości L. To, który z tych dwóch jonów zostanie zdetekowany zależy od tego, przy którym z nich pozostanie ładunek. Rys Potencjalne miejsca dysocjacji wiązań w łańcuchu głównym przykładowego peptydu o sekwencji złożonej z czterech reszt aminokwasowych (Ri oznacza łańcuch boczny i-tej reszty). Kierunek strzałki wskazuje stronę, po której pozostaje ładunek umożliwiający detekcję jonu fragmentacyjnego W zmierzonym widmie mas CID jony fragmentacyjne objawiają się w postaci pików o wartościach m/z wynikających z ich masy i stopnia naładowania. Jeżeli sekwencje dwóch jonów tego samego rodzaju i o jednakowej liczbie ładunków różnią się od siebie o jedną resztę aminokwasową (np. dwa kolejne jony bi i bi+1), to różnica wartości m/z 31

32 odpowiadających im pików będzie równa masie tej reszty podzielonej przez stopień naładowania. W efekcie każdy rodzaj jonów generuje serię pików o wzajemnych położeniach zależnych od mas kolejnych aminokwasów w sekwencji peptydu, a tym samym niosących informacje o tej sekwencji. Pikom należącym do serii często towarzyszą piki lżejszych jonów powstałych przez oddysocjowanie cząsteczek wody lub amoniaku, które również mogą posłużyć do identyfikacji sekwencji. Prawdopodobieństwa powstania poszczególnych rodzajów jonów nie są jednakowe. W zdecydowanej większości przypadków w widmach dominują serie pików związane z jonami typu b i y. Dlatego też zwykle to właśnie jony z tych serii są wykorzystywane do identyfikacji sekwencji peptydu. Przykładowe widmo fragmentacyjne, wraz z wynikami identyfikacji, przedstawione jest na rysunku 4.2. Rys Fragment widma MS/MS peptydu o sekwencji LADEIIIR po obróbce niskopoziomowej (filtracji dolnoprzepustowej i deizotopizacji) oraz określeniu położeń pików jednokrotnie naładowanych jonów z serii y i b. Identyfikacje sekwencji aminokwasowych wykonane na podstawie pików z obu serii są równoważne. Niezaznaczona na rysunku, C-końcowa reszta aminokwasowa (R) może być określona na podstawie położenia piku y1 lub różnicy pomiędzy wartościami m/z jonu macierzystego i piku jonu b7. W analogiczny sposób identyfikowana jest N-końcowa reszta aminokwasowa (L), z tą jednak różnicą, że piki b1 zwykle nie są obserwowane w widmie 32

33 Algorytmy identyfikacji z użyciem baz danych Algorytmy stosowane przez systemy identyfikacji peptydów i białek można podzielić na trzy ogólne kategorie: algorytmy wykorzystujące mniej lub bardziej złożone teoretyczne modele widm peptydów i wyznaczające ich korelację z widmem pomiarowym, algorytmy oparte na modelu statystycznym wynikającym z empirycznych częstotliwości wystąpień jonów fragmentacyjnych w bazach danych oraz te dokonujące częściowej interpretacji sekwencji. Do pierwszej grupy należy SEQUEST [7], będący historycznie pierwszym, ale nadal powszechnie używanym systemem identyfikacji peptydów i białek na podstawie danych ze spektrometrii tandemowej. Wykorzystuje on uproszczony model widma teoretycznego, zawierający wszystkie piki z serii y i b, którym przypisywana jest abstrakcyjna wysokość 50, oraz towarzyszące im piki bez amoniaku i wody, o wysokości 10. Mieszczącym się wokół teoretycznych położeń pików przedziałom mas o szerokości zależnej od dokładności pomiaru przypisane są o połowę mniejsze wysokości. Miara dopasowania do tego modelu wyznaczana jest na podstawie jego korelacji wzajemnej z widmem eksperymentalnym. Do tej samej kategorii należą również algorytmy używane przez programy X! Tandem [8], SONAR [9] i SALSA [10], które posługują się innymi miarami dopasowania, ale podobnie jak SEQUEST oparte są na prostych modelach widm fragmentacyjnych. Bardziej złożone modele zostały natomiast wykorzystane w algorytmach SCOPE [11] i OLAV [12]. Modele te uwzględniają fakt, że prawdopodobieństwo zaobserwowania fragmentacji w różnych miejscach łańcucha peptydu jest zależne od sekwencji jego aminokwasów i właściwości spektrometru. Współczynniki modeli wyznaczane są na podstawie dużych zbiorów uczących, w skład których wchodzą zweryfikowane przez ekspertów widma. Druga grupa algorytmów stosuje podejście będące rozwinięciem idei wywodzącej się z techniki PMF. Wykorzystują one empiryczne modele opisujące prawdopodobieństwa wystąpień jonów fragmentacyjnych o danej masie, mogących powstać z peptydów będących efektem trawienia znajdujących się w bazie danych białek. Na ich podstawie wyznaczane jest prawdopodobieństwo uzyskania zaobserwowanej zgodności z widmem teoretycznym w sposób losowy. Każdy pik zmierzonego widma o masie mieszczącej się w oknie tolerancji wokół teoretycznego położenia jest traktowany jako dopasowanie jonu fragmentacyjnego. W najprostszym przypadku zliczana jest liczba dopasowań pików z serii b i y, a prawdopodobieństwo losowego dopasowania całej sekwencji określane jest jako iloraz 33

34 prawdopodobieństw dopasowań jej fragmentów. Reprezentantem tej kategorii jest system Mascot [13], oparty na rozwinięciu stosowanego w technice PMF algorytmu MOWSE (MOlecular Weight Search) [6]. Niestety, pomimo że jest on obecnie najczęściej wykorzystywanym systemem identyfikacji, szczegóły jego modelu statystycznego nie zostały nigdzie opublikowane. Innym przykładem algorytmu z tej grupy jest OMMSA [14]. Algorytmy z częściową interpretacją widma, do których zaliczyć można m. in. PeptideSearch [15], MS-Seq [16] oraz GutenTag [17] stanowią swego rodzaju etap pośredni pomiędzy algorytmami czysto bazodanowymi a sekwencjonowaniem de-novo. Opierają się one na założeniu, że możliwe jest odnalezienie w widmie ciągłej serii pików umożliwiającej jednoznaczną identyfikację przynajmniej krótkiej sekwencji aminokwasów. Uzyskana w ten sposób częściowa wiedza jest następnie włączana do procesu przeszukiwania bazy danych. Zaletą tego rodzaju algorytmów jest odporność na różnice pomiędzy rzeczywistą sekwencją peptydu a zawartością bazy danych, dzięki czemu dobrze nadają się do interpretacji peptydów z nieznanymi modyfikacjami. Należy zaznaczyć, że podany podział nie jest ścisły i część algorytmów może korzystać z rozwiązań typowych dla innych grup. Przykładowo, Mascot najprawdopodobniej wykorzystuje informacje o wysokości pików i ciągłości serii [18]. Dzięki temu możliwe jest wyeliminowanie podstawowej wady algorytmów opartych na zliczaniach dopasowań, jaką jest brak rozróżnienia pomiędzy pikami serii a pikami tła Ograniczenia skuteczności identyfikacji peptydów i białek Naturalnym ograniczeniem możliwości identyfikacji jest jakość zmierzonych widm fragmentacyjnych. Peptydy występują w próbkach w bardzo różnych stężeniach i te będące na granicy detekcji spektrometru skutkować będą widmami o niepełnej dysocjacji oraz małej statystyce jonów. Jakość widm może dodatkowo ulegać degradacji w wyniku ograniczonej dokładności określenia masy i zdolności rozdzielczej spektrometru, szumu chemicznego i elektroniki oraz fluktuacji sygnałów jonów na skutek zmiany koncentracji peptydów wchodzących do źródła jonów. Dodatkowe ograniczenia wprowadza również sposób akwizycji w technice LC-MS/MS, gdzie w pojedynczym skanie fragmentacji poddawana jest jedynie ograniczona liczba jonów molekularnych, wybranych zwykle na podstawie wysokości ich pików w pełnym widmie. Ponadto, w trakcie akwizycji nie następuje rozróżnienie rodzaju 34

35 jonów molekularnych. W efekcie, zbiór zmierzonych widm fragmentacyjnych zawierać będzie, obok widm peptydów, również widma niepeptydowych zanieczyszczeń. Należy również mieć na uwadze fakt, że mechanizmy rządzące fragmentacją wciąż nie są dokładnie poznane [18, 56]. W wypadku wielu peptydów rzeczywiste widma fragmentacyjne znacząco odbiegają od omawianego w podrozdziale schematu, co nie jest uwzględniane w prostych modelach używanych przez algorytmy identyfikacji. Dodatkowym problemem jest fakt, że nie wszystkie sekwencje generują wystarczająco unikalne widma, co jest szczególnie często obserwowane dla krótkich peptydów. Wspomniane zjawiska powodują, że z jednej strony zwykle nie jest możliwe określenie sekwencji wszystkich peptydów znajdujących się w złożonych próbkach, z drugiej zaś wiele spośród identyfikacji jest fałszywie pozytywnych. Zwiększeniu liczby zidentyfikowanych peptydów sprzyjają wszelkie działania prowadzące do spadku złożoności frakcji próbki analizowanej przez spektrometr w pojedynczym skanie. Najprostszym przykładem może być wydłużenie gradientu chromatograficznego. Bardziej złożonym podejściem, zależnym od możliwości spektrometru, jest stosowanie tzw. sekwencjonowania sektorowego, czyli wybierania jonów do sekwencjonowania z oddzielnych podzakresów m/z. Ograniczenie liczby fałszywie pozytywnych wyników możliwe jest dzięki udoskonaleniu metod obróbki wstępnej widm fragmentacyjnych [57], wprowadzeniu kroku oceny ich jakości przed wysłaniem do systemu identyfikacji [58] oraz stosowaniu dokładniejszych modeli zjawiska fragmentacji peptydów [56]. Jednak pomimo postępów w tej dziedzinie, występowanie znacznej, dochodzącej nawet do 90% ogółu wyników, liczby fałszywych identyfikacji jest wciąż prawdopodobnie najpoważniejszym problemem badań proteomicznych [18, 59]. W przypadku złożonych próbek białkowych, dla których ręczna weryfikacja wszystkich widm jest praktycznie niemożliwa, konieczne jest stosowanie automatycznych metod szacowania procentu fałszywie pozytywnych identyfikacji. Jednym z najczęściej spotykanych podejść do tego problemu jest wykorzystanie podczas przeszukania bazy danych określanej jako target/decoy [18, 59-63]. Baza taka składa się z dwóch części: pierwsza z nich (target) zawiera rzeczywiste sekwencje białek, zaś druga (decoy) jest wabikiem zbudowanym z takiej samej liczby sekwencji, które nie mają jednak biologicznego znaczenia. Jeżeli obie części są rozłączne (tzn. nie mają wspólnych sekwencji), każda identyfikacja niepochodząca z rzeczywistych białek może być traktowana jako wynik 35

36 fałszywie pozytywny. Przy dalszym założeniu, mówiącym że prawdopodobieństwa błędnego przypisania do danego widma fragmentacyjnego sekwencji z obu części bazy są jednakowe, liczba fałszywie pozytywnych identyfikacji w wynikach takiego przeszukania może być wyznaczona jako podwojona liczba PSM o niebiologicznych sekwencjach. Oznacza to, że dla dowolnego, utworzonego na podstawie pewnego kryterium, podzbioru wyników możemy oszacować FDR (False Discovery Rate), czyli wartość oczekiwaną stosunku liczby fałszywie pozytywnych PSM do całkowitej liczby PSM spełniających zadane kryterium [18, 61, 64, 65]. Jako kryterium wyboru PSM najczęściej służy pewna progowa wartość stosowanej przez używany system identyfikacji miary dopasowania sekwencji do widma. W literaturze zaproponowano wiele sposobów tworzenia sekwencji niebiologicznych: odwrócenie [59, 60] lub przetasowanie sekwencji całych białek [61], odwrócenie sekwencji peptydów tryptycznych [62], losowa generacja z zachowaniem cech oryginalnych sekwencji [63]. Najczęściej stosowane jest odwrócenie sekwencji białek, ale w zasadzie nie ma spójnego stanowiska co do wpływu wybranej metody na uzyskiwane oszacowania FDR. Zaletami metody bazy target/decoy są: prosta implementacja, możliwość użycia w połączeniu z dowolną miarą jakości dopasowania oraz brak parametrycznych założeń dotyczących rozkładu wartości tej miary. Wadą jest natomiast brak pewności co do tego, czy niebiologiczna część bazy danych może być podstawą oszacowania rozkładu wartości miary dopasowania fałszywych identyfikacji w części zawierającej rzeczywiste sekwencje. Dokładniejsze omówienie tego zagadnienia, wraz z pewnymi dowodami o charakterze empirycznym, można znaleźć w pracy [59] Analiza ilościowa W klasycznym podejściu, w którym analizowane mieszaniny białek poddawane były wstępnemu rozdzieleniu przy użyciu elektroforezy dwukierunkowej, możliwe było uzyskanie informacji o charakterze ilościowym na podstawie densytometrii obrazów żeli. Rozwinięciem tego podejścia stało się różnicowe wybarwianie białek poddawanych wspólnej elektroforezie 2-D DIGE (Two-dimensional Difference Gel Electrophoresis) [2, 5]. Wadami technik żelowych są jednak czasochłonność, trudności w automatyzacji oraz podatność na błędy wynikające z niezupełnego rozdzielenia białek w żelu. 36

37 Wraz z upowszechnieniem się metod analizy białek bez wcześniejszego rozdzielenia składników próbek z użyciem żeli, konieczne stało się opracowanie metod analizy ilościowej opartej w całości o dane spektrometryczne. Trudnością jest jednak fakt, że spektrometr mas nie jest idealnym przyrządem dla pomiarów o charakterze ilościowym, ze względu na wciąż nie do końca zbadaną relację pomiędzy ilością cząstek próbce a zmierzonym sygnałem. Występujące w mieszaninach peptydów zjawisko supresji jonów oraz zależność efektywności jonizacji od sekwencji peptydów powodują, że mówiąc o analizie ilościowej w spektrometrii mamy na myśli przede wszystkim pomiary względnych różnic w poziomach ekspresji białek pomiędzy różnymi próbkami biologicznymi [25, 66, 67]. Kolejnym problemem jest rozdzielenie informacji o charakterze ilościowym i informacji jakościowych pomiędzy dwa rodzaje danych pomiarowych. W ogólnym przypadku dane dostarczane przez spektrometr pracujący w trybie sekwencjonowania (dane MS/MS) są jedynie źródłem wiedzy jakościowej o składzie próbek. Proste metody wnioskujące o zmianach w ekspresji na podstawie liczby zidentyfikowanych peptydów [68] czy stopnia pokrycia ich sekwencji [69] mogą dostarczyć jedynie zgrubnych oszacowań, co jest wynikiem braku prostej zależności pomiędzy tymi parametrami a stężeniem białka w próbce. Z drugiej strony, pełne widma mas próbek (dane MS) niosą informacje o charakterze czysto ilościowym. Wprawdzie znając sekwencję peptydu możemy określić przybliżone parametry jego pełnego widma mas, ale zależność ta zwykle nie działa w drugą stronę: znajomość pełnego widma mas peptydu nie prowadzi do jednoznacznego określenia jego sekwencji. Tak więc przeprowadzenie analizy ilościowej w oparciu o dane LC-MS jest wieloetapowym procesem wymagającym połączenia informacji jakościowych i ilościowych uzyskiwanych z obydwu rodzajów danych. W efekcie dotychczas nie powstała metoda, która umożliwiałaby wykonanie pełnej analizy ilościowej w pojedynczym kroku. W ogólności stosowane podejścia można podzielić na dwie grupy, w zależności od tego czy wykorzystują znakowanie izotopami stabilnymi, czy też nie Metody ze znakowaniem izotopowym Jednym z możliwych sposobów względnego pomiaru ilości białek jest użycie technik znakowania próbek białkowych stabilnymi izotopami [33, 48, 71-73]. Wykorzystują one zdolność spektrometru do rozpoznania peptydów o takiej samej sekwencji, różniących się jednak zawartością stabilnych izotopów pierwiastków takich jak 2H, 13C, 15N i 18O. Peptydy 37

38 zawierające różne ilości izotopów będą miały bardzo zbliżone lub wręcz identyczne właściwości biofizyczne, przez co stosunek intensywności ich sygnałów MS będzie proporcjonalny do ilościowego stosunku białek, z których pochodzą. W najprostszej wersji eksperyment polega na osobnym wyznakowaniu peptydów pochodzących z dwóch próbek białkowych, które są następnie mieszane w równych proporcjach i wspólnie poddawane analizie spektrometrycznej. W zarejestrowanym widmie mas połączonej próbki pojawią się pary widm, przysuniętych wobec siebie o wartość m/z zależną od rodzaju użytych izotopów. Podstawową różnicą pomiędzy poszczególnymi metodami z tej rodziny jest sposób wprowadzenia izotopów. Do najczęściej wykorzystywanych metod należą: znakowanie metaboliczne poprzez hodowle komórek na pożywkach o różnym składzie izotopowym [70], znakowanie chemiczne, polegające na dołączeniu do peptydów znaczników o różnym składzie izotopowym [71, 72] oraz znakowanie enzymatyczne przez trawienie białek w środowiskach o różnym składzie izotopowym [73]. Możliwe jest również dodanie do próbki syntetycznych peptydów znakowanych [33], co, w odróżnieniu od wszystkich pozostałych metod, umożliwia pomiar bezwzględnych stężeń peptydów bądź białek Metody bez znakowania izotopowego Wyniki badań prowadzonych z użyciem metod wykorzystujących znakowanie izotopami stabilnymi pokazują, że pozwalają one w sposób wiarygodny i powtarzalny wykrywać nawet stosunkowo niewielkie zmiany w ekspresji białek. Niestety, metody te nie są wolne od wad, w pewnych wypadkach poważnie ograniczających zakres ich praktycznej stosowalności. Oczywistymi wadami są wysokie koszty oraz zwiększenie stopnia skomplikowania procesu przygotowywania próbek. W praktyce jednak istotniejszy może być różnicowy charakter tych metod, który wymusza wspólną analizę próbki badanej i kontrolnej, a tym samym ogranicza swobodę wyboru układu eksperymentalnego. Problemem mogą być również selektywność znakowania i różnice w jego efektywności oraz trudności w zastosowaniu do badań peptydomu. Dlatego też prowadzone są intensywne prace nad rozwojem technik analizy ilościowej bez znakowania izotopowego (label free), w których informacje o względnych zmianach ekspresji peptydów i białek uzyskuje się poprzez porównania sygnałów pomiędzy widmami próbek mierzonych osobno. 38

39 Wiele prac badawczych dotyczących metod analizy ilościowej bez znakowania izotopowego wykonano przy użyciu spektrometrów ze typu MALDI [30-31, 74-76]. Możliwość wykorzystania w takich zastosowaniach przyrządów z jonizacją ESI pojawiła się wraz z wprowadzeniem systemów z kapilarnymi kolumnami chromatograficznymi. Dzięki małym przepływom zapewniają one optymalne warunki jonizacji, pozwalające osiągnąć linową odpowiedź mierzonego sygnału na zmiany stężenia peptydów, co zostało pokazane zarówno dla prostych mieszanin [77], jak i bardziej złożonych próbek biologicznych [21, 25, 26]. Należy jednak podkreślić, że porównywanie widm LC-MS jest zadaniem trudniejszym niż w przypadku jednowymiarowych widm MALDI, co wynika nie tylko z większej wymiarowości uzyskiwanych zbiorów danych, ale także z pojawienia się w układzie pomiarowym dodatkowego źródła zmienności, jakim jest system HPLC. Nawet przy zapewnieniu powtarzalnych warunków chromatograficznych obserwowane będą rozrzuty w czasie elucji peptydów na skutek chwilowych zmian ciśnienia i temperatury. Badania wykazują, że czasy retencji w HPLC mogą fluktuować o 1-2% przy zmianie temperatury o 1ºC i to w sposób zależny od związku, podczas gdy eksperymenty LC-MS rzadko odbywają przy się kontrolowanej temperaturze [25, 78]. Typowe oprogramowanie dostarczane przez producenta wraz ze spektrometrem nie jest przystosowane do wykonywania automatycznej analizy ilościowej złożonych próbek białkowych na podstawie danych LC-MS, co stało się motywacją dla rozwijania własnego oprogramowania przez zespoły związane z laboratoriami proteomicznymi [19-29]. Systematyczne porównania proponowanych w tej dziedzinie rozwiązań są jednak nieco utrudnione przez fakt, że w odróżnieniu od np. stosowanej w transkyptomice techniki mikromacierzy, proteomika nie posługuje się wspólną platformą technologiczną. Tym samym, systemy analizy często są ściśle związane z używanym przez autorów sprzętem. Ponadto część z nich opisywana była jedynie w pobieżny sposób, przy okazji publikacji wyników badań nad klasyfikacją próbek lub wyszukiwaniem biomarkerów. Spotykane w literaturze rozwiązania można w ogólności zaliczyć do dwóch grup, przy czym podział ten jest w znacznym stopniu związany z parametrami stosowanego przez autorów spektrometru. Dla przyrządów o niskiej rozdzielczości często spotykanym podejściem jest traktowanie widma LC-MS jako macierzy sygnałów, której metody analizy wykazują podobieństwa ze stosowanymi w przetwarzaniu obrazów [27-29]. Pełne widma mas próbek zamieniane są na mapy, czy też obrazy, poprzez silną kwantyzację osi m/z i czasu 39

40 retencji, a czasem również intensywności. Następnie poddawane są filtracji dolnoprzepustowej i porównywane w celu wykrycia cech wspólnych lub różnicujących, przy czym jako cechy traktowane są w tym wypadku poszczególne piksele. W najprostszym przypadku porównanie odbywa się tylko na podstawie intensywności [27], ale w bardziej złożonych podejściach stosowane są odpowiednie testy statystyczne [28]. Zaletą tego typu metod jest fakt, że pozwalają one przeprowadzić analizę ilościową przy użyciu popularnych i tanich przyrządów niskorozdzielczych, takich jak pułapka jonowa. Oczywistą wadą jest natomiast zupełne oderwanie analizy od kontekstu biologicznego próbek, co czyni ją bardziej podatną na błędy wynikające z rozrzutów wartości m/z i czasów retencji pomiędzy pomiarami oraz obecności w próbkach zanieczyszczeń i szumu chemicznego. Dla przyrządów z analizatorami średniej (Q-TOF) i wysokiej rozdzielczości (FT-ICR) stosowane jest zwykle podejście oparte na ekstrakcji cech z widma, przy czym cechami są w tym wypadku reprezentujące peptydy pary wartości w postaci {masa ; czas retencji}. Ekstrakcja cech obejmuje detekcję wszystkich występujących w widmie pików (poprzedzoną zwykle fazą obróbki wstępnej) oraz łączenie ich w grupy odpowiadające jonom peptydowym. W efekcie pełne widmo mas każdej z próbek zamienione zostaje na listę cech, co pozwala na znaczące zmniejszenie rozmiaru danych i stosowanie w dalszej analizie klasycznych metod statystycznych i uczenia maszynowego. Aby jednak możliwe były porównania ilościowe, konieczne jest wcześniejsze określenie cech reprezentujących te same peptydy w kolejnych próbkach. Proces ten musi uwzględniać możliwość występowania pomiędzy widmami różnic w masie i czasie retencji. Na przestrzeni ostatnich 5 lat szereg zespołów zaprezentowało kompletne systemy analizy ilościowej w LC-MS, obejmujące swym działaniem wszystkie elementy przedstawionego powyżej ogólnego schematu [19-26]. Istnieją również prace skupiające się na poszczególnych jego etapach, takich jak: obróbka wstępna [79-82], detekcja i grupowanie pików [83-86] i wyrównanie parametrów czasowych widm [87-91]. Większość dostępnej literatury dotyczy metod przetwarzania danych generowanych przez przyrządy o średniej rozdzielczości [19-23, 26]. Słabiej reprezentowane są najciekawsze z punktu widzenia niniejszej rozprawy prace dotyczące spektrometrów z wysokorozdzielczymi analizatorami FT-ICR. W przypadku tych ostatnich najbardziej rozwiniętą metodą jest AMT (Accurate Mass and Time) [25, 91-95]. Jednocześnie implementujące ją oprogramowanie stanowi najdokładniej opisany i, co ważne, znajdujący praktyczne zastosowanie w rzeczywistych 40

41 badaniach. system analizy ilościowej. Dlatego też AMT poświęcona zostanie szczególna uwaga w zamieszczonym poniżej przeglądzie metod przetwarzania danych LC-MS w analizie ilościowej bez znakowania izotopowego. Przegląd ten podzielony jest na dwie części: pierwsza dotyczy kroków obróbki wykonywanych w ramach widma mas pojedynczej próbki, druga zaś poświęcona jest rozwiązaniom stosowanym na etapie łączenia informacji pochodzących z różnych próbek. Ekstrakcja cech w pojedynczym widmie Pierwszym krokiem w ekstrakcji cech jest detekcja pików, która może następować w obrębie poszczególnych skanów [20, 23-25, 83] lub wzdłuż osi czasu retencji, z użyciem chromatogramów wyznaczanych w zakresach m/z o szerokości odpowiadającej przyjętemu kwantowaniu widma [22, 26, 79, 84, 86, 88]. Dość zaskakujący jest fakt, że podczas detekcji pików rzadko wykorzystywana jest ich dwuwymiarowa natura. Detekcję zazwyczaj poprzedza etap obróbki wstępnej, mającej na celu redukcję szumów i uwypuklenie pików. Filtracja widm mas w ramach skanów może odbywać się w dziedzinie sygnału, przy użyciu filtru Savitzkyego-Golaya [20, 83], bądź też w dziedzinie transformaty Fouriera [80] lub falkowej [23, 81]. Korekcja tła, będąca istotnym krokiem przetwarzania gęstych, jednowymiarowych widm MALDI, nie stanowi tak dużego problemu w wypadku widm ESI, szczególnie tych pochodzących z wysokorozdzielczych przyrządów FT-ICR. Jeżeli jest wykonywana, to linia bazowa może być wyznaczona przez dopasowanie wielomianu niskiego stopnia do rozkładu minimów lokalnych [20]. Innym podejściem jest wykorzystanie nieliniowego filtru typu top- hat, odejmującego od oryginalnego sygnału wynik działania morfologicznego operatora otwarcia [83]. Podczas filtracji chromatogramów używane są dolnoprzepustowe filtry oparte na liczeniu średniej arytmetycznej, średniej geometrycznej lub mediany sygnału w oknie o zadanej szerokości [22, 26, 79], a także dopasowane filtry gaussowskie, stosowane po wcześniejszym wyznaczeniu drugiej pochodnej, co pozwala na jednoczesną korekcję linii bazowej [79, 84, 86]. Właściwa detekcja pików często wykonywana jest poprzez proste wykrywanie obszarów widma lub chromatogramu o wartościach przekraczających poziom estymowanego lokalnie szumu. W zależności od metody, uznanie piku za prawidłowy wymaga spełnienia dodatkowych warunków dotyczących jego szerokości [22] lub występowania koincydencji 41

42 maksimów lokalnych w wzdłuż osi m/z [26] i czasu retencji [20]. Stosowane są również bardziej złożone podejścia, oparte na wykorzystaniu transformaty falkowej [83, 85]. Po określeniu położeń wszystkich pików w widmie następuje wyznaczenie cech poprzez grupowanie pików reprezentujących te same jony peptydowe. W najprostszym wypadku piki grupowane są jedynie na podstawie sąsiedztwa w m/z i czasie retencji [26]. Częściej jednak proces ten rozbijany jest na etapy deizotopizacji widm mas z poszczególnych skanów, po którym następuje łączenie profili elucji w czasie retencji. Deizotopizacja wiąże się z określeniem położenia piku monoizotopowego i stopnia naładowania wszystkich obwiedni izotopowych w widmie. Przy danym stopniu naładowania jonu piki należące do jednej obwiedni powinny charakteryzować się zależnymi od składu chemicznego peptydu odstępami i stosunkami wysokości. Ponieważ jednak na tym etapie sekwencje peptydów nie są znane, zakłada się stałość odstępów pomiędzy pikami i stosuje przybliżone wartości stosunków ich wysokości. Przykładem algorytmu deizotopizacji jest THRASH (Thorough High Resolution Analysis of Spectra by Horn) [43], stanowiący podstawę detekcji cech w metodzie AMT. Zaczyna on pracę od określenia pozycji najwyższego piku widma (zakładając przy tym, że jest to pik monoizotopowy obwiedni), a następnie wyznacza stopień naładowania na podstawie częstotliwości występowania pików w jego otoczeniu z użyciem transformaty Pattersona [44]. Znajomość ładunku i wartości m/z umożliwia wyliczenie masy, która z kolei służy od określenia średniego składu chemicznego [45] i przybliżonego rozkładu izotopowego [96]. Uzyskana w ten sposób teoretyczna obwiednia izotopowa porównywana jest z danymi eksperymentalnymi w celu wyznaczenia stopnia jej dopasowania. Proces jest powtarzany dla wszystkich pików powyżej progu szumu. Podobne podejście, zwykle jednak z różnego rodzaju uproszczeniami, stosowane jest także w innych metodach [19, 20, 23, 83]. Efektem deizotopizacji jest wyznaczanie dla każdego skanu listy występujących w nim mas. Dalsze grupowanie w kierunku czasu retencji oparte jest na założeniu, że podobne masy występujące w sąsiadujących skanach reprezentują te same peptydy. Połączenie ich w pojedynczą cechę następuje na podstawie zadanych tolerancji dla różnic w masie [21] lub, jak to ma miejsce w systemie AMT, poprzez dwuwymiarową klasteryzację [25, 93]. W większości przypadków autorzy nie odnoszą się do problemu błędów popełnianych podczas ekstrakcji cech. O ich istnieniu świadczyć może chociażby fakt, że w metodzie AMT wprowadzony został krok filtracji cech o stosunku masy do ładunku nie mieszczącym się w zakresie pomiarowym [25]. Jeżeli wziąć pod uwagę fakt, że AMT używa 42

43 najbardziej rozbudowanego podejścia do deizotopizacji, można przypuszczać, że w pozostałych metodach problem ten również występuje. W wyniku ekstrakcji powstaje zbiór cech, których pozycje określane są zwykle jako średnie lub mediany pozycji połączonych pików. Wartościami cech stają się, w zależności od podejścia, wysokość piku monoizotopowego w maksimum profilu elucji [20], suma wysokości wszystkich pików [26], lub tylko tych pochodzących od dominującego stopnia naładowania [25]. Grupowanie cech z wielu widm Przeprowadzenie analizy ilościowej wymaga wzajemnego przyporządkowania cech reprezentujących te same peptydy w poszczególnych próbkach. Bezpośrednie porównanie pozycji cech z różnych widm prowadzić będzie do wykrywania fałszywych różnicowań na skutek możliwych niedokładności kalibracji skali m/z i zmienności czasów retencji. O ile zapewniana przez spektrometr dokładność określenia mas jest zwykle dobra, o tyle słaba powtarzalność HPLC jest poważnym problemem, wymuszającym konieczność wzajemnego dopasowania skali czasu porównywanych przebiegów. Należy przy tym zwrócić uwagę, że wyznaczenie globalnego liniowego przekształcenia pomiędzy widmami nie jest w stanie zapewnić wystarczającej dokładności, gdyż na skutek wahań ciśnienia i temperatury różnice w czasach elucji mogą zmieniać się w sposób nieliniowy [25, 78]. Większość algorytmów wyrównywania skali czasu działa w oparciu o pełne widma mas próbek. W tym przypadku dopasowywaniu mogą podlegać globalne profile elucji, reprezentowane przez chromatogramy całkowitego prądu jonowego TIC (Total Ion Current) [89, 90] lub też zbiory chromatogramów wykonanych dla podzakresów skali m/z [20, 27, 88]. Proces ten może odbywać się w parach, w odniesieniu do wybranego widma referencyjnego [20, 27, 87, 89] lub obejmować jednocześnie wszystkie widma [88, 90]. Znaczna część opisanych w literaturze metod wykorzystuje programowanie dynamiczne i wywodzi się od algorytmu DTW (Dynamic Time Warping) [97]. Algorytm ten wyznacza nieliniowe przekształcenie poprzez lokalne rozciąganie i kompresję skali czasu, w taki sposób, aby zminimalizować odległość pomiędzy analizowaną i referencyjną serią czasową. Pierwotnie został on opracowany na potrzeby przetwarzania sygnałów mowy, ale znalazł zastosowanie w chromatografii cieczowej, a następnie również w LC-MS, gdzie używany jest zarówno 43

44 w oryginalnej postaci [20], jak i z modyfikacjami dotyczącymi minimalizowanej funkcji celu [27, 87] lub umożliwiającymi jednoczesne działanie na wielu zbiorach danych [88]. W DTW każdy z punktów serii czasowej może być przemieszczony, co czyni ten algorytm kosztownym obliczeniowo. Alternatywnym podejściem jest podzielenie serii czasowej na segmenty, wewnątrz których następuje liniowe przeskalowanie osi czasu, przy jednoczesnym zachowaniu ciągłości w węzłach (granicach segmentów). Również w tym wypadku optymalizacja odbywa się poprzez programowanie dynamiczne, którego zadaniem jest maksymalizacja sumy współczynników korelacji pomiędzy odpowiadającymi sobie fragmentami w obydwu seriach czasowych. Oparty na tym schemacie algorytm COW (Correlation Optimized Warping) stosowany był najpierw w chromatografii cieczowej [98], a następnie zmodyfikowany na potrzeby danych LC-MS [89]. Inna ciekawa metoda, o nazwie CPM (Continous Profile Models) [90], wykorzystuje ukryty model Markowa (HMM Hidden Markov Model) [99] trenowany przy użyciu algorytmu EM (Expectation Maximization) [100] na całym zbiorze dopasowywanych widm. O postaci przekształcenia skali czasu decyduje w tym przypadku mapowanie numerów poszczególnych skanów na ukryte stany modelu, reprezentujące prawdziwy czas retencji. Jakkolwiek popularniejsze są metody operujące na pełnych widmach mas, istnieją również takie, które są przeznaczone dla danych po ekstrakcji cech [26, 91]. Przykładem może być przedstawiony w [26] algorytm optymalizujący liczbę cech o pokrywających się pozycjach w ramach bloków reprezentujących zakresy wartości m/z i czasów retencji. Poszukiwane przekształcenie ma postać przedziałami liniową, a do jego wyznaczenia stosowany jest algorytm przyspieszonego losowego przeszukiwania (ARS Accelerated Random Search) [101] Ograniczania metod analizy ilościowej bez znakowania izotopowego Przedstawione w poprzednim podrozdziale metody analizy ilościowej bez znakowania izotopowego oparte są na założeniu, że określenie masy oraz czasu elucji jest wystarczającym sposobem opisu peptydów, umożliwiającym ich wiarygodną identyfikację w różnych widmach mas. Tym samym zakładają, że nie ma potrzeby wykorzystywania na etapie ekstrakcji cech informacji o sekwencjach peptydów. Zaletą takiego podejścia jest możliwość porównania próbek na podstawie dużej liczby cech, która nie jest ograniczana przez 44

45 niedoskonałości procesu sekwencjonowania. Problemem pozostaje natomiast fakt, że znakomitej większości z nich nie można nadać interpretacji biologicznej. W wypadku tych metod połączenie informacji ilościowych, uzyskanych z widm LC-MS, z jakościowymi, dostarczanymi przez przebiegi LC-MS/MS, jest oczywiście możliwe, ale następuje już po etapie ekstrakcji cech. Ze względu na sposób w jaki zdefiniowane są cechy, przypisanie im konkretnych peptydów może być oparte jedynie na bliskości w dziedzinie masy i czasu retencji. Tym samym prawidłowość tego przyporządkowania jest w znacznej mierze uzależniona od jakości dopasowania czasów retencji, które w tym wypadku musi objąć również przebiegi LC-MS/MS. Należy w tym miejscu zwrócić uwagę, że wszystkie opisane wcześniej algorytmy wyrównywania skali czasu bazują na założeniu o niezmienności kolejności schodzenia peptydów z kolumny chromatograficznej. Oczekiwane jest także duże podobieństwo pomiędzy profilami elucji widm. Oba założenia są słuszne w sensie globalnym, ale już niekoniecznie w lokalnym. Przy porównywaniu próbek pochodzących z różnych grup badanych lokalnie mogą występować duże różnice w widmach. Zdecydowana zmiana ilości pewnych peptydów, lub też pojawianie się nowych, może zaburzyć działanie algorytmów i to, paradoksalnie, w miejscach najciekawszych z punktu widzenia analizy ilościowej. Oczywistym zastosowaniem metod analizy ilościowej jest szukanie różnic pomiędzy badanymi próbkami, które np. w wypadku zastosowań diagnostycznych traktowane są jako potencjalne biomarkery stanów chorobowych. Może się wydawać, że nie ma większego znaczenia czy biomarkerom można przypisać konkretne peptydy i ważne jest jedynie aby w sposób konsekwentny pozwalały rozróżnić osoby zdrowe od chorych. Takie podejście stało się przyczyną początkowego entuzjastycznego przyjęcia licznych doniesień o wykrytych przy użyciu spektrometrii mas różnicowaniach, często podawanych w postaci pozbawionych opisu biologicznego list mas [102]. Entuzjazm ten wydaje się obecnie nieco słabnąć na skutek braku niezależnych potwierdzeń tych obserwacji oraz licznych publikacji pokazujących ogromny wpływ, jaki na wyniki mają sposób zbierania, przygotowania i przechowywania badanych próbek [32, 33, ]. Możliwość nadania interpretacji biologicznej nie chroni wprawdzie przed wykryciem fałszywych różnicowań, ale ułatwia ich weryfikację. Jednocześnie daje szansę odsiania tych wyników, które prowadzą do wniosków trywialnych z diagnostycznego punktu widzenia. 45

46 5. METODA ANALIZY ILOŚCIOWEJ ZMIAN EKSPRESJI BIAŁEK I PEPTYDÓW W OPARCIU O DANE Z TECHNIKI LC-MS 5.1. Ogólna charakterystyka metody Proponowana w niniejszej pracy metoda analizy ilościowej należy do kategorii label free, czyli nie wykorzystuje znakowania izotopami stabilnymi, co pozwala na porównywanie próbek przygotowywanych osobno i poddawanych pomiarowi w różnym czasie oraz zwiększa swobodę w planowaniu układu eksperymentu. Odporność na niestabilność parametrów spektrometru i układu HPLC, konieczną do prawidłowego działania metody bez znakowania izotopowego, uzyskuje się poprzez uwzględnienie w procesie przetwarzania danych możliwości wystąpienia pomiędzy widmami różnic w kalibracji wartości m/z, czasie elucji peptydów oraz ilości badanego materiału biologicznego. Metoda może być użyta zarówno w badaniach proteomu, jak i peptydomu, co oznacza, że peptydy w analizowanych próbkach mogą mieć pochodzenie naturalne lub też być wynikiem trawienia białek in vitro za pomocą enzymu proteolitycznego. Podczas opracowywania metody wykorzystywane były dane pochodzące ze spektrometru LTQ-FT firmy Thermo [49]. Jest to przyrząd hybrydowy, w którym za rejestrację pełnych widm mas odpowiada wysokorozdzielczy analizator FT-ICR, natomiast pomiar widm fragmentacyjnych odbywa się w liniowej pułapce jonowej. Metoda nie bazuje jednak na specyficznej konstrukcji spektrometru i wykorzystuje niezależny od niej format danych. Tym samym może bez większych modyfikacji zostać użyta z innym rodzajem spektrometru, pod warunkiem, że zapewnia on dostateczną rozdzielczość (np. typu Q-TOF). W odróżnieniu od opisywanych w rozdziale metod analizy ilościowej, cechą jest peptyd o znanej sekwencji, a nie tylko wartości masy i czasu retencji określające pozycję widma reprezentujących go jonów. Analiza ilościowa jest więc oparta na wcześniejszej identyfikacji występujących w próbkach peptydów. Uzyskane dzięki sekwencjonowaniu informacje służą do utworzenia teoretycznych modeli opisujących dokładny kształt i przybliżone położenie widm mas jonów peptydowych, które następnie są wykorzystywane na etapie ekstrakcji wartości liczbowych z pełnych widm mas próbek. Modele te, zgodnie z naturą widm LC-MS, mają postać dwuwymiarową, dzięki czemu detekcja widm jonów odbywa się jednorazowo, bez konieczności późniejszego grupowania informacji z poszczególnych skanów. Jednocześnie już na etapie ekstrakcji cech uwzględniona jest 46

47 możliwość występowania rozrzutów w czasach elucji peptydów, dzięki czemu nie jest potrzebny osobny krok dopasowywania parametrów czasowych widm. Określenie właściwego czasu retencji odbywa się osobno dla każdego peptydu, bez czynienia typowego dla algorytmów dopasowywania założenia o zachowaniu kolejności jego zejścia z kolumny chromatograficznej. Proces przetwarzania danych w przedstawianej metodzie można, w pewnym uproszczeniu, podzielić na cztery podstawowe etapy: budowanie bazy wiedzy o występujących w próbkach białkach i peptydach na podstawie wielokrotnych przebiegów sekwencjonujących LC-MS/MS; tworzenie teoretycznych modeli widm mas jonów zidentyfikowanych peptydów; ekstrakcja z widm LC-MS porównywanych próbek wartości liczbowych, będących miarą względnej ilości peptydów; dalsza obróbka danych w postaci liczbowej, mająca na celu umożliwienie wnioskowania o względnych zmianach ekspresji peptydów i białek. Szczegółowemu omówieniu wymienionych powyżej etapów poświęcone zostały kolejne cztery podrozdziały pracy, w których proponowane przez autora rozwiązania zaprezentowane zostaną w odniesieniu do tych znanych z literatury podejść Gromadzenie wiedzy o składzie próbek W przypadku rzeczywistych próbek biologicznych, zawierających skomplikowane mieszaniny białek, niedoskonałość procesu sekwencjonowania powoduje, że pojedynczy przebieg LC-MS/MS zwykle nie jest w stanie dostarczyć zadowalającej liczby identyfikacji [105]. Dlatego też wymagane do przeprowadzenia analizy ilościowej informacje o charakterze jakościowym uzyskiwane są z wielokrotnych przebiegów sekwencjonujących. Tak więc w proponowanej metodzie eksperyment zaczyna się od serii przebiegów LC-MS/MS, na podstawie których budowana jest baza wiedzy o składzie badanych próbek. Zagadnienia związane z przetwarzaniem danych jakościowych i identyfikacją peptydów na podstawie widm fragmentacyjnych nie leżały w głównym nurcie prowadzonych 47

48 przez autora prac badawczych. Wynikało to zarówno z ram czasowych narzuconych przez proces przygotowania rozprawy, jak i z ograniczeń natury technicznej. Przedstawiana metoda może pracować w oparciu o identyfikacje dostarczane przez dowolny system bazodanowy, jednak dostępne dla autora dane pochodziły z komercyjnego systemu identyfikacji Mascot [13] firmy MatrixScience, który nie tylko ma charakter zamknięty, ale dodatkowo producent wykazuje silną niechęć do dzielenia się wiedzą o szczegółach jego działania. W efekcie wyniki identyfikacji peptydów i białek traktowane są w znacznej mierze jako dane wejściowe dla dalszych kroków przetwarzania. Z drugiej jednak strony liczba peptydów, które mogą zostać poddane analizie ilościowej jest uzależniona od wyników analizy jakościowej. Dlatego też w niniejszym rozdziale przedstawione zostaną pewne rozwiązania związane z eliminacją podstawowych wad systemu Mascot, do których można zaliczyć: ograniczone możliwości oszacowania liczby fałszywie pozytywnych identyfikacji, niedostosowanie do danych pomiarowych pochodzących z wysokorozdzielczych spektrometrów oraz wynikające z redundancji baz danych trudności w porównywaniu wyników przeszukań Eliminacja fałszywie pozytywnych identyfikacji Mascot jest systemem identyfikacji opartym na modelu statystycznym wykorzystującym empiryczny rozkład częstości występowania jonów fragmentacyjnych o danej masie, pochodzących z peptydów będących wynikiem podziału białek z bazy danych. Podobnie jak większość systemów identyfikacji, grupuje on wyniki w hierarchiczną strukturę, u podstawy której leżą przypisania sekwencji do widm fragmentacyjnych (PSM - Peptide Spectrum Match). Pojedynczy peptyd może być reprezentowany przez wiele PSM, pochodzących od jonów o różnym stopniu naładowania lub poddanych sekwencjonowaniu w różnych skanach przebiegu LC-MS/MS. Ostatnim poziomem hierarchii są białka zidentyfikowane na podstawie jednego, lub większej liczby peptydów. Używaną przez system Mascot miarą jakości przypisania sekwencji do widma fragmentacyjnego jest prawdopodobieństwo p uzyskania obserwowanego dopasowania widm, teoretycznego i eksperymentalnego, w sposób losowy. Dla wygody wyrażane jest w postaci logarytmicznej, jako score: score= 10log p. Przykładowy rozkład wartości score zaprezentowany został na rysunku 5.1.a. 48 (5.1)

49 Dla każdego PSM Mascot wyznacza próg istotności wartości score określany jako Mascot Identity Threshold (MIT) i dany zależnością: N, MIT = 10log 20 (5.2) gdzie α przyjmuje domyślnie wartość 0,05, a N jest liczbą sekwencji kandydackich, o masach mieszczących się w zadanym przedziale tolerancji wokół masy jonu macierzystego. Występujący we wzorze (5.2) parametr α ma sens poziomu błędu typu I jedynie przy założeniu pełnej losowości sekwencji peptydów z bazy danych. Ponieważ założenie to w ogólnym przypadku nie jest spełnione, podawany jest również drugi próg, nazywany Mascot Homology Threshold (MHT), będący empiryczną miarą odstępstwa score od rozkładu wartości wyznaczonego na podstawie wszystkich sekwencji kandydackich [106, 107]. Niestety, dokładna definicja tego progu nie została przez producenta opublikowana, podobnie zresztą jak i wszelkie szczegóły dotyczące stosowanego modelu statystycznego i sposobu obliczania wartości score. Oba progi stosowane były w literaturze jako wartości odniesienia dla score [106, 108], choć często można spotkać się z użyciem arbitralnie wybranej wartości jako kryterium decydującego o wyborze zbioru peptydów. a) b) Rys Przykładowe rozkłady wartości: a) miary dopasowania score; b) towarzyszących mierze score progów istotności MIT i MHT 49

50 W niniejszej pracy proponowane jest stosowanie zmodyfikowanej wartości mscore, określonej jako: mscore=score MMT =score min MIT, MHT, (5.3) gdzie MIT i MHT są wartościami progów Mascota dla PSM o danej wartości score. Miarą jakości identyfikacji białka jest mscoreb, wyznaczane na podstawie wartości mscore PSM o wartościach pochodzących z danego białka: NB mscore B= mscore i MMT, (5.4) i =1 gdzie NB jest liczbą PSM identyfikujących białko, a MMT średnią progów istotności użytych do określenia wartości mscorei. Wybór progu MMT jako odniesienia dla wartości score podyktowany jest obserwowanymi rozkładami wartości progów MIT i MHT, których przykłady zostały przestawione na rysunku 5.1.b. Wartość progu MIT zależy jedynie od liczby sekwencji kandydackich (wzór 5.2), która dla znacznej części widm jest zbliżona. Skutkuje to wąskim rozkładem progów MIT, sugerującym, że użycie ich do zmodyfikowania score tylko w nieznacznym stopniu będzie się różniło od odjęcia arbitralnie przyjętej wartości i w efekcie może nie prowadzić do wzrostu informacji niesionej przez nową miarę. Empiryczny próg MHT, który jest zależny zarówno od widma, jak i sekwencji, charakteryzuje się większą specyficznością, a rozkład jego wartości jest zbliżony w kształcie do rozkładu score (rysunek 5.1.a). Z drugiej jednak strony może on przyjmować nierealistycznie wysokie wartości w szczególnych przypadkach widm, dla których mała liczba sekwencji kandydackich uniemożliwia prawidłową estymację rozkładu score. Miara mscore nie jest wykorzystywana w sposób bezpośredni, a służy jedynie do uporządkowania PSM pod względem jakości identyfikacji w celu przypisania im q-wartości. Pojęcie q-wartości wprowadzone zostało przez Storey'a i Tibshiraniego w kontekście analizy wyników badań ekspresji genów przy użyciu mikromacierzy i jest definiowane jako minimalny FDR, dla którego dana cecha może zostać uznana za istotną statystycznie [109]. Jest więc sposobem przeniesienia właściwości całego zbioru wyników, jaką jest FDR, na poziom pojedynczych cech. W przypadku wyników sekwencjonowania do wyznaczenia q-wartości można wykorzystać opisywaną już w rozdziale metodę przeszukiwania bazy zawierającej zarówno rzeczywiste sekwencje białek, jak i ich odwrócone wersje. Procedura zaczyna się od posortowania zbioru wszystkich PSM zgodnie z wartościami miary mscore. Liczba fałszywie 50

51 pozytywnych identyfikacji związanych z i-tą pozycją posortowanego zbioru szacowana jest jako podwojona liczba PSM o odwróconych sekwencjach znajdujących się na pozycjach nie większych od i. Związany z tą pozycją FDR wyznaczany jest jako liczba fałszywych identyfikacji odniesiona do numeru pozycji. Przy znajomości wartości FDR dla kolejnych pozycji zbioru, określenie q- wartości sprowadza się do wymuszenia monotoniczności tych pierwszych: { dla i= N q i= FDR i, min FDRi, FDRi 1 dla i=1,, N 1 (5.5) gdzie N jest liczebnością zbioru wszystkich PSM. Filtracja wyników sekwencjonowania odbywa się poprzez odrzucenie wszystkich PSM o q-wartościach nie większych od zadanego progu. Dodatkowym warunkiem jest wymóg, aby białka identyfikowane były na podstawie co najmniej dwóch peptydów o różnych sekwencjach Wyznaczanie parametrów przeszukiwania bazy danych Wyniki identyfikacji nie są zależne jedynie od jakości zmierzonych widm fragmetacyjnych. Wpływają na nie również określane przez użytkownika parametry, dotyczące zarówno rodzaju badanych próbek, jak i używanego sprzętu. Do pierwszej grupy należą m.in.: stosowana baza danych sekwencji białkowych, ograniczenie zakresu przeszukania do proteomu określonego gatunku, rodzaj użytego enzymu proteolitycznego i stopień jego specyficzności oraz uwzględniane modyfikacje potranslacyjne. Najważniejszymi parametrami związanymi ze sprzętem są zakresy tolerancji mas jonów macierzystych i fragmentacyjnych (MMD Maximum Mass Deviation). Pierwszy z nich wpływa na listę peptydów kandydackich, których teoretyczne widma fragmentacyjne będą porównywane z widmem eksperymentalnym, drugi zaś decyduje o prawidłowym wyborze pików widma fragmentacyjnego służących do identyfikacji. Wybór właściwych wartości MMD może wydawać się oczywisty, jako że powinny one być uzależnione od dokładności określenia masy używanego spektrometru. Należy jednak pamiętać, że podawana przez producenta dokładność nominalna jest osiągana jedynie przy pomiarach mas pojedynczych substancji, prowadzonych w warunkach optymalnych dla spektrometru. Zachowanie takich warunków w trakcie typowych dla proteomiki pomiarów skomplikowanych mieszanin związków 51

52 o znacząco różniących się stężeniach jest w praktyce bardzo trudne. W tym przypadku można raczej mówić o dokładności określenia masy w sensie statystycznym. Dodatkowym problemem jest fakt, że błąd określenia masy może mieć również składową systematyczną, wynikającą z niedokładnej kalibracji skali m/z, dryfu termicznego i innych zjawisk degradujących dokładność pomiaru. W każdym eksperymencie proteomicznym występują peptydy, których prawidłowa identyfikacja nie budzi większych wątpliwości ze względu na bardzo wysoką wartość mscore lub pochodzenie z białek na pewno występujących w próbkach. Peptydy te można traktować jako swego rodzaju wewnętrzne standardy, a obserwowany dla nich rozkład błędów może być podstawą kalibracji i oszacowania rzeczywistej dokładności określenia masy. W spotykanych w literaturze podejściach odbywa się to poprzez proste wyznaczenie wartości średniej i odchylenia standardowego błędów względnych [25, 106] lub też przez dopasowanie metodą najmniejszych kwadratów krzywej Gaussa do ich histogramu [110]. Oszacowanie wartości średniej służy następnie do rekalibracji mas jonów macierzystych. Po jej wykonaniu dane są ponownie przesyłane do systemu identyfikacji, przy czym zakres tolerancji mas ustalany jest na podstawie odchylenia standardowego. W niniejszej pracy proponowana jest udoskonalona procedura, uwzględniająca możliwość występowania zależności błędu od zmierzonej wartości m/z. Ponadto, kalibracja i wyznaczanie parametrów przeszukania dotyczą nie tylko mas jonów macierzystych, ale także mas jonów fragmentacyjnych. Wynika to z faktu, że w przyrządzie, z którego pochodzą użyte w pracy dane, pomiar obu rodzajów jonów następuje w dwóch analizatorach o znacznie różniących się parametrach. Wyznaczenie parametrów kalibracji dla jonów macierzystych odbywa się na podstawie wektora e, którego elementami są błędy względne pomiaru wartości m/z, wyrażone w jednostkach ppm. Dla i-tego jonu błąd ten dany jest zależnością: e i=10 6 mie mi mi, (5.6) gdzie mi i mie to, odpowiednio, rzeczywista i zmierzona wartość m/z. Rzeczywista wartość m/z wyznaczana jest na podstawie stopnia naładowania jonu i przypisanej mu przez system Mascot sekwencji aminokwasowej. Zakładana jest liniowa zależność błędu względnego od wartości m/z. Parametry prostej kalibracyjnej wyznaczane są metodą najmniejszych 52

53 kwadratów, przy czym robione jest to w sposób zapewniający odporność na wartości odstające, wynikające z możliwych nieprawidłowych identyfikacji sekwencji dla części uwzględnionych peptydów. W tym celu wykorzystywany jest iteracyjny algorytm RANSAC (RANdom SAmple Consensus), który wyznacza punkty najbardziej odbiegające od optymalizowanego modelu na drodze powtarzanych w sposób iteracyjny losowych podziałów zbioru danych [111]. Przy znanych parametrach prostej kalibracyjnej a i b możliwe jest wyznaczenie skorygowanej wartości m/z dla dowolnego jonu jako: 6 mcal=m[1 10 am b ]. (5.7) Kalibracja widm MS/MS wykonywana jest w taki sam sposób jak to ma miejsce dla jonów macierzystych, z tą jednak różnicą, że aby wyznaczyć wektor błędów e konieczne jest wygenerowanie teoretycznych widm fragmentacyjnych dla wszystkich uwzględnianych peptydów. Dokładniej rzecz ujmując, wyliczane są jedynie teoretyczne pozycje pików reprezentujących jednokrotnie naładowane jony z serii y, które zwykle najłatwiej zidentyfikować w eksperymentalnym widmie fragmentacyjnym. Określone na ich podstawie parametry kalibracyjne są następnie używane dla wszystkich pozostałych pików widm. Skorygowane widma fragmentacyjne zapisywane są w formacie umożliwiającym import do Mascota. Stosowane w powtórnym przeszukaniu zakresy tolerancji wyznaczane są jako wielokrotność odchylenia standardowego estymowanego na podstawie odchylenia medianowego (MAD Median Absolute Deviation) [112]: MMD=K median E median E /0,6745, (5.8) gdzie E oznacza wektor błędów względnych określenia masy po wykonaniu kalibracji (uwzględniane są jedynie jony, które nie zostały uznane za skrajne przez algorytm RANSAC na etapie wyznaczania parametrów funkcji kalibracyjnej), natomiast parametr K domyślnie przyjmuje wartość 3. Z nie do końca zrozumiałych przyczyn, dla jonów fragmentacyjnych Mascot dopuszcza jedynie użycie bezwzględnego błędu określenia masy. Dlatego też w ich przypadku konieczne jest ponowne przeliczenie tolerancji względnej (w jednostkach ppm) na bezwzględną (wyrażoną w Da), co niestety prowadzi do niepożądanego spadku dokładności w zakresie małych m/z. 53

54 Redukcja redundancji wyników identyfikacji Podczas analizy próbek o nieznanym składzie białkowym zwykle używana jest możliwie jak najobszerniejsza baza danych sekwencji aminokwasowych, co pozwala zminimalizować ryzyko braku identyfikacji na skutek niekompletności tej ostatniej. Dodatkowo, poprawia to skuteczność działania algorytmu identyfikacji w przypadku widm o słabej jakości, na podstawie których nie jest możliwe odtworzenie pełnej sekwencji peptydów [107]. Z drugiej strony, duże bazy, takie jak NCBI [113], charakteryzują się silną redundancją i częstymi zmianami identyfikatorów odpowiadających najbardziej aktualnym wersjom sekwencji. Skutkuje to niepożądanym wydłużeniem listy białek zidentyfikowanych na podstawie tych samych peptydów oraz utrudnia automatyzację przetwarzania wyników identyfikacji. Aby uwzględnić wspomniane wyżej zjawisko, w prezentowanej metodzie możliwe jest analizowanie nie tylko poszczególnych białek, ale także całych rodzin o zbliżonej sekwencji. Grupowanie białek w rodziny odbywa się na podstawie wyników aglomeracyjnej klasteryzacji hierarchicznej [114]. Miarą podobieństwa pary białek jest procent identyczności F, równy procentowi identycznych reszt aminokwasowych zajmujących odpowiadające sobie pozycje w ich dopasowanych globalnie sekwencjach. Dopasowanie globalne sekwencji wykonywane jest za pomocą opartego na programowaniu dynamicznym algorytmu Needlemana-Wunsha [115] z afinicznym modelem kar za przerwy i wybraną macierzą substytucji reszt aminokwasowych [99]. Możliwe jest również ominięcie kosztownego obliczeniowo procesu wyznaczania dopasowania sekwencji i użycie przybliżonej miary podobieństwa, opartej na zliczaniu liczby K-merów, czyli subsekwencji aminokwasów o długości K [116]. Podobne do siebie sekwencje będą charakteryzować się większą liczbą wspólnych K-merów i tym samym wyższą wartością miary podobieństwa, która dla dwóch sekwencji S1 i S2 o długościach, odpowiednio, L1 i L2 dana jest zależnością: min N 1, N 2 F Kmer = K min L1, L2 K 1, (5.9) gdzie ΞK oznacza zbiór wszystkich K-merów o długości K, a Nξ1 i Nξ2 to liczby wystąpień K-meru ξ w sekwencjach S1 i S2. 54

55 5.3. Model widma mas peptydu Dla każdego zidentyfikowanego peptydu1 możliwe jest utworzenie modelu opisującego jego widmo poprzez określenie dwuwymiarowego kształtu oraz przybliżonego położenia wzdłuż osi m/z i czasu retencji. Pełny model widma z-krotnie naładowanego jonu odpowiadającego peptydowi o złożonej z LP reszt aminokwasowych sekwencji S P i masie monoizotopowej M P określony jest przez następujące parametry: { mp f P m/ z, P tr g P t (5.10) gdzie m P jest wartością m/z odpowiadającą położeniu piku monoizotopowego widma, funkcja f P(m/z) opisuje kształt obwiedni izotopowej jonu, trp jest teoretycznym czasem zejścia z kolumny chromatograficznej, a funkcja g P(t) określa profil elucji, czyli kształt pików w kierunku osi czasu retencji Położenie widma wzdłuż osi m/z Położenie piku monoizotopowego widma wynika z masy monoizotopowej M P peptydu oraz stopnia naładowania z reprezentującego go jonu. Masa monoizotopowa peptydu dana jest jako suma mas reszt aminokwasowych wchodzących w skład jego sekwencji S P (wraz z ewentualnymi modyfikacjami potranslacyjnymi) oraz mas N- i C-końca sekwencji. Te ostatnie w wypadku badań proteomicznych zwykle są odpowiednio równe masie atomu wodoru i grupy hydroksylowej. Aby zachować większą uniwersalność i łatwość uwzględniania dowolnych modyfikacji potranslacyjnych, masa monoizotopowa peptydu nie jest wyznaczana na podstawie tabel mas reszt aminokwasowych, ale bezpośrednio z ich składu pierwiastkowego. Przy znanej masie, wartość m/z piku monoizotopowego m P dla jonu molekularnego o danym stopniu naładowania wyznaczana jest z zależności (3.1). 1 W niniejszym podrozdziale zakładane jest, że, zgodnie z podstawową ideą prezentowanej tu metody, podczas wyznaczania modeli widm mas znane są sekwencje aminokwasowe peptydów. W rzadkich przypadkach (np. podczas badania białek niewystępujących w stosowanej bazie danych), dopuszczane jest wyznaczanie modelu bez znajomości sekwencji. Przypadek ten został omówiony w punkcie Dodatku. 55

56 Kształt przekroju widma w kierunku osi m/z Określenie kształtu przekroju widma w kierunku osi m/z wymaga obliczenia ciągłej obwiedni izotopowej. W tym celu konieczne jest wyznaczenie teoretycznego rozkładu izotopowego, czyli zbioru odmian izotopowych cząstki (o określonym składzie izotopowym i wynikającej z niego dokładnej masie) wraz z prawdopodobieństwem ich występowania. Pełną obwiednię izotopową można następnie wygenerować jako splot rozkładu izotopowego z funkcją odwzorowującą kształt piku wynikającego ze skończonej rozdzielczości spektrometru. Stopień skomplikowania rozkładu mas izotopowych jest zależny od liczby atomów pierwiastków wieloizotopowych tworzących cząstkę. Opracowano szereg uproszczonych podejść wyznaczania przybliżonych rozkładów izotopowych [36, 117, 118], jednak ich zastosowanie jest zwykle ograniczone do cząstek o prostym składzie chemicznym. W ogólności, rozkład mas izotopowych cząstki o dowolnej masie i składzie może być przedstawiony w formie wielomianowej [119, 120]. Dla NA atomów przykładowego pierwiastka A, posiadającego JA izotopów o prawdopodobieństwach wystąpienia pai i masach MAi, poszukiwany rozkład wyraża się zależnością: P A= p A1 x M A1 p A2 x M A2... p A J x MAJ NA A A, (5.11) gdzie x jest ułatwiającą formalny zapis zmienną pomocniczą, grupującą kombinacje izotopowe o tych samych masach. Współczynniki rozwinięcia wyrażenia (5.11) można wyznaczyć z rozkładu wielomianowego [121] : K A1, K A2,..., K AJ NA! p A1 K p A2K p A J K A1! K A2! K A J! A1 A KJ A2 A A, (5.12) A gdzie KAi to liczby wystąpień poszczególnych izotopów, spełniające warunek: JA K Aj=N A. (5.13) j=1 Uwzględnienie atomów pozostałych pierwiastków wchodzących w skład cząstki wymaga wyznaczenia współczynników iloczynu reprezentujących je wielomianów. Metoda wielomianowa charakteryzuje się nieskończoną rozdzielczością, co oznacza, że wynikiem jej działania jest lista par {masa; prawdopodobieństwo} dla wszystkich możliwych odmian izotopowych. Niestety jednak, praktyczny zakres stosowalności jej bezpośrednich implementacji [122, 123] jest ograniczony do cząstek o masach poniżej 1 kda. Jest to wynikiem ogromnej liczby możliwych odmian izotopowych, która dla NA atomów 56

57 pierwiastka o JA izotopach rośnie jak liczba JA-elementowych kombinacji z powtórzeniami ze zbioru NA-elementowego. Całkowita liczba odmian izotopowych cząstki jest iloczynem liczb odmian dla wszystkich pierwiastków składowych, co szybko prowadzi do eksplozji kombinatorycznej wraz ze wzrostem masy. Ominięcie tego problemu jest możliwe dzięki wprowadzeniu kroku przycinania, polegającego na eliminowaniu w trakcie obliczeń pików odpowiadających odmianom izotopowym o prawdopodobieństwie występowania poniżej pewnego progu [ ]. Wpływ przycinania na dokładność wynikowej obwiedni jest silnie zależny od składu chemicznego cząstki oraz szczegółów implementacji, takich jak sposób wyznaczania progu (może być stały bądź adaptatywny) i etapu, na którym jest on stosowany (czy dotyczy pojedynczych atomów, czy też całych ich grup). Dla dużych biopolimerów, charakteryzujących się złożonymi rozkładami, w których ujawnia się wpływ nawet izotopów o bardzo małym prawdopodobieństwie wystąpienia, przycinanie prowadzone na osobnych pikach może skutkować znacznymi zniekształceniami wynikowej obwiedni [96]. W znacznej części praktycznych zastosowań uwzględnianie wszystkich możliwych odmian izotopowych nie jest konieczne, gdyż otrzymana w ten sposób lista zawiera grupy pików nierozróżnialnych ze względu na skończoną rozdzielczość spektrometru. Ze względu na ryzyko zniekształceń całkowitej obwiedni w wyniku eliminowania osobnych pików, podejściem dającym większą zgodność z wynikami eksperymentalnymi może okazać się łączenie w trakcie obliczeń pików o zbliżonych masach, a nawet wszystkich pochodzących od odmian izotopowych o takiej samej całkowitej liczbie nukleonów [ ]. Dzięki redukcji liczby rozpatrywanych odmian izotopowych, efektywność tego typu algorytmów jest w mniejszym stopniu warunkowana skutecznością przycinania, dzięki czemu stosowany przy nim próg może być ustawiony na znacznie niższym poziomie. Przykładem takiego podejścia jest generujący wyniki o dużej zgodności z danymi pomiarowymi algorytm Kubinyi [130], którego wadą jest jednak oparcie się na założeniu, że kolejne piki wynikowego rozkładu są rozmieszczone w jednakowych odstępach. Równoważnym sposobem opisu rozkładu mas izotopowych atomu pierwiastka A, posiadającego JA izotopów o masach MAi i prawdopodobieństwach wystąpienia pai, jest przedstawienie go jako sumy delt Diraca [132]: P A m = p A1 m M A1 p A2 m M A2... p A J m M A J. A A (5.14) Wyznaczenie rozkładu całej cząstki na podstawie rozkładów wszystkich atomów wchodzących w jej skład pierwiastków możliwe jest poprzez splot odpowiadających im 57

58 funkcji w dziedzinie masy lub równoważne mu mnożenie w dziedzinie transformaty Fouriera. W oparciu o tę reprezentację powstał algorytm wyznaczania pełnej obwiedni izotopowej wykorzystujący szybką transformatę Fouriera (FFT Fast Fourier Transform) [133] o nazwie Mercury [96], charakteryzujący się efektywnym wykorzystaniem pamięci. Uzyskiwana rozdzielczość jest zależna od liczby punktów próbkowania oraz szerokości połówkowej funkcji opisującej kształt poszczególnych pików i może być zwiększona przez zawężenie zakresu rozpatrywanych mas [134]. Podejście to zostało również zmodyfikowane przez autorów w kierunku zwiększenia szybkości działania kosztem rozdzielczości i rezygnacji z generowania pełnej obwiedni [131]. W tym przypadku obliczenia wykonywane są po zaokrągleniu mas izotopów do najbliższych liczb całkowitych, a następnie położenia pików są korygowane na podstawie odchyleń standardowych rozkładów izotopowych pierwiastków tworzących rozpatrywaną cząstkę. Niedogodnością algorytmów opartych na transformacie Fouriera jest konieczność odpowiedniego doboru zakresu mas, aby uniknąć zniekształceń widma w wyniku aliasingu oraz niemożność zachowania informacji o składzie izotopowym poszczególnych pików. Wyznaczanie postaci funkcji f P(m/z), odpowiedzialnej w omawianym modelu za opis kształtu obwiedni izotopowej, odbywa się przy użyciu opracowanego przez autora algorytmu, opartego na splocie w dziedzinie masy. W swej podstawowej wersji generuje on rozkład pików sumarycznych, powstających przez połączenie wszystkich pików pochodzących od odmian izotopowych o jednakowej całkowitej liczbie nukleonów. Tym samym jest on powiązany z omawianym wcześniej algorytmem Kubinyi [130] oraz z jedną z odmian fourierowskiego algorytmu Rockwooda [131]. Istotną różnicą jest jednak fakt, że wyznaczane są dokładne masy pików sumarycznych, rozumiane jako średnie mas tworzących je odmian izotopowych, ważone przez prawdopodobieństwa ich występowania. Efektem działania rozszerzonej wersji algorytmu mogą być dokładne masy, prawdopodobieństwa wystąpień oraz, co jest unikalną cechą, składy izotopowe wszystkich odmian tworzących piki sumaryczne. Ze względu na ograniczoną zdolność rozdzielczą stosowanego spektrometru funkcje te nie są jednak bezpośrednio wykorzystywane podczas generacji modeli widm jonów peptydów, dlatego też ich opis został umieszczony w punkcie Dodatku. Prawdopodobieństwa występowania poszczególnych pików sumarycznych cząstki reprezentowane są przez elementy wektora p. Wyznaczanie prawdopodobieństw odbywa się 58

59 w sposób iteracyjny, będący odpowiednikiem budowania cząstki z grup atomów kolejnych pierwiastków, aż do momentu uzyskania docelowego składu chemicznego. Każdemu łączeniu odpowiada splot aktualnego wektora prawdopodobieństw cząstki p z wektorem prawdopodobieństw przyłączanej grupy atomów aktualnie rozpatrywanego pierwiastka pe. Atomy tego samego pierwiastka dodawane są do cząstki w grupach o licznościach będących potęgami liczby 2, przy czym wektor prawdopodobieństw grupy atomów o liczności 2n+1 (n = 0, 1,...) jest wyznaczany na podstawie wektorów prawdopodobieństw grup atomów o liczności 2n. Rozwiązanie to, wzorowane na algorytmie Kubynyi, pozwala ograniczyć liczbę koniecznych mnożeń. Dalsze zwiększenie wydajności można osiągnąć przez zastosowanie tablic z obliczonymi wcześniej wartościami wektorów prawdopodobieństw grup atomów. Na początku działania algorytmu wektor p zawiera jeden element o wartości równej 1, podczas gdy wektor pe zawiera prawdopodobieństwa wystąpień izotopów pierwszego z rozpatrywanych pierwiastków. Proces dodawania atomów tego pierwiastka sterowany jest poprzez binarną reprezentację ich liczby. Pojawienie się w niej wartości 1 na n-tej pozycji oznacza konieczność przyłączenia grupy 2n atomów. Wiąże się to z wyznaczeniem nowego wektora prawdopodobieństw cząstki p', którego k-ty element dany będzie wzorem: p ' [k ]= p [i] p E [k i ]. i (5.15) Wektor prawdopodobieństw pierwiastka pe uaktualniany jest w każdej iteracji poprzez splot z samym sobą. Po uwzględnieniu wszystkich atomów pierwszego pierwiastka proces jest kontynuowany dla kolejnych pierwiastków, aż do osiągnięcia docelowego składu cząstki. Aby umożliwić wyznaczenie mas pików sumarycznych, reprezentacja rozkładu izotopowego wzbogacona jest o wektor masy M. Jego uaktualnianie na podstawie wektorów mas ME grup przyłączanych atomów odbywa się jednocześnie z liczeniem splotu prawdopodobieństw, przy czym k-ty element nowego wektora M' dany jest zależnością: M ' [k ]= p [i] p E [ k i] M [i] M E [ k i]. i (5.16) Po zakończeniu obliczeń każdy element wektora mas M dzielony jest przez odpowiadający mu element wektora prawdopodobieństw p. W rezultacie masy pików stają się średnimi ważonymi mas wszystkich odmian izotopowych, których prawdopodobieństwa składały się na dany pik sumaryczny, przy czym wagami są prawdopodobieństwa wystąpienia poszczególnych odmian. Po każdym kroku splatania rozmiar nowych wektorów prawdopodobieństw p i mas M będzie równy powiększonej o jeden sumie rozmiarów 59

60 wektorów prawdopodobieństw łączonych fragmentów. W celu zwiększenia szybkości działania, po każdym splocie może być wykonywane przycinanie. W odróżnieniu od algorytmów wielomianowych, dotyczy ono jednak jedynie pików sumarycznych znajdujących się na krańcach rozkładu, dzięki czemu stosowana może być bardzo niska wartość progu. Po określeniu mas i prawdopodobieństw występowania odmian izotopowych peptydu, możliwe jest wyznaczenie pełnej postaci obwiedni izotopowej odpowiadającego mu jonu molekularnego. W pierwszej kolejności konieczne jest zamienienie, korzystając z zależności (3.1), mas każdej z odmian izotopowych na wartości m/z wynikające ze stopnia naładowania jonu, a następnie wykonanie splotu z funkcją modelującą kształt piku. Ze względu na rodzaj spektrometru używanego trakcie opracowania prezentowanej metody, udział w całej obwiedni k-tego piku sumarycznego o wartości m/z równej mk i prawdopodobieństwie wystąpienia pk opisywany jest funkcją Gaussa: f k m/ z = p k exp m/ z mk 2 k 2 2, (5.17) przy czym wartość parametru σk, decydującego o szerokości piku, związana jest z położeniem jego maksimum mk i rozdzielczością spektrometru RP następującą zależnością: k= mk. RP 2 2 ln 2 (5.18) Całkowita obwiednia f P(m/z) jest sumą funkcji kształtów pierwszych K pików sumarycznych, których prawdopodobieństwa wystąpienia są większe od zadanego progu Położenie widma wzdłuż osi czasu retencji Analizy LC-MS/MS oprócz identyfikacji peptydów mogą również dostarczyć informacji o czasie, w którym nastąpiło ich sekwencjonowanie. Uzyskaną w ten sposób wiedzę można wykorzystać na dwa sposoby. Pierwszym, prostszym podejściem jest bezpośrednie wykorzystanie czasów sekwencjonowania w przebiegu LC-MS/MS do estymacji położenia peptydu w przebiegach LC-MS. W wypadku wielokrotnych przebiegów sekwencjonujących, oszacowaniem pozycji peptydu staje się wartość średnia zmierzonych czasów sekwencjonowania we wszystkich próbkach, w których został wykryty, zaś dokładność tego oszacowania wyznaczana jest jako odchylenie standardowe wartości średniej. 60

61 Zdecydowanie trudniejszą, ale jednocześnie bardziej elegancką metodą jest predykcja czasów retencji na podstawie sekwencji peptydu. W tym przypadku uśrednione czasy sekwencjonowania wykorzystywane są jako zbiór uczący dla tworzonego predyktora. Dzięki takiemu podejściu do wyznaczenia wartości parametrów modelu widma dowolnego peptydu wystarczająca jest znajomość jego sekwencji. Dodatkowo zyskuje się możliwość tworzenia modeli dla peptydów, które nie zostały w próbkach zidentyfikowane, a zgodnie z naszą wiedzą powinny się w nich znajdować. W systemie wysokosprawnej chromatografii cieczowej w układzie odwróconej fazy (RP-HPLC), przy ustalonych warunkach chromatograficznych czas retencji tr jest zależny od hydrofobowości H peptydu: t r =A g H t g, (5.19) gdzie Ag jest współczynnikiem proporcjonalności opisującym liniowy w czasie wzrost stężenia acetonitrylu dodawanego do fazy ruchomej, natomiast tg jest wynikającym z objętości martwych systemu HPLC opóźnieniem z jakim gradient dociera do detektora. W tak zdefiniowanym modelu hydrofobowość H opisuje zachowanie chromatograficzne cząstki i jest właściwym celem predykcji, jako że współczynnik Ag jest z góry określony przez nachylenie gradientu acetonitrylu, a opóźnienie tg jest charakterystyczne dla danego systemu HPLC i może być oszacowane np. na podstawie czasu elucji wzorcowego peptydu lub poprzez analizę chromatogramu. Pomimo tego, że predykcja czasu elucji w RP-HPLC jest przedmiotem badań od początku lat 80., mechanizm retencji nadal nie jest opisany wystarczająco dokładnie aby możliwe było stworzenie w pełni teoretycznego modelu. Dlatego też stosuje się modele o charakterze empirycznym, które w najprostszym przypadku zakładają, że zachowanie chromatograficzne peptydu jest zależne tylko od składu aminokwasowego [ ]. Hydrofobowość w takim wypadku może być wyrażona zależnością: 20 H = N i Rc i, (5.20) i=1 gdzie Rci jest współczynnikiem retencji i-tej reszty aminokwasowej, wstępującej Ni razy w sekwencji peptydu. Ze względu na właściwości łańcuchów bocznych, aminokwasy można podzielić na hydrofobowe i hydrofilowe. Podział ten znajduje odbicie w wartościach współczynników retencji Rci, będących miarą wkładu poszczególnych reszt aminokwasowych w całkowitą hydrofobowość peptydu. Wartości tych współczynników wyznaczane są zwykle 61

62 poprzez modele cząstkowych najmniejszych kwadratów (PLS partial least squares) lub regresję wielokrotną (multiple regression) wobec zmierzonych czasów retencji peptydów o naturalnym pochodzeniu [ ], bądź też syntetycznych [139, 140]. Należy podkreślić, że możliwość bezpośredniego zastosowania współczynników retencji wyznaczonych dla samodzielnych systemów HPLC do predykcji czasów retencji w próbkach proteomicznych jest zwykle mocno ograniczona. Współczynniki dla HPLC powstawały dla konkretnych warunków chromatograficznych, zwykle w oparciu o niewielkie zbiory krótkich peptydów, często ze zmodyfikowanymi N- i C-końcami, podczas gdy w badaniach protomicznych mamy do czynienia z peptydami o mocno zróżnicowanej długości oraz wolnych końcowych grupach aminowych i karboksylowych, co może mieć znaczący wpływ na czas retencji [ ]. Nie uwzględniają one również występowania reszt cysteinowych zmodyfikowanych przez karbamidometylację, co jest wynikiem sposobu przygotowania próbek białkowych do analizy w spektrometrze mas. Tak więc, jakkolwiek modele w postaci (5.20) są powszechnie stosowane w analizach LC-MS [ ], to ich użycie wymaga ponownego wyznaczenia wartości współczynników retencji. Zastosowanie przedstawionego powyżej liniowego modelu do skomplikowanych mieszanin peptydów o zróżnicowanym składzie i długości pochodzących z rzeczywistych badań proteomicznych, zwykle nie przynosi zadowalających rezultatów. Uzyskiwane wartości kwadratu współczynnika korelacji R2 na poziomie 0,80-0,85 pokazują, że założenie o zależności hydrofobowości jedynie od składu aminokwasowego jest uproszczeniem słusznym jedynie dla krótkich sekwencji [149]. W ogólnym przypadku na zachowanie chromatograficzne peptydu wpływają również inne czynniki zależne od kolejności reszt aminokwasowych w sekwencji, czego dowodem są różnice w obserwowanych czasach retencji peptydów izomerycznych, czyli mających jednakowy skład [150]. W szeregu prac pokazano możliwość poprawy wyników predykcji poprzez uwzględnienie parametrów takich jak: długość sekwencji peptydu [ , 149, 151] i jej skłonność do tworzenia struktur drugorzędowych [142, 143, 149], punkt izoelektryczny [142] oraz teoretyczny współczynnik podziału pomiędzy fazą ruchomą a stacjonarną i objętość Van Der Waalsa [152]. Istotny wpływ na czas retencji wydają się mieć sekwencje skrajnych fragmentów sekwencji, szczególnie zaś części blisko N-końca [ , 149]. Przykładowo, zespół Krokhina [141] zaobserwował, że elucja późniejsza od przewidywanej jest typowa dla peptydów posiadających hydrofilowe reszty aminokwasowe blisko N-końca, podczas gdy 62

63 hydrofobowe reszty aminokwasowe na tej pozycji przyczyniają się do wcześniejszej elucji. Zgodnie z zaproponowaną przez autorów interpretacją zjawisko to jest efektem tworzenia się par jonowych pomiędzy znajdującymi się w fazie ruchomej anionami kwasu a N-końcowymi wolnymi grupami aminowymi, które w kwaśnym środowisku (ph=2) niosą dodatni ładunek. Aby skompensować to zjawisko autorzy wyznaczyli dodatkowy zestaw współczynników retencji dla początkowych pozycji w sekwencji, wraz z wagami o wartościach zależnych od odległości od N-końca. Dodatkowo wprowadzone zostały poprawki uwzględniające fakt, że wcześniejsza elucja obserwowana jest również dla bardzo krótkich (mniej niż 10 reszt), długich (ponad 20 reszt) oraz silnie hydrofobowych peptydów. Model ten został następnie znacząco rozbudowany w kolejnych pracach tego samego zespołu [142, 143] poprzez wyznaczenie osobnych zestawów współczynników retencji również dla C-końca oraz szeregu współczynników korekcyjnych o wartościach zależnych od sekwencji peptydu. Uwzględniają one m. in. efekt sąsiedztwa zasadowych reszt aminokwasowych, występowanie powtórzeń reszt silnie hydrofobowych lub hydrofilowych, punkt izoelektryczny, skłonność peptydu do tworzenia helikalnych struktur drugorzędowych, a nawet wielkość porów wypełnienia kolumn chromatograficznych. W rezultacie powstał bez wątpienia najbardziej rozbudowany z dostępnych w literaturze model, którego parametry wyznaczone zostały jednak w bardzo czasochłonny, ręczny sposób, bez użycia jakichkolwiek metod optymalizacji. Alternatywnym podejściem do predykcji czasów retencji jest wykorzystanie sztucznych sieci neuronowych (ANN Artificial Neural Networks) [153], które umożliwiają opis złożonych nieliniowych zależności w danych bez konieczności tworzenia dokładnego modelu zjawisk leżących u ich podstaw. Możliwość skutecznego zastosowania sieci neuronowych do predykcji czasów retencji zademonstrował po raz pierwszy Petritis w 2003 roku [154]. Zaproponowana przez niego sieć złożona była z 20 neuronów w warstwie wejściowej, na które podawane były znormalizowane liczby wystąpień w sekwencji peptydu każdej z reszt aminokwasowych, dwóch neuronów w warstwie ukrytej i jednego wyjściowego. Wagi neuronów ustalane były na podstawie zbioru blisko 7 tysięcy peptydów przy użyciu algorytmu propagacji wstecznej, minimalizującego kwadrat błędu pomiędzy zmierzonym czasem retencji a wyjściem sieci. Podobną strukturę sieci zastosowano również w [155], z tym że liczbę neuronów wejściowych ograniczono do 16, uwzględniając tylko reszty aminokwasowe o największym wpływie na hydrofobowość. W późniejszej pracy, zespół Petritisa zaprezentował sieć o znacznie bardziej rozbudowanej strukturze, na którą 63

64 składają się 1052 neurony w warstwie wejściowej, 24 w warstwie ukrytej i jeden wyjściowy [149]. Sekwencja peptydu podawana jest na wejścia sieci w postaci zbioru co najwyżej 50 wektorów binarnych o długości 21 i niezerowej wartości na pojedynczej pozycji, identyfikującej resztę aminokwasową (wymiar 21 zamiast 20 jest wynikiem uwzględnienia dodatkowego, zmodyfikowanego aminokwasu). Na wejścia o numerach od 1 do 21 podawany jest wektor odpowiadający reszcie aminokwasowej zajmującej pozycję na N-końcu sekwencji, natomiast ostatnie 21 wejść o numerach od 1039 do 1050 odpowiada reszcie aminokwasowej na C-końcu. Peptydy krótsze od 50 reszt aminokwasowych nie zapełniają wszystkich wejść sieci, natomiast w wypadku dłuższych od 50 uwzględniane są jedynie skrajne fragmenty sekwencji. Dodatkowe dwa wejścia przeznaczone są na całkowitą długość i moment hydrofobowy, mówiący o amfofilowości sekwencji. W odróżnieniu od zaprezentowanego wcześniej prostego modelu, który uwzględniał jedynie całkowity skład aminokwasowy, w tym wypadku sieć jest czuła również na kolejność reszt w sekwencji, dzięki czemu uzyskano nie tylko lepsze wyniki predykcji, ale również możliwość rozróżnienia peptydów izomerycznych. Niestety jednak, wyznaczanie wag sieci o tak rozbudowanej strukturze wymaga ogromnych zbiorów treningowych. Autorzy w treningu użyli prawie 346 tysięcy peptydów pochodzących z proteomów różnych organizmów. Obydwa przedstawione podejścia, zarówno to oparte na złożonym modelu zjawiska retencji [142, 143], jak i to wykorzystujące sieć neuronową o rozbudowanej strukturze [149] charakteryzują się bardzo dobrą skutecznością predykcji (wartości R2 ponad 0,95 dla zbiorów testowych), ale jednocześnie mają cechy utrudniające dostosowanie ich do konkretnego układu chromatograficznego. W przypadku sieci neuronowej zaproponowanej przez Petritisa trudnością jest rozmiar wymaganych podczas treningu zbiorów danych, który stanowi poważne wyzwanie nawet dla dużego laboratorium proteomicznego. Dla modelu Krokhina przyczyna jest jeszcze bardziej prozaiczna: nie został on w pełni opublikowany i nie jest znana dokładna postać funkcyjna wszystkich występujących w nim czynników korekcyjnych. Należy przy tym podkreślić, że brak możliwości przystosowania do używanego systemu HPLC jest niestety poważną wadą obu metod, gdyż, jak przyznają sami ich autorzy, nawet stosunkowo niewielkie zmiany w składzie fazy ruchomej czy powierzchni fazy stacjonarnej będą miały znaczący wpływ na dokładność predykcji. 64

65 W związku z ograniczonymi możliwościami praktycznego wykorzystania opisanych powyżej algorytmów predykcji czasów retencji, w niniejszej pracy proponowane jest odmienne podejście do tego problemu. W omawianej tutaj metodzie analizy ilościowej, seria przebiegów LC-MS poprzedzona jest pewną liczbą przebiegów LC-MS/MS, mających na celu identyfikację znajdujących się w próbkach peptydów. W ramach tego samego eksperymentu oba rodzaje przebiegów dotyczą próbek o podobnym składzie i wykonywane są w możliwie powtarzalnych warunkach chromatograficznych. Jednocześnie zarówno rodzaj analizowanych peptydów, jak i warunki chromatograficzne mogą w istotny sposób różnić się pomiędzy eksperymentami. Fakt ten skłania do wniosku, że lepszym podejściem może okazać się przeprowadzenie treningu predyktora na danych LC-MS/MS związanych z konkretnym eksperymentem, a tym samym dostosowywanie go do rodzaju próbek, z którymi będzie następnie używany. W takim wypadku zagadnieniem równie ważnym jak sam model jest możliwość optymalizacji jego parametrów w celu przystosowania ich do charakteru badanych próbek. Dlatego też opracowana została własna metoda predykcji czasów retencji, oparta na relatywnie prostym modelu (pozostającym w luźnym związku z modelem zaproponowanym przez Krokhina w [141]), którego parametry poddawane są optymalizacji przy użyciu algorytmu ewolucyjnego [ ]. Podstawą modelu jest zestaw dwudziestu współczynników retencji Rc, reprezentujących niezależną od pozycji w sekwencji hydrofobowość poszczególnych reszt aminokwasowych. Wyznaczona przez ich sumowanie hydrofobowość całkowita jest jednak następnie modyfikowana w sposób zależny od sekwencji, ze szczególnym uwzględnieniem jej N-końcowego fragmentu. Wpływ dodatniego ładunku N-końca na obserwowany czas retencji uwzględniany jest w prezentowanym modelu przez wprowadzenie addytywnego czynnika korekcyjnego HNt, o wartości zależnej od N-końcowych reszt aminokwasowych. Założone zostało, że dodatni ładunek grupy aminowej powoduje osłabienie naturalnej hydrofobowości lub hydrofilowości znajdujących się w jego sąsiedztwie reszt aminokwasowych. Jego wpływ rozciąga się na reszty zajmujące w sekwencji peptydu pozycje od 1 do LNt i maleje wykładniczo wraz z oddalaniem się od N-końca. Ostateczna postać poprawki dana jest wzorem: L Nt Nt e H Nt = Rc i Rc Nt i 1, (5.21) i=1 gdzie Rc(i) jest współczynnikiem retencji reszty aminokwasowej zajmującej i-tą pozycję jest średnią współczynników retencji wszystkich reszt aminokwasowych. w sekwencji, a Rc 65

66 Maksymalny zasięg LNt zależny jest od decydującego o szybkości spadku wartości funkcji wykładniczej współczynnika BNt: uwzględniane są pozycje, dla których wartość tej funkcji jest większa od 0,05. Podobne, choć mające mniejszy wpływ na czas retencji zjawisko można zaobserwować dla występujących wewnątrz sekwencji peptydu zasadowych reszt aminokwasowych (argininy R, lizyny K, histydyny H), których łańcuchy boczne niosą dodatnie ładunki [141, 142]. Charakter wpływu, jego interpretacja i sposób uwzględnienia go w modelu są w tym przypadku analogiczne jak dla N-końca, z tą tylko różnicą, że poprawka działa w sposób dwustronny. Wystąpienie na k-tej pozycji w sekwencji którejś z zasadowych reszt aminokwasowych skutkować będzie poprawką w postaci: LX LX X e i Rc k i Rc X e H X = Rc k i Rc X i=1 X i, (5.22) i=1 gdzie X należy do zbioru {R, K, H}. Dodatkowym elementem jest przedziałami liniowy multiplikatywny czynnik korekcyjny KL, związany z długością LP sekwencji peptydu. Jego zasadnicza postać jest zgodna z modelem Krokhina: { 1 a1 10 L P dla L P 10 K L= 1 dla L P 10 ; 20, 1 a 2 L P 20 dla L P 20 (5.23) z tą jednak różnicą, że nachylenia prostych a1 i a2 nie są wartościami z góry ustalonymi, lecz poddawane są optymalizacji. Po wyznaczeniu wartości wszystkich czynników korekcyjnych, całkowita hydrofobowość H peptydu wyznaczana jest z zależności: 20 H =K L i =1 N i Rc i H Nt H R H L H K, (5.24) gdzie Ni jest liczbą wystąpień reszty aminokwasowej o współczynniku retencji równym Rci. Przy znanej hydrofobowości H i danych parametrach gradientowej zmiany stężenia acetonitrylu w fazie ruchomej (nachyleniu Ag i opóźnieniu tg), przewidywany czas zejścia peptydu z kolumny chromatograficznej może być określony na podstawie zależności (5.19). Wartości parametrów opisanego powyżej modelu wyznaczane są na podstawie zbioru sekwencji Nt peptydów i wektora t S zawierającego średnie czasy sekwencjonowania tych peptydów, zaobserwowane w związanych z eksperymentem przebiegach LC-MS/MS. 66

67 Optymalizacja parametrów realizowana jest przy użyciu algorytmu ewolucyjnego. Genotyp każdego z osobników populacji jest rzeczywistoliczbowym wektorem w postaci: [ Rc1,, Rc 20, Nt, Nt, R, R, K, K, H, H, a 1, a2 ]. (5.25) Kolejne pozycje wektora (5.25) reprezentują optymalizowane parametry modelu, którymi są: współczynniki retencji dla każdej z reszt aminokwasowych (Rci, dla i = 1,.., 20), współczynniki eksponencjalnych poprawek dla N-końca (αnt, βnt,) i zasadowych reszt aminokwasowych (αr, βr, αl, βl, αh, βh) oraz nachylenia prostych modelujących wpływ długości peptydu na hydrofobowość (a1, a2). Fenotyp osobnika ma postać wektora t P, którego elementami są przewidywane czasy retencji dla wszystkich peptydów ze zbioru uczącego, wyznaczone na podstawie wartości parametrów modelu tworzących jego genotyp. Wartością przystosowania osobnika jest współczynnik korelacji liniowej pomiędzy wektorami t S i t P, czyli pomiędzy rzeczywistymi a przewidywanymi czasami retencji peptydów: Nt r t S, t P = ti S t S t ip t P i=1 Nt ti t S 2 S i=1, Nt (5.26) ti t P 2 P i=1 gdzie : Nt Nt 1 1 S S P P t = t i ; t = t i. N t i =1 N t i=1 (5.27) Użyty algorytm ewolucyjny charakteryzuje się populacją o stałej liczebności. Stosowany jest schemat sukcesji elitarnej, gdyż, jak wykazały testy, pozwala to przyspieszyć osiągnięcie zbieżności. Aby jednak uniknąć łatwego osiadania w maksimach lokalnych funkcji celu, elita jest niewielka (5% wielkości populacji) i krótkożyciowa (maksymalny czas życia wynosi 3 pokolenia). Prawdopodobieństwo reprodukcji osobników jest liniowo zależne od ich rangi, ustalanej przez posortowanie całej populacji według nierosnących wartości przystosowania (w taki jednak sposób, aby osobniki o jednakowej wartości przystosowania otrzymały takie same rangi). Osobniki potomne powstają poprzez krzyżowanie równomierne i mutację o rozkładzie Cauchy ego. Osobniki niemieszczące się w ograniczeniach przestrzeni poszukiwań są z pewnym prawdopodobieństwem naprawiane przez lustrzane odbicie wobec ograniczeń. Kryterium zatrzymania algorytmu jest nieosiągnięcie przez pewną zdefiniowaną liczbę pokoleń poprawy w stosunku do najlepszego z dotychczasowych osobników. 67

68 Kształt przekroju widma w kierunku osi czasu retencji W idealnych warunkach pik chromatograficzny byłby opisywany zależnością: g t =h exp t t r 2 2 2, (5.28) gdzie h jest wysokością w maksimum wypadającym w czasie retencji tr, a σ parametrem decydującym o szerokości [159]. Jednak piki obserwowane w rzeczywistości bardzo rzadko są symetryczne i stosowanie do ich opisu funkcji Gaussa może prowadzić do błędów [159, 160]. Ze względu na złożoność mechanizmu interakcji pomiędzy analitem a fazą stacjonarną, nie istnieje uniwersalny model teoretyczny opisujący w sposób dokładny kształt pików chromatograficznych [ ]. Dlatego wielu autorów zaproponowało funkcje kształtu o charakterze empirycznym, które jakkolwiek nie mają ścisłego uzasadnienia fizykochemicznego, to jednak pozwalają uzyskać dobre dopasowanie do danych eksperymentalnych [161, 162]. Część z proponowanych modeli wywodzi się z funkcji Gaussa, modyfikowanej w taki sposób aby możliwy był opis pików asymetrycznych, ale stosowane są również funkcje Lorenza, Poissona, logarytmiczno-normalna, jak i złożenia dwóch różnych funkcji. Obszerne zestawienie wszystkich stosowanych funkcji, wraz z ich pobieżną charakterystyką i zakresem zastosowania, zamieszczone jest w [161], a mniejsze, ale za to bardziej szczegółowe porównania dostępne są w [159, 162, 163]. W pracy zastosowana została najczęściej wykorzystywana do opisu pików chromatograficznych, zmodyfikowana wykładniczo funkcja Gaussa (EMG Exponentially Modified Gauss) [ ]. Jest ona wynikiem splotu funkcji g( t ) (5.28) z funkcją wykładniczą o stałej czasowej τ i jednostkowym polu:. 1 t e t = exp (5.29) Ostateczna postać funkcji kształtu piku dana jest zależnością: g P t = h 2 t t r exp { [ 1 erf 1 t t r 2 ]}, (5.30) gdzie tr, h, σ i τ są parametrami związanymi, odpowiednio, z położeniem maksimum, wysokością, szerokością i asymetrią, a erf jest funkcją błędu Gaussa (Gauss error function): t erf t = 2 e x dx (5.31)

69 Stosowane w modelu parametry związane z szerokością i asymetrią funkcji (5.30) mają charakter empiryczny i ustalone zostały na podstawie kształtów pików z dużego zbioru widm Przetwarzanie pełnych widm mas próbek Dwuwymiarowa reprezentacja pełnych widm mas próbek Bezpośrednim wynikiem pomiaru LC-MS jest zbiór jednowymiarowych widm mas kolejnych frakcji próbki schodzącej z kolumny chromatograficznej. Każde widmo mas ma postać listy par liczb reprezentujących wartość m/z jonu oraz liczbę jego zliczeń. Dla dalszego przetwarzania zdecydowanie wygodniejsza wydaje się jednak być reprezentacja w postaci macierzy widma W, której kolumny odpowiadają kolejnym wartościom m/z, a wiersze oznaczają kolejne numery skanów (czyli, pośrednio, czasy retencji). Przejście na taką w pełni dwuwymiarową postać wiąże się z koniecznością kwantowania osi wartości m/z, które pierwotnie określone są z malejącą dokładnością. Najczęściej stosowaną metodą jest podział osi m/z na przedziały o stałej szerokości [19-29, 83, 84]. Wadą takiego podejścia jest fakt, że, w zależności od wybranej wartości kwantu, uzyskane przedziały odpowiadają rzeczywistej rozdzielczości spektrometru tylko w wąskim zakresie wartości m/z, co prowadzi albo do utraty dokładności w zakresie małych m/z, albo do redundancji dla dużych ich wartości. W niniejszej pracy proponowane jest zastosowanie reprezentacji danych w naturalnej dla analizatora FT-ICR dziedzinie częstotliwości cyklotronowej. Oznacza to, że i-ta kolumna macierzy widma W jest związana z częstotliwością cyklotronową fi, a odpowiadająca jej wartość m/z mi wyznaczana jest z zależności: m i= A B f i f 2i, (5.32) gdzie A i B są parametrami kalibracyjnymi widma, o wartościach zależnych od zakresu częstotliwości [164]. Rozwiązanie takie w przypadku spektrometru z analizatorem FT-ICR pozwala ominąć problemy wynikające z kwantyzacji osi m/z, zapewniając utrzymanie maksymalnej możliwej dla przyrządu dokładności w całym zakresie m/z, bez niepotrzebnego zwiększania wymiarowości macierzy widma. Aby zachować niezależność od rodzaju przyrządu pomiarowego, oprogramowanie 69

70 implementujące opisywane dalej metody przetwarzania może również działać w oparciu o reprezentację macierzy widma w dziedzinie m/z. W tym przypadku stosowana jest kwantyzacja osi wartości m/z, przy czym szerokość przedziałów uzależniona jest od zdolności rozdzielczej stosowanego spektrometru. Rozdzielczość wzdłuż osi czasu retencji może pozostać niezmieniona (wówczas każdy wiersz macierzy widma W odpowiadać będzie pojedynczemu skanowi) lub też zmniejszona przez sumowanie sąsiednich skanów w pewnym zakresie czasów retencji. Na rysunku 5.2 przedstawiona została dwuwymiarowa reprezentacja przykładowego pełnego widma mas próbki, zmierzonego w typowym zakresie, wraz z powiększeniem fragmentu, na którym widoczne są widma mas jonów peptydów. Rys 5.2. Dwuwymiarowa reprezentacja pełnego widma mas próbki. Górna część rysunku przedstawia pełny zakres pomiarowy, podczas gdy dolna część jest powiększeniem zaznaczonego fragmentu z widocznymi widmami jonów peptydowych 70

71 Ekstrakcja wartości liczbowych z pełnych widm mas próbek Algorytm wyszukiwania widm mas jonów peptydowych Ze względu na zdecydowanie większą rozdzielczość i powtarzalność pomiarów spektrometru mas w porównaniu z systemem HPLC, wyszukanie peptydu w praktyce sprowadza się do wyznaczenia pozycji widma reprezentującego go jonu wzdłuż osi czasu retencji. Przez właściwy czas retencji rozumiany jest taki, dla którego funkcja opisująca obwiednię izotopową peptydu f P(m) wykazuje najlepsze dopasowanie do danych pomiarowych. Algorytm wyszukiwania składa się z dwóch etapów: w pierwszej kolejności identyfikowane są wszystkie możliwe położenia widma peptydu wzdłuż osi czasu retencji, z których następnie wybierane jest to, które charakteryzuje się najlepszym dopasowaniem. Pierwszy etap oparty jest na wykorzystaniu pewnej funkcji c P(t), która w idealnym przypadku przyjmuje wartości niezerowe jedynie dla poprawnego czasu retencji widma poszukiwanego peptydu. W proponowanym algorytmie używana jest w tym celu funkcja będąca średnią geometryczną chromatogramów cip(t) dla wartości m/z odpowiadających NC najwyższym pikom obwiedni izotopowej peptydu. Dodatkowo uwzględniany jest fakt, że położenie poszukiwanego widma wzdłuż osi czasu retencji nie jest dowolne i nie powinno znacząco odbiegać od teoretycznego czasu zejścia z kolumny chromatograficznej określanego przez parametr trp modelu. Dlatego wartości chromatogramu są modyfikowane przez funkcję kary w postaci gaussoidy o maksimum dla czasu trp i szerokości wynikającej z wartości parametru σc. Ostateczna postać funkcji cip(t) dana jest zależnością: P c t =exp t t r P 2 2 C 2 NC NC i=1 ci P t. (5.33) W każdym skanie wartość chromatogramu cząstkowego cip(t) wyznaczana jest jako P P maksymalna wysokość widma w przedziale wartości m/z mi mc ; mi mc, gdzie mip jest położeniem i-tego, pod względem teoretycznej wysokości, piku obwiedni, a bezwzględna tolerancja ΔmC określana jest na podstawie wyrażonej w jednostkach ppm względnej tolerancji δmc, będącej parametrem przeszukiwania: mc =10 6 mc mi P. (5.34) Oznacza to, że wraz ze wzrostem wartości m/z zwiększana jest tolerancja wyznaczenia chromatogramu, co jest zgodne ze spadkiem dokładności wzdłuż osi m/z. Dodatkowym 71

72 wymogiem jest występowanie maksimum lokalnego widma w rozpatrywanym przedziale wartości m/z. Po wyznaczeniu ostatecznej postaci całkowitego chromatogramu poddawany jest on wygładzeniu przy użyciu filtru Savitzkiego-Golaya [165], po którym następuje detekcja pików. Wykryte w chromatogramie piki uznawane są za potencjalne miejsca występowania poszukiwanego widma jonu peptydowego i w obszarze każdego z nich podejmowana jest próba dopasowania teoretycznego modelu do danych eksperymentalnych. Dopasowanie funkcji opisującej kształt obwiedni izotopowej następuje w skanie, w którym występowało maksimum piku chromatogramu. Uwzględniane są przy tym pochodzące z tego skanu wartości widma wj odpowiadające punktom mj (j = {1,..., NW}) znajdującym się w zakresie m/z teoretycznej obwiedni izotopowej. Wyznaczenie modelującej dane eksperymentalne funkcji f E(m/z) odbywa się metodą najmniejszych kwadratów, przy użyciu iteracyjnego algorytmu Levenberga Marquardta [166, 167]. Minimalizacji poddawane jest wyrażenie: NW S = [ w j f E m j ] 2, (5.35) j =1 gdzie β jest wektorem parametrów opisujących położenia, wysokości i szerokości połówkowe dla K uwzględnianych pików obwiedni. Początkowe wartości parametrów określone są przez model teoretyczny widma jonu. W wypadku wykrycia słabego dopasowania, proces może być iteracyjnie powtarzany ze zmodyfikowanymi początkowymi wartościami parametrów. Jako miara jakości dopasowania do danych eksperymentalnych stosowany jest współczynnik determinacji (coefficient of determination): NW w j f je RW 2=1 j =1 N W w j w 2, (5.36) 2 j=1 gdzie fje są wartościami funkcji f E(m/z) w punktach mj, a w jest średnią arytmetyczną wartości widma. Sama wartość współczynnika RW2 nie jest jednak wystarczającym wskaźnikiem jakości dopasowania: z jednej strony nie jest ona czuła na odstępstwa od początkowych oszacowań położeń i wysokości pików, a z drugiej może być degradowana przez występujące w rozpatrywanym obszarze widma piki nie należące do poszukiwanej obwiedni. Dlatego też wyznaczana jest również miara dopasowania do idealnej obwiedni izotopowej: 72

73 NW f j SP f j E R P2 =1 j=1 N W 2, (5.37) P 2 f j SP f j j=1 gdzie fjsp są wartościami funkcji f SP(m/z), która powstaje przez takie przeskalowanie i przesunięcie teoretycznej obwiedni f P(m/z), aby jej pik monoizotopowy miał położenie i wysokość zgodne z wartościami określonymi przez funkcję f E(m/z). Wartość RP2 jest podstawą wyboru najlepszego spośród wszystkich rozpatrywanych pików chromatogramu. Dopasowanie danego przez funkcję gp(t) kształtu przekroju widma w kierunku osi czasu retencji odbywa się na podstawie chromatogramu wykonanego dla najwyższego piku obwiedni i przebiega w sposób analogiczny do opisanego dla kierunku m/z. Należy zwrócić uwagę, że stanowiące podstawę algorytmu wyszukiwania modele widm tworzone są w oparciu o skład peptydów oraz parametry czasowe przebiegów LC-MS/MS i tym samym nie mogą z góry uwzględniać błędów systematycznych związanych z pomiarami widm LC-MS. Dlatego też lepsze rezultaty wyszukiwania można osiągnąć dzięki dostosowaniu zarówno samych modeli, jak i parametrów wyszukiwania do aktualnie analizowanego widma. W tym celu opisany powyżej proces wyszukiwania powtarzany jest dwukrotnie, przy czym pierwsze powtórzenie służy do wyznaczenia parametrów korygujących ewentualne różnice w kalibracji spektrometru mas czy gradiencie chromatograficznym, które następnie są uwzględniane w drugim powtórzeniu. W pierwszym powtórzeniu stosowane są szerokie przedziały tolerancji dla wartości m/z i czasów retencji, którym jednak towarzyszą ostre wymagania dotyczące jakości dopasowania do teoretycznej obwiedni. Dla znalezionych widm określane są względne odstępstwa wobec teoretycznego położenia w kierunku osi m/z i czasu retencji. Na podstawie wartości błędów wyznaczane są parametry krzywych kalibracyjnych korygujących teoretyczne położenia w modelach oraz nowe, zawężone wartości parametrów δmc i σc związanych z zakresami tolerancji chromatogramów cząstkowych i funkcji kary. Stosowana przy ich wyznaczaniu metoda jest taka sama jak ta zaprezentowana w rozdziale przy okazji opisu rekalibracji widm fragmentacyjnych. 73

74 Ocena ilościowa względnej ekspresji peptydów i białek Ostateczną wartością liczbową, będącą miarą ilości peptydu staje się objętość wyznaczona z dopasowanego modelu. Przy ograniczonym zakresie pomiarowym m/z peptyd jest zwykle reprezentowany przez jedną lub dwie odmiany jonów o różnych stopniach naładowania. Większa liczba stopni naładowania jest w praktyce rzadko spotykana. Liczba obserwowanych stopni naładowania jest zależna nie tylko od masy peptydu, ale także od jego sekwencji, która decyduje o prawdopodobieństwie przyjęcia określonej liczby protonów. W efekcie, najczęściej jeden ze stopni naładowania ma charakter dominujący i może być on uznany za najlepszego reprezentanta ilości peptydu [25]. W tej pracy zastosowano alternatywne rozwiązanie, polegające na sumowaniu sygnałów wszystkich wykrytych stopni naładowania. Sumowanie następuje jednak dopiero po normalizacji (opisanej w rozdziale 5.5.3), która ze względu na swój nieliniowy charakter może działać z różną siłą na wartości sygnałów poszczególnych stopni naładowania. Wartości liczbowe określające ilość peptydu będą w dalszej części pracy określane poziomem lub względną wartością jego ekspresji. Należy jednak jeszcze raz podkreślić, że w wyniku różnych efektywności jonizacji peptydów wielkości te mają jedynie charakter względny. Mogą służyć do określenia zmian w ilości tego samego peptydu w różnych próbkach, jednak nie są odzwierciedleniem jego bezwzględnego stężenia. Analogiczny zwrot będzie stosowany wobec białek, których względna ekspresja wyznaczana jest jako mediana ekspresji reprezentujących je peptydów Przetwarzanie danych liczbowych Po powtórzeniu przedstawionego w poprzednim podrozdziale procesu wyszukiwania widm mas jonów dla wszystkich znanych peptydów we wszystkich badanych próbkach uzyskuje się zbiór danych w postaci liczbowej. W dalszej części pracy będzie on symbolizowany przez macierz danych X o wymiarze P x N, której j-ta kolumna xj reprezentuje próbkę, zaś i-ty wiersz xi reprezentuje cechę. Ze względu na specyfikę badań proteomicznych liczba wierszy macierzy X jest zwykle znacznie większa od liczby próbek. Wartościami cech w poszczególnych próbkach są względne wartości ekspresji jonów peptydowych. 74

75 Pomimo zasadniczych różnic w obiekcie badań, sposobie pomiaru i metodach przetwarzania niskopoziomowego, dane z proteomiki wykorzystującej spektrometrię mas, po zamianie na postać liczbową, wykazują duże podobieństwo do danych uzyskiwanych za pomocą używanych w transkryptomice mikromacierzy DNA [168]. Podobieństwo to ma swój praktyczny wymiar, jako że mikromacierze, będąc starszą i zdecydowanie bardziej dojrzałą techniką pomiarową, doczekały się szeregu opracowań dotyczących metod przetwarzania i analizy statystycznej. Jakkolwiek stosowanych w ich przypadku rozwiązań zwykle nie można w sposób bezpośredni wykorzystać podczas analizy danych proteomicznych, jednak bez wątpienia mogą one być pewnym źródłem inspiracji. Dlatego też w dalszej części pracy często pojawiać się będą odniesienia do literatury dotyczącej mikromacierzy, szczególnie w zakresie zagadnień, które w kontekście proteomiki są bardzo rzadko poruszane (rekonstrukcja brakujących wartości) lub traktowane w uproszczony sposób (normalizacja) Transformata logarytmiczna danych Pomimo, że związek pomiędzy ilością peptydu a odpowiadającym mu sygnałem ma w idealnym wypadku charakter liniowy, dane proteomiczne często poddawane są logarytmowaniu [23, 25, 74, 169]. Operacja ta pozwala ograniczyć zakres dynamiczny danych, który w skali liniowej może być bardzo duży (typowo od 103 do 109). Wpływa to korzystnie na dalsze kroki przetwarzania, gdyż zmniejsza ryzyko zdominowania całego zbioru danych przez pojedyncze peptydy o bardzo wysokiej wartości ekspresji. Ponadto, zlogarytmowanie zmienia rozkład wartości na w przybliżeniu symetryczny, o charakterze zbliżonym do normalnego, nadając tym samym wariancji bardziej intuicyjne znaczenie [169]. Zamiana skali stosowana jest również w prezentowanej tutaj metodzie i w dalszej części pracy zakładane jest, że elementy macierzy danych poddane zostały logarytmowaniu. Wyjątki od tej reguły będą w sposób wyraźny zaznaczane Imputacja brakujących wartości Problem brakujących wartości pojawia się często w kontekście wielu technik pomiarowych dostępnych biologii molekularnej, takich jak: mikromacierze [170], RT-PCR [171] i dwukierunkowa elektroforeza różnicowa [172]. W przypadku proteomiki wykorzystującej 75

76 spektrometrię mas zagadnienia związane z brakującymi wartościami nie doczekały się szerszego omówienia, co jest zaskakujące zważywszy, że ich występowanie w danych jest naturalną konsekwencją cech stosowanej metody pomiarowej. W znanej autorowi literaturze, jeżeli problem ten jest w ogóle poruszany, to proponowane są proste rozwiązania polegające na usunięciu z dalszej analizy cech nie wykrytych we wszystkich próbkach [26] lub rekonstrukcji przez wstawienie pewnej stałej wartości w miejsce brakujących danych [25]. Najbardziej oczywistą przyczyną braku zmierzonej ekspresji dla części peptydów jest ich faktyczne niewystępowanie w poszczególnych próbkach. Należy pamiętać, że w przypadku spektrometrii mas mamy do czynienia z rozdzieleniem procesu identyfikacji peptydów (na drodze analizy LC-MS/MS) od procesu pomiaru ich ilości (poprzez osobne przebiegi LC-MS). Podczas analiz LC-MS/MS zwykle stosuje się łączenie różnych próbek biologicznych w jedną próbkę mierzoną, co umożliwia zwiększenie liczby jednorazowo sekwencjonowanych peptydów. Ma to jednak również wadę w postaci niemożności określenia, z której probki biologicznej faktycznie pochodzi peptyd. Może to spowodować, że np. w próbkach grupy kontrolnej poszukiwane będą peptydy występujące jedynie u osób chorych. W przypadku tego typu peptydów, prawdopodobieństwo braku prawidłowo określonej ekspresji będzie zależne od przynależności do jednej z badanych grup próbek. W celu maksymalizacji liczby sekwencjonowań, w przebiegach LC-MS/MS stosuje się zdecydowanie większe ilości materiału biologicznego. Jest to możliwe, gdyż w tym przypadku nie jest groźne przekroczenie zakresu dynamicznego analizatora, które w ilościowych przebiegach LC-MS jest niedopuszczalne. W efekcie peptydy charakteryzujące się małą efektywnością jonizacji lub pochodzące z białek występujących w bardzo niskich stężeniach, mogą w przebiegach LC-MS znaleźć się poniżej progu detekcji. Dla takich peptydów obserwowana będzie silna zależność prawdopodobieństwa brakujących wartości od poziomu ekspresji. Często będą one również skutkować pojawianiem się brakujących wartości w całym wierszu macierzy danych X. Pojedyncze brakujące wartości mogą być również efektem niedoskonałości procesu przygotowywania próbki (np. różnic w specyficzności enzymu proteolitycznego), niestabilności parametrów spektrometru, supresji wynikającej z pojawienia się zanieczyszczeń lub nałożenia się widm mas o bardzo różnej intensywności. Wreszcie, przyczyną braku sygnału mogą być również błędy na etapie ekstrakcji cech z widm mas próbek. Tego typu brakujące wartości mogą mieć charakter w pełni losowy, jednak zwykle 76

77 również dla nich obserwuje się zależność od poziomu ekspresji. W przedstawianej tutaj metodzie analizy ilościowej wprowadzony został odrębny krok przetwarzania danych związany z eliminacją brakujących wartości. Na proponowane podejście składają się etapy filtracji i imputacji, co jest wynikiem opisanej powyżej różnorodności przyczyn braku zmierzonych wartości ekspresji. Etap filtracji Przez filtrację rozumiane jest usunięcie wierszy macierzy danych X, w których liczba brakujących wartości przekracza zadany próg. Aby uniknąć usunięcia peptydów różnicujących, które występują tylko w jednej z porównywanych grup, filtracja poprzedzona jest testem badającym hipotezę zerową H0 o braku zależności liczby brakujących wartości od przynależności do grupy. Statystyka testowa ma postać [167]: 2 J = 2 N ij E ij E ij i =1 j =1 2, (5.38) gdzie Nij są zaobserwowanymi liczbami brakujących (i = 1) i niebrakujących (i = 2) wartości w j-tej grupie, a Eji są ich wartościami oczekiwanymi: E ij = Ni N j. N (5.39) Przy prawdziwości H0 statystyka testowa (5.40) ma rozkład χ2 o J 1 stopniach swobody. Wiersze, dla których wykryta zostanie istotna statystycznie (przy zadanym progu istotności) zależność pomiędzy brakującymi wartościami a przynależnością do jednej z grup badanych nie podlegają automatycznej filtracji, a dalsze postępowanie z nimi zależy od wyboru użytkownika i charakteru prowadzonej analizy. Domyślnie, wiersze te są odpowiednio odznaczane, a brakujące wartości zastępowane są minimalną wartością całego zbioru danych (taka rekonstrukcja dotyczy jedynie grupy próbek, w której wykryto najwięcej brakujących wartości). Możliwe jest jednak również włączenie tego typu cech do zbioru potencjalnie różnicujących albo zupełne wykluczenie ich z dalszej analizy. 77

78 Etap imputacji Po filtracji w macierzy danych nadal będą występować pojedyncze brakujące wartości. W ich przypadku możliwe jest oczywiście trywialne postępowanie, polegające na wstawieniu pewnej wartości stałej, ale zdecydowanie lepszym rozwiązaniem wydaje się użycie metody odtworzenia brakujących wartości na podstawie pozostałych. Klasyczną metodą imputacji jest użycie algorytmu EM, który, po wstępnym zastąpieniu brakujących wartości np. średnią wiersza, w kolejnych iteracjach powtarza dwa kroki. W pierwszym z nich wyznaczane są warunkowe wartości oczekiwane brakujących danych przy użyciu współczynników regresji określonych na podstawie aktualnych estymat największej wiarygodności macierzy kowariancji i wektora wartości średnich, po czym, w drugim kroku, te ostatnie poddawane są ponownej estymacji [173]. W literaturze można jednak spotkać także szereg innych rozwiązań, zarówno o charakterze ogólnym, jak i związanych z konkretnymi zastosowaniami [ ]. W badaniach z zakresu biologii molekularnej dużą popularność zdobyła, koncepcyjnie prosta, nieparametryczna metoda najbliższych sąsiadów (KNN K Nearest Neighbours). Pierwotnie przeznaczona była ona dla danych pochodzących z mikromacierzy DNA [170], ale znalazła zastosowanie również w innych technikach pomiarowych [171, 172]. U jej podstaw leży obserwacja o istnieniu grup genów, których profile ekspresji wykazują znaczne podobieństwo. Chcąc oszacować brakujący poziom ekspresji genu i w próbce j, szukamy K najbliższych mu genów (według pewnego ustalonego kryterium bliskości) spośród tych, dla których poziom ekspresji w próbce j został zmierzony prawidłowo. Następnie szukaną wartość x ij wyznaczamy jako średnią ważoną poziomów ekspresji w próbce j genów należących do wyznaczonego sąsiedztwa: K wk x kj x ij = j=1n. (5.40) wk j =1 W oryginalnej wersji metody wagi wk były równe odwrotności odległości Euklidesa pomiędzy profilami ekspresji i stosowany był stały, wybrany z góry rozmiar sąsiedztwa. Dla danych proteomicznych wymagane do działania algorytmu KNN założenie o występowaniu w zbiorze danych cech mających podobne profile ekspresji nie może budzić większych zastrzeżeń: nie dość, że istnieją grupy peptydów pochodzących z tych samych 78

79 białek, to jeszcze część z nich jest reprezentowana przez więcej niż jeden stopień naładowania. Dlatego też w proponowanej metodzie na etapie imputacji brakujących wartości zastosowana została zmodyfikowana przez autora pracy wersja tego algorytmu. Najistotniejsze z wprowadzonych modyfikacji dotyczą stosowanej miary odległości oraz sposobu w jaki budowane jest sąsiedztwo. Występująca w oryginalnej metodzie odległość Euklidesa zastąpiona została odległością wynikającą ze współczynnika korelacji liniowej pomiędzy wartościami ekspresji peptydów. Wagi wk są więc wyznaczane jako: wk = 1 1 =, d r 1 r i,k (5.41) gdzie ri,k jest współczynnikiem korelacji liniowej pomiędzy pomiędzy i-tym i k-tym wierszem macierzy danych X. Ponieważ optymalna wielkość sąsiedztwa uwzględnianego podczas imputacji jest zależna od liczby cech i charakteru samych danych, lepszym rozwiązaniem wydaje się ustalanie jej w sposób dynamiczny i traktowanie liczby K jako maksymalnego dopuszczalnego rozmiaru otoczenia, do którego mogą jednak wejść jedynie cechy, których korelacja z aktualnie rekonstruowaną cechą jest większa od zadanego progu. W skrajnym przypadku, gdy liczba spełniających ten warunek cech jest równa 0, działanie algorytmu ograniczane jest do zastąpienia brakujących wartości średnią arytmetyczną pozostałych elementów tego samego wiersza macierzy X. W odróżnieniu od swojego pierwowzoru, algorytm działa w sposób iteracyjny, korzystając z wyznaczonych w poprzedniej iteracji wartości na etapie budowania sąsiedztwa i określania wag wchodzących w jego skład cech. Proces zatrzymywany jest gdy średni kwadrat różnic pomiędzy imputowanymi wartościami z następujących po sobie iteracji spadnie poniżej nadanego progu Normalizacja Zmiany w zmierzonym poziomie ekspresji peptydów, a przez to i białek, nie zawsze są odzwierciedleniem rzeczywistych zmian biologicznych. Mogą one również wynikać z błędów systematycznych na etapie przygotowania próbek lub pomiaru. Do głównych przyczyn błędów można zaliczyć m.in. różnice w wyjściowej ilości badanego materiału biologicznego, przeładowanie kolumny chromatograficznej i niestałość czasową parametrów spektrometru i układu HPLC [25, 95]. Pokazano również, że istotny wpływ na wyniki analizy ilościowej mogą mieć warunki przechowywania materiału biologicznego i gotowych próbek przed pomiarem [32, 33, ]. W przypadku metod analizy ilościowej wykorzystujących 79

80 znakowanie naturalnymi izotopami stabilnymi, niekorzystny wpływ tych czynników jest w znacznym stopniu ograniczony dzięki wspólnemu przygotowywaniu i pomiarowi obydwu porównywanych próbek biologicznych. W metodach bez znakowania wnioskowanie ilościowe oparte jest na wartościach ekspresji pochodzących z próbek przygotowywanych i mierzonych oddzielnie, często w dużych odstępach czasu. Tym samym metody te z natury swojej są mniej odporne na błędy systematyczne i wymagają wprowadzenia do procesu przetwarzania kroku normalizacji, mającego na celu zminimalizowanie ich wpływu, tak aby możliwe było bezpośrednie porównanie próbek. Najprostszą z możliwych metod normalizacji jest przeskalowanie wartości ekspresji wszystkich peptydów za pomocą pojedynczego czynnika korekcyjnego, wyznaczonego np. jako średnia arytmetyczna lub mediana zmierzonych wartości ekspresji wszystkich peptydów, albo na podstawie całkowitej liczby zliczeń pełnego widma próbki. Korzysta się przy tym z założenia, że wielkości te powinny być stałe dla próbek o podobnym składzie oraz że wpływ błędów systematycznych jest niezależny od wartości zmierzonego sygnału. Ta prosta metoda normalizacji jest powszechnie używana w badaniach proteomicznych [20, 22-26, 31, 88], jakkolwiek pokazano, że leżące u jej podstaw założenia nie zawsze muszą być słuszne [95, 175]. Wpływ efektów supresji jonów, ograniczonego zakresu dynamicznego analizatora czy przeładowania kolumny chromatograficznej może skutkować nieliniową zależnością wartości błędu od wartości zmierzonego sygnału, co prowadzi do wniosku, że lepsze rezultaty można by osiągnąć stosując nieliniowe metody normalizacji [95]. Zarówno liniowe, jak i nieliniowe metody wykorzystujące w procesie normalizacji wszystkie peptydy wymagają spełnienia dwóch założeń mówiących, że zdecydowana większość peptydów nie zmienia swojej ekspresji pomiędzy próbkami oraz rozkład wartości ekspresji peptydów nad- i podekspresyjnych jest w przybliżeniu symetryczny. Założenia te bez wątpienia można uznać za słuszne dla powtórzeń technicznych tej samej próbki biologicznej. Zwykle jednak normalizacji podlegają nie tylko powtórzenia techniczne, ale również próbki o odmiennym pochodzeniu biologicznym. W tym przypadku wspomniane założenia niekoniecznie muszą być spełnione i lepszym rozwiązaniem byłoby oparcie normalizacji o zbiór peptydów, których ekspresja nie ulega zmianie w badanych grupach. Jedną z możliwości jest wprowadzenie do wszystkich próbek stałej ilości egzogennych peptydów (spike-in peptides). Podejście takie, jakkolwiek stosowane [21, 32], napotyka na trudności wynikające z braku uniwersalnie stosowalnych peptydów standardowych, których 80

81 ekspresja mogłaby kontrolować całość złożonego procesu przygotowania i pomiaru próbek. Innym, często spotykanym w biologii molekularnej podejściem jest oparcie normalizacji na złożeniu o niezmienności ekspresji genów lub białek o podstawowym znaczeniu dla życia komórki, określanych w literaturze anglojęzycznej jako housekeeping [20, 24]. Istnieją jednak dowody na to, że ekspresja tradycyjnie używanych w tym celu genów i białek może ulegać znaczącym zmianom pod wpływem warunków eksperymentalnych i przy rożnych patologiach [175]. Dlatego też lepszym rozwiązaniem wydaje się być użycie procedury wyznaczania zbioru niezmiennych cech bezpośrednio na podstawie danych. Autorowi nie są znane żadne przykłady wykorzystania w proteomice metod, które rozwiązywałyby oba wymienione powyżej problemy. Dlatego też opracowano algorytm nieliniowej normalizacji, który może działać zarówno w oparciu o wszystkie peptydy, jak i pewien ich podzbiór, charakteryzujący się małymi rozrzutami w nieznormalizowanym zbiorze danych. Wykorzystuje on prosty model, mówiący, że logarytm zmierzonego poziom ekspresji i-tego peptydu w j-tej próbce może być przedstawiony jako: x ij = i j i ij, (5.42) gdzie μi jest rzeczywistą wartością ekspresji w skali logarytmicznej, αj jest nieliniową ciągłą funkcją modelującą zależny od poziomu ekspresji efekt j-tej próbki, a εij niezależnym błędem losowym o zerowej wartości średniej. Oszacowanie efektu próbki następuje przy użyciu lokalnie ważonej regresji wielomianowej LOESS [176]. Zaletą użycia tej nieparametrycznej metody jest możliwość estymowania zależności αj(μi) bez wstępnych założeń dotyczących jej postaci funkcyjnej. Normalizacja odbywa się względem pseudopróbki referencyjnej, utworzonej jako wektor wartości średnich x macierzy danych X: N 1 x = x j. N j=1 (5.43) Estymatą efektu j-tej próbki na i-ty peptyd j i staje się wartość krzywej dopasowania LOESS wyznaczonej na podstawie wykresu zależności x j x od x. Znormalizowana wartość obliczana jest jako różnica: x ij = xij x ij. 81 (5.44)

82 Proces powtarzany jest w sposób iteracyjny, aż do momentu, w którym wartość średnia kwadratów różnic pomiędzy krzywymi normalizacyjnymi otrzymanymi w dwóch kolejnych iteracjach spadnie poniżej zadanego progu. Opisana powyżej procedura stosowana jest przy normalizacji powtórzeń technicznych. W przypadku normalizacji próbek pochodzących z różnych grup badanych, normalizacja odbywa się z użyciem zbioru peptydów wybranych w oparciu o ich wariancję we wszystkich próbkach zbioru danych. Podstawą podejścia jest założenie, że efekt związany z pojedynczą próbką zawiera składową techniczną oraz składową związaną z prawdziwym efektem biologicznym, która w wypadku idealnego peptydu nieróżnicującego powinna być równa 0. Jeśli obie te składowe są niezależnymi efektami losowymi, to peptydy mające tylko wariancję techniczną, bez efektu biologicznego, powinny charakteryzować się mniejszą wariancją całkowitą. Ponieważ wariancja jest zależna od wartości ekspresji [169], to aby zapewnić równomierny rozkład peptydów w całym zakresie dynamicznym, wybór peptydów odbywa osobno dla pewnej liczby przedziałów wartości ekspresji. Dla każdego przedziału wybierany jest peptyd o najmniejszej wariancji. Normalizacja odbywa się według podanego powyżej schematu, z tą jednak różnicą, że w każdej iteracji postać krzywej LOESS wyznaczana jest na podstawie wybranego zbioru peptydów, a następnie używana dla wszystkich peptydów Redukcja szumu Oprócz błędów systematycznych utrudnieniem w analizie ilościowej jest zmniejszenie precyzji pomiaru na skutek szumu. Jego źródłami mogą być błędy losowe na etapie przygotowywania próbek, fluktuacje sygnałów jonów na skutek supresji czy zmian koncentracji peptydów wchodzących do źródła jonów oraz szumy detektora. Redukcja poziomu szumu przeprowadzana jest po wyznaczeniu macierzy Y będącej reprezentacją macierzy danych X w przestrzeni składowych głównych: T Y =T X, (5.45) gdzie T jest ortonormalną macierzą transformaty Karhunena-Loèvego [177], której niezerowymi kolumnami są wektory własne macierzy kowariancji cech, odpowiadające uporządkowanym niemalejąco wartościom własnym λ1 λ2.. λr 0 (gdzie R oznacza rząd macierzy X po odjęciu wektora wartości średnich). Cechy w układzie współrzędnych 82

83 wyznaczonym przez kolumny macierzy T będą nieskorelowane (ich macierz kowariancji będzie diagonalna), a wariancja danych w kierunku i-tej składowej równa wartości własnej λi, zaś całkowita wariancja jest sumą wszystkich wartości własnych. Względny udział i- tej składowej głównej w całkowitej wariancji może być wyrażony następująco: p i= i R j. (5.46) j=1 Procedura redukcji szumu opiera się na założeniu, że zawarte w danych informacje związane są z Q (Q < R) pierwszymi składowymi głównymi, podczas gdy ostatnie składowe, mające najmniejszy udział w całkowitej wariancji, niosą głównie szum i mogą być pominięte. Liczba istotnych składowych Q wyznaczana jest na podstawie zadanego procentu całkowitej wariancji i zależności (5.46). Przeniesienie danych z powrotem do oryginalnej przestrzeni odbywa się przy użyciu macierzy TQ, o niezerowych wektorach tylko w Q pierwszych kolumnach: =T Q Y. X (5.47) Ze względu na dużą wymiarowość danych, macierz transformaty Karhunena-Loèvego nie jest wyznaczana bezpośrednio na podstawie macierzy korelacji, lecz przy użyciu rozkładu macierzy X na wartości szczególne (SVD Singular Value Decomposition) [177]. 83

84 6. WYNIKI W niniejszym rozdziale przedstawiono wyniki zastosowania poszczególnych etapów proponowanej w rozprawie metody analizy ilościowej. Organizacja rozdziału odpowiada kolejności omawiania tych etapów w pracy i jednocześnie jest zgodna z kolejnością ich wykonywania podczas typowej analizy, począwszy od gromadzenia wiedzy jakościowej o składzie białkowym próbek, poprzez tworzenie modeli widm peptydów i wykorzystanie ich w procesie ekstrakcji z pełnych widm mas cech niosących informacje ilościowe, aż po przetwarzanie wyższego poziomu, operujące na danych w postaci liczbowej. Prezentacja wyników poprzedzona została opisem użytych zbiorów danych Opis zbiorów danych Pewnym problemem związanym z przedstawianiem wyników z zakresu proteomiki jest fakt, że dziedzina ta nie doczekała się jeszcze standardowych, ogólnodostępnych zbiorów danych pozwalających na łatwe porównywanie różnych metod przetwarzania. Jest to efektem zarówno dużej wymiarowość i różnorodności formatów zapisu danych pomiarowych, jak i silnej ich zależność od rodzaju wykorzystywanego spektrometru. Z tego też powodu większość użytych w pracy danych pochodzi z jednego źródła, którym jest pracujący w Środowiskowym Laboratorium Spektrometrii Mas Instytutu Biochemii i Biofizyki PAN spektrometr Finnigan LTQ-FT (Thermo) sprzężony z systemem HPLC nanoacquity (Waters). Wykorzystane w pracy zbiory danych można podzielić na dwie kategorie. Do pierwszej należą uproszczone zbiory, złożone jedynie z list sekwencji peptydów i odpowiadających im czasów retencji. Zbiory w tej postaci są używane tylko w celu prezentacji wyników algorytmu predykcji czasów retencji i zostaną przedstawione w poświęconym temu zagadnieniu podrozdziale Druga kategoria obejmuje zestawy kompletnych danych pomiarowych (LC-MS/MS i LC-MS) wygenerowanych na podstawie próbek przygotowanych specjalnie na potrzeby niniejszej pracy lub też będących częścią rzeczywistych badań biologicznych, w których współuczestniczył autor [33, ]. Zbiory te wykorzystane zostaną do zademonstrowania wyników kolejnych etapów analizy ilościowej. Aby uniknąć konieczności wielokrotnej prezentacji, ogólny opis wszystkich użytych zbiorów tego rodzaju umieszczony został poniżej, podczas gdy w poszczególnych 84

85 podrozdziałach przedstawiane będą jedynie te ich właściwości, które są bezpośrednio związane z omawianymi tam zagadnieniami. Do tej kategorii należą następujące zbiory: BSA zbiór danych będący wynikiem pomiaru 6 próbek zawierających peptydy powstałe w wyniku trawienia trypsyną pojedynczego białka: bydlęcej albuminy (BSA Bovine Serum Albumin) o 100% czystości. Do kolejnych próbek białko BSA dodawane było we wzrastającej ilości, odpowiednio: 10, 50, 100, 200, 500, 1000 pg (przy objętości próbki 20 μl). W pracy wykorzystywane są jedynie połączone wyniki identyfikacji peptydów; 7BIAŁEK zbiór danych będący efektem analizy próbek zawierających peptydy z siedmiu trawionych trypsyną białek: BSA (czystość 100%), beta-kazeiny z mleka krowiego (czystość > 98%), cytochromu C z mięśnia sercowego konia (czystość > 95%), drożdżowej dehydrogenazy alkoholowej I (czystość > 90%), bydlęcej insuliny (brak informacji o czystości), lizozymu z jaja kurzego (czystość > 90%) oraz końskiej mioglobiny (czystość > 90%). Zbiór złożony jest z 15 pełnych widm mas próbek, w których białko BSA dodawane było w ilościach 10, 20, 50, 100 i 200 ng (objętość próbki 20 μl), a pozostałe sześć białek miało niezmienne stężenie. Dla każdej próbki z określoną ilością BSA wykonywane były trzy powtórzenia pomiaru. Wykonane zostały również osobne sekwencjonowania pojedynczych białek standardowych, mające na celu identyfikację ich zanieczyszczeń; SUROWICA1 próbki pochodzące z badań nad peptydami o masie poniżej 5 kda występującymi w surowicy ludzkiej krwi. W skład zbioru danych wchodzi 60 pełnych widm mas, z których 30 pochodzi z analizy próbek pobranych od osób zdrowych, a 30 od pacjentów ze zdiagnozowanym rakiem jelita grubego; SUROWICAMIX1 zbiór złożony z 10 pełnych widm mas będących powtórzeniami technicznymi pomiaru pojedynczej próbki biologicznej powstałej przez połączenie wszystkich próbek z omawianego wcześniej zbioru danych SUROWICA; KRZEPNIĘCIE1 zbiór 24 pełnych widm mas próbek peptydomu surowicy krwi pobranej zgodnie ze ściśle kontrolowanym protokołem od 12 zdrowych osób. Po pobraniu krew od każdej osoby była dzielona na dwie części, które przed dalszym 1 Zbiory powstały w ramach prowadzonych przez zespól prof. Jerzego Ostrowskiego z Pracowni Biologii i Gastroenterologii Molekularnej Kliniki Gastroenterologii Centrum Onkologii w Warszawie badań nad składem niskocząsteczkowej frakcji surowicy krwi u pacjentów z rakiem jelita grubego. 85

86 przetwarzaniem i analizą w spektrometrze poddawane były wykrzepianiu przez odpowiednio jedną lub dwie godziny; OSOCZE2 zbiór danych wygenerowany w ramach badań nad zmianami składu proteomu osocza ludzkiej krwi wywołanymi mukowiscydozą. Badane były białka o masie do 30 kda. Zbiór składa się z 20 pełnych widm mas próbek pochodzących od 10 pacjentów ciężko chorych oraz 10 pacjentów, u których obserwowane były łagodne objawy; OSOCZEMIX2 10 powtórzeń technicznych pojedynczej próbki będącej połączeniem wszystkich próbek ze zbioru danych OSOCZE. Akwizycja danych odbywała się według ujednoliconego protokołu pomiarowego. Pełne widma mas próbek mierzone były w zakresie m/z przy rozdzielczości Rozdzielanie chromatograficzne odbywało się przy trwającej 45 minut gradientowej zmianie udziału acetonitrylu w fazie ruchomej od 5 do 30%. Dane zapisywane były w formacie kontrolującego akwizycję programu XCalibur (wersja 2.0), a następnie konwertowane3 do formatu stosowanego przez oprogramowanie implementujące omówione w rozprawie algorytmy (opis w punktach i Dodatku), w którym odbywało się dalsze przetwarzanie. Podczas akwizycji widm fragmentacyjnych stosowana była technika sekwencjonowania sektorowego, z podziałem pełnego zakresu mierzonych wartości m/z na cztery podzakresy: , , oraz Poszczególne przebiegi LC-MS/MS rozdzielane były pustymi przebiegami, zapobiegającymi przenoszeniu peptydów pomiędzy analizami. Za niskopoziomową obróbkę widm fragmentacyjnych odpowiedzialny był program MascotDistiller (wersja 2.2.2), z którego dane przesyłane były do systemu identyfikacji Mascot (wersja 2.0). Jako źródło sekwencji białek wykorzystywana była baza danych SwissProt. W zależności od rodzaju próbek, przeszukiwanie ograniczone było do białek ludzkich lub też obejmowało całą bazę. Podczas przeszukiwania uwzględniona była możliwość występowania peptydów zmodyfikowanych przez utlenienie metioniny. Analiza raportów sekwencjonowania odbywała się za pomocą autorskiego oprogramowania opisanego w punkcie Dodatku oraz w [184]. 2 Zbiory powstały w ramach grantu europejskiego Development of new technologies for low abundance proteomics: application to cystic fibrosis. Badania prowadzone były pod kierownictwem prof. Michała Dadleza w Instytycie Biochemii i Biofizyki PAN we wspolpracy z Instytutem Matki i Dziecka. 3 Autorem oprogramowania dokonującego konwersji formatów danych jest dr hab. Jarosław Poznański z Instytutu Biochemii i Biofizyki PAN. 86

87 6.2. Gromadzenie wiedzy o składzie próbek Wnioskowanie o jakości wyników identyfikacji jest w znacznym stopniu ułatwione w sytuacji gdy znany jest rzeczywisty skład białkowy próbek. Dlatego też do prezentacji wyników użyte zostały zbiory BSA i 7BIAŁEK pochodzące z analizy próbek złożonych z odpowiednio jednego i siedmiu znanych białek. Aby możliwe było określenie poziomu fałszywych identyfikacji, przeszukiwana przez system Mascot baza danych powstała przez połączenie części zawierającej wszystkie sekwencje aminokwasowe z bazy SwissProt (wersja , sekwencji) oraz części złożonej z ich odwróconych wersji Eliminacja fałszywie pozytywnych identyfikacji W celu weryfikacji skuteczności proponowanej w pracy miary jakości identyfikacji opartej na progu MMT (dalej nazywanej mscoremmt), wyznaczone na jej podstawie q-wartości zostały porównane z uzyskanymi przy bezpośrednim użyciu wartości score oraz po jej modyfikacji przez odjęcie progów MHT (mscoremht) oraz MIT (mscoremit). Porównanie dotyczyło liczby PSM o q-wartościach 0,01 oraz liczby zidentyfikowanych na ich podstawie peptydów. Zebrane w tabeli 6.1 wyniki pokazują, że liczności zbiorów peptydów uzyskiwane przy wykorzystaniu mscoremit tylko w niewielkim stopniu różnią się od tych będących efektem użycia niezmodyfikowanej wartości score, co jest potwierdzeniem obserwacji dotyczącej małej specyficzności progu MIT. W przypadku obydwu badanych zbiorów danych miary mscoremht i mscoremmt pozwalają uzyskać mniej zachowawcze estymaty poziomu fałszywie pozytywnych identyfikacji, przy czym użycie tej ostatniej prowadzi do większych zbiorów PSM i peptydów. Relacje pomiędzy wielkościami zbiorów peptydów są zachowane w szerokim zakresie progów q-wartości, co zostało uwidocznione na rysunku 6.1. Tab Porównanie miar jakości identyfikacji. Tabela zawiera liczby PSM o q-wartościach 0,01 oraz liczby zidentyfikowanych na ich podstawie peptydów mscoremmt mscoremht mscoremit score Peptydy PSM Peptydy PSM Peptydy PSM Peptydy PSM BSA BIAŁEK

88 a) b) Rys Zależność liczby zidentyfikowanych peptydów od progu q-wartości PSM wyznaczanych przy użyciu różnych miar jakości identyfikacji: a) zbiór danych BSA; b) zbiór danych 7BIAŁEK Znajomość składu próbek daje okazję do weryfikacji czy q-wartości określone na podstawie mscoremmt przy użyciu przeszukania połączonej bazy danych mogą być traktowane jako przybliżenie rzeczywistego poziomu fałszywie pozytywnych wyników. Jeżeli założyć pełną czystość białek występujących w próbkach, wówczas każda zidentyfikowana sekwencja, która z nich nie pochodzi może być uznana za fałszywie pozytywny wynik. Tym samym możliwe jest wyznaczenie q-wartości i porównanie ich z tymi uzyskanymi przy użyciu bazy danych zawierającej odwrócone sekwencje. Zgodnie z tabelą 6.1, w wynikach sekwencjonowania zbioru BSA występuje 652 PSM o q-wartościach nie przekraczających progu 0,01. Spośród nich 645 reprezentuje sekwencje peptydów z bydlęcej albuminy lub pochodzących z autolizy trypsyny, co odpowiada poziomowi fałszywie pozytywnych identyfikacji o wartości równej 0,0107. Co ważne, duża zgodność obydwu rodzajów q- wartości (R2 = 0,9941) utrzymuje się w najbardziej interesującym z praktycznego punktu widzenia przedziale 0 ; 0,1, co zastało pokazane na rysunku 6.2.a. Niestety, w przypadku drugiego z użytych zbioru sekwencjonowań, q-wartości wyznaczane przy użyciu odwróconej bazy danych w przedziale 0 ; 0,1 przyjmują wyraźnie mniejsze wartości od uzyskanych na podstawie znajomości składu próbek (rysunek 6.2.b). Należy jednak zwrócić uwagę, że nie musi to być dowodem nieskuteczności metody 88

89 szacowania poziomu fałszywie pozytywnych wyników. W odróżnieniu od opisywanych poprzednio próbek, w tym przypadku użyte białka (z wyjątkiem BSA) charakteryzowały się czystością od 90% do 98%. Zastosowanie dla tego zbioru danych progu q-wartości równego 0,01 skutkuje identyfikacją 41 białek, przy czym obecność 29 z nich można łatwo wytłumaczyć na podstawie znajomości składu próbek (rysunek 6.3). Do grupy tej oprócz trypsyny należy 7 białek rzeczywiście wprowadzonych do próbek oraz 21 ich odpowiedników pochodzących z innych organizmów, których identyfikacja jest wynikiem dużej homologii sekwencji oraz zastosowania bazy danych bez ograniczeń taksonomii. Wśród pozostałych są cztery białka, które występują w krowim mleku (alfa-s1-kazeina, alfa-s2-kazeina, kappa-kazeina, laktoglobulina) oraz pochodząca z mięśnia sercowego tropina I (siedem odmian od różnych organizmów). Zarówno zbieżność miejsca pochodzenia, jak i wyniki osobnych sekwencjonowań, wykonanych dla każdego z siedmiu białek standardowych, wskazują, że obecność wspomnianych białek jest efektem niepełnej czystości beta-kazeiny i cytochromu C. Uznanie wymienionych białek za faktycznie występujące w próbkach znacząco podnosi zgodność obydwu rodzajów q-wartości (R2 = 0,9952), jednak niemożność uzyskania od producenta standardów białkowych informacji potwierdzających przypuszczenia co do składu zanieczyszczeń czyni ten wynik spekulatywnym. a) b) Rys Porównanie q-wartości wyznaczonych na podstawie bazy danych z odwróconymi sekwencjami z tymi określonymi na podstawie znajomości składu próbek: a) zbiór danych BSA; b) zbiór danych 7BIAŁEK 89

90 Rys Wyniki klasteryzacji hierarchicznej białek zidentyfikowanych w zbiorze danych 7BIAŁEK przy progu q-wartości równym 0,01. Odległość pomiędzy białkami wynika ze procentu identyczności ich sekwencji, wyznaczonego wykonaniu po globalnego dopasowaniu algorytmem Needlemana-Wunsha. Zaznaczone zostały liście drzewa klasteryzacji odpowiadające trypsynie oraz siedmiu białkom wprowadzonym do badanych próbek Kalibracja widm fragmentacyjnych Przedstawione dotychczas wyniki identyfikacji uzyskane zostały przy użyciu opisanej w rozdziale metody dwukrotnego przeszukania zmierzonych widm fragmentacyjnych przez system Mascot. Pierwsze przeszukanie, wykonane z dużymi wartościami maksymalnych dopuszczalnych odchyłek masy (MMDMS = 40 ppm dla jonów macierzystych oraz MMDMS/MS = 0,8 Da dla jonów potomnych), służyło do wybrania zbiorów widm o wiarygodnie przypisanych sekwencjach (kryterium była q-wartość 0,01). Zbiory te były następnie podstawą dla procedury wyznaczenia parametrów funkcji kalibracyjnych mas jonów macierzystych i fragmentacyjnych oraz określenia zawężonych przedziałów tolerancji wykorzystywanych w drugim przeszukaniu. Przykładowe wyniki tej procedury dla zbioru danych 7BIAŁEK przedstawia rysunek

91 a) b) c) d) Rys Kalibracja widm fragmentacyjnych. Górne panele przedstawiają zależność błędu pomiaru wartości m/z jonów macierzystych przed (panel a) i po kalibracji (panel b). Dolne panele prezentują zależność błędu pomiaru wartości m/z jonów fragmentacyjnych przed (panel c) i po kalibracji (panel d). Na czerwono zaznaczone są punkty odrzucone przez algorytm RANSAC i nie brane pod uwagę podczas wyznaczania parametrów kalibracji Celem kalibracji jest poprawienie jakości wyników identyfikacji, czego bezpośrednim efektem powinno być zwiększenie liczby peptydów o wiarygodnie przypisanych sekwencjach. W tabeli 6.2 zamieszczone zostały wyniki porównania dotyczącego wpływu stosowania kalibracji i użytej w tym celu metody na liczbę PSM o q-wartościach nie 91

92 większych od 0,01. Testy przeprowadzono na dwóch wykorzystanych już poprzednio zbiorach danych o znanym składzie białkowym (BSA i 7BIAŁEK). Dodatkowo użyta została jedna z próbek należących do zbioru OSOCZE, charakteryzująca się silną zależnością błędu od zmierzonej wartości m/z. Jako metoda odniesienia wykorzystana została spotykana w literaturze procedura oparta na oszacowaniu wartości średniej i odchylenia standardowego względnego błędu określenia masy jedynie dla jonów macierzystych [106, 110]. W tabelach z wynikami metoda ta oznaczona jest jako kalibracja MS, natomiast proponowana przez autora metoda, uwzględniająca również widma fragmentacyjne i zależność błędu od wartości m/z, nazywana jest kalibracją MS i MS/MS. Tab Wpływ kalibracji na wyniki identyfikacji peptydów. Podane zostały liczby PSM o q-wartościach 0,01 oraz zidentyfikowanych na ich podstawie peptydów. Wartości w nawiasach oznaczają procentową zmianę wobec liczebności zbiorów otrzymywanych przy braku kalibracji Bez kalibracji Peptydy PSM BSA BIAŁEK OSOCZE Kalibracja MS Kalibracja MS i MS/MS Peptydy PSM Peptydy PSM (+ 1,35%) (+ 13,33%) (+ 9,72%) (+ 17,90%) (+ 20,83%) (+ 32,66%) ( 0,65%) ( 0,48%) (+ 17,75%) (+ 20,84%) (+ 90,54%) (+ 189,77%) Jak wynika z tabeli 6.2, kalibracja może znacząco w przypadku jednego ze zbiorów niemal dwukrotnie zwiększyć liczbę zidentyfikowanych peptydów spełniających wymagane kryterium. Dla PSM poprawa jest jeszcze wyraźniejsza, co oznacza zwiększenie liczby przypisań przypadających na poszczególne peptydy, a tym samym dodatkowy wzrost wiarygodności identyfikacji tych ostatnich. Wpływ zastosowanej metody kalibracji jest w oczywisty sposób powiązany ze specyfiką danych. Gdy zależność funkcyjna błędu względnego od wartości m/z jest słaba (np. zbiór 7BIAŁEK), istotny wzrost liczby peptydów osiągany jest już po kalibracji prostszą metodą, aczkolwiek nawet w takim wypadku wprowadzenie kroku kalibracji mas jonów fragmentacyjnych skutkuje poprawą wyników. Przy silniejszej zależności błędu względnego od m/z (zbiór danych BSA), dopiero wykonanie pełnej kalibracji przynosi zauważalną poprawę, a w skrajnym przypadku używanie uproszczonej procedury może wręcz prowadzić do pogorszenia wyników (zbiór OSOCZE). 92

93 Większa liczba zidentyfikowanych peptydów skutkuje również poprawą jakości identyfikacji białek, która może być mierzona w kategoriach wzrostu wartości ich mscoreb lub też stopnia pokrycia ich sekwencji (tabela 6.3). Oba zastosowane kryteria są ze sobą powiązane, choć nie zawsze w oczywisty sposób: obserwowany na skutek kalibracji wzrost mscoreb jest silniejszy, gdyż jest on bezpośrednim wynikiem większej liczby PSM, podczas gdy poprawa stopnia pokrycia wymaga identyfikacji nowych, unikalnych fragmentów sekwencji białka i nie jest zależna od liczby PSM przypadających na peptyd. Tab Wpływ kalibracji na wyniki identyfikacji białek. Podane zostały wartości mscoreb i procenty pokrycia sekwencji znanych białek ze zbiorów danych BSA (wiersz zaznaczony na szaro) i 7BIAŁEK Bez kalibracji Kalibracja MS Kalibracja MS i MS/MS mscoreb Pokrycie [%] mscoreb Pokrycie [%] mscoreb Pokrycie [%] Albumina 3880,2 59, ,3 61, ,6 79,24 Albumina 7243,6 55, ,1 65,9 9867,3 67,55 Beta-kazeina 702,9 48,66 968,5 54,02 985,7 54,02 Dehydrogenaza alkoholowa I 7193,9 60, ,4 60, ,4 61,78 Insulina 6189,6 42, ,4 42, ,5 50,48 Cytochrom C 2670,4 41,9 4015,2 44, ,3 44,76 Mioglobina 13661,6 64, ,6 75, ,8 77,92 Lizozym 10684,4 72, ,5 75, ,9 80, Model widma mas peptydu Predykcja czasu retencji Zaprezentowana w rozdziale metoda predykcji czasów retencji porównana została z czterema opisanymi w literaturze algorytmami, z których dwa poddawane były treningowi na wykorzystywanych podczas testów zbiorach danych, podczas gdy dwa pozostałe miały parametry od nich niezależne. Do pierwszej grupy nalezą: prosty model liniowy wyznaczający hydrofobowość jako sumę współczynników retencji oraz sieć neuronowa o strukturze 20:2:1 [154]. Niestety, nie było możliwe włączenie do porównania rozbudowanej sieci neuronowej o strukturze 1052:24:1 zaproponowanej przez Petritisa w [149]. Jej wagi są objęte patentem, a implementujące ją oprogramowanie dostępne jest jedynie dla rządowych 93

94 placówek badawczych na terenie USA [185], natomiast autor nie dysponował zbiorami danych o rozmiarze umożliwiającym skuteczny trening tak złożonej sieci neuronowej. Dlatego też jako przykłady predykcji w oparciu o parametry niezależne od konkretnych zbiorów danych wykorzystane zostały oba warianty modelu Krokhina [ ] (wyniki dla wersji rozszerzonej modelu wygenerowano przy użyciu dostępnego w Internecie programu Sequence Specific Retention Calculator [186]). Wydajność wymienionych metod predykcji czasów retencji przetestowana została dla pięciu zbiorów złożonych z sekwencji peptydów i obserwowanych dla nich czasów retencji. Trzy z nich pochodzą z systemu HPLC sprzężonego ze spektrometrem, który posłużył do wygenerowania pozostałych danych pomiarowych z pracy: 7BIAŁEK zbiór będący przykładem niewielkiego zestawu (348 sekwencji) peptydów tryptycznych poddanych jednorazowemu sekwencjonowaniu; SUROWICA zbiór powstały z połączenia 32 przebiegów LC-MS/MS (wykonanych w okresie ponad roku) analizujących peptydom surowicy ludzkiej krwi. Zbiór zawiera 1235 sekwencji; SYNAPTOSOMY4 duży zbiór peptydów (3408 sekwencji) pochodzący z trawienia trypsyną białek frakcji synaptosomalnej mózgu myszy transgenicznych z chorobą Alzheimera. Do porównania dołączone zostały ponadto dwa dostępne w literaturze zestawy peptydów, które były zbiorami testowymi (zbiory treningowe nie zostały opublikowane) dla drugiej wersji modelu Krokhina [143] (zbiór KROKHIN, 255 sekwencji) oraz rozbudowanej sieci neuronowej Petritisa [149] (zbiór PETIRITIS, 1303 sekwencje). Porównania były wykonywane po podzieleniu poszczególnych zbiorów danych na części treningową i testową. Zawierający 80% peptydów zbiór treningowy służył do wyznaczenia parametrów predyktorów, których skuteczność była następnie sprawdzana na peptydach ze zbioru testowego. Czasy retencji każdego zbioru treningowego zamieniane były na znormalizowane wartości (NET Normalized Elution Time) przez liniowe przeskalowanie na zakres 0,1 ; 0,9. Procedura losowego podziału zbiorów powtarzana była 100 razy, a zebrane w tabeli 6.4 wyniki są wartościami średnimi uzyskanych kwadratów współczynników korelacji pomiędzy rzeczywistymi i przewidywanymi czasami retencji 4 Zbiór danych pochodzi z badań nad proteomem frakcji synaptosomalnej myszy transgenicznych, będących modelem choroby Alzheimera. Badania prowadzone są pod kierownictwem prof. Michała Dadleza w Instytucie Biochemii i Biofizyki PAN we współpracy z Instytutem Medycyny Doświadczalnej i Klinicznej PAN i Międzynarodowym Instytutem Biologii Molekularnej i Komórkowej. 94

95 peptydów wchodzących w skład zbiorów testowych. W przypadku metod o parametrach niezależnych od zbiorów danych podawane są jedynie wyniki dla całego zbioru peptydów. Tab Porównanie skuteczności metod predykcji czasów retencji. Podane są wartości średnie i odchylenia standardowe kwadratów współczynników korelacji wyznaczonych na podstawie 100 zbiorów testowych. W przypadku metod o parametrach niezależnych od zbiorów danych (wiersze zaznaczone na szaro) podawana jest wartość dla całego zbioru danych 7BIAŁEK SUROWICA SYNAPTOSOMY PETRITIS KROKHIN EA 0,9338 (0,0086) 0,8996 (0,0102) 0,9347 (0,0060) 0,9100 (0,0081) 0,9526 (0,0123) Model liniowy 0,8267 (0,0381) 0,8189 (0,0141) 0,8865 (0,0071) 0,8292 (0,0173) 0,9247 (0,0178) ANN 0,9201 (0,0177) 0,8817 (0,0331) 0,9254 (0,0044) 0,8920 (0,0193) 0,9428 (0,0160) Krokhin1 0,8668 0,8530 0,8931 0,8341 0,9479 Krokhin2 0,8983 0,8717 0,9218 0,8992 0,9790 Uzyskane wyniki pokazują, że niezależnie od używanej metody można zaobserwować wpływ specyfiki zbiorów danych na skuteczność predykcji. Wszystkie metody uzyskują zdecydowanie najlepsze rezultaty (R2 od 0,9247 do 0,9790) dla zbioru KROKHIN, co nie jest zaskoczeniem, zważywszy, że jako jedyny był on wygenerowany w następujących po sobie przebiegach o ściśle kontrolowanej powtarzalności warunków chromatograficznych i przy stałej temperaturze. Swego rodzaju przeciwieństwem tej sytuacji jest zbiór danych SUROWICA, stanowiący połączenie przebiegów sekwencjonujących wykonanych w dużych odstępach czasowych. Ponadto, wchodzące w jego skład próbki zawierały naturalnie występujące w surowicy krwi peptydy, charakteryzujące się większym zróżnicowaniem długości i składów N- i C-końcowych fragmentów sekwencji w porównaniu z peptydami tryptycznymi. Tym samym wyniki dla tych dwóch zbiorów danych można traktować jako górne i dolne oszacowanie możliwej do osiągnięcia skuteczności poszczególnych metod. Wyniki obydwu modeli Krokhina, wykorzystujących stałe, niezależne od zbioru danych wartości parametrów dobrze ilustrują związany z predykcją problem, jakim jest zależność czasów retencji od układu chromatograficznego i panujących w nim warunków. Z jednej strony oba modele wykazują dużą skuteczność dla zbioru danych pochodzącego z systemu HPLC, dla którego optymalizowane były wartości ich parametrów, z drugiej jednak, zdecydowanie słabsze rezultaty dla pozostałych przypadków wskazują na ograniczoną zdolność uogólniania. Zjawisko to jest dodatkowo pogłębiane przez fakt, że oba modele opracowane zostały przy użyciu systemu HPLC połączonego off- line ze spektrometrem typu MALDI. Takie warunki są bez wątpienia optymalne z punku widzenia dokładnego pomiaru 95

96 czasów retencji, jednak znacząco odbiegają one od panujących podczas analiz LC-MS/MS, w których system HPLC poddany jest rygorom (zarówno czasowym jak i dotyczącym składu fazy ruchomej) wynikającym z bezpośredniego połączenia ze źródłem jonów ESI. Spośród metod, których parametry dostosowywane były do poszczególnych zbiorów danych najlepsze rezultaty uzyskał proponowany w niniejszej pracy model wspomagany przez algorytm ewolucyjny. Fakt, że model ten jest w pewnym stopniu wzorowany na pierwotnym modelu Krokhina skutkował podobieństwem wartości uzyskiwanych współczynników retencji (rysunek 6.5.a), tak więc poprawa skuteczności predykcji osiągnięta została głównie dzięki elementom różniącym obie metody: odmiennemu sposobowi uwzględnienia wpływu N-końca, wprowadzeniu poprawek związanych z sąsiedztwem aminokwasów zasadowych (szczególnie argininy, której wpływ na hydrofobowość sąsiednich reszt aminokwasowych jest tylko nieznacznie mniejszy od wpływu N-końca, co zastało pokazane na rysunku 6.5.b) oraz zastąpieniu ręcznego doboru parametrów przez optymalizację za pomocą algorytmu ewolucyjnego. a) b) Rys Przykładowe wyniki optymalizacji algorytmem ewolucyjnym parametrów modelu: a) porównanie współczynników retencji reszt aminokwasowych (oznaczonych jednoliterowymi symbolami) z wartościami pochodzącymi z modelu Krokhina [141]; b) postać funkcji modelujących wpływ N-końca i sąsiedztwa aminokwasów zasadowych 96

97 Z punku widzenia użycia predykcji w procesie ekstrakcji cech ilościowych z pełnych widm mas, znaczenie ma błąd predykcji odniesiony do całkowitego czasu trwania przebiegu chromatograficznego. W zbiorze testowym o największej zaobserwowanej wartości R2 błąd predykcji dla 50% peptydów mieścił się w zakresie ±2,00%, a dla 95% peptydów w zakresie ±6,82% długości przebiegu (rysunek 6.6.a). W najgorszym przypadku szerokości przedziałów błędu dla 50% i 95% peptydów wynosiły ±5,28% i ±15,33% (rysunek 6.6.b). Średnio, uwzględniając wszystkie zbiory danych, wartości te były równe ±3,98% i ±10,22%. Należy jednak zwrócić uwagę, że w praktycznych zastosowaniach wartości błędu predykcji są mniejsze, gdyż do wyznaczenia parametrów modelu wykorzystywane są wszystkie zidentyfikowane peptydy, bez wykonanego na potrzeby tego porównania podziału na części treningową i uczącą. a) b) Rys Wykresy procentu peptydów o danym poziomie błędu predykcji, wyrażonego w procentach czasu trwania przebiegu chromatograficznego: a) najlepszy obserwowany przypadek (zbiór danych KROKHIN); b) najgorszy przypadek (zbiór danych SUROWICA) Obwiednia izotopowa i profil elucji Algorytm stosowany przy wyznaczaniu teoretycznej obwiedni izotopowej widm jonów peptydowych korzysta z pików sumarycznych, powstających przez połączenie pików wszystkich odmian izotopowych o jednakowej liczbie nukleonów w jądrach atomów 97

98 tworzących cząstkę. Rozwiązanie takie, jak już zostało to omówione w rozdziale 5.3.2, pozwala znacząco zmniejszyć liczbę rozpatrywanych pików obwiedni. Przykładowo, rzeczywisty rozkład izotopowy stosowanej w celach kalibracyjnych substancji P, będącej peptydem o składzie C63H98N18O13S1 i masie monizotopowej 1346,72814 Da złożony jest z ponad 5, odmian, podczas gdy liczba niezerowych pików sumarycznych wynosi 150. Wraz ze wzrostem masy cząstki różnica w liczbie pików staje się coraz większa: teoretyczne widmo małego białka, insuliny bydlęcej o składzie C254H377N65O75S6 i masie 5729,60086 Da zawiera już ponad 1, pików odmian izotopowych, wobec 267 pików sumarycznych. Zastosowanie uproszczonego widma jest możliwe przy założeniu, że skończona rozdzielczość spektrometru nie pozwala rozróżnić pików pochodzących od rzeczywistych odmian izotopowych o małych różnicach w masie. Przy rozdzielczości 50000, stosowanej podczas akwizycji używanych w niniejszej pracy danych pomiarowych, założenie to jest spełnione. Co więcej, ze względu na ograniczenia zakresu dynamicznego i stosunku sygnału do szumu, obserwowana jest jedynie pewna liczba początkowych pików sumarycznych. Na rysunku 6.7 przedstawione zostało porównanie zmierzonego widma substancji P i jego teoretycznego modelu w zakresie wartości m/z odpowiadającym pierwszym pięciu pikom sumarycznym, zawierających 99,5047% informacji pełnej obwiedni. Współczynnik determinacji uproszczonego modelu przed wykonaniem dopasowania algorytmem Levenberga Marquardta wynosi w tym wypadku 0,9982. Co ciekawe, wartość ta jest nawet nieznacznie większa od uzyskanej dla modelu uwzględniającego piki wszystkich odmian izotopowych (obliczonego przy użyciu rozszerzonej wersji algorytmu opisanej w punkcie Dodatku), co najprawdopodobniej wynika z faktu, że wyznaczenie pełnego modelu wymaga wprowadzenia kroku przycinania. Po wykonaniu procedury dopasowania oba modele prowadzą do tej samej wartości współczynnika determinacji, równej 0,9996. Różnica pomiędzy modelem przed i po dopasowaniu widoczna jest na rysunku 6.8.a zwierającym zbliżenie zakresu wartości m/z mieszczącego drugi pik sumaryczny obwiedni. Należy podkreślić, że w przypadku obwiedni izotopowej zgodność początkowych wartości parametrów modelu z danymi jest bardzo istotna, gdyż służą one nie tylko jako punkty startowe dla iteracyjnego algorytmu Levenberga Marquardta, ale są także podstawą dla wyboru właściwych położeń widm jonów peptydowych na etapie ekstrakcji wartości liczbowych z pełnych widma mas próbek (por. rozdział 5.4.2). 98

99 Rys Porównanie danych pomiarowych z funkcją modelującą kształt obwiedni izotopowej jonu substancji P. Rysunek dotyczy modelu przed wykonaniem dopasowania algorytmem Levenberga Marquardta Wysoka wartość współczynnika determinacji wskazuje, że przybliżenie kształtu pików obwiedni izotopowej za pomocą funkcji Gaussa jest w pełni uzasadnione, co jest również widoczne na rysunkach 6.7 oraz 6.8.a. Trzeba jednak pamiętać, że kształt pików jest silnie zależny od rodzaju analizatora, w który wyposażony jest spektrometr. O ile w wypadku stosowanego tutaj analizatora FT-ICR założenie o kształcie gaussowskim nie budzi większych wątpliwości, o tyle dla spektrometru Q-TOF mogłoby prowadzić do błędów, gdyż generowane przez analizator czasu przelotu piki nie są symetryczne. Kształt przekroju widma w kierunku osi czasów retencji jest w modelu opisywany przez zmodyfikowaną wykładniczo funkcję Gaussa. Pewną wadą tej funkcji jest to, że dobrze opisuje jedynie piki o wydłużonym zboczu opadającym. W praktyce okazuje się jednak, że nie jest to poważnym ograniczeniem, gdyż właśnie z takimi pikami mamy do czynienia w widmach LC-MS. W odróżnieniu od obwiedni izotopowej, początkowe wartości parametrów funkcji modelującej kształt nie są związane z sekwencją peptydu i ustalane są w sposób empiryczny. Fakt ten nie ma jednak zasadniczego wpływu na wyniki etapu ekstrakcji cech, gdyż w tym przypadku profilu elucji wartości te stanowią jedynie punkty startowe dla procedury Levenberga Marquardta i istotna jest tylko zgodność z danymi modelu po dopasowaniu. Dla używanej tu jako przykład substancji P wartości współczynników determinacji przed i po dopasowaniu wynoszą odpowiednio 0,9577 i 0,9993 (rysunek 6.9.b). 99

100 a) b) Rys Porównanie danych pomiarowych z funkcjami modelującymi dwuwymiarowy kształt widma mas substancji P (przed i po wykonaniu dopasowania algorytmem Levenberga Marquardta): a) powiększenie zakresu wartości m/z mieszczącego drugi pik sumaryczny obwiedni izotopowej; b) profil elucji wyznaczony dla piku monizotopowego obwiedni Przedstawione powyżej wyniki dotyczą pomiaru pojedynczej substancji o stężeniu dobranym tak, aby zapewnić optymalne warunki dla kalibracji skali wartości m/z. Niestety, z punktu widzenia analiz LC-MS złożonych próbek biologicznych warunki takie należy uznać za nierealistyczne. Można oczekiwać, że w ich przypadku duża rozpiętość stężeń białek, różnice w efektywności jonizacji peptydów oraz nakładanie widm reprezentujących je jonów będą przyczyniać się do degradacji wyników. Dla wszystkich używanych w pracy zbiorów i dla wszystkich jonów peptydowych uznanych przez algorytm wyszukiwania za prawidłowo odnalezione wartości średnie współczynników determinacji dla dopasowanych modeli obwiedni izotopowych i profili elucji wynosiły odpowiednio 0,9563 i 0,9367, przy czym za pogorszenie wyników w znacznej mierze odpowiadały widma o małej intensywności, znajdujące się blisko poziomu szumu. Porównanie trójwymiarowej reprezentacji danych pomiarowych i dopasowanego modelu widma dla przykładowego jonu peptydowego pochodzącego z rzeczywistych analiz LC-MS zamieszczone zostało na rysunku

101 Rys Trójwymiarowa wizualizacja widma mas przykładowego jonu peptydowego: a) dane pomiarowe; b) model widma po wykonaniu dopasowania procedurą Levenberga Marquardta 6.4. Ekstrakcja wartości liczbowych z pełnych widm mas próbek Procedura ekstrakcji cech o charakterze ilościowym wykorzystuje algorytm wyszukiwania, którego działanie oparte jest na teoretycznych modelach widm mas jonów peptydowych oraz na funkcji c P(t), której wartości wskazują potencjalne położenia tych widm w pełnym widmie mas próbki. Postać tej funkcji powinna być kompromisem pomiędzy czułością a specyficznością wyszukiwania: z jednej strony musi być zachowana możliwość wyszukania prawidłowego widma nawet w wypadku braku idealnej zgodności z teoretycznym położeniem i kształtem, z drugiej zaś strony próby wyznaczania dopasowania modelu do danych eksperymentalnych są kosztowne obliczeniowo i należy dążyć do minimalizacji ich liczby. Funkcją o największej możliwej czułości jest chromatogram wykonany dla pewnego przedziału wartości m/z wokół dokładnego położenia piku monoizotopowego obwiedni. Jednocześnie jest to jednak funkcja o bardzo niskiej specyficzności, która przyjmuje niezerowe wartości dla wielu czasów retencji niezwiązanych z poszukiwanym peptydem. Funkcja w postaci przedstawionej w rozdziale pozwala uzyskać większą specyficzność, nie prowadząc do spadku czułości (rysunek 6.10). Wyznaczanie funkcji c P(t) jako średniej geometrycznej chromatogramów cząstkowych umożliwia wykluczenie położeń związanych z pojedynczymi pikami szumowymi oraz pikami należącymi do obwiedni o stopniu 101

102 naładowania innym niż ma poszukiwany jon (rysunek 6.10.b). Wyjątkiem w tym przypadku są jedynie obwiednie jonów o liczbie ładunków będącej parzystą wielokrotnością właściwego. Wymóg występowania maksimum w zakresach m/z chromatogramów cząstkowych powoduje, że nie są uwzględniane pozycje związane ze zboczami pików o maksimach położonych poza dopuszczalnym zakresem tolerancji (rysunek 6.10.c). Dodatkowo, zastosowanie funkcji kary eliminuje położenia oddalone od przewidzianego czasu zejścia peptydu z kolumny chromatograficznej. W efekcie, łączny chromatogram zwykle zawiera jedynie niewielką liczbę pików, a często wręcz tylko pojedynczy pik odpowiadający prawidłowemu położeniu poszukiwanego jonu (rysunek 6.10.a). Rys Porównanie czułości i specyficzności chromatogramu wykonanego dla piku monoizotopowego poszukiwanego widma (górny panel) oraz funkcji c P(t) w postaci stosowanej w prezentowanym algorytmie (dolny panel). Boczne panele pokazują fragmenty widm mas związanych z wybranymi pikami chromatogramu, z zaznaczonym na czerwono oczekiwanym kształtem obwiedni poszukiwanego jonu: a) prawidłowy jon; b) jon o zbliżonym położeniu piku monoizotopowego, ale innym stopniu naładowania; c) jon o tym samym stopniu naładowania, lecz niewłaściwym położeniu piku monoizotopowego Warunkiem skuteczności wyszukiwania jest uwzględnienie możliwości występowania różnic w parametrach czasowych i kalibracji skali wartości m/z widm mas próbek. Dlatego też ważnym elementem algortytmu wyszukiwania jest procedura rekalibracji modeli oraz 102

103 automatycznego określania szerokości przedziałów tolerancji dla wartości m/z i czasów retencji. Bez jej zastosowania konieczne byłoby używanie podczas przeszukania szerokich zakresów, znacząco zwiększających ryzyko nieprawidłowego określenia pozycji widm peptydów. Typowo, dla wstępnego przeszukania dopuszczalna dokładność określenia wartości m/z jest równa ±20 ppm, a funkcja kary za odstępstwo od teoretycznego czasu retencji ma szerokość połówkową tak dobraną, aby wyeliminować wszystkie widma oddalone od przewidywanego położenia o więcej niż ±20% czasu trwania przebiegu. Przeprowadzenie kalibracji zawęża przedziały tolerancji do odpowiednio ±7-9 ppm i ±4-6%, które to wartości są zdecydowanie bliższe rzeczywistym możliwościom stosowanego układu pomiarowego. Wyniki działania rekalibracji dla przykładowego widma mas pokazane zostały na rysunku a) b) Rys Wyznaczanie współczynników kalibracyjnych pełnych widm mas dla skali wartości m/z (panel a) i czasu retencji (panel b). Na czerwono zaznaczono punkty odrzucone przez algorytm RANSAC i nie brane pod uwagę podczas wyznaczania parametrów kalibracji. Rysunek dotyczący kalibracji czasów retencji zawiera dodatkowo zaznaczoną szarym kolorem krzywą dopasowania LOESS. Jej postać pozwala wnioskować, że możliwe jest usprawnienie procedury przez wprowadzenie nieliniowej funkcji kalibracyjnej dla czasu retencji Procedurze wyszukiwania w widmach mas próbek poddawane są wszystkie peptydy, których sekwencje zostały zidentyfikowane na podstawie PSM o q- wartościach 0,01. Uwzględniane są przy tym jony o stopniach naładowania, które występowały w wynikach sekwencjonowań. Liczby poszukiwanych widm jonów peptydowych 103 dla czterech

104 przykładowych zbiorów danych zamieszczone zostały w tabeli 6.5. Tabela ta zawiera również średnie liczby jonów uznanych za prawidłowo wyszukane przez algorytm ekstrakcji cech, natomiast rysunek 6.12 prezentuje efekty jego działania dla przykładowej próbki. Tab Podsumowanie wyników działania algorytmu wyszukiwania widm mas jonów peptydowych w pełnych widmach mas próbek. W dwóch pierwszych wierszach zamieszczone zostały liczby poszukiwanych jonów peptydowych oraz wartości średnie liczby jonów uznanych przez algorytm za prawidłowo wyszukane (po zaokrągleniu do najbliższej liczby całkowitej). Ostatni wiersz zawiera liczbę błędnie zidentyfikowanych jonów peptydowych odniesioną do liczb jonów uznanych za prawidłowo zidentyfikowane w poszczególnych próbkach (w tabeli podana jest, wyrażona w procentach wartość średnia dla całego zbioru danych) 7BIAŁEK OSOCZE SUROWICA KRZEPNIĘCIE Liczba szukanych jonów Liczba znalezionych jonów Błąd [%] 0,63 1,47 1,93 1,11 Rys Fragment widma mas próbki ze zbioru danych SUROWICA z naniesionymi efektami działania algorytmu wyszukiwania jonów peptydowych. W etykietach widm widoczne są sekwencje peptydów, stopnie naładowania jonów oraz identyfikatory białek, z których pochodzą peptydy Różnica pomiędzy liczbami poszukiwanych i odnalezionych jonów wynika przede wszystkim z faktu, że podczas identyfikujących skład próbek przebiegów LC-MS/MS używana jest większa ilość materiału biologicznego, co było już dokładniej omawiane w rozdziale Potwierdzeniem tego mogą być zauważalnie lepsze rezultaty wyszukiwania 104

105 w próbkach zbioru danych 7BIAŁEK, które zawierały białka w kontrolowanych i relatywnie wysokich stężeniach. Natomiast porównanie efektów wyszukiwania w zbiorów danych SUROWICA i KRZEPNIĘCIE ilustruje wpływ jaki może mieć na wyniki analizy ilościowej sposób przygotowania materiału biologicznego. Oba te zbiory pochodzą z badań nad składem peptydomu surowicy krwi i poszukiwane w nich były takie same jony peptydowe. Jednak dla połowy próbek zbioru KRZEPNIĘCIE użyta została inna procedura przechowywania krwi po pobraniu (dwie godziny wykrzepiania zamiast jednej), która, jak się okazało, spowodowała znaczące zmiany ich składu peptydowego. Zjawisko to pokazuje ryzyko związane z wnioskowaniem o różnicach między próbkami bez znajomości sekwencji badanych peptydów, a tym samym bez możliwości nadania interpretacji biologicznej wynikom. Przyczyną nieodnalezienia części widm może być również błędne działanie algorytmu wyszukiwania. Określenie poziomu błędów związanego z procesem ekstrakcji cech nie jest jednak zadaniem trywialnym, gdyż ten etap przetwarzania danych nie poddaje się łatwo obiektywnej ocenie. Swego rodzaju paradoksem jest to, że ręczna weryfikacja przez eksperta jest w zasadnie jedyną w pełni wiarygodną metodą oceny działania algorytmu, którego zadaniem jest właśnie uwolnienie badacza od konieczności ręcznego wyszukiwania widm. Wyniki tego rodzaju weryfikacji, dokonanej przez mgr Magdalenę Bakun z Instytutu Biochemii i Biofizyki PAN zamieszczone zostały w tabeli 6.5. Za błędy uznawane były wszystkie przypadki niezgodności rezultatów wyszukiwania z opinią weryfikującego, włączając w to również takie, w których prawidłowa identyfikacja jest praktycznie niemożliwa dla algorytmu działającego na poziomie pojedynczej próbki. Do tych ostatnich można zaliczyć np. jony charakteryzujące się w konkretnej próbce małą liczbą zliczeń i słabym dopasowaniu, o pozycji których można wnioskować dopiero na podstawie porównania z widmami mas innych próbek. Uzyskane wyniki pokazują zależność liczby błędów od stopnia skomplikowania badanych próbek. Nie może to dziwić, zważywszy, że główną przyczyną błędów były niskie wartości dopasowania dla widm maskowanych przez intensywne piki pochodzące z obwiedni innych jonów peptydowych. W próbkach zawierających jedynie ograniczony zestaw peptydów (zbiór 7BIAŁEK) sytuacje takie występują rzadko, w efekcie czego liczba błędów jest wyraźnie mniejsza. Niestety, rzetelna ocena skuteczności proponowanego algorytmu nie jest w pełni możliwa, gdyż w znanej autorowi literaturze zagadnienia związane z oceną poprawności działania prezentowanych rozwiązań są zwykle pomijane. 105

106 6.5. Przetwarzanie danych liczbowych Imputacja brakujących wartości Zaprezentowany w rozdziale zmodyfikowany algorytm K najbliższych sąsiadów (określany w dalszej części jako KNNC) porównany z został z czterema innymi metodami imputacji brakujących wartości: zastąpieniem średnią wiersza (RMEAN), algorytmem Expectation Maximization [173] (EM), oryginalną wersją algorytmu najbliższych sąsiadów, która tworzy sąsiedztwo na podstawie odległości Euklidesa [170] (KNNE) oraz metodą wykorzystującą rozkład macierzy danych na wartości szczególne [170] (SVD, opis tej metody zamieszczony został w punkcie Dodatku). Testy wykonane zostały dla czterech zbiorów danych, poddanych wcześniejszej filtracji, w wyniku której pozostały w nich jedynie wiersze macierzy danych mające prawidłowo zmierzone wartości ekspresji w co najmniej 70% próbek. Dwa zbiory (KRZEPNIĘCIE i SUROWICA) pochodzą z badań nad peptydomem, podczas gdy w dwóch pozostałych (OSOCZE i OSOCZEMIX) peptydy powstały w wyniku trawienia białek. Podział ten jest o tyle istotny, że zbiory danych z badań białek charakteryzują się większą korelacją pomiędzy grupami cech (peptydami tego samego białka), co może mieć wpływ na skuteczność porównywanych metod. Dla każdego zbioru danych określona została zależność procentu brakujących wartości od średniego poziomu ekspresji w wierszach macierzy danych. Następnie, na podstawie kompletnych wierszy każdego zbioru danych wygenerowano po 100 zbiorów testowych o zadanym procencie (równym 1, 5, 10, 15, 20) brakujących wartości, utworzonych w sposób losowy, ale z zachowaniem wspomnianej uprzednio zależności. Przykładowa postać tej zależności pokazana została na rysunku 6.13.b, podczas gdy rysunek 6.13.a przedstawia rozkład wartości ekspresji po filtracji. Podstawą porównania metod był znormalizowany błąd średniokwadratowy (NRMSE Normalized Root Mean Squared Error), wyznaczany jako: NR 1 x i x i 2 N R i =1, NRMSE= x (6.1) gdzie xi i x i to odpowiednio rzeczywiste i zrekonstruowane poziomy ekspresji NR sztucznie utworzonych brakujących wartości, a x jest wartością średnią rzeczywistych poziomów 106

107 ekspresji. Dla badanych zbiorów danych udział brakujących wartości po filtracji wahał się od 2,13% do 7,46%, dlatego też do głównego porównania, którego wyniki przedstawione zastały w tabeli 6.6, wybrano zbiory testowe zawierające 5% brakujących wartości. Podane w tabeli wartości są średnimi dla 100 zbiorów testowych. Zależność wartości średnich NRMSE od procentu brakujących wartości dla przykładowego zbioru danych (SUROWICA) pokazano na rysunku 6.14.a. Dla tego samego zbioru, na rysunku 6.14.b przedstawione zostały rozkłady błędów rekonstrukcji poszczególnych metod przy 5% udziale brakujących wartości. Tab Porównanie wartości średnich i odchyleń standardowych NRMSE uzyskiwanych przez porównywane metody imputacji brakujących wartości. Wiersze zaznaczone na szaro zawierają charakterystykę zbiorów danych po filtracji KRZEPNIĘCIE SUROWICA OSOCZE OSOCZEMIX Liczba wierszy po filtracji Liczba kompletnych wierszy ,46% 4,44% 5,66% 2,13% KNNC 0,0310 (0,0036) 0,0298 (0,0006) 0,0297 (0,0027) 0,0466 (0,0028) KNNE 0,0328 (0,0021) 0,0381 (0,0011) 0,0318 (0,0033) 0,0377 (0,0029) RMEAN 0,0484 (0,0024) 0,0676 (0,0014) 0,0518 (0,0026) 0,0948 (0,0047) EM 0,0313 (0,0025) 0,0312 (0,0012) 0,0306 (0,0030) 0,0398 (0,0044) SVD 0,0326 (0,0024) 0,0431 (0,0013) 0,0356 (0,0030) 0,0563 (0,0042) Procent brakujących wartości a) b) Rys Zbiór danych SUROWICA po filtracji brakujących wartości: a) rozkład wartości ekspresji cech; b) zależność procentu brakujących wartości od średniego poziomu ekspresji cech w wierszach macierzy danych 107

108 a) b) Rys Wyniki porównania skuteczności metod imputacji brakujących wartości dla zbioru danych SUROWICA: a) zależność wartości NRMSE od procentu brakujących wartości; b) rozkład błędów imputacji (wyrażonych w procentach rzeczywistej wartości) dla przypadku 5% brakujących wartości w zbiorze danych Dla trzech z czterech badanych zbiorów danych można było zaobserwować następującą zależność: największe wartości błędu były efektem zastąpienia brakujących wartości średnią wiersza, zdecydowanie lepsze i dość zbliżone rezultaty uzyskały metody KNNE oraz SVD, zaś najlepiej wypadły metody KNNC i EM, przy czym ta pierwsza miała nieznaczną przewagę. Co ważne, relacje te były zachowane również przy wzrastającym procencie brakujących wartości, jako że wartości błędów wszystkich porównywanych metod, za wyjątkiem SVD, nie wykazywały silnej zależności od stopnia niekompletności zbiorów danych (rysunek 6.14.a). Brak zasadniczych różnic poziomu błędu imputowanych wartości pomiędzy dwoma zbiorami z badań peptydomu a proteomicznym zbiorem OSOCZE wskazuje, że leżące u podstaw metody najbliższych sąsiadów założenie o istnieniu grup cech o podobnych profilach ekspresji jest spełnione nawet w wypadku gdy peptydy nie są wynikiem trawienia proteolitycznego białek. Natomiast osobnego omówienia wymaga złożony z powtórzeń technicznych zbiór danych OSOCZEMIX, dla którego metoda KNNC sprawowała się gorzej nie tylko od EM, ale także od swego korzystającego z odległości Euklidesa pierwowzoru. Przyczyną tak słabych wyników było niedostosowanie parametrów metody do specyfiki tego zbioru danych. Przed rozpoczęciem testów wartości parametrów wszystkich metod zostały tak dobrane aby zminimalizować uzyskiwany przez nie błąd uśredniony po wszystkich zbiorach 108

109 danych. Dla KNNC oznaczało to wybór stosunkowo dużego, bo równego 20, maksymalnego rozmiaru sąsiedztwa oraz wynoszącej 0,8 minimalnej wymaganej wartości współczynnika korelacji należących do niego profili ekspresji (rysunek 6.15.a). Przy takich parametrach średnia liczba sąsiadów wynosiła 12 (rysunek 6.15.b), jednak dla zbioru danych, w którym nie ma grup peptydów o charakterystycznych profilach ekspresji (a z taką sytuacją, niejako z założenia, mamy do czynienia dla powtórzeń technicznych) próg korelacji przestawał spełniać swoją rolę i sąsiedztwo zawsze przyjmowało maksymalny rozmiar. Wymuszenie mniejszego rozmiaru sąsiedztwa prowadziło do spadku błędu, jednak jego wartość nadal była większa niż dla KNNE. Fakt ten sugeruje, że w szczególnym przypadku powtórzeń technicznych, odległość Euklidesa jest lepszą podstawą budowania sąsiedztwa. a) b) Rys Wybór parametrów algorytmu K najbliższych sąsiadów: a) zależność NRMSE od progu współczynnika korelacji (dla współczynnika korelacji równego 0,9, w wypadku części cech nie jest możliwe zbudowanie otoczenia i imputacja odbywa się przez zastąpienie średnią wiersza, co powoduje wzrost błędu); b) średnia wielkość sąsiedztwa w zależności od współczynnika korelacji Normalizacja Opisana w rozdziale metoda oparta na ważonej lokalnie regresji LOESS porównana została z najczęściej używaną w badaniach proteomicznych normalizacją przez liniowe przeskalowanie wartości oraz z powszechnie stosowaną dla danych mikromacierzowych nieliniową normalizacją kwantylową [187] (Dodatek, punkt 8.2.2). W przypadku normalizacji 109

110 liniowej porównane zostały dwa sposoby wyznaczania współczynnika skalującego: jako całkowitej liczby zliczeń w pełnym widmie próbki lub jako wartości średniej zmierzonych poziomów ekspresji wszystkich peptydów. Normalizacja LOESS rozpatrywana była zarówno w wariancie działającym na całym zbiorze peptydów, jak i w wersji z wyborem zbioru peptydów o niezmiennej ekspresji, nazywanej w dalszej części pracy iloess. W pierwszej kolejności zweryfikowana została zdolność poszczególnych metod do minimalizacji różnic pomiędzy próbkami będącymi powtórzeniami technicznymi lub biologicznymi. Zbiory danych, dla których przeprowadzono porównanie zostały tak wybrane, aby można je było można uszeregować w kolejności wzrastającego stopnia złożoności. Najprostszy z nich złożony jest ze sztucznie utworzonych próbek zawierających peptydy pochodzące z trawienia 6 białek o niezmiennych stężeniach (zbiór 7BIAŁEK z wykluczonymi peptydami białka BSA). Pozostałe trzy zbiory danych pochodzą z badań nad peptydomem surowicy ludzkiej krwi, poczynając od powtórzeń technicznych pojedynczej próbki (zbiór danych SUROWICAMIX), przez próbki pobrane i przetwarzane zgodnie ze ściśle kontrolowanym protokołem od grupy zdrowych osób (zbiór danych KRZEPNIĘCIE, tylko próbki z poddawane wykrzepianiu przez jedną godzinę), aż po pobrane w warunkach klinicznych próbki pochodzące od pacjentów ze zdiagnozowanym rakiem jelita grubego (zbiór SUROWICA, tylko grupa chorych). Przy okazji należy podkreślić, że materiał biologiczny pobrany z płynów ustrojowych, w tym także surowicy krwi, jest jednym z najtrudniejszych w analizie ze względu na duże zróżnicowanie osobnicze. Dlatego też można przyjąć, że wyniki dla prezentowanych tu zbiorów danych stanowią swego rodzaju oszacowanie najgorszego możliwego przypadku i rozrzuty obserwowane np. dla próbek z linii komórkowych lub jednorodnych genetycznie organizmów z hodowli laboratoryjnych są zwykle mniejsze. Podstawą porównania, którego wyniki zamieszczone są w tabeli 6.7 była wartość średnia współczynnika zmienności (coefficient of variation) cech w znormalizowanych zbiorach danych: V= N si 1, N i=1 x i (6.2) gdzie x i i si to odpowiednio wartość średnia i odchylenie standardowe poziomów ekspresji (w pierwotnej skali liniowej) i-tej cechy, a N jest liczbą. Zebrane w tabeli wyniki dotyczą zbiorów danych poddanych procedurze redukcji szumu opisanej w rozdziale

111 Tab Wyniki porównania metod normalizacji danych dla zbiorów złożonych z powtórzeń technicznych i biologicznych. Tabela zawiera wartości współczynników zmienności uśrednionych po wszystkich cechach 7BIAŁEK SUROWICAMIX KRZEPNIĘCIE SUROWICA Bez normalizacji 30,13 41,25 51,67 85,10 Skalowanie (całkowita liczba zliczeń) 25,11 33,07 49,19 64,43 Skalowanie (średni poziom ekspresji) 23,89 32,85 45,96 62,52 Normalizacja kwantylowa 22,99 27,33 38,85 55,10 Normalizacja LOESS 18,89 27,14 37,42 54,06 Normalizacja iloess 23,69 30,76 37,94 57,16 Na podstawie uzyskanych wyników można stwierdzić, że niezależnie od zbioru danych, trzy uwzględnione w porównaniu nieliniowe metody normalizacji osiągają lepsze wyniki od liniowego przeskalowania wartości, przy czym w sposób konsekwentny najlepsze wyniki osiąga metoda LOESS, a najsłabsze zwykle iloess. Nie przekreśla to jednak sensu używania tej ostatniej, jako że w rzeczywistym celem badawczym zwykle nie jest porównywanie próbek będących technicznymi bądź biologicznymi powtórzeniami. W celu sprawdzenia czy duża skuteczność algorytmów działających na całym zbiorze cech nie jest okupiona zwiększonym ryzykiem spłaszczenia faktycznie występujących pomiędzy próbkami różnic, wykorzystany został ponownie zbiór 7BIAŁEK. Tym razem jednak oprócz sześciu wcześniej badanych białek o stałej ekspresji, uwzględnione zostały również peptydy pochodzące z białka BSA, które dodawane było do próbek we wzrastającej ilości. W tym wypadku użycie normalizacji iloess pozwoliło uzyskać największą wartość kwadratu współczynnika korelacji liniowej (R2 = 0,9984) pomiędzy stężeniem białka a jego zmierzonym poziomem ekspresji, co zostało pokazane na rysunku 6.16.a. Zjawisko to wynika z faktu, że peptydy białka BSA stanowiły niemal 25% zbioru danych i w dodatku zmiana ich poziomu ekspresji miała charakter jednostronny. W efekcie nie były spełnione założenia konieczne do prawidłowego działania metod wyznaczających parametry normalizacji przy użyciu wszystkich cech, co prowadziło do fałszywego zmniejszenia różnic w ekspresji pomiędzy próbkami. Będąca elementem metody iloess procedura wyboru cech o niezmiennej ekspresji powoduje, że peptydy białka BSA nie są uwzględnione podczas wyznaczania parametrów normalizacji (rysunek 6.16.b), co tłumaczy uzyskanie wyniku bardziej zgodnego z oczekiwanym. 111

112 a) b) Rys Porównanie nieliniowych metod normalizacji danych dla zbioru danych BSA: a) zależność zmierzonego poziomu ekspresji białka BSA od ilości, w jakiej było ono dodawane do próbek (zaznaczone zostały wartości średnie i odchylenia standardowe dla trzech powtórzeń); b) wykres typu scatterplot dla dwóch próbek różniących się ilością białka BSA (10 i 100 ng) po normalizacj iloess. Zielone punkty oznaczają peptydy z BSA. Czerwonymi trójkątami zaznaczono zbiór peptydów o niezmiennej ekspresji, wybrany jako podstawa procedury normalizacyjnej Przedstawione powyżej obserwacje zostały również potwierdzone dla próbek rzeczywistych, pochodzących z surowicy krwi osób zdrowych. Użyte zostały w tym celu znakowane syntetyczne peptydy, o sekwencjach takich samych jak sekwencje siedmiu naturalnie występujących w próbkach peptydów (tabela 6.8), lecz wyznakowanych izotopowo przez zastąpienie dwóch atomów wodoru przez atomy deuteru w dwóch glicynach. W efekcie znakowania w pełnym widmie mas próbki można zaobserwować przesunięte wobec siebie pary widm pochodzących od peptydów naturalnych i ich o 4 Da cięższych syntetycznych odpowiedników (rysunek 6.17). Przy znajomości stężeń dodawanych do próbek peptydów syntetycznych, metoda ta pozwala wyznaczyć bezwzględne stężenie naturalnie występujących w osoczu peptydów poprzez porównanie objętości pików obwiedni po uprzednim ich rozpleceniu. Co ważne, nie jest w tym wypadku wymagana żadna procedura normalizacyjna, gdyż porównanie odbywa się w ramach pojedynczej próbki. W opisany powyżej sposób wyznaczone zostały bezwzględne stężenia peptydów dla dwóch grup próbek, różniących się czasem wykrzepiania po pobraniu krwi (próbki z obu grup zbioru KRZEPNIĘCIE). Następnie zostały one porównane z wartościami względnych poziomów ekspresji (w oryginalnej skali liniowej) tych samych peptydów. Porównanie 112

113 dotyczyło kwadratu współczynnika korelacji liniowej pomiędzy bezwzględnym stężeniem a względnymi poziomami ekspresji po normalizacji zbioru danych trzema metodami nieliniowymi. Zbadane zostały również stosunki wartości średnich (FC fold change) pomiędzy próbkami pochodzącymi z porównywanych w tym eksperymencie grup. Zamieszczone w tabeli 6.8 wyniki porównania wskazują, że również w tym przypadku użycie metod wyznaczających parametry normalizacji na podstawie wszystkich cech prowadzi do zaniżonych oszacowań stopnia różnicowania pomiędzy grupami próbek i skutkuje słabszą korelacją względnych poziomów ekspresji peptydów z ich bezwzględnym stężeniem niż ma to miejsce dla algorytmu iloess. Rys Para widm mas pochodzących od naturalnego peptydu i jego znakowanego izotopowo odpowiednika Tab Porównanie metod normalizacji dla zbioru peptydów znakowanych izotopowo. Tabela zawiera wartości kwadratów współczynników korelacji pomiędzy bezwzględnymi stężeniami peptydów (wyznaczonymi z użyciem znakowania izotopowego) i ich względną ekspresją, określoną po normalizacji zbioru danych trzema metodami. Zamieszczone zostały również stosunki wartości średnich stężeń (kolumna Znakowanie ) i względnych poziomów ekspresji po normalizacji dla dwóch grup próbek (pozostałe kolumny) Znakowanie Kwantylowa 2 LOESS iloess FC FC R FC R FC R2 ADSGEGDFLAEGGGVR 2,2983 1,9359 0,9019 2,1151 0,9315 2,3011 0,9522 DSGEGDFLAEGGGVR 2,2653 1,9060 0,8993 2,1459 0,9387 2,2313 0,9595 SGEGDFLAEGGGVR 2,0011 1,7041 0,8029 1,6938 0,8765 1,9687 0,8906 GEGDFLAEGGGVR 1,7550 1,4614 0,7928 1,6209 0,7957 1,7689 0,8666 EGDFLAEGGGVR 1,0460 1,0539 0,7239 0,8663 0,5411 1,0361 0,6178 GDFLAEGGGVR 0,8553 0,9313 0,6183 0,8553 0,6088 0,9015 0,8522 DFLAEGGGVR 0,5623 0,6360 0,8662 0,7062 0,8509 0,6427 0,9204 FLAEGGGVR 0,5165 0,6461 0,8446 0,5964 0,8303 0,4993 0,

Proteomika. Spektrometria mas. i jej zastosowanie do badań białek

Proteomika. Spektrometria mas. i jej zastosowanie do badań białek Proteomika Spektrometria mas i jej zastosowanie do badań białek Spektrometria mas (MS) Metoda pozwalająca na pomiar stosunku masy do ładunku jonów (m/z) m/z można przeliczyć na masę jednostką m/z jest

Bardziej szczegółowo

Proteomika. Spektrometria mas. i jej zastosowanie do badań białek

Proteomika. Spektrometria mas. i jej zastosowanie do badań białek Proteomika Spektrometria mas i jej zastosowanie do badań białek Spektrometria mas (MS) Metoda pozwalająca na pomiar stosunku masy do ładunku jonów (m/z) m/z można przeliczyć na masę jednostką m/z jest

Bardziej szczegółowo

dobry punkt wyjściowy do analizy nieznanego związku

dobry punkt wyjściowy do analizy nieznanego związku spektrometria mas dobry punkt wyjściowy do analizy nieznanego związku cele: wyznaczenie masy cząsteczkowej związku wyznaczenie wzoru empirycznego określenie fragmentów cząsteczki określenie niedoboru wodoru

Bardziej szczegółowo

Proteomika. 1. Definicja proteomiki i techniki stosowane w proteomice

Proteomika. 1. Definicja proteomiki i techniki stosowane w proteomice Proteomika 1. Definicja proteomiki i techniki stosowane w proteomice Przepływ informacji, złożoność, *mika DNA RNA Białko Funkcja Genomika Transkryptomika Proteomika Metabolomika Liczba obiektów ~+ ++

Bardziej szczegółowo

Opis przedmiotu zamówienia

Opis przedmiotu zamówienia 1 Załącznik nr 1 do Specyfikacji Istotnych Warunków Zamówienia Opis przedmiotu zamówienia Przedstawione niżej szczegółowe parametry zamawianej aparatury są parametrami minimalnymi. Wykonawca może zaproponować

Bardziej szczegółowo

ZASTOSOWANIA SPEKTROMETRII MAS W CHEMII ORGANICZNEJ I BIOCHEMII WYKŁAD I PODSTAWY SPEKTROMETRII MAS

ZASTOSOWANIA SPEKTROMETRII MAS W CHEMII ORGANICZNEJ I BIOCHEMII WYKŁAD I PODSTAWY SPEKTROMETRII MAS ZASTOSOWANIA SPEKTROMETRII MAS W CHEMII ORGANICZNEJ I BIOCHEMII WYKŁAD I PODSTAWY SPEKTROMETRII MAS ZAKRESY PROMIENIOWANIA ELEKTROMAGNETYCZNEGO, WYKORZYSTYWANEGO WNAJWAŻNIEJSZYCH METODACH SPEKTRALNYCH

Bardziej szczegółowo

Spektrometria mas (1)

Spektrometria mas (1) pracował: Wojciech Augustyniak Spektrometria mas (1) Spektrometr masowy ma źródło jonów, które jonizuje próbkę Jony wędrują w polu elektromagnetycznym do detektora Metody jonizacji: - elektronowa (EI)

Bardziej szczegółowo

ZASTOSOWANIA SPEKTROMETRII MAS W CHEMII ORGANICZNEJ I BIOCHEMII

ZASTOSOWANIA SPEKTROMETRII MAS W CHEMII ORGANICZNEJ I BIOCHEMII ZASTOSOWANIA SPEKTROMETRII MAS W CHEMII ORGANICZNEJ I BIOCHEMII WYKŁAD I PODSTAWY SPEKTROMETRII MAS Prof. dr hab. Witold Danikiewicz Instytut Chemii Organicznej PAN Warszawa ZAKRESY PROMIENIOWANIA ELEKTROMAGNETYCZNEGO,

Bardziej szczegółowo

IDENTYFIKACJA SUBSTANCJI W CHROMATOGRAFII CIECZOWEJ

IDENTYFIKACJA SUBSTANCJI W CHROMATOGRAFII CIECZOWEJ IDENTYFIKACJA SUBSTANCJI W CHROMATOGRAFII CIECZOWEJ Prof. dr hab. inż. Agata Kot-Wasik, prof. zw. PG agawasik@pg.gda.pl 11 Rozdzielenie + detekcja 22 Anality ZNANE Co oznaczamy? Anality NOWE NIEZNANE WWA

Bardziej szczegółowo

Jonizacja plazmą wzbudzaną indukcyjnie (ICP)

Jonizacja plazmą wzbudzaną indukcyjnie (ICP) Jonizacja plazmą wzbudzaną indukcyjnie (ICP) Inductively Coupled Plasma Ionization Opracowane z wykorzystaniem materiałów dr Katarzyny Pawlak z Wydziału Chemicznego PW Schemat spektrometru ICP MS Rozpylacz

Bardziej szczegółowo

Techniki immunochemiczne. opierają się na specyficznych oddziaływaniach między antygenami a przeciwciałami

Techniki immunochemiczne. opierają się na specyficznych oddziaływaniach między antygenami a przeciwciałami Techniki immunochemiczne opierają się na specyficznych oddziaływaniach między antygenami a przeciwciałami Oznaczanie immunochemiczne RIA - ( ang. Radio Immuno Assay) techniki radioimmunologiczne EIA -

Bardziej szczegółowo

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA Marta Szachniuk Plan prezentacji Wprowadzenie do tematyki badań Teoretyczny model problemu Złożoność

Bardziej szczegółowo

OZNACZENIE JAKOŚCIOWE I ILOŚCIOWE w HPLC

OZNACZENIE JAKOŚCIOWE I ILOŚCIOWE w HPLC OZNACZENIE JAKOŚCIOWE I ILOŚCIOWE w HPLC prof. Marian Kamiński Wydział Chemiczny, Politechnika Gdańska CEL Celem rozdzielania mieszaniny substancji na poszczególne składniki, bądź rozdzielenia tylko wybranych

Bardziej szczegółowo

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko DHPLC Denaturing high performance liquid chromatography Wiktoria Stańczyk Zofia Kołeczko Mini-słowniczek SNP (Single Nucleotide Polymorphism) - zmienność sekwencji DNA; HET - analiza heterodupleksów; HPLC

Bardziej szczegółowo

Wpływ ilości modyfikatora na współczynnik retencji w technice wysokosprawnej chromatografii cieczowej

Wpływ ilości modyfikatora na współczynnik retencji w technice wysokosprawnej chromatografii cieczowej Wpływ ilości modyfikatora na współczynnik retencji w technice wysokosprawnej chromatografii cieczowej WPROWADZENIE Wysokosprawna chromatografia cieczowa (HPLC) jest uniwersalną techniką analityczną, stosowaną

Bardziej szczegółowo

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II 10 października 2013: Elementarz biologii molekularnej www.bioalgorithms.info Wykład nr 2 BIOINFORMATYKA rok II Komórka: strukturalna i funkcjonalne jednostka organizmu żywego Jądro komórkowe: chroniona

Bardziej szczegółowo

Spektroskopia. Spotkanie pierwsze. Prowadzący: Dr Barbara Gil

Spektroskopia. Spotkanie pierwsze. Prowadzący: Dr Barbara Gil Spektroskopia Spotkanie pierwsze Prowadzący: Dr Barbara Gil Temat rozwaŝań Spektroskopia nauka o powstawaniu i interpretacji widm powstających w wyniku oddziaływań wszelkich rodzajów promieniowania na

Bardziej szczegółowo

Próżnia w badaniach materiałów

Próżnia w badaniach materiałów Próżnia w badaniach materiałów Pomiary ciśnień parcjalnych Konstanty Marszałek Kraków 2011 Analiza składu masowego gazów znajduje coraz większe zastosowanie ze względu na liczne zastosowania zarówno w

Bardziej szczegółowo

Pytania z Wysokosprawnej chromatografii cieczowej

Pytania z Wysokosprawnej chromatografii cieczowej Pytania z Wysokosprawnej chromatografii cieczowej 1. Jak wpłynie 50% dodatek MeOH do wody na retencję kwasu propionowego w układzie faz odwróconych? 2. Jaka jest kolejność retencji kwasów mrówkowego, octowego

Bardziej szczegółowo

Wybrane techniki badania białek -proteomika funkcjonalna

Wybrane techniki badania białek -proteomika funkcjonalna Wybrane techniki badania białek -proteomika funkcjonalna Proteomika: umożliwia badanie zestawu wszystkich (lub prawie wszystkich) białek komórkowych Zalety analizy proteomu np. w porównaniu z analizą trankryptomu:

Bardziej szczegółowo

Co to jest spektrometria mas?

Co to jest spektrometria mas? Co to jest spektrometria mas? Jest to nowoczesna technika analityczna pozwalająca na dokładne wyznaczenie masy analizowanej substancji Dokładność pomiaru może się wahać od jednego miejsca dziesiętnego

Bardziej szczegółowo

Spektroskopia magnetycznego rezonansu jądrowego - wprowadzenie

Spektroskopia magnetycznego rezonansu jądrowego - wprowadzenie Spektroskopia magnetycznego rezonansu jądrowego - wprowadzenie Streszczenie Spektroskopia magnetycznego rezonansu jądrowego jest jedną z technik spektroskopii absorpcyjnej mającej zastosowanie w chemii,

Bardziej szczegółowo

Proteomika. Złożoność proteomów

Proteomika. Złożoność proteomów Proteomika Złożoność proteomów Źródła złożoności Złożoność jakościowa pojedynczych białek geny alternatywnie złożone transkrypty, modyfikacje potranslacyjne przycinanie, itp. struktura Oddziaływania z

Bardziej szczegółowo

Wybrane techniki badania białek -proteomika funkcjonalna

Wybrane techniki badania białek -proteomika funkcjonalna Wybrane techniki badania białek -proteomika funkcjonalna Proteomika: umożliwia badanie zestawu wszystkich (lub prawie wszystkich) białek komórkowych Zalety analizy proteomu w porównaniu z analizą trankryptomu:

Bardziej szczegółowo

SPEKTROMETRIA IRMS. (Isotope Ratio Mass Spectrometry) Pomiar stosunków izotopowych (R) pierwiastków lekkich (H, C, O, N, S)

SPEKTROMETRIA IRMS. (Isotope Ratio Mass Spectrometry) Pomiar stosunków izotopowych (R) pierwiastków lekkich (H, C, O, N, S) SPEKTROMETRIA IRMS (Isotope Ratio Mass Spectrometry) Pomiar stosunków izotopowych (R) pierwiastków lekkich (H, C, O, N, S) R = 2 H/ 1 H; 13 C/ 12 C; 15 N/ 14 N; 18 O/ 16 O ( 17 O/ 16 O), 34 S/ 32 S Konstrukcja

Bardziej szczegółowo

Ćwiczenie nr 5 : Badanie licznika proporcjonalnego neutronów termicznych

Ćwiczenie nr 5 : Badanie licznika proporcjonalnego neutronów termicznych Ćwiczenie nr 5 : Badanie licznika proporcjonalnego neutronów termicznych Oskar Gawlik, Jacek Grela 16 lutego 29 1 Teoria 1.1 Licznik proporcjonalny Jest to jeden z liczników gazowych jonizacyjnych, występujący

Bardziej szczegółowo

NMR (MAGNETYCZNY REZONANS JĄDROWY) dr Marcin Lipowczan

NMR (MAGNETYCZNY REZONANS JĄDROWY) dr Marcin Lipowczan NMR (MAGNETYCZNY REZONANS JĄDROWY) dr Marcin Lipowczan Spis zagadnień Fizyczne podstawy zjawiska NMR Parametry widma NMR Procesy relaksacji jądrowej Metody obrazowania Fizyczne podstawy NMR Proton, neutron,

Bardziej szczegółowo

TECHNIKI SEPARACYJNE ĆWICZENIE. Temat: Problemy identyfikacji lotnych kwasów tłuszczowych przy zastosowaniu układu GC-MS (SCAN, SIM, indeksy retencji)

TECHNIKI SEPARACYJNE ĆWICZENIE. Temat: Problemy identyfikacji lotnych kwasów tłuszczowych przy zastosowaniu układu GC-MS (SCAN, SIM, indeksy retencji) TECHNIKI SEPARACYJNE ĆWICZENIE Temat: Problemy identyfikacji lotnych kwasów tłuszczowych przy zastosowaniu układu GC-MS (SCAN, SIM, indeksy retencji) Prowadzący: mgr inż. Anna Banel 1 1. Charakterystyka

Bardziej szczegółowo

ROZDZIELENIE OD PODSTAW czyli wszystko (?) O KOLUMNIE CHROMATOGRAFICZNEJ

ROZDZIELENIE OD PODSTAW czyli wszystko (?) O KOLUMNIE CHROMATOGRAFICZNEJ ROZDZIELENIE OD PODSTAW czyli wszystko (?) O KOLUMNIE CHROMATOGRAFICZNEJ Prof. dr hab. inż. Agata Kot-Wasik Katedra Chemii Analitycznej Wydział Chemiczny, Politechnika Gdańska agawasik@pg.gda.pl ROZDZIELENIE

Bardziej szczegółowo

Podstawy chromatografii i technik elektromigracyjnych / Zygfryd Witkiewicz, Joanna Kałużna-Czaplińska. wyd. 6-1 w PWN. Warszawa, cop.

Podstawy chromatografii i technik elektromigracyjnych / Zygfryd Witkiewicz, Joanna Kałużna-Czaplińska. wyd. 6-1 w PWN. Warszawa, cop. Podstawy chromatografii i technik elektromigracyjnych / Zygfryd Witkiewicz, Joanna Kałużna-Czaplińska. wyd. 6-1 w PWN. Warszawa, cop. 2017 Spis treści Przedmowa 11 1. Wprowadzenie 13 1.1. Krótka historia

Bardziej szczegółowo

Ćwiczenie 4. Wyznaczanie masy cząsteczkowej białek za pomocą spektrometrii mas.

Ćwiczenie 4. Wyznaczanie masy cząsteczkowej białek za pomocą spektrometrii mas. Ćwiczenie 4. Wyznaczanie masy cząsteczkowej białek za pomocą spektrometrii mas. Spektrometria mas jest narzędziem analitycznym stosowanym między innymi do pomiaru masy cząsteczkowej analitu. Dla dużych

Bardziej szczegółowo

Cz. 5. Podstawy instrumentalizacji chromatografii. aparatura chromatograficzna w skali analitycznej i modelowej - -- w części przypomnienie -

Cz. 5. Podstawy instrumentalizacji chromatografii. aparatura chromatograficzna w skali analitycznej i modelowej - -- w części przypomnienie - Chromatografia cieczowa jako technika analityki, przygotowania próbek, wsadów do rozdzielania, technika otrzymywania grup i czystych substancji Cz. 5. Podstawy instrumentalizacji chromatografii aparatura

Bardziej szczegółowo

Identyfikacja substancji pochodzenia roślinnego z użyciem detektora CORONA CAD

Identyfikacja substancji pochodzenia roślinnego z użyciem detektora CORONA CAD Identyfikacja substancji pochodzenia roślinnego z użyciem detektora CORONA CAD Przemysław Malec Department of Plant Physiology and Biochemistry, Faculty of Biochemistry, Biophysics and Biotechnology, Jagiellonian

Bardziej szczegółowo

etyloamina Aminy mają właściwości zasadowe i w roztworach kwaśnych tworzą jon alkinowy

etyloamina Aminy mają właściwości zasadowe i w roztworach kwaśnych tworzą jon alkinowy Temat: Białka Aminy Pochodne węglowodorów zawierające grupę NH 2 Wzór ogólny amin: R NH 2 Przykład: CH 3 -CH 2 -NH 2 etyloamina Aminy mają właściwości zasadowe i w roztworach kwaśnych tworzą jon alkinowy

Bardziej szczegółowo

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii 1. Technologia rekombinowanego DNA jest podstawą uzyskiwania genetycznie zmodyfikowanych organizmów 2. Medycyna i ochrona zdrowia

Bardziej szczegółowo

GraŜyna Chwatko Zakład Chemii Środowiska

GraŜyna Chwatko Zakład Chemii Środowiska Chromatografia podstawa metod analizy laboratoryjnej GraŜyna Chwatko Zakład Chemii Środowiska Chromatografia gr. chromatos = barwa grapho = pisze Michaił Siemionowicz Cwiet 2 Chromatografia jest metodą

Bardziej szczegółowo

2. Metody, których podstawą są widma atomowe 32

2. Metody, których podstawą są widma atomowe 32 Spis treści 5 Spis treści Przedmowa do wydania czwartego 11 Przedmowa do wydania trzeciego 13 1. Wiadomości ogólne z metod spektroskopowych 15 1.1. Podstawowe wielkości metod spektroskopowych 15 1.2. Rola

Bardziej szczegółowo

Theory Polish (Poland)

Theory Polish (Poland) Q3-1 Wielki Zderzacz Hadronów (10 points) Przeczytaj Ogólne instrukcje znajdujące się w osobnej kopercie zanim zaczniesz rozwiązywać to zadanie. W tym zadaniu będą rozpatrywane zagadnienia fizyczne zachodzące

Bardziej szczegółowo

Materiał obowiązujący do ćwiczeń z analizy instrumentalnej II rok OAM

Materiał obowiązujący do ćwiczeń z analizy instrumentalnej II rok OAM Materiał obowiązujący do ćwiczeń z analizy instrumentalnej II rok OAM Ćwiczenie 1 Zastosowanie statystyki do oceny metod ilościowych Błąd gruby, systematyczny, przypadkowy, dokładność, precyzja, przedział

Bardziej szczegółowo

Podstawy chromatografii i technik elektromigracyjnych / Zygfryd Witkiewicz, Joanna Kałużna-Czaplińska. wyd. 5, 4 dodr. Warszawa, 2015.

Podstawy chromatografii i technik elektromigracyjnych / Zygfryd Witkiewicz, Joanna Kałużna-Czaplińska. wyd. 5, 4 dodr. Warszawa, 2015. Podstawy chromatografii i technik elektromigracyjnych / Zygfryd Witkiewicz, Joanna Kałużna-Czaplińska. wyd. 5, 4 dodr. Warszawa, 2015 Spis treści Przedmowa 11 1. Wprowadzenie 13 1.1. Krótka historia chromatografii

Bardziej szczegółowo

Identyfikacja węglowodorów aromatycznych techniką GC-MS

Identyfikacja węglowodorów aromatycznych techniką GC-MS Identyfikacja węglowodorów aromatycznych techniką GC-MS Instrukcja do ćwiczeń opracowana w Katedrze Chemii Środowiska Uniwersytetu Łódzkiego. 1.Wstęp teoretyczny Zagadnienie rozdzielania mieszanin związków

Bardziej szczegółowo

WPŁYW ILOŚCI MODYFIKATORA NA WSPÓŁCZYNNIK RETENCJI W TECHNICE WYSOKOSPRAWNEJ CHROMATOGRAFII CIECZOWEJ

WPŁYW ILOŚCI MODYFIKATORA NA WSPÓŁCZYNNIK RETENCJI W TECHNICE WYSOKOSPRAWNEJ CHROMATOGRAFII CIECZOWEJ WPŁYW ILOŚCI MODYFIKATORA NA WSPÓŁCZYNNIK RETENCJI W TECHNICE WYSOKOSPRAWNEJ CHROMATOGRAFII CIECZOWEJ Wprowadzenie Wysokosprawna chromatografia cieczowa (HPLC) jest uniwersalną technika analityczną, stosowaną

Bardziej szczegółowo

Metody chemiczne w analizie biogeochemicznej środowiska. (Materiał pomocniczy do zajęć laboratoryjnych)

Metody chemiczne w analizie biogeochemicznej środowiska. (Materiał pomocniczy do zajęć laboratoryjnych) Metody chemiczne w analizie biogeochemicznej środowiska. (Materiał pomocniczy do zajęć laboratoryjnych) Metody instrumentalne podział ze względu na uzyskane informację. 1. Analiza struktury; XRD (dyfrakcja

Bardziej szczegółowo

PORÓWNANIE FAZ STACJONARNYCH STOSOWANYCH W HPLC

PORÓWNANIE FAZ STACJONARNYCH STOSOWANYCH W HPLC PORÓWNANIE FAZ STACJONARNYCH STOSOWANYCH W HPLC Instrukcja do ćwiczeń opracowana w Katedrze Chemii Środowiska Uniwersytetu Łódzkiego 1. Wstęp Chromatografia jest techniką umożliwiającą rozdzielanie składników

Bardziej szczegółowo

Nowoczesne metody analizy pierwiastków

Nowoczesne metody analizy pierwiastków Nowoczesne metody analizy pierwiastków Techniki analityczne Chromatograficzne Spektroskopowe Chromatografia jonowa Emisyjne Absorpcyjne Fluoroscencyjne Spektroskopia mas FAES ICP-AES AAS EDAX ICP-MS Prezentowane

Bardziej szczegółowo

CHROMATOGRAFIA W UKŁADACH FAZ ODWRÓCONYCH RP-HPLC

CHROMATOGRAFIA W UKŁADACH FAZ ODWRÓCONYCH RP-HPLC CHROMATOGRAFIA W UKŁADACH FAZ ODWRÓCONYCH RP-HPLC MK-EG-AS Wydział Chemiczny Politechniki Gdańskiej Gdańsk 2009 Chromatograficzne układy faz odwróconych (RP) Potocznie: Układy chromatograficzne, w których

Bardziej szczegółowo

Kreacja aromatów. Techniki przygotowania próbek. Identyfikacja składników. Wybór składników. Kreacja aromatu

Kreacja aromatów. Techniki przygotowania próbek. Identyfikacja składników. Wybór składników. Kreacja aromatu Kreacja aromatów Techniki przygotowania próbek Identyfikacja składników Wybór składników Kreacja aromatu Techniki przygotowania próbek Ekstrakcja do fazy ciekłej Ekstrakcja do fazy stałej Desorpcja termiczna

Bardziej szczegółowo

OFERTA TEMATÓW PROJEKTÓW DYPLOMOWYCH (MAGISTERSKICH) do zrealizowania w Katedrze INŻYNIERII CHEMICZNEJ I PROCESOWEJ

OFERTA TEMATÓW PROJEKTÓW DYPLOMOWYCH (MAGISTERSKICH) do zrealizowania w Katedrze INŻYNIERII CHEMICZNEJ I PROCESOWEJ OFERTA TEMATÓW PROJEKTÓW DYPLOMOWYCH (MAGISTERSKICH) do zrealizowania w Katedrze INŻYNIERII CHEMICZNEJ I PROCESOWEJ Badania kinetyki utleniania wybranych grup związków organicznych podczas procesów oczyszczania

Bardziej szczegółowo

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Grupa: wtorek 18:3 Tomasz Niedziela I. CZĘŚĆ ĆWICZENIA 1. Cel i przebieg ćwiczenia. Celem ćwiczenia

Bardziej szczegółowo

Ćwiczenie LP2. Jacek Grela, Łukasz Marciniak 25 października 2009

Ćwiczenie LP2. Jacek Grela, Łukasz Marciniak 25 października 2009 Ćwiczenie LP2 Jacek Grela, Łukasz Marciniak 25 października 2009 1 Wstęp teoretyczny 1.1 Energetyczna zdolność rozdzielcza Energetyczna zdolność rozdzielcza to wielkość opisująca dokładność detekcji energii

Bardziej szczegółowo

Podstawy fizyki wykład 8

Podstawy fizyki wykład 8 Podstawy fizyki wykład 8 Dr Piotr Sitarek Instytut Fizyki, Politechnika Wrocławska Ładunek elektryczny Grecy ok. 600 r p.n.e. odkryli, że bursztyn potarty o wełnę przyciąga inne (drobne) przedmioty. słowo

Bardziej szczegółowo

Ilościowa analiza mieszaniny alkoholi techniką GC/FID

Ilościowa analiza mieszaniny alkoholi techniką GC/FID Ilościowa analiza mieszaniny alkoholi techniką GC/FID WPROWADZENIE Pojęcie chromatografii obejmuje grupę metod separacji substancji, w których występują diw siły: siła powodująca ruch cząsteczek w określonym

Bardziej szczegółowo

Materiały pochodzą z Platformy Edukacyjnej Portalu www.szkolnictwo.pl

Materiały pochodzą z Platformy Edukacyjnej Portalu www.szkolnictwo.pl Materiały pochodzą z Platformy Edukacyjnej Portalu www.szkolnictwo.pl Wszelkie treści i zasoby edukacyjne publikowane na łamach Portalu www.szkolnictwo.pl mogą byd wykorzystywane przez jego Użytkowników

Bardziej szczegółowo

Kontrola produktu leczniczego. Piotr Podsadni

Kontrola produktu leczniczego. Piotr Podsadni Kontrola produktu leczniczego Piotr Podsadni Kontrola Kontrola - sprawdzanie czegoś, zestawianie stanu faktycznego ze stanem wymaganym. Zakres czynności sprawdzający zapewnienie jakości. Jakość to stopień,

Bardziej szczegółowo

Ćwiczenie 3++ Spektrometria promieniowania gamma z licznikiem półprzewodnikowym Ge(Li) kalibracja energetyczna i wydajnościowa

Ćwiczenie 3++ Spektrometria promieniowania gamma z licznikiem półprzewodnikowym Ge(Li) kalibracja energetyczna i wydajnościowa Ćwiczenie 3++ Spektrometria promieniowania gamma z licznikiem półprzewodnikowym Ge(Li) kalibracja energetyczna i wydajnościowa Cel ćwiczenia Celem ćwiczenia jest zapoznanie się - z metodyką pomiaru aktywności

Bardziej szczegółowo

Pomiar energii wiązania deuteronu. Celem ćwiczenia jest wyznaczenie energii wiązania deuteronu

Pomiar energii wiązania deuteronu. Celem ćwiczenia jest wyznaczenie energii wiązania deuteronu J1 Pomiar energii wiązania deuteronu Celem ćwiczenia jest wyznaczenie energii wiązania deuteronu Przygotowanie: 1) Model deuteronu. Własności deuteronu jako źródło informacji o siłach jądrowych [4] ) Oddziaływanie

Bardziej szczegółowo

Pytania z Chromatografii Cieczowej

Pytania z Chromatografii Cieczowej Pytania z Chromatografii Cieczowej 1. Podaj podstawowe różnice, z punktu widzenia użytkownika, między chromatografią gazową a cieczową (podpowiedź: (i) porównaj możliwości wpływu przez chromatografistę

Bardziej szczegółowo

Wysokosprawna chromatografia cieczowa dobór warunków separacji wybranych związków

Wysokosprawna chromatografia cieczowa dobór warunków separacji wybranych związków Wysokosprawna chromatografia cieczowa dobór warunków separacji wybranych związków Instrukcja do ćwiczeń opracowana w Katedrze Chemii Środowiska Uniwersytetu Łódzkiego Opis programu do ćwiczeń Po włączeniu

Bardziej szczegółowo

Instrukcja do ćwiczeń laboratoryjnych

Instrukcja do ćwiczeń laboratoryjnych UNIWERSYTET GDAŃSKI Pracownia studencka Katedry Analizy Środowiska Instrukcja do ćwiczeń laboratoryjnych Ćwiczenie nr 2 Oznaczanie benzoesanu denatonium w skażonym alkoholu etylowym metodą wysokosprawnej

Bardziej szczegółowo

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych

Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych Proteomika: umożliwia badanie zestawu wszystkich lub prawie wszystkich białek komórkowych Zalety w porównaniu z analizą trankryptomu: analiza transkryptomu komórki identyfikacja mrna nie musi jeszcze oznaczać

Bardziej szczegółowo

Ślesin, 29 maja 2019 XXV Sympozjum Analityka od podstaw

Ślesin, 29 maja 2019 XXV Sympozjum Analityka od podstaw 1 WYMAGANIA STAWIANE KOLUMNIE CHROMATOGRAFICZNEJ w chromatografii cieczowej Prof. dr hab. inż. Agata Kot-Wasik Katedra Chemii Analitycznej Wydział Chemiczny, Politechnika Gdańska agawasik@pg.edu.pl 2 CHROMATOGRAF

Bardziej szczegółowo

ANALITYKA W KONTROLI JAKOŚCI WYKŁAD 2 ANALIZA ŚLADÓW

ANALITYKA W KONTROLI JAKOŚCI WYKŁAD 2 ANALIZA ŚLADÓW ANALITYKA W KONTROLI JAKOŚCI WYKŁAD 2 ANALIZA ŚLADÓW 100% - 1% składnik główny 1% - 0.01% składnik uboczny poniżej 0.01% składnik śladowy Oznaczenie na poziomie 1 ppm (0.0001%) odpowiada w przybliżeniu

Bardziej szczegółowo

Spis treści Wstęp Spektrometria masowa (ang. Mass Spectrometry, MS)

Spis treści Wstęp Spektrometria masowa (ang. Mass Spectrometry, MS) Spis treści 1 Wstęp 2 Podstawy fizyczne MS 3 Podstawowe pojęcia spektrometrii mas 3.1 Rozdzielczość 3.2 Dokładność wyznaczenia masy cząsteczkowej 3.3 Masa monoizotopowa 3.4 Jonizacja cząsteczek 4 Układy

Bardziej szczegółowo

ĆWICZENIE 15 BADANIE WZMACNIACZY MOCY MAŁEJ CZĘSTOTLIWOŚCI

ĆWICZENIE 15 BADANIE WZMACNIACZY MOCY MAŁEJ CZĘSTOTLIWOŚCI 1 ĆWICZENIE 15 BADANIE WZMACNIACZY MOCY MAŁEJ CZĘSTOTLIWOŚCI 15.1. CEL ĆWICZENIA Celem ćwiczenia jest poznanie podstawowych właściwości wzmacniaczy mocy małej częstotliwości oraz przyswojenie umiejętności

Bardziej szczegółowo

Metody liniowe wielkiej częstotliwości

Metody liniowe wielkiej częstotliwości Metody liniowe wielkiej częstotliwości Streszczenie Artykuł ten przedstawia trzy najważniejsze metody liniowe wielkiej częstotliwości do przyśpieszania cząstek. Uwzględniono w nim budowę układów przyśpieszających,

Bardziej szczegółowo

Kolumnowa Chromatografia Cieczowa I. 1. Czym różni się (z punktu widzenia użytkownika) chromatografia gazowa od chromatografii cieczowej?

Kolumnowa Chromatografia Cieczowa I. 1. Czym różni się (z punktu widzenia użytkownika) chromatografia gazowa od chromatografii cieczowej? Kolumnowa Chromatografia Cieczowa I 1. Czym różni się (z punktu widzenia użytkownika) chromatografia gazowa od chromatografii cieczowej? 2. Co jest miarą polarności rozpuszczalników w chromatografii cieczowej?

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

dr Małgorzata Czerwicka Zakład Analizy Środowiska Instytut Ochrony Środowiska i Zdrowia Człowieka Wydział Chemii UG

dr Małgorzata Czerwicka Zakład Analizy Środowiska Instytut Ochrony Środowiska i Zdrowia Człowieka Wydział Chemii UG dr Małgorzata Czerwicka Zakład Analizy Środowiska Instytut Ochrony Środowiska i Zdrowia Człowieka Wydział Chemii UG Publikacja współfinansowana ze środków Unii Europejskiej w ramach Europejskiego Funduszu

Bardziej szczegółowo

CHROMATOGRAFIA CHROMATOGRAFIA GAZOWA

CHROMATOGRAFIA CHROMATOGRAFIA GAZOWA CHROMATOGRAFIA CHROMATOGRAFIA GAZOWA CHROMATOGRAFIA GAZOWA Chromatografia jest fizycznym sposobem rozdzielania gdzie rozdzielane składniki rozłożone są między dwiema fazami, Z których: jedna jest nieruchoma

Bardziej szczegółowo

Schemat ideowy spektrometru mas z podwójnym ogniskowaniem przedstawiono na rys. 1. Pierwsze ogniskowanie według energii jonów odbywa się w sektorze

Schemat ideowy spektrometru mas z podwójnym ogniskowaniem przedstawiono na rys. 1. Pierwsze ogniskowanie według energii jonów odbywa się w sektorze Spektrometria mas Spektrometria mas Początek spektrometrii mas wiązany jest z nazwiskiem Thomsona, który w roku 1911 za pomocą odchylania wiązki jonów w polu magnetycznym wykrył trwałe izotopy neonu, oraz

Bardziej szczegółowo

Analiza Organiczna. Jan Kowalski grupa B dwójka 7(A) Własności fizykochemiczne badanego związku. Zmierzona temperatura topnienia (1)

Analiza Organiczna. Jan Kowalski grupa B dwójka 7(A) Własności fizykochemiczne badanego związku. Zmierzona temperatura topnienia (1) Przykład sprawozdania z analizy w nawiasach (czerwonym kolorem) podano numery odnośników zawierających uwagi dotyczące kolejnych podpunktów sprawozdania Jan Kowalski grupa B dwójka 7(A) analiza Wynik przeprowadzonej

Bardziej szczegółowo

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Reprezentacja

Bardziej szczegółowo

Krzywe energii potencjalnej dla molekuły dwuatomowej ilustracja przejść dysocjacyjnych IDENTYFIKACJA ZWIĄZKÓW ORGANICZNYCH

Krzywe energii potencjalnej dla molekuły dwuatomowej ilustracja przejść dysocjacyjnych IDENTYFIKACJA ZWIĄZKÓW ORGANICZNYCH SPEKTRMETRIA MAS Krzywe energii potencjalnej dla molekuły dwuatomowej ilustracja przejść dysocjacyjnych Analiza ścieżek fragmentacji Metody termochemiczne Pomiar energii jonizacji, entalpii tworzenia jonów

Bardziej szczegółowo

Repetytorium z wybranych zagadnień z chemii

Repetytorium z wybranych zagadnień z chemii Repetytorium z wybranych zagadnień z chemii Mol jest to liczebność materii występująca, gdy liczba cząstek (elementów) układu jest równa liczbie atomów zawartych w masie 12 g węgla 12 C (równa liczbie

Bardziej szczegółowo

Laboratorium techniki laserowej Ćwiczenie 2. Badanie profilu wiązki laserowej

Laboratorium techniki laserowej Ćwiczenie 2. Badanie profilu wiązki laserowej Laboratorium techniki laserowej Ćwiczenie 2. Badanie profilu wiązki laserowej 1. Katedra Optoelektroniki i Systemów Elektronicznych, WETI, Politechnika Gdaoska Gdańsk 2006 1. Wstęp Pomiar profilu wiązki

Bardziej szczegółowo

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska Dane mikromacierzowe Mateusz Markowicz Marta Stańska Mikromacierz Mikromacierz DNA (ang. DNA microarray) to szklana lub plastikowa płytka (o maksymalnych wymiarach 2,5 cm x 7,5 cm) z naniesionymi w regularnych

Bardziej szczegółowo

Substancje o Znaczeniu Biologicznym

Substancje o Znaczeniu Biologicznym Substancje o Znaczeniu Biologicznym Tłuszcze Jadalne są to tłuszcze, które może spożywać człowiek. Stanowią ważny, wysokoenergetyczny składnik diety. Z chemicznego punktu widzenia głównym składnikiem tłuszczów

Bardziej szczegółowo

Detekcja spektrometrii mas

Detekcja spektrometrii mas Detekcja spektrometrii mas Schemat chromatografu gazowego MS Dozownik Detektor Kolumna kapilarna w metodach chromatografii System przetwarzania danych Butla z gazem nośnym Spektrometr mas Wlot próbki do

Bardziej szczegółowo

Atomy wieloelektronowe

Atomy wieloelektronowe Wiązania atomowe Atomy wieloelektronowe, obsadzanie stanów elektronowych, układ poziomów energii. Przykładowe konfiguracje elektronów, gazy szlachetne, litowce, chlorowce, układ okresowy pierwiastków,

Bardziej szczegółowo

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem. Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej

Bardziej szczegółowo

Oddziaływanie cząstek z materią

Oddziaływanie cząstek z materią Oddziaływanie cząstek z materią Trzy główne typy mechanizmów reprezentowane przez Ciężkie cząstki naładowane (cięższe od elektronów) Elektrony Kwanty gamma Ciężkie cząstki naładowane (miony, p, cząstki

Bardziej szczegółowo

Badanie widma fali akustycznej

Badanie widma fali akustycznej Politechnika Łódzka FTIMS Kierunek: Informatyka rok akademicki: 00/009 sem.. grupa II Termin: 10 III 009 Nr. ćwiczenia: 1 Temat ćwiczenia: Badanie widma fali akustycznej Nr. studenta: 6 Nr. albumu: 15101

Bardziej szczegółowo

3. Jak zmienią się właściwości żelu krzemionkowego jako fazy stacjonarnej, jeśli zwiążemy go chemicznie z grupą n-oktadecylodimetylosililową?

3. Jak zmienią się właściwości żelu krzemionkowego jako fazy stacjonarnej, jeśli zwiążemy go chemicznie z grupą n-oktadecylodimetylosililową? 1. Chromatogram gazowy, na którym widoczny był sygnał toluenu (t w =110 C), otrzymany został w następujących warunkach chromatograficznych: - kolumna pakowana o wymiarach 48x0,25 cala (podaj długość i

Bardziej szczegółowo

SPEKTROMETRIA CIEKŁOSCYNTYLACYJNA

SPEKTROMETRIA CIEKŁOSCYNTYLACYJNA SPEKTROMETRIA CIEKŁOSCYNTYLACYJNA Metoda detekcji promieniowania jądrowego (α, β, γ) Konwersja energii promieniowania jądrowego na promieniowanie w zakresie widzialnym. Zalety metody: Geometria 4π Duża

Bardziej szczegółowo

Laboratorium z Konwersji Energii. Ogniwo Paliwowe PEM

Laboratorium z Konwersji Energii. Ogniwo Paliwowe PEM Laboratorium z Konwersji Energii Ogniwo Paliwowe PEM 1.0 WSTĘP Ogniwo paliwowe typu PEM (ang. PEM FC) Ogniwa paliwowe są urządzeniami elektro chemicznymi, stanowiącymi przełom w dziedzinie źródeł energii,

Bardziej szczegółowo

Ćwiczenie ELE. Jacek Grela, Łukasz Marciniak 3 grudnia Rys.1 Schemat wzmacniacza ładunkowego.

Ćwiczenie ELE. Jacek Grela, Łukasz Marciniak 3 grudnia Rys.1 Schemat wzmacniacza ładunkowego. Ćwiczenie ELE Jacek Grela, Łukasz Marciniak 3 grudnia 2009 1 Wstęp teoretyczny 1.1 Wzmacniacz ładunkoczuły Rys.1 Schemat wzmacniacza ładunkowego. C T - adaptor ładunkowy, i - źródło prądu reprezentujące

Bardziej szczegółowo

Metody chromatograficzne w chemii i biotechnologii, wykład 6. Łukasz Berlicki

Metody chromatograficzne w chemii i biotechnologii, wykład 6. Łukasz Berlicki Metody chromatograficzne w chemii i biotechnologii, wykład 6 Łukasz Berlicki Techniki elektromigracyjne Elektroforeza technika analityczna polegająca na rozdzielaniu mieszanin związków przez wymuszenie

Bardziej szczegółowo

Scenariusz lekcji przyrody/biologii (2 jednostki lekcyjne)

Scenariusz lekcji przyrody/biologii (2 jednostki lekcyjne) Joanna Wieczorek Scenariusz lekcji przyrody/biologii (2 jednostki lekcyjne) Strona 1 Temat: Budowa i funkcje kwasów nukleinowych Cel ogólny lekcji: Poznanie budowy i funkcji: DNA i RNA Cele szczegółowe:

Bardziej szczegółowo

Wagosuszarka MOC-120H. CENA: zł netto

Wagosuszarka MOC-120H. CENA: zł netto Wagosuszarka MOC-120H CENA: 14200.00 zł netto OPIS Wagosuszarka MOC-120H służy do określania poziomu wilgotności różnego rodzaju produktów. Znajduje szerokie zastosowanie w przemyśle spożywczym, farmaceutycznym,

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Jakościowa i ilościowa analiza mieszaniny alkoholi techniką chromatografii gazowej

Jakościowa i ilościowa analiza mieszaniny alkoholi techniką chromatografii gazowej Jakościowa i ilościowa analiza mieszaniny alkoholi techniką chromatografii gazowej WPROWADZENIE Pojęcie chromatografii obejmuje grupę metod separacji substancji, w których występują diw siły: siła powodująca

Bardziej szczegółowo

PRODUKTY CHEMICZNE Ćwiczenie nr 3 Oznaczanie zawartości oksygenatów w paliwach metodą FTIR

PRODUKTY CHEMICZNE Ćwiczenie nr 3 Oznaczanie zawartości oksygenatów w paliwach metodą FTIR PRODUKTY CHEMICZNE Ćwiczenie nr 3 Oznaczanie zawartości oksygenatów w paliwach metodą FTIR WSTĘP Metody spektroskopowe Spektroskopia bada i teoretycznie wyjaśnia oddziaływania pomiędzy materią będącą zbiorowiskiem

Bardziej szczegółowo

Nowoczesne systemy ekspresji genów

Nowoczesne systemy ekspresji genów Nowoczesne systemy ekspresji genów Ekspresja genów w organizmach żywych GEN - pojęcia podstawowe promotor sekwencja kodująca RNA terminator gen Gen - odcinek DNA zawierający zakodowaną informację wystarczającą

Bardziej szczegółowo

Zastosowanie spektroskopii masowej w odlewnictwie

Zastosowanie spektroskopii masowej w odlewnictwie Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie Wydział Odlewnictwa AGH Pracownia Ochrony Środowiska Zastosowanie spektroskopii masowej w odlewnictwie (Instrukcja do ćwiczenia) Opracowanie: prof.

Bardziej szczegółowo

Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe

Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe Przetworniki cyfrowo / analogowe W cyfrowych systemach pomiarowych często zachodzi konieczność zmiany sygnału cyfrowego na analogowy, np. w celu

Bardziej szczegółowo

Sonochemia. Schemat 1. Strefy reakcji. Rodzaje efektów sonochemicznych. Oscylujący pęcherzyk gazu. Woda w stanie nadkrytycznym?

Sonochemia. Schemat 1. Strefy reakcji. Rodzaje efektów sonochemicznych. Oscylujący pęcherzyk gazu. Woda w stanie nadkrytycznym? Schemat 1 Strefy reakcji Rodzaje efektów sonochemicznych Oscylujący pęcherzyk gazu Woda w stanie nadkrytycznym? Roztwór Znaczne gradienty ciśnienia Duże siły hydrodynamiczne Efekty mechanochemiczne Reakcje

Bardziej szczegółowo

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego O O

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego O O Zastosowanie spektrometrii mas do określania struktury związków organicznych (opracowała Anna Kolasa) Uwaga: Informacje na temat nowych technik jonizacji, budowy analizatorów, nowych metod detekcji jonów

Bardziej szczegółowo

I ,11-1, 1, C, , 1, C

I ,11-1, 1, C, , 1, C Materiał powtórzeniowy - budowa atomu - cząstki elementarne, izotopy, promieniotwórczość naturalna, okres półtrwania, średnia masa atomowa z przykładowymi zadaniami I. Cząstki elementarne atomu 1. Elektrony

Bardziej szczegółowo

Metoda identyfikacji modyfikacji potranslacyjnych białek na podstawie danych ze spektrometrii mas

Metoda identyfikacji modyfikacji potranslacyjnych białek na podstawie danych ze spektrometrii mas Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Instytut Informatyki Rok akademicki 2013/2014 PRACA DYPLOMOWA MAGISTERSKA inż. Katarzyna Maria Paczkowska Metoda identyfikacji modyfikacji

Bardziej szczegółowo

Podczerwień bliska: cm -1 (0,7-2,5 µm) Podczerwień właściwa: cm -1 (2,5-14,3 µm) Podczerwień daleka: cm -1 (14,3-50 µm)

Podczerwień bliska: cm -1 (0,7-2,5 µm) Podczerwień właściwa: cm -1 (2,5-14,3 µm) Podczerwień daleka: cm -1 (14,3-50 µm) SPEKTROSKOPIA W PODCZERWIENI Podczerwień bliska: 14300-4000 cm -1 (0,7-2,5 µm) Podczerwień właściwa: 4000-700 cm -1 (2,5-14,3 µm) Podczerwień daleka: 700-200 cm -1 (14,3-50 µm) WIELKOŚCI CHARAKTERYZUJĄCE

Bardziej szczegółowo