Przegląd algorytmów służących do analizy miejsc fosforylacji białek Rafał Szkotak
Proteom i proteomika PROTEin component of a genome http://www.molgen.mpg.de/102201/proteomics_workflow.jpg http://1t2src2grpd01c037d42usfb.wpengine.netdna-cdn.com/wp-content/uploads/sites/2/2011/04/petzold-targeted-proteomics.jpg
Fosforylacja Nietrwała w ciągu cyklu komórkowego Wiele kombinacji Wiele ufosforylowanych białek Często pojedyncze cząsteczki Odwracalna Kinazy vs. fosfatazy Kaskada przekazu sygnału
Tak zróżnicowane sekwencje, że tradycyjne metody, takie jak uliniowienia BLAST, czy rozpoznawanie sekwencji konsensusowej nie mogą zostać zastosowane do analizy miejsc fosforylacji
Spektrometria mas Podstawowa technika analitczna Czulsza, prostsza i dokładniejsza każdego dnia :) Podstawa : m/z Jony prekursorowe http://e-biotechnologia.pl/obrazki/spektroskopia_masowa_1.jpg
Tandemowa spektrometria mas tryb MS/MS Analiza jonów potomnych http://ntp.ch.uj.edu.pl/slafibs/grafika/tandem.jpg
Widmo MS/MS http://www.epigeneticsandchromatin.com/content/figures/1756-8935-3-22-2-l.jpg
Chromatografia cieczowa - HPLC http://www.sec.psu.ac.th/web-board/content/view_img.php?id=2783
Spektrometr masowy (microtof-q) http://www.yenra.com/spectrometer/spectrometer.jpg
Schemat eksperymentu
Sekwencjonowanie peptydów algorytmy przeszukujące Mascot Sequest Andromeda Baza danych Widma teoretyczne vs. eksperyment Punktacja Przypadkowe dopasowanie, decoy FDR PEP Summer School http://image.slidesharecdn.com/ms-100204133503phpapp02/95/mass-spectrometry-protein-identification-strategies38-728.jpg?cb=1265290569
Sekwencjonowanie peptydów algorytmy przeszukujące http://3.bp.blogspot.com/-qjjt1hfr71s/uwgdxoxsci/aaaaaaaabmg/a5_owlf8vug/s1600/venn_mascot_vs_msamanda_se questht.png
Dane spektrometryczne + prawdopodobieństwo PhosphoRS (2011) P prawdopodobieństwa, że dopasowania przypadkowe Rozkład dwumianowy Podział na okna 100 m/z głębokość 75 %
Dane spektrometryczne + prawdopodobieństwo Protein Modification Toolkit
Dane spektrometryczne + prawdopodobieństwo PMT + PhosphoRS
Dane spektrometryczne + prawdopodobieństwo PMT + PhosphoRS
Dane spektrometryczne + prawdopodobieństwo MaxQuant + Andromeda + Perseus Pierwsza punktacja, obejmująca porównanie jonów teoretycznych z rzeczywistymi widmami i obliczenie parametru k (ile jonów spośród n jonów teoretycznych Andromedy, zostało dopasowanych do widma z MaxQuant) k rośnie - > przypadkowość maleje Q liczba zaakceptowanych pików (MQ) głębokość Zliczenie dopasowania następuje, gdy różnica pomiędzy obliczoną i zmierzoną masą jest niższa niż założony limit. http://141.61.102.17/maxquant_doku/#downloads http://www.perseus-framework.org
Dane spektrometryczne + prawdopodobieństwo ProteinScape
Dane spektrometryczne + eksploracja danych ArMone 1. Wczytanie widm MS 2. Preprocesowanie widm algorytmami ekstrakcji list pików. 3. Parsowanie bazy danych 4. Identyfikacja fosfopeptydów po FDR 5. Lokalizacja 6. Walidacja 7. Ekstrakcja informacji
Dane spektrometryczne + eksploracja danych ArMone
Dane spektrometryczne + drzewa PhosphoScore Kompatybilny z Sequest (komercyjny), ale sam jest darmowy https://github.com/evansenter/ucsb/tree/master/school/c S167/main_project/code/PhosphoScore Ser, Thr - 3 gałęzie Tyr 2 gałęzie (nie traci wody) 1. Rozkład tolerancji wartości m/z pików zmierzonych do teoretycznych jest w przybliżeniu rozkładem normalnym. 2. Rozkład intensywności pików dla dopasowań jest wykładniczy. Próbkowanie Gibbsa
Sieci neuronowe, bez danych spektrometrycznych NetPhos
Sieci neuronowe, bez danych spektrometrycznych NetPhos Dane: 584 miejsca serynowe (251 białek) 108 miejsc w treoninach (85 białek) 210 miejsc tyrozynowych (98 białek) Dane negatywne: Wszystkie nieufosforylowane prawidłowe aminokwasy Jak wyżej, ale odrzucono pozytywne miejsca po pierwszej sesji treningowej
Sieci neuronowe, bez danych spektrometrycznych NetPhos Uczenie sieci Uczenie przy pomocy okien o różnej szerokości 5 podzbiorów treningowych Walidacja krzyżowa Liniowe i nieliniowe sieci Porównanie z Prosite Najlepsze przewidywania: Nieliniowe sieci neuronowe Okna dla treoniny i tyrozyny 9 Okno da seryny 11
Sieci neuronowe, bez danych spektrometrycznych NetPhosYeast
Postwalidacja w bazach danych PhosphoSitePlus Gromadzi dane z eksperymentów Weryfikacja przez ekspertów Od 2001 roku http://www.phosphosite.org
Postwalidacja w bazach danych Phospho.ELM phospho.elm.eu.org
Postwalidacja w bazach danych + SVM PHOSIDA
Postwalidacja w bazach danych PhosphoGRID https://microbewiki.kenyon.edu/images/9/9a/saccromyces.jpg http://www.lesaffre.pl/pub/image/produkty/drozdze/drozdze_babuni/drozdze_babuni_100g/ http://bi.gazeta.pl/im/4/10170/z10170174q,wina.jpg https://upload.wikimedia.org/wikipedia/commons/e/e3/nci_visuals_food_beer.jpg
Stosunkowo nowy algorytm: PhosSA Wybór metody fragmentacji (HCD i CID) Threshold dla DeltaCn (Sequest) Różnica pomiędzy najwyższym i drugim co do punktacji miejscem znormalizowanym do peptydu o najwyższej punktacji Gdy zbliżone trudności. <0, 0.99> Redundancja klasyfikacja, prog. Dyn; passed lub ambiguous
Stosunkowo nowy algorytm: PhosSA
WYNIKI
Ścieżka numer 1 Q-Exactive MAxQuant Andromeda Perseus REDUNDANCJA WYNIKÓW!! http://orig08.deviantart.net/738d/f/2008/296/4/1/rodentia_requests_round_1_by_lobaferoz.png
Ścieżka numer 2 Q-Exactive Proteome Disc. PhosphoRS PMT
Ścieżka numer 3 Q-Exactive Proteome Discoverer NetPhos
Ścieżka numer 5 MicroTofQ Proteome Scape Mascot
WNIOSKI
Spektrometr vs Spektrometr Prawdopodobne błędy grube MicroTOF-Q zazwyczaj generuje mniej peptydów (ale nie aż tak mało...)
ŚCIEŻKI PRAWDOPODOBIEŃSTWA + RAW DATA http://www.bioinformatics.lu/venn.php
Prawdopodobieństwo
PODSUMOWANIE
Bibliografia Computational phosphoproteomics: From identification to localization (Dave C. H. Lee1, Andrew R. Jones2 and Simon J. Hubbard)
Bibliografia Ambroch K; Sztuczne sieci neuronowe; http://www.msn.ap.siedlce.pl/smp/msn/32/ambroch.pdf, dostęp 10.03.2015 Cox, J. and Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. 2008; Nat Biotechnol 26, 1367-72. Cox J, Neuhauser N, Michalski A, Scheltema RA, Olsen JV, Mann M.; Andromeda: a peptide search engine integrated into the MaxQuant environment. J Proteome Res. 2011 Apr 1;10(4):1794-805 Dinkel H, Chica C, Via A, Gould CM, Jensen LJ, Gibson TJ, Diella F. "Phospho.ELM: a database of phosphorylation sites - update 2011 Nucleic Acids Res. 2010 Nov 9 Eng JK, McCormack AL, Yates JR, III. An Approach to Correlate Tandem Mass Spectral Data of Peptides with Amino Acid Sequences in a Protein Database. 1994 J Am Soc Mass Spectrom 5 (11): 976 989 Gnad F, Gunawardena J, Mann M ; An update of the database is described in 'PHOSIDA 2011: the posttranslational modification database'; (2011); Nucleic Acids Research. Gnad F, Ren S, Cox J, Olsen J, Macek B, Oroshi M, Mann M; PHOSIDA (phosphorylation site database): management, structural and evolutionary investigation, and prediction of phosphosites'; (2007); Genome Biology. Holcapek M, Jirasko R, Lisa M.; Recent developments in liquid chromatography-mass spectrometry and related techniques; J CHROMATOGR A 1259 (2012) 3-15 Hornbeck P, Kornhauser J, Tkachev S, Zhang B, Skrzypek E, Murray B, Latham V, Sullivan M; PhosphoSitePlus: a comprehensive resource for investigating the structure and function of experimentally determined post-translational modifications in man and mouse; Nucleic Acid Research 40 (2012), D261-D270 Jiang X, Ye M, Cheng K, Zou H.; ArMone: a software suite specially designed for processing and analysis of phosphoproteome data. 2010 J Proteome Res. May 7;9(5):2743-51 Käll L, Canterbury JD, Weston J, Noble WS, MacCoss MJ; Semi-supervised learning for peptide identification from shotgun proteomics datasets. 2007 Nat Methods;Nov;4(11):923-5 Käll L, Storey JD, MacCoss MJ, Noble WS; Posterior Error Probabilities and False Discovery Rates: Two Sides of the Same Coin; Journal of Proteome Research 2008, 7, 40 44 30:3332503128 31 Kozik A, Rąpała-Kozik M, Guevara-Lora I; 2001; Analiza instrumentalna w biochemii. Wybrane problemy instrumentalnej biochemii analitycznej. Wydawnictwo Instytut Biologii Molekularnej Lin J, Zhu H, Quian J; Understanding protein phosphorylation on a systems level; Briefing in Functional Genomics and Proteomics; January 7,2010 Martins-De-Souza D; Shotgun proteomics: Methods and Protocols, Wydawnictwo Human Press 2014, rozdział 28. Paulo JA; Practical and Efficient Searching in Proteomics: A Cross Engine Comparison; Webmedcentral. 2013 Oct 1; 4(10) Perkins DN, Pappin DJ, Creasy DM, Cottrell JS. Probability-based protein identification by searching sequence databases using mass spectrometry data.1999, grudzień Electrophoresis 20 (18): 3551 67 Ruttenberg BE, Pisitkun T, Knepper MA, Hoffert JD. PhosphoScore: an open-source phosphorylation site assignment tool for MSn data. 2008 ; J Proteome Res. Jul;7(7):3054-9 Schneider T, Stephens M;Sequence Logos: A New Way to Display Consensus Sequences; Nucleic Acid Research, 18 (1990) : 6097 6100 Silberring J; Problemy proteomiki klinicznej trendy, niebezpieczeństwa i problemy;; Postępy biologii komórki 1999; 36(25) 111-115 Silberring J, Suder P; (2006) Spektrometria mas, rozdziały IV, V, Wydawnictwo Uniwersytetu Jagiellońskiego Stark C, Su T-C, Breitkreutz A, Lourenco P, Dahabieh M, Breitkreutz B-J, Tyers M, Sadowski I; PhosphoGRID: a database of experimentally verified in vivo protein phosphorylation sites from the budding yeast Saccharomyces Cerevisiae; 2010; Database Taus T., Kocher T., Pichler P., Paschke C., Schmidt A., Henrich C., Mechtler K.; Universal and Confident Phosphorylation Site Localization Using phosphors J PROTEOME RES; 2011(10) [A] omicron.cm.uj.edu.pl/pl/page/proteomika.html [B] http://sjp.pwn.pl/szukaj/proteomika.html