Summary Protein protein interaction (PPI) is virtually involved in every process in a living system. The importance of understanding PPI has prompted the development of various experimental methods to detect them. High-throughput functional genomics is needed to be built which will connect the latest information in hand and utilizes it in a relevant way. But high throughput techniques are labor intensive, expensive and time-consuming, especially when PPI of complete species is in question. Therefore, to address this problem several computational methodologies have evolved in last decade which are contributing and getting better at protein interaction prediction which escaped detection from high-throughput laboratory techniques. Computational methods have been proposed to first analyze and then automatically predict protein-protein interaction, by exploiting biophysical and biochemical information. In this project a developed methodology has been created which is improvement over the existing methods mainly by two reasons. Firstly, integrated use of most significant protein feature attributes from the variety of protein properties into Machine Learning classifier. Secondly, creation of enriched Negative protein interaction set. This will enhance the performance of protein interaction prediction method. There are three main objectives of this project; 1) To develop a prediction algorithm protein-protein interactions in human using various computational approaches. 2) Finding most significant properties of protein or protein pair contributing to computational prediction of Protein interaction. 3) Create vast set of negative protein interactions using biological enrichment method and compile them in a database. Existing dataset was acquired by parsing Human protein-protein Interactions (PPI) from meta-databases named MiMI (Michigan Molecular Interaction), whereas negative dataset was created by adapting three step filtration and enrichment of random non-interacting protein (NIP) pairs. The filtration process was based on exclusive cellular location and Biological process as well as difference of co-expression correlation among their respective gene. The positive and negative sets were taken for feature annotation. For this purpose various protein properties were used. Protein Domains were annotated using HMM Pfam, from which a probabilistic frame work of domain-domain interaction (DDI) was developed. Standard Probability scores and similar 5
scores were calculated using DDI frequencies in PPIs and NIPs. Many network connectedness features were calculated by performing Network analysis. Gene Co-expression correlation values were mapped from COXPRESdb. Lastly Protein random repeats were calculated using tool Espritz. All 43 features values calculated above were saved in 14 tables in a database using sqlite3. Feature selection was performed using two R package MCFS and Boruta, based on Monte Carlo and Random Forest respectively. Top 17 features were selected, which were used for testing and prediction using Machine Learning methods. Among nine machine learning methods Decision Tree and Random Forest performed best. Above analysis conclude that gene co-expression data, predicted domain interaction information and network maps have improved the confidence of protein-protein interactions when used collectively. We propose a new and advance protocol for predicting protein interactions. Utilizing the above mentioned biologically significant features for Machine learning, we achieved imperative success and progress over the previously established methods. For a modest sample size, without using any gold standard positive we accomplished as high as 96% of Specificity and more than 97% of Sensitivity when Random Forest and Decision tree algorithm were applied. One of the basic objectives of our methodology was to minimize the bias in the dataset. Performance of our method was better than the best methods found in literature to the best of our knowledge. Large enriched negative interaction data developed, not only provided a big set of negative training data but also represents a potential resource for future investigations. The study paved the way for new insights for better performance, with improved biological features. Our investigation revealed that probability score of a potentially interacting domain pair has a lesser score in Negative set and vice versa, an optimum threshold can be defined to purify the domain pair data which will enhance the negative data more. Domain interaction network generation gave us new insights, and the features generated from this network helped the classifier to work on more exact details of protein interactions. Additionally, gene expression data provided better distinction between positive and negative interactions. For future development of our method cluster information based on signal pathways can be included. Moreover, adding physiochemical properties like solvent accessibility and hydrophobicity can also improve the performance. The data we have presented has a wide range of coverage for Humans and it could be reproduced for other organisms. 6
Streszczenie Oddziaływania międzybiałkowe (PPI ang. protein-protein interaction) uczestniczą w praktycznie wszystkich procesach zachodzących w organizmach żywych. Ze względu na dużą wagę tychże oddziaływań próba ich zrozumienia pociągnęła za sobą rozwój wielu eksperymentalnych metod ich wykrywania. Zaistniała również potrzeba stworzenia wielkoskalowych metody genomiki funkcjonalnej, które powiązałyby ze sobą najnowsze informacje i umożliwiłyby ich użycie we właściwy sposób. Niemniej jednak techniki wysokoprzepustowe są kosztowne, praco- i czasochłonne, zwłaszcza gdy brane są pod uwagę wszystkie oddziaływania białko-białko w danym organizmie. Celem rozwiązania tego problemu, na przestrzeni dekady stworzono różnorakie metodologie obliczeniowe, które w coraz to lepszy i dokładniejszy sposób przewidują oddziaływania białkowe, będące dotąd poza zasięgiem detekcji wysokoprzepustowych technik laboratoryjnych. Dostępne metody komputerowe zakładają analizę a następnie automatyczne przewidywanie interakcji przy wykorzystaniu danych biofizycznych i biochemicznych. W ramach tego projektu stworzono metodologię, która stanowi ulepszenie aktualnych metod ze względu na zintegrowane użycie najbardziej istotnych spośród szeregu właściwości białek w klasyfikatorach Uczenia Maszynowego oraz wykorzystanie zbioru oddziaływań negatywnych (NIP ang. Non Interacting Protein), co poprawiło skuteczność przewidywań. Do założeń tego projektu należą: 1) Stworzenie algorytmu do przewidywania oddziaływań białko-białko w organizmie ludzkim wykorzystującego różnorodne podejścia obliczeniowe. 2) Określenie najbardziej istotnych właściwości białek lub ich par, które w największym stopniu wpływają na zdolność metody do przewidywania oddziaływań międzybiałkowych. 3) Opracowanie szerokiego zbioru oddziaływań negatywnych przy wykorzystaniu metod wzbogacenia biologicznego oraz przekształcenia ich w bazę danych. Zbiór danych został stworzony przy użyciu danych pochodzących z metabazy danych MiMI (Michigan Molecular Interaction), podczas gdy zbiór negatywnych oddziaływań powstał poprzez zastosowanie trójstopniowego filtrowania i wzbogacania losowych, nieoddziaływujących ze sobą par białek (NIP ang. non-interacting protein). 7
Proces filtracji został oparty dane obejmujące lokalizację komórkową, uczestnictwo w danym procesie biologicznym, jak również zależność koekspresji poszczególnych genów. Następnie elementom obu zbiorów zostały przypisane atrybuty. W tym celu użyto różnorodne cechy białek. Domeny białkowe, dla których stworzono model probabilistyczny oddziaływań międzydomenowych, zostały określone przy użyciu HMM pfam. Ustandaryzowane wartości prawdopodobieństwa i podobieństwa zostały obliczone w oparciu o częstotliwości oddziaływań między domenami oraz w zbiorach pozytywnych (PPI) i negatywnych (NIP). Wiele połączeń pomiędzy atrybutami sieci określono wykonując analizę sieciową. Wartości współczynnika korelacji koekspresji genów zostały zaczerpnięte z bazy COXPRESdb. Narzędzie Espritz posłużyło natomiast do określenia losowych powtórzeń białkowych. Wszystkie 43 atrybuty otrzymane powyższymi metodami zostały zapisane w bazie danych sqlite3 w postaci 14 tabel. Selekcja atrybutów została wykonana przy użyciu dwóch pakietów R MCFS i Boruta, bazujących odpowiedni na metodzie Monte Carlo oraz lasów losowych (ang. Random forest). Wybrano 17 najlepszych cech, które następnie zostały użyte w algorytmach Uczenia Maszynowego. Z pośród 9 metod najlepsze rezultaty dały drzewo decyzyjne oraz lasy losowe. W wyniku powyższych analiz ustalono iż dane dotyczące koekspresji genów, przewidywanych oddziaływań międzydomenowych oraz mapy sieci użyte łącznie poprawiły wartość predykcyjną oddziaływań białko-białko. W pracy przedstawiono nowy i rozwinięty protokół przewidywania oddziaływań międzybiałkowych. Wykorzystując powyższe biologicznie znaczące atrybuty w uczeniu maszynowym, osiągnięto z sukcesem zamierzony cel, osiągając przy tym lepsze rezultaty niż używając poprzednio opracowanych metod. Dla próby o umiarkowanym rozmiarze, bez zastosowania pozytywnego złotego standardu używając algorytmów losowych lasów oraz drzew decyzyjnych udało się uzyskać 96% specyficzność i ponad 97% czułość. Istniejące metody, ze względu na dużą liczbę wartości fałszywie pozytywnych i fałszywie negatywnych, nie wykazują takiej równowagi. Opracowana metoda okazała się lepsza niż jakakolwiek metoda opisana dotychczas w literaturze. Duże wzbogacenie danych dotyczących negatywnych oddziaływań nie tylko powiększyło kilkukrotnie zbiór testowy, ale również może znaleźć dalsze zastosowanie. Prezentowana praca za pomocą lepiej dobranych atrybutów biologicznych umożliwiła nowe spojrzenie na wydajność 8
algorytmów przewidywań oddziaływań. Wykonane analizy ujawniły, iż wartość prawdopodobieństwa dla potencjalnie oddziałujący pary domen jest niższa dla zbioru negatywnego i odwrotnie. Istnieje możliwość wyznaczenia optymalnego progu do oczyszczania danych dla par domen, co jeszcze bardziej wzbogaca negatywny zbiór danych. Utworzenie sieci oddziaływań międzydomenowych oraz określone w pracy atrybuty pozwala natomiast na dokładniejszą klasyfikację interakcji międzybiałkowych. Również dane dotyczące ekspresji genów mogą zostać poszerzone Kolejnym ulepszeniem, które można zastosować jest wykonane w protokole włączenie do danych klastra utworzonego w oparciu o szlaki sygnałowe. Dodawanie właściwości fizykochemiczne, takie jak dostępność rozpuszczalnika i hydrofobowości także poprawia wydajność opracowanej metody. Ostatecznie, zaprezentowane dane, dotyczą jedynie człowieka, ale posiadając odpowiednią ilość dotyczących NIP opracowany algorytm może zostać zastosowany w analizie innych organizmów. 9