scores were calculated using DDI frequencies in PPIs and NIPs. Many network connectedness features were calculated by performing Network analysis.



Podobne dokumenty
Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Hard-Margin Support Vector Machines

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Previously on CSCI 4622

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Tychy, plan miasta: Skala 1: (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

Zarządzanie sieciami telekomunikacyjnymi

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

SNP SNP Business Partner Data Checker. Prezentacja produktu

No matter how much you have, it matters how much you need

Public gene expression data repositoris

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

INSTYTUT GENETYKI I HODOWLI ZWIERZĄT POLSKIEJ AKADEMII NAUK W JASTRZĘBCU. mgr inż. Ewa Metera-Zarzycka

GRY EDUKACYJNE I ICH MOŻLIWOŚCI DZIĘKI INTERNETOWI DZIŚ I JUTRO. Internet Rzeczy w wyobraźni gracza komputerowego


European Crime Prevention Award (ECPA) Annex I - new version 2014

Camspot 4.4 Camspot 4.5

P R A C A D Y P L O M O W A

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

Few-fermion thermometry

OPTYMALIZACJA PUBLICZNEGO TRANSPORTU ZBIOROWEGO W GMINIE ŚRODA WIELKOPOLSKA

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Financial support for start-uppres. Where to get money? - Equity. - Credit. - Local Labor Office - Six times the national average wage (22000 zł)

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Revenue Maximization. Sept. 25, 2018

Warsztaty Ocena wiarygodności badania z randomizacją

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Dominika Janik-Hornik (Uniwersytet Ekonomiczny w Katowicach) Kornelia Kamińska (ESN Akademia Górniczo-Hutnicza) Dorota Rytwińska (FRSE)

ABOUT NEW EASTERN EUROPE BESTmQUARTERLYmJOURNAL

OSI Data Link Layer. Network Fundamentals Chapter 7. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

SNP Business Partner Data Checker. Prezentacja produktu

OSI Network Layer. Network Fundamentals Chapter 5. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Akademia Morska w Szczecinie. Wydział Mechaniczny

Please fill in the questionnaire below. Each person who was involved in (parts of) the project can respond.

Projekty Marie Curie Actions w praktyce: EGALITE (IAPP) i ArSInformatiCa (IOF)

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

deep learning for NLP (5 lectures)

Extraclass. Football Men. Season 2009/10 - Autumn round

Instrukcja obsługi User s manual

OSI Physical Layer. Network Fundamentals Chapter 8. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Planning and Cabling Networks

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Sargent Opens Sonairte Farmers' Market


MS Visual Studio 2005 Team Suite - Performance Tool

Stargard Szczecinski i okolice (Polish Edition)

SWPS Uniwersytet Humanistycznospołeczny. Wydział Zamiejscowy we Wrocławiu. Karolina Horodyska

ITIL 4 Certification

Presented by. Dr. Morten Middelfart, CTO

Bioinformatyka wykład I.2009

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

Ethernet. Ethernet. Network Fundamentals Chapter 9. Podstawy sieci Rozdział 9

Forested areas in Cracow ( ) evaluation of changes based on satellite images 1 / 31 O

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

STEROWANIA RUCHEM KOLEJOWYM Z WYKORZYSTANIEM METOD SYMULACYJNYCH

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

SPIS TREŚCI / INDEX OGRÓD GARDEN WYPOSAŻENIE DOMU HOUSEHOLD PRZECHOWYWANIE WINA WINE STORAGE SKRZYNKI BOXES

Wydział Fizyki, Astronomii i Informatyki Stosowanej Uniwersytet Mikołaja Kopernika w Toruniu

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

Kształtując przyszłość, jakiej chcemy. refleksje z raportu podsumowującego Dekadę Edukacji dla Zrównoważonego Rozwoju ( ).

1945 (96,1%) backlinks currently link back (74,4%) links bear full SEO value. 0 links are set up using embedded object


Patients price acceptance SELECTED FINDINGS

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

photo graphic Jan Witkowski Project for exhibition compositions typography colors : : janwi@janwi.com

Krytyczne czynniki sukcesu w zarządzaniu projektami

What our clients think about us? A summary od survey results

Zestawienie czasów angielskich

Tłumaczenie oryginalnej deklaracji ( z języka angielskiego)

Towards Stability Analysis of Data Transport Mechanisms: a Fluid Model and an Application

ANKIETA ŚWIAT BAJEK MOJEGO DZIECKA

OpenPoland.net API Documentation

& portable system. Keep the frame, change the graphics, change position. Create a new stand!

DETECTION OF MATERIAL INTEGRATED CONDUCTORS FOR CONNECTIVE RIVETING OF FUNCTION-INTEGRATIVE TEXTILE-REINFORCED THERMOPLASTIC COMPOSITES

DOI: / /32/37

Lubomierz, Polska

5.3. Analiza maskowania przez kompaktory IED-MISR oraz IET-MISR wybranych uszkodzeń sieci połączeń Podsumowanie rozdziału

CEE 111/211 Agenda Feb 17

F-16 VIRTUAL COCKPIT PROJECT OF COMPUTER-AIDED LEARNING APPLICATION WEAPON SYSTEM POWER ON PROCEDURE

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

Wyk lad 8: Leniwe metody klasyfikacji

Narzędzia programistyczne - GIT

MoA-Net: Self-supervised Motion Segmentation. Pia Bideau, Rakesh R Menon, Erik Learned-Miller

Transkrypt:

Summary Protein protein interaction (PPI) is virtually involved in every process in a living system. The importance of understanding PPI has prompted the development of various experimental methods to detect them. High-throughput functional genomics is needed to be built which will connect the latest information in hand and utilizes it in a relevant way. But high throughput techniques are labor intensive, expensive and time-consuming, especially when PPI of complete species is in question. Therefore, to address this problem several computational methodologies have evolved in last decade which are contributing and getting better at protein interaction prediction which escaped detection from high-throughput laboratory techniques. Computational methods have been proposed to first analyze and then automatically predict protein-protein interaction, by exploiting biophysical and biochemical information. In this project a developed methodology has been created which is improvement over the existing methods mainly by two reasons. Firstly, integrated use of most significant protein feature attributes from the variety of protein properties into Machine Learning classifier. Secondly, creation of enriched Negative protein interaction set. This will enhance the performance of protein interaction prediction method. There are three main objectives of this project; 1) To develop a prediction algorithm protein-protein interactions in human using various computational approaches. 2) Finding most significant properties of protein or protein pair contributing to computational prediction of Protein interaction. 3) Create vast set of negative protein interactions using biological enrichment method and compile them in a database. Existing dataset was acquired by parsing Human protein-protein Interactions (PPI) from meta-databases named MiMI (Michigan Molecular Interaction), whereas negative dataset was created by adapting three step filtration and enrichment of random non-interacting protein (NIP) pairs. The filtration process was based on exclusive cellular location and Biological process as well as difference of co-expression correlation among their respective gene. The positive and negative sets were taken for feature annotation. For this purpose various protein properties were used. Protein Domains were annotated using HMM Pfam, from which a probabilistic frame work of domain-domain interaction (DDI) was developed. Standard Probability scores and similar 5

scores were calculated using DDI frequencies in PPIs and NIPs. Many network connectedness features were calculated by performing Network analysis. Gene Co-expression correlation values were mapped from COXPRESdb. Lastly Protein random repeats were calculated using tool Espritz. All 43 features values calculated above were saved in 14 tables in a database using sqlite3. Feature selection was performed using two R package MCFS and Boruta, based on Monte Carlo and Random Forest respectively. Top 17 features were selected, which were used for testing and prediction using Machine Learning methods. Among nine machine learning methods Decision Tree and Random Forest performed best. Above analysis conclude that gene co-expression data, predicted domain interaction information and network maps have improved the confidence of protein-protein interactions when used collectively. We propose a new and advance protocol for predicting protein interactions. Utilizing the above mentioned biologically significant features for Machine learning, we achieved imperative success and progress over the previously established methods. For a modest sample size, without using any gold standard positive we accomplished as high as 96% of Specificity and more than 97% of Sensitivity when Random Forest and Decision tree algorithm were applied. One of the basic objectives of our methodology was to minimize the bias in the dataset. Performance of our method was better than the best methods found in literature to the best of our knowledge. Large enriched negative interaction data developed, not only provided a big set of negative training data but also represents a potential resource for future investigations. The study paved the way for new insights for better performance, with improved biological features. Our investigation revealed that probability score of a potentially interacting domain pair has a lesser score in Negative set and vice versa, an optimum threshold can be defined to purify the domain pair data which will enhance the negative data more. Domain interaction network generation gave us new insights, and the features generated from this network helped the classifier to work on more exact details of protein interactions. Additionally, gene expression data provided better distinction between positive and negative interactions. For future development of our method cluster information based on signal pathways can be included. Moreover, adding physiochemical properties like solvent accessibility and hydrophobicity can also improve the performance. The data we have presented has a wide range of coverage for Humans and it could be reproduced for other organisms. 6

Streszczenie Oddziaływania międzybiałkowe (PPI ang. protein-protein interaction) uczestniczą w praktycznie wszystkich procesach zachodzących w organizmach żywych. Ze względu na dużą wagę tychże oddziaływań próba ich zrozumienia pociągnęła za sobą rozwój wielu eksperymentalnych metod ich wykrywania. Zaistniała również potrzeba stworzenia wielkoskalowych metody genomiki funkcjonalnej, które powiązałyby ze sobą najnowsze informacje i umożliwiłyby ich użycie we właściwy sposób. Niemniej jednak techniki wysokoprzepustowe są kosztowne, praco- i czasochłonne, zwłaszcza gdy brane są pod uwagę wszystkie oddziaływania białko-białko w danym organizmie. Celem rozwiązania tego problemu, na przestrzeni dekady stworzono różnorakie metodologie obliczeniowe, które w coraz to lepszy i dokładniejszy sposób przewidują oddziaływania białkowe, będące dotąd poza zasięgiem detekcji wysokoprzepustowych technik laboratoryjnych. Dostępne metody komputerowe zakładają analizę a następnie automatyczne przewidywanie interakcji przy wykorzystaniu danych biofizycznych i biochemicznych. W ramach tego projektu stworzono metodologię, która stanowi ulepszenie aktualnych metod ze względu na zintegrowane użycie najbardziej istotnych spośród szeregu właściwości białek w klasyfikatorach Uczenia Maszynowego oraz wykorzystanie zbioru oddziaływań negatywnych (NIP ang. Non Interacting Protein), co poprawiło skuteczność przewidywań. Do założeń tego projektu należą: 1) Stworzenie algorytmu do przewidywania oddziaływań białko-białko w organizmie ludzkim wykorzystującego różnorodne podejścia obliczeniowe. 2) Określenie najbardziej istotnych właściwości białek lub ich par, które w największym stopniu wpływają na zdolność metody do przewidywania oddziaływań międzybiałkowych. 3) Opracowanie szerokiego zbioru oddziaływań negatywnych przy wykorzystaniu metod wzbogacenia biologicznego oraz przekształcenia ich w bazę danych. Zbiór danych został stworzony przy użyciu danych pochodzących z metabazy danych MiMI (Michigan Molecular Interaction), podczas gdy zbiór negatywnych oddziaływań powstał poprzez zastosowanie trójstopniowego filtrowania i wzbogacania losowych, nieoddziaływujących ze sobą par białek (NIP ang. non-interacting protein). 7

Proces filtracji został oparty dane obejmujące lokalizację komórkową, uczestnictwo w danym procesie biologicznym, jak również zależność koekspresji poszczególnych genów. Następnie elementom obu zbiorów zostały przypisane atrybuty. W tym celu użyto różnorodne cechy białek. Domeny białkowe, dla których stworzono model probabilistyczny oddziaływań międzydomenowych, zostały określone przy użyciu HMM pfam. Ustandaryzowane wartości prawdopodobieństwa i podobieństwa zostały obliczone w oparciu o częstotliwości oddziaływań między domenami oraz w zbiorach pozytywnych (PPI) i negatywnych (NIP). Wiele połączeń pomiędzy atrybutami sieci określono wykonując analizę sieciową. Wartości współczynnika korelacji koekspresji genów zostały zaczerpnięte z bazy COXPRESdb. Narzędzie Espritz posłużyło natomiast do określenia losowych powtórzeń białkowych. Wszystkie 43 atrybuty otrzymane powyższymi metodami zostały zapisane w bazie danych sqlite3 w postaci 14 tabel. Selekcja atrybutów została wykonana przy użyciu dwóch pakietów R MCFS i Boruta, bazujących odpowiedni na metodzie Monte Carlo oraz lasów losowych (ang. Random forest). Wybrano 17 najlepszych cech, które następnie zostały użyte w algorytmach Uczenia Maszynowego. Z pośród 9 metod najlepsze rezultaty dały drzewo decyzyjne oraz lasy losowe. W wyniku powyższych analiz ustalono iż dane dotyczące koekspresji genów, przewidywanych oddziaływań międzydomenowych oraz mapy sieci użyte łącznie poprawiły wartość predykcyjną oddziaływań białko-białko. W pracy przedstawiono nowy i rozwinięty protokół przewidywania oddziaływań międzybiałkowych. Wykorzystując powyższe biologicznie znaczące atrybuty w uczeniu maszynowym, osiągnięto z sukcesem zamierzony cel, osiągając przy tym lepsze rezultaty niż używając poprzednio opracowanych metod. Dla próby o umiarkowanym rozmiarze, bez zastosowania pozytywnego złotego standardu używając algorytmów losowych lasów oraz drzew decyzyjnych udało się uzyskać 96% specyficzność i ponad 97% czułość. Istniejące metody, ze względu na dużą liczbę wartości fałszywie pozytywnych i fałszywie negatywnych, nie wykazują takiej równowagi. Opracowana metoda okazała się lepsza niż jakakolwiek metoda opisana dotychczas w literaturze. Duże wzbogacenie danych dotyczących negatywnych oddziaływań nie tylko powiększyło kilkukrotnie zbiór testowy, ale również może znaleźć dalsze zastosowanie. Prezentowana praca za pomocą lepiej dobranych atrybutów biologicznych umożliwiła nowe spojrzenie na wydajność 8

algorytmów przewidywań oddziaływań. Wykonane analizy ujawniły, iż wartość prawdopodobieństwa dla potencjalnie oddziałujący pary domen jest niższa dla zbioru negatywnego i odwrotnie. Istnieje możliwość wyznaczenia optymalnego progu do oczyszczania danych dla par domen, co jeszcze bardziej wzbogaca negatywny zbiór danych. Utworzenie sieci oddziaływań międzydomenowych oraz określone w pracy atrybuty pozwala natomiast na dokładniejszą klasyfikację interakcji międzybiałkowych. Również dane dotyczące ekspresji genów mogą zostać poszerzone Kolejnym ulepszeniem, które można zastosować jest wykonane w protokole włączenie do danych klastra utworzonego w oparciu o szlaki sygnałowe. Dodawanie właściwości fizykochemiczne, takie jak dostępność rozpuszczalnika i hydrofobowości także poprawia wydajność opracowanej metody. Ostatecznie, zaprezentowane dane, dotyczą jedynie człowieka, ale posiadając odpowiednią ilość dotyczących NIP opracowany algorytm może zostać zastosowany w analizie innych organizmów. 9