Metody ograniczenia przestrzeni poszukiwań w modelowaniu nieznanych struktur białkowych



Podobne dokumenty
Model Poissona-Nernsta-Plancka w predykcji struktury kanałów białkowych

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

Modelowanie interakcji helis transmembranowych

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

deep learning for NLP (5 lectures)

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Bioinformatyka wykład 10.I.2008

Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d.

Hard-Margin Support Vector Machines

PROGRAM SEMINARIUM ZAKOPANE czwartek, 1 grudnia 2011 r. Sesja przedpołudniowa

Public gene expression data repositoris

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

Previously on CSCI 4622

Matematyka Stosowana na Politechnice Wrocławskiej. Komitet Matematyki PAN, luty 2017 r.

XXIII Konferencja Naukowa POJAZDY SZYNOWE 2018

Przewody do linii napowietrznych Przewody z drutów okrągłych skręconych współosiowo

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2


POLITECHNIKA KOSZALIŃSKA. Zbigniew Suszyński. Termografia aktywna. modele, przetwarzanie sygnałów i obrazów

Jest to dziedzina biologiczna wywodząca się z biotechnologii. Bioinformatyka

Bioinformatyka wykład I.2009

WYKAZ PRÓB / SUMMARY OF TESTS. mgr ing. Janusz Bandel

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

Towards Stability Analysis of Data Transport Mechanisms: a Fluid Model and an Application

How to share data from SQL database table to the OPC Server? Jak udostępnić dane z tabeli bazy SQL do serwera OPC? samouczek ANT.

Demand Analysis L E C T U R E R : E W A K U S I D E Ł, PH. D.,

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Patients price acceptance SELECTED FINDINGS

PROGRAM SEMINARIUM ZAKOPANE czwartek, 2 grudnia 2010 r. Sesja przedpołudniowa. Otwarcie seminarium Prof. dr hab. inż. Tadeusz Czachórski

OSI Data Link Layer. Network Fundamentals Chapter 7. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Logistic Regression. Machine Learning CS5824/ECE5424 Bert Huang Virginia Tech

RECREATION ZONE Fall-Winter

LED PAR 56 7*10W RGBW 4in1 SLIM

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Podobieństwo semantyczne w ontologiach biomedycznych

tum.de/fall2018/ in2357

SYMULACYJNA OCENA POTENCJAŁU ROZWOJOWEGO MIAST WOJEWÓDZTWA LUBUSKIEGO W KONTEKŚCIE WSPÓŁPRACY TRANSGRANICZNEJ Z BRANDENBURGIĄ

Analiza grup i sygnałów używanych do budowy struktury białek z lokalnych deskryptorów

Bioinformatyka wykład 9

Classic Clad / Thermo Clad / ThermoPlus Clad option selection for projects with Pine / Fir wood

Struktury proponowane dla unikalnych rozwiązań architektonicznych.

PRÓBY EKSPLOATACYJNE KOMPOZYTOWYCH WSTAWEK HAMULCOWYCH TOWAROWEGO

Nowości w Bibliotece WSKIZ marzec 2012

KONSPEKT DO LEKCJI MATEMATYKI W KLASIE 3 POLO/ A LAYER FOR CLASS 3 POLO MATHEMATICS

Forested areas in Cracow ( ) evaluation of changes based on satellite images 1 / 31 O

Trening: Modyfikacja potencjału elektrycznego rejestrowanego na powierzchni skóry, a pochodzącego od aktywności neuronów kory mózgowej (protokół)

Gradient Coding using the Stochastic Block Model

Wirtualne Laboratorium Mechaniki eksperyment na odległość, współpraca badawcza i gromadzenie wiedzy

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

ROZPRAWY NR 128. Stanis³aw Mroziñski

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Bioinformatyka wykład 8

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

Projekty Marie Curie Actions w praktyce: EGALITE (IAPP) i ArSInformatiCa (IOF)

Bioinformatyka wykład 10

Informatyka w medycynie Punkt widzenia kardiologa

IDENTYFIKACJA I ANALIZA PARAMETRÓW GEOMETRYCZNYCH I MECHANICZNYCH KOŚCI MIEDNICZNEJ CZŁOWIEKA

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

FEEDBACK CONTROL OF ACOUSTIC NOISE AT DESIRED LOCATIONS

mgr inż. Sebastian Meszyński

Microsystems in Medical Applications Liquid Flow Sensors

Relaxation of the Cosmological Constant

Wielofunkcyjne bialko CBC dynamika wiazania konca 5 mrna

DUAL SIMILARITY OF VOLTAGE TO CURRENT AND CURRENT TO VOLTAGE TRANSFER FUNCTION OF HYBRID ACTIVE TWO- PORTS WITH CONVERSION

PORÓWNANIE ALGORYTMÓW OPTYMALIZACJI GLOBALNEJ W MODELOWANIU ODWROTNYM PROCESÓW SUSZENIA PRODUKTÓW ROLNICZYCH

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

WPŁYW SZYBKOŚCI STYGNIĘCIA NA WŁASNOŚCI TERMOFIZYCZNE STALIWA W STANIE STAŁYM

scores were calculated using DDI frequencies in PPIs and NIPs. Many network connectedness features were calculated by performing Network analysis.

METROLOGIA. MIERNICTWO

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Statystyczna analiza zmienności obciążeń w sieciach rozdzielczych Statistical Analysis of the Load Variability in Distribution Network

Kaja Milanowska. Lista publikacji - październik I. Prace oryginalne (rozdziały w książkach zbiorowych, artykuły w czasopismach):

Adres do korespondencji: Instytut Metalurgii i Inżynierii Materiałowej PAN, Kraków, ul. Reymonta 25

KATEDRA BIOSENSORÓW I PRZETWARZANIA SYGNAŁÓW BIOMEDYCZNYCH

KARTA PRZEDMIOTU. (pieczęć wydziału)

BSc Biotechnology Curriculum 2018/2019

4D and 5D applications in BIM technology.

Projekty naukowe. Forum Pracodawców AEiI 2014

miniature, low-voltage lighting system MIKRUS S

RAMOWY PROGRAM 13. KONFERENCJI NAUKOWEJ im. prof. Dagmary Tejszerskiej. Ustroń,

Biblioteka Wydziału Elektrycznego Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie NOWOŚCI WYDAWNICZE Maj 2015

MoA-Net: Self-supervised Motion Segmentation. Pia Bideau, Rakesh R Menon, Erik Learned-Miller

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

ROZPRAWA DOKTORSKA. Model obliczeniowy ogrzewań mikroprzewodowych

NAWIERZCHNIACH DROGOWYCH

Bioinformatyka wykład 8, 27.XI.2012

Chemia informatyczna

Rekrutacja dotycząca udziału w międzynarodowym szkoleniu Simulated & Standardized Patients, które odbędzie się 5-7.

Struktura polimerów i biopolimerów (2)

WENTYLATORY PROMIENIOWE SINGLE-INLET DRUM BĘBNOWE JEDNOSTRUMIENIOWE CENTRIFUGAL FAN

Extraclass. Football Men. Season 2009/10 - Autumn round

Strangeness in nuclei and neutron stars: many-body forces and the hyperon puzzle

Adres do korespondencji: Instytut Metalurgii i Inżynierii Materiałowej PAN, Kraków, ul. Reymonta 25

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Transkrypt:

Metody ograniczenia przestrzeni poszukiwań w modelowaniu nieznanych struktur białkowych Instytut Inżynierii Biomedycznej i Pomiarowej Politechnika Wrocławska Małgorzata Kotulska Witold Dyrka, Bogumił Konopka, Monika Kurczyńska, Joanna Weżgowiec, Paweł Woźniak, 1

Motywacja biologiczna CEL: Przewidywanie struktury przestrzennej białek wyłącznie z sekwencji aminokwasów. OBIEKT: Białka o znanej sekwencji i nieznanej strukturze Jak wielu białek dotyczy ten problem? UniProtKB/Swiss-Prot 0,5 mln sekwencji białkowych UniProtKB/TrEMBLt - 20 mln sekwencji białkowych przetłumaczonych z DNA PDB 90 tys. trójwymiarowych struktur białkowych Źródło: UniProt i PDBe 2

Klasyczne metody modelowania struktury trzeciorzędowej Ab-initio / de Novo Porównawcze: Homologiczne Nawlekanie Statystyczne (uczenie maszynowe) 3

Nasze kierunki badań Ocena jakości modeli w oparciu o relację struktura-funkcja charakterystyka przepływowa kanałów jonowych zastosowanie ontologii genów - GO Zastosowanie miejsc kontaktowych białek do modelowania ich struktury uczenie maszynowe. Ontologia miejsc kontaktowych. Amyloidy - różne struktury białek o tej samej sekwencji. Uczenie maszynowe a modelowanie fizykochemiczne 4

How proteins forming amyloids can be recognized computationally

Russeau 2006 Amyloid structure steric zippers

Exemplary diseases Alzheimer disease (amylo -42, ) Parkinson disease ( -synuclein) Diabetes type II (islet amyloid polypeptide - IAPP, amylin) Amylolateral Sclerosis ALS (SOD) Huntington disease (huntington) Creutzfeld-Jacobs (prion, e.g. sup-35).

Hot-spots of hexapeptides

Why modeling? Non-informed experimental tests (variations with repetition) 20 6 = 64 000 000

Methods in modeling Physico-chemical methods in modeling Concept of - aggregates Packing density (contact sites) FoldAmyloid (Galzitskaya OV, Garbuzynskiy SO, Lobanov MY,PLoS Comp.Biol. 2006) Concept of - switch (conversion from -helix to -sheet) Stability of supersecondary structure eg. Profile 3D Statistical methods Waltz (Maurer-Stroh 2010) frequency characteristics Bayess, Decission Tree (David 2010), bacterial strands Pafig (Tian 2009), SVM, machine learning based on AAindex features (Erroneous dataset!)

Machine learning methods for hexapeptides Simplified 3D profile method gives 93.5% of identity with the original method of ZipperDB Thompson et al. PNAS 2006

Machine learning methods

Classification efficiency 18 20 CPU-hours full profile 3D / 1 hexapeptide 0.5 CPU-hours simplified profile 3D Seconds machine learning J. Stanislawski, M. Kotulska, O. Unold, Machine learning methods can replace 3D profile method in classification of amyloidogenic hexapeptides, BMC Bioinformatics 2013

Recognition of hot-spots based on site specific aminoacid pairwise co-occurrence

Recognition of hot-spots based on site specific aminoacid pairwise co-occurrence

Correlated pairs of aminoacids The result of machine learning on each of 4 training datasets and their combination with the window of length 5. The correlated pairs of aminoacids, increasing the chance of amyloidogenicity, are shown with their most probable locations.

Finding hot spots in full length proteins Black blocks location of amyloidogenic segments with w l = 0.14, (Sp=60% on Waltz set). The brown - different w l values assumed. The circles experimentally by different groups, working on protein fragments of various lengths (green above 16, blue -11, red - 7).

FISH Amyloid Gasior P, Kotulska M, FISH Amyloid a new method for finding amyloidogenic segments in proteins based on site specific co-occurence of aminoacids, BMC Bioinformatics 2014, in print

Exemplary grammar (hydrophobicity) Florence Thirion MS thesis 2013

Recognition of double strands with PCFGs The grammar designed for -barrels ROC curves of grammars trained on Sawaya dataset (experimental double strands) and tested on double Waltz and double Waltz negative Grammar scheme for barrels: Waldispühl J, Berger B, Clote P, Steyaert JM (2006): Predicting Transmembrane beta-barrels and interstrand residue interactions from sequence. Proteins, 65, 61-74.

SUMMARY Amyloidogenicity may be attributed to short segments in sequences, called hot-spots Very limited experimenta data Hot spots can be recognized with various computational methods Transmembrane channels, probably formed by amyloidogenic segments can be a modeling goal

Publikacje Stanislawski Jerzy, Kotulska Małgorzata, Unold Olgierd: Machine learning methods can replace 3D profile method in classification of amyloidogenic hexapeptides / Jerzy Stanislawski, Malgorzata Kotulska, Olgierd Unold. BMC Bioinformatics [Dokument elektroniczny]. 2013, vol. 14, [art.] 21, Kotulska Małgorzata, Unold Olgierd: On the amyloid datasets used for training PAFIG--how (not) to extend the experimental dataset of hexapeptides / Małgorzata Kotulska, Olgierd Unold. BMC Bioinformatics 2013, vol. 14, [art.] 351. Gasior Paweł, Kotulska Małgorzata, FISH Amyloid a new method for finding amyloidogenic segments in proteins based on site specific co-occurence of aminoacids, BMC Bioinformatics 2014, in print Dyrka Witold, Nebel Jean-Christophe, Kotulska Małgorzata: Probabilistic grammatical model for helix-helix contact site classification / Witold Dyrka, Jean- Christophe Nebel, Małgorzata Kotulska. Algorithms Mol Biol. 2013, Dyrka Witold, Bartuzel Maciej, Kotulska Małgorzata, Optimization of 3D Poisson-Nernst-Planck model for fast evaluation of diverse protein channels, PROTEINS: Structure, Function, and Bioinformatics. 81(10):1802-22, 2013

Woźniak Paweł P., Kotulska Małgorzata: Characteristics of contact sites with regard to protein topology, [W:] Postępy Inżynierii Biomedycznej, pod red. Lucyna Leniowska, Zbigniew Nawrat, Rzeszów, Uniwersytet Rzeszowski, 2013. s. 81-90, ISBN 978-83-63151-02-7 Woźniak Paweł P.: Influence of the MSA source and the contact site definition on the contact sites prediction accuracy with correlated mutation algorithms, [W:] 11th Students' Science Conference, 03-06 październik 2013 - Będlewo. Wrocław: Oficyna Wydawnicza Politechniki Wrocławskiej, 2013. s. 365-370 Kurczyńska Monika: Structural, energy and functional changes in different conformations of the potassium channel KcsA, Postępy Inżynierii Biomedycznej, pod red. Lucyna Leniowska, Zbigniew Nawrat, Rzeszów, Uniwersytet Rzeszowski, 2013. s. 101-112, ISBN 978-83-63151-02-7 Kurczyńska Monika, Cichowski Wojciech: Ion transport simulation of transmembrane protein, Biocybernetyka i inżynieria biomedyczna [Dokument elektroniczny]: XVIII krajowa konferencja naukowa, 10-12 października 2013 - Gdańsk / red. Adam Bujnowicz, Jerzy Wtorek. [Gdańsk : Wydział Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej, 2013]. s. 1-9 Monika Kurczyńska: Diffusion coefficient and eletrostatic potential in brownian dynamics simulations, [W:] 11th Students' Science Conference, 03-06 październik 2013 - Będlewo. Wrocław: Oficyna Wydawnicza Politechniki Wrocławskiej, 2013. s. 475-480. Cichowski Wojciech, Kurczyńska Monika: Ion Current Analyser (ICA) - narzędzie do analizy wyników symulacji transportu jonów przez kanały jonowe, Otwarta Innowacja. 2013, nr 1/2, s. 16-25. Konopka Bogumił M.: A procedure for automated contact map-based reconstruction of protein structural models, Postępy Inżynierii Biomedycznej, pod red. Lucyna Leniowska, Zbigniew Nawrat, Rzeszów, Uniwersytet Rzeszowski, 2013. s. 63-73, ISBN 978-83-63151-02-7

Grupa Biofizyki i Bioinformatyki Nanoporów Witold Dyrka Bogumil Konopka Małgorzata Kotulska Paweł Woźniak Monika Kurczyńska Joanna Weżgowiec http://www.ibp.pwr.wroc.pl/kotulskalab/ AKN BioNanopor 24

Probabilistic Context Free Grammars (PCFG) Only physicochemical properties of residues Figure 5.1.1: ROC curves of grammars trained on Waltz positive dataset and tested on AmylHex datasets.

Beta-aggregates versus amyloids ROC curves of the grammars trained on Waltz and tested on Tango datasets (beta-aggregates versus amyloids). ROC curves of the grammars trained on Waltz and tested on Tango datasets (beta-aggregates versus amyloids), when using a scanning window of 6 residues