Spis treści 4 Budowa aminokwasów i białek... 26 4.1 Ogólna budowa aminokwasów... 26 4.2 Kalkulator własności fizykochemicznych białka... 40 4.3 Metody analizy własności aminokwasów... 44 4.3.1 Metoda Analizy Składowych Głównych (PCA)... 44 4.3.2 Manualna analiza skupisk aminokwasów... 48 4.3.3 Metoda Hierarchicznej analizy skupisk... 49 4.3.4 Metody niehierarchicznej analizy skupisk.... 49 4.3.5 Diagram Venn'a... 49 Przydatne linki U. C. Davis, Biological Sciences: http://www.mcb.ucdavis.edu/courses/bis102/aaprop.html AMINO ACID PROPERTIES AND CHARACTERISTICS http://bmbiris.bmb.uga.edu/wampler/tutorial/aaprops.html Amino Acid Information http://prowl.rockefeller.edu/aainfo/contents.htm The Amino Acid Repository http://www.imb-jena.de/image_aa.html#properties Russell page http://www.russell.embl.de/aas/ Skrypt Bioinformatyka DRAFT Strona 25
4 Budowa aminokwasów i białek 4.1 Ogólna budowa aminokwasów Podstawową jednostką "budulcową" białek są reszty (residua) L-α-aminokwasów. Aminokwasy białkowe posiadają centralnie położony tetraedryczny węgiel C (alfa-aminokwasy), wokół którego rozłożone są: grupa aminowa (-NH 2 ), grupa karboksylowa (-COOH), wodór (H ) i grupa R (łańcuch boczny). a) b) c) H H H O H NH 2 C COOH N C C + O H NH C 3 COO - R H R R W neutralnym ph grupa aminowa jest protonowana (-NH 3 + ) a karboksylowa deprotonowana (-COO - ). Aminokwasy występują wówczas jako jony dipolowe (zwitterions, dipolar ions). - glicyna - alanina L-aminokwasy - centrum asymetrii Tetraedryczny węgiel C stanowi centrum asymetrii (centrum chiralności) aminokwasu. Ze względu na rozmieszczenie grup wokół C rozróżnić można dwa izomery aminokwasów L i D (Fischer, 1981). Aminokwasy białkowe (z wyjątkiem glicyny) występują w zawsze w konformacji L. Skrypt Bioinformatyka DRAFT Strona 26
Rysunek. Zwierciadlane odbicie aminokwasów. L-Aminokwas i D-Aminokwas. Reguła CORN Rysunek. Reguła CORN - Reguła ułatwiająca rozpoznanie konformacji: podczas obrotu wokół osi przeprowadzonej przez atomy C α i H grupy (-COO -, -R, -NH 3 + ) dołączone do C α czytane przeciwnie do ruchu wskazówek zegara tworzą słowo CORN Skrypt Bioinformatyka DRAFT Strona 27
20 aminokwasów białkowych kod 1- i 3- literowy Tabela 1. Aminokwasy występujące w białkach: (nazwa, kod 1 i 3 literowy), liczba atomów residuum w ph=7 Nazwa kod Masa Liczba Występowanie Łańcuch boczny (R) (-H 2 O) atomów (%) alanina A, Ala 71.079 CH 3-10 7.49 arginina R, Arg 156.188 HN=C(NH 2 )-NH-(CH 2 ) 3-24 5.22 asparagina N, Asn 114.104 H 2 N-CO-CH 2-14 4.53 kwas asparaginowy D, Asp 115.089 HOOC-CH 2-14 5.22 cysteina C, Cys 103.145 HS-CH 2-12 1.82 glutamina Q, Gln 128.131 H 2 N-CO-(CH 2 ) 2-17 4.11 kwas glutaminowy E, Glu 129.116 HOOC-(CH 2 ) 2-17 6.26 glicyna G, Gly 57.052 H- 7 7.10 histydyna H, His 137.141 N=CH-NH-CH=C-CH 2-18 2.23 izoleucyna I, Ile 113.160 CH 3 -CH 2 -CH(CH 3 )- 19 5.45 leucyna L, Leu 113.160 (CH 3 ) 2 -CH-CH 2-19 9.06 lizyna K, Lys 128.17 H 2 N-(CH 2 ) 4-22 5.82 metionina M, Met 131.199 CH 3 -S-(CH 2 ) 2-19 2.27 fenyloalanina F, Phe 147.177 Phenyl-CH 2-20 3.91 prolina P, Pro 97.117 -N-(CH 2 ) 3 -CH- 14 5.12 seryna S, Ser 87.078 HO-CH 2-11 7.34 treonina T, Thr 101.105 CH 3 -CH(OH)- 14 5.96 tryptofan W, Trp 186.213 Phenyl-NH-CH=C-CH 2-24 1.32 tyrozyna Y, Tyr 163.176 4-OH-Phenyl-CH 2-21 3.25 walina V, Val 99.133 CH 3 -CH(CH 2 )- 16 6.48 Skrypt Bioinformatyka DRAFT Strona 28
Tabela 2. Aminokwasy występujące w białkach Alanina, A, Ala Arginina, R, Arg Asparagina, N, Asn kwas asparaginowy, D, Asp Cysteina, C, Cys Glutamina, Q, Gln kwas glutaminowy, E, Glu Glicyna, G, Gly Histydyna, H, His Izoleucyna, I, Ile Leucyna, L, Leu Lizyna, K, Lys Metionina, M, Met Fenyloalanina, F, Phe Prolina, P, Pro Seryna, S, Ser Treonina, T, Thr Tryptofan, W, Trp Tyrozyna, Y, Tyr Walina, V, Val Skrypt Bioinformatyka DRAFT Strona 29
Własności fizykochemiczne aminokwasów związane z budową ich łańcucha bocznego (reszty aminokwasu) determinują spontaniczny proces zwijania (fałdowania) się białka oraz jego właściwości fizystrukturę Cechy/kryteria: hydrofobowe/hydrofilowe alifatyczne aromatyczne, oddziaływujące warstwowo polarne-neutralne polarne naładowane dodatnio/ujemnie kwasowe, zasadowe C-β rozgałęzione małe/duże zawierające siarkę tworzące wiązania wodorowe wzmacniacze/łamacze struktur Hydrofilowość/hydrofilowość Aminokwasy hydrofobowe: V, I, L, M, F, W, C, to takie aminokwasy, które nie lubią przebywać w środowisku wodnym. Najczęściej lokują się w hydrofobowym wnętrzu (jądrze) cząsteczki białka lub w lipidowej części błon komórkowych. Istnieje kilkadziesiąt skali hydrofobowości aminokwasów (lub indeksów hydrofobowości). Około 20 zostało zebranych w programie ProtScale (http://www.expasy.ch/tools/protscale.html) Najbardziej popularną jest skala Kyte&Doolittle (1982), która utworzona została jako szacunkowa różnica między energią swobodna dla aminokwasów w hydrofobowym środowisku we wnętrzu białka a w środowisku wodnym. Inne skale powstawały w oparciu między innymi o obliczenia energii swobodnej potrzebnej do usunięcia aminokwasu białka błonowego z błony komórkowej itd. Według różnych skal aminokwasy mają różne wartości hydrofobowości i uszeregowane według wartości różnych skalach znajdują sie na różnych miejscach (patrz Tabelka). Niezależnie od tego aminokwasy da się podzielić na grupy: Silnie hydrofobowe - aminokwasy, które posiadają alifatyczny (węglowodorowy) łańcuch boczny: Leu, Ile, Val; średnio hydrofobowe - aminokwasy aromatyczne i zawierające grupy hydroksylowe lub siarkę: Phe,Tyr, Cys, Met,... oraz Gly i Pro Skrypt Bioinformatyka DRAFT Strona 30
słabo hydrofobowe - aminokwasy, których grupy boczne są dodatnio lub ujemnie naładowane: Arg, Lys, Asp, Glu, Asn, Gln i His. aminokwasy częściowo hydrofobowe, czyli takie, których fragment łańcucha bocznego jest hydrofobowy np.: Arg, Lys Tabela 3. Indeksy hydrofobowości aminowkasów. Res. Kyte-Doolittle Eisenberg i inn. Rose i inn. Janin Wolfenden i inn. Ala 1.800 0.620 0.740 0.300 1.940 Arg -4.500-2.530 0.640-1.400-19.920 Asn -3.500-0.780 0.630-0.500-9.680 Asp -3.500-0.900 0.620-0.600-10.950 Cys 2.500 0.290 0.910 0.900-1.240 Gln -3.500-0.850 0.620-0.700-9.380 Glu -3.500-0.740 0.620-0.700-10.200 Gly -0.400 0.480 0.720 0.300 2.390 His -3.200-0.400 0.780-0.100-10.270 Ile 4.500 1.380 0.880 0.700 2.150 Leu 3.800 1.060 0.850 0.500 2.280 Lys -3.900-1.500 0.520-1.800-9.520 Met 1.900 0.640 0.850 0.400-1.480 Phe 2.800 1.190 0.880 0.500-0.760 Pro -1.600 0.120 0.640-0.300 0.000 Ser -0.800-0.180 0.660-0.100-5.060 Thr -0.700-0.050 0.700-0.200-4.880 Trp -0.900 0.810 0.850 0.300-5.880 Tyr -1.300 0.260 0.760-0.400-6.110 Val 4.200 1.080 0.860 0.600 1.990 [1] Kyte J., Doolittle R.F, J. Mol. Biol. 157:105-132(1982) A simple method for displaying the hydropathic character of a protein. [2] Eisenberg D., Schwarz E., Komarony M., Wall R. J. Mol. Biol. 179:125-142(1984). [3] G. Rose, A. Geselowitz, G. Lesser, R. Lee and M. Zehfus, Hydrophobicity of Amino Acid Residues in Globular Proteins, Science 229(1985)834-838. [4] J. Janin, Surface and Inside Volumes in Globular Proteins, Nature, 277(1979)491-492 [5] R. Wolfenden, L. Andersson, P. Cullis and C. Southgate, Affinities of Amino Acid Side Chains for Solvent Water, Biochemistry 20(1981)849-855. Skrypt Bioinformatyka DRAFT Strona 31
Val Leu Phe,Ile Gly Leu Ile,Val Ala Met Ala Met,Leu,Trp Phe,Leu Gly,Ala,Trp Cys Met Met Ala Tyr Cys Ser,His Thr Ser Trp Tyr Thr Ser Trp Gln Asn Lys His Glu Pro,Arg Asp,Gln,Glu Gln,Glu,Asp,Asn Rysunek. Skale hydrofobowości na podstawie Tabeli 3. Aminokwasy alifatyczne. Są to aminokwasy, które w łańcuchach bocznych zawierają tylko atomy węgla i wodoru (z wyjątkiem metioniny, która posiada atom siarki): Ile, Val, Leu, Ala, Pro oraz Met Aminokwasy aromatyczne. Aminokwasy te odpowiadają za oddziaływania warstwowe w strukturze białka, posiadają też swój udział w absorpcji promieniowania elektromagnetycznego w zakresie UV/Vis: Phe, Trp, Tyr, His Aminokwasy polarne (naładowane i nienaładowane):. R, K, D, E, N, Q, H, A, Y, T i zdolność tworzenia wiązań wodorowych. Polarność - jeden ze sposobów indeksowania polarności aminokwasów białkowych został wprowadzony przez Zimmeulrmana i inn. (1968). Jest to przeskalowana siła wypadkowa pochodząca od niezrównoważonego ładunku i momentu dipolowego cząsteczki w odległości 10Å. Indeks ten preferuje aminokwasy obdarzone ładunkiem w stosunku do polarnych, ale nie rozróżnia rodzaju ładunku. Grantham R. Science 185:862-864(1974). Skrypt Bioinformatyka DRAFT Strona 32
Zimmerman J.M., Eliezer N., Simha R. J. Theor. Biol. 21:170-201(1968). Grupy boczne aminokwasów polarnych są hydrofilowe, dlatego najczęściej eksponowane są na powierzchni białek. Zarówno aminokwasy naładowane jak i nie naładowane zdolne są do tworzenia wiązań wodorowych z wodą, łańcuchami bocznymi innych aminokwasów lub z łańcuchem głównym (szkieletowym) Ser i Thr mają hybrydyzację typu sp3 grup hydroksylowych, mogą być donorami jednego wiązania wodorowego lub akceptorem dwóch wiązań wodorowych. HN-N HB1 HA-CA--CB--OG \ HB2 HG1 O=C (Ser) HN-N OG1--HG1 / HA-CA--CB-HB \ CG2--HG21 O=C / \ HG21 HG22 (Thr) Tyr posiada hybrydyzację sp2 grupy hydroksylowej (wiązanie CZ-OH ma charakter częściowo podwójnego), które może być donorem lub akceptorem jednego wiązania wodorowego. HD1 HE1 HN-N HB1 CD1--CE1 // \\ HA-CA--CB--CG CZ--OH \ / \ HB2 CD2--CE2 HH O=C HD2 HE2 (Tyr) Asp i Glu posiadają po dwa shybrydyzowane sp2 tleny grup karboksylowych; każde wiązanie CG-OD lub CD-OE ma charakter wiązania częściowo podwójnego. Kazdy tlen może być akceptorem dwóch wodorów w wiązaniu wodorowym. HN-N HB1 OD1 // HA-CA--CB--CG \ HB2 OD2(-) O=C (Asp) HN-N HB1 HG1 OE1 // HA-CA--CB--CG--CD \ HB2 HG2 OE2(-) O=C (Glu) Skrypt Bioinformatyka DRAFT Strona 33
Asn i Gln posiadają grupę karbonylową (C=O), której tlen może brać udział jako akceptor w dwóch wiązaniach wodorowych, azot grupy amidowej ma hybrydyzację sp2 i może być donorem wodoru również dla dwóch wiązań wodorowych. HN-N HB1 OD1 HD21 / HA-CA--CB--CG--ND2 \ HB2 HD22 O=C (Asn) HN-N HB1 HG1 OE1 HE21 / HA-CA--CB--CG--CD--NE2 \ HB2 HG2 HE22 O=C (Gln) His posiada pierścień imidazolowy, protonowany może być jeden z dwóch atomów azotu (His neutralna) lub oba (His+). Każdy z azotów (ND1 lub NE2) może być akceptorem pojedynczego wiązania wodorowego jeśli jest deprotonowany, lub donorem w pojedynczym wiązaniu jeśli jest protonowany. HE1 HN-N / HB1 ND1--CE1 / HA-CA--CB--CG \\ HB2 CD2--NE2 O=C \ HD2 HE2 (His) HD1 HE1 HN-N / HB1 ND1--CE1 / HA-CA--CB--CG \\ HB2 CD2--NE2 O=C HD2 (His) Arg posiada grupę guanidynową (HN=C(NH 2 )-NH-), zwykle jest ona protonowana, atom węgla CZ ma hybrydyzację sp2-(atomy NE, CZ, NH1 i NH2 leżą w jednej płaszczyźnie). Każda grupa -NH2 może być donorem dwóch wodorów, a grupa -NH jednego. HH11 HN-N HB1 HG1 HD1 HE NH1-HH12 //(+) HA-CA--CB--CG--CD--NE--CZ \ HB2 HG2 HD2 NH2-HH22 O=C HH21 (Arg) Lys może być donorem protonu w trzech wiązaniach wodorowych. Atom azotu NZ ma hybrydyzację sp3. Skrypt Bioinformatyka DRAFT Strona 34
HN-N HB1 HG1 HD1 HE1 HZ1 / HA-CA--CB--CG--CD--CE--NZ--HZ2 \ HB2 HG2 HD2 HE2 HZ3 O=C (Lys) Trp może być donorem protonu w jednym wiązaniu wodorowym. Atom azotu NE ma hybrydyzację sp2. HE3 HN-N HB1 CE3 / \\ HA-CA--CB---CG-----CD2 CZ3-HZ3 HB2 CD1 CE2 CH2-HH2 O=C / \ / \ // HD1 NE1 CZ2 HE1 HZ2 (Trp) Aminokwasy naładowane. Aminokwasy naładowane dodatnio: R, K, H. Aminokwasy naładowane ujemnie: E, D. To aminokwasy, których reszty w fizjologicznym ph są zwykle protonowane (naładowane dodatnio) lub deprotonowane (naładowane ujemnie). Większość pojedynczych aminokwasów (nie w łańcuchu) występuje w tych warunkach w postaci jonu obojnaczego z deprotonowaną grupą -COO - i protonowaną -NH + 3. Warunki w jakich nastąpi protonacja lub deprotonacją określa się podobnie jak moc kwasu, czyli za pomocą logarytmu dziesiętnego ze stałej dysocjacji Ka: pka = log 10 (Ka) Łańcuch boczny histydyny ma pka 6.5, zatem w warunkach fizjologicznych zaledwie 10% H jest protonowanych. Wartość stałej dysocjacji pka silnie zależy od warunków środowiska: otoczenia aminokwasu wewnątrz białka, temperatury składu rozpuszczalnika itd., dlatego czasami sensowniej jest podawać przedziały pka dla danej grupy niż konkretną wartość (bez określenia warunków w jakich została wyznaczona lub obliczona). Np.: pka = 6.8-7.9 grupy aminowej, pka = 3.5-4.3 grupy karboksylowej Skrypt Bioinformatyka DRAFT Strona 35
Tanford C. Adv.Protein Chem. (1962)17:69-165 (inne wartości- patrz Tabelka) Rozmiar (objętość, tęgość, powierzchnia masa itd.) Rozmiar Objętość aminokwasu (residuum) w łańcuchu polipeptydowym można oszacować jako sumę objętości nieprzekrywających się kul reprezentujących atomy. Promienie kul odpowiadają promieniom van der Waalsa. Innym sposobem może być oszacowanie na podstawie zbioru białek objętości zajmowanej przez dany aminokwas w strukturze przestrzennej. Objętość cząstkowa (partial volume) lub właściwa objętość cząstkowa (partial specific volume) określana jako przyrost objętości roztworu po rozpuszczeniu w nim aminokwasu może nie uwzględniać w swojej wartości oddziaływania cząsteczki z ropuszczalnikiem. (są substancje, których objętość cząstkowa mierzona w ten sposób jest ujemna!)... [A.A. Zamyatin, Protein Volume in Solution, Prog. Biophys. Mol. Biol. 24(1972)107-123.] Tęgość (bulkiness) [Zimmerman J.M., Eliezer N., Simha R. J. Theor. Biol. 21:170-201(1968).] Stosunek objętości łańcucha bocznego do jego długości. Aminokwasy ukryte i dostępne (dla rozpuszczalnika) Pole dostępnej powierzchni (ASA - Accessible Surface Area) (Obliczone dla aminokwasu X w trójpeptydzie G-X-G) [C. Chotia, The Nature of the Accessible and Buried Surfaces in Proteins, J. Mol. Biol., 105(1975)1-14.] [Miller i inn. (1987)] [Creighton, (1993)] (buried and accessible) buried = ułamek molowy (%) z 2001 ukrytych residuów. accessible = ułamek molowy (%) z 3220 dostępnych residuów. [Janin J., Nature 277:491-492(1979). ] ABA (Average buried area) średnia powierzchnia ukryta przy przejściu do stanu natywnego [Rose G.D., Geselowitz A.R., Lesser G.J., Lee R.H., Zehfus M.H., Science 229:834-838(1985). ] Różnica między (ASA - ABA)/ASA określać będzie względną powierzchnię dostępną dla rozpuszczalnika dla aminokwasu znajdującego się w natywnie pofałdowanym białku. Ułamek pola powierzchni aminokwasu, który w procesie fałdowania jest dostępny dla rozpuszczalinika, a po zwinięciu białka juz nie Skrypt Bioinformatyka DRAFT Strona 36
Aminokwasy małe: T, D, N; bardzo małe: G, A, S, P Aminokwasy ważne strukturalnie: Gly i Pro Aminokwasy C-beta rozgałęzione: V, I, T, Aminokwasy zawierające siarkę: C, M Tabela 4. Własności fizyczne aminokwasów związane z rozmiarem i umiejscowieniem w strukturze natywnej. Nazwa accessible buried Tęgość (Zimmerman) ABA Ala 6.600 11.200 11.500 86.600 115 Arg 4.500 0.500 14.280 162.200 225 Asn 6.700 2.900 12.820 103.300 150 Asp 7.700 2.900 11.680 97.800 160 Cys 0.900 4.100 13.460 132.300 135 Gln 5.200 1.600 14.450 119.200 190 Glu 5.700 1.800 13.570 113.900 180 Gly 6.700 11.800 3.400 62.900 75 His 2.500 2.000 13.690 155.800 195 Ile 2.800 8.600 21.400 158.000 175 Leu 4.800 11.700 21.400 164.100 170 Lys 10.300 0.500 15.710 115.500 200 Met 1.000 1.900 16.250 172.900 185 Phe 2.400 5.100 19.800 194.100 210 Pro 4.800 2.700 17.430 92.900 145 Ser 9.400 8.000 9.470 85.600 115 Thr 7.000 4.900 15.770 106.500 140 Trp 1.400 2.200 21.670 224.600 255 Tyr 5.100 2.600 18.030 177.700 230 Val 4.500 12.900 21.570 141.000 155 ASA Tabela 5. objętość właściwa, gęstość, hydratacja. Nazwa Masa (-H 2 O) Objętość (Å 3 ) Objętość (Zamyatin) (Å 3 ) Ala 71.079 71.07 88.6 1 Arg 156.188 156.18 173.4 3 Asn 114.104 118.23 111.1 2 Asp 115.089 133.30 114.1 6 Cys 103.145 109.80 108.5 1 Gln 128.131 134.98 138.4 2 Glu 129.116 122.816 143.8 7.5 Gly 57.052 60.75 60.1 1 Skrypt Bioinformatyka DRAFT Strona 37 h r
His 137.141 155.53 153.2 4 Ile 113.160 122.46 166.7 1 Leu 113.160 122.454 166.7 1 Lys 128.17 143.23 168.6 4.5 Met 131.199 139.115 162.9 1 Phe 147.177 154.60 189.9 0 Pro 97.117 78.02 112.7 3 Ser 87.078 65.09 89.0 2 Thr 101.105 102.426 116.1 2 Trp 186.213 197.47 227.8 2 Tyr 163.176 160.42 193.6 3 Val 99.133 105.70 140.0 1 Tabela6. Aminokwasy występujące w białkach: współczynnik absorpcji fali 280nm, pi - ph punktu izolelektrycznego, wartość pka dysocjacji grup bocznych, hydratacja. Nazwa λ max ε λmax ε 280 Polarność Polarność pi (nm) (M -1 cm -1 ) (M -1 cm -1 ) (Zimmerman) (Grantham) (Zimermann) pk a Ala 0.000 8.100 6.00 2.35, 9.8 Arg 52.000 10.500 10.76 ~12.0 Asn 3.380 11.600 5.41 Asp 49.700 13.000 2.77 4.5 Cys 1.480 5.500 5.05 9.3 Gln 3.530 10.500 5.56 Glu 49.900 12.300 3.22 4.6 Gly 0.000 9.000 5.97 His 5860 51.600 10.400 7.59 6.2 Ile 0.130 5.200 6.02 Leu 0.130 4.900 5.98 Lys 49.500 11.300 9.74 10.4 Met 1.430 5.700 5.74 Phe 197 0.350 5.200 5.48 Pro 1.580 8.000 6.30 Ser 1.670 9.200 5.68 Thr 1.660 8.600 5.66 Trp 5600 2.100 5.400 5.89 Tyr 1420 1.610 6.200 5.66 9.6 Val 0.130 5.900 5.96 {Do tabeli: długośd fali dla maksimum absorpcji w UV/vis, wsp. ekstynkcji dla max.długości fali, pka grup NH2 i COOH, oraz pka innych autorów: (jest Tanford), Lehninger A.(1972) Biochemistry ED: Flammarion, Sillero&Ribero(1989)Anal.Biochem.179,319-325,...) informacje o jednostakach i temperturze} Skrypt Bioinformatyka DRAFT Strona 38
Tabela 7. Współczynnik ekstynkcji (M -1 cm -1 ) dla różnych rozpuszczalników. [Pace C.N. et al. Protein Science (1995) 4, 2411-2423.] Nazwa woda hydromocznik chlorek (8M urea) guanidyny 278 nm Tyr Trp Cys 280 nm 282 nm Skrypt Bioinformatyka DRAFT Strona 39
4.2 Kalkulator własności fizykochemicznych białka Kalkulator własności fizykochemicznych białka na podstawie jego składu aminokwasowego (na podstawie sekwencji): Masa, objetość, wymiary równoważnej kuli, hydratacja, promień hydrodynamiczny, współczynnik ekstynkcji, pi, krzywa miareczkowania Wartości potrzebne do obliczeń zebrane są (będą) w Tabelach 5 i 6 Masa: Cohn & Edsal, Proteins, Amino Acids and Peptides, Reinhold, New York (1943) Objętość: Creighton, Proteins Structure and Molecular Properties, W. H. Freeman & Co., NY (1994), p.4 Objętość właściwa: Cohn & Edsal, ref. cited Hydratacja: Bigelow, J. Theoretical Biology 16, 187-211 (1971) pka grupy bocznej: Tanford, Adv. Protein Chem. 17, 69-165 (1962) Współczynnki ekstynkcji: Pace C.N. et al. Protein Science (1995) 4, 2411-2423. Przekładowa sekwencja (lizozym z białka jaj kurzego): >6LYZ:_ PDBID CHAIN SEQUENCE KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINSRWWCNDGRTPGSR NLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQAWIRGCRL Proste dodawanie wartości parametrów poszczególnych aminokwasów: masa, M W objętość całkowita, V objętość właściwa, v 2 stopień hydratacji, h r molowy współczynnik ekstynkcji w roztworze denaturującym, ε M,D M w masa = 14302 Da V objętość całkowita = 16728.9 Å 3 v 2 objętość właściwa = 0.704 cm 3 /g h r stopień hydratacji = 270 mol/mol Skrypt Bioinformatyka DRAFT Strona 40
Wielkości, które można otrzymać pośrednio: δ 1 hydratacja = (h r M H2O /M w ) = 0.34 g H2O /g białka R o promień równoważnej kuli = (3V/4Π) 1/3 = 15.9Å R h promień hydratowanej kuli = (3V h /4Π) 1/3 = 17.9Å V h objętość hydratowanej kuli = V + V H2O = V + δ 1 v 1 M w /N A Znając wartość eksperymentalną promienia hydrodynamicznego można wyznaczyć stopień asymetrii cząsteczki (stosunek półosi, jeśli białko można opisać jako elipsoidę obrotową) R h promień hydratowanej kuli = (3V h /4Π) 1/3 = 17.9Å R H promień hydrodynamiczny (eksperymentalny) 18.8Å R h R H Czynnik kształtu (- współczynnik Perrin a) R H /R h =1.051 a=29å, b=14å Molowy współczynnik ekstynkcji. (model Edelhoch a, roztwór denaturujący: 6M Gdn-HCl ) Współczynnik ekstynkcji zdenaturowanego w roztworze hydrochlorku guanidyny jest sumą współczynników ekstyncji wszystkich aminokwasów absorbujących promieniowanie elektomagnetyczne o określonej długości fali. ε MGdn = (N Tyr ) ε MTyr + (N Trp ) ε MTrp + (N Cys ) ε MCys Skrypt Bioinformatyka DRAFT Strona 41
λ=280 nm ε MTyr = 1280 ε MTrp = 5690 ε MCys = 180 ε MCys-Cys = 120 dla lizozymu z białka jaja kurzego: (N Tyr )=3 (N Trp )=6 (N Tyr ) =4 stąd: ε MGdn = 37860 (M -1 cm -1 ) (literatura) ε MGdn = 38010 (M -1 cm -1 ) (obliczony) ε = 2.65 cm -2 g -1 c M na 1OD 280 = 2.6 10-5 M c na 1OD 280 = 0.377 gcm -3 ph punktu izoelektrycznego i ładunek ładunek dodatni w ph7 posiadają Arg, Lys i zwykle His pkai: Arg 12.48 Lys 10.53 His 6.00 ładunek ujemny w ph7 posiadają Asp, Glu Tyr i Cys. pkaj: Asp 3.86 Glu 4.25 Tyr 10.07 Cys 8.33 gdzie: N i suma Arg, Lys i His, N j suma Asp, Glu, Tyr, Cys. Punkt izoelektryczny to ph, dla którego wypadkowy ładunek jest równy 0., Skrypt Bioinformatyka DRAFT Strona 42
pi = ph(net Charge =0) dla lizozymu: pi 9.215 max ładunek dodatni: 9 max ładunek ujemny: 20 Krzywa miareczkowania. Skrypt Bioinformatyka DRAFT Strona 43
4.3 Metody analizy własności aminokwasów 4.3.1 Metoda Analizy Składowych Głównych (PCA) PCA - Principal component analysis Jedną z metod wizualizacji własności aminokwasów (ogólnie: zbioru obiektów) jest przedstawienie ich na dwuwymiarowych diagramach, tak że para cech stanowi współrzędne punktów reprezentujących te objekty. Np. bierzemy pod uwagę P cech wpływających na proces fałdowania się białka (objętość V, tęgość B, polarność P, ph punktu izoelektrycznego pi, hydrofobowość H, pole powierzchni dostępne dla rozpuszczalnika w rozwiniętym białku ASA, ułamek powierzchni niedostępnej dla rozpuszczalnika w zwiniętym białku FA). Nazwa Objętość V [Å 3 ] Tęgość B [Å 2 ] hydrofob. H [kcal/mol] punkt izoel. pi dostępna pow. ASA[Å 2 ] Ułamek ukrytej pow. FA Ala 88.6 11.500 1.800 6.00 115 0.74 Arg 173.4 14.280-4.500 10.76 225 0.64 Asn 111.1 12.820-3.500 5.41 150 0.63 Asp 114.1 11.680-3.500 2.77 160 0.62 Cys 108.5 13.460 2.500 5.05 135 0.91 Gln 138.4 14.450-3.500 5.56 190 0.62 Glu 143.8 13.570-3.500 3.22 180 0.62 Gly 60.1 3.400-0.400 5.97 75 0.72 His 153.2 13.690-3.200 7.59 195 0.78 Ile 166.7 21.400 4.500 6.02 175 0.88 Leu 166.7 21.400 3.800 5.98 170 0.85 Lys 168.6 15.710-3.900 9.74 200 0.52 Met 162.9 16.250 1.900 5.74 185 0.85 Phe 189.9 19.800 2.800 5.48 210 0.88 Pro 112.7 17.430-1.600 6.30 145 0.64 Ser 89.0 9.470-0.800 5.68 115 0.66 Thr 116.1 15.770-0.700 5.66 140 0.70 Trp 227.8 21.670-0.900 5.89 255 0.85 Tyr 193.6 18.030-1.300 5.66 230 0.75 Val 140.0 21.570 4.200 5.96 155 0.86 Średnia 141 15.4-0.5 6.0 170 0.74 Odchylenie standardowe 41 4.6 2.9 1.8 43 0.11 Skrypt Bioinformatyka DRAFT Strona 44
W ten sposób można analizować własności aminokwasów parami, bez pełnej informacji o pozostałych cechach i korelacjach między nimi. Aby uwzględnić całą zebraną informację można zastosować między innymi metodę Analizy Składowych Głównych. Tworzy się wówczas macierz N P, gdzie N jest liczbą obiektów (tu aminokwasów, 20) a P liczbą rozważanych cech tych obiektów. Każdy wiersz to punkt w P-wymiarowej przestrzeni. Zbiór danych, to "chmura" punktów w tej przestrzeni. (Rysunek - dla P=3) PCA: przeskalowuje chmurę wejściową -tak aby wszystkie wartości były porównywalne przesuwa chmure do początku układu rotuje, tak by rozrzut wzdłuż osi był jak największy (przypadek ogólny docztyczy przestrzeni P-wymiarowej, gdzie P może być >3) Rysunek. Pierwotna chmura danych Pierwotna macierz danych X: Skrypt Bioinformatyka DRAFT Strona 45
1 2 1 2 j P i N x ij - i-ty obiekt i jego j-ta cecha (i:1..n, j:1..p), np. x 11 to objętość alaniny. Wartości średnie cech: 1 j x ij N i Odchylenia standardowe poszczególnych cech: 2 1 j ( x ij j ). N i Przesunięcie chmury do początku układu oznacza, że średnia wartość każdej cechy ma być równa 0, czyli z definicji μ j =0. Przeskalowanie ma doprowadzić do tego, że odchylenia standardowe każdej cechy (od wartości średniej=0) mają być równe,np. wszystkie równe σ j =1: Powstaje nowa macierz danych Z. Elementy tej macierzy: xij j zij j Nowa macierz danych Z. Skrypt Bioinformatyka DRAFT Strona 46
Rysunek. Macierz Z i przeskalowana i przesunięta do początku układu chmura danych (j=1,2 i 4). Kolejny krok to rotacja chmury tak, by otrzymać jak największy rozrzut wzdłuż osi. Należy skonstruować wektory v j określające kierunki głównych składowych. Wektor określający kierunek osi dla cechy j w nowym układzie współrzędnych po rotacji: v j = (v j1, v j2,... v jp ) Wektory v j i v i (cechy i-tej i j-tej) są parami ortogonalne (w starych i nowych współrzędnych): P v j vi v jkvik 0, dla każdego i j, oraz długości tych wektorów są równe 1: k k 2 v 1. jk Każdy z wektorów jest kombinacją liniową pierwotnych współrzędnych.współrzędne nowej macierzy Y: y v z ij k jk jk Szukanie wektorów wskazujących kierunki składowych głównych. Wektory v j są wektorami własnymi macierzy korelacji cech C ij., czyli muszą spełniać warunek: v C v dla wartości własnych λ n. j nj jk n nk Macierz współczynników korelacji cech, C jest P P wymiarowa: 1 1 C jk ( xij j )( xik k ) zijzik N N j k i i Skrypt Bioinformatyka DRAFT Strona 47
Macierz współczynników korelacji cech: V B H pi ASA FA V 1.0000 0.7752 0.0470 0.2629 0.9527 0.3024 B 0.7752 1.0000 0.4394 0.0796 0.6397 0.4801 H 0.0470 0.4394 1.0000-0.2006-0.2178 0.8428 pi 0.2629 0.0796-0.2006 1.0000 0.2884-0.1722 ASA 0.9527 0.6397-0.2178 0.2884 1.0000 0.0927 FA 0.3024 0.4801 0.8428-0.1722 0.0927 1.0000 Wartości C ij zawsze są z przedziału od -1 do 1. Wartości zbliżone do wartości 1 lub -1 oznaczają istnienie korelacji dodatniej lub ujemnej między dwoma seriami danych. Jeśli natomiast wartość korelacji jest dużo mniejsza od wartości bezwzględnej z 1, to korelacji nie ma. Z tabeli współczynników wynika, że istnieje dość silna korelacja dodatnia między objętością a powierzchnią dostępną dla rozpuszczalnika, objętością i tęgością aminokwasu oraz między ułamkiem niedostępnej dla rozpuszczalnika powierzchni a hydrobowością. {dodać korelacje z P-olaryzowalnością} Wyznaczenie wartości własnych λ n macierzy C. c 11 cdn...... Wektor pierwszej składowej głównej odpowiada wektorowi własnemu o największej wartości własnej (kolejne są coraz mniejsze) Wzdłuz pierwszej składowej głównej jest największy rozrzut punktów - wariancja punktów zwdłuż tej osi jest max. i jest równa wartości własnej. Składowe główne: V B H pi ASA FA składowa 1 składowa 2 z tego można zrobić diagram/wykres aminokwasy składowa2(składowa1) Aminokwasy na tym diagramie pogrupują się w skupiska o określonych cechach... cdn. 4.3.2 Manualna analiza skupisk aminokwasów (s.45) Skrypt Bioinformatyka DRAFT Strona 48
4.3.3 Metoda Hierarchicznej analizy skupisk 4.3.4 Metody niehierarchicznej analizy skupisk. 4.3.5 Diagram Venn'a http://en.wikipedia.org/wiki/venn_diagram Livingstone CD, Barton GJ.,Comput Appl Biosci. (1993) 9(6):745-56, Protein sequence alignments: a strategy for the hierarchical analysis of residue conservation. Diagram Venn'a b. małe Małe P Prolina Alifatyczne Hydrofobowe I M Aromatyczne V L A C S-S G S N C S-H F Y W T H K R D E Q dodatnie Naładowane ujemne Polarne Skrypt Bioinformatyka DRAFT Strona 49
. diagram ze strony: http://alexandre.debrevern.free.fr/venn_diagram/ W R Taylor Protein Srtucture Prediction In Nucleic Acid and Protein Sequence Analysis Eds M J Bishop and C J Rawlings IRL Press 1987 Skrypt Bioinformatyka DRAFT Strona 50