Technologie informacyjne dla chemików



Podobne dokumenty
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Efekty kształcenia dla kierunku studiów CHEMIA studia pierwszego stopnia profil ogólnoakademicki

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Moduły kształcenia. Efekty kształcenia dla programu kształcenia (kierunku) MK_06 Krystalochemia. MK_01 Chemia fizyczna i jądrowa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA MATEMATYCZNA

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Uniwersytet Śląski w Katowicach str. 1 Wydział

SPIS TREŚCI. Do Czytelnika... 7

PRZEWODNIK PO PRZEDMIOCIE

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Analiza regresji - weryfikacja założeń

Komputerowe wspomaganie projektowanie leków

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Dopasowywanie modelu do danych

KARTA PRZEDMIOTU / SYLABUS

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Regresja linearyzowalna

KARTA KURSU. Kod Punktacja ECTS* 1

PRZEWODNIK PO PRZEDMIOCIE

SciFinder Zawartość bazy

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

QSAR i związki z innymi metodami. Karol Kamel Uniwersytet Warszawski

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu Zdrowie Publiczne ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

SCENARIUSZ LEKCJI. Czas realizacji. Podstawa programowa

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Budowa atomu. Układ okresowy pierwiastków chemicznych. Promieniotwórczość naturalna i promieniotwórczość sztuczna

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Sposoby prezentacji problemów w statystyce

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2018/2019

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

KARTA PRZEDMIOTU / SYLABUS. Zakład Statystyki i Informatyki Medycznej. tel./fax (85) dr Robert Milewski

KARTA PRZEDMIOTU / SYLABUS

KARTA PRZEDMIOTU / SYLABUS

Nauczanie na odległość

Wprowadzenie do analizy korelacji i regresji

KARTA PRZEDMIOTU / SYLABUS

MODUŁ. Wirtualne laboratorium

GEODEZJA I KARTOGRAFIA I stopień (I stopień / II stopień) Ogólnoakademicki (ogólnoakademicki / praktyczny)

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Jak kształcić studentów chemii i kierunków pokrewnych? Podręcznik nauczyciela akademickiego

Podstawowy (podstawowy / kierunkowy / inny HES) Obowiązkowy (obowiązkowy / nieobowiązkowy) Semestr 2. Semestr letni (semestr zimowy / letni)

Z-LOGN1-006 Statystyka Statistics

Chemia ogólna i analityczna Inorganic and Analitical Chemistry

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Andrzej Syguła Wirtualne Wyspy Wiedzy. E-learning jako nowa forma kształcenia

CHEMIA. Wymagania szczegółowe. Wymagania ogólne

3. Macierze i Układy Równań Liniowych

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Część A wprowadzenie do programu

Przedmiotowe Zasady Oceniania z chemii

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

KARTA PRZEDMIOTU / SYLABUS

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2015/2016

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

PRZEWODNIK PO PRZEDMIOCIE

laboratoria 24 zaliczenie z oceną

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

PRZEWODNIK PO PRZEDMIOCIE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM

Podstawy Informatyki Computer basics

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Studia I stopnia kierunek: chemia Załącznik nr 3

KARTA KURSU. Seminarium dziedzinowe 1: Multimedia w edukacji i e-learning

INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA.

Analiza autokorelacji

Chemia. Chemistry. Energetyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Rok akademicki: 2012/2013 Kod: JFM s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

MINIMALNY ZAKRES PROGRAMU STAŻU

KARTA PRZEDMIOTU / SYLABUS

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI 1. Brak

PRZEWODNIK PO PRZEDMIOCIE

FUNKCJA LINIOWA - WYKRES

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu ELEKTROLADIOLOGIA ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

Analiza współzależności dwóch cech I

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

KARTA PRZEDMIOTU. 10. WYMAGANIA WSTĘPNE: technologia informacyjna na poziomie szkoły średniej.

Transkrypt:

Technologie informacyjne dla chemików

SPONSORZY FQS Poland Sp. z o.o. (GRUPA FUJITSU) oprogramowanie dla ſirm http://www.fqs.pl/pl LABART wyposażenie laboratoriów http://www.labart.pl Merck Sp. z o.o. http://www.merck.pl Perkin Elmer http://www.perkinelmer.com PPG Industries http://www.ppg.com Wydawnictwo Helion http://helion.pl Wydawnictwo Naukowe PWN http://www.pwn.pl Maltańska Służba Medyczna Oddział Kraków http://www.malta-sluzba.med.pl/ Fabryka Pomocy Naukowych Spółka z o.o. http://sklep.fpnnysa.com.pl PATRONAT MEDIALNY Laboratoryjny Serwis Informacyjny http://laboratoria.net/pl

TECHNOLOGIE INFORMACYJNE DLA CHEMIKÓW Wydział Chemii UJ Kraków 2008

Prace zawarte w niniejszej książce podlegały recenzji merytorycznej, jednakże zostały wydrukowane na odpowiedzialność autorów. Redakcja, skład, opracowanie graficzne Iwona Maciejowska Agnieszka Węgrzyn Stefan Witkowski Weronika Rożek Monika Ruszak Publikacja Wydział Chemii Uniwersytet Jagielloński ul. Ingardena 3 30-060 Kraków ISBN 978-83-921505-4-1

Spis treści OD REDAKCJI 7 ICT W PRACY NAUKOWEJ Wacław Makowski CHEMIA W INTERNECIE O WYKORZYSTANIU ZASOBÓW INTERNETU W PRACY NAUKOWEJ CHEMIKA 11 Grzegorz Fic, Grażyna Nowak STRATEGIE PRZESZUKIWANIA INTERNETOWYCH BAZ STRUKTUR CHEMICZNYCH 15 Maciej Szaleniec MODELOWANIE ZŁOŻONOŚCI W CHEMII METODAMI STATYSTYCZNYMI Z WYKORZYSTANIEM PAKIETU STATISTICA 19 Grzegorz Mazur, Marcin Makowski, Mateusz Brela CACHE-AWARE LOAD-BALANCING ALGORITHM FOR COMPUTATIONAL CHEMISTRY APPLICATIONS 27 Krzysztof Kruczała, Łukasz Łańcucki, Tomasz Spałek, Zbigniew Sojka REKONSTRUKCJA PROFILI STĘŻENIA WIDM 1D EPRI METODĄ VC-GA: WPŁYW SZUMÓW NA POPRAWNOŚĆ ODWZOROWANIA 32 Krzysztof Czarniecki BADANIE PRZEMIAN FAZOWYCH Z WYKORZYSTANIEM CYFROWEJ REJESTRACJI OBRAZU MIKROSKOPOWEGO PRÓBKI 37 Dariusz Szczepanik, Janusz Mrozek COMMUNICATION THEORY OF CHEMICAL BOND 42 Dorota Majda, Filipe A. Almeida Paz, Robert G. Bell, Jacek Klinowski DISCOVERING NEW ZEOLITIC FRAMEWORKS 44 Ewa Luchter-Wasylewska, Magdalena Górny OBLICZENIA KOMPUTEROWE STAŁYCH KATALITYCZNYCH DLA REAKCJI KATALIZOWANYCH ENZYMATYCZNIE: DLA STUDENTÓW I NAUKOWCÓW 46 Grzegorz Stopa KOMPUTEROWE WSPOMAGANIE EKSPERYMENTÓW CHEMICZNYCH 47 Grzegorz Stopa SUBSTANCJE CHEMICZNE I BHP 48

ICT W NAUCZANIU CHEMII Barbara Dębska WYKORZYSTANIE RÓŻNYCH FORM PREZENTACJI MATERIAŁÓW EDUKACYJNYCH W KURSACH UDOSTĘPNIONYCH NA PORTALU WWW.E-CHEMIA.PL 51 Radosław Bomba WORTAL NAUKOWY WIEDZA I EDUKACJA JAKO PRZYKŁAD WYKORZYSTANIA INTERNETU DRUGIEJ GENERACJI DO CELÓW NAUKOWO-EDUKACYJNYCH 57 Małgorzata Miranowicz ZDALNIE O NAUCZANIU ZDALNYM CZYLI MODDLE KROK PO KROKU 58 Agnieszka Jańczyk, Iwona Maciejowska A NEW CHEMGAPEDIA UNIT FOCUSED ON SOLID PHASE CHEMISTRY SOLID PROJECT 62 Jan Rajmund Paśko CZY ISTNIEJE POTRZEBA PROGRAMÓW SPRAWDZAJĄCYCH WIEDZĘ? 65 Agnieszka Węgrzyn, Stefan Witkowski PROJEKT AUTOR OGRANICZANIE PLAGIATÓW W PISEMNYCH PRACACH STUDENTÓW 68 Jan Rajmund Paśko, Danuta Jyż-Kuroś, Aleš Chupáč CZY NAUCZYCIELOWI CHEMII POTRZEBNE SĄ UMIEJĘTNOŚCI PROGRAMISTY? 72 Krzysztof Czarniecki PRAKTYCZNA METODA WYKONANIA KLASYCZNEJ ANALIZY JAKOŚCIOWEJ Z CYFROWĄ WIZUALIZACJĄ EKSPERYMENTÓW 75 Barbara Guzowska-Świder, Michał Urbanek LEKCJA MULTIMEDIALNA WSPOMAGAJĄCA NAUCZANIE INTERPRETACJI WIDM W PODCZERWIENI 80 Małgorzata Nodzyńska ZASTOSOWANIE METOD STATYSTYCZNYCH NA ZAJĘCIACH Z DYDAKTYKI CHEMII 85 Paweł Cieśla, Jan Rajmund Paśko KOMUNIKACJA I WYMIANA INFORMACJI POMIĘDZY STUDENTAMI A NAUCZYCIELAMI AKADEMICKIMI 91 Jan Rajmund Paśko, Wioleta Kopek PROGRAM WIZUALIZACYJNY MACROMEDIA FLASH JAKO ELEMENT KSZTAŁCENIA PRZYSZŁYCH NAUCZYCIELI 95 E. Rybska, J. Błoszyk, R. Bajaczyk ZASTOSOWANIE TECHNOLOGII INFORMACYJNYCH W NAUCZANIU PRZEDMIOTU BIOGEOGRAFIA NA WYDZIALE BIOLOGII UAM W POZNANIU 99 Grzegorz Stopa CHEMIA W INTERNECIE WIARYGODNOŚĆ ŻRÓDEŁ 100

Grzegorz Stopa KOMPUTER POMOC CZY ZAGROŻENIE DLA DYDAKTYKI CHEMII 101 Kinga Mlekodaj, Piotr Legutko, Jan Kaczmarczyk, Stefan Witkowski ROZWÓJ SYSTEMU POMOCY W PORTALU ARIA 102 Monika Pasionek, Jan Kaczmarczyk, Stefan Witkowski BEZPIECZEŃSTWO W LABORATORIUM ZASTOSOWANIE METOD BLENDED-LEARNINGOWYCH W NAUCZANIU PIERWSZEJ POMOCY 103 Aleksandra Kalisz, Stefan Witkowski, Anna Migdał-Mikuli BADANIE SKUTECZNOŚCI NAUCZANIA METODĄ BLENDED-LEARNING NA PRZYKŁADZIE KURSU PODSTAW CHEMII 104 Monika Ruszak, Agnieszka Węgrzyn, Stefan Witkowski STANDARYZACJA NARZĘDZI E-NAUCZANIA 105 W GLOBALNYM TYGLU NOWEGO NAUCZANIA Marek Frankowicz, Artur Michalak INFORMATYCZNE WSPOMAGANIE STUDIÓW CHEMICZNYCH - DOŚWIADCZENIA EUROPEJSKIE 113 Marek Frankowicz, Janusz Mrozek UWAGI O E-LEARNINGU W POLSCE 117 Colin Osborne USING ICT IN CHEMISTRY TEACHING 121 Lucjan Chmielarz, Marcin Molenda, Marek Frankowicz, CHEMEPASS NOWOCZESNY SYSTEM EZAMINU ELEKTRONICZNEGO 122 Agnieszka Węgrzyn, Paweł Kozyra ZASTOSOWANIE NARZĘDZI ICT DO EWALUACJI I PODNOSZENIA JAKOŚCI KSZTAŁCENIA 126 Weronika Rożek, Iwona Maciejowska, Andrzej Kotarba, Stefan Witkowski ITINERER DLA PISZĄCYCH PRACE DYPLOMOWE 128 ROK WCZEŚNIEJ 137 Indeks autorów 140

Od Redakcji Współczesny naukowiec i wykładowca chemii jest aktywnym odbiorcą zaawansowanych narzędzi, takich jak technologie wspomagające proces oceniania, laboratoria wspomagane komputerowo, materiały multimedialne, portale edukacyjne, technologie pracy grupowej i zarządzania, w tym zarządzania jednostkami naukowymi, bibliotekami cyfrowymi oraz wydawnictwami internetowymi. Burzliwie rozwijają się także dziedziny takie jak modelowanie procesów, data-mining, sieci neuronowe i semantyczne. W Polsce aktywnie rozwijają się różnorodne portale związane z chemią: zawierające materiały edukacyjne dla konkretnych odbiorców (np: www.e-chemia.pl), poświęcone konkretnym gałęziom chemii i technologii chemicznej (np. ChemgaPedia), a także zawierające ciekawostki i żarty chemiczne, oraz portale społecznościowe. Produktem międzynarodowych projektów edukacyjnych kształcenia ustawicznego (lifelong learning programme), m.in. CITIES, SOLID, CHEMEPASS, stają się materiały multimedialne i interaktywne, technologie wspomagające proces oceniania. Zasoby Internetu wykorzystywane są zarówno w pracy naukowej chemików, jak i w działalności dydaktycznej. Ilość informacji w sieci jest tak wielka, że trzeba opanować szczególne strategie przeszukiwania internetowych baz np. baz struktur chemicznych. Dostęp do ogromnej ilości gotowych tekstów kusi studentów możliwością popełniania bezkarnych plagiatów. Potrzeba minimalizacji tego procederu wywołała zainteresowanie metodami zapobiegania i przeciwdziałania, również bazujących na zasobach Internetu i technologiach informacyjnych. Na wykładach i podczas zajęć laboratoryjnych, a zwłaszcza w trakcie przygotowania studentów do ćwiczeń praktycznych, coraz częściej stosowana jest cyfrowa wizualizacja eksperymentów podobnie dzieje się na poziomie szkoły średniej. Przykładem może być cyfrowa rejestracja obrazu mikroskopowego próbki do badania przemian fazowych. Technologie informacyjne stały się standardowym elementem kształcenia nauczycieli szkół średnich, i to zarówno w zakresie umiejętności korzystania z już istniejących, jak i tworzenia własnych aplikacji. Narzędzia analizy statystycznej w pakietach profesjonalnego oprogramowania stały się podstawą modelowania układów chemicznych oraz są wykorzystywane do oceny badań z zakresu dydaktyki chemii. Skomplikowane obliczenia molekularne są obecnie coraz łatwiejsze do przeprowadzenia ze względu na przyjaźniejsze dla użytkownika interfejsy i nakładki do obsługi. Rozwija się oprogramowanie do zarządzania laboratoriami chemicznymi. Platformy do zdalnego nauczania, komunikacji ze studentami i przeprowadzania zdalnych egzaminów stają się coraz bardziej popularne.

Organizując Sympozjum Technologie informacyjne dla chemików pragnęliśmy zaproponować platformę wymiany opinii pomiędzy użytkownikami zaawansowanych technologii informacyjnych. Technologie, które są tematem Sympozjum (same nie należąc do sfery wiedzy chemicznej) coraz silniej wpływają na przebieg pracy chemika naukowca i dydaktyka. Zmiany dokonują się w trzech głównych obszarach: edukacji, wyposażeniu warsztatu naukowego oraz organizacji wspólnych przedsięwzięć naukowych. W wielu przypadkach już obecnie widać, że zastosowanie odpowiednich aplikacji spowodowało znaczące zwiększenie produktywności bez wyraźnego wzrostu ponoszonych nakładów. Można przypuszczać, że w ciągu kilku kilkunastu lat dojdzie do głębokiej reorganizacji w obszarze nauki oraz edukacji, która w części będzie skutkiem powszechnej dostępności narzędzi jeszcze niedawno rzadko stosowanych. Iwona Maciejowska, Agnieszka Węgrzyn, Stefan Witkowski

ICT w pracy naukowej

Technologie Informacyjne dla Chemików 11 CHEMIA W INTERNECIE O WYKORZYSTANIU ZASOBÓW INTERNETU W PRACY NAUKOWEJ CHEMIKA Wacław Makowski Uniwersytet Jagielloński, Wydział Chemii, ul. Ingardena 3, 30 060 Kraków Wprowadzenie Internet jest obecnie podstawowym narzędziem w pracy naukowej, umożliwiającym dostęp do różnych informacji. Specyſiką chemii jako dyscypliny naukowej jest wielka liczba związków chemicznych stanowiących przedmiot jej badań i związana z nią ogromna różnorodność informacji wykorzystywanych w badaniach naukowych. Celem niniejszej pracy jest przegląd i próba klasyſikacji różnego typu zasobów internetowych przydatnych w pracy naukowej chemików. Dla naukowca najpoważniejszym źródłem informacji są publikacje naukowe. Obecnie wszystkie poważne czasopisma udostępniają w formie elektronicznej artykuły publikowane na ich łamach. Natomiast podręczniki i monograſie naukowe nie są szeroko udostępniane w Internecie ze względu na ograniczenia wynikające z praw autorskich. Dodatkowe ułatwienie w wyszukiwaniu publikacji naukowych stanowią bibliograſiczne bazy danych. Oprócz artykułów naukowych w czasopismach, w Internecie można znaleźć także inne publikacje, które mogą być pomocne w pracy naukowej, m.in. materiały konferencyjne, wykłady, raporty z realizacji projektów badawczych, patenty, biuletyny techniczne i noty aplikacyjne. Szczególnie godnym polecenia źródłem wiedzy są prace doktorskie, publikowane w formie elektronicznej przez wiele amerykańskich i europejskich uniwersytetów. Internet jest także dobrym źródłem informacji o właściwościach różnych związków chemicznych i materiałów. Obok prostych danych liczbowych (tj. gęstość, temperatura topnienia i wrzenia, ciśnienie pary nasyconej, współczynnik załamania światła, stała dielektryczna) w naukach chemicznych są wykorzystywane bardziej złożone formy danych (m.in. widma i dane spektroskopowe, dyfraktogramy i struktury krystaliczne, trójwymiarowe modele makrocząsteczek). Istnieje wiele komercyjnych i ogólnodostępnych internetowych baz dotyczących różnych substancji, udostępniających tego typu dane. Poza wspomnianymi powyżej publikacjami i bazami danych w Internecie istnieje wiele innych zasobów, które mogą być źródłem informacji naukowych. Należą do nich m.in.: internetowe serwisy towarzystw naukowych, strony jednostek naukowych, witryny ſirm oferujących odczynniki, aparaturę naukową lub oprogramowanie oraz autorskie strony naukowców. Niezależnie od klasyſikacji wynikającej z rodzaju źródła i jego zawartości, naukowe zasoby internetowe można podzielić na ogólnodostępne (bezpłatne) oraz licencyjne (odpłatne). W Polsce dostęp do zasobów licencyjnych jest realizowany w ramach tzw. Wirtualnej Biblioteki Nauki. Na jej stronach internetowych (http://vls.icm.edu.pl) można znaleźć szczegółowe informacje dotyczące licencji wykupionych przez poszczególne jednostki naukowe. Podobne informacje są także zwykle udostępniane przez centralne biblioteki poszczególnych jednostek.

12 W. Makowski Wybór zasobów internetowych przydatnych w pracy naukowej chemików Przedstawiony poniżej wybór chemicznych stron internetowych jest z konieczności subiektywny, wynika bowiem głównie z zainteresowań naukowych autora. Niemniej jednak stanowi on dosyć reprezentatywny przegląd różnorodnych typów zasobów internetowych, które mogą być przydatne dla chemików zajmujących się pracą naukową. Internetowe wersje czasopism naukowych (licencyjne) Wydawnictwa American Chemical Society (http://pubs.acs.org/about.html). Wydawnictwa Elsevier system ScienceDirect dostępny bezpośrednio (http://www.sciencedirect.com), oraz za pośrednictwem Wirtualnej Biblioteki Naukowej (http://vls.icm.edu.pl/ss.html). Wydawnictwa Springer (http://www.springerlink.com). Wydawnictwa Royal Society of Chemistry (http://www.rsc.org/publishing/journals). Wydawnictwa Wiley InterScience (http://www3.interscience.wiley.com). Bibliograſiczne bazy danych (licencyjne) Chemical Abstracts (http://www.cas.org, w Polsce http://bazy.bg.pwr.wroc.pl). Science Citation Index (http://isiknowledge.com lub http://zatoka.icm.edu.pl/sci). Scopus (http://www.scopus.com), zintegrowana z systemem Sc iencedirect. Wyszukiwarki informacji naukowych i patentów Scirus (http://www.scirus.com). Google Patent Search (http://www.google.com/patents). PatentStorm (http://www.patentstorm.us). Polska wersja bazy Europejskiego Urzędu Patentowego (http://pl.espacenet.com). Katalogi chemicznych stron WWW Chemdex (http://www.chemdex.org). Katalog stron www związanych z chemią, ſirmowany przez University of Sheſſield. Ponad 7000 odsyłaczy. Links for Chemists (http://www.liv.ac.uk/chemistry/links/links.html). Fragment większego katalogu stron internetowych (WWW Virtual Library), dotyczący chemii, redagowany przez chemików z University of Liverpool. Zawiera ponad 8000 odnośników. Serwisy chemiczne ChemCenter (http://www.chemistry.org). Serwis internetowy Amerykańskiego Towarzystwa Chemicznego (ACS). ChemSoc (http://www.rsc.org/chemsoc). Serwis naukowy brytyjskiego Królewskiego Towarzystwa Chemicznego (RSC).

Technologie Informacyjne dla Chemików 13 Komercyjne bazy danych ſizykochemicznych (licencyjne) CrossFire (http://info.crossſiredatabases.com) stworzony przez Elsevier MDL system udostępniający m.in. bazy danych Beilstein (zawierającą dane o własnościach ſizykochemicznych ponad 9 mln związków organicznych oraz opisy ponad 11 mln reakcji i bioorganicznych) oraz Gmelin (zawierającą informacje o ponad 2 mln związków i materiałów nieorganicznych). Do korzystania z bazy CrossFire przeznaczone jest specjalne oprogramowanie (CrossFire Commander). Knovel (http://www.knovel.com) baza wiedzy zawierająca ponad 1250 książek, materiałów konferencyjnych i wydawnictw technicznych, z zakresu chemii, nauk przyrodniczych, inżynierii i nauk materiałowych, pochodzących od ponad 40 wydawców. IC SD - Inorganic Crystal Structure Database (http://icsdweb.ſiz-karlsruhe.de) baza struktur krystalicznych związków nieorganicznych (100 tys. struktur). Ogólnodostępne bazy danych ſizykochemicznych NIST Chemistry WebBook (http://webbook.nist.gov/chemistry). Baza danych National Institute of Standards and Technology (USA), zawierająca dane ſizykochemiczne dla kilku tysięcy związków chemicznych, także widma IR, UV-VIS i MS. WebElements (http://www.webelements.com). Najczęściej wykorzystywany układ okresowy w Internecie. Zawiera wiele informacji o właściwościach ſizycznych i chemicznych pierwiastków oraz prostych związków nieorganicznych. SDBS Integrated Spectral Data Base System for Organic Compounds (http://riodb01.ibase.aist.go.jp/sdbs/cgi-bin/cre_index.cgi?lang=eng). Zintegrowana baza widm (IR, UV-VIS, NMR) związków organicznych, udostępniana przez japoński Narodowy Instytut Badań Naukowych ChemIDplus (http://chem.sis.nlm.nih.gov/chemidplus). Firmowana przez National Library of Medicine (USA) baza danych o ponad 360 tys. związków organicznych i nieorganicznych zawiera m.in. numery CAS oraz wzory strukturalne (2D i 3D). Database of Ze olite Structures (http://www.iza-structure.org/databases). Bazy danych o strukturach zeolitów, prowadzona przez International Zeolite Association (IZA). Zawiera m.in. parametry strukturalne, rysunki oraz trójwymiarowe modele. MinCryst - Crystallographic and Crystallochemical Database for Mineral and their Structural Analogues (http://database.iem.ac.ru/mincryst). Baza zawierająca dane krystalograſiczne ok. 7 tys. minerałów i ich analogów. Dostępne trójwymiarowe rysunki ich struktur. Protein Data Bank (http://www.rcsb.org/pdb/home). Baza udostępnia dane o strukturach białek, m.in. trójwymiarowe modele cząsteczek. ChemExper (http://ww.chemexper.com). Baza danych o odczynnikach chemicznych. Zawiera połączenia z internetowymi katalogami większości producentów odczynników. MatWeb (http://www.matweb.com). Baza danych ſizykochemicznych materiałów (metali, tworzyw sztucznych, kompozytów i ceramiki)

14 W. Makowski Oprogramowanie chemiczne i obliczenia on-line ChemSketch (http://www.acdlabs.com/download/chemsk.html) program przeznaczony do rysowania wzorów strukturalnych i tworzenia trójwymiarowych modeli cząsteczek oraz do rysowania schematów aparatury. Wyposażony w generator nazw systematycznych prostych związków organicznych. ISIS Draw (http://www2.mdli.com/downloads/) popularny program służący do rysowania wzorów strukturalnych cząsteczek oraz mechanizmów reakcji. reakcji. Zawiera bibliotekę wzorów związków organicznych. Jmol (http://jmol.sourceforge.net) interaktywna przeglądarka trójwymiarowych struktur chemicznych (czasteczk i makrocząsteczk, kryształów, materiałów). Oprogramowanie typu open-source, może działać jako samodzielny program na PC albo jako aplet na stronie internetowej, zintegrowany z przeglądarkami stron WWW. F *A*C*T - Facility for the Analysis of Chemical Thermodynamics. (http://www.crct.polymtl.ca/fact, zakładka FACT-Web) oprogramowanie służące do obliczeń termodynamicznych on-line. Umożliwia np. znalezienie składu równowagowego mieszanin gazów oraz roztworów wodnych. Wyszukiwanie publikacji i danych Obecnie w Polsce większość uczelni i instytutów naukowych ma wykupiony dostęp do internetowych wydań najważniejszych czasopism naukowych, dlatego korzystanie z nich nie sprawia szczególnych trudności. Wyszukiwanie artykułów w czasopismach ułatwia bibliograſiczna baza danych Scopus, zintegrowana z serwisami internetowymi wydawnictw naukowych i dzięki temu umożliwiająca bezpośredni dostęp do znalezionego tekstu. Można też korzystać z baz Sc ience Citation Index i Ch emical Abstracts. Ze względu na ograniczony dostęp do licencyjnych baz wiedzy, wyszukiwanie szczegółowych danych dotyczących związków chemicznych i materiałów może sprawiać większe trudności. Do ich wyszukiwania można zastosować wyspecjalizowane wyszukiwarki naukowe (np. Scirus), ale dobre wyniki przynosi też użycie Googl e a, pod warunkiem zastosowania odpowiednich kryteriów wyszukiwania, np. uwzględniających oczekiwany rodzaj i format poszukiwanego źródła. W przypadku poszukiwania informacji dotyczących określonej substancji warto posługiwać się numerem CAS (Chemical Abstract Service registry number), stanowiącym jej jednoznaczny identyſikator. Należy też zwrócić uwagę na możliwość przeglądania i przeszukiwania książek, w tym monograſii naukowych, w serwisie Books Google oraz w internetowej księgarni Amazo n (opcja Sear ch Inside). Podsumowanie Po kilkunastu latach rozwoju Internetu znalazły w nim swoje miejsce tradycyjne czasopisma naukowe, które długo jeszcze pozostaną najważniejszym sposobem rozpowszechniania wyników badań naukowych. Warto jednak pamiętać, że oprócz nich istnieją i wciąż powstają nowe różnorodne zasoby internetowe, które mogą być użyteczne w pracy naukowej chemików.

Technologie Informacyjne dla Chemików 15 STRATEGIE PRZESZUKIWANIA INTERNETOWYCH BAZ STRUKTUR CHEMICZNYCH Grzegorz Fic1*, Grażyna Nowak2 1Zakład Informatyki Chemicznej, 2Katedra Chemii Fizycznej, Politechnika Rzeszowska, al. Powstańców Warszawy 6, 35 959 Rzeszów, *gfic@prz.edu.pl W ciągu niespełna 20 lat Internet stał się największym na świecie zbiorem informacji, w tym także informacji z zakresu chemii i dziedzin pokrewnych. Jednakże, nawet najcenniejsza informacja staje się dopiero wówczas użyteczną, gdy potraſimy do niej dotrzeć i ją odzyskać. W [1] przedyskutowano wybrane metody i narzędzia odzyskiwania zasobów chemicznych dostępnych w Internecie, w [2] internetowe wyszukiwarki (ogólne, naukowe i specjalistyczne chemiczne) informacji chemicznej, katalogi (ogólne i tematyczne) zasobów WWW z zakresu chemii i dziedzin pokrewnych oraz internetowe zasoby z zakresu chemii analitycznej, w [3] internetowe zasoby z zakresu chemii i technologii organicznej, w [4] zasoby związane z chromatograſią, zaś w [5] internetowe zasoby z zakresu chemii nieorganicznej. W niniejszej pracy przedyskutowano wybrane zagadnienia związane z pozyskiwaniem informacji z internetowych baz struktur chemicznych. Strategie wyszukiwania informacji o strukturach chemicznych Współcześnie w internetowych serwisach chemicznych stosowane są następujące strategie przeszukiwania zbiorów (baz) struktur i związków chemicznych: wyszukiwanie tekstowe (elementami kwerendy wyszukiwawczej mogą być: nazwa, fragment nazwy, autor, producent, dystrybutor i inne); wyszukiwanie struktur o określonym wzorze sumarycznym (kwerenda: pełny lub częściowy wzór sumaryczny); wyszukiwanie tekstowo liczbowo logiczne (np. nazwa, zdeſiniowane przedziały wartości różnych parametrów ſizycznych, chemicznych, biologicznych oraz wartości logiczne zaistnienia określonych cech, rys. 1); wyszukiwanie wszystkich struktur tożsamych ze zdeſiniowaną w kwerendzie wyszukiwawczej (Exact); wyszukiwanie wszystkich struktur zawierających podstrukturę zdeſiniowaną w kwerendzie (Substructure); wyszukiwanie wszystkich struktur będących podstrukturami struktury zdeſiniowanej w kwerendzie (Superstructure); wyszukiwanie struktur podobnych wyszukiwane są wszystkie struktury spełniające zdeſiniowane przez użytkownika warunki podobieństwa strukturalnego (Similarity), wyszukiwanie prekursorów, tj. struktur, z których można otrzymać zdeſiniowaną strukturę (Precursors, stosowana m.in. w bazie BioPath [7]), Flex jeden z najnowszych typów strategii, stosowany m.in. w wyszukiwarce bazy NLM (National Library of Medicine) ChemIDplus [8]. Wyszukiwane są struktury posiadające identyczne szkielety jak zdeſiniowana struktura, przy czym podczasbadania tożsamości rozpatrywane są stereochemiczne i tautomeryczne właściwości

16 G. Fic, G. Nowak poszczególnych wiązań. Oprócz identyſikacji struktur tożsamych strategia umożliwia wyszukanie ich m.in. soli, wodzianów, mieszanin oraz polimerów; Rys. 1. Niektóre z elementów tekstowo- kwerendy wyszukiwawczej liczbowo-logicznej w bazie PubChem Compound, wchodzącej w skład systemu wyszukiwawczego Entrez [6] Flexplus rozszerzenie strategii Flex, które dopuszcza zmiany w stereochemii i tautomerii wiązań wchodzących w skład szkieletu. W porównaniu do strategii Flex dodatkowo wyszukane zostaną m.in. związki, w których atom metalu jest związany ze zdeſiniowanym szkieletem; wyszukiwanie hybrydowe kwerenda złożona z wielu warunków (strukturalnych, tekstowych, liczbowych i logicznych) wymaganych lub/oraz zabronionych w wyszukanych związkach/strukturach (stosowane są operatory logiczne oraz arytmetyczne). Rys. 2. Hybrydowe wyszukiwanie w serwisie ChemExper.com. W pierwszym polu deſiniuje się operator logiczny (AND, OR, NOT, ELSOR), w drugim atrybut (jeden z pokazanych na rysunku), w trzecim operator arytmetycznyy (=, >, <, >=, <=, = =~), w czwartym wartość, w piątym granice przedziału dopuszczalnych wartości. Strukturalne elementy kwerendy wprowadza się poprzez wybranie i deſiniowanie kodu SMILES [9] lub, po kliknięciu Draw, narysowanie w oknie apletu podstruktury, która następnie jest konwertowanaa na kod SMILES. Podstruktury rozmyte Ważnym elementemm wielu kwerend wyszukiwawczych jest fragment struktury che- micznej podstruktura. Podstruktury mogą być deſiniowane w sposób ostry (tzn. każ- dy atrybut opisujący podstrukturę ma dokładnie jedną wartość) lub rozmyty. Prekurso- rem podstruktur rozmytych są struktury Markusha (rys. 3), czyli struktury chemicznee zawierające zmiennee fragmenty. Koncepcja tych struktur została wprowadzona w celu zwartej reprezentacji klas lub zbiorów związków o podobnych strukturach.

Technologie Informacyjne dla Chemików 17 OH R5 R2 R1 R1= * * Cl Br I * Cl * CH * R2= CH 3 CH 2CH3 2 CH 2 OH R3 R4 (CH 2 )m Rys. 3. Po lewej - przykład struktury Markusha. Po prawej - typy zmienności struktur Markusha: 1. zmienność podstawników (podstawnik może mieć postać jednej ze zdeſiniowanych podstruktur, np. R3 = metyl lub etyl), 2. zmienność homologów (pod-stawnik jest jednym z przedstawicieli danego szeregu homologów, np. R4 = alkil), 3. zmienność pozycji (zdeſiniowany podstawnik może wystąpić w jednej z kilku wskazanych pozycji, tutaj R5 = amina może wystąpić przy dowolnym atomie pierścienia, chociaż, biorąc pod uwagę fakt, iż niektóre pozycje są już zajęte przez inne podstawniki, R5 może być położony w pozycji orto lub meta w stosunku do grupy OH), 4. Zmien-ność liczebności (deſiniuje się dozwolone krotności występowania jakiegoś fragmentu-meru struktury, np. m = 1-3). 4. O O O O 1. C O C C O C 5. A C A A = any O bond1 Cl C C O Br C H O O C H 2. O O O C C C C C C C C C C $ 1 $ 1 = {C, H} C C C H bond1 = {single, double} 6. O bond1 O O O 3. O O O O $ 1 C A N C C H C C H C H C A A = any - {H} C Cl O C C C $ 1 = {C, H} A = any bond1 = {single, double} Rys. 4. Przykłady rozmytych podstruktur. W polach numerowanych przedstawiono deſinicje podstruktur rozmytych, po ich prawej stronie wszystkie lub niektóre podstruktury spełniające te deſinicje (poz. 1: podstruktura zdeſiniowana ostro, bez rozmytości). W podstrukturach rozmytych atrybuty określające właściwości węzłów atomów (np. rodzaj atomu, liczba sąsiadów, liczba wolnych elektronów, położenie atomu w pierścieniu, układzie aromatycznym, łańcuchu alifatycznym i inne) lub/oraz krawędzi wiązań (np. typ wiązania, położenie przestrzenne) mogą przyjmować więcej niż jedną wartość - dla każdego atrybutu określa się zbiory dozwolonych lub zakazanych wartości. Każda rozmyta podstruktura reprezentuje zatem nie jedną, ale zbiór konkretnych podstruktur. Informacje o rozmytości podstruktur wprowadza się z wykorzystaniem specjalnych formularzy lub za pomocą specjalnej notacji SMATRS [10], należącej do rodziny notacji SMILES. Oprócz wykorzystania koncepcji rozmytych podstruktur w formułowaniu kwerend wyszukiwawczych w systemach do przeszukiwania zbiorów struktur chemicznych znalazły one również inne zastosowania, m.in. w: opisach patentów chemicznych, badaniach korelacji struktura właściwości (np. QSAR Quantitative Structure-Activity Relationship), opisach bibliotek kombinatorycznych (w syntezie kombinatorycznej). Podobieństwo struktur chemicznych Podstawą do określenia podobieństwa dwóch struktur chemicznych jest wyznaczenie dla każdej z nich tzw. Fingerprint (odcisk palca), charakteryzującego dwuwymiarową strukturę cząsteczki chemicznej. Istnieje kilka typów Fingerprints [11]. Pierwszy bazuje na koncepcji Structural Keys (klucza struktury). Jest to wektor, którego poszczególne elementy określają występowanie w cząsteczce określonej podstruktury: 1 podstruktura obecna, 0 brak podstruktury. Tutaj zasadniczym problemem jest zależność

18 G. Fic, G. Nowak wygenerowanego klucza od zastosowanego programu generatora zbiór podstruktur reprezentowanych w kluczu struktury jest charakterystyczny dla określonego generatora. Ten problem nie występuje w Hashed Fingerprints, które są tworzone w wyniku wygenerowania zbioru wszystkich możliwych dla danej cząsteczki podstruktur: dwu, trzy, cztero,, n atomowych. Tutaj oczywiście brak jest wcześniej zdeſiniowanego zbioru podstruktur, zaś zbiory generowanych przez komputer podstruktur są bardzo liczne. Przykładowo, dla 4 atomowej cząsteczki fosgenu zostanie wygenerowanych 7 podstruktur: jedna 4 atomowa, trzy 3 atomowe i trzy 2 atomowe. Do określania podobieństwa struktur chemicznych wykorzystuje się różne jego miary [11]. Jedna z nich to Tanimoto_similarity, zdeſiniowana: c Tanimoto _ similarity = gdzie: a + b + c c jest liczbą wspólnych podstruktur dla dwóch porównywanych struktur A i B (odpowiadające sobie pozycje Fingerprints mają wartości 1), a i b są liczbami podstruktur (jedynek) występujących wyłącznie odpowiednio w cząsteczce A oraz cząsteczce B. Tanimoto_similarity przyjmuje wartości od 0 (brak podobieństwa) do 1 (identyczne struktury). Inna miara podobieństwa to Euclidean_distance (ED), zdeſiniowany: ( a i b i ) ED = gdzie: a i oraz b i są wartościami i-tych elementów Fingerprints dla dwóch porównywanych struktur A i B. Inaczej: wartość ED jest pierwiastkiem kwadratowym z liczby tych pozycji Fingerprints cząsteczek A i B, które posiadają przeciwne wartości (1,0 lub 0,1). Im większa wartość ED tym mniejsze podobieństwo struktur. Najczęściej w wyszukiwarkach struktur chemicznych zaimplementowana jest miara Tanimoto_similarity, ze zdeſiniowaną przez użytkownika minimalną (maksymalną) wartością (w %, np. 70 oznacza, że kwerendę wyszukiwawczą będą spełniać tylko te struktury, dla których wartość Tanimoto_similarity, obliczona w odniesieniu do struktury zdeſiniowanej w kwerendzie, jest nie mniejsza niż 0.7). BIBLIOGRAFIA 1. G. Fic, G. Nowak, Przemysł Chemiczny 82 (2003) 1331. 2. B. Dębska, G. Fic (Eds.), Information Systems in Chemistry 2. Oſicyna Wydawnicza Politechniki Rzeszowskiej, Rzeszów 2004. 3. G. Fic, G. Nowak, Przemysł Chemiczny 85 (2006) 587. 4. B.Guzowska-Świder, Wiadomości Chemiczne, 60 (2006) 609. 5. B. Dębska, Fic G. (Eds.), Information Systems in Chemistry 3. Oſicyna Wydawnicza Politechniki Rzeszowskiej, Rzeszów 2006. 6. Entrez, the Life Sciences Search Engine, http://www.ncbi.nlm.nih.gov/sites/gquery 7. Biochemical Pathways Database (BioPath), http://www.molecular-networks.com/biopath/ 8. ChemIDplus Advanced, http://chem.sis.nlm.nih.gov/chemidplus/ 9. D. Weininger, J. Chem. Inf. Comput. Sci. 28 (1988) 31, 29 (1989) 97, http://www.daylight.com/smiles. 10. SMARTS, http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html 11. Fingerprints - Screening and Similarity, http://www.daylight.com/dayhtml/doc/theory/theory.ſinger.html. 2

Technologie Informacyjne dla Chemików 19 MODELOWANIE ZŁOŻONOŚCI W CHEMII METODAMI STATYSTYCZNYMI Z WYKORZYSTANIEM PAKIETU STATISTICA Maciej Szaleniec Instytut Katalizy i Fizykochemii Powierzchni PAN, Niezapominajek 8, 30 239 Kraków Od wieków znajdowanie zależności było i jest jedną z podstawowych metod poznawania świata. Poprzez doszukiwanie się korelacji pomiędzy pewnymi procesami, zbiorami danych i obserwacji, staramy się zrozumieć otaczający nasz świat. Gwałtowny postęp nauki rozpoczął się dopiero wtedy, gdy badacze zaczęli stosować metodę naukową, która z oderwanych obserwacji tworzy spójne zbiory danych, a następnie odnajduje istniejące pomiędzy nimi zależności. W wyniku tego powstają empiryczne reguły, które po dogłębnej analizie dają podstawy do sformułowania Praw Przyrody. Wspomniana wyżej metoda naukowa jest stosowana z powodzeniem od początku nowożytnej nauki. Badacze zawsze starają się sprowadzić badane zależności do jak najprostszej postaci matematycznej z reguły do postaci równań liniowych, czasem hiperbolicznych czy parabolicznych. Takie podejście ma wiele zalet, wśród których należy wymienić możliwość przedstawienia zależności na dwuwymiarowym wykresie czy w postaci prostego równania, które łatwo sobie wyobrazić, a co za tym idzie i zrozumieć. Niestety nie wszystkie badane zjawiska poddają się linearyzacji albo są na tyle proste, że jesteśmy w stanie przedstawić je w niewyszukanej formie matematycznej. Czasami odpowiednia formuła istnieje, ale jest nam nieznana i na odkrycie jej moglibyśmy poświęcić wiele lat naszej pracy. Coraz częściej również badacze napotykają zjawiska i procesy zależne jednocześnie od wielu parametrów, które w różnym stopniu wpływają na obserwowane zjawisko (dobrym przykładem jest choćby pogoda, która zależy od bardzo wielu parametrów: rozkładu temperatury, wilgotności, ciśnienia itp.; pogody nie da się obliczyć prostym równaniem liniowym). Co więc ma zrobić chemik chcący opisać złożony mechanizm reakcji albo farmakolog opisujący interakcje leku z receptorem? Na szczęście w sukurs przychodzą nowoczesne techniki statystyczne, takie jak np. regresja wieloraka. Podstawą są obserwacje czyli dane Punktem wyjścia do poszukiwania zależności jest oczywiście rzetelne zgromadzenie danych. Z reguły jesteśmy w stanie dokonać fundamentalnego podziału zebranych danych na te, które chcemy przewidywać (czyli tak zwaną zmienną zależną) oraz te, które posłużą nam za przesłanki czyli zmienne niezależne. W skrajnie prostym przypadku, gdy mamy tylko jedną zmienną zależną i jedną niezależną, wybór ten nie jest bardzo istotny, gdyż obie zmienne mogą się wymieniać rolami. Na przykład prosta obserwacja, że im grubsze drzewo (zmienna niezależna) tym starsze (zmienna zależna) daje się łatwo przekształcić na im starsze, tym grubsze. Druga zależność jest jednak poprawniejsza, gdyż prawidłowo identyſikuje przyczynę i skutek w końcu to w wyniku przyrostu kolejnych słojów w miarę życia drzewa (starzenia się) staje się ono grubsze, a nie na odwrót. Należy jednak bardzo uważać, gdyż z faktu korelacji nie wynika związek przyczynowo skutkowy. Albo dokładniej: z faktu arbitralnego wyboru pewnej zmiennej jako niezależnej nie wynika związek przyczynowo skutkowy ze zmienną zależną. Gdybyśmy zestawili ceny samochodów, jakimi jeżdżą rodziny z cenami

20 M. Szaleniec ich domów, najprawdopodobniej uzyskalibyśmy całkiem dobrą dodatnią korelację to jednak nie wysoka cena samochodu powoduje wyższą cenę domu. Przyczyna korelacji tych parametrów zależy od zewnętrznego czynnika, a mianowicie od wielkości dochodów danej rodziny. Podsumowując, znalezienie korelacji mówi tylko o współzmienności. Innymi słowy statystyka nigdy nie zastąpi myślącego człowieka, bo to ostatecznie na drodze rozumowania i zewnętrznych przesłanek możemy zrozumieć korelacje. Do znalezienia prawidłowej zależności potrzebujemy wielu przykładów. Im większa złożoność zjawiska (im więcej zmiennych niezależnych będziemy musieli użyć), tym więcej przypadków należy zgromadzić. Niestety nie ma jasnej reguły określającej ile takich przypadków mieć należy. Im więcej tym lepiej. Rygorystyczna reguła zakłada, że powinniśmy mieć 10 razy więcej przypadków niż zmiennych. Minimalna ilość przypadków musi być większa o 1 niż szacowanych zmiennych (w przeciwnym razie nie ma możliwości matematycznego rozwiązania regresji wielorakiej). Ponieważ jestem biochemikiem, posłużę się dla zilustrowania tego artykułu przykładem z mojej pracy badawczej modelowaniem aktywności biologicznej enzymu, dehydrogenazy etylobenzenowej (EBDH). EBDH katalizuje reakcję syntezy ponad dwudziestu drugorzędowych alkoholi alkiloaromatycznych i alkiloheterocyklicznych [1]. Pytanie, na jakie chciałbym znaleźć odpowiedź z pomocą statystyki, jest następujące: co powoduje, że enzym reaguje z jednymi substancjami chemicznymi szybciej, a z innymi wolniej? Z analogicznymi problemami zmagają się medyczni chemicy pracujący nad komputerowo wspomaganym projektowaniem leków (CADD computer aided drug desing), starając się odpowiedzieć na pytanie, jakie czynniki powodują, że niektóre substancje działają mocniej, a niektóre słabiej na dany receptor. Metody analizy korelacyjnej znajdują również swoje zastosowanie w chemii analitycznej w przewidywaniu czasu retencji nowych analitów (tzw. QSRR quantitative structure retention relationship). Postanowiłem zbadać problem reaktywności enzymu gromadząc dane eksperymentalne (a więc mierząc szybkości reakcji dla różnych substratów czyli związków chemicznych, z którymi reaguje enzym) oraz opisując związki chemiczne różnymi ſizycznymi parametrami pochodzącymi z obliczeń kwantowo chemicznych oraz ze zwyczajnego opisu ich kształtu [2]. Właściwości chemiczne opisywały takie parametry kwantowo chemiczne, jak największy i najmniejszy cząstkowy ładunek chemiczny, przesunięcie chemiczne H NMR i C NMR w centrum reakcji, częstość drgania rozrywanego wiązania C H, energie poziomów HOMO (jako przybliżenie potencjału jonizacyjnego) i LUMO (jako przybliżenie powinowactwa elektronowego) oraz różnica pomiędzy orbitalami HOMO i LUMO (jako przybliżenie absolutnej twardości związku). Własności topologiczne i wielkościowe opisane zostały takimi parametrami, jak ilość ciężkich atomów, ilość podstawników w pierścieniu benzenowym, lokalizacja podstawników, masa molowa, całkowita energia elektronów itp. Posłużyłem się również deskryptorami pochodzenia eksperymentalnego, wykorzystywanymi w badaniach QSAR (quantitative structure activity relationship) takich jak stała Hammetta σ, Taſta E S czy hydrofobowości π, objętość molowa (V m ) czy refrakcja molowa (MolRef) [3]. Do prowadzenia modelowania metodami regresyjnymi musimy operować na zmiennych, które są liczbami. Nie wszystko jednak da się opisać parametrami liczbowymi czasem dysponujemy opisem (np. kształtem cząsteczki) albo skalą jakościową (np. subiektywną oceną aktywności biologicznej). Wtedy dane należy odpowiednio zakodować. Najlepiej posłużyć się metodą zero jedynkową, gdyż arbitralne przypisanie większych wartości jakiejś kategorii cech (np. kolorom czarnemu 0, różowemu 1, a białemu 2)

Technologie Informacyjne dla Chemików 21 może prowadzić do artefaktów wynikających z kodowania (np. możemy uzyskać mylny związek ilościowy, w którym kolory o wyższym kodzie będą powodowały większą zmianę parametru niezależnego, a przecież wartość kodu zależy od naszego widzimisie). W moim przykładzie do opisu rozmieszczenia podstawnika w pierścieniu aromatycznym posłużyłem się tzw. metodą 1zN. Możliwe było obsadzenie jednej z trzech pozycji (patrz Rys. 1) każdemu potencjalnemu miejscu lokalizacji przypisałem jedną zmienną, która przyjmuje wartość zero, jeżeli w danym miejscu jest tylko atom wodoru, lub 1, jeżeli przyłączony jest tam jakiś inny, dowolny ciężki atom. W ten sposób podstawnik w miejscu para (pozycja trzecia) opisują trzy liczby: 0 dla pierwszej pozycji, 0 dla drugiej i 1 dla trzeciej. Wadą takiej metody jest mnożenie zmiennych do prawidłowego opisu jednej cechy musiałem stworzyć trzy zmienne liczbowe. a) b) c) CH 3 CH 3 CH 3 HO HO OH Rys. 1. Kodowanie zmiennej jakościowej lokaliza podstawnika OH w molekule etylofenolu. Kodowanie poszczególnych zmiennych liczbowych metodą 1zN: a) 1 0 0, b) 0 1 0, c) 0 0 1. Narzędzie statystyczne W swojej pracy badawczej posługuję się pakietem STATISTICA 7.1 [4], który zawiera rozbudowany moduł analiz regresyjnych. W ramach ilustracji mojego artykułu wykorzystałem zrzuty ekranowe właśnie z tego pakietu. Chcąc zastosować opisane metody statystyczne do eksploracji zebranych przez siebie danych, czytelnik może posłużyć się również innymi pakietami statystycznymi i statystyczno chemicznymi, wyposażonymi w bardziej zaawansowane techniki modelowania, takie jak np. SPSS, Cache Pro, czy Cerius2. Macierz korelacji Skoro mamy już zbiór danych (który powstał w wyniku naszej ciężkiej naukowej pracy) i mamy jasny pogląd na to, którą zmienną chcemy przewidywać (zmienna zależna szybkość reakcji) należy rozpocząć analizę naszego zbioru. Bardzo często badania naukowe mogą dostarczyć nam bardzo wielu różnych parametrów, z których w jakiś sposób musimy wybrać te, które będą przydatne w naszym modelu. Najłatwiej jest zlokalizować zależności liniowe i zgodnie z regułą Brzytwy Ockhama Bytów nie mnożyć, fikcyj nie tworzyć, tłumaczyć fakty jak najprościej właśnie od najprostszych modeli należy zaczynać. Zgodnie z paradygmatem Hammeta [5] i metodologią ilościowych zależności między strukturą a aktywnością (QSAR) [3], zmienną zależną (stałą szybkości reakcji) należy przedstawić w postaci logarytmicznej. Analiza liniowych korelacji z pomocą macierzy pozwala w szybki i prosty sposób spojrzeć na wszystkie (liniowe) zależności w naszym zbiorze danych, na podstawie których często możemy wiele wywnioskować na temat naszego problemu badawczego. Analiza korelacyjna zwraca nam tabelę, gdzie nazwy zmiennych są widoczne zarówno w nagłówkach kolumn, jak i wierszy (Tabela 1). Wartości w komórkach przedstawiają wartość liniowej korelacji R Pearsona. Pogrubioną czcionką zaznaczono tylko te zależności, które są istotne statystycznie (a więc te, gdzie test Studenta wykazał p<0.05, dowodząc, że prawdopodobieństwo braku liniowej korelacji jest mniejsze niż 5%). Im

22 M. Szaleniec wartość parametru korelacji R jest bliższa 1 (lub 1) tym silniej liniowo związane są dane zmienne. Dodatni znak oznacza proporcjonalność zmiennych (np. im grubsze drzewo tym starsze) zaś ujemny znak współczynnika korelacji oznacza zależność odwrotnej proporcjonalności to znaczy im jedna zmienna jest większa, tym druga mniejsza (np. im dłużej się opalam, tym mniej jestem blady). Na przekątnej tabeli mamy oczywiście rząd jedynek to współczynniki korelacji zmiennych samych ze sobą z oczywistych względów, gdy na obu osiach wykresu umieścimy tę samą zmienną, uzyskamy idealną prostą o maksymalnej wartości R. Pierwszym krokiem analizy jest lokalizacja tych zmiennych, które w istotnie statystyczny sposób korelują ze zmienną zależną (log k cat ). Są to parametry przydatne do budowy liniowego modelu regresyjnego. Już na tym etapie będziemy w stanie ustalić, czy problem jest prosty, czy złożony jeżeli prosty, to może znajdziemy jedną zmienną, która wysoko koreluje ze zmienną zależną (np. 0.95). Wtedy być może warto ograniczyć się do prostego modelu regresji z jedną zmienną niezależną. Gdy jednak nie mamy tyle szczęścia (tak jak w moim przypadku, gdzie najwyższe R wynosi 0.72), wybieramy te zmienne, które wydają się nam najbardziej interesujące i przechodzimy do dalszej analizy. Tab. 1. Macierz korelacji. Zmienne korelujące w sposób istotny statystycznie są wyróżnione pogrubieniem. Im wyższa liczba tym silniejsza korelacja. log k cat k cat sigma E S Pi V m MolRef Min Mulliken log k cat 1.00 0.87-0.56 0.62-0.72-0.43-0.34-0.56 k cat 0.87 1.00-0.55 0.44-0.59-0.39-0.33-0.47 sigma -0.56-0.55 1.00-0.05 0.34-0.16-0.22 0.45 E S 0.62 0.44-0.05 1.00-0.62-0.73-0.74-0.27 Pi -0.72-0.59 0.34-0.62 1.00 0.54 0.41 0.89 Sr -0.26-0.12-0.12-0.46-0.17 0.24 0.23-0.44 Fh2o -0.65-0.57 0.39-0.41 0.92 0.31 0.23 0.94 Foct -0.63-0.55 0.38-0.36 0.87 0.25 0.20 0.92 V m -0.43-0.39-0.16-0.73 0.54 1.00 0.96 0.16 MolRef -0.34-0.33-0.22-0.74 0.41 0.96 1.00 0.04 Min Mulliken -0.56-0.47 0.45-0.27 0.89 0.16 0.04 1.00 Kolejnym krokiem jest sprawdzenie, jakie są korelacje pomiędzy wybranymi przez nas zmiennymi. Może się bowiem zdarzyć, że w naszym zbiorze są zmienne liniowo zależne. Oznacza to, że w wyniku prostych przekształceń matematycznych jesteśmy w stanie uzyskać jedną z drugiej (np. wiek przedstawiony w latach i dniach) albo powiązane bardzo mocną zależnością liniową (np. cena produktu z wielkością opakowania). Ponieważ w przypadku, gdy zmienna niezależna koreluje dobrze z jakimś parametrem będzie również świetnie korelować ze zmiennymi zależnymi od niej liniowo, zanim przystąpimy do budowy modelu regresyjnego musimy wybrać, którą z nich się posłużymy. Błędem bowiem jest użycie ich obu, gdyż prowadzi to bardzo często do wyeliminowania obu zmiennych (ze względu na sposób testowania istotności statystycznej zmiennych niezależnych; ponadto jest to błąd metodologiczny). Końcowym etapem analizy korelacyjnej zmiennych jest graſiczna ocena zidentyſikowanych zależności za pomocą wykresów rozrzutu pozwala to sprawdzić, czy nie uzyskaliśmy istotnej wartości korelacji jedynie przypadkiem. Bardzo często lekko wygięte zależności paraboliczne lub logarytmiczne są dość dobrze opisywane również

Technologie Informacyjne dla Chemików 23 przez prostą musimy gołym okiem zweryſikować, czy zależność jest faktycznie liniowa. Czasem wyjątkowo dobre parametry liniowej korelacji otrzymujemy w wyniku wystąpienia dwóch skupisk punktów nietworzących prawdziwej korelacji liniowej (patrz Rys. 2). Wszystkie powyżej wspomniane przypadki eliminują zmienną z dalszej analizy. -0.66-0.68-0.70-0.72-0.74 r 2 = 0.5734; r = 0.7572; p = 0.0043 q min NBO -0.76-0.78-0.80-0.82-0.84-0.86-0.88 2980 2990 3000 3010 3020 3030 3040 3050 ν C-Hs [cm -1 ] Rys. 2. Przykład "fałszywej" wysokiej korelacji liniowej. Parametr R jest istotny statystycznie i wskazuje na dobrą korelację (R=0.7572), tymczasem powstały trend jest artefaktem powstałym z połączenia dwóch skupisk trendem liniowym. Regresja wieloraka Mając wybrane parametry, które nieźle korelują z naszą zmienną zależną, możemy przystąpić do budowy modelu regresyjnego [6]. Zakładamy na wstępie, że wszystkie zebrane przez nasz przypadki będą dobrze do modelu końcowego pasowały. Musimy się jednak liczyć z tym, że nie uda nam się znaleźć zależności opisujących doskonale wszystkie przypadki (dla złożonych problemów jest to raczej pewne). Model składający się z wielu parametrów możemy uzyskać na kilka sposobów. Pierwszym jest ręczny, oparty na intuicji lub doświadczeniu dobór zmiennych, które mogą opisać nasze zjawisko. Czasami, gdy badane zależności są dość dobrze opisane w literaturze, możemy oczekiwać, że konkretne zmienne znajdą się w równaniu. Wykonujemy wtedy tzw. regresję standardową, z uwzględnieniem wszystkich wybranych przez nas parametrów wszystkie zadane zmienne zostaną użyte w tworzeniu modelu liniowego. Dla celu przykładu wybrałem kilka zmiennych, które w istotnie statystyczny sposób korelują z szybkością reakcji (tutaj oznaczonej jako log k cat ) oraz jedną, która z nią zupełnie nie koreluje. Tabela 2 przedstawia wyniki takiej procedury dostarczając parametry statystyczne naszego modelu. Zmienne zaznaczone pogrubieniem są istotne statystycznie (ich związek liniowy ze zmienną zależną spełnił postawione kryteria alfa), natomiast pozostałe są nieistotnie statystycznie. W nagłówku podano również parametr R (opisujący jak mocno dane przewidywane przez model korelują z danymi eksperymentalnymi), R 2 oraz skorygowane R 2. Wiemy dobrze, że parametr R 2 opisuje ilość zmienności opisaną przez model (w tym przypadku ponad 95% zmienności). Z tym, że w regresji wielorakiej parametr ten obniżony jest w skorygowanym R 2 ze względu na dodatkowe stopnie swobody wprowadzane przez kolejne zmienne (dla modelu z jedną zmienną R 2 jest równe

24 M. Szaleniec skorygowanemu R 2 ). Oznacza to, że nie powinniśmy zbytnio się cieszyć widząc wysokie R 2 czasem wprowadzanie zbyt wielu zmiennych w stosunku do ilości przypadków prowadzi do swoistego przeſitowania (over-ſitting) i możemy uzyskać nieprawdziwy model (o R 2 równym nawet 1). Natomiast parametrem, który pozwala nam porównywać modele jest wynik testu Fischera F im większy, tym lepszy model. Tab. 2. Wynik standardowej regresji wielorakiej: R= 0.9770, R2= 0.9545, Skoryg. R2= 0.90914 F(6,6)=21.012, p<.00087, Błąd std. estymacji: 0.15237. BETA znormalizowane współczynniki liniowe (określające względną istotność zmiennych), B nieznormalizowane współczynniki kierunkowe, t wartość testu Studenta, poziom p prawdopodobieństwo, że parametr nie jest związany liniową zależnością ze zmienną niezależną. BETA BETA B B t poziom p W. wolny 6.7029 4.68059 1.43207 0.202092 Es 1.36815 0.355642 0.7351 0.19109 3.84700 0.008490 Pi -1.93150 0.504239-1.0586 0.27637-3.83054 0.008654 MolRef 0.71103 0.525557 0.0553 0.04087 1.35291 0.224838 Dipol -1.66484 0.230922-1.3034 0.18079-7.20954 0.000361 LUMO -1.19228 0.241775-69.7673 14.14764-4.93138 0.002627 GAP -0.69413 0.409920-24.6718 14.56991-1.69334 0.141334 log k cat = 1.36 E s 1.93 Pi + 0.7 MolRef 1.66 dipol 1.19 LUMO 0.69 GAP + 6.7 (Model 1) Jaki jest kolejny krok postępowania? Otóż uzyskaliśmy całkiem niezłą regresję, ale mamy nieistotne zmienne (oraz stałą), które trzeba wyeliminować (podkreślone części równania). Tak długo jak części modelu nie spełniają kryterium alfa nie możemy twierdzić, że jest ono prawdziwe. Ponieważ parametr GAP istotnie statystycznie korelował z szybkością reakcji, a teraz jest nieistotny w całym modelu, należy zrobić to ostrożnie posługując się regresją krokową (wsteczną). Wsteczna regresja zaczyna od kompletu zmiennych i będzie wyrzucała te, które są nieistotnie skorelowane za każdym razem testując istotność statystyczną pozostawionych w równaniu parametrów. Pozwoli ona nam wyeliminować nieistotną zmienną MolRef (po jej wyrzuceniu parametr GAP stanie się istotny). Tab. 3. Wynik krokowej regresji wielorakiej (wszystkie parametry istotne statystycznie). R= 0.9699 R 2 = 0.9407 Skoryg. R 2 =0.8983 F(5,7)=22.214 p<.00037 Błąd std. estymacji: 0.16116, BETA - znormalizowane współ. liniowe (określające względną istotność zmiennych), B nieznormalizowane współ. kierunkowe, t - wartość testu Studenta, poziom p prawdopodobieństwo, że parametr nie jest związany liniową zależnością ze zmienną niezależną. BETA BETA B ΔB t poziom p W. wolny 12.4012 2.15934 5.74306 0.000703 Es 1.12136 0.322895 0.6025 0.17349 3.47282 0.010366 Pi -1.44882 0.376871-0.7941 0.20656-3.84435 0.006339 Dipol -1.72375 0.239854-1.3495 0.18778-7.18666 0.000180 LUMO -1.69073 0.223825-98.9347 13.09733-7.55380 0.000131 HOMO 1.09753 0.239098 40.7784 8.88358 4.59031 0.002513 Jak widać z Tabeli 3 uzyskaliśmy równanie (Model 2), w której wszystkie zmienne (oraz wyraz wolny) są istotne. Parametry R są nieznacznie tylko niższe, ale F jest wyższe (co wskazuje na większą dobroć modelu). Uzyskane równanie ma postać log k cat = 1.12 E s 1.4 Pi 1.7 dipol 0.99 LUMO 1.1 GAP + 12.4 (Model 2)

Technologie Informacyjne dla Chemików 25 Współczynniki przed zmiennymi nie są jednak stałymi regresji, które znamy z normalnej regresji liniowej są to tak zwane współczynniki beta, które zostały znormalizowane tak, abyśmy mogli porównywać wzajemną wagę parametrów. Z naszego równania wynika, że największy wpływ na szybkość reakcji ma moment dipolowy oznaczony zmienną dipol i największym parametrem beta ( 1.7). Parametry, które mają znak minus przed stałą wpływają ujemnie na zmienną zależną (im są większe, tym w naszym przypadku wolniej reaguje dany związek), te zaś, które mają wartość dodatnią, wpływają pozytywnie na zmienną zależną (gdyby w naszym przypadku była taka zmienna, to jej większa wartość dla danego przypadku przyspieszałaby reakcję). Aby samodzielnie obliczyć wartość log k cat musimy wykorzystać stałe kierunkowe B z Tabeli 2. Jak widać z poziomów p wszystkie zmienne i wyraz wolny są istotnie statystycznie. Kolejnym krokiem jest przedstawienie graſiczne naszej korelacji. Nie możemy wykonać klasycznego wykresu typu y(x), bo mamy wiele zmiennych niezależnych zamiast tego sporządzamy wykres rozrzutu wartości przewidywanej przez eksperyment (szybkości reakcji) z wartością przewidywaną przez model (Rys. 3). W naszym przykładzie mamy jeden przypadek solidnie odstający (1,4-dietylobenzen). Wykres rozrzutu dla modelu 2 2.6 przew. log k cat =0.0909 +0.9407 eksp. log k cat przewidywane log k cat 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 1,4-diethylbenzene 0.4 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 eksperymentalne log k cat Rys. 3. Korelacyjny wykres rozrzutu zestawiający wyniki eksperymentalne z danymi obliczonymi przez model regresyjny. (R = 0.9699; p = 0.00000; R 2 = 0.9407). Linia ciągła oznacza trend regresji, linia przerywana 95% zakres przedziału ufności. Walidacja zewnętrzna Uzyskanie modelu istotnego statystycznie nie oznacza automatycznie, że jest on prawidłowy. Czasem mimo wykorzystania regresji krokowej (wstecznej lub postępującej) następuje zbyt dokładne dopasowanie modelu do danych, przez co traci on zdolność poprawnego przewidywania dla przypadków nim nie objętych. Zbyt dobre parametry statystyczne (R i R skorygowane bardzo bliskie 1) świadczą o tym, że równanie ma zbyt wiele stopni swobody za dużo zmiennych i uzyskany model jest fałszywy. Dlatego dobrą metodą jest stosowanie tak zwanej walidacji zewnętrznej. W tym celu jeszcze przed rozpoczęciem modelowania dobrze jest wybrać (najlepiej losowo) pewną grupę kontrolną czyli kilka przypadków, których nie uwzględnimy w zbiorze danych do