Dodatek F. Dane testowe Wszystkie dane wykorzystane w testach pochodzą ze strony http://sdmc.lit.org.sg/gedatasets/datasets.html. Na stronie tej zamieszczone są różne zbiory danych zebrane z innych serwisów internetowych. Dane zapisane są w formacie znanym jako C4.5 gdzie, każdy zbiór reprezentowany jest przez dwa pliki:.names W tym pliku zawarte są opisy cech (w naszym przypadku genów), informacje o podziale na klasy (etykiety klas), oraz dziedzinę (zbiór możliwych wartości), dla każdej cechy. Schemat pliku.names przedstawia poniższy rysunek..data Ten zbiór zawiera już konkretne dane (próbki), dla każdej cechy (w naszym przypadku są to odpowiednie wartości dotyczące poziomu ekspresji kolejnych genów). Jako separator
kolejnych danych użyty jest przecinek (CSV - comma separated value). Schemat pliku.data przedstawia poniższy rysunek. Przed przystąpieniem do testów dane zostały przekonwertowane do formatu przedstawionego w dodatku E. Do tego celu został napisany prosty program konwertujący. Rys.F1. Okno programu konwertującego Aby dokonać konwersji, w pola Nazwa klasy 1 i Nazwa klasy 2 należy wpisać etykiety klas występujących w zbiorze, w pole Oznaczenie wartości brakującej wpisywana jest wartość (znak) traktowana jako wartość brakująca. Po wypełnieniu tych pól należy wybrać menu plik -> otwórz i wczytać zbiór z danymi. Po wczytaniu danych zostanie wyświetlona
liczba genów i próbek w zbiorze. Teraz można, klikając przycisk Konwertuj, zapisać dane w odpowiednim formacie (dane zostaną zapisane w pliku data.txt w bieżącym katalogu). OPIS DANYCH WYKORZYSTANYCH W TESTACH 1. ALL-AML Leukemia "Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring". Science, 286:531-537, October 1999 38 7129 dwie klasy o etykietach: ALL i AML http://www-genome.wi.mit.edu/cgibin/cancer/publications/pub_paper.cgi?mode=view&paper_id=43 Zbiór zawiera 38 próbek z badań szpiku kostnego 27 pacjentów z rozpoznaną ostrą białaczką limfoblastyczną (ALL) i 13 pacjentów z ostrą białaczką szpikową (AML). 2. Central Nervous System "Prediction of Central Nervous System Embryonal Tumour Outcome Based on Gene Expression", Letters to Nature, Nature, 415:436-442, January 2002. 60 7129 dwie klasy o etykietach: class1 i class0
http://www-genome.wi.mit.edu/mpr/cns/ Dane dotyczą badania guzów centralnego systemu nerwowego (CNS). Próbki pochodzą od pacjentów poddanych procesowi leczenia, 21 próbek pochodzi od pacjentów, którzy przeżyli (próbki z etykietą Class1) a 39 próbek od pacjentów, którzy mimo przyjmowania leków, zmarli (próbki etykietowane Class0). 3. Colon Tumor "Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays". Proceedings of National Academy of Sciences of the United States of American, 96:6745-6750, 1999 62 2000 dwie klasy o etykietach: positive i negative http://microarray.princeton.edu/oncology/affydata/index.html Zbiór zawiera 62 próbki pobrane od pacjentów cierpiących na nowotwór jelita grubego. Spośród tych próbek, 40 to biopsje z miejsc, w których rozwinął się nowotwór (próbki z etykietą negative ) a 22 próbki pobrane są ze zdrowych części jelita grubego, tych samych pacjentów (etykieta positive ). 4. Ovarian Cancer "Use of Proteomic Patterns in Serum to Identify Ovarian Cancer". The Lancet, 359:572-577, February, 2002 253
15154 dwie klasy o etykietach: Cancer i Normal http://clinicalproteomics.steem.com/ Zbiór 253 próbek, z których 162 pochodzą od pacjentek z wykrytym nowotworem jajnika (etykieta Cancer ) a 91 próbek są to próbki kontrolne (etykietowane jako Normal ). Dane zawarte w tym zbiorze są znormalizowane, tak że wartości zawierają się w przedziale <0,1>. 5. Prostate Cancer "Gene Expression Correlates of Clinical Prostate Cancer Behavior". Cancer Cell, 1:203-209, March, 2002 102 12600 dwie klasy o etykietach: tumor i normal http://www-genome.wi.mit.edu/mpr/prostate Próbki pobrane zostały od 52 pacjentów u których stwierdzono raka prostaty (etykieta tumor ) oraz od 50 zdrowych pacjentów (etykieta normal ) 6. Lung Cancer "Translation of Microarray Data into Clinically Relevant Cancer Diagnostic Tests Using Gege Expression Ratios in Lung Cancer And Mesothelioma". Cancer Research, 62:4963-4967, 2002
32 12533 dwie klasy o etykietach: MPM i ADCA http://www.chestsurg.org Klasyfikacja pomiędzy złośliwym międzybłoniakiem opłucnej (MPM) i gruczolakorakiem płuca (ADCA). Spośród 32 próbek połowa należy do klasy MPM a połowa do ADCA.