Prezentacja ilościowych danych pomiarowych Ilościowe dane empiryczne (pomiarowe) mogą mieć różną dokładność i precyzję. Oba te terminy mogą mieć rozmaite znaczenie, tutaj umownie przyjmijmy, że dokładność oznacza zgodność wyników pomiaru z rzeczywistością, zaś precyzja określa stopień powtarzalności wyników wielokrotnych pomiarów tej samej wielkości. Pomiar może być dokładny, ale nieprecyzyjny, lub niedokładny ale precyzyjny, ideałem jest pomiar precyzyjny i dokładny (Ryc.1). Empiryczne dane pomiarowe nigdy nie są doskonałe ani stuprocentowo dokładne, ani precyzyjne. Zawsze obciąża je pewien stopień niepewności: niedokładność spowodowana niedoskonałością przyrządu pomiarowego, rozrzut powtórzonych pomiarów spowodowany czynnikami przypadkowymi; wreszcie sam odczyt danych z przyrządu pomiarowego nigdy nie jest absolutnie dokładny: wartość pomiaru na skali przyrządu analogowego (np. wychyłowego miernika, biurety czy przymiaru centymetrowego) odczytujemy w sposób przybliżony najbliżej najmniejszej działki skali, zaokrąglając do tej wartości; na wyświetlaczu przyrządu cyfrowego (np. ph-metru lub wagi) ostatnia wyświetlana cyfra jest zaokrągleniem, odpowiadającym dokładności i precyzji danego przyrządu (zadeklarowanych w fabrycznej metryce każdego profesjonalnego aparatu). Niedokładnie, Niedokładnie, Dokładnie nieprecyzyjnie precyzyjnie i precyzyjnie Wszystko to składa się na niepewność pomiaru. Istnieją procedury pozwalające na oszacowanie stopnia tej niepewności na podstawie znajomości cech używanych metod i aparatury oraz stosując metody statystyczne. W tym opracowaniu nie będziemy się tymi procedurami zajmowali są one omawiane na kursach fizyki, chemii i statystyki. Tu zajmujemy się jednym tylko aspektem: właściwą prezentacją empirycznych danych liczbowych, stosownie do stopnia niepewności. Rozważmy to na następującym przykładzie: masa ciała owada (np. szarańczaka z mongolskiego stepu) zmierzona za pomocą wagi analitycznej wynosi 10,4936 g; zmierzona przy pomocy zwykłej wagi laboratoryjnej 10,5 g. Oba pomiary mogą być dokładne (tj. blisko wartości rzeczywistej) i precyzyjne (wysoko powtarzalne), ale dostarczają różnej informacji. Ostatnia cyfra w obu tych liczbach jest wynikiem przybliżenia przez zaokrąglenie: być może, prawdziwa masa wynosi 10,4935987 g nie możemy tego wiedzieć, używając wagi analitycznej możemy tylko być pewni, że ta masa wynosi 10,493 + około 0,0006 g (więcej niż 0,00055 ale mniej niż 0,00065 g). W przypadku wagi laboratoryjnej możemy stwierdzić, że ta masa wynosi 10 g + około 0,5 g (więcej niż 0,45 ale mniej niż 0,55 g). Ostatnia cyfra wszystkich empirycznych wartości pomiarowych zawsze jest niepewna. Waga analityczna dostarcza więcej informacji o rzeczywistej wartości mierzonej. W pierwszym 1
wypadku użyliśmy 6 cyfr aby wyrazić najlepsze przybliżenie wartości rzeczywistej, w drugim tylko 3. Są to cyfry znaczące. Im więcej cyfr znaczących możemy zarejestrować przy pomiarze, tym więcej mamy informacji, a mniej niepewności (używane czasem w tym kontekście terminy większa precyzja i większa rozdzielczość nie są ścisłe, chociaż mniejsza niepewność zwykle wiąże się z większą precyzją i/lub rozdzielczością metody pomiarowej). Możemy użyć tych danych do różnych celów, np. dla oceny biomasy tych owadów na stepie, znając średnie zagęszczenie osobników na jednostkę powierzchni. Ta dana liczbowa też może być podana z różnym stopniem niepewności, np. 12 tysięcy osobników ha -1, albo 12069 osobników ha -1. W pierwszym wypadku możemy sądzić, że prawdziwe zagęszczenie wynosi 10 tysięcy + około 2 tysiące osobników ha -1, gdzieś pomiędzy 11500 a 12500 osobników ha -1 ; w drugim przypadku mamy uwierzyć, że ktoś policzył dokładnie wszystkie osobniki na obszarze 1 hektara dla szarańczaków na stepie jest to zadanie niewykonalne. Jednakże, liczba ta może być wynikiem obliczeń, na przykład ktoś zebrał wszystkie szarańczaki z wielu płatów o powierzchni 1 m 2, od 0 do 3 owadów na każdym, obliczył średnią (1,2069 osobników m -2 ) i odchylenie standardowe (0,9493 osobników m -2 ), po czym pomnożył średnią przez 10000, otrzymując średnie zagęszczenie na 1 hektar. Logiczne, ale czy poprawne jest sugerowanie, że ocenę zagęszczenia przeprowadzono z tak nieprawdopodobną precyzją? Aby otrzymać biomasę tych owadów na 1 ha mnożymy masę ciała osobnika przez średnie zagęszczenie. Używając tylko danych zawierających mniej informacji, otrzymamy: 10,5 g 1200 osobników ha -1 = 126000 g ha -1, używając danych bardziej precyzyjnych otrzymamy wartość 126647,2584 g ha -1. Czy możemy rzeczywiście oszacować biomasę owadów na stepie z dokładnością do 1/10 mg? Oczywiście, nie! Aby uniknąć często popełnianego błędu fałszywej dokładności lub pozornej precyzji musimy starannie kontrolować rzeczywisty poziom niepewności danych liczbowych i podawać odpowiednią do tego liczbę cyfr znaczących. Liczby z nadmiarem cyfr nie kłamią, jeżeli idzie o rzeczywistą wartość, którą reprezentują, jednak sugerują nieprawdziwą precyzję pomiaru, co może prowadzić do błędnej interpretacji wyników (nie zawsze absurd fałszywej precyzji rzuca się od razu w oczy, jak w powyższych przykładach). Jeszcze ważniejsze jest to, że nieprawidłowo zapisane liczby są nieczytelne. Nie jest wielkim problemem, jeżeli wszystkie dane w tabeli mają taką samą liczbę miejsc dziesiętnych (nawet, jeżeli część z nich ma o 1-2 cyfry za dużo), ale tabele zapchane kilkunastocyfrowymi liczbami, w których większość nie niesie żadnej informacji, są zupełnie nieczytelne i świadczą o braku profesjonalizmu u autora. Dane pomiarowe powinny mieć tyle liczb znaczących, na ile pozwala stopień ich niepewności, wynikający z rozdzielczości, dokładności i precyzji pomiarów; w przypadku pomiarów jednorazowych decydują o tym cechy przyrządów i metod pomiarowych (zawarte w informacji fabrycznej, procedurach kalibracji aparatury itd.); w przypadku pomiarów wielokrotnych miarę niepewności szacuje się metodami statystycznymi. Dobór odpowiednio dokładnych i precyzyjnych metod i urządzeń pomiarowych zależy od celu pracy i spodziewanej liczby miejsc znaczących w uzyskiwanych wynikach nie ma sensu wykonywanie pomiarów nadmiernie rygorystycznych. W zależności od tematu badań, ważniejsza może być dokładność (przy dopuszczalnej mniejszej precyzji) kiedy zależy nam na ustaleniu absolutnych wartości zmiennych i możemy wielokrotnie powtarzać pomiary, lub odwrotnie większa precyzja, przy mniejszej dokładności (kiedy interesują nas np. różnice między grupami doświadczalnymi). 2
Nadmiar informacji niewiele znaczy, wprowadza tylko zamęt. Kiedy do wyrażenia jakiejś wartości użyjemy tylko trzech cyfr znaczących, wówczas zmiana o jednostkę na ostatnim miejscu oznaczać będzie zmianę wartości nie więcej niż o 1%. Tak niskim błędem pomiarowym mogą się poszczycić wysokiej klasy przyrządy pomiarowe. Kiedy pomiary dotyczą obiektów biologicznych, ich naturalna zmienność powoduje, że odchylenie standardowe mierzonego parametru rzadko spada poniżej 10% wartości średniej. Kiedy fizyk dokonuje wielokrotnego pomiaru, chcąc np. ustalić temperaturę wrzenia wody w danych warunkach, otrzyma rozkład wartości przypadkowo odchylonych jednej, stałej wartości, której najlepszym przybliżeniem będzie średnia wszystkich pomiarów (wartość oczekiwana); przy zachowaniu stałych warunków pomiaru i użyciu termometru wysokiej klasy, rozrzut wyników będzie niewielki, odchylenie standardowe będzie miarą niepewności samego pomiaru. Kiedy jednak biolog mierzy temperaturę wróbli, uzyska statystyczny rozkład wartości (każdy wróbel ma inną temperaturę), którego średnia i odchylenie standardowe powiedzą tylko, jaka jest najbardziej prawdopodobna temperatura wziętego na chybił-trafił wróbla, jak duża jest naturalna zmienność temperatury wróbli, ale szacowanie jednej, stałej wartości w ogóle nie ma sensu. Jest oczywiste, że większa liczba cyfr w podanym wyniku może mieć znaczenie w pierwszym przypadku, w drugim może nie mieć znaczenia. Można by zatem przyjąć najprostszą, bezpieczną zasadę, że w biologii środowiskowej liczbę cyfr znaczących można ograniczyć do trzech. W innych dziedzinach biologii np. biochemii czy biologii molekularnej, gdzie badane zmienne należą raczej do domeny chemii czy fizyki, ta reguła może być nazbyt tolerancyjna. W chemii i fizyce mogą obowiązywać bardziej restrykcyjne reguły ustalania liczby miejsc znaczących, jednak zawsze uzależnione od przyjętych założeń, klasy urządzeń pomiarowych i charakteru zmienności badanych obiektów. Poniżej podajemy najczęściej stosowane reguły w zapisie danych pomiarowych stosowanych w naukach eksperymentalnych, wraz z wersją dostosowaną do biologii środowiskowej. Zasady poprawnego postępowania odwołują się głownie do zdrowego rozsądku i można je zawrzeć w kilku regułach, które trzeba zapamiętać i zawsze stosować przy prezentacji empirycznych danych ilościowych. 1. Wartości liczbowe danych empirycznych (pomiarowych) to nie to samo, co abstrakcyjne liczby w matematyce. Znaczenie liczb 10,5, 10,50 i 10,500 jest identyczne w matematyce, ale różne jeżeli chodzi o dane empiryczne; wyniki operacji matematycznych też się różnią, np. w matematyce 255,0/7,1 = 35,91549296, ale gdy liczby te są prawidłowo zapisanymi wynikami pomiarów, to 255,0/7,1 = 36. 2. Dla każdej empirycznej wartości liczbowej liczba cyfr znaczących musi być określona według następujących reguł: a. Wszystkie cyfry inne niż zero są znaczące b. Wszystkie zera pomiędzy innymi cyframi są znaczące c. Wszystkie zera poprzedzające inne cyfry w liczbach dziesiętnych nie są znaczące d. Zera umieszczone na końcu liczb dziesiętnych są znaczące; zera na końcu liczb całkowitych są znaczące, jeżeli umieszczono je tam celowo dla wskazania stopnia pewności podanej wartości (co można ewentualnie zaznaczyć przecinkiem dziesiętnym na końcu liczby, chociaż zwykle się tego nie robi). 3
Wartość Liczba cyfr znaczących 2015 4 20,0048 6 20,4800 6 200 000, 6 [zera znaczące wskazane przez przecinek dziesiętny] 200 000 1 0,00485 3 e. Liczby całkowite (pochodzące z policzenia obiektów, lub z definicji) mają nieograniczoną liczbę cyfr (w tym zer) znaczących (np. 4 nogi ssaka, 1000 g w kilogramie, itd.). Wartość Liczba cyfr znaczących 10 000 5 [np. liczba m 2 w hektarze] 750 3 [np. liczba odnóży wija Illacme plenipes] 1 000 000 7 [np. liczba Wat w Megawat] 2. Przy wykonywaniu operacji matematycznych na danych empirycznych należy stosować następujące zasady: a. Wyniki dodawania i odejmowania mają liczbę miejsc dziesiętnych równą najmniejszej liczbie miejsc dziesiętnych składników sumowania lub odejmowania. 2,638632 + 1,0 = 3,6 2,35 0,00246 = 2,35 b. Wyniki mnożenie, dzielenia, podnoszenia do potęgi mają liczbę cyfr znaczących równą najmniejszej liczbie cyfr znaczących składników działań. Ważne jest, by wiedzieć, które zera na końcu liczb są znaczące. 2,35 3,45 =8,11 2,35 345 000 = 811 000 22 / 0,333 = 66 4,5 0,77 = 3,2 c. Logarytm dziesiętny (log 10 ) lub naturalny (ln) liczby powinien zawierać tyle miejsc dziesiętnych ile cyfr znaczących posiada liczba logarytmowana. Ta sama reguła działa w odwrotnym kierunku. log(3,456) = 0,5385 log(10 000) = 4 10 0,54 = 3,5 d. Przy złożonych operacjach matematycznych nie należy zaokrąglać wyników kolejnych działań, dopiero wynik końcowy. 4
e. Przy podawaniu średniej pomiarów wielokrotnych miarą niepewności jest odchylenie standardowe (S.D.). Liczbę cyfr znaczących powinno się ustalać w oparciu o znajomość zbadanego rozkładu, np. posługując się przedziałami ufności. Nie jest też obojętne, czy mamy tu do czynienia z rozkładem wartości pomiarowych spowodowanych przypadkowymi błędami pomiarowymi (jak ma to miejsce z reguły w fizyce i chemii), czy też z rozkładem wynikającym ze zmienności obiektów (jak to jest najczęściej w biologii). W uproszczeniu, można przyjąć następującą zasadę: wartość odchylenia standardowego zaokrągla się tak, by pozostały tylko dwie cyfry znaczące. Następnie wartość średnią należy zaokrąglić do takiej samej liczby miejsc dziesiętnych, jaką ma zaokrąglone odchylenie standardowe. W naukach ścisłych przyjmuje się, że jeżeli zaokrąglenie S.D. do jednej cyfry znaczącej nie zmienia jego wartości bardziej, niż o 10%, to tak należy postąpić (i odpowiednio dla średniej). Przykład: Obliczona średnia = 1,206897 Obliczone S.D. 0,940338 Zaokrąglone (w górę) S.D. (2 cyfry znaczące) = 0,95 Zaokrąglone (w górę) S.D. (1 cyfra znacząca) = 1 względna różnica (0,95-1)/0,95 = 5,2% Zaokrąglona średnia = 1 Obliczona średnia = 5,736842 Obliczone S.D. = 1,690852 Zaokrąglone (w górę) S.D. (2 cyfry znaczące) = 1,7 Zaokrąglone (w górę) S.D. (1 cyfra znacząca) = 2 względna różnica = (2-1,7)/1,7 = 17,6% Zaokrąglona średnia = 5,7 f. Przy wykonywaniu testów statystycznych popularne pakiety komputerowe często podają wartość prawdopodobieństwa P w postaci ułamka dziesiętnego o bezsensownie dużej liczbie miejsc dziesiętnych, czasem są to wyłącznie zera, wynikające z zaokrąglenia bardzo małej liczby. Poprawne jest podawanie dokładnej wartości P do dwóch miejsc dziesiętnych; jeżeli wartość P jest mniejsza od 0,001, należy ją przedstawić właśnie w ten sposób: P <,001. Regułą zalecaną jest nie umieszczanie zera przed przecinkiem dziesiętnym. wartość P wyliczona wartość P podawana P = 0,3751 P =,38 P = 0,0139 P =,01 P =0,00000 P <,001 P = 6,45 10-7 P <,001 3. Najlepszym sposobem prezentacji danych ilościowych, szczególnie liczb bardzo małych albo bardzo dużych, jest notacja naukowa (wykładnicza): wartość wyraża się jako liczbę o wartości pomiędzy 1 a 10, pomnożoną przez 10 w odpowiedniej potędze. Jest to równocześnie najlepszy sposób wskazywania liczby cyfr znaczących 0,000000645 6,45 10-7 3 cyfry znaczące 35 780 000 000 3,578 10 10 4 cyfry znaczące 35 780 000 000 3,57800 10 10 6 cyfr znaczących 5
W wielu zastosowaniach jeszcze dogodniejsza może być modyfikacja notacji naukowej, tzw. notacja inżynierska, w której wartość liczbowa zawiera się między 1 a 1000, a wykładnik przy mnożniku 10 jest wielokrotnością 3 (3, 6, 9, 12 itd.). Pozwala na natychmiastowe dobranie właściwego przedrostka metrycznego (SI) dla używanej jednostki (Tab. 1). Tylko cztery często używane przedrostki (centy-, hekto-, decy-, deka-) nie mieszczą się w notacji inżynierskiej (wykładniki odpowiednio -2, 2, -1, 1). 0,000000645 g 0,645 10-6 g 0,645 mg [miligramy] 35780000000 B 35,78 10 9 B 35,78 GB [gigabajty] Tab. 1. Przedrostki metryczne jednostek i notacja wykładnicza Przedrostek Skrót Mnożnik Notacja wykładnicza Przykład atto- a 0,000 000 000 000 000 001 10-18 at, attotesla femto- f 0,000 000 000 000 001 10-15 fs, femtosekunda piko- p 0,000 000 000 001 10-12 pf, pikofarad nano- n 0,000 000 001 10-9 nh, nanohenr mikro- μ 0,000 001 10-6 μm, micrometr mili- m 0,001 10-3 mg, miligram centy- c 0,01 10-2 cm, centymeter decy- d 0,1 10-1 dl (dl), decylitr deka- da 10 10 1 dag, dekagram hekto- h 100 10 2 hpa, hektopaskal kilo- k 1 000 10 3 km, kilometr mega- M 1 000 000 10 6 MW, megawat giga- G 1 000 000 000 10 9 GB, gigabajt* tera- T 1 000 000 000 000 10 12 THz, terahertz peta- P 1 000 000 000 000 000 10 15 pj, petadżul egza- E 1 000 000 000 000 000 000 10 18 EeV, Egzaelektronowolt * producenci pamięci komputerowych, używając systemu dwójkowego, jako mnożnik stosują 1GB = 1024 MB (itd.) natomiast producenci twardych dysków zazwyczaj używają systemu dziesiętnego: 1GB = 1000 MB. 6