Zastosowanie danych hiperspektralnych i sztucznych sieci neuronowych do klasyfikacji gatunków drzewiastych Karkonoskiego Parku Narodowego
|
|
- Michał Stefaniak
- 7 lat temu
- Przeglądów:
Transkrypt
1 UNIWERSYTET WARSZAWSKI Wydział Geografii i Studiów Regionalnych Edwin Raczko Zastosowanie danych hiperspektralnych i sztucznych sieci neuronowych do klasyfikacji gatunków drzewiastych Karkonoskiego Parku Narodowego Rozprawa doktorska w zakresie nauk o Ziemi dyscyplina geografia Rozprawa doktorska przygotowana pod kierunkiem dr. hab. Bogdana Zagajewskiego Warszawa, marzec 2017
2 2
3 Oświadczenie autora rozprawy: Świadomy odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została napisana przez mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z obowiązującymi przepisami. Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur związanych z uzyskaniem doktoratu data i podpis autora rozprawy Oświadczenie promotora rozprawy: Oświadczam, że niniejsza praca została przygotowana pod moim kierunkiem i stwierdzam, że spełnia ona warunki do przedstawienia jej w postępowaniu doktorskim. Tekst rozprawy został sprawdzony w systemie plagiat.pl data i podpis promotora rozprawy 3
4 4
5 Słowa kluczowe klasyfikacja, sztuczne sieci neuronowe, dane hiperspektralne, klasyfikacja gatunków drzew Keywords classification, artificial neural networks, hyperspectral data, tree species classification Abstract Knowledge of tree species composition in forest is an important topic in forest management. Accurate tree species maps allow acquiring more details of forest biophysical variables. This research focused on developing methods of tree species identification using aerial hyperspectral data. Research area was the Karkonoski National Park located in southwestern Poland. High resolution (3,35m) APEX hyperspectral data (288 spectral bands in range from 413 to 2440 nm) were used as a basis for tree species classification. Beech (Fagus sylvatica L.), birch (Betula pendula Roth), alder (Alnus Mill.), larch (Larix decidua Mill), pine (Pinus sylvestris L.) and spruce (Picea abies L. Karst) were classified. Noisy bands (including water vapor absorption range) were taken out of whole dataset before band selection procedure. Remaining bands went thought PCA (Principal Component Analysis) analysis to find out bands with highest information load. Each band had its information load assessed and was ranked based on amount of information it held. Finally 40 most informative bands were selected for final classifications. Feed forward multi-layered-perceptron with single hidden layer was applied. To simulate such network we used R statistical program and package nnet. Methods of the best artificial neural network architecture determination (number of neurons in hidden layer) and network training parameters were used. The output maps were verified using field collected data. Final tree species maps cover whole area of KPN; achieved median overall accuracy of 87%, with median producer accuracies for all classes exceeding 68%. Best classified classes were spruce, beech and birch with median producer accuracies of 93%, 88% and 83% respectively. Class pine achieved lowest median producer and user accuracies of 68% and 75%. Results show great potential in hyperspectral data as tool for identifying tree species location in diverse mountainous forest. 5
6 Na początku było Słowo 6
7 Wstęp Teledetekcja hiperspektralna Procedury korekcji obrazów hiperspektralnych Procedury przetwarzania danych hiperspektralnych Klasyfikacja obrazów teledetekcyjnych Ocena dokładności klasyfikacji Procedury wyboru danych wykorzystanych w klasyfikacji Lotnicze obrazy hiperspektralne APEX Klasyfikacja drzewostanów na podstawie obrazów hiperspektralnych Sztuczne sieci neuronowe Perceptron wielowarstwowy Algorytm wstecznej propagacji błędu Charakterystyka symulatora sztucznych sieci neuronowych nnet Zastosowanie sztucznych sieci neuronowych do klasyfikacji drzewostanu Obszar i obiekt badawczy Warunki przyrodnicze Karkonoszy Roślinność Karkonoszy Metodyka Pozyskanie danych Pozyskanie terenowych danych wzorcowych do klasyfikacji i weryfikacji Przygotowanie zestawu danych do uczenia i weryfikacji Procedura wyboru kanałów spektralnych Przygotowanie Numerycznego Modelu Terenu, Numerycznego Modelu Pokrycia Terenu i Znormalizowanego Numerycznego Modelu Pokrycia Terenu Przygotowanie maski drzewostanu Optymalizacja struktury sieci neuronowej Iteracyjna ocena dokładności klasyfikacji Klasyfikacja zobrazowań APEX sztucznymi sieciami neuronowymi Wyniki Dokładność korekcji atmosferycznej zobrazowań APEX Analiza informacyjności zobrazowania APEX Optymalizacja struktury sztucznej sieci neuronowej Rozmieszczenie analizowanych gatunków drzewiastych Wysokość analizowanych gatunków drzewiastych Przydatność obrazów APEX i sztucznych sieci neuronowych do klasyfikacji gatunków drzewiastych Różnice udziału gatunków drzew w KPN uzyskanego na podstawie klasyfikacji i z danych oficjalnych Porównanie wyników klasyfikacji APEX z dostępnymi danymi KPN Dyskusja na temat czasu wykonania badań terenowych Podsumowanie i wnioski Literatura Spis rycin Spis tabel
8 8
9 Wstęp Zarządzanie zasobami środowiska leśnego wymaga dokładnej inwentaryzacji oraz informacji o dynamice zmian zachodzących w ekosystemie leśnym, dotyczy to zarówno komponentów biotycznych, jak i abiotycznych. Główny nacisk powinien być położony na monitoring składu gatunkowego poszczególnych zbiorowisk, ich rozmieszczenia przestrzennego i ocenę kondycji (Shen i inni, 2010). Z uwagi na rozległość obszarów leśnych, tradycyjne kartowanie lasu jest trudne i kosztochłonne (Peerbhay i inni, 2013). Z drugiej strony wzrost wiedzy ekologicznej i leśnej oraz wzrost zasobności materialnej krajów wysoko rozwiniętych, zachęca do przebudowy drzewostanów zgodnie z warunkami siedliskowymi. Pozwala to zachować bioróżnorodność, gdyż coraz częściej las postrzegany jest nie tylko jako obszar gospodarczej uprawy drzew, ale też jako dom dla zwierząt i siedlisko cennych roślin (Martinez del Castillo i inni, 2015). Tradycyjne podejście do leśnictwa nakazuje wykonywanie taksacji zasobów leśnych z wykorzystaniem obserwacji terenowych, powtarzanych co pewien czas, wspartych fotointerpretacją zdjęć obszarów leśnych (Martin i inni, 1998; Bergsen i inni, 2015). Takie podejście do problemu taksacji zasobów leśnych jest często drogie, wymaga dużych nakładów pracy i czasu oraz jest poważnym wyzwaniem organizacyjnym (Peerbhay i inni, 2013). Klasyczne metody określania składu gatunkowego są szybko rozbudowywane o teledetekcję, bazującą na interakcji między falą elektromagnetyczną a strukturami anatomicznymi, morfologicznymi oraz procesami fizjologicznymi zachodzącymi w badanych roślinach, dostarczając unikatowych informacji o obiektach. Szczególne miejsce w teledetekcji zajmuje teledetekcja hiperspektralna. Jest to technologia rejestrująca i przetwarzająca dane pozyskane w sposób zdalny w wąskich zakresach widma elektromagnetycznego, w co najmniej 40 ciągłych spektralnych kanałach (Goetz i inni, 1985). W 1988 roku Międzynarodowe Towarzystwo Fotogrametrii i Teledetekcji (International Society for Photogrammetry and Remote Sensing ISPRS) zdefiniowało teledetekcję i fotogrametrię jako dział nauk technicznych zajmujący się pozyskiwaniem wiarygodnych informacji o obiektach fizycznych i ich otoczeniu drogą rejestracji, pomiaru i interpretacji obrazów lub ich reprezentacji cyfrowych, uzyskiwanych dzięki sensorom niebędącym w bezpośrednim kontakcie z tymi obiektami (Statut II ISPRS, Lazaridou i Patmios, 2012). Są to zaawansowane metody, wymagające skomplikowanych algorytmów oraz odpowiednio przygotowanej kadry analitycznej. 9
10 Jednym z najtrudniejszych obiektów badań są obszary górskie. Wynika to z ograniczonej dostępności terenu i mnogości zachodzących procesów środowiskowych (np. w gradiencie wysokości). Zastosowanie teledetekcji umożliwia pozyskanie danych z rozległych terenów w krótkim czasie według identycznej, powtarzalnej i obiektywnej metody. Prowadzenie badań nad środowiskiem metodami bliższymi naukom przyrodniczym, jak biologia czy leśnictwo, na tak rozległym obszarze dostarcza wielu ciekawych i cennych wyników, ale nie jest w stanie dostarczyć całościowej wiedzy na temat całego obszaru zainteresowania. Połączenie różnych metod badawczych pozwoli uzyskać wiarygodny obraz stanu i zmian zachodzących na analizowanym obszarze (Brovkina i inni, 2017). Motywacją do podjęcia niniejszej pracy była zwiększająca się dostępność nowoczesnych narzędzi oraz danych (często bezpłatnych), które pozwalają opracować metody analizy stanu środowiska poprzez dokumentowanie zasobów środowiska i jego dynamicznych zmian. Jako obszar badawczy został wybrany teren Karkonoskiego Parku Narodowego, który po katastrofalnych wydarzeniach lat osiemdziesiątych XX w. odradza się zaskakująco szybko, a znaczna część drzewostanu Karkonoszy poważnie wówczas naruszona, jest obecnie bankiem genów do odtwarzania jodły, buka, czy odradzającego się świerka, który dotknięty był masowym wymieraniem (Mazurski, 1986; Jadczyk, 2009). Obszary dotknięte klęską przeszły przez etap odbudowy, w tym sterowanej przez człowieka (Danielewicz i inni, 2012). Wiązało się to z wprowadzaniem nowych gatunków, ale także odtworzeniem genotypów właściwych dla Karkonoszy. Postępy w odtworzeniu lasów Karkonoszy wynikają z aktywnych działań realizowanych przez Karkonoski Park Narodowy 1. W końcu XX w. pojawił się w Europie dostęp do lotniczych danych hiperspektralnych, które rejestrują widmo w dziesiątkach, a nawet setkach wąskich zakresów spektralnych. Umożliwiły one prowadzenie na niespotykaną wcześniej skalę szczegółowych analiz środowiska i kartowanie go w dużych skalach z dużą powtarzalnością (Mueller i inni, 1998; Feret, Asner, 2013; Brovkina i inni, 2017). Wynikało to z międzynarodowych projektów badawczych na terenie Europy, np. HySens, HyEurope '99, '03, '04, '05, '07, czy bieżącej działalności European Facility for Airborne Research (EUFAR). Nie bez znaczenia jest także działalność EARSeL Special Interest Group (SIG) on Imaging Spectroscopy 2, czy EARSeL 1 Projekt: Ochrona najcenniejszych gatunków flory Karkonoskiego Parku Narodowego Żywy Bank Genów Jagniątków
11 SIG on Forestry 3. Organizacje te przodują w badaniach nad rozwojem technik hiperspektralnych oraz zastosowaniem teledetekcji w leśnictwie. W Polsce, po pierwszych eksperymentalnych pracach w latach , zaczynają być realizowane projekty koncentrujące się na wykorzystaniu lotniczych danych hiperspektralnych i ze skaningu lidarowego ALS w leśnictwie (np. BIOCOMES, LIFE+ ForBioSensing PL, HABITars). Oznacza to, że także polskie jednostki intensywnie pracują nad opracowaniem nowych metod i narzędzi do badania lasów. Użycie ich jest coraz tańsze, a skala analiz środowiska coraz większa przy zachowaniu optymalnej rozdzielczości przestrzennej (wielkość piksela poniżej 5 metrów) zapisanej w setkach kanałów spektralnych, np. 288 skanera APEX, czy 450 kanałów HySpex. Pozwala to na: opracowanie szczegółowych map kondycji analizowanej roślinności (Ze ev i inni, 2006; Jarocińska 2016), kartowanie gatunków inwazyjnych (Rocchini i inni, 2015), klasyfikację roślinności (Oldeland i inni, 2010; Marcinkowska i inni, 2014), badania struktury lasów (Sandmeier, Deering 1999), analizy zmian pokrycia terenu (Martinez del Castillo i inni, 2015), zawartości głównych barwników i pierwiastków chemicznych w roślinach (Kozhoridze i inni, 2016) czy wielkości biomasy (Ali i inni, 2015). Wielu z tych zastosowań nie dało by się uzyskać tradycyjnymi metodami dla całych parków narodowych lub dużych kompleksów leśnych. Narzędzia te zaczynają być powszechnie wykorzystywane w bieżących pracach Białowieskiego PN, Karkonoskiego PN, czy Tatrzańskiego PN, a także innych zwartych lasów (np. Puszcza Niepołomicka; Wężyk i inni, 2003), czy kompleksów leśnych Lasów Państwowych (lasy wokół Milicza, 2015) również w miastach (np. Las Bielański w Warszawie, 2015). Przyczynia się to do zrozumienia naturalnych procesów w skalach lokalnych, ale także pozwala interpolować uzyskane wyniki na poziom satelitarny, umożliwiając opracowanie metod i interpretację wyników na skalę całej planety (Lausch i inni, 2016). Dzięki aktualnym i pełnym informacjom można podejmować decyzje korzystnie dla zarządzania i ochrony środowiska (na dużą, a nawet globalną skalę) (Abrams i inni, 2011). Jak już wspomniano, ostatnie lata przyniosły znaczny rozwój sensorów hiperspektralnych, co pociągnęło za sobą coraz szersze wykorzystanie tego typu danych podczas analiz, także w Polsce. Dane hiperspektralne powoli przestają być drogim eksperymentem, a zaczynają być jedną ze skuteczniejszych metod badania środowiska (Lawley i inni, 2016). Generuje to istotny wzrost ilości zbieranych danych. Zwiększają one
12 nasze rozumienie wielu często wzajemnie powiązanych procesów przyrodniczych, ale ich gromadzenie, przetwarzanie i archiwizowanie staje się realnym problemem (Herold i inni, 2016). Jako przykład może służyć zobrazowanie APEX 4 Karkonoszy, które w spakowanej postaci zajmuje ponad 1TB pojemności dysku twardego. Taka ilość danych nie mieściła się na standardowych komputerach w czasie, gdy były wykonywane zobrazowania. Oznacza to, że konieczne jest opracowanie metod wyboru danych, kompresji i optymalizacji procedur przetwarzania danych (Adam, Mutanga, 2009; Thenkabail i inni, 2012). Oczywiście taki stan rzeczy poza nowymi możliwościami rozwoju stwarza też szereg problemów związanych ze zbieraniem, przetwarzaniem i archiwizowaniem nierzadko bardzo dużych zbiorów danych (obecnie czymś normalnym są zestawy operacyjnych danych o wielkości ponad 2TB). Tak duże pliki danych absorbują znaczne zasoby obliczeniowe i magazynowe, które są dosyć drogie i nierzadko stanowią znaczną część kosztów w projektach badawczych. W związku z możliwościami jakie daje teledetekcja, ważne jest opracowanie metod selekcji i optymalizacji przetwarzania danych teledetekcyjnych. Często używanymi algorytmami wykorzystywanymi do klasyfikacji drzewostanu są maszyny wektorów nośnych (SVM) 5, analiza dyskryminacyjna 6 (DA), Random Forest (RF) 7 oraz algorytm maksymalnego prawdopodobieństwa 8 (Maximum Likelihood ML, Fassnacht i inni, 2016). Wymienione algorytmy mają szereg dobrze udokumentowanych zalet i wad, natomiast słabo zbadana jest skuteczność wykorzystania sztucznych sieci neuronowych SSN (Artificial Neural Net ANN) do klasyfikacji gatunków drzew. Są to nieparametryczne klasyfikatory, wyróżniające się spośród innych metod klasyfikacji głównie pod względem możliwości analitycznych oraz aplikacyjnych, gdyż odpowiednio wytrenowane sztuczne sieci neuronowe umożliwiają klasyfikacje innych, nieznanych obszarów niż te, na których uczona 4 APEX Airborne Prism Experiment ( 5 SVM Support Vector Machines nadzorowany algorytm klasyfikacyjny opracowany przez Vapnik (1995). Celem klasyfikatora SVM jest wyznaczanie hiperpłaszczyzny optymalnie separującej klasy. SVM często otrzymują wysokie dokładności klasyfikacji oraz radzą sobie z zestawami danych o wielu wymiarach. 6 DA discriminatory analysis nadzorowana metoda klasyfikacji, w której próbuje się znaleźć jedną bądź kilka funkcji liniowych lub wyróżników zmiennych zależnych w celu wydzielenia klasy w przestrzeni klasyfikacji (Acquah i inni, 2016). 7 RF Random Forest klasyfikator bazujący na zestawie drzew decyzyjnych, które losowo dobierają predyktory użyte podczas konstrukcji każdego drzewa decyzyjnego. Następnie poszczególne drzewa oddają głos decydujący, do jakiej klasy ma być przypisany dany piksel. Algorytm random forest podejmuje decyzję o przypisaniu danego piksela do danej klasy, bazując na klasie, która dostała najwięcej głosów (Breiman, 2001). 8 ML - Maximum Likelihood metoda klasyfikacji polegająca na obliczeniu prawdopodobieństwa wystąpienia danej klasy w danym pikselu. Klasa o największym prawdopodobieństwie wystąpienia zostaje przypisana do piksela (Richards, 1999). 12
13 była sieć (nawet jeżeli obszary testowe znajdują się w innych miejscach świata). Po drugie, ze względu na nieparametryczne podejście do rozwiązania problemu, analiza zbioru nie jest oparta na charakterystykach statystycznych zestawu danych, co umożliwia poprawną klasyfikację nawet wtedy gdy klasyfikowane obiekty są trudne do rozróżnienia na podstawie miar statystycznych. Należy wspomnieć też, że SSN nie są bez wad najpoważniejsze to długi czas treningu sieci oraz trudności z doborem optymalnych parametrów uczenia sieci. Na potrzeby niniejszej pracy skoncentrowano się na algorytmach sztucznych sieci neuronowych (SSN), a szczególna uwaga przypadła pakietowi o nazwie nnet symulującemu działanie sztucznej sieci neuronowej (Venables, Ripley, 2002). Bazuje ona na powszechnie dostępnym programie R (R Core Team, 2015). Wybrany symulator symuluje perceptron wielowarstwowy z jedną warstwą ukrytą 9. Zaletami pakietu nnet jest łatwość przeprowadzenia analiz oraz procedury treningu i klasyfikacji danych. Obecność programu w pakiecie R znacznie ułatwia tworzenie własnych, kompletnych rozwiązań bazujących na jednym środowisku wykonawczym. Wynika to z powszechnej dostępności kodów źródłowych opartych o zasady Open Source. Dzięki realizacji projektu EUFAR HyMountEcos 10 w roku 2012 pozyskano bardzo dobrej jakości obrazy hiperspektralne APEX. Dane z lotniczego skanera APEX są pierwszym i jedynym do tej pory zobrazowaniem hiperspektralnym, które objęło cały teren Karkonoszy (KPN, KRNAP wraz z otulinami). Sensor APEX należy do najnowocześniejszych na świecie, dostarczając obrazy w ponad 300 kanałach spektralnych w zakresie od 400 do 2500 nm. Rozdzielczość przestrzenna zależna jest od wysokości lotu samolotu, standardowo oscyluje wokół 3-5 m. Na uwagę zasługuje duża rozdzielczość radiometryczna 11, wynosząca 14 bitów w zakresie światła widzialnego i bliskiej podczerwieni i 13 bitów w zakresie dalszej podczerwieni (SWIR, Vreys i inni, 2016). Tak duża rozdzielczość spektralna (wąskie kanały spektralne o szerokości 5 nm) pozwalają na dokonanie szeregu analiz zawartości nutrientów, substancji budulcowych, wody, chlorofilu i barwników ochronnych, niedających się wykonać 9 Jeden z typów sieci neuronowej zbudowany z trzech warstw: warstwy wejściowej wprowadzającej dane do sieci, ukrytej pozwalającej na trening sieci oraz wyjściowej zbierającej wynik przetwarzania. 10 HyMountEcos - projekt zrealizowany latem 2012 roku, mający na celu monitoring roślinności Karkonoszy przy wykorzystaniu danych hiperspektralnych ( cos _1230). 11 rozdzielczość radiometryczna określa liczbę poziomów, na które podzielony jest sygnał odbierany przez sensor. Zwykle podawana w bitach. Przykładowo rozdzielczość radiometryczna wynosząca 8 bitów pozwala na wydzielenie 256 (2 8 ) poziomów sygnału na obrazie. Przy rozdzielczości radiometrycznej 14 bitów możliwe jest wyróżnienie (2 14 ) poziomów sygnału. 13
14 na danych wielospektralnych czy ortofotomapie. Lotnicze obrazy APEX stanowią cenny materiał do identyfikacji drzewostanów, a z drugiej strony jest to istotny materiał referencyjny do kolejnych zobrazowań i oceny zmian kondycji lasów w następnych latach. Reasumując należy stwierdzić, że lotnicza teledetekcja środowiska oferuje cenne dane oraz algorytmy umożliwiające szczegółowe rozpoznanie gatunków roślinnych, a także ocenę ich kondycji. Powszechne wykorzystanie technologii hiperspektralnej wymaga jednak optymalizacji procedur przetwarzania obrazów (korekcja obrazów, wybór najbardziej cennych zakresów spektralnych, klasyfikacja oraz ocena dokładności pozyskanych materiałów wynikowych), ale w efekcie uzyskane dane są wysokiej rozdzielczości i mogą być z powodzeniem weryfikowane według tych samych, obiektywnych metod. Stanowi to istotę monitoringu obszarów chronionych, na których prowadzi się stałą kontrolę zmian środowiska. Celowe staje się opracowanie metod pozyskania, przetwarzania, selekcji, analizy i archiwizacji danych hiperspektralnych. Procedury te dynamicznie się zmieniają, w miarę rozwoju nowych algorytmów i metod badawczych, umożliwiając wieloczasowe analizy danych oraz prowadzenie monitoringu środowiska. Idąc ku metodom nieparametrycznym oraz lotniczym zobrazowaniom hiperspektralnym, które zapewniają optymalne jakościowo obrazy do analiz stanu środowiska, niniejsza praca ma trzy główne cele: opracowanie i przetestowanie metod przetwarzania danych hiperspektralnych skupiając się na metodach selekcji najbardziej informacyjnych kanałów zobrazowania oraz procedurach optymalizacji procesu klasyfikacji, opracowanie metody klasyfikacji wybranych sześciu gatunków drzew w Karkonoskim Parku Narodowym, wśród których są: świerk (Picea abies L. Karst), brzoza (Betula pendula Roth), buk (Fagus sylvatica L.), modrzew (Larix decidua Mill), sosna (Pinus sylvestris L.) i olcha (Alnus Mill), aplikacyjnym celem pracy jest opracowanie mapy występowania wybranych gatunków drzew Karkonoskiego Parku Narodowego na podstawie uzyskanej klasyfikacji oraz porównanie jej z obecnym stanem wiedzy na temat składu gatunkowego KPN. 14
15 1. Teledetekcja hiperspektralna Istotą teledetekcji jest zdolność opisania cech fizycznych i chemicznych obiektu badań bez kontaktu fizycznego. Nośnikiem informacji jest fala elektromagnetyczna lub dźwiękowa (sonary). W teledetekcji wykorzystuje się oddziaływanie promieniowania elektromagnetycznego w różnych długościach fal z badanymi obiektami; zaczynając od zakresu światła widzialnego (VIS) przez bliską (NIR), średnią (SWIR) i termalną podczerwień (TIR), a kończąc na zakresie radarowym. Wyznaczanie właściwości spektralnych obiektu, czyli zależności między właściwościami obiektu a ilością odbitego promieniowania w poszczególnych zakresach widma elektromagnetycznego, pozwala na identyfikację oraz ocenę obiektu (Hunt, 1979; Merzlyak i inni, 2003). Koncepcja teledetekcji hiperspektralnej opiera się interakcjach promieniowania elektromagnetycznego z obiektami. Interakcje te zależą od konkretnej długości fali elektromagnetycznej, dlatego szerokości połówkowe filtrów stosowanych w teledetekcji hiperspektralnej są bardzo wąskie (kilka nanometrów). Wykorzystując immanentną właściwość każdego obiektu na powierzchni Ziemi, jaką jest współczynnik odbicia spektralnego 12, możliwe jest opisanie takiego obiektu krzywą spektralną (Ryc. 1). Padające na powierzchnię Ziemi promieniowanie elektromagnetyczne pochodzące od Słońca oddziałuje z powierzchnią, na którą pada. W zależności od cech fizycznych danej powierzchni promieniowanie elektromagnetyczne o różnej długości fali będzie przez nią bardziej lub mniej odbijane lub absorbowane. Przeprowadzając szczegółową analizę charakterystyki spektralnej można zidentyfikować wiele cech danego obiektu bez bezpośredniego kontaktu. Stosunkowo szybko udało się poczynić znaczne postępy w identyfikacji gleb i minerałów za pomocą danych hiperspektralnych (Goetz, 2009). Większość minerałów występujących na powierzchni Ziemi ma cechy łatwe do identyfikacji w podczerwieni termalnej (8-12 um; Vaughan i inni, 2003). Postęp badań nad baldachimem roślinnym napotkał większy opór, związany głównie z kompleksowością takich powierzchni (rośliny, prześwitująca gleba, skały) oraz dużą zmiennością flory. Oddziaływanie promieniowania elektromagnetycznego z powierzchniami zajmowanymi przez roślinność generuje mnogość niejednorodnych spektralnie pikseli (miksele). Wynika to z procesów zachodzących w roślinie (absorpcja, odbicie, transmisja 12 Stosunek promieniowania elektromagnetycznego odbitego od powierzchnii do padającego. 15
16 promieniowania elektromagnetycznego). Ludzkie oko jest w stanie rejestrować promieniowanie elektromagnetyczne w zakresie mniej więcej od 400 do 670 nm (Dowling, 1987); wykorzystując techniki hiperspektralne z łatwością można uzyskać informację na temat interakcji obiektów ze światłem z dalszych zakresów widma (podczerwień). Ryc. 1. Porównanie charakterystyk spektralnych pozyskanych z detektora wielospektralnego oraz symulacji charakterystyk spektralnych 218-kanałowego zobrazowania EnMAP 13 Typowa roślinność ma kilka cech, które odróżniają ją od reszty obiektów na powierzchni Ziemi. Analizując krzywą spektralną dla roślinności (Ryc. 2) w zakresie pasma widzialnego promieniowania elektromagnetycznego można wyróżnić następujące cechy: znacząca absorpcja promieniowania w zakresie widzialnym, w tym zwiększone odbicie w paśmie światła zielonego oraz niskie odbicie spektralne w zakresie promieniowania niebieskiego i czerwonego (związane z absorbcją światła przez chlorofil). W zakresie promieniowania podczerwonego można spostrzec następujące cechy typowe dla zdrowej roślinności: krzywa czerwieni (red edge) w okolicach 700 nm mająca pośredni związek
17 z wigorem roślin, tzw. płaskowyż zieleni (green plateau), na podstawie którego można wywnioskować informacje na temat struktury komórkowej danej rośliny oraz jej stanu. Niskie wartości współczynnika odbicia w zakresie , oraz nm związane są z dużą zawartością wody w roślinach a 2 piki w zakresie i nm odpowiadają za zawartość nutrientów oraz cukrów, np. celuloza i ligniny. Dane hiperspektralne pozwalają wyznaczyć zakresy promieniowania elektromagnetycznego, które są powiązane z zawartością różnych substancji w roślinie. Ryc. 2. Wpływ czynników na przebieg krzywej odbicia spektralnego. Źródło: Zagajewski i inni, 2009 Na przykład fale o długości 710 nm można wykorzystać od analizy zawartości chlorofilu (Gitelson, Merzlyak, 1997), a 1720 nm z powodzeniem wykorzystuje się do analizy zwartości ligniny i celulozy (Dawson i inni, 1998). Tak krótka analiza cech roślinności przybliża ogrom możliwości badań wykorzystujących techniki hiperspektralne w badaniach roślinności (Tabela 1). W wielu przypadkach są to bardzo wąskie zakresy widma, które nie mogą być identyfikowane innymi metodami niż teledetekcja hiperspektralna. 17
18 Tabela 1. Wybrane zakresy absorpcji promieniowania elektromagnetycznego przez rośliny (Zagajewski, 2010) Długość fali Zastosowanie Źródło informacji (nm) 439 analiza absorpcji neoksantyny (ksantofil) Ruban i inni, analiza absorpcji wiolaksantyny (ksantofil) Ruban i inni, analiza absorpcji luteiny (ksantofil) Ruban i inni, analiza absorpcji a-karotenu Ruban i inni, analiza absorpcji b-karotenu Ruban i inni, analiza absorpcji karotenoidów ogółem Ruban i inni, analiza zawartości chlorofilu Gitelson, Merzlyak, analiza cyklu ksantofili i procesy absorpcji energii Barton, North, 2001 przez tylakoidy; najczęściej stosowane miary to PRI (Photochemical Reflectance Index) i LUE (photosynthetic Light Use Efficiency) 540 analiza zawartości chlorofilu Gitelson, Merzlyak, analiza zawartości chlorofilu, zakres do analiz chlorozy Gitelson, Merzlyak, 1997, Adams i inni, normalizacja efektu wpływu atmosfery oraz analiza Plummer i inni, 1994; North, 2002 AVI (Angular Vegetation Index) 570 analiza cyklu ksantofili (podobnie jak zakres 531 nm); wrażliwy na zawartość chlorofilu Barton, North, 2001; Gitelson, Merzlyak, analiza chloroz Adams i inni, ,2 analiza absorpcji chlorofilu a Lichtenthaler, Wellburn, ,8 analiza absorpcji chlorofilu b Lichtenthaler, Wellburn, normalizacja efektu glebowego i analizy AVI, kanał do analiz niewielkich ilości chlorofilu Plummer i inni, 1994; North, 2002; Gitelson, Merzlyak, analiza absorpcji chlorofilu Datt, analiza stresu roślinnego Plant Stress Index Carter, 1994 (760/695 nm) analiza konarów drzew liściastych Cochrane, analiza zawartości chlorofilu Datt, analiza zawartości chlorofilu Gitelson, Merzlyak, analiza drzew liściastych Cochrane, analiza zawartości chlorofilu Gitelson, Merzlyak, , 704 analiza stresu roślin (red edge inflection) Shaw i inni, 1998; Datt, analiza zawartości chlorofilu Gitelson, Merzlyak, analiza stresu roślin (red edge inflection) Shaw i inni, , 754 analiza stresu roślin (red edge inflection) Datt, /695 analiza stresu roślin Plant Stress Index Carter, analiza drzew liściastych Cochrane, analiza zawartości chlorofilu Datt, normalizacja efektu glebowego, AVI analiza Plummer i inni, 1994; North, analiza turgoru roślin (zawartość wody) Fourty, Baret, analiza absorpcji wody w liściach Aldakheel, Danson, analiza turgoru roślin iglastych Dawson i inni, analiza turgoru roślin (zawartość wody) Fourty, Baret, analiza absorpcji wody w liściach Aldakheel, Danson,
19 Długość fali Zastosowanie Źródło informacji (nm) 1510 analiza absorpcji białek i związków azotu w Dawson i inni, 1998 drzewach iglastych 1630 normalizacja frakcji absorbowanej energii z zakresu Plummer i inni, 1994; North, 2002 fotosyntezy (fapar) analiza zawartości wody w zbożach (pszenicy) Tian i inni, analiza zawartości ligniny i celulozy Dawson i inni, analiza suchych liści, absorpcja węglowodorów Datt, 2000; Hoerig i inni, analiza zawartości suchej masy Fourty, Baret, analiza turgoru roślin (zawartość wody) Fourty, Baret, analiza zawartości suchej masy Fourty, Baret, analiza absorpcji białek i związków azotu Dawson i inni, analiza suchych liści, absorpcja węglowodorów Hoerig i inni, 2001; Fourty, Baret, 1998 Pierwsze lotnicze zastosowania teledetekcji hiperspektralnej wiążą się ze skanerem profilującym GERS, skonstruowanym na początku lat 1980., który dokonywał pomiaru współczynnika odbicia w zakresie od 400 do 2500 nm w 64 kanałach spektralnych. Dopiero w 1987 roku udało się zbudować obrazujący skaner lotniczy (Airborne Imaging Spectrometer AIS 1) mierzący w tym samym zakresie widma i obrazujący w 128 kanałach spektralnych (Goetz, 2009). Pierwsze eksperymenty z obrazami hiperspektralnymi w Europie miały miejsce w DLR 14 Oberpfaffenhofen (Niemcy) pod koniec lat i wiązały się one głównie z sensorem DAIS (Mueller i inni, 1998). Gwałtowny rozwój technik komputerowych oraz procesu miniaturyzacji elementów optoelektronicznych spowodował pojawienie się większej liczby sensorów teledetekcyjnych operujących na trzech poziomach: satelitarnym, lotniczym i terenowym. Obecnie działa znaczna liczba sensorów satelitarnych, z których część oferuje swoje dane nieodpłatnie. Dane pochodzące z sensorów lotniczych stają się ogólnie dostępne, głównie ze względu na rosnącą liczbę sensorów lotniczych oraz stosowanie samolotów typu UAS 16, na których instaluje się skanery hiperspektralne, np. norweski HySpex (w najbliższych miesiącach ma być dostępna wersja skanera z zakresu SWIR przeznaczona dla UAS). Wykorzystanie teledetekcji hiperspektralnej w badaniach stanu oraz ocenie roślinności prowadzone są od początku powstania tej dziedziny, czyli od lat (Vane, Goetz, 1988; 14 DLR Deutsches Luft- und Raumfahrt Niemiecka Agencja Kosmiczna. 15 DAIS 7915 sensor hiperspektralny obrazujących w 79 kanałach spektralnych w zakresie od 400 do nm, rozdzielczość spektralna 15 bitów. 16 UAS Unmanned Aerial System ogólna nazwa zdalnie sterowanych samolotów i helikopterów wykorzystanych w teledetekcji. 19
20 Hope i inni, 1993; Kokaly i inni, 2003). Badania hiperspektralne prowadzi się także w lasach, wykorzystując dane pozyskane w terenie np. z przenośnych kamer hiperspektralnych oraz spektrometrów terenowych, a następnie przenosi się uzyskane wyniki na poziom lotniczy czy satelitarny (np. Hyperion). Przykładem takich badań jest ocena spektralnej zmienności krzywych spektralnych dla sześciu gatunków drzew (Pinus taeda, Pinus virginiana, Pinus echinata, Quercus coccinea, Quercus alba, Liriodendron tulipifera; Aardt, Wynne, 2001). Badania potwierdziły możliwość klasyfikacji gatunków drzewiastych na poziomie dokładności 62-99% względem badań terenowych. Próba klasyfikacji na symulowanych danych Landsat dała niską dokładność, potwierdzając potrzebę wykorzystania danych o wyższej rozdzielczości spektralnej, gdyż największe różnice spektralne między gatunkami drzew występują w zakresie nm (Aardt, Wynne, 2001). Dane z hiperspektralnych sensorów AVIRIS 17 oraz Hyperion 18 wykazały przydatność obrazów hiperspektralnych do oceny zawartości azotu w koronach drzew, błąd pomiarowy wyniósł od 7 do 15% dla danych AVIRIS oraz 7 do 47% dla danych satelitarnych o pikselu 30 m (Hyperion) w porównaniu z pomiarem laboratoryjnym średniej zawartości azotu w roślinach (Martin i inni, 2008). Teledetekcja hiperspektralna została też z powodzeniem użyta do pomiaru nie tylko zawartości barwników fotosyntetycznie czynnych, ale również wybranych substancji budulcowych roślin (węgiel, azot, potas, fosfor, wapń, magnez, cynk, mangan, bor, żelazo; Asner i inni, 2011). Wykorzystując naziemne pomiary hiperspektralne ponad 6000 koron drzew tropikalnych uzyskano wysokie korelacje zawartości pigmentów i chlorofilu w roślinach (R 2 > 0,68) uzyskanych na podstawie pomiarów spektrometrycznych z laboratoryjnymi pomiarami biometrycznymi. Korelacje zawartości pierwiastków chemicznych z pomiarami spektrometrycznymi dla potasu, węgla, wapnia, azotu i fosforu wyniosły ponad R 2 > 0,50. Stwierdzono dużą użyteczność zakresu do 400 do 2500 nm w badaniu chemizmu roślin (Asner i inni, 2011). Poza dostarczaniem informacji na temat zawartości pigmentów w roślinach, teledetekcja potwierdziła też swoją przydatność w kartowaniu gatunków inwazyjnych. Wykorzystując dane z lotniczego skanera hiperspektralnego Carnegie Airborne Observatory (CAO) z sukcesem zidentyfikowano obszary występowania Psidium cattleianum na obszarze 17 AVIRIS lotniczy skaner hiperspektralny obrazujący w zakresie od 400 do 2500 nm w 224 kanałach spektralnych z rozdzielczością radiometryczną 10 nm (Martin i inni, 2008). 18 Hyperion skaner hiperspektralny zamontowany na satelicie EO-1, obrazujący w zakresie od 400 do 2500 nm w 220 kanałach spektralnych z rozdzielczością przestrzenną 30 m (Pearlman i inni, 2003). 20
21 Wao Kele O Puna Forest Reserve na Hawajach (Barbosa i inni, 2016). Wykorzystano zmodyfikowany algorytm SVM, a jednym z problemów napotkanych w pracy było poprawne zidentyfikowanie szukanego gatunku w bogatym gatunkowo lesie. Uzyskane wyniki porównano z pomiarami terenowymi uzyskując wysokie korelacje (R 2 > 0,83). Do niedawna, w Polsce dostępność danych hiperspektralnych była limitowana niewielką ilością sprzętu, jaką posiadały jednostki naukowe. Początek prac badawczych wykorzystujących zobrazowania hiperspektralne w Polsce, wiąże się ze zobrazowaniem AISA 19, na podstawie którego zbadano zawartości pigmentów w aparacie asymilacyjnym sosen Puszczy Niepołomickiej (Wężyk i inni, 2003). Wykonane zobrazowanie miało 34 kanały spektralne o rozdzielczości przestrzennej wynoszącej 1 metr. Na podstawie przeprowadzonych badań terenowych stwierdzono wysoki stopień korelacji zawartości chlorofilu a wskaźnikami PSRI 20 i PRI 21. Poza możliwością oceny ogólnej kondycji czy dostarczenia informacji na temat zmiennych biofizycznych roślinności, teledetekcja hiperspektralna była też często wykorzystywana do identyfikacji i kartowania zbiorowisk roślinnych (Zagajewski, 2010). Lotnicze dane z sensora DAIS pozwoliły odróżnić 42 klasy pokrycia terenu, identyfikując między innymi rzadkie i cenne zbiorowiska nieleśne na obszarze Tatr Wysokich. Do tego celu wykorzystane zostały klasyfikatory SAM 23 i sztuczne sieci neuronowe (SNNS 24 ). Uzyskane wyniki wykazały przydatność zestawów składających się z 20 kanałów skompresowanych (MNF) i 40 wybranych kanałów spektralnych. Dokładności producenta klasyfikacji oscylowały odpowiednio wokół 74 i 84%, natomiast dokładności użytkownika wynosiły powyżej 63 i 67%. Analizowano także wpływ wykorzystania różnych zestawów danych, liczby pikseli treningowych oraz algorytmów na końcowy wynik (Zagajewski, 2010). 19 AISA Airborne Imaging Spectrometer for Applications, programowalny lotniczy skaner hiperspektralny rejestrujący promieniowanie elektromagnetyczne w zakresie nm, w maksymalnie 286 kanałach spektralnych (Makisara i inni, 1993). 20 PSRI Plant Senescence Reflectance Index, wskaźnik teledetekcyjny wykorzystywany do obserwacji starzenia się roślinności. Silnie powiązany z zawartością karotenoidów w roślinach (Merzlyak i inni, 1999). 21 PRI Photochemical Reflectance Index, wskaźnik teledetekcyjny używany do estymacji zawartości pigmentów w roślinie poprzez obserwację wskaźnika odbicia spektralnego w zakresie 532 nm. Używany do oceny stanu kondycyjnego roślinności (Gamon i inni, 1992). 22 DAIS Digital Airborne Imaging Spectrometer sensor hiperspektralny opracowany przez DLR, ma 79 kanałów spektralnych, w zakresach , , , oraz nm (Holzwarth i inni, 2003). 23 SAM Spectral Angle Mapper nadzorowany algorytm klasyfikujący porównując kąt spektralny jaki tworzą krzywa spektralna pozyskana z obrazu oraz krzywa wzorcowa dla danej klasy (Kruse i inni, 1993) 24 SNNS Stuttgart Neural Network Simulator. 21
22 1.1. Procedury korekcji obrazów hiperspektralnych Dane pozyskane w trakcie nalotu, zwane też danymi surowymi, wymagają przeprowadzenia kilku procedur przed ich wykorzystaniem w pracach badawczych. Pierwszą czynnością jest korekcja geometryczna, czyli przetransformowanie danych pozyskanych w układzie współrzędnych sensora na układ współrzędnych geograficznych. Dzięki jednoczesnemu zbieraniu danych spektralnych i informacji dotyczącej położenia sensora w przestrzeni (za pomocą różnicowego odbiornika DGPS zintegrowanego z sensorem) oraz wychyleń samolotu płaszczyznach ω, φ, κ rejestrowanych przez inercyjny system nawigacji (Inertial Navigation System INS) możliwe jest przypisanie każdemu pikselowi zobrazowania współrzędnych geograficznych (Schläpfer, Richter, 2002; Schläpfer i inni, 2012). Zebrane dane muszą zostać poddane procesowi ortorektyfikacji, aby zniwelować wpływ różnych kątów widzenia sensora oraz ruchów platformy zbierającej dane na obraz wynikowy (Zhang i inni, 2016). Dodatkowo w tym procesie wszelkie zniekształcenia obrazu (sygnału) wynikające z niestabilności platformy zbierającej dane (samolot) oraz efekty wywołane rzeźbą terenu zostają zminimalizowane (Schläpfer i inni, 1998). Kolejnym krokiem jest przeprowadzanie kalibracji radiometrycznej zobrazowania, która polega na przeliczeniu wartości pozyskanych podczas nalotu (Digital Number DN) na radiancję (ilość energii docierającej do sensora; Schaepman i inni, 2015). Dodatkowo korekcja radiometryczna pozwala na usunięcie z obrazów efektów wynikających z właściwości sensora (spectral-smile, dark-current) bazując na kalibracji sensora w laboratorium (Sterckx i inni, 2015). Ostatnim krokiem podczas przetwarzania danych hiperspektralnych jest wykonanie korekcji atmosferycznej. Zebrane przez sensor dane zawierają nie tylko sygnał odbity od powierzchni ziemi, ale także pochodzący z rozpraszania światła w atmosferze czy odbitego od chmur i innych obiektów. Obecnie stosuje się dwa podejścia do korekcji atmosferycznej: (a) podejście empiryczne bazujące na danej scenie, (b) podejście oparte na modelach transferu promieniowania w atmosferze (Radiative Transfer Models RTMs). Z reguły stosowanie podejścia opartego na modelu transferu promieniowania w atmosferze jest trudniejsze, ale daje lepsze efekty (Gao i inni, 2009). Zadaniem korekcji atmosferycznej jest przeliczenie danych o radiancji uzyskanych podczas nalotu na współczynnik odbicia. Korekcja atmosferyczna polega na usunięciu wpływu warstwy atmosfery (głównie efektów rozpraszania wynikających z obecności w atmosferze cząsteczek tlenu, pary wodnej, dwutlenku węgla oraz miejscowo 22
23 występujących koncentracji aerozoli i pyłów) znajdującej się między sensorem a powierzchnią terenu na wartości współczynnika odbicia dla poszczególnych pikseli zobrazowania (Streckx i inni, 2015). Dzięki tej czynności można zmierzyć współczynnik odbicia spektralnego danej powierzchni bez potrzeby kompensowania uzyskanych pomiarów o stan atmosfery nad daną powierzchnią. Prawidłowo wykonana korekcja pozwala na pozyskiwanie z poziomu lotniczego charakterystyk spektralnych obarczonych niewielkim błędem i porównywalnych z pomiarem naziemnym (Richter, Schläpfer, 2002) Procedury przetwarzania danych hiperspektralnych Jedną z pierwszych czynności przeprowadzoną po wykonaniu korekcji zebranych danych teledetekcyjnych jest wyznaczenie zbioru danych, na których zostaną wykonane analizy. Dane hiperspektralne cechują się setkami kanałów spektralnych, a co za tym idzie także dużym rozmiarem (rozumianym jako zajęte miejsce na twardym dysku komputera) oraz długim czasem przetwarzania. Ponadto ze względu na dużą rozdzielczość spektralną (liczba kanałów), sąsiadujące ze sobą kanały spektralne są ze sobą skorelowane (Thenkenbail i inni, 2004). Cześć algorytmów klasyfikujących może zostać dotknięta tzw. klątwą wielowymiarowości (Hughes, 1968). Objawia się ona spadkiem dokładności klasyfikacji wraz ze wzrostem liczby klasyfikowanych kanałów zobrazowania, dlatego częstym rozwiązaniem jest zmniejszenie tej liczby dbając o to by nie zaniżać wyników. Dzieje się to na drodze wyboru najbardziej informacyjnych kanałów lub też kompresji danych. Są dwie metody selekcji danych: (a) manualna wizualne przeglądanie poszczególnych kanałów, (b) automatyczna, która redukuje przestrzeń spektralną bazując na cechach statystycznych obrazu (Feilhauer i inni, 2015). Obliczenie nowego zestawu danych wejściowych odbywa się na podstawie algorytmów redukujących liczbę kanałów obrazu, np. Minimum Noise Fraction (MNF 25 ), Principal Component Analysis 26 (PCA). Szczególnie popularne są metody PCA i MNF ze względu na jakość uzyskiwanych wyników oraz znaczną redukcję ilości użytych danych (Zabalza i inni, 2014; Fassnacht i inni, 2016). Przykładowo, wybór od 20 do 40 kanałów po transformacji MNF pozwala uzyskać wyniki tylko o kilka procent gorsze niż 25 Minimum Noise Fraction (MNF) metoda transformacji danych, polegająca na liniowej transformacji wyników analizy PCA w celu usunięcia szumów z sygnału (Green i inni, 1988). 26 Principal Component Analysis analiza składowych głównych (PCA) pozwala wykonać rzut wielowymiarowych danych na przestrzeń o dużo mniejszym wymiarze, jednocześnie zachowując maksymalnie dużo informacji (Sztemberg-Lewandowska, 2015), 23
24 pełny zestaw danych spektralnych (Zagajewski, 2010), czyli redukcja oryginalnego zestawu danych o 60-80% daje wyniki podobne jak pełny zestaw (Ghosh i inni, 2014) Klasyfikacja obrazów teledetekcyjnych Klasyfikacja jest definiowana przez Słownik Języka Polskiego (1978) jako systematyczny podział różnych przedmiotów lub zjawisk na klasy, działy, poddziały itp. według określonej zasady; zaklasyfikowanie danego przedmiotu lub zjawiska do odpowiedniego działu, grupy. W teledetekcji klasyfikacja oznacza przypisanie klas do poszczególnych pikseli zobrazowania. Klasy mogą zawierać bardzo ogólne formy pokrycia terenu (np.: las, zabudowania) lub dotyczyć wąsko zdefiniowanych obiektów (gatunek drzewa, siedlisko). Proces klasyfikacji obrazu wymaga przeprowadzenia następujących kroków (Mather, Koch, 2011): wyznaczenie klas, które mają być sklasyfikowane na obrazie (identyfikacja), przypisanie każdemu pikselowi obrazu wartości danej klasy, bazując na właściwościach pikseli i używając do tego klasyfikatora lub algorytmu decyzyjnego. Klasyfikacja może być wykonana na dwa sposoby. Pierwszym jest automatyczne podzielenie pikseli obrazu na grupy, przy użyciu tylko cech obrazu, bez przedstawiania algorytmowi klasyfikującemu wzorców klas, które chcemy wyróżnić. Jest to klasyfikacja nienadzorowana (Mohri i inni, 2012). Drugim sposobem jest wykorzystanie algorytmu klasyfikującego, któremu przedstawione zostaną wzorce klas, które mają zostać wyróżnione na obrazie. Klasyfikator następnie przypisuje piksele obrazu do odpowiednej klasy biorąc pod uwagę właściwości wzorców metodę tę nazywa się klasyfikacją nadzorowaną (Mohri i inni, 2012). Proces klasyfikacji wymaga dostarczenia zasad/reguł, według których poszczególne piksele są przypisywane do wyróżnianych klas. W przypadku przetwarzania danych metodami cyfrowymi, zwykle zestaw zasad klasyfikacyjnych zostaje zapisany w postaci algorytmu klasyfikacyjnego (klasyfikatora). Algorytmy klasyfikujące dzielone są na parametryczne i nieparametryczne. Algorytmy parametryczne oparte są na statystycznych charakterystykach danych użytych do treningu klasyfikatora. Takie algorytmy bazują na statystycznym prawdopodobieństwie rozkładu wzorców dla danej klasy (Yugal, Sahoo, 2012) na przykład algorytmy oparte na drzewach decyzyjnych 27 (Decision Tree DT). Algorytmy 27 DT decision tree metoda podziału zestawu danych bazująca na automatycznym wyborze odpowiednich atrybutów danego zestawu danych, które iteracyjnie dzielą dane na mniejsze grupy w zależności od 24
25 nieparametryczne nie opierają się na charakterystykach statystycznych danych treningowych, wykorzystując inne metody do wydzielenia klas (np. regresja, sztuczne sieci neuronowe; Yugal, Sahoo, 2012) Ocena dokładności klasyfikacji Ocena dokładności klasyfikacji ma za zadanie zweryfikowanie uzyskanych wyników. Jest to jeden z ważniejszych etapów pracy, pozwalający na ocenę prawidłowości wyników. Podstawowym elementem oceny klasyfikacji poszczególnych obiektów jest macierz błędów, w postaci tabeli krzyżowej wyników klasyfikacji oraz danych weryfikacyjnych. Klasy przypisane do pikseli sklasyfikowanego obrazu porównuje się z zestawem danych weryfikacyjnych na podstawie których sprawdzona zostaje zgodność wyników klasyfikacji ze stanem faktycznym (Campbell, 1996; Foody, 2002). Ocena dokładności polega na obliczeniu ogólnej dokładności klasyfikacji (overall accuracy), dokładności producenta (producer accuracy) i użytkownika (user accuracy) dla każdej klasy oraz powszechnie wykorzystywanego współczynnika kappa (Cohen, 1960): dokładność całkowita (ogólna) stosunek liczby poprawnie sklasyfikowanych pikseli względem wszystkich pikseli wzorcowych wydzielonych dla każdej z klas, dokładność producenta stosunek poprawnie sklasyfikowanych pikseli danej klasy do wszystkich pikseli w zestawie testowym dla tej klasy, dokładność użytkownika stosunek pikseli właściwie sklasyfikowanych w danej klasie do wszystkich pikseli zaklasyfikowanych do tej kategorii, współczynnik kappa pokazuje stopień podobieństwa wykonanej klasyfikacji w porównaniu z klasyfikacją realizowaną przypadkowo. Wartość 0 oznacza pełne natomiast 1 brak podobieństwa (Cohen, 1960). Wartości kappa większe od 0,75 są uznawane za dowód wykonania dobrej klasyfikacji (Montserud, Leamans, 1992). Dokładność producenta bywa też nazywana błędem niedoszacowania, a dokładność użytkownika błędem przeszacowania (Mather, Koch, 2011). Proces oceny dokładności jest mocno związany z wyborem wzorców do uczenia klasyfikatora i weryfikacji wyniku. W trakcie tego procesu badacz dzieli zebrane wzorce na dwie grupy: do uczenia i weryfikacji. Oba zestawy muszą być niezależne. Zestaw do uczenia wyznaczonych atrybutów. Celem działania algorytmu jest wykształcenie zestawu zasad, na podstawie których budowane jest drzewo decyzyjne (Quinlan, 1986). 25
26 klasyfikatora służy wytrenowaniu klasyfikatora, który wykonuje klasyfikację zobrazowania. Poprawność otrzymanego wyniku oceniana jest według zestawu weryfikacyjnego. Takiego typu podejście do weryfikacji wyniku jest standardem w teledetekcji oraz innych naukach wykorzystujących zaawansowane algorytmy klasyfikacji (uczenie maszynowe, informatyka, biologia, itp.). Opisane powyżej podejście, mimo że szeroko używane, obarczone jest pewnymi wadami (Foody, 2002), takimi jak problemy wynikające z użycia macierzy błędów (brak odniesienia do przestrzennej zgodności wyniku z rzeczywistym stanem), błędy przy rejestracji obrazu oraz przy wykonywaniu pomiarów terenowych, czy nieodpowiednia strategia doboru poligonów pomiarowych. Kolejna wada to fakt, że badacz dobiera wzorce do uczenia i weryfikacji kierując się własną opinią. Może to wprowadzić pewnego rodzaju stronniczość do wyniku oraz zaniżyć lub zawyżyć otrzymane miary dokładności. Ważne jest też, że klasyfikacje nadzorowane są wrażliwe na zestaw danych użyty do ich uczenia (Ghosh i inni, 2014). Dokładności klasyfikacji będą się zmieniały w zależności od danych, które zostaną przedstawione klasyfikatorowi oraz użyte do weryfikacji wyniku. Kolejną wadą jest jednorazowy proces klasyfikacji i weryfikacji wyniku, który nie potrafi odpowiedzieć na pytanie jak zmieniałby się miary dokładności, gdyby zestaw do uczenia i weryfikacji został dobrany inaczej (np. przez innego badacza). Jednym ze sposobów rozwiązania powyższych problemów jest wykorzystanie technik opartych na metodzie Monte Carlo (Braga-Neto, Dougherty, 2004; Khatami i inni, 2017) lub k-krotny sprawdzian krzyżowy (k-fold cross valdiation, Baldeck i inni, 2015). Z reguły takie techniki polegają na wielokrotnym powtórzeniu klasyfikacji, przy zmienianym za każdym razem zestawie do testów i weryfikacji oraz obserwacji zmian w wynikach. Dzięki zastosowaniu takiego podejścia oraz włączaniu do niego losowego dobierania wzorców do zestawu do uczenia i weryfikacji, można zredukować wpływ badacza na wyniki oraz zaobserwować efekty, których klasycznie przeprowadzona ocena dokładności nie wykryje. Otwartą kwestią zostaje również stosunek liczby wzorców użytych do uczenia i weryfikacji. W przypadku k-krotnego sprawdzianu krzyżowego nie istnieje uniwersalnie optymalne k, przy którym wynik nie byłby zawyżony lub zaniżony (Bengio, Grandvalet, 2004). W literaturze można spotkać podejścia, w których (a) użyto 2/3 danych do treningu i 1/3 do testu (Graves i inni, 2016), (b) autorzy sami wybrali liczebności wzorców w zestawie treningowym oraz z góry określoną liczbę wszystkich pikseli testowych (Tagliabue i inni, 26
27 2014), (c) czy też rozwiązania bazujące na wybraniu 1/5 wszystkich wzorców jako zestaw testowy (Baldeck i inni, 2015). Większości nowszych prac stosuje się metodę wielokrotnego powtórzenia treningu i weryfikacji podczas oceny dokładności wyniku, tak aby lepiej ocenić jakość wyniku (Kim, 2009; Cho i inni, 2012; Alonzo i inni, 2013, Fassnacht i inni, 2014). Koncepcja ta będzie wykorzystana w niniejszej pracy, by uniknąć tendencyjnej oceny dokładności. Wynika to bezpośrednio z przyjętego stosunku wzorców w zestawie do uczenia i weryfikacji (Foody, 2002). Prace, w których zestaw do uczenia jest wielokrotnie większy niż zestaw do weryfikacji są narażone na zawyżanie otrzymanych wyników. Jest to spowodowane niewystarczającym rozmiarem zestawu do weryfikacji oraz faktem, że zestaw do weryfikacji może nie być w stanie odpowiednio przetestować klasyfikatora. Dodatkowo taki zestaw weryfikacyjny naraża nasz model na dużą wariancję wyników w przypadku wykorzystania metod Monte Carlo (Hastie i inni, 2009). Z drugiej strony, jeżeli zestaw do weryfikacji jest znacznie większy niż zestaw do uczenia istnieje ryzyko nieświadomego zaniżania wyników. Klasyfikatory zwykle działają z założeniem, że zestaw treningowy jest reprezentatywny dla badanej populacji. Klasyfikator wytrenowany na stosunkowo małej liczbie wzorców może nie być w stanie objąć wariancji, jaka występuje w klasach, które chcemy klasyfikować. Wymienione powyżej zjawiska bardzo wyraźnie dotykają analizy oparte na niewielkiej liczbie wzorców i stają się mniej widoczne przy większych zestawach wzorców. Wykorzystanie procedury oceny dokładności opartej na metodach Monte Carlo (iteracyjna ocena dokładności) pozwala na spostrzeżenie, czy takie zjawisko występuje w naszym zestawie danych oraz pozwala ocenić jak duży wpływ ma ono na końcowy wynik. Mimo wykorzystania metod opartych o wielokrotny podział wzorców, wyniki mają tendencję do bycia zaniżonymi (Efron, 1979). Pewnym usprawnieniem redukującym ten efekt jest metoda 0,632 Estimate (Efron, 1983). Zakłada ona, że w każdej iteracji 63,2% losowo wybranych unikatowych wzorców zostaje użyte jako zestaw do treningu klasyfikatora, natomiast pozostałe 36,8% wzorców do zweryfikowania wyniku (Efron, 1983; Fassnacht i inni, 2014). Metoda ta została wykorzystana w niżej prezentowanych badaniach Procedury wyboru danych wykorzystanych w klasyfikacji Ze względu na dużą rozdzielczość spektralną rejestrowanych danych hierspektralnych ( kanałów), do dalszych analiz należy wybrać tylko najbardziej wartościowe informacje (Thenkabail i inni, 2004). Niektórzy autorzy rekomendują redukcję liczby 27
28 używanych danych (Hughes, 1968; Fassnacht i inni, 2014; Ghosh i inni, 2014). Wiąże się to z potrzebą wyboru najlepszych kanałów zobrazowania. Procedura wyboru kanałów ma za zadanie uzyskanie wysokiej dokładności klasyfikacji przy jednocześnie maksymalnej redukcji liczby kanałów spektralnych. W literaturze można spotkać się z dwoma podejściami do rozwiązania powyższego problemu: (a) wyznaczenie mniejszego zastawu kanałów spektralnych lepiej oddającego charakterystykę klasyfikowanych klas lub (b) obliczenie nowego zestawu danych wejściowych, przy użyciu algorytmów redukujących liczbę kanałów obrazu (MNF, PCA, itd.). Pierwsza metoda jest przez niektórych oceniana, jako dostarczająca wyniki o mniejszej dokładności niż przekształcenia wykonane na kanałach MNF (Fassnacht i inni, 2016). Wadą tej metody jest wrażliwość algorytmów PCA i MNF na prezentowane dane, która sprawia że wnioski oraz wartości wniesione przez nie do przetwarzania danych są zależne od zestawu danych. Ponadto algorytmy typu MNF czy PCA transformują obraz do innej przestrzeni (ze spektralnej do nowej przestrzeni obserwacji), co powoduje że trudno jest interpretować znaczenie poszczególnych kanałów po transformacji oraz przełożyć uzyskane wnioski na inne badania. Drugie podejście polegające na wyborze najlepszych kanałów spektralnych pozbawione jest tych wad, ale wymaga zastosowania algorytmu wyboru kanałów. Do tych metod można zaliczyć manualną selekcję kanałów, wykorzystanie algorytmu Random Forest, metody analizy regresji (stepwise regresion), algorytm genetyczny i inne (Feilhauer i inni, 2015; Fassnacht i inni, 2016). Lee i inni (2016) wykazali przydatność metody PCA, wskazując jednocześnie, że potrzeba przynajmniej 12 kanałów PCA, aby osiągnąć satysfakcjonujące rezultaty. Liczba wykorzystanych kanałów po transformacji jest zależna od zastosowania (Lee i inni, 2016). Pewną kontrowersją jest liczba użytych w klasyfikacji kanałów spektralnych lub kanałów po transformacji MNF. Fassnacht i inni (2014) 28 stwierdzili, że klasyfikacja dla zestawu danych po transformacji MNF, przy porównaniu do identycznej liczby oryginalnych kanałów spektralnych, daje wyższą dokładność. Ghosh i inni (2014) sugerują wykorzystanie 25 kanałów po transformacji MNF jako optymalnego zestawu klasyfikacyjnego do identyfikacji drzewostanów. Natomiast Mas i Flores (2008) zalecają użycie przynajmniej 40 oryginalnych kanałów, co zdaje się mieć 28 Przetestowano zestawy o 5, 10, 15, 20, 25 i 30 kanałach. We wszystkich przypadkach testowych dane po transformacji MNF dawały lepsze wyniki niż zestawy kanałów spektralnych o takiej samej liczbie kanałów. Testy wykazały najlepsze wyniki dla zestawów od 10 do 20 kanałów MNF. Zestaw o 5 kanałach okazał się dawać najgorsze wyniki, natomiast zestawy o większej liczbie kanałów, niż 20 nie przynosiły znacznie lepszych wyników niż zestaw 20 kanałów 28
29 więcej sensu dla danych spektralnych, niż dla danych po transformacji PCA czy MNF. Kwestia optymalnego wyznaczenia liczby kanałów i metody ich wyboru bądź transformacji pozostaje istotna, ponieważ liczba użytych kanałów podczas przetwarzania danych ma znaczący wpływ na czas przetwarzania oraz zapotrzebowania na zasoby obliczeniowe. Zastosowana w niniejszej pracy metoda wyboru danych jest pewnego rodzaju hybrydą powyższych metod zamiast używać kanały po transformacji PCA, autor wykorzystał inną właściwość PCA do oceny przydatności danego kanału spektralnego. Bazując na dotychczasowych pracach (Thenkabail i inni, 2012; Sommer i inni, 2015) oceniono informacyjność danego kanału spektralnego w każdej składowej głównej PCA poprzez analizę magnitudy wartości czynników, którą można interpretować jako korelację pomiędzy poszczególnymi kanałami spektralnymi a danym czynnikiem głównym. W ten sposób przypisano każdemu kanałowi spektralnemu wartość, która pozwala na ocenę istotności danego kanału - współczynnik użyteczności kanału (band loading, eigenvalue). Wyższe wartości oznaczają bardziej istotne kanały spektralne, niosące więcej przydatnej informacji. Użycie powyższej procedury pozwala na posortowanie kanałów spektralnych zobrazowania w kolejności udziału poszczególnych kanałów spektralnych w kanałach PCA. Metoda PCA sprawdziła się jako narzędzie do wybrania najlepszych kanałów zobrazowania, co wymiernie zwiększyło dokładność klasyfikacji wykonanej sztucznymi sieciami neuronowymi (Pu, 2009) Lotnicze obrazy hiperspektralne APEX Na Uniwersytecie w Zurichu rozpoczęto prace planistyczne nad przygotowaniem nowego sensora hiperspektralnego w roku Zaowocowało to przyznaniem grantu na konstrukcję i wdrożenie skanera w 1995 roku. Sensor został zbudowany przez konsorcjum szwajcarsko-belgijskie w ramach programu ESA-PRODEX 29. Prace konstrukcyjne i badawcze trwały do 2008 roku, kiedy to gotowy sensor wszedł w fazę kalibracyjną (Itten i inni, 2008). Sensor APEX jest aktywnie używany od 2009 roku; rejestruje w zakresie od 380 do 2500nm w maksymalnie 534 kanałach spektralnych (Tabela 2). APEX jest urządzeniem zbudowanym z dwóch detektorów, przystosowanych do zbierania charakterystyk spektralnych w zakresie widzialnym i bliskiej podczerwieni (VNIR) oraz średniej podczerwieni (SWIR). 29 Projekt zapoczątkowany przez ESA (Europejska Agencja Kosmiczna) w 1986 roku, mający na celu stymulowanie rozwoju produkcji instrumentów naukowych o wysokiej precyzji, głównie do zastosowań naukowych. 29
30 Tabela 2. Charakterystyki skanera APEX (za Popp i inni, 2012) VNIR SWIR Zakres spektralny 380,0-971,7 nm 941,2-2501,5 nm Liczba kanałów spektralnych do Szerokość połówkowa filtra 0,6-6,3 nm 6,2-11 nm Pole widzenia (FOV) 28 Instantaneous Field of View (IFOV) Rozdzielczość przestrzenna 0,028 ( 0,5 mrad) 2, AGL Celem budowy skanera APEX jest testowanie różnych rozwiązań technicznych i opracowanie algorytmów dla planowanych sensorów satelitarnych, takich jak Sentinel 2 i 3 oraz EnMAP (D'Odorico i inni, 2010) Klasyfikacja drzewostanów na podstawie obrazów hiperspektralnych Jednym z pierwszych zespołów badawczych zajmujących się problematyką klasyfikacji drzewostanu za pomocą danych hiperpsektralnych był zespół z USGS 30 pod kierownictwem R.F. Kokaly (2003). Badacze wykorzystali dane pochodzące z sensora AVIRIS 31 do klasyfikacji ośmiu typów roślinności w lesie, wśród których znalazły się gatunki drzewiaste: świerk (Picea engelmannii), dwa gatunki sosny (Pinus contorta, Pinus albicaulis), jodła (Abies lasiocarpa), daglezja (Pseudotsuga menziesii) i topola (Populus grandidentata). Do klasyfikacji wykorzystano system TERTACORDER działający na zasadzie systemu eksperckiego, któremu przedstawia się bibliotekę spektralną zawierającą krzywe spektralne dla klasyfikowanych klas. Wynikowe obrazy klasyfikacyjne miały dokładność ogólną na poziomie 74,1% oraz współczynnik kappa równy 0,62. Warto zauważyć, że autorzy jako dane weryfikacyjne wykorzystali wyniki fotointerpretacji z 1990 roku, mającej na celu klasyfikację różnych typów pokrycia terenu w parku Yellowstone. Autorzy zwrócili uwagę na dużą zmienność spektralną w zakresie od 700 do 1300 nm dla sosny (Pinus contorta) wiązaną 30 USGS United States Geological Survey. 31 AVIRIS - Airborne Visible InfraRed Imaging Spectrometer. Dane techniczne: rozdzielczość spektralna 10 nm, rozdzielczość terenowa 2-20 m, pole widzenia 34, liczba pikseli w linii 677, częstotliwość skanowania 12 Hz, liczba kanałów 224, zakres spektralny 0,38-2,5 μm, sposób skanowania: whisk broom. 30
31 głównie z różnicami wieku między drzewami wzorcowymi. Badanie wykonane przez G. Shen wskazało na zalety wykorzystania klasyfikatora SAM 32 do klasyfikacji roślinności (Shen i inni, 2010). Badacze podkreślili umiejętność klasyfikatora SAM do poprawnego rozpoznawania klas poprzez występowanie charakterystycznych miejsc na krzywej spektralnej badanego obiektu. Część badaczy ograniczyła się w swoich badaniach tylko do zakresu widzialnego promieniowania elektromagnetycznego oraz bliskiej podczerwieni, ze względu na występowanie w tych zakresach szczególnych cech spektralnych dla roślinności (red edge, zakres absorbcji przez chlorofil a i b, występowanie pigmentów). Pewna grupa badań dowiodła jednak znacznej przydatności zakresu podczerwieni krótkofalowej ( nm) do klasyfikacji roślinności (Peerbhay i inni, 2013; Tagliabue i inni, 2016; Fassnacht i inni, 2016). Podstawę do twierdzenia o ekonomicznej użyteczności klasyfikacji wykonanej na danych hiperspektralnych spróbowano potwierdzić w pracy K. Peerbhay (2013). Badacze sklasyfikowali sześć gatunków egzotycznych drzew uprawianych na drewno, rosnących w RPA. Do klasyfikacji użyli danych z sensora AISA Eagle (230 kanałów spektralnych) operującego w zakresie nm. W wyniku uzyskali dokładność ogólną klasyfikacji 88% oraz współczynnik kappa 0,87 (Peerbhay i inni, 2013). Ze względu na przemysłowy charakter upraw, drzewa jednego gatunku występowały w dużych grupach, co znacznie ułatwiło zebranie danych wzorcowych oraz zredukowało liczbę tzw. mikseli wynikających z wzajemnego przesłaniania się koron drzew różnych gatunków. Dodatkowo autorzy podkreślili potrzebę wyboru najlepszych kanałów zobrazowania, co nie tylko zmniejsza czas przetwarzania danych, ale może również podnieść dokładność klasyfikacji (Lucas i inni, 2008). Klasyfikatory SVM i RF 33 oraz dane z sensora HySpex pozwoliły sklasyfikować następujące gatunki drzewiaste: sosnę (Scots Pine), buk (Fagus Sylvatica), dwa gatunki dębu (Quercus robur i Quercus petraea) i daglezję (Pseudotsuuga menziesii). Przy klasyfikacji kanałów spektralnych uzyskano dokładność ogólną wynoszącą 81% dla algorytmu SVM oraz 77% dla RF. Dokładność ogólna klasyfikacji przeprowadzonej na 25 kanałach MNF wyniosła 95% niezależnie od zastosowanego algorytmu. Dodatkowo podjęto próbę porównania wyników klasyfikacji wykorzystując dane o różnej rozdzielczości przestrzennej. Stwierdzono brak znacznych różnic dla danych o rozdzielczości 4, 8 i 30 metrów dla klasyfikacji 32 SAM Spectral Angle Mapper algorytm klasyfikacyjny, którego zadaniem jest znalezienie na obrazie pikseli najbardziej podobnych spektralnie do wzorca. Często wykorzystywany przy klasyfikacji skał. 33 Support Vector Machine, Random Forest 31
32 wykorzystującej tylko dane spektralne, natomiast dane o rozdzielczości 30 metrów dały gorsze wyniki w przypadku, kiedy klasyfikowano kanały po transformacji MNF. Wnioskiem z tych prac jest wykazanie poprawy dokładności klasyfikacji dzięki zastosowaniu transformacji MNF na danych spektralnych, a następnie klasyfikacji kanałów MNF (Ghosh i inni, 2014). Metody teledetekcyjne pozwalają również na detekcję wybranych gatunków drzew w zróżnicowanym ekosystemie leśnym. Wykorzystując dane z sensora Carnegie Airborne Observatory udowodniono możliwość identyfikacji trzech gatunków drzew tropikalnych (Dipteryx panamensis, Handroanthus guayacan, Jacarando copaia) występujących na wyspie Barro Colorado w Panamie. W tym celu wykorzystano klasyfikator SVM, który zmodyfikowano tak, aby dostarczał informacje na temat istnienia danego gatunku w danym pikselu. Wykonane klasyfikacje osiągnęły dokładność ogólną 98% oraz dokładność producenta powyżej 94% (Baldeck i inni, 2015). Poza samą identyfikacją możliwe jest też wykonanie klasyfikacji gatunków drzew na bogatych gatunkowo obszarach lasów tropikalnych. Wykorzystując dane z Carnegie Airborne Observatory zespół badaczy sklasyfikował 20 tropikalnych gatunków drzew występujących w południowej Panamie. Badacze zastosowali algorytm SVM oraz zestaw danych hiperspektralnych o rozdzielczości przestrzennej 2 metry i 250 kanałach spektralnych. Praca wykorzystała metody sprawdzianu krzyżowego (iteracyjne, crossvalidation) podczas oceny dokładności klasyfikacji. Dokładność ogólna uzyskanej klasyfikacji wyniosła 62%. Najwyższe dokładności producenta oraz najmniejszą zmienność wyników zaobserwowano dla trzech klas reprezentujących najczęściej występujące gatunki drzew (ponad 75%). Praca wskazała na potrzebę dokładnego analizowania błędów przeszacowania i niedoszacowania klasyfikacji oraz rozwiązania przyczyn ich występowania (Graves i inni, 2016). Poza podejściami wykorzystującymi tylko dane hiperspektralne można spotkać się także z pracami wzbogacającymi dane spektralne danymi lidarowymi. Lee i inni (2016) wykorzystali dane lidarowe do wyznaczenia koron poszczególnych drzew, a następnie dokonali ich klasyfikacji używając charakterystyk spektralnych. W pracy sklasyfikowano 6 gatunków drzew: jesion Fraxinus excelsior, platan Acer pseudoplatanus, modrzewmlarix decidua, dąb Quercus robur, buk Fagus sylvatica, brzoza Betula spp,. wykorzystując algorytm SVM. W celu redukcji ilości przetworzonych danych wykorzystano transformację PCA. Wykonaną klasyfikację charakteryzowała dokładność ogólna 91% w przypadku klasyfikacji poszczególnych pikseli. Pięć z sześciu klas osiągnęło dokładność producenta powyżej 94%, 32
33 natomiast klasa Quercus robur (dąb) sklasyfikowała się najgorzej, osiągając dokładność producenta wynoszącą 67%. W przypadku gdy klasyfikowano gatunki drzew na poziomie indywidualnych koron drzew, uzyskano dokładność ogólną 61%. W przytoczonym przypadku klasy Larix decidua i Quercus robur osiągnęły dokładności producenta poniżej 37%. Autorzy ocenili, że na dużo niższe dokładności w przypadku klasyfikacji koron drzew miała wpływ niedostateczna dokładność geograficznej lokalizacji obszarów wzorcowych. W pracy pokazano skuteczność transformacji PCA w redukcji wykorzystanych danych. Badacze zauważyli znaczny spadek dokładności klasyfikacji przy wykorzystaniu mniej niż 12 kanałów PCA (5 kanałów 70%, 10 kanałów 81%, 15 kanałów 86%), jednocześnie odnotowując wzrost dokładności w przypadku użycia większej liczby kanałów PCA. Przy użyciu 40 kanałów PCA dokładność ogólna klasyfikacji wyniosła 91% (Lee i inni, 2016). Można potwierdzić, że tematyka klasyfikacji drzewostanu jest intensywnie rozwijana. Wynika to z różnorodności i strefowości roślinności, a także liczebności grona badaczy zainteresowanych cechami spektralnymi roślin. Pokrywa roślinna ściśle zależy od położenia geograficznego, profilu pionowego, ale także od antropopresji. Teledetekcyjny monitoring dostarcza szczegółowych informacji o procesach zachodzących w środowisku, także w skali globalnej. Kluczowe są metody monitoringu roślinności wysokogórskiej, która dynamicznie reaguje na zachodzące zmiany. Wartości odbicia spektralnego dla różnych gatunków roślinności są wysoce ze sobą skorelowane, co wynika głównie z ich podobnej budowy anatomicznej i fizjologicznej, a także substancji biochemicznych (Price, 1994). Dodatkowo na ogólny przebieg krzywej spektralnej wpływa niewielka liczba cech związanych z samą rośliną (zawartość chlorofilu a i b, karotenoidów, struktura komórkowa liścia, Masaitis i Mozgeris, 2013). Warto też pamiętać o zmienności w odbiciu spektralnym wynikającym z wieku roślin oraz fenologii danego gatunku (Cochrane, 2000). Masaitis i Mozgeris (2013) wykazali, że u powszechnie występujących gatunków drzewiastych (topola Populus Tremula, olcha czarna Alnus glutinosa, świerk Picea abies, sosna Pinus sylvestris i brzoza Betula pendula), największe różnice spektralne występują na początku okresu wegetacyjnego w podczerwieni i zakresie niebieskim promieniowania elektromagnetycznego, natomiast w lecie najlepszą separację umożliwiają kanały spektralne zlokalizowane w dalszej podczerni oraz czerwony zakres promieniowania elektromagnetycznego. Drzewa szczególnie różnicują się spektralnie we wrześniu (iglaste) oraz lipcu (liściaste; Masaitis, Mozgeris, 2013). 33
34 Duża dostępność oraz różnorodność sensorów sprzyja powstawaniu nowych metod i algorytmów przetwarzania danych (Fassnacht i inni, 2016). Niemniej, dane hiperspektralne z racji na dużą liczbę oraz niewielką szerokość kanałów, stawiają przed badaczami nowe wyzwania. Poszczególne kanały spektralne są często silnie skorelowane z kanałami sąsiednimi, co powoduje, że część informacji jest dublowana (Thenkabail i inni, 2004). Jednocześnie ze względu na ogrom danych, których dostarczają sensory hiperspektralne oraz ograniczone zasoby obliczeniowe, badacze zmuszeni są do szukania rozwiązań pozwalających na wyznaczanie optymalnych kanałów zobrazowania. Badania literaturowe wskazały też na dużą liczbę algorytmów wykorzystanych do klasyfikacji drzewostanu. Najbardziej wyróżniają się metody oparte na klasyfikatorze SVM, głównie ze względu na łatwość wykorzystania tej metody oraz wcześniejsze prace, które regularnie donoszą o wysokiej dokładności wyników uzyskanych przy wykorzystaniu SVM. Teledetekcja hiperspektralna ma potencjał, który można wykorzystać do klasyfikacji gatunków drzew, co zostało już nieraz udowodnione. Techniki hiperspektralne dysponują rozwiniętymi metodami przetwarzania danych oraz prawidłowej ich korekcji, tak aby powtarzalnie dostarczać jednolite zestawy danych o wysokiej jakości. W literaturze można spotkać szeroką gamę algorytmów klasyfikujących o różnych zaletach i wadach. Dobór klasyfikatora jest zwykle podyktowany jego umiejętnością dostarczania miarodajnych wyników oraz łatwością zastosowania. Zagadnieniem godnym uwagi jest odpowiedni dobór danych wykorzystanych w analizach, tak aby możliwie efektywnie wykorzystać posiadane dane oraz zasoby obliczeniowe. 2. Sztuczne sieci neuronowe Jednym z fundamentalnych dokonań XIX wieku było odkrycie, że mózg człowieka składa się z ogromnej wzajemnie połączonych komórek zwanych neuronami (Finger, 2001). Od tego momentu wielu badaczy zadawało sobie pytanie, jak działa ludzki mózg. Mimo wielu lat, jakie upłynęły od tego odkrycia, nie udało się jeszcze w pełni zrozumieć całości procesu myślenia. Najpotężniejsze komputery nadal mają ogromne problemy z zadaniami trywialnymi dla dzieci (min. zrozumienie mowy, zdolność uczenia się nowych idei, rozpoznawanie twarzy i obiektów; Dehaene-Lambertz, Spelke, 2015). W latach wykorzystano wiedzę o budowie neuronu i systemie połączeń, jakie tworzy on z innymi, sąsiadującymi neuronami. Pierwszą trudnością było opracowanie modelu neuronu. Rozwiązanie tego problemu 34
35 zaproponowali W. McCulloch i W. Pitts, którzy w 1943 roku przedstawili matematyczny model sztucznego neuronu, który miał naśladować pracę neuronów obecnych w ludzkim mózgu (McCulloch, Pitts, 1943). Pierwszy model sztucznego neuronu miał wiele wad (brak możliwości przechowywania informacji, ograniczona zdolność transformacji sygnału), ale był elementem stymulującym dalsze badania w tej dziedzinie. W 1949 roku D. Hebb zaproponował metodę przechowywania informacji w sieci złożonej ze sztucznych neuronów oraz metodę uczenia (trenowania) sieci. Metoda ta polegała na zmianie wag przypisanych do każdego z połączeń między neuronami. Przepływ sygnału między neuronami zmieniał wagę połączenia w taki sposób, że wagi połączenia między bardziej aktywnymi neuronami miały większe wartości niż wagi połączeń rzadziej używanych neuronów (Hebb, 1949). Od tego momentu prace nad sztucznym neuronem koncentrowały się na zbudowaniu modelu, który pozwoliłby wykorzystać go do przetwarzania informacji (sygnału). Dopiero w 1958 roku F. Rosenblatt zaproponował pierwszy algorytm przetwarzania informacji oparty na sieci połączonych ze sobą sztucznych neuronów (perceptron, Rosenblatt, 1958). Zaproponowany algorytm naśladował działanie neuronów w ludzkim mózgu. Rozwiązanie zaproponowane przez Rosenblatta spotkało się z krytyką ówczesnych badaczy. Głównymi zarzutami była jednowarstwowa struktura sieci, ogromne jak na owe czasy zapotrzebowania algorytmu na moc obliczeniową oraz ograniczenie zastosowania algorytmu tylko do problemów, które można było rozwiązać za pomocą równań liniowych (Minsky i Papert, 1969). Wyżej wymienione problemy zostały rozwiązane przez P. Werbosa w 1974 roku (Werbos, 1994). Rozwiązaniem był algorytm nazwany wsteczną propagacją błędu, który pozwalał przeprowadzić uczenie wielowarstwowej sieci neuronowej. Kolejnym ważnym dokonaniem była sieć Self-Organising Map (SOM) zaproponowana przez Kohonena (1990). Początek lat przyniósł gwałtowny rozwój technologii produkcji podzespołów komputerowych, co pozwoliło na produkcję tanich komputerów. Szeroki dostęp do komputerów spowodował rozwój sztucznych sieci neuronowych w wielu dziedzinach. W zależności od zastosowań wykorzystywano różne typy sieci neuronowych, m.in.: perceptron wielowarstwowy, sieci Kohonena, sieci typu ART i ARTMAP, a także sieci Hopfielda. Ostatnie lata przyniosły nowe odkrycia w dziedzinie uczenia sztucznych sieci neuronowych. Coraz szybsze komputery pozwalają na stosowanie tzw. sieci głębokiego uczenia (LeCun i inni, 2015) coraz częściej stosowane m.in. w dziedzinie rozpoznania obrazów, rozpoznawania mowy, automatycznego 35
36 tłumaczenia teksów czy modelowania protein i łańcuchów DNA (Krizhevsky i inni, 2012, Xiong i inni, 2016, Angermueller i inni, 2016) Perceptron wielowarstwowy Stosunkowo prosty mechanizm działania neuronu zaproponowany przez W. Pittsa i W. McCullocha (McCulloch, Pitts, 1943) dał impuls do rozwoju wykorzystania sztucznych sieci neuronowych. Ponad 60-letni rozwój zaowocował dużą liczbą typów sztucznych sieci neuronowych, z którą mamy do czynienia dzisiaj. Wśród typów sztucznych sieci neuronowych wyróżnia się sieci jednowarstwowe, wielowarstwowe, rekurencyjne, samouczące się, specjalizowane (Osowski, 1996) oraz stosunkowo nowe sieci głębokiego uczenia (deep learning, LeCun i inni, 2015). W niniejszej pracy wykorzystano perceptron wielowarstwowy. Jest to jeden z najczęściej stosowanych typów sztucznej sieci neuronowy, zbudowany z co najmniej trzech warstw (Beluco i inni, 2015; Tkáč, Verner, 2016). Perceptron wielowarstwowy jest klasyfikatorem nieparametrycznym o nadzorowanej procedurze uczenia. Ze względu na nadzorowany charakter uczenia, użytkownik sieci musi przygotować zestaw wzorców, na podstawie którego możliwy będzie trening sieci. Perceptron wielowarstwowy składa się z warstw, a każda z nich z pewnej liczby neuronów (Ryc. 3). Ryc. 3. Schemat perceptronu wielowarstwowego składającego się z trzech warstw (Opracowano na podstawie Mas, Flores, 2008) 36
37 Neurony w warstwach są związane z innymi neuronami połączeniami (synapsami), którymi przepływają sygnały. SSN 34 można opisać jak o wysoce współbieżny system obliczeniowy zbudowany z bardzo prostych elementów podstawowych (neurony) oraz połączeń między neuronami (Jain i inni. 2000). Zasada działania perceptronu wielowarstwowego opiera się na zdolności połączonych w sieć neuronów do przesyłania i odbierania sygnałów. W celu ustrukturyzowania przepływu sygnałów przez sieć, neurony grupuje się w warstwy. Warstwa wejściowa i wyjściowa pozwala na przesyłanie sygnału do i z sieci, co ujmując prościej pozwala na przesłanie informacji o wzorcu do sieci oraz odebranie sygnału, który został przepuszczony przez sieć. Neurony warstwy wejściowej i wyjściowej są połączone z neuronami warstwy ukrytej. Idea uczenia sieci neuronowej polega na zdolności neuronu do modyfikacji wag połączeń, które od niego wychodzą oraz modyfikacji wagi neuronu. Wagi przypisane do neuronów oraz połączeń między nimi pozwalają na uczenie sieci, które polega na przepuszczeniu sygnałów wzorcowych, które zmuszą poszczególne neurony do modyfikacji wag swoich i połączeń, tak by dopasować się do wzorca (Osowski, 1996). Po ukończeniu procedury, wyuczona sieć ma zdolność do klasyfikowania nowych danych. Dużą rolę w skuteczności uczenia sieci ma dobór algorytmu uczącego, którego zadaniem jest dopasowanie wag do danych wzorcowych (Ryc. 4). Ryc. 4. Dokładność klasyfikacji danych hiperspektralnych pokrycia terenu algorytmem sztucznych sieci neuronowych (źródło: Pal, Mather, 2006; Zagajewski, 2010 zmodyfikowane) 34 SSN Sztuczne Sieci Neuronowe. 37
38 Wykorzystanie SSN jako klasyfikatora wymaga kilku kroków przygotowawczych. Pierwszym jest utworzenie struktury sieci składającej się z warstwy wejściowej, wyjściowej oraz pewnej liczby warstw ukrytych. Obecność warstw ukrytych w sieci pozwala jej na uczenie się oraz zapamiętywanie wzorców. Każda warstwa w sieci składa się z pewnej liczby neuronów. W warstwie wejściowej jest ich tyle, ile jest źródeł danych wykorzystanych do uczenia sieci (np.: w przypadku, w którym chcielibyśmy użyć wszystkich kanałów sensora APEX, liczba neuronów w warstwie wejściowej wynosiłaby 288). Warstwa wyjściowa może składać się z jednego neuronu, gdy chcemy otrzymać wynik klasyfikacji w postaci obrazu z klasami przypisanymi do każdego piksela lub z tylu neuronów, ile jest klas wynikowych. Wtedy każdy neuron będzie mógł ocenić pseudo-prawdopodobieństwo wystąpienia danej klasy w danym pikselu. W warstwie ukrytej można umieścić dowolną liczbę neuronów, chociaż istnieją pewne ogólnie przyjęte sposoby określenia tej wartości. Z reguły większa liczba neuronów w sieci daje lepiej wytrenowaną sieć (Neal, 1996). Do wyznaczania liczby neuronów w warstwie ukrytej przyjęto m.in. następujące zasady: liczba neuronów w warstwie ukrytej powinna zawierać się między liczbą neuronów w warstwie wejściowej a liczbą neuronów w warstwie wyjściowej (Blum, 1992), warstwa ukryta powinna zawierać dwa razy więcej neuronów niż jest ich w warstwie wejściowej (Swingler, 1996), neuronów w warstwie ukrytej nie powinno być więcej niż dwukrotność ich liczby w warstwie wejściowej (Berry i Linoff, 1997). Powyższe porady pozwalają uniknąć testowania wpływu liczby neuronów w warstwie ukrytej na wynik, co jest kosztowne obliczeniowo, ale nie zawsze są to optymalne wartości. Po utworzeniu sieci neuronowej o odpowiadającej problemowi strukturze optymalizuje się parametry uczenia. Jest to o tyle ważne, że sieć o większej liczbie neuronów niż jest to potrzebne może utracić część lub całość zdolności do generalizacji. Jest to spowodowane faktem, że połączenia między neuronami mogą nauczyć się wektorów wejściowych oraz szumów, które istnieją w danych treningowych. Jednocześnie sieci o zbyt małej, liczbie neuronów nie będą się w stanie nauczyć prezentowanych im wzorców zawartych w danych treningowych (Miguez i inni, 2014). W zależności od zastosowanego algorytmu uczącego, może być do kilkudziesięciu parametrów wymagających optymalizacji. Optymalizacja większej liczby parametrów uczenia jest procesem długotrwałym. Istotnym krokiem jest przeprowadzenie procedury uczenia sieci, w trakcie której sieci przedstawiane są wzorce. Proces uczenia kończy się, kiedy błąd wyuczenia sieci osiągnie 38
39 pewien z góry założony poziom lub w momencie, w którym algorytm uczący uzna, że nie da się już bardziej zmniejszyć błędu wyuczenia. Moment ten nazywany jest konwergencją. Jest to zdolność sztucznej sieci neuronowej do nauczenia się wszystkich wzorców, jakie zostają jej przedstawione w danych treningowych (Miguez i inni, 2014). Wytrenowana sieć jest gotowa do klasyfikacji nowego zestawu danych, pod warunkiem że są to dane kompatybilne z tymi użytymi do uczenia sieci. Perceptron wielowarstwowy może poprawnie klasyfikować dane, które trudno jest opisać równaniami liniowymi (Beluco i inni, 2015). Dodatkowo SNN ze względu na swój nieparametryczny charakter nie są ograniczone do statystycznych właściwości danych. Wadami perceptronu wielowarstwowego są długie procesy treningu sieci, które są wprost zależne od liczby neuronów w sieci, wymóg optymalizacji struktury sieci neuronowej (liczba neuronów w poszczególnych warstwach) oraz wymóg optymalizacji parametrów uczenia w celu osiągnięcia dokładnych wyników. Kolejną wadą jest zjawisko tzw. przetrenowania sieci, które może nastąpić, jeżeli proces uczenia zostanie zakończony za późno. W efekcie powstaje sieć, która mimo że teoretycznie powinna być lepiej wytrenowana, produkuje niskiej jakości klasyfikacje. Jedną z dosyć istotnych wad jest nieliniowa zależność miedzy czasem treningu a liczbą neuronów w sieci oraz ogólnym skomplikowaniem sieci (liczb warstwa, sposób połączenia neuronów). Zmusza ona potencjalnego użytkownika do poszukiwania rozwiązań, które opierają się na sieciach o jak najmniejszej ogólnej liczbie neuronów. Dodatkowo ze względu na chęć skracania czasu treningu do akceptowalnego oraz wrażliwość sztucznych sieci neuronowych na jakość danych (rozumiana jako niska zawartość szumu, brak artefaktów we wzorcu oraz odpowiednio wyselekcjonowane dane wejściowe), użytkownik musi również szukać metod na ograniczenie liczby danych wejściowych do niezbędnego minimum. Do zalet sztucznych sieci neuronowych można zaliczyć odporność na uszkodzenia struktury sieci, brak wymogu programowania sieci (przez sieć wystarczy tylko przepuścić sygnały wzorcowe), szybka klasyfikacja danych wytrenowaną siecią oraz zdolność sieci do generalizacji. Generalizacja to zdolność sztucznej sieci neuronowej do poprawnej klasyfikacji danych innych niż użyte we wzorcu (Miguez i inni, 2014). Jest to cenna umiejętność szczególnie w teledetekcji, gdzie często występują problemy ze stabilnością sygnału spektralnego w ramach kilku scen (źródłem tej niestabilności może być wada sensora, lub nieskorygowany efekt BRDF 35 ). 35 Bidirectional distribution function BRDF funkcja opisująca odziaływanie światła z matowymi 39
40 Reasumując: sztuczne sieci neuronowe są rozwijane przez liczne zespoły badaczy, szybko tworzone są liczne, równoległe rozwiązania. Stawia to unikatowe wyzwania przed badaczami, szczególnie umiejącymi programować i dostosowywać poszczególne narzędzia do konkretnych rozwiązań. Dużym wyzwaniem jest optymalizacja algorytmów uczących, ale również parametrów uczenia i selekcji danych wykorzystanych do treningu. Wynika to po części z pojawiania się nowych danych o wysokich rozdzielczościach spektralnych, radiometrycznych, przestrzennych oraz czasowych Algorytm wstecznej propagacji błędu Algorytm wstecznej propagacji błędu zaproponowany przez P. Werbosa w 1974 roku jest jednym z najpopularniejszych algorytmów uczenia sztucznych sieci neuronowych (Werbos, 1994). Można go opisać jako funkcję celu E(w), mającą za zadanie minimalizację różnic pomiędzy aktualnymi wartościami sygnałów (x) przepływających przez połączenia neuronów (synapsy) a zadanymi we wzorcu klasyfikacyjnym (za: Zagajewski, 2010). Uczenie sztucznej sieci neuronowej z użyciem algorytmu wstecznej propagacji błędu składa się z dwóch części. Początkowo zostają obliczone wartości sygnału (zmienione przez funkcję aktywacyjną) dla każdego neuronu indywidualnie. Wartości wag połączeń między neuronami nie zostają zmienione. Następnie należy obliczyć błąd między tym, czego nauczyła się sieć a dostarczonym wzorcem. Etap pierwszy nosi nazwę forward pass. Drugi etap (backward pass) polega na sumowaniu błędów wyuczenia od warstwy wyjściowej do wejściowej, co pozwala na obliczenie lokalnego gradientu funkcji kosztu dla każdego neuronu. Następnie obliczone wartości służą do obliczenia nowych wartości wag połączeń między neuronami (Miguez i inni, 2014). Iteracyjny charakter działania algorytmu wstecznej propagacji błędu powoduje znaczne wydłużenie procesu uczenia, co dodatkowo potęgują niedoskonałości funkcji aktywacyjnej użytej podczas treningu. Zespół pod kierownictwem A. Shafiego udowodnił, że nasycenie funkcji aktywacyjnej w warstwach ukrytych i wyjściowej ma znaczny wpływ na wydłużenie procesu uczenia sieci (Shafie i inni, 2012). Obecnie istnieje wiele różnych wersji algorytmu wstecznej propagacji błędu (steepest descendent backpropagation, momentum backpropagation, variable learning rate backpropagation, powierzchniami względem pewnego puntu obserwacyjnego (Nicodemus, 1965). W teledetekcji efekt BRDF powoduje wystąpienie gradientu jasności w poprzek obrazu wynikowego, w efekcie zmieniającej się geometrii układu sensor obrazowana powierzchnia oraz właściwości obrazowanego obszaru (Schlaepfer i inni, 2014). 40
41 resilient backpropagation, conjugated gradient backpropagation i Levenberg-Marquardt algorithm; Yang i inni, 2013), mających za zadanie optymalizację procesu uczenia Charakterystyka symulatora sztucznych sieci neuronowych nnet Z uwagi na wykorzystanie pakietu nnet, przeznaczonego dla programu R (R Core Team, 2015) w niniejszych badaniach, poniżej zaprezentowano najważniejsze składowe tego środowiska. Program R oferuje programowalne, otwarte środowisko przetwarzania danych. Oznacza to dowolność postępowania i rozbudowy o własne programy oraz wykorzystania programów napisanych przez innych użytkowników. Programy dla R, które zostają udostępnione innych użytkownikom nazywa się paczkami (package). Do zalet programu R można zaliczyć szeroką bibliotekę paczek do przetwarzania danych (m.in. algorytmy klasyfikujące, procedury do analiz statystycznych, programy ułatwiające operowanie danymi rastrowymi i wektorowymi, szeroka gama programów do wizualizacji wyników) i możliwość programowania w środowisku R. Pozwala to na łączenie zaimplementowanych procedur oraz własnych pomysłów ułatwiając pracę w dynamicznym interpretatorze. W środowisku R dostępne jest kilka paczek pozwalających na symulację różnego typu sztucznych sieci neuronowych, m.in. Neuralnet, RSNNS, H2O, nnet. Na potrzeby niniejszych badań do symulacji sztucznych sieci neuronowych zdecydowano się wybrać paczkę nnet (Venables, Ripley, 2002). Wybrany pakiet potrafi symulować tylko jeden typ sztucznych sieci neuronowych, jednak w porównaniu z innymi dostępnymi pakietami jest znacznie prostszy w użyciu oraz wymaga niewielkiego nakładu pracy, aby rozpocząć prace. Paczka nnet symuluje sieci neuronowe typu perceptronu wielowarstwowego z jedną warstwą ukrytą. Działanie tego typu sztucznej sieci neuronowej opisano w rozdziale 2.1 i 2.2. Zaletami paczki nnet jest łatwość przeprowadzenia analiz i procedury treningu oraz klasyfikacji danych. Obecność programu w pakiecie R znacznie ułatwia tworzenie łańcuchów przetwarzania danych, eliminując potrzebę użycia wielu środowisk wykonawczych podczas pracy. Jest to bardzo cenna cecha, pozwalająca badaczowi na skupieniu się na rozwiązywaniu problemu, a nie walce z programem i sposobem przekazywania danych z jednego programu do drugiego. Sam program R jest dobrym narzędziem przygotowywania danych (filtracja, selekcja, przetworzenia, transformacje, itp.) oraz raportowania wyników w postaci wykresów i rycin. Nieoceniona jest także możliwość konsultacji z krótką, ale zwięzłą dokumentacją paczki. Pewnym ograniczeniem jest zdolność paczki nnet do symulowania sieci 41
42 składających się tylko z jednej warstwy ukrytej, co wyklucza użycie metody głębokiego uczenia za jej pomocą, co jednak nie powinno mieć dużego wpływu na wyniki, ponieważ dla większości zastosowań sieci o jednej warstwie ukrytej są wystarczające (Pu, 2009). Kolejną wadą jest ograniczona liczba wbudowanych w program algorytmów dopasowujących. Z pewnością pakiet nnet nie jest uniwersalnym programem do symulacji różnych typów sztucznych sieci neuronowych, ale użycie go jako symulatora perceptrona wielowarstwowego jest bardzo proste. Jako algorytm uczący pakiet nnet wykorzystuje algorytm wstecznej propagacji błędu zaproponowany przez autorów programu. Jest to jeden z podstawowych algorytmów uczenia sieci, chociaż należy zwrócić uwagę, że niemożliwe jest użycie innych algorytmów uczenia poza tym dostarczonym w paczce Zastosowanie sztucznych sieci neuronowych do klasyfikacji drzewostanu Mimo stosunkowo szerokiego wykorzystania sztucznych sieci neuronowych w teledetekcji, zakres wykorzystania tego klasyfikatora do klasyfikacji drzewostanu jest stosunkowo mały (Mas, Flores, 2008). Obecnie obserwuje się gwałtowny wzrost zainteresowania tematyką klasyfikacji drzewostanu przy użyciu danych hiperspektralnych, ale SSN jako klasyfikator nadal tracą w stosunku do łatwiejszych w użyciu i szybszych metod, takich jak Support Vector Machine i Random Forest (Fassnacht i inni, 2016). Jedną z pierwszych prac wykorzystujących sztuczne sieci neuronowe do klasyfikacji gatunków drzew za pomocą danych hiperspektralnych wykonał R. Pu (2009). Wykorzystał dane ze spektrometru ASD FieldSpec 3 do zebrania krzywych spektralnych dla 11 gatunków drzew liściastych (Ulmus americana, Quercus incana, Lagerstroemia indica, Quercus laurifolia, Quercus virginiana, Magnolia grandiflora, Diospyros virginiana, Acer rubrum, Q. geminata, Platanus occidentalis, Quercus laevis). Istotą badań była klasyfikacja spektr gatunków drzew liściastych pozyskanych podczas badań terenowych przeprowadzonych na Florydzie. Wykorzystano sztuczne sieci neuronowe z jedną warstwą ukrytą jako klasyfikator oraz algorytm wstecznej propagacji błędu. Przeanalizowano zakres spektralny od 350 do 2500 nm. Uzyskana dokładność wyniosła 86% przy współczynniku kappa 0,83. Najlepiej sklasyfikowane zostały następujące gatunki: Lagerstroemia indica, Platanus occidentali oraz Quercus laevis (100% dokładności producenta), najgorzej zaś Quercus laurifolia i Quercus incana (dokładność producenta <75%). Autor podkreślił, że terenowe dane hiperpsektralne różnią się od danych pozyskanych ze skanera lotniczego. Główną przyczyną różnic jest wpływ 42
43 cieni, konarów i innych obiektów na rejestrowany obraz, co w przypadku danych pozyskanych w terenie jest znacznie ograniczone, gdyż światłowód pozwala wykonać precyzyjny pomiar konkretnej części drzewa. Utrudnia to klasyfikację drzew, lepszym rozwiązaniem jest pozyskanie wzorców z obrazu, który jest przedmiotem klasyfikacji (Pu, 2009). Za pomocą perceptronu wielowarstwowego nie udało się sklasyfikować 17 gatunków drzew tropikalnych na obrazach z sensora Carnegie Airborne Observatory-Alpha w zakresie nm. Sztuczna sieć neuronowa miała 25 neuronów w jednej warstwie ukrytej. Autorzy uzyskali niskie dokładności dla sztucznych sieci neuronowych (oscylujące wokół 40%). Jednym z powodów, dla których otrzymano niskie dokładności dla sztucznych sieci neuronowych było nieoptymalne wyznaczenie parametrów uczenia oraz szybki spadek dokładności ogólnej dla klasyfikacji za pomocą sztucznych sieci neuronowych wraz ze wzrostem liczby klasyfikowanych klas (Feret, Asner, 2013). Powyższy przykład pokazuje, że nie można oczekiwać dobrych wyników klasyfikacji wykonanych sztucznymi sieciami neuronowymi bez optymalizacji parametrów uczenia. Użycie algorytm LDA 36 i SSN pozwoliło na sklasyfikowanie pięciu gatunków drzew: Pinus sylvestri., Picea abies, Betula pendula, Alnus glutinosa i Populus tremula na lotniczych obrazach AISA Eagle (64 kanały w zakresie nm). Do tego celu losowo wybierano zestawy pikseli do uczenia i testowania sieci, a samą procedurę klasyfikacji powtórzono cztery razy. Końcowe wyniki klasyfikacji przekroczyły 80% (dokładności producenta) dla Pinus sylvestris, Picea abies, Betula pendula oraz 40% dla Alnus glutinosa i Populus tremula. Dokładność całkowita klasyfikacji wyniosła 65%. Algorytm LDA lepiej klasyfikował większość gatunków, w tym znacząco lepiej Alnus glutinosa i Populus tremula (Priedītis i inni, 2015). Algorytmy SVM i SSN z powodzeniem są wykorzystywane też do klasyfikacji obrazów satelitarnych. Jako przykład służą prace zespołu G. Omera (2015). Autorzy wykorzystali obrazy WorldView-2 (8 kanałów spektralnych o rozdzielczości 2 metry) do identyfikacji sześciu zagrożonych wymarciem gatunków drzew. Napotkali duże problemy przy kartowaniu gatunków drzew w skomplikowanym strukturalnie i gatunkowo lesie tropikalnym. W wyniku klasyfikacji uzyskano mapy o dokładności ogólnej 77% dla SSN i 75% dla SVM. Stwierdzono dużą przydatność wysokorozdzielczych danych satelitarnych 36 LDA Linear Discriminant Analysis (liniowa analiza dyskryminacyjna) nadzorowana metoda klasyfikacji, w której próbuje się znaleźć jedną bądź kilka funkcji liniowych lub wyróżników zmiennych zależnych w celu wydzielenia klasy w przestrzeni klasyfikacji (Acquah i inni, 2016). 43
44 oraz podkreślono pozytywny wpływ kanałów w bliskiej podczerwieni na uzyskane dokładności klasyfikacji (Omer i inni, 2015). Podsumowując można powiedzieć, że badania nad klasyfikacją gatunków drzew za pomocą danych hiperspektralnych i sztucznych sieci neuronowych nie są rozpowszechnione. W literaturze nie znaleziono potwierdzenia znaczącej ilości badań bazujących na sztucznych sieciach neuronowych. W tym zakresie powszechniej wykorzystuje się SVM, czy Random Forest. Należy jednak przypomnieć, że metody te wymagają wskazania wzorców uczących na klasyfikowanym obszarze. W przypadku wąskich i długich linii zobrazowań hiperspektralnych może to być trudne, dlatego rozwój prac nad sieciami neuronowymi, które nie wymagają wzorców klasyfikowanych obiektów jest cennym rozwiązaniem metodycznym przy monitoringu lasu. Jednym ze wzorców może być uszkodzony las i w kolejnych latach można analizować zmiany zasięgu uszkodzeń. 3. Obszar i obiekt badawczy Karkonoski Park Narodowy (KPN) został założony 16 stycznia 1959 roku. Park znajduje się w południowo-zachodniej Polsce (Ryc. 5). Obejmuje swoim obszarem północne stoki Karkonoszy od Przełęczy Okraj do Mulawskiego Wierchu. Powierzchnia Parku wynosi 5584 ha, z tego 70,9% zajęte jest przez lasy (Ryc. 6). Obszar KPN jest w 37% objęty ochroną ścisłą (piętro subalpejskie i alpejskie). Ryc. 5. Lokalizacja Karkonoskiego Parku Narodowego w Polsce. 44
45 Pozostały obszar parku objęty jest ochroną czynną, mającą na celu odtworzenie zniszczonych lub uszkodzonych komponentów środowiska przyrodniczego oraz utrzymanie ekosystemów w równowadze ekologicznej (Raj, Knapik, 2014). Środowisko Karkonoskiego Parku Narodowego zostało poważnie uszkodzone w latach Przyczyną klęski ekologicznej, która wystąpiła w KPN było synergiczne oddziaływanie kwaśnych deszczów i zanieczyszczenia środowiska, które znacznie osłabiły drzewostan. Osłabione drzewa zostały zaatakowane przez korniki, które z łatwością niszczyły nadwyrężone już drzewa. Efektem było masowe wymieranie świerków. Innym czynnikiem niszczącym, który miał największych wpływ na drzewostan KPN były silne wiatry (Raj, 2014). Ryc. 6. Rozmieszczenie zbiorowisk leśnych i nieleśnych na obszarze Karkonoskiego Parku Narodowego (KPN). Wykonano na podstawie oficjalnych danych KPN. Głównym celem prac prowadzonych na obszarach leśnych w KPN jest wspomaganie procesów regeneracji zniszczonych i uszkodzonych drzewostanów oraz ich renaturalizacja przez wzbogacenie składu gatunkowego i struktury pionowej drzewostanów (Danielewicz i inni, 2012). W 1996 roku wokół parku utworzono otulinę o powierzchni ha, administrowaną przez okoliczne nadleśnictwa. Karkonoski Park Narodowy należy do programu UNESCO Man and Biosphere (M&B), jest objęty ochroną w ramach obszarów Natura 2000 i aktywnie współpracuje na polu ochrony przyrody ze swoim czeskim sąsiadem (Krkonošský národní park, KRNAP). Oba 45
46 Parki uzyskały w 2004 roku certyfikat parku transgranicznego, przyznawany podmiotom szeroko współpracującym na poziomie międzynarodowym oraz należą do stowarzyszenia EUROPARC wspierającego rozwój obszarów ochrony przyrody Warunki przyrodnicze Karkonoszy Trzon budowy geologicznej Karkonoszy stanowi karbońska intruzja granitowa. Wśród skał metamorficznych pojawiają się m.in. łupki łyszczykowe, gnejsy, amfibolity, wapienie krystaliczne i hornfelsy. W Karkonoszach można spotkać skały magmowe, reprezentowane głównie przez trzeciorzędowe bazaltoidy, szczególnie na obszarze Małego Śnieżnego Kotła. Oprócz skał magmowych występują skały osadowe, głównie karbońskie zlepieńce oraz holoceńskie torfy. Karkonoskie granity występują w dwóch odmianach: równoziarnistej i porfirowatej. Granity karkonoskie i skały ich osłony zawierają wiele minerałów, związanych głównie z krystalizacją magmy (Raj, Knapik, 2014). Klimat Karkonoszy jest determinowany przez ukształtowanie terenu to lokalny klimat górski kształtowany przede wszystkim przez masy powietrza oceanicznego. W Karkonoszach występuje układ stref klimatycznych składający się z czterech pięter: umiarkowane ciepłe (poniżej 600 m n.p.m.) średnia temperatura roczna powyżej 6 o C, osłabiona aktywność dynamiczna powietrza i silne zróżnicowanie przestrzenne opadów i temperatury, umiarkowane chłodne ( m n.p.m.) - średnia temperatura roczna między 6 a 4 o C, znaczna częstość wiatrów fenowych oraz wysokie opady atmosferyczne, chłodne ( m n.p.m.) średnia temperatura roczna pomiędzy 4 a 2 o C, surowe warunki termiczne, duża suma opadów rocznych, bardzo korzystne warunki akumulacji pokrywy śnieżnej, bardzo chłodne (powyżej 1320 m n.p.m.) temperatura roczna poniżej 2 o C, znaczne przychody wody z opadów i osadów atmosferycznych. Wielkość opadów w Karkonoszach jest bezpośrednio powiązana z wysokością bezwzględną (950 mm u podnóży Karkonoszy i ponad 1400 mm w najwyższych partiach gór). Najwięcej opadów przypada na lipiec i sierpień, najmniej na okres wiosenny (Raj, Knapik, 2014). 46
47 3.2. Roślinność Karkonoszy Roślinność drzewiasta to roślinność wieloletnia o silnie zdrewniałych, trwałych łodygach nadziemnych, często także korzeniach (Tomanek, Witkowska-Żuk, 1994). Do roślin drzewiastych należą: drzewa mają wyraźnie wykształcony pień i bogato rozgałęzioną koronę oraz zdolność do przyrastania pnia na grubość; ze względu na różnice w budowie, drzewa dzieli się na liściaste i iglaste, krzewy bez głównego pnia, wysokość do kilku metrów, pokrój kształtuje kilka równorzędnych pędów głównych, które rozwijają się z pąków odziomkowych lub bocznych, krzewinki niewielkie rośliny o częściowo drewniejących pędach; forma przejściowa pomiędzy roślinami drzewiastymi a zielnymi, półkrzewy dolna część pędu jest zdrewniała, natomiast górna część pędu nie drewnieje, pnącza charakteryzuje je szybki przyrost na długość oraz wydłużone, cienkie i elastyczne pędy; potrzebują podpory do wzrostu wzwyż. Ze względu na stosunkowo niewielką wysokość masywu Karkonoszy, piętra roślinne w Karkonoszach są obniżone względem tych spotykanych w Tatrach. Górna granica lasu przebiega tu przeciętnie na wysokości 1250 m n.p.m. (Raj, Knapik, 2014), dzięki północnooceanicznemu klimatowi. Na obszarze Karkonoskiego Parku Narodowego oraz jego otuliny można wyróżnić następujące piętra roślinne: piętro pogórza (do 500 m n.p.m.) w przeszłości intensywnie wykorzystywane gospodarczo. Najważniejszym zespołem leśnym tego piętra jest grąd środkowoeuropejski, w którego skład wchodzą głównie dąb szypułkowy, grab, lipa drobno i szerokolistna, buk zwyczajny, klon jawor i klon zwyczajny. Na obszarze KPN większość potencjalnych obszarów tego siedliska zajmują monokultury świerkowe. Siedliska grądowe zajmują 14,26 ha, w tym na 3,68 ha występują płaty o charakterze naturalnym. W piętrze podgórza KPN znajdują się też siedliska podgórskiej dąbrowy acidofilnej. Drzewostan budują tu głównie dęby bezszypułkowe z domieszką brzozy brodawkowatej, świerka pospolitego, sosny zwyczajnej, dębu szypułkowego i buka. Na terenie KPN siedliska tego typu są znacznie zdegenerowane, chociaż wykazują 47
48 tendencję do spontanicznej renaturalizacji. Obszary występowania skupiają się wyłącznie w obrębie eksklawy Góra Chojnik. Poza dwoma wymienionymi dominującymi siedliskami w piętrze podgórza występują również siedliska subatlantyckiego boru sosnowego, składające się głównie z sosny z domieszką świerka, buka, jarzębiny i brzozy brodawkowatej oraz siedliska nadrzecznej olszyny górskiej zbudowane głównie z olszy szarej, piętro regla dolnego (od 500 do 1000 m n.p.m.) w obszarze regla dolnego dominują monokultury świerkowe, które znacznie limitują obszar występowania naturalnych zbiorowisk leśnych. Wśród zachowanych siedlisk w piętrze regla dolnego można wyróżnić siedlisko kwaśnej buczyny sudeckiej. Drzewostan tego siedliska składa się głównie z buka z jednostkową domieszką świerka i jodły. Potencjalny obszar występowania tego siedliska w KPN to 1224,6 ha, z tego tylko 80,6 ha ma charakter naturalny. Znaczna część obszaru siedliskowego tego zespołu została zajęta przez monokultury świerkowe i modrzewiowe. Kolejnym siedliskiem regla dolnego jest żyzny sudecki las bukowy, który na obszarze KPN należy do siedlisk rzadkich, piętro regla górnego (od 1000 do 1250 m n.p.m.) jedynym zespołem leśnym w reglu górnym jest górnoreglowa świerczyna sudecka. Drzewostan tego zespołu jest zbudowany prawie wyłącznie ze świerka z niewielką domieszką górskiej odmiany jarzębiny. Zwarcie drzewostanu maleje wraz z wysokością od 80% do 30%. Jednocześnie zgodnie z tą samą zasadą, wraz ze wzrostem wysokości zmniejsza się wysokość drzew oraz zmianom ulega ich pokrój. Powierzchnia górnoreglowej świerczyny górskiej na terenie KLPN wynosi 2381,47 ha, z których 934,63 ha zachowały właściwą dla tego zespołu strukturę pomimo silnego negatywnego odziaływania antropogenicznego, piętro subalpejskie (od 1250 do 1450 m n.p.m.) jednym z charakterystycznych zbiorowisk tego piętra są sudeckie zarośla kosodrzewiny. Pomiędzy płatami kosodrzewiny tworzy się bogate runo zbudowane głównie z borówki oraz paproci. Gatunkami towarzyszącymi temu zbiorowisku są górska odmiana jarzębiny i wierzba śląska. Poza zbiorowiskiem kosodrzewiny w piętrze subalpejskim występują również murawy bliźniaczkowate, zarośla krzewów liściastych, zbiorowiska ziołorośli, wierzby lapońskiej, traworośla oraz borówczyska bażynowe, 48
49 piętro alpejskie (od 1450 do 1603 m n.p.m.) ze względu na trudne warunki środowiskowe, obszary piętra alpejskiego zasiedlają tylko odporne gatunki roślin. W tym piętrze występują murawy halne z udziałem sita skuciny oraz kosodrzewina niska. Murawy halne charakteryzuje bogata flora porostów, wśród których występują m.in. plechy płucnic i chrobotek gwiazdkowy. Płaty muraw otoczone są przez zbiorowiska skorupiastych porostów naskalnych, porastających powierzchnię kamieni tworzących pokrywę blokową. Powierzchnie leśne Karkonoszy były od wieków wykorzystywane przez człowieka. Podlegały dynamicznym przekształceniom, co można wykazać analizując zmiany obszaru zajętego przez las. Według obecnej wiedzy, powierzchnie lasów porastających obszar dzisiejszego KPN w roku 1747 ocenia się na 2511 ha. Do roku 1824 nastąpił gwałtowny wzrost powierzchni leśnych do 3857 ha, wywołany przemianami gospodarczymi w XVIII wieku, co objawiało się głównie zalesianiem obszarów rolnych oraz pastwisk (Nyrek, 1992). Do 1977 roku powierzchnia lasów w KPN pozostała stabilna, a zmiany w jej rozmieszczeniu były niewielkie (Szymura i inni, 2010). Inwentaryzacja z roku 1990 wykazała widoczne uszkodzenia drzew wywołane klęską ekologiczną przełomu lat i na obszarze 2549 ha (Raj, 2014). Obecnie lasy zajmują 4022 ha w KPN (Danielewicz i inni, 2012). Duży wkład w badanie zbiorowisk roślinnych Karkonoszy wnieśli W. i A. Matuszkiewiczowie, którzy w latach 1967 i 1975 przeprowadzili szczegółowe badania pokrywy roślinnej (Matuszkiewicz, Matuszkiewicz, 1967; 1975). Od roku 2004 na obszarze KPN ustanowiona została stała sieć powierzchni kołowych w siatce 200 na 300 metrów, służąca do monitoringu ekosystemów leśnych. Cyklicznie wykonywane są pomiary parametrów drzewostanu, roślinności, gleb oraz porostów (Knapik, Raj, 2014). Obecnie powierzchnie leśne KPN buduje głównie drzewostan świerkowy Picea abies L. Karst, który stanowi 85,55% powierzchni porośniętej lasem (Ryc. 7). Na pozostałą część składają się brzoza Betula pendula Roth (4,79%), modrzew Larix decidua Mill (4,58%), buk zwyczajny Fagus Sylvatica L. (4,14%), sosna zwyczajna Pinus sylvestris L. (0,53%), klon jawor Acer pseudoplatanus L. (0,14%), olsza Alnus Mill (0,12%) oraz jodła Abies alba Mill (0,11%) (Danielewicz i inni, 2012). Zdecydowano się na sklasyfikowanie pięciu gatunków drzew o największym udziale procentowym. Takie rozwiązanie zapewnia możliwość znalezienia relatywnie dużych 49
50 obszarów porośniętych danymi gatunkami drzew, co pozwala na wyznaczanie dostatecznie licznych wzorców dla klas. Dodatkowo zdecydowano się na wybranie jednego z trzech najrzadziej występujących gatunków drzew. Z jodły zrezygnowano, ponieważ jodły na obszarze KPN nie jest wystarczająco dużo i nie są jeszcze odpowiednio wysokie, by można było je poprawnie sklasyfikować. Nie zdecydowano się również na klasyfikowanie klona, ze względu na brak wystarczającej liczby wzorców w trakcie badań terenowych oraz trudności ze znalezieniem dużych obszarów porośniętych przez klony (powyżej 30 m 2 ). W efekcie włączono do klasyfikacji klasę olsza (olcha), dla której udało się uzyskać wystarczającą liczbę wzorców terenowych. Ryc. 7. Mapa potencjalnego występowania badanych gatunków drzew na obszarze Karkonoskiego Parku Narodowego. Materiał udostępniony przez KPN. Niniejsza praca dotyczy wyłącznie kartowania drzew. Termin roślinność drzewiasta jest tu rozumiany jako drzewa, zgodnie z przytoczoną definicją (Tomanek, Witkowska-Żuk, 1994). Ze względów praktycznych (wielkość piksela wynosząca ponad 9 m 2 oraz zwartość pozostałych gatunków drzewiastych 37 ) i ograniczenia dostępności danych, klasyfikacja innych typów roślinności drzewiastej nie została przeprowadzona. Zdecydował o tym brak dużych 37 W klasyfikacji wymaga się, by wielkość obiektu była 3-5 razy większa niż wielkość piksela. Zapewni to homogeniczność kilku sąsiadujących pikseli. W przypadku mniejszych lub ażurowych obiektów, transmitujących promieniowanie odbite od innych obiektów, powstają miksele, zmieniając cechy spektralne analizowanego obiektu. 50
51 obszarów porośniętych krzewami, krzewinkami, półkrzewami lub pnączami, które nie byłyby przysłonięte przez korony drzew na obszarze porośniętym przez roślinność leśną na terenie KPN. Ze względu na niewielkie rozmiary indywidualnych roślin półkrzewów i krzewinek, ich klasyfikacja na scenach APEX (rozdzielczość przestrzenna ponad 3 metry) nie jest możliwa. Biorąc pod uwagę powyższe uwarunkowania zdecydowano się na sklasyfikowanie sześciu gatunków drzew rosnących w KPN: świerk (Picea abies L. Karst), brzoza (Betula pendula Roth), buk (Fagus Sylvatica L.), modrzew (Larix decidua Mill), sosna (Pinus sylvestris L.) i olcha (Alnus Mill). 4. Metodyka Zaplanowane działania miały na celu opracowanie i przetestowanie metody przetwarzania danych hiperspektralnych i klasyfikacji wybranych gatunków drzew przy wykorzystaniu sztucznych sieci neuronowych. Metodyka pracy podzielona jest na trzy części: dane wejściowe, przetwarzanie danych i klasyfikacja oraz wyniki (Ryc. 8). Najważniejsze etapy pracy to: wykonanie lotniczego zobrazowania APEX według planu nalotu przygotowanego przez VITO (Ryc. 9), pozyskanie charakterystyk spektralnych spektrometrem ASD FieldSpec 3 dominujących obiektów jasnych i ciemnych spektralnie (asfalt, beton, piasek, woda, gęsta i homogeniczna roślinność, np. trawniki, łąki), pomiary stanu atmosfery spektrometrami słonecznymi wyniki posłużyły do wykonania korekcji atmosferycznej obrazów i jej weryfikacji, opracowanie numerycznego modelu terenu oraz numerycznego modelu pokrycia terenu z danych lotniczego skaningu laserowego (ALS), korekcja pozyskanych obrazów APEX (geometryczna, radiometryczna i atmosferyczna), terenowe pozyskanie wzorców występowania wybranych gatunków drzewiastych marszruta z odbiornikiem GPS Leica ZENO 10, pozyskanie wzorców dla klasyfikowanych klas na podstawie zobrazowania APEX i pomiarów terenowych, wybór optymalnego zestawu kanałów spektralnych wykorzystanych w klasyfikacji, 51
52 wyznaczenie maski obszarów objętych klasyfikacją, przy użyciu danych lidarowych, wskaźnika mrendvi oraz ortofotomapy, optymalizacja struktury i parametrów uczenia sztucznej sieci neuronowej, trening sieci neuronowej oraz ocena dokładności treningu i wykonanej klasyfikacji, klasyfikacja zobrazowań APEX za pomocą wyuczonej sztucznej sieci neuronowej, połączenie poklasyfikowanych scen oraz generalizacja uzyskanego wyniku w celu opracowania mapy rozmieszczenia wybranych gatunków drzew Karkonoskiego Parku Narodowego. Ryc. 8. Schemat najważniejszych procedur klasyfikacji roślinności drzewiastej 4.1. Pozyskanie danych Obrazy APEX pochodzą z zobrazowania przeprowadzonego 10 września 2012 roku. Nalot został wykonany przez DLR Braunschweig oraz VITO w ramach projektu EUFAR HyMountEcos. Przed zobrazowaniem skaner APEX został skalibrowany w bazie kalibracyjnej Callibration Home Base DLR Oberpfaffenhofen w Niemczech (Schaepman, 2015), następnie umieszczony w samolocie DLR Dornier Do 228. Skaner został skonfigurowany tak, by 52
53 uzyskać 288 kanałów spektralnych w zakresie nm o rozdzielczości przestrzennej około 3,3 metra. Wykonane zobrazowanie pokryło obszar Karkonoskiego Parku Narodowego (Polska) oraz Krkonošský národní park (Czechy, Ryc.9). Surowe dane APEX pozyskane w trakcie nalotu zostały następnie przetworzone przez VITO (operator skanera APEX). Równocześnie z nalotem wykonane zostały pomiary spektrometryczne do pomiaru cech spektralnych wzorców kalibracyjnych do korekcji atmosfery (Ryc. 10). Ryc. 9. Plan nalotu wykonanego podczas projektu HyMountEcos (źródło: VITO) Obrazy zostały poddane korekcji geometrycznej, radiometrycznej oraz atmosferycznej, a następnie przesłane do Uniwersytetu Warszawskiego. Dane APEX zostały dostarczone pod postacią osobnych zobrazowań, które pokrywały obszar KPN. Ze względu na deniwelacje zobrazowanego obszaru, rozdzielczość przestrzenna poszczególnych scen wahała się od 3,12 od 3,40 metra. Przed klasyfikacją rozdzielczość przestrzenna wszystkich dostarczonych scen została ujednolicona. Przyjęto wspólną rozdzielczość przestrzenną 3,35 metra większość scen wykorzystanych w klasyfikacji ma rozdzielczość przestrzenną bliską tej wartości. 53
54 Ryc. 10. Wykonanie pomiarów spektrometrycznych ASD FieldSpec 3 wykorzystanych do korekcji obrazów APEX Proces ujednolicania rozdzielczości przestrzennej przeprowadzono w programie ENVI używając opcji przepróbowania (resampling) obrazów. Wybrano opcję nearest neighborhood (najbliższego sąsiada), aby zminimalizować wpływ procesu przepróbowania na końcowy wynik. Sceny pokrywające obszar KPN o ujednoliconej rozdzielczości przestrzennej wykorzystano w procesie klasyfikacyjnym. Ryc. 11. Wizualizacja fragmentu zobrazowania hiperpsektralnego APEX w postaci tzw. data-cube 54
55 Gotowe dane zostały zwizualizowane w postaci tzw. data-cube (Ryc. 11), umożliwiając ocenę danych hiperspektralnych i informacyjność zobrazowania oraz ewentualne błędy poszczególnych kanałów (zaburzenia kolorystyki górnej i prawej krawędzi). Proces ten polegał na wyborze kompozycji RGB na przednią ścianę prostopadłościanu, natomiast na krawędziach automatycznie wyświetlona została zmienność spektralna pikseli Pozyskanie terenowych danych wzorcowych do klasyfikacji i weryfikacji W celu pozyskania wzorców uczących i weryfikacyjnych przeprowadzone zostały badania kameralne, które polegały na wyznaczeniu potencjalnie interesujących obszarów, na których mają być przeprowadzone badania terenowe. Do tego celu wykorzystano ortfotomapę pozyskaną z Karkonoskiego Parku Narodowego (pozyskaną we wrześniu 2012 roku, rozdzielczość przestrzenna 15 cm) oraz w kolejnych etapach opracowania danych, wstępne wyniki uzyskanych klasyfikacji. W wyniku prac kameralnych przygotowano trasy marszruty przez teren KPN oraz wyznaczono obszary badań terenowych: północny stok góry Szrenica obszar Szklarska Poręba, eksklawa KPN Góra Chojnik obszar Góra Chojnik, tereny należące do KPN w okolicach wsi Jagniątków obszar Jagniątków oraz teren na południe od Karpacza obszar Karpacz. Ryc. 12. Zdjęcie wykonane podczas zbierania danych terenowych. Po prawej odbiornik GPS ZENO 10 razem z anteną odbiorczą. Fot. Edwin Raczko. 55
56 Badania terenowe polegały na wykonaniu marszruty przez teren KPN w poszukiwaniu obszarów, które mogą stanowić dobry wzorzec do klasyfikacji. W trakcie badań terenowych zebrano dane dotyczące położenia geograficznego klasyfikowanych gatunków drzew oraz wykonano serię zdjęć dokumentacyjnych każdego pomierzonego poligonu. Aby uzyskać odpowiednio dobre wzorce do klasyfikacji mierzono tylko poligony, które dobrze reprezentowały badane gatunki drzew. Za takie uznano poligony, w których w odległości co najmniej 5 metrów od odbiornika GPS rosły przynajmniej trzy drzewa tego samego gatunku, występował niewielki podszyt w postaci krzewów lub traw, a w tym całym obszarze nie było drzew innego gatunku poza tym, który miał reprezentować wzorzec. Odbiornik GPS starano się umiejscowić bezpośrednio pod koronami drzew. Za dopuszczalny błąd pomiarowy odbiornika GPS uznano 2,5 metra. Posłużono się odbiornikiem Lecia ZENO 10 z zewnętrzną anteną (Ryc. 12). Badania terenowe przeprowadzono w czterech turach. Ryc. 13. Mapa rozmieszczenia poligonów pomiarowych zebranych w trakcie badań. Punkty położone w regularnej siatce zostały pozyskane z administracji Parku Przed rozpoczęciem badań terenowych obszar KPN został podzielony na cztery obszary badawcze: Szklarska Poręba obejmujący tereny KPN na południe od Szklarskiej Poręby, od zachodniej granicy parku do Łabskiego Szczytu; Góra Chojnik obejmujący eksklawę KPN Góra Chojnik oraz eksklawę Wodospad Szklarki; Jagniątków obejmujący obszary na 56
57 południe od Jagniątkowa, od Łabskiego Szczytu do formacji skalnej potocznie zwanej Słonecznik; Karpacz obejmujący obszary na południe od Karpacza od Słonecznika do wschodniej granicy KPN okolicy wsi Mala Upa. W sierpniu 2013 roku przeprowadzono pierwszą serię pomiarów terenowych, na obszarach badawczych Szklarska Poręba, Góra Chojnik, Jagniątków oraz Karpacz. W drugiej serii we wrześniu 2014 wykonano dodatkowe pomiary na obszarze Szklarska Poręba. Ostatnie dwie serie badań terenowych odbyły się w lipcu i wrześniu 2016 roku przeprowadzono wówczas dodatkowe pomiary na obszarze Karpacz. Wykorzystano również część danych dotyczących lokalizacji oraz składu gatunkowego poligonów uzyskanych w projekcie WICLAP. Tabela 3. Liczba zebranych poligonów pomiarowych uzyskanych podczas badań terenowych, włączając zestaw danych pozyskany z KPN oraz liczba pikseli wyznaczonych na podstawie badań terenowych Klasa Brzoza Buk Modrzew Olcha Sosna Świerk Liczba zebranych poligonów pomiarowych Liczba wyznaczonych pikseli wzorcowych Dane dotyczące lokalizacji drzew udostępniła też administracja KPN; włączono je do zestawu wzorców wykorzystanych w klasyfikacji (Tabela 3). W sumie wykonano pomiary na 712 poligonach oraz pozyskano dane o 564 poligonach z bazy danych KPN, co razem dało 1276 poligonów pomiarowych (Ryc. 13) Przygotowanie zestawu danych do uczenia i weryfikacji Zebrane poligony pomiarowe posłużyły do opracowania zestawu wzorców uczących SSN 38. Poza zestawem uczącym, przygotowany został drugi, niezależny zestaw danych weryfikujących dokładność klasyfikacji. Oba zestawy danych zawierają wzorce dla klasyfikowanych klas. Podział na zestaw danych do uczenia i do weryfikacji wyniku następuje dopiero po zebraniu danych w terenie, kiedy zdecydowano, które z pozyskanych wzorców mają posłużyć za dane do uczenia bądź weryfikacji. Podczas prac kameralnych wykorzystano zebrane zdjęcia fotograficzne oraz notatki wykonane w terenie do ponownej oceny jakości zebranych danych. Polegała ona na eliminacji punków pomiarowych, których nie można było jednoznacznie zlokalizować na scenach APEX. Za pomocą oprogramowania ArcGIS 10.3 oraz 38 Wartości spektralnych współczynników odbicia dla poszczególnych długości fal opisujących badany obiekt, tj. gatunek drzewiasty w danym zakresie spektrum. 57
58 ENVI 5.3, lokalizacje poligonów pomiarowych przeniesiono na sceny APEX (Ryc.14). Na ich podstawie wyznaczono zestaw pikseli, który charakteryzował daną klasę. Ryc. 14. Lokalizacja wzorców wyznaczonych na scenach APEX (kolorowe piksele) Pomijano piksele mogące być w głębokim cieniu oraz tzw. miksele, mogące zawierać niskiej jakości charakterystyki spektralne obiektu. Następnie wyeksportowano je do formatu ASCII do dalszych przetworzeń. Wyeksportowano następujące dane: ID (numer poligonu), klasę którą reprezentuje wzorzec, wartości współczynnika odbicia dla wszystkich 288 kanałów zobrazowania oraz geograficzne położenie poligonu. Wyeksportowane dane posłużyły dalej do wykonania klasyfikacji oraz jej weryfikacji Procedura wyboru kanałów spektralnych Ze względu na wielkość zestawu danych wykorzystanych w tej pracy oraz chęć skrócenia czasu klasyfikacji, zdecydowano się na przeprowadzenie procedury wyboru kanałów spektralnych zobrazowania APEX, które zostaną użyte do klasyfikacji. Pierwszą czynnością była manualna inspekcja danych, podczas której szukano kanałów o niskiej jakości (Ryc. 15). Za zbędne uznano kanały położone w zakresach, w których para wodna zawarta w powietrzu zakłóca sygnał pochodzący z powierzchni ziemi ( nm; nm). Zdecydowano się również na usunięcie pewnej liczby kanałów z początku i końca spektrum (niska jakość sygnału). Ostatecznie odrzucono 66 kanałów spektralnych. 58
59 Ryc. 15. Przykład kanałów o słabej (obrazek a 413 nm) i dobrej jakości (obrazek b 630 nm). Kanał o słabej jakości ma widoczne linie łączenia poszczególnych linii skanowania (czarne smugi na obrazie) i jest mocno zaszumiony. Do dalszych analiz wykorzystano sceny posiadające 222 kanały spektralne. Jest to liczba kanałów, która została po usunięciu z oryginalnego zestawu danych kanałów o niskiej jakości wymienianych powyżej. Biorąc pod uwagę dotychczasowe wyniki badań (Pal, Mather, 2006) zdecydowano, że optymalną liczbą kanałów wykorzystanych w klasyfikacji będzie 40. Ryc. 16. Krzywe współczynnika użyteczności kanałów dla pierwszego, drugiego i trzeciego kanału PCA (pierwsze trzy kanały PCA wyjaśniały razem 88% wariancji zobrazowania APEX) 59
60 W celu wyznaczenia 40 najlepszych kanałów spektralnych przeprowadzono analizę PCA zestawu składającego się z 222 kanałów spektralnych. Następnie obliczono współczynnik użyteczności kanałów dla kanałów pierwszego, drugiego i trzeciego PCA, dla każdego kanału spektralnego (band loading, Ryc.16). Otrzymany wynik przeanalizowano z użyciem algorytmu, który znajduje lokalne maksima i minima krzywej użyteczności kanałów. Wybrane w ten sposób najlepsze kanały spektralne wykorzystano w dalszych analizach. Analiza zmienności współczynnika użyteczności kanału pozwoliła na wyodrębnienie kanałów spektralnych o największym udziale w poszczególnych kanałach PCA. Wartości różne od zera (bez względu na znak) sygnalizują kanały mające znaczący udział w poszczególnych składowych głównych. Udział poszczególnego kanału jest oznaczony magnitudą (odległością od zera) współczynnika Przygotowanie Numerycznego Modelu Terenu, Numerycznego Modelu Pokrycia Terenu i Znormalizowanego Numerycznego Modelu Pokrycia Terenu Dane lidarowe użyte w pracy pozyskano z KPN, przesłane w formie chmury punktów powstałej w wyniku przeprowadzania lotniczego skaningu laserowego obszaru KPN. Przetwarzanie danych lidarowych miało na celu wykonanie Numerycznego Modelu Terenu 39 (DTM) i Numerycznego Modelu Pokrycia Terenu 40 (DSM) Karkonoskiego Parku Narodowego. Dane zostały przetworzone w programie LASTOOLS, gdzie nastąpiła ich filtracja oraz utworzenie DTM i DSM. W celu uzyskania bardziej gładkiego DSM użyto opcji subcircle = 0,3 podczas tworzenia modelu. Opcja ta pozwala na płynniejsze przejścia między poszczególnymi pikselami, co zapobiega powstawaniu artefaktów w wynikowych danych. Modele DTM i DSM wykorzystano do obliczenia Znormalizowanego Modelu Pokrycia Terenu (ndsm 41, Ryc. 17), który posłużył do utworzenia maski drzewostanów oraz wykonania mapy lokalizacji klasyfikowanych gatunków drzew na obszarze KPN w podziale na klasy wysokości. Przy wykonywaniu DTM wszystkie obiekty powyżej poziomu terenu 39 DMT Numeryczny Model Terenu (Digital Terrain Model) cyfrowa reprezentacja wysokości topograficznej terenu danego obszaru. Wszystkie obiekty pokrywające teren (np. drzewa, domy) są usuwane z modelu. 40 DSM Numeryczny Modelu Pokrycia Terenu (Digital Surface Model) cyfrowa reprezentacja wysokości topograficznej obiektów pokrywających dany obszar terenu. Wynikowy model dostarcza informacji o bezwzględnej wysokości obiektów nad poziomem morza. 41 ndsm Normalized Digital Surface Model znormalizowany model pokrycia terenu służący do obliczenia względnej wysokości obiektów na danym terenie (np. wysokości drzew i krzewów). Zwykle uzyskiwany jako wynik operacji odejmowania Numerycznego Modelu Pokrycia Terenu (DSM) i Numerycznego Modelu Terenu (DTM). 60
61 (domy, drzewa, mosty) są usuwane z modelu. DTM dostarcza informacji o rzeźbie terenu, co ułatwia dostrzeżenie charakterystycznych form (doliny, wzgórza, wąwozy, itp.). Ryc. 17. Przykłady Numerycznego Modelu Terenu (DTM) (a), Numerycznego Modelu Pokrycia Terenu (DSM) (b) i znormalizowanego Numerycznego Modelu Pokrycia Terenu (ndsm) (c) DSM przedstawia bezwzględną wysokość danego obszaru, z uwzględnieniem obiektów pokrywających teren łatwo rozpoznać lasy, zabudowania i infrastrukturę drogową. Na DSM widoczne są korony drzew, jednak ich wysokości są podane w wartościach bezwzględnych, bez odniesienia względem poziomu terenu na którym rosną. W celu obliczenia wysokości obiektów na danym terenie wykonuje się ndsm. Na ndsm nie jest widoczna topografia terenu, jedynie obiekty pokrywające dany teren Przygotowanie maski drzewostanu W celu eliminacji z obrazu wynikowego pikseli, które nie reprezentują zadrzewień, utworzona została maska drzewostanu KPN. Maska została zbudowana z czterech części (Ryc. 18). Pierwszą część stanowił znormalizowany cyfrowy model pokrycia terenu, drugą zasięg przestrzenny parku pozyskany z bazy danych KPN, trzecią wskaźnik mrendvi 42, a ostatnią obszary zajmowane przez roślinność nieleśną, wyznaczone na podstawie ortofotomapy. Uzyskany model ndsm posłużył do utworzenia maski drzewostanu o wysokości powyżej 2,5 metra. Wartość tę dobrano empirycznie, jako tę, która spowoduje usunięcie ze scen obszarów pokrytych niską roślinnością. Ograniczono klasyfikację do roślinności wyższej niż 2,5 metra ze względu na trudności z dokładnym klasyfikowaniem obszarów porośniętych młodym lasem. 42 mrendvi Modified Red Edge Normalized Difference Vegetation Index wskaźnik teledetekcyjny służący do oceny ogólnego kondycyjnego roślinności. Jest to modyfikacja wskaźnika NDVI (Normalized Difference Vegetation Index) uwzględniająca zwartość i luki w pokrywie roślinnej oraz zawartość barwników wskazujących na zamieranie roślinności (Datt, 1999). 61
62 Młody las jest bardzo zróżnicowany i niejednorodny, występują w nim przestrzenie porośnięte krzakami lub trawą które ze względu na dosyć duży piksel zobrazowania APEX mogłyby zaburzyć wyniki klasyfikacji. Ryc. 18. Schemat wykonania maski drzewostanów W celu usunięcia z klasyfikacji obszarów niebędących roślinnością, które mogły zostać pominięte przez maskę uzyskaną z ndsm (skały, obumarłe pnie świerków w górnych partiach parku), zdecydowano się na użycie wskaźnika mrendvi. Jako wartość graniczną przyjęto 0,4. Obszary o wartości wskaźnika mrendvi poniżej wartości granicznej zostały usunięte z obrazu wynikowego. Ryc. 19. Zasięg obszarów wymaskowanych z klasyfikacji na tle zasięgu zbiorowisk leśnych KPN 62
63 Aby usunąć obszary porośnięte przez pojedyncze drzewa oraz usunąć niedoskonałości maski, wykonano manualnie dodatkową maskę obszarów nieleśnych, używając ortofotomapy. Maskę roślinności wyższej niż 2,5 metra przycięto do obszaru KPN (Ryc. 19) i za jej pomocą wymaskowano obraz wynikowy. Zasięg przestrzenny wykonanej maski drzewostanów zaznaczono na czerwono. Zobrazowania APEX pokrywający zaznaczony kolorem zielonym obszar zostały poddane klasyfikacji. Zaznaczony na zielono obszar ma powierzchnię 2027 ha Optymalizacja struktury sieci neuronowej Do wyznaczenia optymalnej liczby neuronów w warstwie ukrytej wykorzystano cały zestaw wzorców zebranych podczas badań terenowych. Pierwszym krokiem było podzielenie tego zestawu na zestaw do uczenia i weryfikacji w taki sposób, aby był on identyczny z zestawem użytym podczas klasyfikacji i oceny dokładności. Aby ograniczyć czas przetwarzania wybrano tylko jeden zestaw do uczenia i weryfikacji. Cały zestaw wzorców został podzielony według procedury 0,632 Estimate, według której 63,2% zebranych wzorców wykorzystano do treningu sieci, a pozostałe do weryfikacji wyniku (Efron, 1983). Następnie przeprowadzono procedurę uczenia sieci neuronowej przy pewnej liczbie neuronów w warstwie ukrytej oraz ocenę dokładności. Uzyskano dwie wartości: dokładność uczenia oraz dokładność klasyfikacji. Dokładność uczenia to wartość pokazująca, jak dobrze dana sieć nauczyła się zestawu danych do uczenia. Oblicza się ją poprzez sklasyfikowanie zestawu do uczenia wyuczoną siecią, a następnie porównanie uzyskanego wyniku z zestawem do uczenia. Dokładność klasyfikacji pokazuje, w jakim stopniu wyuczona sieć radzi sobie z klasyfikacją zestawu danych, który nie został użyty do jej uczenia. Do jej obliczania klasyfikuje się zestaw do weryfikacji wyuczoną siecią, a następnie porównuje się wynik z wzorcem zawartym w zestawie do weryfikacji. W pracy sprawdzono architektury sztucznych sieci neuronowych mających od 5 do 120 neuronów w warstwie ukrytej. Symulacja każdej architektury sieci została powtórzona po 50 razy (razem 5750 symulacji), aby zminimalizować wpływ losowego doboru startowych wag między neuronami. Po przeprowadzeniu analizy porównano dokładności uczenia i klasyfikacji każdej architektury. Procedura optymalizacyjna polegała na wybraniu optymalnej liczby neuronów w warstwie ukrytej sztucznej sieci neuronowej najmniejszej, a jednocześnie dającej najwyższy wynik klasyfikacji. Parametr rozkładu (decay) ustawiono na 0,005. Wartości początkowe wag na połączeniach pomiędzy neuronami ustawiono na losową wartość w zakresie od -0,5 do 0,5. 63
64 4.8. Iteracyjna ocena dokładności klasyfikacji W pracy wykorzystano iteracyjną metodę oceny dokładności klasyfikacji, stosując losowy podział zestawu danych wzorcowych na zestaw do uczenia i weryfikacji (0.632 Estimate). Cały proces oceny dokładności składał się ze stu powtórzeń (iteracji). Procedura wykonania każdego powtórzenia wyglądała następująco: 63,2% wzorców zostało losowo przydzielone do zestawu do uczenia, a pozostała część do zestawu do weryfikacji. W celu zwiększenia reprezentatywności każdego zestawu, losowanie wzorców bazowało na metodzie losowania warstwowego. Wielkość zestawów (w liczbie wzorców) została przedstawiona w tabeli 4. Liczba wzorców w każdym powtórzeniu w zestawach do uczenia i weryfikacji pozostała taka sama; zmienne były tylko wzorce, które zostały do nich przypisane, zestaw do uczenia został wykorzystany do treningu sztucznej sieci neuronowej, wykorzystując parametry uczenia które wyznaczono w rozdziale 4.7. Parametr rozkładu (decay) ustawiono na 0,005. Wartości początkowe wag na połączeniach pomiędzy neuronami ustawiono na losową wartość w zakresie od -0,5 do 0,5, wyuczona sztuczna sieć neuronowa została następnie wykorzystana do klasyfikacji zestawu do weryfikacji, a wynik porównywany z zestawem do weryfikacji. Następnie obliczone zostały miary oceny dokładności (dokładność ogólna, dokładności producenta i użytkownika dla klas, współczynnik kappa), obliczone miary dokładności razem z numerem powtórzenia (iteracji) zostały zapisane i przyporządkowane do danej iteracji, w której je uzyskano, usunięcie wykorzystanego zestawu oraz wyuczonej sztucznej sieci neuronowej, kolejne powtórzenie całej procedury opisanej powyżej (aż do 100 razy). Po wykonaniu wszystkich powtórzeń obliczona została mediana oraz rozkład dokładności producenta i użytkownika dla poszczególnych klas oraz mediana, rozkład współczynnika kappa i dokładności ogólnej klasyfikacji. 64
65 Tabela 4. Liczba wzorców (pikseli) wykorzystanych do uczenia i weryfikacji dla poszczególnych klas Klasa Brzoza Buk Modrzew Olcha Sosna Świerk Zestaw do uczenia Zestaw do weryfikacji Z racji na duże powierzchnie pokryte przez świerk, klasa świerk była najliczniej reprezentowana we wzorcach do uczenia i weryfikacji (1692 i 985 pikseli), natomiast klasą o najmniejszej liczbie wzorców była olcha i sosna (poniżej 150 pikseli). Klasy brzoza i modrzew miały około 650 pikseli wzorcowych Klasyfikacja zobrazowań APEX sztucznymi sieciami neuronowymi Procedura optymalizacji struktury sieci neuronowej pozwoliła na wyznaczanie optymalnych parametrów uczenia sieci, natomiast procedura iteracyjnej oceny dokładności na ocenę dokładności klasyfikacji. Sztuczna sieć neuronowa o optymalnie dobranych parametrach uczenia została wytrenowana przy użyciu wszystkich zebranych wzorców terenowych. Ponieważ ocena dokładności została, zdecydowano się na użycie wszystkich wzorców do uczenia sieci podczas ostatniego uczenia, tak by nie zmniejszać dokładności finalnej klasyfikacji. Dodatkowo taki zabieg zapewnił poprawne sklasyfikowanie obszarów, na których zlokalizowane zostały poligony pomiarowe. Ostatnim krokiem pracy było sklasyfikowanie wszystkich scen APEX, które pokrywały obszar KPN. Z każdej sceny wybrano zestaw kanałów spektralnych wyznaczonych podczas procedury wyboru kanałów. Następnie sceny zostały sklasyfikowane wytrenowaną sztuczną siecią neuronową. Polegało to na sklasyfikowaniu wyeksportowanych do formatu ascii scen APEX za pomocą funkcji predict. Sklasyfikowane sceny zostały zamienione na obraz przy użyciu skryptu napisanego w języku programowania Python. Zasada jego działania polegała na wykorzystaniu modułu gdal 43 (przeznaczonego do pracy z danymi teledetekcyjnymi), do zamiany danych tekstowych w obraz złożony z pikseli. Sklasyfikowane sceny zostały połączone w jeden obraz obejmujący swoim zasięgiem obszar KPN. W celu usunięciu efektu soli i pieprzu oraz generalizacji obrazu, obraz poklasyfikacyjny przeszedł przez analizę większości o oknie 3x3 piksele
66 Wat/m 2 /sr/µm % 5. Wyniki Przedstawiona w pracy metoda przetwarzania danych hiperspektralnych oraz optymalizacji parametrów uczenia sztucznych sieci neuronowych pozwoliła na uzyskanie następujących wyników: ocena korekcji obrazów APEX, ocena informacyjności poszczególnych kanałów zobrazowania APEX uzyskanych jako rezultat procedury wyboru kanałów spektralnych, optymalizacja parametrów uczenia sztucznej sieci neuronowej oraz wizualizacja wyników optymalizacji, wyniki klasyfikacji wszystkich scen APEX wytrenowaną siecią oraz odniesienie wyniku do oficjalnych danych dotyczących składu gatunkowego lasów KPN, analiza poprawności otrzymanej klasyfikacji za pomocą macierzy błędów oraz iteracyjnej oceny dokładności Dokładność korekcji atmosferycznej zobrazowań APEX Procedura korekcji atmosferycznej pozwoliła z sukcesem zredukować wpływ atmosfery na charakterystyki spektralne obiektów na zobrazowaniu APEX. Błąd RMSE 44 korekcji atmosferycznej wyniósł 1,3%. Wynik przeprowadzonej korekcji należy uznać za satysfakcjonujący. Wykres po lewej stronie (Ryc. 20) prezentuje krzywą spektralną dla łąki przed wykonaniem korekcji atmosferycznej. 100 Krzywa spektralna przed korekcją atmosferyczną 100 Krzywa spektralna po korekcji atmosferycznej Długość fali (nm) Długość fali (nm) Ryc. 20. Efekt korekcji atmosferycznej krzywej spektralnej charakteryzującej łąki 44 RMSE Root Mean Squared Error średnia kwadratowa błędów 66
67 Widoczne są obszary zakłócenia pomierzonego sygnału wywołanego przez parę wodną znajdującą się w powietrzu ( nm; nm). Głębokie minimum w przedziale nm wynika z obecności tlenu (O 2 ) w powietrzu. Dodatkowo zakres spektralny od 1400 nm do 2500 nm był zniekształcony, a pomierzony sygnał słaby. Po wykonaniu korekcji atmosferycznej (wykres po prawej stronie) cechy spektralne tej samej łąki są prawidłowe. Wszystkie zakłócenia wywołane obecnością tlenu i pary wodnej w powietrzu zostały wyeliminowane, a sama krzywa ma elementy charakterystyczne dla krzywej spektralnej opisującej roślinność (zwiększone odbicie w zakresie światła zielonego, red-edge, płaskowyż zieleni). Zakresy charakteryzujące zawartość wody w roślinach nie zostały skorygowane (wartości w tych zakresach mają przypisaną specjalną wartość wskazującą na brak korekcji). Dodatkowo słaby sygnał w zakresie dalszej podczerwieni został wzmocniony Analiza informacyjności zobrazowania APEX Przeprowadzona analiza jakości kanałów zobrazowania APEX metodą PCA wyznaczyła 40 najlepszych kanałów spektralnych zobrazowania. Najbardziej informacyjne kanały wyznaczono poprzez zbadanie wartości współczynnika użyteczności kanałów (band loading) pierwszych trzech składowych PCA. Rozmieszczenie wybranych kanałów spektralnych znajduje się w całym zakresie od 350 do 2450 nm (Ryc. 21). Ryc. 21. Najbardziej informacyjne kanały spektralne zobrazowania APEX. Wybrane kanały zaznaczono czerwoną kreską. Dla porównania dodano krzywe spektralne dla dwóch gatunków drzew 67
68 Średnia dokładnoci prducenta (%) Wybrano następujące kanały (długości fali w nm): 530, 550, 590, 600, 610, 620, 630, 650, 680, 690,780, 800, 820, 830, 850, 860, 880, 900, 930, 940, 960, 980, 1000, 1040, 1120, 1200, 1240, 1260, 1280, 1500, 1530, 1560, 1660, 1720, 1760, 2000, 2030, 2060, 2090 i Zdecydowana większość wybranych kanałów spektralnych znajdowała się w zakresie światła widzialnego i bliskiej podczerwieni ( nm). W tym zakresie widoczne są dwa obszary o zwiększonej gęstości wybranych kanałów: obszar absorbcji światła czerwonego przez chlorofil ( nm) oraz obszar silnego odziaływania promieniowania podczerwonego ze strukturą komórkową liści roślin ( nm). Wykorzystany algorytm nie wybrał żadnego kanału spektralnego znajdującego się bezpośrednio na krzywej czerwieni (red edge), jednak za ważne uznał te, które znajdują się na końcu i początku tego obszaru (690 i 780 nm). Również kanały w zakresie światła niebieskiego ( nm) nie zostały uznane za niosące informację przydatną w klasyfikacji. Kanały znajdujące się w dalszej bliskiej podczerwieni ( nm) nie są liczne, jednak znajdują się w charakterystycznych punktach krzywej spektralnej (w punktach przegięcia i obszarach wrażliwych na zawartość różnych substancji w roślinach) Optymalizacja struktury sztucznej sieci neuronowej Ustalono, że optymalną liczbą neuronów w warstwie ukrytej jest 34. Dla takiej liczby neuronów w warstwie ukrytej dokładność dla zestawu treningowego wyniosła 98%, dokładność dla zestawu weryfikacyjnego 83%, a RMSE wyniosło 1200 (Ryc. 22 i 23) Zestaw treningowy Zestaw testowy Liczba neuronów w warstwie ukrytej Ryc. 22. Zależność między liczbą neuronów w warstwie ukrytej perceptronu wielowarstwowego o jednej warstwie ukrytej a średnią dokładności producenta dla zestawu użytego do uczenia sieci i zestawu weryfikacyjnego. Zieloną linią zaznaczono wyniki uzyskane dla 34 neuronów 68
69 RMSE Liczba neuronów w warstwie ukrytej Ryc. 23. Wartość błędu RMSE w zależności od liczby neuronów w warstwie ukrytej perceptronu wielowarstwowego o jednej warstwie ukrytej. Zieloną linią zaznaczono wyniki uzyskane dla 34 neuronów Mimo że sieci o mniejszej liczbie neuronów w warstwie ukrytej otrzymały wyższe dokładności dla zestawu testowego, zostały uznane za nieoptymalne ponieważ charakteryzowała je mniejsza dokładność dla zestawu treningowego oraz znacznie większe wartości RMSE. Powyższe zjawisko może wskazywać na niską zdolność generalizacji sieci, a zatem może dostarczać gorsze wyniki. Sieci o większej liczbie neuronów niż 34 cechowały się większymi dokładnościami dla zestawu treningowego, niższym RMSE oraz mniejszymi dokładnościami dla zestawu do testu. Użycie sieci o większej liczbie neuronów w warstwie ukrytej mogłoby przynieść lepszy wynik, ale ponieważ mają one więcej neuronów, trening sieci mógłby trwać o wiele dłużej Rozmieszczenie analizowanych gatunków drzewiastych Mapa prezentująca końcowy wynik klasyfikacji została zgeneralizowana za pomocą analizy większości o oknie 3x3 (Ryc. 24). Zabieg ten pozwolił wyeliminować pojedyncze piksele, tworzące tzw. efekt pieprzu i soli, zacierając ogólny obraz rozmieszczenia klasyfikowanych drzew. Terenowe analizy weryfikacyjne potwierdziły dużą zbieżność obrazów poklasyfikacyjnych (Tabele 5 i 6). 69
70 Ryc. 24. Mapa występowania gatunków drzew na podstawie wykonanej klasyfikacji obrazów APEX 70
71 Tabela 5. Macierz błędów klasyfikacji dla iteracji o najwyższej dokładności ogólnej Brzoza Buk Modrzew Olcha Sosna Świerk Brzoza 84,96 2,52 2,38 0,00 0,00 1,32 Buk 4,42 89,92 3,57 3,03 2,17 1,22 Modrzew 3,98 2,24 76,19 3,03 4,35 3,55 Olcha 0,44 0,56 0,79 93,94 0,00 0,30 Sosna 0,88 0,56 1,19 0,00 78,26 0,30 Świerk 5,31 4,20 15,87 0,00 15,22 93,30 Analizując macierz błędów (Tabela 5) można stwierdzić, że najlepiej sklasyfikowały się klasy olcha oraz świerk (powyżej 93% dokładności producenta). Nieznacznie gorsze wyniki uzyskano dla klas buk i brzoza (dokładność producenta powyżej 85%). Modrzew i sosna osiągnęły 76% i 78% dokładności producenta. Brzoza była mylona ze świerkiem w 5% analizowanych przypadków, z bukiem (w 4%) i modrzewiem (w 4%). Tabela 6. Dokładność producenta i użytkownika dla poszczególnych klas (iteracja o najwyższej dokładności ogólnej) Dokładność użytkownika Dokładność producenta Brzoza Buk Modrzew Olcha Sosna Świerk Buk natomiast był mylony w 2% z brzozą i modrzewiem oraz w 4% ze świerkiem. Dwa stosunkowo słabo sklasyfikowane gatunki: modrzew i sosna, były przeważnie mylone ze świerkiem (15%). Niemniej wszystkie analizowane gatunki uzyskały satysfakcjonujące wyniki miar statystycznych, czyli dokładności użytkownika i producenta (Ryc. 25) oraz dokładność ogólna i współczynnik kappa (Ryc. 26). Analizując dokładności producenta i użytkownika dla najlepszej iteracji można stwierdzić, że klasy modrzew i sosna uzyskały najniższe dokładności użytkownika i producenta. Klasa olcha uzyskała jedną z najwyższych dokładności producenta oraz jedną z niższych użytkownika. Klasy świerk, sosna, buk i brzoza charakteryzowały niewielkie różnice pomiędzy dokładnościami producenta i użytkownika (Ryc. 25). Szczegółowa analiza wyników z iteracyjnej oceny dokładności (Ryc. 27, 28) potwierdza, że najwyższe dokładności producenta osiągnęły klasy buk i świerk (mediana 88% i 92%), najniższe osiągnęły klasy brzoza (83%) i olcha (82%). 71
72 % Dokładność użytkownika Dokładność producenta Brzoza Buk Modrzew Olcha Sosna Świerk Ryc. 25. Porównanie dokładności producenta i użytkownika dla sklasyfikowanych klas (wyniki dla najlepszej iteracji) Najgorzej wypadły klasy modrzew (mediana 73%) oraz sosna (69%). Szerokość rozkładu dokładności oraz jej skośność mogą wskazywać na cechy zestawu użytego do uczenia oraz weryfikacji (czystość spektralna próbek), pokazać interesujące właściwości klasyfikowanej klasy (np.: dużą spektralną heterogeniczność klasy, co objawiałoby się szerokim rozkładem wyników) lub opisać, w jakim stopniu dany algorytm klasyfikujący radzi sobie z danymi. Ryc. 26. Dokładność ogólna i współczynnik kappa klasyfikacji (na podstawie 100 powtórzeń klasyfikacji) 72
73 Ryc. 27. Dokładności producenta dla poszczególnych klas (na podstawie 100 powtórzeń klasyfikacji) Najmniejsza szerokość rozkładu dokładności dotyczy klas świerk, buk oraz brzoza (odpowiednio 4, 9, 13 p.p.). Klasy olcha i sosna miały największe szerokości rozkładu dokładności producenta (33 i 30 p.p.). Wszystkie analizowane klasy miały rozkłady lekko skośne, zwykle w kierunku wyższych dokładności producenta. Najwyższą medianę i dokładności producenta osiągnęły klasy świerk (91%) oraz buk (89%). Klasy brzoza i olcha uzyskały medianę dokładności użytkownika na poziomie odpowiednio 85% i 84%. Ryc. 28. Dokładności użytkownika dla poszczególnych klas (na podstawie 100 powtórzeń klasyfikacji) Najniższą medianę dokładności użytkownika (Ryc. 28) osiągnęły klasy sosna i modrzew (74%). Klasy o najmniejszej szerokości rozkładu dokładności użytkownika to świerk (3 p.p.) i buk (6 p.p.), natomiast klasy olcha i sosna miały najszersze rozkłady dokładności użytkownika (24 i 35 p.p.). 73
74 5.5. Wysokość analizowanych gatunków drzewiastych Wykonany ndsm oraz wynik klasyfikacji posłużył do wykonania mapy rozmieszczenia wybranych gatunków drzew na obszarze KPN w podziale na 3 klasy wysokościowe (Załączniki 1 i 2). Tego rodzaju mapa pozwala na analizę rozmieszczenia drzew nie tylko przez pryzmat gatunku do jakiego należą drzewa, ale pozwala również na uwzględnienie wysokości drzew podczas analizy wyników (Tabela 7, Ryc. 29). Warto podkreślić, że taki produkt (ndsm) nie dostarcza informacji o wysokości drzewa pomierzonej wzdłuż pnia, lecz danych na temat wysokości korony drzewa < 10 metrów metrów > 20 metrów 50 % Brzoza Buk Modrzew Olcha Świerk Sosna Gatunek drzewa Ryc. 29. Procentowy udział klas wysokościowych dla klasyfikowanych gatunków drzew Ciekawie wygląda sytuacja wysokości drzew, gdyż buk tworzy najwyższe zbiorowisko (60% drzew jest wyższa niż 20 metrów, 27% ma wysokość między 10 a 20 metrów, natomiast tylko 13% jest niższa niż 10 metrów, Ryc. 29). Modrzewie i olchy mają wyrównany stosunek klas wysokościowych (żadna z trzech klas wysokości nie dominuje nad inną). Efekty katastrofy ekologicznej bardzo dobrze widać w świerku, gdyż 47% drzew charakteryzuje się wysokością od 10 do 20 metrów natomiast, 41% jest niższa niż 10 metrów. 74
75 Tabela 7. Powierzchnia (ha) zajmowana przez klasyfikowane gatunki drzew w podziale na trzy klasy wysokości Gatunek Wysokość drzew Brzoza Buk Modrzew Olcha Świerk Sosna < 10 metrów 51,37 25,37 41,51 0,66 641,47 2, metrów 35,76 56,70 46,95 0,72 750,07 7,86 > 20 metrów 10,40 125,78 39,22 0,82 186,17 4,08 Tylko 12% drzew należących do tego gatunku jest wyższa niż 20 metrów. Klasą w której wyraźnie dominują drzewa mające od 10 do 20 metrów wysokości jest klasa sosna (53%). Ponad 50% brzóz występujących na terenie KPN ma wysokość poniżej 10 metrów, 36% ma od 10 do 20 metrów wysokości, a pozostałe 11% jest wyższe niż 20 metrów. 6. Przydatność obrazów APEX i sztucznych sieci neuronowych do klasyfikacji gatunków drzewiastych Wykonane analizy zostały porównane z oficjalnymi danymi KPN (Tabela 8). Największa zgodność występuje w przypadku powierzchni zajmowanych przez brzozy, olchy oraz sosny. Największe różnice między danymi oficjalnymi a tymi z klasyfikacji wystąpiły dla klasy buk (6 punktów procentowych) i świerk (8 p.p.). Klasyfikacja wskazuje ponad dwukrotnie wyższy udział procentowy buka w KPN oraz obniża udział świerków o 8 punktów procentowych w stosunku do danych oficjalnych. Tabela 8. Porównanie procentowego udziału poszczególnych gatunków drzew na obszarze KPN, według danych KPN (Danielewicz i inni, 2012) oraz wyników uzyskanych z klasyfikacji Brzoza Buk Modrzew Olcha Sosna Świerk Klasyfikacja 4,81 10,25 6,30 0,11 0,72 77,81 Dane KPN 4,79 4,14 4,58 0,12 0,53 85,55 Porównując uzyskane wyniki klasyfikacji z danymi uzyskanymi przez innych badaczy, stosującymi dane teledetekcyjne, trzeba mieć na uwadze, jakie dane i algorytm klasyfikujący zostały użyte oraz liczbę klas wyznaczanych przez poszczególnych autorów. W głównej mierze dotyczy to wielkości przestrzennej i spektralnej piksela, gdyż duże piksele rejestrują nie tylko dane drzewo, ale także i otaczający cień, czy inne obiekty występujące wokół 75
76 drzewa, czy nawet pod nim. Takie miksele utrudniają prawidłową interpretację wyników. Zbyt mały piksel nie jest też optymalnym rozwiązaniem, gdyż rejestruje obszar znajdujący się między poszczególnymi gałęziami wprowadzając artefakty. Częstym elementem, który można znaleźć w literaturze jest klasyfikacja wszystkim obiektów występujących na obrazie, np. wody, skały, czy roślinność zielna. Takie klasyfikacje mogą zawyżać dokładność całkowitą, czy wskaźnik kappa, gdyż są to często homogeniczne spektralnie obiekty, które bez problemu mogą być wyodrębnione na obrazie. Prace dotyczące klasyfikacji drzewostanu często mają charakter aplikacyjny i ich celem jest sporządzenie mapy rozmieszczenia gatunków drzew (Kokaly i inni, 2003; Peerbhay i inni, 2013), chociaż są też takie, które traktują tematykę klasyfikacji gatunków drzew jako nietrywialny problem, na którym testują różne metody przetwarzania danych oraz klasyfikatory (Dalponte i inni, 2013). Niekiedy autorzy opracowują klasyfikację dwóch gatunków iglastych (świerk i sosna) oraz jednej klasy, w której zawarte są wszystkie gatunki liściaste (Dalponte i inni, 2013; Dalponte i inni, 2014, Tabela 9). W niniejszej pracy uzyskano dokładności producenta 93% dla klasy świerk (Picea abies L.) oraz 78% dla klasy sosna (Pinus sylvestris L.). W pracy Dalponte i inni (2014) było to odpowiednio: 97% i 95% dla klas świerk (Picea abies L. Karst) i sosna (Pinus sylvestris L.) oraz 71% dla pozostałych gatunków drzew liściastych (brzoza Betula spp. L. oraz topola Populus tremula L.), przy użyciu algorytmu SVM. Porównując wyniki przytoczonej pracy z wynikami z najlepszej iteracji można stwierdzić, że otrzymano podobnie wysoką dokładność dla klasy świerk, jednak nie udało się sklasyfikować klasy sosna z wysoką dokładnością. W tym przypadku duże znaczenie ma niewielki zasięg przestrzenny występowania sosny w KPN co znacznie utrudnia dobranie odpowiednio dużego zestawu wzorców. Autor niniejszej pracy osiągnął średnią dokładność producenta dla wszystkich gatunków drzew liściastych 88%, zatem większą niż Dalponte i inni (2014) 71%. Dokładność ogólna powyżej 80% nie jest rzadkością w pracach dotyczących klasyfikacji drzewostanu, co uzasadnia użycie technik teledetekcyjnych, szczególnie teledetekcji hiperspektralnej jako narzędzia wspierającego kartowanie gatunków drzew. Zdecydowana większość prac skupia się na klasyfikacji kilku gatunków drzew, chociaż są i takie, w których klasyfikuje się większą liczbę gatunków drzew (Feret, Asner, 2013; Graves i inni, 2016; Sommer i inni, 2015). 76
77 Tabela 9. Porównanie wyników pracy z dostępną literaturą Autor Rodzaj użytych danych Algorytm klasyfikujący Liczba skalsyfikowanych gatunków drzew Dokładność ogólna % Współczynnik kappa Kokaly i inni, 2003 hiperspektralne System ekspercki ,62 Peerbhay i inni, 2013 hiperspektralne PLS-DA ,87 Dalponte i inni, 2013 hiperspektralne SVM, RF, Gaussian Maximum Likelihood 4 90 < 0,8 Feret i Asner, 2013 hiperspektralne SVM (radialkernel) b.d. Dalponte i inni, 2014 hiperspektralne i lidarowe SVM ,88 Ghosh i inni, 2014 hiperspektralne i lidarowe SVM, Random Forest ,95 Fassnacht i inni, 2014 hiperspektralne SVM, Random Forest ,83 Priedītis i inni, 2015 hiperspektralne LDA i SSN 5 86 LDA; 71 SSN b.d. Sommer i inni, 2015 Baldeck i inni, 2015 hiperspektralne Random Forest hiperspektralne SVM 3 98 b.d. Ballanti i inni, 2016 hiperpsektralne i lidarowe SVM 8 95 b. d. Graves i inni, 2016 hiperspektrale SVM b.d. Lee i inni, 2016 hiperspektralne i lidarowe SVM ,89 Raczko hiperspektralne SSN ,82 45 PLS-DA: partial least squares discriminant analysis. 77
78 Podobne procedury optymalizacji parametrów uczenia sztucznej sieci neuronowej przeprowadził zespół Feret i Asner (2013). Niemniej wyniki klasyfikacji 17 gatunków drzew tropikalnych rosnących na Hawajach są zdecydowanie niższe, bo oscylujące w pobliżu 40%, mimo zastosowania sztucznych sieci neuronowych zaimplementowanych w oprogramowaniu MATLAB. Niższe wyniki mogą świadczyć o większym zróżnicowaniu przestrzennym gatunków tropikalnych. Porównywalna wielkość piksela i znacznie niższa dokładność (niż uzyskana w niniejszej pracy - 87%, ale przy większej liczbie klasyfikowanych gatunków drzew 17), dowodzi potrzebę stosowania przemyślanej strategii doboru parametrów uczenia w przypadku SSN. Dane z sensora APEX wykorzystano już nieraz do klasyfikacji gatunków drzew używając danych hiperspektralnych. Zespół pod kierownictwem G. Tagliabue (2016) przeprowadził klasyfikację pięciu gatunków drzew (grab Carpinus betulus, dwa gatunki dębu Quercus petraea i Quercus robur jako jedna klasa, lipa Tilia oraz świerk Pinus) występujących w Lotaryngii, używając danych APEX o 3-metrowej rozdzielczości przestrzennej. Dane APEX pozyskano na początku września. W pracy wykorzystano algorytm największego prawdopodobieństwa jako klasyfikator oraz wszystkie pozyskane kanały spektralne. Uzyskano klasyfikację o dokładności ogólnej 74% i współczynniku kappa 0,63. Najniższe dokładności producenta osiągnęły klasy lipa (71%) oraz grab (70%), najwyższe zaś sosna (80%) i dąb (85%). Dokładności użytkownika wyniosły od 61% (klasa dąb) do 86% (klasa grab). Autorzy zasugerowali wykorzystanie danych o wyższej rozdzielczości przestrzennej lub zobrazowań pochodzących z innej pory roku (Tagliabue i inni, 2016). Niniejsza praca dowodzi, że nie jest to konieczne pod warunkiem odpowiedniego doboru wykorzystanych danych oraz algorytmu klasyfikacyjnego. Biorąc pod uwagę tematykę klasyfikacji drzewostanu warto porównać wyniki z otrzymanymi na obszarze, w którym występują podobne gatunki drzew. Lee i inni (2016) uzyskali bardzo dobre wyniki klasyfikując gatunki drzew algorytmem SVM w lesie zlokalizowanym w Oxfordshire w Anglii. Dokładność powyżej 90% dla klas buk (Fagus sylvatica) i modrzew (Larix decidua) pokazuje, że możliwe jest lepsze niż pokazane w tej pracy sklasyfikowanie klasy modrzew (76% w najlepszej iteracji). Niską dokładność dla klasy modrzew można wyjaśnić charakterystyką występowania drzew tego gatunku w KPN (pojedynczo lub małych grupach, zwykle nasadzone w jednej linii) i cechy korony modrzewi (niezbyt zwarta). Utrudnia to pozyskanie dobrych wzorców oraz poprawną klasyfikację drzew tego gatunku na obrazie, 78
79 ponieważ trudno jest znaleźć piksel, który nie jest mikselem koron modrzewia i innego gatunku drzew. Na obszarze badawczym omawianym przez Lee i innych (2016) modrzewie rosną tylko na jednym obszarze i nie są pomieszane z drzewami innych gatunków (Ryc. 30). Warto nadmienić, że Lee i inni (2016) korzystali z kanałów po transformacji PCA oraz danych lidarowych, co znacznie podniosło wyniki (z 85% do 91% dokładności ogólnej). Ze względu na otrzymany zestaw danych (niedoskonałości korekcji atmosferycznej powodują różnice charakterystyk spektralnych tego samego obiektu, pochodzących z dwóch różnych scen) w niniejszej pracy nie wykorzystano obrazów po transformacji PCA, co mogło spowodować gorszą niż zakładano klasyfikację niektórych klas. Dodatkowym atutem była też łatwość dostępu do obszaru badań oraz istniejące aktualne mapy rozmieszczenia gatunków drzew. Ryc. 30. Obraz poklasyfikacjyny lasu w Oxfordshire. Kolory symbolizują gatunki drzew (niebieski modrzew Larix decidua, zielony klon jawor Acer pseudoplatanus, czerwony jesion Fraxinus excelsior, żółty buk Fagus sylwatica, fioletowy dąb Quercus robur, brązowy brzoza Betula spp.) (Lee i inni, 2016) Mimo tych udogodnień klasa brzoza (Betula spp.) w pracy Lee i inni (2016) uzyskała dokładność producenta 74%, czyli niższą niż prezentowaną w tej pracy (85%). Porównując uzyskane wyniki z literaturą można uznać je za nieodstające od rezultatów otrzymywanych 79
80 przez innych naukowców (Tabela 9), szczególnie, jeżeli weźmie się pod uwagę fakt, że niewiele prac dotyczyło klasyfikacji gatunków drzew na tak dużym obszarze jak KPN. Ogólną dokładność uzyskanej klasyfikacji (mediana 87%) gatunków drzew można uznać na bardzo wysoką. Po części jest to wynik uzyskania wysokich dokładności producenta przez klasy reprezentowane przez większość pikseli wzorcowych użytych w klasyfikacji (klasy buk i świerk). Bardziej zrównoważony wgląd w uzyskane dokładności oferuje praca Fassnach i inni (2014) oraz Ghosh i inni (2014). W obu przytoczonych pracach autorzy zdecydowali się na wylosowanie dla każdego z klasyfikowanych gatunków drzew równej liczby pikseli wzorcowych, które zostały, po podziale ich na zestaw treningowy i testowy, użyte do treningu klasyfikatora oraz jako zestaw walidacyjny. W takim podejściu można uniknąć inflacji wskaźnika dokładności ogólnej klasyfikacji, który w przypadku użycia powyższej metody, jest zwykłą średnią arytmetyczną dokładności producenta klas. W obu pracach zdecydowano się wybrać po 60 pikseli na klasę. Mimo wymienianych powyżej zalet użycia zestawu danych wzorcowych o równych liczebnościach dla klasy, istnieją prace o bardzo niezbalansowanych liczebnościach wzorców dla klas (Priedītis i inni, 2015). Na przykład Lee i inni (2016) używali 636 pikseli wzorcowych dla klasy jesion (Fraxinus excelsior), 255 pikseli wzorcowych dla kasy modrzew (Larix decidua) i 186 dla klasy brzoza (Betula spp.), osiągając w wyniku dokładność ogólną 91%. Podobny stan rzeczy jest w niniejszej pracy, gdzie są dosyć duże różnice w liczebności wzorców dla poszczególnych klas (klasa świerk 2677, modrzew 685, olcha 90 pikseli wzorcowych). Mimo dobrych wyników uzyskiwanych na podstawie danych hiperspektralnych, część badaczy wzbogaca dane spektralne o dane lidarowe. Dane lidarowe pozwalają m.in. na wyznaczanie poszczególnych koron drzew, co zmniejsza problem mikseli w klasyfikacji oraz pozwala na zastosowanie obiektowego podejścia do klasyfikacji (Dalponte i inni, 2014; Ballanti i inni, 2016, 2016; Lee i inni, 2016). Dobrym przykładem synergicznego wykorzystania danych lidarowych i hiperspektralnych jest praca Ballanti i inni (2016). Badacze wykonali klasyfikację 8 gatunków drzew (sekwoja Sequoia sempervirens, daglezja Pseudotsuga menziesii, wawrzyn Umbellularia californica, dąb Quercus agrifolia, olcha Alnus rubra, wierzba Salix lasiolepis, eukaliptus Eucalyptus globulus i kasztanowiec Aesculus californica), rosnących w Muir Woods (Kalifornia, USA) używając skanera AISA Eagle. Poza charakterystykami spektralnymi włączyli do klasyfikacji model koron drzew. Obraz 80
81 poklasyfikacyjny uzyskał 95% dokładności ogólnej, wszystkie klasy poza wierzbą (58%) uzyskały powyżej 90% dokładności producenta, a tylko dwie klasy uzyskały dokładności użytkownika poniżej 92% (dąb 67%, wierzba 84%). Jest to przekonujący dowód sensowności włączenia danych lidarowych do klasyfikacji drzewostanu pod warunkiem, że jest się w stanie wyekstrahować pożądane dane (Ballanti i inni, 2016). W niniejszej pracy nie zdecydowano się na włączenie danych lidarowych ze względu na brak aktualnej chmury punktów dla obszaru badań. Preferowane jest zebranie danych lidarowych w tym samym momencie, co charakterystyk spektralnych. Użycie nieaktualnych danych lidarowych mogłoby znacząco zniekształcić wynik. Zastosowanie sztucznych sieci neuronowych w teledetekcji nie jest szeroko rozpowszechnione (Fassnacht i inni, 2016). Spowodowane jest to głównie trudnościami w ich użyciu oraz faktem, że inne klasyfikatory, jak SVM czy RF dostarczają porównywalne wyniki przy znacznie mniejszym nakładzie pracy. Sam proces optymalizacji uczenia sztucznej sieci neuronowej ma duży wpływ na końcowy wynik (Feret, Asner, 2013), a jest on tylko jedną z wielu czynności, które trzeba wykonać chcąc otrzymać dobry wynik (innymi są: dobór architektury, wybór algorytmu uczącego, balansowanie między sensownym czasem uczenia a wynikiem). Wykorzystanie w pracy programu nnet dostępnego dla programu R dowiodło, że można z powodzeniem używać sztucznych sieci neuronowych do klasyfikacji. Bogactwo dodatkowych podprogramów dostępnych dla R pozwala przenieść cały łańcuch przetwarzania w jedno miejsce. Biorąc pod uwagę powyższe fakty, nic nie stoi na przeszkodzie, aby rozszerzyć zakres zastosowania SSN w teledetekcji. Warto również przeprowadzić analizę użycia tzw. sieci głębokiego uczenia (deep-learning) w teledetekcji hiperspektralnej Różnice udziału gatunków drzew w KPN uzyskanego na podstawie klasyfikacji i z danych oficjalnych Uzyskane wyniki pokazują dosyć duże rozbieżności wskaźników udziału poszczególnych gatunków drzew w KPN. Według oficjalnych danych 85% powierzchni lasów w Parku jest zajęte przez świerki, natomiast 4% przez buki. Według wykonanej klasyfikacji 10% drzew w lasach KPN to buki, a 78% to świerki. Tutaj warto zwrócić uwagę na fakt, że tylko te dwie klasy (o bardzo wysokich dokładnościach) wykazują tak duże różnice między oficjalnymi danymi, a wynikiem klasyfikacji. Z pozostałych klas brzoza, olcha i sosna wykazują różnice poniżej 0,2%, a modrzew 1,8%. Ta rozbieżność może mieć dwie przyczyny. 81
82 Pierwszą jest fakt, że klasyfikacja przedstawia rzeczywisty obraz każdego fragmentu lasu, a tradycyjne badania terenowe niekoniecznie muszą objąć 100% terenu KPN. Trzeba też pamiętać, że sklasyfikowano tylko sześć gatunków drzew z 10 występujących w parku. Według Danielewicz i innych (2012) w KPN obok sklasyfikowanych gatunków drzew występują też osika, klon, jawor, dąb i jodła. Możliwe, że drzewa należące do tych gatunków zostały przypisane do innych, najbliższych spektralnie klas. Jednakże wymienione cztery niesklasyfikowane gatunki drzew zajmują około 0,5% powierzchni lasów KPN (Danielewicz i inni, 2012). Czyni to powyższą teorię mało prawdopodobną. Drugim powodem są rozbieżności w kwestii zakwalifikowania danego obszaru jako lasu. W pracy zdecydowano się na wyłączenie z klasyfikacji obszarów zajętych przez młody las, głównie świerkowy (drzewa o wysokości poniżej 2,5 metra) oraz obszarów porośniętych pojedynczymi drzewami znajdującymi się poza lasem (sytuacja typowa dla obszarów bliżej wierzchowiny Karkonoszy). Z tego powodu, mimo że klasyfikacja może w pełni oddawać obecny skład gatunkowy lasów KPN, występują różnice w procentowym składzie gatunkowym. Biorąc pod uwagę materiały kartograficzne KPN, pokazujące zasięg przestrzenny drzewostanów KPN jest to bardzo możliwa przyczyna różnic. Obszar sklasyfikowany w pracy to 2027 ha, natomiast według oficjalnych źródeł powierzchnia KPN zajęta przez las to 4022 ha (Danielewicz i inni, 2012). Taki stan rzeczy tłumaczyłby też, dlaczego klasy sosna, modrzew, olcha i brzoza wykazują tak niewielkie różnice, bowiem znajdują się one głównie w niższym piętrze lasu. Nie jest to jednak wystarczające uzasadnienie różnic dla klasy buk tę można próbować uzasadnić różnicą w odniesieniu powierzchni zajmowanej przez dany gatunek w opracowaniu Danielewicz i inni (2012) oraz wynikiem klasyfikacji do całkowitej powierzchni zajętej przez las (nie są one identyczne). Różnice w procentowym udziale gatunków drzew w drzewostanie są dość często spotykane w pracach dotyczących klasyfikacji na dużym obszarze. W pracy Sommer i inni (2015), zawierającej klasyfikację gatunków drzew w Bawarskim Parku Narodowym, mimo wysokich dokładności klasyfikacji również notuje się rozbieżności między danymi oficjalnymi a tymi z klasyfikacji. Według uzyskanej klasyfikacji, drzewa należące do klasy świerk zajmowały 67% powierzchni lasów BPN, podczas gdy według danych z inwentaryzacji lasu drzewa klasy świerk zajmowały 28% powierzchni parku. Mniej drastyczne różnice wykazały również klasy jodła (18% w stosunku do 3%), buk (28% do 25%), klon (9% do 1%), modrzew (7% do 0,1%) i brzoza (5% do 0,7%). Powody zapewne 82
83 były podobne jak prezentowane wyżej. Nie uwzględnienie w klasyfikacji części obszaru Bawarskiego Parku Narodowego (ze względu na zachmurzenie podczas przeprowadzania nalotu) także mogło wpłynąć na wynik Porównanie wyników klasyfikacji APEX z dostępnymi danymi KPN Wyniki klasyfikacji zostały porównane z dostępnymi danymi dotyczącymi przestrzennego rozmieszczenia gatunków drzew na terenie KPN. Jedynym dostępnym relatywnie aktualnym źródłem danych na ten temat jest mapa rozmieszczenia poszczególnych gatunków w drzewostanach (Danielewicz i inni, 2012; Ryc. 8). Ryc. 31. Lokalizacja obszarów wykorzystanych w porównaniu. Ryc. 32. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Szklarska Poręba). Kompozycja CIR (c) (czerwony 860 nm, zielony 660 nm, niebieski 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). 83
84 Oceniano zgodność klasyfikacji oraz treści mapy na siedmiu wybranych obszarach. (Ryc. 31). Porównując mapę drzewostanów do wyników klasyfikacji na obszarze Szklarska Poręba można dostrzec kilka istotnych różnic (Ryc. 32). Pierwszą jest obecność tylko jednego gatunku na mapie drzewostanów (świerk), gdy klasyfikacja wykazuje istnienie dwóch skupisk modrzewi (zaznaczone białymi kołami) oraz teren występowania drzew liściastych (brzóz, zaznaczonych czarnym kołem) na obszarach zajętych przez świerk. Wynik klasyfikacji potwierdza interpretacja zobrazowania w kompozycji CIR, która pokazuje znaczne różnice wymienionych dwóch powierzchni w stosunku do otaczającego ją lasu, złożonego w głównej mierze ze świerków (na kompozycji CIR są to bardzo ciemnoczerwone plamy). Można stwierdzić pewne braki mapy drzewostanów, jednak trzeba wziąć pod uwagę skalę opracowania oraz to, że dotyczy ona w przede wszystkim potencjalnego występowania gatunków drzew. Ryc. 33. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Wodospad Szklarki). Kompozycja CIR (c) (czerwony 860 nm, zielony 660 nm, niebieski 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Jeżeli chodzi o obszar Wodospad Szklarki trudno jest wykazać istotne różnice miedzy mapą drzewostanów, a wynikiem klasyfikacji (Ryc. 33). Ze względu na większą dokładność klasyfikacji jest ona w stanie wykazać istnienie nawet pojedynczych drzew danego gatunku na badanym obszarze, co naturalnie nie jest pożądane ani możliwe na mapie. Poza istnieniem pasa porośniętego bukiem (zaznaczony czarnym kołem) oraz niewielką obecnością modrzewi (zaznaczone białym kołem) oba źródła danych pokazują podobne rozmieszczenie gatunków drzew na tym obszarze. Interesujące jest porównanie obszarów bardziej zróżnicowanych gatunkowo, takich jak teren Jagniątków 1 (Ryc. 34). 84
85 Ryc. 34. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 1). Kompozycja CIR (c) (czerwony 860 nm, zielony 660 nm, niebieski 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Ogólnie rzecz biorąc, mapa oraz wynik klasyfikacji są do siebie bardzo podobne (uwzględniając różnice wynikające ze skali opracowania i charakteru mapy). Dobrze widoczny jest efekt generalizacji obecny na mapie w stosunku do wyniku klasyfikacji, która z racji mniejszego pola podstawowego (9 m 2 ) jest w stanie ukazać bardziej szczegółowo rozmieszczenie gatunków drzew oraz lepiej pokazać zróżnicowanie rozmieszczenia drzew poszczególnych gatunków. Mapa drzewostanów nie pokazuje obecności liniowych zadrzewień modrzewiowych (tzw. pasy modrzewiowe), których obecność na terenie KPN jest dobrze znana. Ich lokalizację bardzo ułatwia wynik klasyfikacji, gdzie są one dobrze widoczne (czarne koło). Klasyfikacja nie ujawniła obecności olchy w tak dużym stopniu, jak jest to zaznaczone na mapie drzewostanów (białe koła) oraz wykazała obecność buka, którego nie ma na mapie (szare koło). Ryc. 35. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 2). Kompozycja CIR (c) (czerwony 860 nm, zielony 660 nm, niebieski 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Podobne wnioski można wyciągnąć w odniesieniu do obszaru Jagniątków 2 (Ryc. 35). W tym przypadku mapa i wynik klasyfikacji są do siebie podobne, szczególnie biorąc pod uwagę 85
86 obszary występowania sosny na tym terenie (białe koło). Potwierdziła się obecność gatunków drzew na obszarach wskazanych przez mapę, jednak wynik klasyfikacji pozwala zauważyć zróżnicowanie wewnątrz wydzieleń, np.: drzewa innych gatunków na obszarach wydzieleń. Znaczne różnice między mapą a wynikiem klasyfikacji są widoczne na obszarze Jagniątków 3 (Ryc. 36). Główne różnice to brak modrzewi na części obszarów zakwalifikowanych do tego wydzielenia na mapie drzewostanów (czarne koła). Wynik klasyfikacji nie wykazał też obecności olchy, wydzielonej na mapie (białe koło). W tym przypadku możliwe powierzchnie porośnięte olchą zostały usunięte przez maskę drzewostanów z wyniku klasyfikacji. Ryc. 36. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 3). Kompozycja CIR (c) (czerwony 860 nm, zielony 660 nm, niebieski 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Podobnie jak w przypadku obszaru Jagniątków 1, także i tutaj mapa drzewostanów pozwala na identyfikację położenia liniowych zadrzewień modrzewiowych, które można ławo dostrzec na obrazie poklasyfikacyjnym (szare koło). Różnice między mapą a wynikiem klasyfikacji stwierdzono również na obszarze Karpacz 1 (Ryc. 37). Ryc. 37. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Karpacz 1). Kompozycja CIR (c) (czerwony 860 nm, zielony 660 nm, niebieski 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). 86
87 Podobnie jak w przypadku obszarów Jagniątków 1 i 3, mapa drzewostanów nie zaznacza obecności liniowych zadrzewień modrzewiowych widocznych po prawej stronie wyniku klasyfikacji (białe koło), jednak zawiera duże wydzielenie modrzewi po lewej. Dodatkowo część powierzchni zakwalifikowanych do wydzielenia brzoza na mapie drzewostanów, została sklasyfikowana jako buk (czarne koło). W tym przypadku mapa jest błędna, co udowodniono przeprowadzając marszrutę terenową przez ten teren, i stwierdzając występowanie buków. Obraz prezentowany przez mapę zaniża powierzchnię występowania buka względem wyniku klasyfikacji, chociaż w niektórych przypadkach mapa i klasyfikacja wskazują podobny rejon występowania (szare koło). Ryc. 38. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Karpacz 2). Kompozycja CIR (c) (czerwony 860 nm, zielony 660 nm, niebieski 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Duża jest zgodność wyniku klasyfikacji z mapą drzewostanów na obszarze Karpacz 2. Na mapie brak tylko obszaru występowania modrzewi, wykazanego na mapie drzewostanów (czarne koło), zapewne dlatego, że maska drzewostanów usunęła drzewa niższe niż 2,5 metra (Ryc. 38). Jeżeli zawierzyć mapie drzewostanów co do obecności modrzewi na wskazanym na niej terenie, to muszą one być mniejsze niż 2,5 metra. Podsumowując można stwierdzić rozbieżności między wynikiem klasyfikacji a obecną mapą drzewostanów KPN. Główne różnice to brak większości liniowych zadrzewień modrzewiowych na mapie (Ryc. 37, 36 i 34) i błędne przypisanie do niektórych powierzchni występowania modrzewia (Ryc. 34 i 36) oraz buka (Ryc. 37). Trzeba podkreślić, że nie jest to wadą tego typu mapy, ze względu na jej duże zgeneralizowanie. Powyższe porównanie dobrze opisuje niedoskonałości obecnie dostępnych źródeł danych na temat przestrzennego rozmieszczenia gatunków drzew w KPN oraz pokazuje przydatność opracowań wykonanych przy wsparciu danych hiperspektralnych. Wykonanie mapy rozmieszczenia obiektów przy 87
88 użyciu danych teledetekcyjnych ma następujące zalety: odniesienie do charakterystyk spektralnych obiektów oraz ich ułożenia w przestrzeni, zapewniające obiektywną identyfikację obiektu, dostarcza powtarzalnej metody identyfikacji obiektów na podstawie obiektywnych kryteriów, pozwala na zbadanie obszaru z wielką szczegółowością (praktycznie 1 piksela), której klasyczne metody kartowania nie są w stanie zapewnić ze względów praktycznych i ekonomicznych, zobrazowania hiperspektralne z reguły wykonywane w ciągu jednego dnia, co znacznie zmniejsza szansę na wystąpienie zmian na terenie badań w czasie przeprowadzania kartowania Dyskusja na temat czasu wykonania badań terenowych. Zbieranie danych terenowych jest zadaniem generującym znaczne koszty oraz wymagającym dobrego przygotowania logistycznego (Fassnacht i inni, 2016). W przypadku klasyfikacji oraz innych badań z użyciem danych teledetekcyjnych, etap zbierania danych w terenie jest bez wątpienia bardzo ważny. Dostęp do map, ortofotomap, danych z różnych instytucji rządowych i firm prywatnych nie wyklucza przeprowadzania przynajmniej inspekcji terenu badań. W idealnych warunkach badania terenowe powinny zostać przeprowadzone w momencie wykonywania zobrazowania. W zależności od zasobów niektórzy autorzy przeprowadzają badania trenowe w tym samym miesiącu co wykonanie zobrazowania, wspierając prace terenowe danymi uzyskanymi z instytucji rządowych oraz mapami (Peerbhay i inni, 2013). Inni naukowcy korzystają z danych instytucji rządowych i map bez przeprowadzania badań trenowych (Fassnacht i inni, 2014). Naturalnie to czy konieczne jest przeprowadzanie badań terenowych, zależy od obszaru badań. Tereny dobrze skartowane (np: lasy gospodarcze) posiadające aktualne dane, nie wymagają szeroko zakrojonych badań terenowych, w przeciwieństwie do obszarów słabo skartowanych, o nieaktualnych danych. Do wykonania klasyfikacji gatunków drzew można posłużyć się danymi zebranymi po terminie nalotu, ze względu na wolne tempo naturalnych zmian w lesie oraz fakt, że zmiany duże i szybkie (wycinka, wiatrołom itp.) bardzo łatwo zauważyć w terenie. Oczywiście w przypadku zbierania danych do klasyfikacji zbiorowisk występujących tylko przez pewien czas w ciągu roku, badania terenowe powinny być przeprowadzone w momencie wykonania 88
89 nalotu, by nie zafałszować wyników. W niniejszej pracy zdecydowano się na przeprowadzanie serii badań terenowych mających na celu zebranie danych referencyjnych do klasyfikacji. Badania terenowe odbyły się rok oraz dwa lata po wykonaniu zobrazowania APEX. Nie jest to optymalny termin. Podczas zbierania danych unikano zatem obszarów, które są aktywnie przekształcane lub których pobieżna inspekcja wykryła zmiany (wycięte drzewa, zalegające ścięte pnie), które mogły nastąpić między datą nalotu a badaniami terenowymi. Podczas prac przygotowawczych wykorzystano dostępne mapy i ortofotomapę do wyznaczenia powierzchni do badań terenowych. 7. Podsumowanie i wnioski W pracy przedstawiono metodę wyboru kanałów spektralnych zobrazowania hiperspektralego APEX przy użyciu metody PCA oraz wskaźnika użyteczności kanału (band loading). W pierwszym kroku wykonane zostały korekcje geometryczne z dokładnością oscylującą wokół 1 m oraz usunięto wpływ atmosfery na pomierzone charakterystyki spektralne z dokładnością około 2 %. Tak wysokie dokładności były możliwe dzięki zastosowaniu parametrycznej korekcji geometrycznej uwzględniającej wychylenia samolotu w czasie pozyskiwania obrazu, szczegółowego modelu terenu i pokrycia terenu (wygenerowanego z lotniczego skaningu laserowego) oraz precyzyjnych pomiarów spektrometrycznych stanu atmosfery w trakcie zobrazowania oraz równomiernie zlokalizowanych poligonów kalibracyjnych, których cechy spektralne pozwoliły korygować dokładność korekcji atmosferycznej. Po wykonaniu wstępnych przetworzeń, wybrano 40 kanałów spektralnych APEX, na których zostały przeprowadzone dalsze analizy. Zestaw danych, mimo że zawierał 1/7 wejściowej liczby kanałów pozwolił na osiągnięcie wysokich dokładności klasyfikacji. Dzięki pracy na mniejszym zestawie danych można było przeprowadzić większą liczbę eksperymentów i dokonać optymalizacji parametrów uczenia sieci w rozsądnym czasie. Wybrane kanały znajdowały się w obszarach istotnych z punktu widzenia identyfikacji roślinności. W pracy wykonano również optymalizację struktury i parametrów uczenia sztucznych sieci neuronowych z jedną warstwą ukrytą, zaimplementowanych w pakiecie nnet. Wymagało to przygotowania autorskich rozwiązań programistycznych. Wykorzystany typ sieci neuronowej (perceptron wielowarstwowy) okazał się odpowiedni do klasyfikacji zobrazowań hiperspektralnych. Wstępne etapy klasyfikacji pełnego zestawu danych APEX 89
90 był dosyć wolny i niewygodny (długi czas oczekiwania na wyniki), ale selekcja najbardziej informacyjnych kanałów pozwoliła rozwiązać problemy, które trudno pokonać za pomocą innych klasyfikatorów. Jednym z ograniczeń podczas pracy ze sztucznymi sieciami neuronowymi była liczba kanałów spektralnych zobrazowania. Duża liczba kanałów powodowała, że proces uczenia sieci był długi oraz wymagał znacznych zasobów obliczeniowych i pamięciowych. Dodatkowo sztuczne sieci neuronowe niepoprawnie klasyfikowały zestawy danych, który uprzednio nie zostały przefiltrowane w celu usunięcia nieistotnych informacji. Wyżej wymienione metody połączono w celu opracowania metody klasyfikacji gatunków drzew przy użyciu lotniczych danych hiperspektralnych. Sklasyfikowano sześć gatunków drzew. Uzyskano informacje na temat przestrzennego rozmieszczenia: świerka (Picea abies L. Karst), brzozy (Betula pendula Roth), buka (Fagus Sylvatica L.), modrzewia (Larix decidua Mill), sosny (Pinus sylvestris L.) i olchy (Alnus Mill) na obszarze KPN. Wszystkie klasy osiągnęły dokładność producenta ponad 76% oraz dokładność użytkownika ponad 77%. Najlepiej sklasyfikowanymi klasami była klasa świerk (93%), olcha (93%), buk (90%) oraz brzoza (84%). Obliczone na podstawie klasyfikacji powierzchnie zajmowane przez poszczególne sklasyfikowane gatunki drzew różnią się nieco od oficjalnych danych. Największe rozbieżności dotyczyły klasy buk (6 punktów procentowych) i świerk (7 p.p.). Pozostałe klasy nie wykazały znaczących rozbieżności. Wykonana klasyfikacja posłużyła do wykonania mapy rozmieszczenia wybranych gatunków drzew na obszarze Karkonoskiego Parku Narodowego Z pracy wyciągnięto następujące wnioski: dane hiperspektralne są zdecydowanie użyteczne w klasyfikacji gatunków drzew na obszarach chronionych. Duża liczba bardzo wąskich kanałów spektralnych pozwala z sukcesem wyróżniać gatunki drzew, chociaż bogactwo danych wymaga odpowiedzi na pytanie, które dane użyć, uzyskane wyniki pozwoliły na skuteczną klasyfikację dominujących na obszarze badań gatunków drzew (świerk, buk) oraz gatunków znacznie rzadziej występujących na obszarze badań (modrzew, sosna, brzoza, olcha), terenowe badania weryfikacyjne są niezbędne do prawidłowej interpretacji cząstkowych oraz końcowych wyników. Optymalnym rozwiązaniem jest stosowanie geodezyjnych odbiorników GPS, które poprzez system zewnętrznej anteny pozwalają 90
91 uzyskać dokładności rzędu cm pod gęstym baldachimem drzew, mimo pewnej trudności w klasyfikacji obszarów chronionych (ze względu na mniej uporządkowany sposób występowania gatunków w porównaniu do lasów gospodarczych) klasyfikacja osiągnęła dokładność ogólną 87%. To pozwala stwierdzić dużą przydatność danych hiperspektralnych w badaniach obszarów chronionych oraz trudno dostępnych, duża liczba kanałów spektralnych zobrazowania hiperspektralnego, a co za tym idzie duża objętość takich danych, wymaga redukcji użytych danych, tak aby czas przetwarzania danych był rozsądny. Jest to szczególnie ważne przy wykonywaniu analiz wielkopowierzchniowych z wykorzystaniem zaawansowanych technik przetwarzania danych. Użyty algorytm wyboru kanałów hiperspektralnych pozwolił na zmniejszenie zestawu danych 7 razy w stosunku do pełnego zestawu. Ze względu na wykorzystany algorytm klasyfikujący nie zbadano, jaki wynik uzyskanoby przy użyciu całego zestawu badań. Wykorzystanie całego zestawu danych oraz SSN skutkowałoby bardzo długimi czasami treningu, co znacznie utrudniłoby proces optymalizacji parametrów uczenia i proces oceny dokładności, wykorzystana metoda wyboru kanałów spektralnych jest szczególnie pomocna w przypadku, gdy istotne jest zachowanie oryginalnych kanałów spektralnych. Przyjęto założenie o wykorzystaniu 40 kanałów spektralnych do klasyfikacji, jednak metoda pozwala na wybranie dowolnie wielkiego zestawu danych, dostarczając kanały spektralne według zawartości informacji w kanałach, przedstawiono metody optymalizacji struktury oraz parametrów uczenia sztucznej sieci neuronowej (perceptron wielowarstwowy z jedną warstwą ukrytą) w programie nnet. Ze względu na naturę działania SSN uzyskane wyniki mają nikłą szansę na bycie uniwersalnymi, chociaż opracowana metoda pozwala na poczynienie pewnych kroków w uzyskiwaniu optymalnych parametrów uczenia bez użycia zaawansowanych metod matematycznych. Podejście typu brute force zastosowane w pracy do optymalizacji trudno uznać za eleganckie, ale pozwoliło na uzyskanie wysokich dokładności klasyfikacji. Trzeba zauważyć że opracowana metoda została przetestowana na jednej z implementacji SSN, zatem może nie być odpowiednia do sieci budowanych innymi programami, 91
92 omówiono odmienną niż ogólnie przyjęta metodę oceny dokładności wyników. Zamiast opierać się na jednorazowym procesie treningu i weryfikacji na wyznaczonych wzorcach, zdecydowano się na wielokrotne losowanie zestawów wzorców do treningu i weryfikacji wyniku. Taka metoda pozwala na zmniejszenie niezamierzonego wpływu badacza na wynik, uwalnia go od żmudnego procesu dobierania wzorców do zestawu treningowego i weryfikacyjnego, pozwala na automatyzację procesu oceny dokładności oraz lepsze zrozumienie uzyskanych wyników. Jej zastosowanie nie tylko dostarcza informacji na temat miar dokładności, ale również pozwala na obserwację zmian obliczonych dokładności oraz ich oddziaływanie z zestawami treningowymi i weryfikacyjnymi. Otwarte zostają kwestie przestrzennej autokorelacji losowo wybranych pikseli, co może fałszować wynik, zaprezentowano kompletną metodę klasyfikacji i przetwarzania danych hiperspektralnych, kładąc nacisk na techniki optymalnego wyboru wykorzystanych danych oraz wysokie dokładności wyników. Może ona być z powodzeniem wykorzystana w rozwiązywaniu innych problemów badawczych, w których korzysta się z danych hiperspektralnych i sztucznych sieci neuronowych. Podsumowując badania, należy stwierdzić, że monitorowanie ekosystemów i efektywne zarządzania zasobami przyrody wymaga aktualnej informacji o stanie środowiska. Informacje te mogą być pozyskiwane na bieżąco przez polskie jednostki badawcze, a ceny są akceptowalne dla jednostek budżetowych. Znajomość składu gatunkowego danego lasu i przestrzennego rozmieszczenia gatunków drzew pozwala na nowe spojrzenie na dynamikę zmian w lasach. Mimo wysokich dokładności uzyskanej klasyfikacji, warto wykazać ostrożność interpretując wyniki. Jedną z podstawowych spraw jest opracowanie ujednoliconej metodyki zbierania danych terenowych oraz weryfikowania wyników klasyfikacji. W pracy wykorzystano metodę iteracyjnej oceny dokładności klasyfikacji, co pozwoliło zbadać wpływ zróżnicowania spektralnego zebranego zestawu danych dotyczącego sklasyfikowanych gatunków drzew. Zastosowana metoda oceny dokładności pozwala na większą niezależność wyniku od sprawności badacza w podziale dostępnych danych na zestaw do uczenia i testowania klasyfikatora. Automatyczna natura procesu oparta na losowaniu zwalnia badacza z konieczności samodzielnego dobierania zestawów oraz redukuje czas, w którym badacz dopieszcza zestawy. Ponadto łatwo określić, jak dużym błędem obarczone są osiągnięte 92
93 wyniki wystarczy przeanalizować szerokość rozkładu danej miary dokładności oraz jej skośność. Nie można zapominać, że cała analiza wyników ogranicza się do analizy numerycznej, znacznie zmniejszając zapotrzebowania na dociekliwe dochodzenie do przyczyn uzyskania danego wyniku. Ceną za zwiększoną odporność na niezamierzony wpływ na wynik (negatywny lub pozytywny) jest konieczność przeprowadzenia serii klasyfikacji na różnych zestawach, co znacznie wydłuża proces klasyfikacji i oceny dokładności. Przy założeniu 100 iteracji czas klasyfikacji może wydłużyć się ponad stukrotnie, co naturalnie wymusza redukcję czasu przetwarzania i klasyfikacji danych. Mimo wymienionych zalet zastosowana metoda nie zwalnia badacza z wizualnej oceny wyniku. Teledetekcja hiperspektralna pozwala na dostarczenie ogromnej ilości danych, co niekiedy powoduje klęskę obfitości. Przy badaniach dużych obszarów czas przetwarzania danych ma znaczący wpływ na wybór zastosowanych metod i narzędzi. Mierząc się z tak dużymi zestawami danych badacz niekiedy musi samodzielnie opracować nowe narzędzie, często takie, które łatwo zautomatyzować. Wraz ze wzrostem ilości danych wzrasta liczba produktów teledetekcyjnych, jakie można dostarczyć. Powoduje to duże zapotrzebowanie na miejsce do przechowania danych i wyników. Problem staje się palący, gdy same zebrane dane wymagają terabajtów pamięci na ich przechowanie. Nie można też zapominać o wielkiej mocy obliczeniowej, potrzebnej do przekształcenia zebranych danych w wynik. Przy analizie tak dużych zestawów danych, klasyczne metody pracy oparte na komputerach PC przestają wystarczać. Rozwiązaniem jest budowanie mocniejszych stacji roboczych lub przeniesienie pracy na serwery obliczeniowe. Zastosowanie sztucznych sieci neuronowych w teledetekcji nie jest szeroko rozpowszechnione. Spowodowane jest to głównie trudnościami w ich użyciu oraz faktem, że inne klasyfikatory, takie jak SVM czy RF dostarczają porównywalne wyniki przy znacznie mniejszym nakładzie pracy. Sam proces optymalizacji uczenia sztucznej sieci neuronowej ma znaczny wpływ na końcowy wynik (Feret, Asner, 2013), a jest tylko jednym z wielu czynności, które trzeba wykonać chcąc otrzymać dobry wynik (innymi są: dobór architektury, wybór algorytmu uczącego czy balansowanie między sensownym czasem uczenia a wynikiem). Wykorzystanie w pracy programu nnet dostępnego dla programu R dowiodło, że można z powodzeniem używać sztucznych sieci neuronowych do klasyfikacji. Zaletami programu nnet jest jego proste użycie oraz zdolność do dostarczania wyników nawet wtedy, 93
94 kiedy nie w pełni rozumie się jego działanie. Warto wspomnieć o programie R darmowym oraz opartym na zasadach open-source. Bogactwo dodatkowych podprogramów do R pozwala przenieść cały łańcuch przetwarzania w jedno miejsce. Takie podejście znacznie ułatwia automatyzację prac oraz modyfikację opracowywanego algorytmu. Biorąc pod uwagę powyższe fakty, nic nie stoi na przeszkodzie, aby (rozsądnie) rozszerzyć zakres zastosowania SSN w teledetekcji. Warto również przeprowadzić analizę użycia tzw. sieci głębokiego uczenia (deep-learning) w teledetekcji hiperspektralnej. 94
95 Praca naukowa finansowana ze środków budżetowych na naukę w latach jako projekt badawczy w ramach programu pod nazwą Diamentowy Grant. Numer projektu DI
Zobrazowania hiperspektralne do badań środowiska podstawowe zagadnienia teoretyczne
Zobrazowania hiperspektralne do badań środowiska podstawowe zagadnienia teoretyczne Anna Jarocińska Uniwersytet Warszawski Wydział Geografii i Studiów Regionalnych Zakład Geoinformatyki, Kartografii i
Określenie składu gatunkowego Puszczy Białowieskiej z wykorzystaniem danych hiperspektralnych
Instytut Badawczy Leśnictwa www.ibles.pl Określenie składu gatunkowego Puszczy Białowieskiej z wykorzystaniem danych hiperspektralnych Aneta Modzelewska 1, Krzysztof Stereńczak 1, Małgorzata Białczak 1,
KP, Tele i foto, wykład 3 1
Krystian Pyka Teledetekcja i fotogrametria sem. 4 2007/08 Wykład 3 Promieniowanie elektromagnetyczne padające na obiekt jest w części: odbijane refleksja R rozpraszane S przepuszczane transmisja T pochłaniane
Sylwia A. Nasiłowska , Warszawa
PORÓWNANIE ZDJĘĆ SATELITARNYCH (LANDSAT) I LOTNICZYCH (PLATFORMA ) POWIERZCHNI BADAWCZYCH PROJEKTU W LATACH 2013-2015 Sylwia A. Nasiłowska 04.08.2016, Warszawa sylwia.nasilowska@ilot.edu.pl Zakład Teledetekcji
ZAŁ. 2 - WARUNKI UDZIAŁU W POSTĘPOWANIU
ZAŁ. 2 - WARUNKI UDZIAŁU W POSTĘPOWANIU Projekt Inwentaryzacja i ocena stanu zasobów przyrodniczych Wielkopolskiego Parku Narodowego przy wykorzystaniu nowoczesnych technologii teledetekcyjnych (POIS.02.04.00-00-0011/18-00)
Nowe metody badań jakości wód wykorzystujące technikę teledetekcji lotniczej - przykłady zastosowań
Nowe metody badań jakości wód wykorzystujące technikę teledetekcji lotniczej - przykłady zastosowań Małgorzata Słapińska, Tomasz Berezowski, Jarosław Chormański Szkoła Główna Gospodarstwa Wiejskiego, Wydział
Podstawy teledetekcji hiperspektralnej
W roku 1988 Międzynarodowe Towarzystwo Fotogrametrii i Teledetekcji (ISPRS) zdefiniowało teledetekcję wspólnie z fotogrametrią jako dział nauk technicznych zajmujących się pozyskiwaniem wiarygodnych informacji
Określenie składu gatunkowego lasów Góry Chojnik (Karkonoski Park Narodowy) z wykorzystaniem lotniczych danych hiperspektralnych APEX*
sylwan 159 (7): 593 599, 2015 Edwin Raczko, Bogdan Zagajewski, Adrian Ochtyra, Anna Jarocińska, Adriana Marcinkowska-Ochtyra, Marek Dobrowolski Określenie składu gatunkowego lasów Góry Chojnik (Karkonoski
Kompleksowy monitoring dynamiki drzewostanów Puszczy Białowieskiej z wykorzystaniem danych teledetekcyjnych
Instytut Badawczy Leśnictwa www.ibles.pl Dane pozyskane w projekcie Kompleksowy monitoring dynamiki drzewostanów Puszczy Białowieskiej z wykorzystaniem danych teledetekcyjnych Aneta Modzelewska, Małgorzata
Podstawy Geomatyki Wykład VI Teledetekcja 2. Remote sensing methods based on multispectral satellite images (passive methods)
Podstawy Geomatyki Wykład VI Teledetekcja 2 Remote sensing methods based on multispectral satellite images (passive methods) Obrazowanie optyczne Podstawowa metoda teledetekcji pasywnej zobrazowania multispektralne
PL B1. OPEGIEKA SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ, Elbląg, PL BUP 09/17
RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 229175 (13) B1 Urząd Patentowy Rzeczypospolitej Polskiej (21) Numer zgłoszenia: 414442 (22) Data zgłoszenia: 20.10.2015 (51) Int.Cl. G01S 17/89 (2006.01)
PRZESTRZENNE BAZY DANYCH
PRZESTRZENNE BAZY DANYCH ĆWICZENIA 1 TEMAT: Analiza satelitarnych danych Landsat w programie ArcGIS TELEDETEKCJA SYSTEM PASYWNY 1. Co to jest teledetekcja? 2. Co oznacza w teledetekcji system pasywny?
TELEDETEKCJA W MIEŚCIE CHARAKTERYSTYKA SPEKTRALNA RÓŻNYCH POKRYĆ DACHÓW, CZYLI ZMIANA FACHU SKRZYPKA NA DACHU
TELEDETEKCJA W MIEŚCIE CHARAKTERYSTYKA SPEKTRALNA RÓŻNYCH POKRYĆ DACHÓW, CZYLI ZMIANA FACHU SKRZYPKA NA DACHU Materiały zebrał dr S. Królewicz TELEDETEKCJA JAKO NAUKA Teledetekcja to dziedzina wiedzy,
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
REMBIOFOR Teledetekcja w leśnictwie precyzyjnym
REMBIOFOR Teledetekcja w leśnictwie precyzyjnym K. Stereńczak, G. Krok, K. Materek, P. Mroczek, K. Mitelsztedt, M. Lisańczuk, D. Balicki, P. Lenarczyk, M. Laszkowski, M. Wietecha, S. Miścicki*, A. Markiewicz
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Klasyfikacja gatunków drzewiastych Karkonoskiego Parku Narodowego z użyciem lotniczych danych hiperspektralnych APEX oraz Support Vector Machines
Klasyfikacja gatunków drzewiastych Karkonoskiego Parku Narodowego z użyciem lotniczych danych hiperspektralnych APEX oraz Support Vector Machines Edwin Raczko 1), Bogdan Zagajewski 1), Adrian Ochtyra 1),
Dane teledetekcyjne. Sławomir Królewicz
Dane teledetekcyjne Sławomir Królewicz Teledetekcja jako nauka Teledetekcja to dziedzina wiedzy, nauki zajmująca się badaniem właściwości fizycznych, chemicznych i biologicznych przedmiotów bez bezpośredniego
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Zróżnicowanie wskaźników teledetekcyjnych i biometrycznych
Zróżnicowanie wskaźników teledetekcyjnych i biometrycznych Zestawienie danych statystycznych przedstawiających wyniki pomiarów terenowych wskaźników roślinnych (LAI i f ) (tabela 7), daje podstawy do stwierdzenia,
Zastosowanie zobrazowań satelitarnych do pozyskiwania informacji o środowisku
Zastosowanie zobrazowań satelitarnych do pozyskiwania informacji o środowisku Bogdan Zagajewski, Anna Jarocińska, Adrian Ochtyra, Adriana Marcinkowska- Ochtyra, Marlena Kycko, Małgorzata Krówczyńska, Edwin
Instytut Badawczy Leśnictwa
Instytut Badawczy Leśnictwa www.ibles.pl LIFE+ ForBioSensing PL: Kompleksowy monitoring dynamiki drzewostanów Puszczy Białowieskiej z wykorzystaniem danych teledetekcyjnych Krzysztof Stereńczak Zakład
Geoinformacja - Interpretacja danych teledetekcyjnych. Ćwiczenie I
Geoinformacja - Interpretacja danych teledetekcyjnych Ćwiczenie I Landsat TM i ETM 7 kanałów spektralnych (rozdzielczość przestrzenna 30m) Kanał 1 niebieski Kanał 2 zielony Kanał 3 czerwony Kanał 4 bliska
Instytut Badawczy Leśnictwa
Instytut Badawczy Leśnictwa www.ibles.pl Monitorowanie stanu obszarów leśnych z wykorzystaniem danych teledetekcyjnych na przykładzie Puszczy Białowieskiej Krzysztof Stereńczak, Miłosz Mielcarek, Bartłomiej
Instytut Badawczy Leśnictwa
Instytut Badawczy Leśnictwa www.ibles.pl Charakterystyka drzewostanów Puszczy Białowieskiej na podstawie danych teledetekcyjnych Krzysztof Stereńczak, Miłosz Mielcarek, Bartłomiej Kraszewski, Żaneta Piasecka,
Wstępne przetwarzanie danych hiperspektralnych Tatr Wysokich
Wstępne przetwarzanie danych hiperspektralnych Tatr Wysokich Dane pozyskane bezpośrednio przez skaner lotniczy mają liczne zniekształcenia wynikające z deformacji geometrycznych wywołanych przez ruch samolotu
Charakterystyka danych teledetekcyjnych jako źródeł danych przestrzennych. Sławomir Królewicz
Charakterystyka danych teledetekcyjnych jako źródeł danych przestrzennych Sławomir Królewicz Teledetekcja jako nauka Teledetekcja to dziedzina wiedzy, nauki zajmująca się badaniem właściwości fizycznych,
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
c) Sprawdź, czy jest włączone narzędzie Image classification. Jeśli nie, to je włącz: Customize Toolbars Image Classification
3. KLASYFIKACJA Proces klasyfikacji obrazów satelitarnych polega na utworzeniu ze zbioru danych wejściowych pojedynczej mapy wynikowej. Dane multispektralne stanowią zbiór map rastrowych z tym samym odniesieniem
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
The use of aerial pictures in nature monitoring
ROCZNIKI BIESZCZADZKIE 18 (2010), str. 403 408 Marcin Czerny Received: 5.05.2010 KRAMEKO sp. z o.o. Reviewed: 30.07.2010 30-023 Kraków, ul. Mazowiecka 108 m.czerny@krameko.com.pl WYKORZYSTANIE ZDJĘĆ LOTNICZYCH
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Składowe oceny oferty. cena - 60% metodyka - 40% gdzie:
Składowe oceny oferty. cena - 6% metodyka - 4% Składowa cena ofertowa brutto (C) S = (Cn/Cb) x x 6% gdzie: S oznacza ilość jakie otrzyma oferta w Składowej cena ofertowa brutto (C) Cn oznacza najniższą
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
7. Metody pozyskiwania danych
7. Metody pozyskiwania danych Jedną z podstawowych funkcji systemu informacji przestrzennej jest pozyskiwanie danych. Od jakości pozyskanych danych i ich kompletności będą zależały przyszłe możliwości
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Geoinformacja Interpretacja danych teledetekcyjnych. XIII. Obliczenie indeksu wegetacji NDVI
Geoinformacja Interpretacja danych teledetekcyjnych XIII. Obliczenie indeksu wegetacji NDVI 1 Wprowadzenie Wzmocnienia spektralne obrazu satelitarnego Zamiana jasności piksela w danym kanale w oparciu
Ta nowa metoda pomiaru ma wiele zalet w stosunku do starszych technik opartych na pomiarze absorbancji.
CHLOROFILOMIERZ CCM300 Unikalna metoda pomiaru w oparciu o pomiar fluorescencji chlorofilu! Numer katalogowy: N/A OPIS Chlorofilomierz CCM-300 jest unikalnym urządzeniem pozwalającym zmierzyć zawartość
Dane przestrzenne i usługi informacyjne dla administracji samorządowej
Dane przestrzenne i usługi informacyjne dla administracji samorządowej dr Witold Fedorowicz-Jackowski, Przemysław Turos GEOSYSTEMS Polska Nawigacja i pozycjonowanie - ratownictwo i służby porządkowe Uniwersalny
KARTA KURSU (realizowanego w module specjalności) Geomonitoring. Techniki pozyskiwania informacji o kształcie obiektu. Kod Punktacja ECTS* 3
Geografia, stopień I studia stacjonarne semestr IV KARTA KURSU (realizowanego w module specjalności) Geomonitoring Nazwa Nazwa w j. ang. Techniki pozyskiwania informacji o kształcie obiektu Digital measurement
Prof. Stanisław Jankowski
Prof. Stanisław Jankowski Zakład Sztucznej Inteligencji Zespół Statystycznych Systemów Uczących się p. 228 sjank@ise.pw.edu.pl Zakres badań: Sztuczne sieci neuronowe Maszyny wektorów nośnych SVM Maszyny
Zanieczyszczenie atmosfery i terenu wpływa pośrednio na rozwój lasu. Naruszona bowiem zostaje równowaga chemiczna i zmieniony odczyn ph w środowisku
Ochrona lasów Zanieczyszczenie atmosfery i terenu wpływa pośrednio na rozwój lasu. Naruszona bowiem zostaje równowaga chemiczna i zmieniony odczyn ph w środowisku glebowym. Działanie bezpośrednie, jak
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Przygotowała Elżbieta Pastucha na podstawie CityGML OGC Standard for Photogrammetry by Thomas H. Kolbe, Claus Nagel, Alexandra Stadler
Przygotowała Elżbieta Pastucha na podstawie CityGML OGC Standard for Photogrammetry by Thomas H. Kolbe, Claus Nagel, Alexandra Stadler Wirtualne modele miast 3D Nowa Generacja Wykorzystanie: Symulacje
Teledetekcja w ujęciu sensorycznym
Teledetekcja w ujęciu sensorycznym Zmysły ludzkie (wzrok, węch, słuch, dotyk, smak) nie reagują na większość bodźców pochodzących od otaczającego nas Świata. W przypadku człowieka rolę odbiornika różnego
Teledetekcja w kartografii geologicznej. wykład I
Teledetekcja w kartografii geologicznej wykład I Teledetekcja teledetekcja «badanie obiektów oraz zjawisk i procesów zachodzących na powierzchni Ziemi oraz innych planet i ich księżyców za pomocą specjalnej
FOTOGRAMETRIA I TELEDETEKCJA
FOTOGRAMETRIA I TELEDETEKCJA 2014-2015 program podstawowy dr inż. Paweł Strzeliński Katedra Urządzania Lasu Wydział Leśny UP w Poznaniu Format Liczba kolorów Rozdzielczość Wielkość pliku *.tiff CMYK 300
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Detekcja drzew z wykorzystaniem lotniczego skanowania laserowego
Instytut Badawczy Leśnictwa www.ibles.pl Detekcja drzew z wykorzystaniem lotniczego skanowania laserowego Bartłomiej Kraszewski, Krzysztof Stereńczak, Żaneta Piasecka, Miłosz Mielcarek Zakład Zarządzania
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Wykorzystanie zdjęć satelitarnych Landsat TM do badania kondycji roślinności
Wykorzystanie zdjęć satelitarnych Landsat TM do badania kondycji roślinności Magdalena Zwijacz-Kozica Bogdan Zagajewski Uniwersytet Warszawski Wydział Geografii i Studiów Regionalnych Katedra Geoinformatyki
Wybrane zagadnienia w pracy z danymi rastrowymi w ArcGIS Marcin Paź Esri Polska
Wybrane zagadnienia w pracy z danymi rastrowymi w ArcGIS 10.1 Marcin Paź Esri Polska Zagadnienia Koncepcja rastra Typy danych rastrowych Właściwości rastrów Modele danych rastrowych w ArcGIS Przetwarzanie
Podstawy przetwarzania danych pochodzących z lotniczego skanowania laserowego w oprogramowaniu LP360 firmy QCoherent
Podstawy przetwarzania danych pochodzących z lotniczego skanowania laserowego w oprogramowaniu LP360 firmy QCoherent Mateusz Maślanka Specjalista ds. oprogramowania LiDAR mateusz.maslanka@progea.pl Mateusz
Modelowanie glikemii w procesie insulinoterapii
Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą
Sentinel Playground. Aplikacja dostępna jest pod adresem internetowym: Ogólne informacje o aplikacji
Sentinel Playground Sentinel Playground jest aplikacją internetową służącą do przeglądania, analizy i oceny zobrazowań satelitarnych Sentinel-2 oraz od niedawna również Landsat 8 i MODIS. Prezentuje dane
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Oferta produktowa Zakładu Teledetekcji
ZAKŁAD TELEDETEKCJI ZAKŁAD TELEDETEKCJI Rozwój w pięciu niezależnych kierunkach Analiza danych Algorytmika wielospektralna, analiza zdjęć lotniczych, walidacja zdjęć lotniczych. Teledetekcja Zdalne wykrywanie
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Analiza wykonalności dla wskaźnika: zmiany obszarów użytkowanych rolniczo
Analiza wykonalności dla wskaźnika: zmiany obszarów użytkowanych rolniczo Analizę wykonalności dla kolejnego wskaźnika: zmiany obszarów użytkowanych rolniczo rozpoczniemy, podobnie do wskaźnika dostępności
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Koncepcja pomiaru i wyrównania przestrzennych ciągów tachimetrycznych w zastosowaniach geodezji zintegrowanej
Koncepcja pomiaru i wyrównania przestrzennych ciągów tachimetrycznych w zastosowaniach geodezji zintegrowanej Krzysztof Karsznia Leica Geosystems Polska XX Jesienna Szkoła Geodezji im Jacka Rejmana, Polanica
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
ZDALNA REJESTRACJA POWIERZCHNI ZIEMI
Zdalne metody (teledetekcję) moŝna w szerokim pojęciu zdefiniować jako gromadzenie informacji o obiekcie bez fizycznego kontaktu z nim (Mularz, 2004). Zdalne metody (teledetekcję) moŝna w szerokim pojęciu
GEOINFORMATYKA KARTOGRAFIA TELEDETEKCJA
Wydział Geografii i Studiów Regionalnych Uniwersytet Warszawski s t u d i a m a g i s t e r s k i e s p e c j a l n o ś ć GEOINFORMATYKA KARTOGRAFIA TELEDETEKCJA Kim jesteśmy? ZAKŁAD GEOINFORMATYKI, KARTOGARFII
Zobrazowania satelitarne jako źródło danych obrazowych do zarządzania obszarami chronionymi
Zobrazowania satelitarne jako źródło danych obrazowych do zarządzania obszarami chronionymi Łukasz Sławik II WARSZTATY SYSTEMY INFORMACJI GEOGRAFICZNEJ W PARKACH NARODOWYCH I OBSZARACH CHRONIONYCH ZAKOPANE
Wykorzystanie danych radarowych w szacowaniu wielkości biomasy drzewnej w Polsce
Wykorzystanie danych radarowych w szacowaniu wielkości biomasy drzewnej w Polsce Agata Hościło 1, Aneta Lewandowska 1, Dariusz Ziółkowski 1, Krzysztof Stereńczak 2, Marek Lisańczuk 2 1 Centrum Teledetekcji
Teledetekcja w ochronie środowiska. Wykład 2
Teledetekcja w ochronie środowiska Wykład 2 TELEDETEKCJA teledetekcja «dziedzina nauk technicznych zajmująca się pozyskiwaniem wiarygodnych informacji o obiektach fizycznych i ich otoczeniu drogą rejestracji
Wykorzystanie wysokorozdzielczych zobrazowań satelitarnych firmy Planet w rolnictwie precyzyjnym
Wykorzystanie wysokorozdzielczych zobrazowań satelitarnych firmy Planet w rolnictwie precyzyjnym (High-resolution imagery by Planet Labs Inc. in precision agriculture) Dominika Sztwiertnia Asystent ds.
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
EURO MAPS. opracowanie: GAF AG, GEOSYSTEMS Polska dystrybcja: GEOSYSTEMS Polska
Wysokorozdzielcza ortomozaika zobrazowań satelitarnych dla Polski 150 scen satelitarnych IRS-P6 Resourcesat rozdzielczość 5 metrów opracowanie: GAF AG, GEOSYSTEMS Polska dystrybcja: GEOSYSTEMS Polska Charakterystyka:
Anomalie gradientu pionowego przyspieszenia siły ciężkości jako narzędzie do badania zmian o charakterze hydrologicznym
Anomalie gradientu pionowego przyspieszenia siły ciężkości jako narzędzie do badania zmian o charakterze hydrologicznym Dawid Pruchnik Politechnika Warszawska 16 września 2016 Cel pracy Zbadanie możliwości
SPIS TREŚCI STRESZCZENIE...8 SUMMARY...9 I. WPROWADZENIE... 10
SPIS TREŚCI STRESZCZENIE.....8 SUMMARY.....9 I. WPROWADZENIE.... 10 II. OMÓWIENIE TEORETYCZNE I PRAKTYCZNE OBSZARU BADAŃ..16 1. Fotogrametria i skanowanie laserowe jako metody inwentaryzacji zabytków......17
Podstawy przetwarzania obrazów teledetekcyjnych. Format rastrowy
Podstawy przetwarzania obrazów teledetekcyjnych Format rastrowy Definicja rastrowego modelu danych - podstawowy element obrazu cyfrowego to piksel, uważany w danym momencie za wewnętrznie jednorodny -
GEOINFORMATYKA KARTOGRAFIA TELEDETEKCJA
Zakład Geoinformatyki, Kartografii i Teledetekcji Wydział Geografii i Studiów Regionalnych Uniwersytet Warszawski s t u d i a m a g i s t e r s k i e s p e c j a l n o ś ć GEOINFORMATYKA KARTOGRAFIA TELEDETEKCJA
Problematyka budowy skanera 3D doświadczenia własne
Problematyka budowy skanera 3D doświadczenia własne dr inż. Ireneusz Wróbel ATH Bielsko-Biała, Evatronix S.A. iwrobel@ath.bielsko.pl mgr inż. Paweł Harężlak mgr inż. Michał Bogusz Evatronix S.A. Plan wykładu
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Pakiet R Biblioteka Landsat
Pakiet R Biblioteka Landsat Korekcja radiometryczna i topograficzna zobrazowań satelitarnych Wydział Geodezji Górniczej i Inżynierii Środowiska Katedra Geoinformacji, Fotogrametrii i Teledetekcji środowiska
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Charakterystyka mierników do badania oświetlenia Obiektywne badania warunków oświetlenia opierają się na wynikach pomiarów parametrów świetlnych. Podobnie jak każdy pomiar, również te pomiary, obarczone
Archiwum Fotogrametrii, Kartografii i Teledetekcji Vol. 9,1999, s ISBN
Polskie Towarzystwo Fotogrametrii i Teledetekcji oraz Katedra Fotogrametrii i Teledetekcji Wydziału Geodezji i Gospodarki Przestrzennej Uniwersytetu Warmińsko-Mazurskiego w Olsztynie Archiwum Fotogrametrii,
Teledetekcja zdrowotności lasów za pomocą średniej podczerwieni. Natalia Zalewska
Teledetekcja zdrowotności lasów za pomocą średniej podczerwieni Natalia Zalewska Powiązanie zawartości wody z zawartością chlorofilu i karotenu w liściach roślin Przebieg krzywej spektralnej roślinności
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne
Budowa pionowa drzewostanu w świetle przestrzennego rozkładu punktów lotniczego skanowania laserowego
Budowa pionowa drzewostanu w świetle przestrzennego rozkładu punktów lotniczego skanowania laserowego Marcin Myszkowski Marek Ksepko Biuro Urządzania Lasu i Geodezji Leśnej Oddział w Białymstoku PLAN PREZENTACJI
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich
Podstawy Metrologii i Technik Eksperymentu Laboratorium Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich Instrukcja do ćwiczenia nr 4 Zakład Miernictwa
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Teledetekcja w inżynierii środowiska
AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE Wydział Geodezji Górniczej i Inżynierii Środowiska Sprawozdanie z przedmiotu: Teledetekcja w inżynierii środowiska Temat: Satelitarny obraz
TELEDETEKCJA Z ELEMENTAMI FOTOGRAMETRII WYKŁAD 10
TELEDETEKCJA Z ELEMENTAMI FOTOGRAMETRII WYKŁAD 10 Fotogrametria to technika pomiarowa oparta na obrazach fotograficznych. Wykorzystywana jest ona do opracowywani map oraz do różnego rodzaju zadań pomiarowych.
GIS w nauce. Poznań 01-03.06.2015. Analiza obiektowa (GEOBIA) obrazów teledetekcyjnych pod kątem detekcji przemian środowiska. mgr inż.
GIS w nauce Poznań 01-03.06.2015 Analiza obiektowa (GEOBIA) obrazów teledetekcyjnych pod kątem detekcji przemian środowiska mgr inż. Paweł Hawryło dr hab. inż. Piotr Wężyk dr inż. Marta Szostak Laboratorium
Recenzja(rozprawy(doktorskiej(( Pana(mgr(inż.(Jacka(Mojskiego(
Recenzjarozprawydoktorskiej Panamgrinż.JackaMojskiego pt. Produktywnośćfotosyntetycznaroślinozdobnychzzasobówwiejskichogródków przydomowychzastosowanychwwarunkachogroduwertykalnego PrzedstawionamidorecenzjiPracadoktorskazostaławykonanapodkierunkiem:drhab.Mohameda
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej