PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI JAKO INNOWACYJNE WSPARCIE HURTOWNI DANYCH W CENTRUM ONKOLOGII-INSTYTUT IM. MARII SKŁODOWSKIEJ-CURIE. Rafał Wojdan
AGENDA Dlaczego kategoryzacja treści w Centrum Onkologii w Warszawie Zintegrowana platforma do celów badawczych i naukowych Jak została wykorzystana kategoryzacja treści? Kategoryzacja i ekstrakcja treści - teoria i praktyka Narzędzia SAS reguły kategoryzacji, ekstrakcji oraz metody text miningowe
AGENDA Dlaczego kategoryzacja treści w Centrum Onkologii w Warszawie Zintegrowana platforma do celów badawczych i naukowych Jak została wykorzystana kategoryzacja treści? Kategoryzacja i ekstrakcja treści - teoria i praktyka Narzędzia SAS reguły kategoryzacji, ekstrakcji oraz metody text miningowe
ROZPROSZENIE DANYCH DLACZEGO KATEGORYZACJA TREŚCI W CENTRUM ONKOLOGII W WARSZAWIE Budynek leczniczy Budynek diagnostyczno - badawczy Zakład diagnostyki obrazowej Zakład fizyki medycznej Zakład patologii i diagnostyki laboratoryjnej Klinika nowotworów głowy i szyi Klinika nowotworów układu nerwowego Klinika nowotworów układu moczowego Klinika nowotworów układu chłonnego
ROZPROSZENIE DANYCH DLACZEGO KATEGORYZACJA TREŚCI W CENTRUM ONKOLOGII W WARSZAWIE Budynek leczniczy Budynek diagnostyczno - badawczy
ROZPROSZENIE DANYCH DLACZEGO KATEGORYZACJA TREŚCI W CENTRUM ONKOLOGII W WARSZAWIE Budynek leczniczy Budynek diagnostyczno - badawczy Jednostki/lekarze generują dane nie są ogólnodostępne Dane zarówno ustrukturyzowane i tekstowe Lekarze mają swoje bazy naukowe Wyróżnia się ponad 25 grup wyników opisowych
ROZPROSZENIE DANYCH DLACZEGO KATEGORYZACJA TREŚCI W CENTRUM ONKOLOGII W WARSZAWIE Budynek leczniczy Budynek diagnostyczno - badawczy
AGENDA Dlaczego kategoryzacja treści w Centrum Onkologii w Warszawie Zintegrowana platforma do celów badawczych i naukowych Jak została wykorzystana kategoryzacja treści? Kategoryzacja i ekstrakcja treści - teoria i praktyka Narzędzia SAS reguły kategoryzacji, ekstrakcji oraz metody text miningowe
ZINTEGROWANA PLATFORMA MODUŁ HURTOWNI DANYCH Walidacja i jakość danych Profilowanie i czyszczenie baz naukowych Funkcje rozmytego łączenia wykorzystywane do integracji pacjenta Funkcje jakości danych dostępne i wykorzystywane w regułach walidacji Możliwości korekty danych Integracja danych Integracja słowników Integracja danych pacjentów z różnych systemów Możliwość sterowania tabelami sterującymi np. przez MS Excel Anonimizacja danych Zapewnienie bezpieczeństwa danych pacjentów Kontrola dostępu do danych Dedykowane procesy odkodowywania danych Kategoryzacja Treści Budowa projektów kategoryzacji i ekstrakcji notatek tekstowych Automatyzacja kategoryzacji danych w hurtowni danych
ZINTEGROWANA PLATFORMA PRZEPŁYW DANYCH Raporty i analizy STAGE walidacja Kategoryzacja treści Repozytorium Danych Detalicznych (DDS) Repozytorium danych raportowych Repozytorium danych raportowych Repozytorium danych raportowych Wizualizacja i analizy biznesowe Analizy statystyczne Data Mining i Text Mining Integracja pacjentów Kategoryzacja treści Integracja słowników
AGENDA Dlaczego kategoryzacja treści w Centrum Onkologii w Warszawie Zintegrowana platforma do celów badawczych i naukowych Jak została wykorzystana kategoryzacja treści? Kategoryzacja i ekstrakcja treści - teoria i praktyka Narzędzia SAS reguły kategoryzacji, ekstrakcji oraz metody text miningowe
KATEGORYZACJA TREŚCI TYPOWE ZASTOSOWANIA Typowe zastosowania realizują jeden cel, zwykle jeden model Kategoryzacja artykułów w Internecie, filtrowanie spamu Klasyfikacja publikacji naukowych, książek do różnych grup, gatunków Przypisywanie otwartych pytań, komentarzy do odpowiednich kodów w ankietach Analiza sentymentu
KATEGORYZACJA TREŚCI TYPOWE ZASTOSOWANIA VS ZASTOSOWANIE W COI Zastosowanie w Centrum Onkologii w Warszawie wiele celów, wiele modeli Każda notatka jest przetwarzana przez wiele modeli kategoryzacji i ekstrakcji treści Modele dedykowane per zakład, klinikę, a czasem lekarza Wzbogacenie danych o informacje z danych tekstowych na poziomie datamartów i całej hurtowni danych Pozyskanie informacji, które mogą zostać wykorzystane do różnych celów raportowych i analitycznych
KATEGORYZACJA TREŚCI WYZWANIE Ok. 7,5 mln stron notatek = 237 375 m m
AGENDA Dlaczego kategoryzacja treści w Centrum Onkologii w Warszawie Zintegrowana platforma do celów badawczych i naukowych Jak została wykorzystana kategoryzacja treści? Kategoryzacja i ekstrakcja treści - teoria i praktyka Narzędzia SAS reguły kategoryzacji, ekstrakcji oraz metody text miningowe
KATEGORYZACJA TREŚCI KATEGORYZACJA, A EKSTRAKCJA Kategoryzacja przypisanie danej tekstowej (np. notatki) do danej definicji na podstawie słów występujących w tekście Kategoryzacja Gen Stwierdzono
KATEGORYZACJA TREŚCI KATEGORYZACJA, A EKSTRAKCJA Ekstrakcja pobieranie z tekstu zdefiniowanego konceptu np. zapis mutacji Ekstrakcja p.gly12val
KATEGORYZACJA TREŚCI PROCES BUDOWANIA REGUŁ KATEGORYZACJA AUTOMATYCZNA Notatki Notatki próba ucząca (ok.100) Notatki próba testowa (ok.50) Automatyczne generowanie reguł: Statystyczny kategoryzator Automatyczn y generator reguł Booleanowski generator reguł Ręczne generowanie reguł dopracowanie reguł
KATEGORYZACJA TREŚCI Statystyczny kategoryzator METODY AUTOMATYCZNEGO GENEROWANIA REGUŁ Automatyczny generator reguł Booleanowski generator reguł Najszybszy i najłatwiejszy Wymaga określenie zbioru treningowego i testowego Bazuje na algorytmie identyfikującym najczęściej występujące słowa w danej kategorii lub maksymalnym klasyfikatorze entropii. Bazuje na maksymalnym klasyfikatorze entropii Bazuje na unikalnej najlepszej kombinacji słów w przekroju całej taksonomii (struktury kategorii) Nie generuje reguł, ani statystyk Pierwszy algorytm generuje listę słów, natomiast drugi algorytm generuje ważone reguły lingwistyczne Generuje reguły booleanowskie Zwykle stosowana do jako benchmark do innych metod Daje dobre wyniki, gdy liczba kategorii jest niewielka i są one zupełnie od siebie różne Drugi algorytm jest najefektywniejszy, gdy wszystkie kategorie w taksonomii mają podane zbiory treningowe i testowe Drugi algorytm jest najefektywniejszy, gdy wszystkie kategorie w taksonomii mają podane zbiory treningowe i testowe
KATEGORYZACJA TREŚCI Statystyczny kategoryzator METODY AUTOMATYCZNEGO GENEROWANIA REGUŁ Automatyczny generator reguł Booleanowski generator reguł Najszybszy i najłatwiejszy Wymaga określenie zbioru treningowego i testowego Bazuje na algorytmie identyfikującym najczęściej występujące słowa w danej kategorii lub maksymalnym klasyfikatorze entropii. Bazuje na maksymalnym klasyfikatorze entropii Bazuje na unikalnej najlepszej kombinacji słów w przekroju całej taksonomii (struktury kategorii) Nie generuje reguł, ani statystyk Pierwszy algorytm generuje listę słów, natomiast drugi algorytm generuje ważone reguły lingwistyczne Generuje reguły booleanowskie Zwykle stosowana do jako benchmark do innych metod Daje dobre wyniki, gdy liczba kategorii jest niewielka i są one zupełnie od siebie różne Drugi algorytm jest najefektywniejszy, gdy wszystkie kategorie w taksonomii mają podane zbiory treningowe i testowe Drugi algorytm jest najefektywniejszy, gdy wszystkie kategorie w taksonomii mają podane zbiory treningowe i testowe
KATEGORYZACJA TREŚCI PROCES BUDOWANIA REGUŁ KATEGORYZACJA RĘCZNA Notatki Wzorce/notatki testowe Ręczne generowanie reguł : Reguły lingwistyczne Reguły logiczne Ręczne generowanie reguł dopracowanie reguł
KATEGORYZACJA TREŚCI PROCES BUDOWANIA REGUŁ EKSTRAKCJA Ekstrakcje: Notatki Wzorce/notatki testowe Proste Kontekstowe Ekstrakcje dopracowanie reguł ekstrakcji
KATEGORYZACJA TREŚCI ROLA EKSPERTÓW DZIEDZINOWYCH Określenie potrzebnych kategorii i konceptów (ekstrakcja) Definiowanie kategorii i konceptów Przygotowanie zbiorów treningowych (opcjonalnie) i testowych Przekazywanie informacji zwrotnej (odnośnie działania reguł kategoryzacji i ekstrakcji) Współpraca w ramach powyższych punktów z ekspertami ds. Text Mining w COI
AGENDA Dlaczego kategoryzacja treści w Centrum Onkologii w Warszawie Zintegrowana platforma do celów badawczych i naukowych Jak została wykorzystana kategoryzacja treści? Kategoryzacja i ekstrakcja treści - teoria i praktyka Narzędzia SAS reguły kategoryzacji, ekstrakcji oraz metody text miningowe
KATEGORYZACJA I EKSTRAKCJA PRZYKŁADY REGUŁ KATEGORYZACJI Proste reguły lingwistyczne Lista słów Pozwala wykorzystywać operatory funkcjonalne @słowo uwzględnia wszystkie odmiany danego słowa @N,Vsłowo uwzględnia rzeczownikowe, czasownikowe odmiany danego słowa +słowo dane słowo musi wystąpić w tekście by zostało on dopasowany do danej kategorii
KATEGORYZACJA I EKSTRAKCJA PRZYKŁADY REGUŁ KATEGORYZACJI Ważone reguły lingwistyczne THRESHOLD, 5.0 Podróż, 0.5 Wakacje, 1.0 Hotel,1.2 SPA,0.5 Samolot,1.5 Bilety,1.2
KATEGORYZACJA I EKSTRAKCJA PRZYKŁADY REGUŁ KATEGORYZACJI Reguły booleanowskie Bazują na operatorach logicznych Prostych: AND, OR, NOT Zaawansowanych: SENT daje wynik prawda, jeżeli wybrane terminy znajdują się w jednym zdaniu DIST_n daje wynik prawda, jeżeli dwa argumenty znajdują się w odległości nie większej niż n wyrazów ORDDIST_n daje wynik prawda, jeżeli wybrane terminy występują w dokumencie w odpowiedniej kolejności i w odpowiedniej odległości
KATEGORYZACJA I EKSTRAKCJA PRZYKŁADY REGUŁ EKSTRAKCJI Ekstrakcja prosta Lista słów Możliwe jest również wykorzystanie dodatkowych operatorów np. w celu odróżnienie pojęcia golf - sport od golf - sweter golf, TGIF( (OR, kij, pole golfowe, dołek, uderzenie ) ): Ekstrakcja oparta o wyrażenia regularne Przydatna jeśli dane pojęcia można zapisać w postaci wzorca np. dawka leku mg lub g poprzedzone cyframi REGEX \d+mg,
KATEGORYZACJA I EKSTRAKCJA PRZYKŁADY REGUŁ EKSTRAKCJI Ekstrakcja gramatyczna Pozwala ekstrahować wybrane części mowy np. :N SAS Ekstrahuje przykładowo pracownik SAS, oprogramowanie SAS
KATEGORYZACJA I EKSTRAKCJA PRZYKŁADY REGUŁ EKSTRAKCJI Ekstrakcja kontekstowa Pozwala zagnieżdżać koncepty i wykorzystywać wszystkie dotychczas wspominanie operatory oraz predefinowane koncepty np. _w oznacza wyraz Przykład: Nazwa konceptu Rok Rok urodzenia Formuła konceptu w wersji kontekstowej REGEX:\d{4} CONCEPT_RULE:(SENT, urodzony@, _c{rok} ) Charles Dickens urodził się w Portsmouth, Anglia, w 1812.
SAS CONTENT CATEGORIZATION STUDIO Ekstrakcja faktów czyli powiązań między konceptami Dawka i Leki PREDICATE_RULE:(d,l):(DIST_3,"_d{Dawka}","_l{Leki}")
TEXT MINING FUNKCJONALNOŚCI CZ.1 Parsowanie tekstu Automatyczna korekta pisowni Sprowadzenie wyrazów do formy bazowej, np. bezokolicznika (Stemming) Identyfikacja części mowy każdego wyrażenia na bazie jego kontekstu Pozwala wykorzystać synonimy oraz wykluczać słowa z analizy
TEXT MINING FUNKCJONALNOŚCI CZ.2 Zamiana danych tekstowych na macierz termin-dokument oraz zmniejszenie jej wymiarów z wykorzystaniem metody SVD Wykrywanie tematów, poprzez clusteryzację Analiza predykcyjna na bazie danych tekstowych, w tym analiza sentymentu
TEXT MINING KATEGORYZACJA Budowa modeli klasyfikujących dane tekstowe do kategorii Wymaga danych uczących danych tekstowych z przypisanymi kategoriami Modele bazujące na regułach booleanowskich (OR, AND itp.) generują reguły, które mogą być wykorzystywane i tuning owane w kategoryzacji treści Statystyczne modele klasyfikacyjne, takie jak: regresja logistyczna, drzewa decyzyjne, sieci neuronowe bazują na reprezentacji liczbowej danych tekstowych
SAS TEXT MINER TEXT MINING
KATEGORYZACJA TEXT MINING VS KATEGORYZACJA TREŚCI (NLP) Text Mining: Dane tekstowe wymagają reprezentacji liczbowej Duża dowolność w budowaniu nadzorowanych i nienadzorowanych modeli Modele nie generują reguł wyjątek generator reguł booleanowskich Nie ma możliwości ręcznego udoskonalania modeli poprzez dodanie reguł kategoryzujących Może bazować na konceptach z kategoryzacji treści Kategoryzacja treści: Wbudowane modele generują reguły Pozwala na tworzenie reguł kategoryzacji w oparciu o NLP i zaawansowane techniki lingwistyczne Może bazować na wynikach pochodzących z analizy Text Mining
KATEGORYZACJA TEXT MINING VS KATEGORYZACJA TREŚCI (NLP) Text Mining metody statystyczne Skategoryzowane dane tekstowe Hybryda Text Mining i NLP Kategoryzacja treści metody NLP
PROCES ANALIZY DANYCH TEKSTOWYCH SAS TEXT ANALYTICS PLATFORM Przykładowe źródła online Pobieranie dokumentów Analizy Ad-Hoc Structured Data & Textual Data Redukcja szumu Eksploracja danych Kategoryzacja Wykorzystanie Ekstrakcja danych Wizualizacja Raportowanie Operacje Modelowanie predykcyjne
DZIĘKUJĘ ZA UWAGĘ!