Filozofia Informacji, Wykład VII - Teoria L. Floridiego. Problem relewancji p

Podobne dokumenty
Filozofia, ISE, Wykład V - Filozofia Eleatów.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Filozofia Informacji, Wykład X - Teoria informacji a semantyka sytuacyjna

Filozofia przyrody - Filozofia Eleatów i Demokryta

Filozofia, Germanistyka, Wykład IX - Immanuel Kant

Filozofia przyrody, Wykład V - Filozofia Arystotelesa

Wykład 6. Reguły inferencyjne systemu aksjomatycznego Klasycznego Rachunku Zdań

Psychologia decyzji. Struktura wykładu DR BEATA BAJCAR ZAKŁAD PSYCHOLOGII I ERGONOMII. wykład 15 godzin

Ontologie, czyli o inteligentnych danych

prawda symbol WIEDZA DANE komunikat fałsz liczba INFORMACJA (nie tyko w informatyce) kod znak wiadomość ENTROPIA forma przekaz

Np. Olsztyn leży nad Łyną - zdanie prawdziwe, wartość logiczna 1 4 jest większe od 5 - zdanie fałszywe, wartość logiczna 0

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Elementy logiki. Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń

M T E O T D O ZI Z E E A LG L O G R O Y R TM

Walidacja metod analitycznych Raport z walidacji

Problem prawdy w działalności informacyjnej. Zarys problematyki.

Programowanie liniowe

Etapy modelowania ekonometrycznego

Logika Stosowana. Wykład 2 - Logika modalna Część 2. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Wymagania do przedmiotu Etyka w gimnazjum, zgodne z nową podstawą programową.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Systemy uczące się wykład 2

Filozofia, ISE, Wykład III - Klasyfikacja dyscyplin filozoficznych

LOGIKA I TEORIA ZBIORÓW

Podstawy Sztucznej Inteligencji (PSZT)

Filozofia, ISE, Wykład VII - Platońska teoria idei cz. 2.

Kultura logiczna Klasyczny rachunek zdań 2/2

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

166 Wstęp do statystyki matematycznej

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

Wnioskowanie bayesowskie

Nazwa metodologia nauki etymologicznie i dosłownie znaczy tyle, co nauka o metodach badań.

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Uniwersytet Śląski w Katowicach str. 1 Wydział

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

prof. dr hab. Jadwiga Woźniak-Kasperek Instytut Informacji Naukowej i Studiów Bibliologicznych Uniwersytet Warszawski

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Teoria relewancji Sperbera i Wilson. Nowe modele komunikacyjne

Logika Stosowana. Wykład 7 - Zbiory i logiki rozmyte Część 3 Prawdziwościowa logika rozmyta. Marcin Szczuka. Instytut Informatyki UW

Andrzej Wiśniewski Logika II. Materiały do wykładu dla studentów kognitywistyki. Wykład 15. Trójwartościowa logika zdań Łukasiewicza

Wykład 2. Relacyjny model danych

Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.

Definicje. Algorytm to:

Finanse i Rachunkowość studia niestacjonarne Wprowadzenie do teorii ciągów liczbowych (treść wykładu z 21 grudnia 2014)

Elementy logiki i teorii mnogości

Elementy filozofii i metodologii INFORMATYKI

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Metody indeksowania dokumentów tekstowych

Głównym celem opracowania jest próba określenia znaczenia i wpływu struktury kapitału na działalność przedsiębiorstwa.

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Sympozjum Trwałość Budowli

Rachunek logiczny. 1. Język rachunku logicznego.

RACHUNEK ZDAŃ 7. Dla każdej tautologii w formie implikacji, której poprzednik również jest tautologią, następnik także jest tautologią.

Wprowadzenie do teorii systemów ekspertowych

Filozofia, ISE, Wykład X - Filozofia średniowieczna.

MODEL BIZNESOWY BANKU NA PRZYKŁADZIE KDBS BANK

Wykład 9. Matematyka 3, semestr zimowy 2011/ listopada 2011

Statystyka matematyczna dla leśników

Filozofia Informacji, Wykład IX - Teoria informacji pragmatycznej

WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA:

BADANIA PARTYCYPACYJNE Z UDZIAŁEM OSÓB Z NIEPEŁNOSPRAWNOŚCIĄ INTELEKTUALNĄ A KOMUNIKACJA ALTERNATYWNA I WSPOMAGAJĄCA DR AGNIESZKA WOŁOWICZ-RUSZKOWSKA

POZYCJONOWANIE STRONY SKLEPU

Etyka Tożsamość i definicja. Ks. dr Artur Aleksiejuk

Klasyczny rachunek zdań 1/2

Moduł I Ewaluacja w praktyce szkolnej istota, cele, rodzaje.

STANDARDY I KRYTERIA OCENY JAKOŚCI PROGRAMÓW PROMOCJI ZDROWIA I PROFILAKTYKI W RAMACH SYSTEMU REKOMENDACJI

Wstęp do logiki. Kto jasno i konsekwentnie myśli, ściśle i z ładem się wyraża,

TEORIA DECYZJE KRÓTKOOKRESOWE

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD III: Problemy agenta

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa

Programowanie celowe #1

Kultura logiczna Klasyczny rachunek zdań 1/2

STYLE MYŚLENIA A KOMUNIKACJA W ZESPOLE NAUCZYCIELSKIM. Gdynia,

Załącznik Nr 1 KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Teoretyczne podstawy wychowania. 2. KIERUNEK: pedagogika

Język myśli. ang. Language of Thought, Mentalese. Dr hab. Maciej Witek Zakład Filozofii Nauki, Wydział Humanistyczny Uniwersytet Szczeciński

Wykład 4. Określimy teraz pewną ważną klasę pierścieni.

PRAGMATYKA rok akademicki 2015/2016 semestr zimowy. Temat 2: Grice a teoria znaczenia

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

W poszukiwaniu sensu w świecie widzialnym

Metody dowodzenia twierdzeń i automatyzacja rozumowań Systemy aksjomatyczne I

Weryfikacja hipotez statystycznych

Metody numeryczne w przykładach

Inteligentne Multimedialne Systemy Uczące

Matryca efektów kształcenia dla programu kształcenia na kierunku Socjologia Studia pierwszego stopnia

Aproksymacja funkcji a regresja symboliczna

Wykład 4. Decyzje menedżerskie

Wyszukiwanie binarne

Referat: Krytyczne czytanie w polonistycznej edukacji wczesnoszkolnej

KRZYSZTOF WÓJTOWICZ Instytut Filozofii Uniwersytetu Warszawskiego

TEORETYCZNE PODSTAWY INFORMATYKI

Techniki i rozwiązania IT w optymalizacji procesów

Test inteligencji emocjonalnej. Katarzyna Thomas

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

II Liceum Ogólnokształcące im. Ks. Prof. Józefa Tischnera W Wodzisławiu Śl. WYMAGANIA EDUKACYJNE FIZYKA

Modelowanie niezawodności prostych struktur sprzętowych

Transkrypt:

Filozofia Informacji, Wykład VII - Teoria L. Floridiego. Problem relewancji poznawczej. 9 kwietnia 2012

Plan wykładu 1 Problem relewancji poznawczej jako problem relewancji informacji 2 Problem relewancji w Information Retrieval (IR) i naukach o informacji (LIS) Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów 3 4 S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji 5 Krytyka koncepcji Floridiego

Problematyka teoriopoznawcza - perspektywa informacyjna Wg Keitha Devlina W przypadku prób zrozumienia rozumowania i komunikacji najbardziej znaczące postępy osiągnięto w naszych czasach dzięki czemuś, co będę nazywał postawą informacyjną. Jej punktem wyjścia jest potraktowanie mózgu ludzkiego jako procesora informacji - urządzenia, które mże przyswajać sobie, magazynować i przetwarzać informacje. (...) Poznanie można traktować jako proes nabywania informacji, rozumowanie zaś jako środek wzbogacania zasobu informacji przez wyprowadzenie nowych informacji z informacji już posiadanych. (...) Podobnie komunikację można traktować jako środek przekazywania informacji posiadanych przez jedną osobę innej osobie. K. Devlin, Żegnaj Kartezjuszu, Warszawa 1999, ss. 317-318.

Problematyka teoriopoznawcza - perspektywa informacyjna Podobnie jak Devlin, o perpektywie informacynej wyraża się Dretske: Jeśli ma być nawiązany jakikolwiek kontakt między filozofią i całym bogactwem istotnego materiału w naukach kognitywnych, to muszą być zbudowane pewne mosty, przynajmniej na poziomie terminologii, między filozoficznym ujęciem wiedzy, przekonań i percepcji a tymi z nauk, które zajmują się tymi samymi aspektami życia umysłowego. Dlatego, wg Dretskego, centralnym pojęciem wokół którego należy budować całą filozofię poznania, jest pojęcie informacji. F. Dretske, Knowledge and Information, MIT Press 1981, s. viii.

Problematyka teoriopoznawcza - perspektywa informacyjna W dotąd omawianych teoriach mieliśmy do czynienia z koncepcją informacji jako czynnika wiedzotwórczego. Próby podania miary informatywności były jednocześnie próbami podania miary nadwyżki wiedzy, która może być uzyskana dzięki informacji, albo przynajmniej, bardziej ogólnie, miary bliżej nieokreślonej korzyści, którą możemy dzięki informacji odnieść.

Problem relewancji poznawczej jako problem relewancji informacji Problem relewancji informacji jest doskonałą egzemplifikacją ujęcia szczególnego problemu teoriopoznawczego z perspektywy teorio-informacyjnej.

Problem relewancji poznawczej jako problem relewancji informacji Ogólny problem relewancji poznawczej postawiony jest (w koncepcji Floridiego) jako problem relewancji informacji w ujęciu subiektywistycznym : czy w ogóle, a jeśli tak, to w jakim stopniu, określona informacja może być podstawą rozwoju wiedzy o świecie, podstawą wyborów, skutecznych działań, procesów decyzyjnych.

Ogólne warunki adekwatności definicji relewancji Odpowiedni opis relewancji spełnić będzie musiał cały szereg warunków: mimo całej złożoności zjawiska i wieloznaczności pojęcia relewancji, należy założyć, że możliwe jest jego systematyczne opisanie,

Ogólne warunki adekwatności definicji relewancji Odpowiedni opis relewancji spełnić będzie musiał cały szereg warunków: mimo całej złożoności zjawiska i wieloznaczności pojęcia relewancji, należy założyć, że możliwe jest jego systematyczne opisanie, opis nie może ograniczać się do opisu jednej wybranej formy aktywności poznawczej,

Ogólne warunki adekwatności definicji relewancji Odpowiedni opis relewancji spełnić będzie musiał cały szereg warunków: mimo całej złożoności zjawiska i wieloznaczności pojęcia relewancji, należy założyć, że możliwe jest jego systematyczne opisanie, opis nie może ograniczać się do opisu jednej wybranej formy aktywności poznawczej, będzie uwzględniał subiektywne potrzeby i dyspozycje agenta,

Ogólne warunki adekwatności definicji relewancji Odpowiedni opis relewancji spełnić będzie musiał cały szereg warunków: mimo całej złożoności zjawiska i wieloznaczności pojęcia relewancji, należy założyć, że możliwe jest jego systematyczne opisanie, opis nie może ograniczać się do opisu jednej wybranej formy aktywności poznawczej, będzie uwzględniał subiektywne potrzeby i dyspozycje agenta, będzie dopuszczał stopniowalność,

Ogólne warunki adekwatności definicji relewancji Odpowiedni opis relewancji spełnić będzie musiał cały szereg warunków: mimo całej złożoności zjawiska i wieloznaczności pojęcia relewancji, należy założyć, że możliwe jest jego systematyczne opisanie, opis nie może ograniczać się do opisu jednej wybranej formy aktywności poznawczej, będzie uwzględniał subiektywne potrzeby i dyspozycje agenta, będzie dopuszczał stopniowalność, a przede wszystkim będzie wyjaśniał wiedzotwórczy aspekt informacji (ujęcie L. Floridiego i F. Dretskego).

Ogólny problem relewancji w LIS Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Z tego, że własności systemowe nie determinują wartości dokumentu dla odbiorcy w literaturze IR zdawano sobie sprawę mniej więcej od lat 70-tych ub. wieku. Problem relewancji w LIS jest współcześnie stawiany jako problem satysfakcji użytkownika systemu informacyjno-wyszukiwawczego: co konstytuuje satysfakcję odbiorcy i jak tą satysfakcję systematycznie opisać?

Ogólny problem relewancji w LIS Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Z tego, że własności systemowe nie determinują wartości dokumentu dla odbiorcy w literaturze IR zdawano sobie sprawę mniej więcej od lat 70-tych ub. wieku. Problem relewancji w LIS jest współcześnie stawiany jako problem satysfakcji użytkownika systemu informacyjno-wyszukiwawczego: co konstytuuje satysfakcję odbiorcy i jak tą satysfakcję systematycznie opisać? Np. Abraham Bookstein zwracając uwagę na fakt, że własności systemu nie determinują jednoznacznie reakcji odbiorcy na dostarczany przez system dokument, zaproponował zdefiniowanie relewancji właśnie w kategoriach satysfakcji odbiorcy z produktu wyjściowego danego systemu informacyjno-wyszukiwawczego. (Abraham Bookstein, Relevance, w: Journal of the American Society for Information Science, 30 (5), 269).

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji W literaturze z dziedziny IR problem relewancji jest ujmowany raczej od strony systemu informacyjno-wyszukiwawczego (pełnokrwista postać odbiorcy tam nie występuje): jest to problem adekwatności odpowiedzi systemu do pytania zadanego w ramach danego systemu (w języku danego systemu).

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji W literaturze z dziedziny IR problem relewancji jest ujmowany raczej od strony systemu informacyjno-wyszukiwawczego (pełnokrwista postać odbiorcy tam nie występuje): jest to problem adekwatności odpowiedzi systemu do pytania zadanego w ramach danego systemu (w języku danego systemu). Które dokumenty obejmowane przez dany system informacyjno-wyszukiwawczy odpowiadają bardziej lub mniej zapotrzebowaniu użytkownika wyrażonemu w języku tego systemu.

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji Przykład (dość prosty) definicji relewancji w IR: r : D x Q R D = d 1, d 2, d 3... d n zbiór dokumentów Q = q 1, q 2, q 3... q n zbiór możliwych pytań R = zbiór wartości, np. 0, 1. za: Reginald Ferber, Information Retrieval. Suchmodelle und Data-Mining Verfahren fuer Textsammlungen und das Web, Heidelberg 2003, s. 86.

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji Uwagi: W powyższym przykładzie mamy tylko alternatywę: dokument d i będzie należał do zbioru dokumentów relewantnych do zapytania albo nie.

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji Uwagi: W powyższym przykładzie mamy tylko alternatywę: dokument d i będzie należał do zbioru dokumentów relewantnych do zapytania albo nie. W tej definicji nie dopuszczamy wpływu innych dokumentów (np. cytowań, linkowań itp.) do oceny relewancji.

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji Ta definicja pozwala jednak na sformułowanie służących ewaluacji systemów wyszukiwawczych definicji pojęć precyzji (Precision) i dokładności (Recall): Precyzja oznacza udział relewantnych dokumentów w całym zbiorze wybranych. Dokładność oznacza udział odnalezionych relewantnych dokumentów w całym zbiorze dokumentów relewantnych.

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji Ta definicja pozwala jednak na sformułowanie służących ewaluacji systemów wyszukiwawczych definicji pojęć precyzji (Precision) i dokładności (Recall): Precyzja oznacza udział relewantnych dokumentów w całym zbiorze wybranych. Dokładność oznacza udział odnalezionych relewantnych dokumentów w całym zbiorze dokumentów relewantnych. Optymalna jest oczywiście taka sytuacja, gdy mamy pełny zbiór relewantnych dokumentów i tylko takich. Obie z tych miar mogą przyjmować wartości z przedziału (0, 1).

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Problem relewancji w IR - przykłady definicji Ta definicja pozwala jednak na sformułowanie służących ewaluacji systemów wyszukiwawczych definicji pojęć precyzji (Precision) i dokładności (Recall): Precyzja oznacza udział relewantnych dokumentów w całym zbiorze wybranych. Dokładność oznacza udział odnalezionych relewantnych dokumentów w całym zbiorze dokumentów relewantnych. Optymalna jest oczywiście taka sytuacja, gdy mamy pełny zbiór relewantnych dokumentów i tylko takich. Obie z tych miar mogą przyjmować wartości z przedziału (0, 1). Polecam interesujący wykład Daniela Tunkelanga dotyczący problemu relewancji w IR (z serii googletechtalks na youtube.com): http://www.youtube.com/watch?v=4lznqv4qzr0

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Strategie ustalania rankingu dokumentów Ogólnie rzecz biorąc strategie ustalania hierarchii dokumentów jako wyniku wyszukiwania w dowolnym systemie informacyjno-wyszukiwawczym można podzielić na: centralnie zarządzane, dopuszczające ingerencję ludzi, w pełni zautomatyzowane, oparte na różnych indeksach oraz innych czynnikach pozwalających na oszacowanie wartości wyniku wyszukiwania (indeksy, logiczna struktura dokumentu, związki z innymi dokumentami).

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Strategie ustalania rankingu dokumentów Wady i zalety obu rodzajów systemów są odmienne i zależne od przyjętych zasad postępowania, wielkości zbioru itp.

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Strategie ustalania rankingu dokumentów Wady i zalety obu rodzajów systemów są odmienne i zależne od przyjętych zasad postępowania, wielkości zbioru itp. Rysunek: Przykład wyjątkowego elektronicznego katalogu - Ossolineum. Trudno uznać ten system wyszukiwawczy za udane przeniesienie katalogu do wersji elektronicznej.

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Strategie ustalania rankingu dokumentów Systemy mieszane (przykłady): systemy oparte na ocenach użytkowników lub ewaluacji wyników przez ekspertów; dopuszczające ingerencję ręczną wyszukiwarki zautomatyzowane (np. Google).

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Algorytm Google - podstawowe zasady Google jest w Polsce najbardziej popularną wyszukiwarką internetową. Podstawowymi deklarowanymi ideami leżącymi u podstaw ustalania rankingu wyników są: 1 Najlepsze lokalnie wyniki, które są dostępne dla całego świata. 2 Prosty interfejs. 3 Pełna automatyzacja. Ostatni warunek jest uzasadniony przekonaniem, że subiektywny osąd jest zawsze obarczony indywidualnymi preferencjami. Ręczne interwencje podejmowane są w przypadku złamania zasad Google odnośnie np. pornografii dziecięcej, stron zawierających wirusy (w Polsce ingerencja na większą skalę miała miejsce niedawno w odniesieniu do porównywarek cenowych). Por. http://googleblog.blogspot.com/2008/07/introduction-to-googleranking.html

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Algorytm Google - wersja historyczna-uproszczona Słynny PageRank Google jest oparty na analizie struktury sieci. Podstawowa historyczna wersja wyglądała mniej więcej tak: Zakładamy, że witryna internetowa A jest linkowana przez strony T 1,..., T n. Przyjmujemy stały parametr d - współczynnik tłumienia (dumping factor) = 0,85. C(x) - ilość linków wychodzących ze strony x. PR(A) = (1 d) + d(pr(t 1)/C(T 1) +... + PR(Tn)/C(Tn))

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Algorytm Google - wersja historyczna-uproszczona Słynny PageRank Google jest oparty na analizie struktury sieci. Podstawowa historyczna wersja wyglądała mniej więcej tak: Zakładamy, że witryna internetowa A jest linkowana przez strony T 1,..., T n. Przyjmujemy stały parametr d - współczynnik tłumienia (dumping factor) = 0,85. C(x) - ilość linków wychodzących ze strony x. PR(A) = (1 d) + d(pr(t 1)/C(T 1) +... + PR(Tn)/C(Tn)) Zabawna ilustracja zmian algorytmu Google: http://www.outrider.dk/google-algorithm-changes-1998-2012

Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów Algorytm Google - wersja historyczna-uproszczona Naturalnie strukturalna analiza pozwala tylko na poprawienie jakości hierarchii dokumentów, nie służy jednak jako podstawa ich wyboru z całego zbioru możliwości. Ta część zadania (właściwie logicznie pierwsza) jest oparta na analizie zawartości treściowej - tzn. różnego typu indeksów charakteryzujących zawartość dokumentów.

Podsumowanie Ogólny problem relewancji w LIS Problem relewancji w IR Strategie ustalania rankingu dokumentów W literaturze IR i LIS rzadko dąży się do sformułowania uogólnień odnośnie wszelkiego rodzaju aktywności poznawczej. Raczej korzysta się z analiz epistemologicznych i psychologicznych (i naturalnie także logicznych) do szczegółowego opisu sytuacji poszukiwania informacji i do budowy sztucznych systemów informacyjno-wyszukiwawczych.

Teoria informacji Freda Dretskego Teoria informacji i teoria relewancji L. Floridiego.

Definicja informacji semantycznej Relewantna może być informacja w sensie semantycznym. Podstawą teoretyczną koncepcji relewancji jest teoria informacji semantycznej, w ramach której: pojęcie informacji semantycznej nie pozostaje niezdefiniowane, definicja informacji semantycznej zawiera warunek prawdziwości - fałszywa informacja nie jest informacją.

Definicja informacji semantycznej Informacja musi być prawdziwa ze względu na wiedzotwórczy aspekt informacji: Informacja jest czymś służącym rozwojowi wiedzy a jeśli wiedza wymaga prawdziwości, to informacja także jej wymaga. Fred Dretske, Knowledge and the Flow of Information, CSLI Publications 1999, s. 45.

Definicja informacji semantycznej Wprowadzenie warunku prawdziwości do definicji informacji semantycznej skutkuje podziałem agentów na: semantycznie zdolnych oraz

Definicja informacji semantycznej Wprowadzenie warunku prawdziwości do definicji informacji semantycznej skutkuje podziałem agentów na: semantycznie zdolnych oraz operujących wyłącznie niezinterpretowanymi danymi (niezdolnymi do oceny odniesienia informacji).

Zasada pomiaru informatywności Zdanie opisuje pewną sytuację. Im większa ilość dopuszczonych alternatywnych sytuacji względem sytuacji, o której informację niesie sygnał, tym mniejsza informatywność a większa semantyczna niepewność.

Teoria informacji na bazie semantyki sytuacyjnej Wartość informacji semantycznej niesionej przez σ(γ(σ)) jest określona w teorii Floridiego przez pole powierzchni między przebiegiem funkcji ι(σ) w przedziale wyznaczonym przez wskaźnik θ(σ) - czyli stopień potwierdzenia formuły przez sytuację) a osią x: γ(σ) = θ 0 ι(σ)dx Im większe wyznaczone pole przez przebieg funkcji ι(σ), tym większa niepewność.

Teoria informacji na bazie semantyki sytuacyjnej Rysunek: Wartość informacyjna dla czynnika θ(σ) = 0,25. Ilustracja za: L. Floridi, Semantic Conceptions of Information, w: Stanford Encyclopedia of Philosophy, http://plato.stanford.edu/entries/information-semantic/

Zasada pomiaru informatywności Miara informatywności jest w teorii Floridiego związana z większą bądź mniejszą precyzją w opisie określonej sytuacji: im większa ilość dopuszczonych alternatywnych sytuacji względem sytuacji, o której informację niesie sygnał, tym mniejsza informatywność przekazu. Wskaźnik oznaczający stopień potwierdzenia danej formuły osiąga w przypadku tautologii wartość maksymalną: 1 dowolna sytuacja jest bowiem jej potwierdzeniem. W przypadku sytuacji dokładnie odpowiadających treści formuły, wskaźnik ten ma wartość 0: żadna inna sytuacja nie jest wtedy odniesieniem treści formuły. Informatywność formuły jest zatem tym większa im mniej sytuacji może ją potwierdzać. Stopień informatywności Floridi oblicza jako dopełnienie do wartości maksymalnej 1.

S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Systemowe i subiektywistyczne określenie relewancji W koncepcji relewancji Floridiego pojawia się znany z IR i LIS podział na teorię relewancji zorientowaną na system (S-teorie) lub na dyspozycje agenta (A-teorie).

S-teoria S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji W S-teoriach stopień relewancji mierzy się niezależnie od potrzeb agenta. Przykład (sformułowany już wyżej): r : D x Q R D = d 1, d 2, d 3... d n zbiór dokumentów Q = q 1, q 2, q 3... q n zbiór możliwych pytań R = zbiór wartości, np. 0, 1. za: Reginald Ferber, Information Retrieval. Suchmodelle und Data-Mining Verfahren fuer Textsammlungen und das Web, Heidelberg 2003, s. 86.

S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Analiza relewancji w kontekście dyspozycji agenta Własności systemu nie determinują jednoznacznie reakcji odbiorcy na dostarczany przez system dokument: Ta sama informacja dla dwóch różnych agentów może być mniej lub bardziej relewantna.

S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Analiza relewancji w kontekście dyspozycji agenta Własności systemu nie determinują jednoznacznie reakcji odbiorcy na dostarczany przez system dokument: Ta sama informacja dla dwóch różnych agentów może być mniej lub bardziej relewantna. Ta sama informacja dla tego samego agenta może być w różnych okolicznościach bardziej lub mniej relewantna.

S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Analiza relewancji w kontekście dyspozycji agenta Własności systemu nie determinują jednoznacznie reakcji odbiorcy na dostarczany przez system dokument: Ta sama informacja dla dwóch różnych agentów może być mniej lub bardziej relewantna. Ta sama informacja dla tego samego agenta może być w różnych okolicznościach bardziej lub mniej relewantna. Jednocześnie jednak, jeśli dwóch agentów mających identyczny obraz świata otrzyma tą samą informację, ich obraz świata ulega zmianie.

Formuła bazowa S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Opis relewancji poznawczej obejmujący dyspozycje agenta Floridi rozpoczyna od formuły: R (i) (Q (a, q, d, c, l) S (i, q, d, c, l))

S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Probabilistyczna modyfikacja formuły bazowej W probabilistycznej modyfikacji formuły bazowej zamiast prostej koniunkcji pytania i odpowiedzi mamy iloczyn prawdopodobieństw: postawienia pytania i uzyskania odpowiedzi spełniającej warunek maksymalnej dokładności i precyzji. R (i) = P (Q (a, q, d, c, l)) x P (A (i, q, d, c, l))).

S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Kolejna probabilistyczna modyfikacja formuły bazowej Kolejna modyfikacja pozwala uniknąć trudności związanych z modyfikacją pierwszą: R (i) = P (A (i, q, d, c, l)), gdy P (Q (a, q, d, c, l)) = 1 R (i) = P (I a (i, q, d, c, l ) Q (a, q, d, c, l)) x P (A (i, q, d, c, l)), gdy 0 P (Q (a, q, d, c, l)) 1

Ostateczna definicja relewancji S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Ostateczna wersja formuły pozwalającej określić wartość relewancji informacji: R (i) = P (A (i, q, d, c, l m )), gdy P (Q (a, q, d, c, l m )) = 1 R (i) = P (I a (ni, d, l n ) Q (a, q, d, c, l n )) x P (A (i, q, d, c, l m )), gdy 0 P (Q (a, q, d, c, l m )) 1

Własności sformułowanej definicji S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji Informacja ni nie jest w tej formule zależna od zawartości informacyjnej i. Formuła określająca wartość R (i) może zostać przełożona na sieć zależności warunkowych i przedstawiona w sieci Bayesowskiej. Włącza do kwestii relewancji problem etyczny.

Warunek prawdziwości informacji S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji jeśli analizujemy poznawczą relewancję w kategoriach dążeń poznawczych, oczywistym jest, że dezinformacja nie czyni żadnej [pozytywnej] istotnej różnicy w agenta obrazie świata. Wręcz przeciwnie, jest ona szkodliwa. Bardzo kłopotliwa jest sytuacja, gdy o 13.15 odjeżdża pociąg, o którym powiedziano nam, że odjedzie o 14.25. (...) Luciano Floridi, Understanding Epistemic Relevance, w: Erkenntnis 69/1, s. 84.

Warunek prawdziwości informacji S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji jeśli analizujemy poznawczą relewancję w kategoriach dążeń poznawczych, oczywistym jest, że dezinformacja nie czyni żadnej [pozytywnej] istotnej różnicy w agenta obrazie świata. Wręcz przeciwnie, jest ona szkodliwa. Bardzo kłopotliwa jest sytuacja, gdy o 13.15 odjeżdża pociąg, o którym powiedziano nam, że odjedzie o 14.25. (...) Luciano Floridi, Understanding Epistemic Relevance, w: Erkenntnis 69/1, s. 84. Wniosek: nie możemy uznać informacji i za relewantną, jeśli informacja i nie jest prawdziwa.

Warunek prawdziwości informacji S-teorie i A-teorie Formuła bazowa i jej probabilistyczne modyfikacje Ostateczna definicja relewancji Prawdziwość informacji W przyjętej formule: R (i) = P (I a (ni, d, l n ) Q (a, q, d, c, l n )) x P (A (i, q, d, c, l m )), gdy 0 P (Q (a, q, d, c, l m )) 1 warunek prawdziwości wyrażony jest nie wprost: R (i) = 0, gdy P (Q (a, q, d, c, l m ) = 0.

Krytyka koncepcji Floridiego Krytyka koncepcji Floridiego Każdy organizm, także ameba, ma pewne potrzeby informacyjne, których realizacja umożliwia funkcjonowanie w środowisku naturalnym; dla takich organizmów niektóre informacje są zatem bardziej relewantne, inne mniej.

Krytyka koncepcji Floridiego Krytyka koncepcji Floridiego Każdy organizm, także ameba, ma pewne potrzeby informacyjne, których realizacja umożliwia funkcjonowanie w środowisku naturalnym; dla takich organizmów niektóre informacje są zatem bardziej relewantne, inne mniej. Brak uzależnienia poziomu R (i) od możliwości dedukcyjnych agenta.

Krytyka koncepcji Floridiego Krytyka koncepcji Floridiego Każdy organizm, także ameba, ma pewne potrzeby informacyjne, których realizacja umożliwia funkcjonowanie w środowisku naturalnym; dla takich organizmów niektóre informacje są zatem bardziej relewantne, inne mniej. Brak uzależnienia poziomu R (i) od możliwości dedukcyjnych agenta. Koncepcję relewancji poznawczej Floridiego dotyka cała krytyka prawdziwościowo określonej definicji informacji.

Krytyka koncepcji Floridiego Krytyka koncepcji Floridiego Czy warunkiem tego, żeby R (i) było większe niż 0 musi być prawdziwość informacji i? Agent może mieć do czynienia ze zdaniami, których prawdziwości nie może skontrolować, ale to nie oznacza, że nie mogą one być dla niego wartościowe poznawczo. Oszacowanie wartości relewancji przed faktem byłoby w tym przypadku możliwe tylko o ile informacja uprzednio byłaby znana, a zatem nie byłoby mowy o informacji o dostępności nowej informacji odnośnie danej dziedziny. Brak precyzyjnie określonych podstaw klasyfikacji agentów na zdolnych do rozumienia znaczeń i operujących wyłącznie na niezinterpretowanych danych (Aaron Sloman, James Fetzer).

Krytyka koncepcji Floridiego Dziękuję za uwagę i zapraszam do stawiania pytań! e-mail: artur.machlarz@uni.opole.pl www: http://www.uni.opole.pl/ machlarz