Podstawowe zagadnienia pozyskiwania wiedzy w Internecie

Wielkość: px
Rozpocząć pokaz od strony:

Download "Podstawowe zagadnienia pozyskiwania wiedzy w Internecie"

Transkrypt

1 Zeszyty Naukowe nr 798 Uniwersytetu Ekonomicznego w Krakowie 2009 Katedra Systemów Obliczeniowych Podstawowe zagadnienia pozyskiwania wiedzy w Internecie Streszczenie. Szybki rozwój Internetu w ostatnim dziesięcioleciu sprawił, że stał się on źródłem informacji obejmującym wszystkie dziedziny aktywności człowieka. Wielkość zasobów powoduje, że głównym problemem jest możliwość dotarcia do właściwych danych. Narzędzia temu służące łączą rezultaty badań z wielu różnych dziedzin: od lingwistyki przez statystykę, metody sztucznej inteligencji po bazy danych i teorię informacji. W niniejszym artykule przedstawiono podstawowe zagadnienia związane z modelowaniem zawartości Internetu na potrzeby wyszukiwania informacji oraz z możliwością wykorzystania Internetu jako źródła wiedzy. Słowa kluczowe: przeszukiwanie Internetu, przetwarzanie tekstu, odkrywanie wiedzy w bazach danych. 1. Wprowadzenie Jeden z istotniejszych problemów, przed którymi staje współczesna informatyka, to zagadnienia zarządzania wiedzą. U podstaw informatyki stosowanej tkwią jednak zagadnienia operowania na danych, lecz brak treści znaczeniowej (semantycznej) na tym poziomie sprawia, że jest on zbyt trudny dla przeciętnego użytkownika komputera. Oczekiwania użytkowników idą w kierunku operowania na poziomach bliższych człowiekowi, tzn. na poziomie informacji i wiedzy. Stąd praktycznie od lat 50. XX wieku trwają badania nad tym zagadnieniem, które początkowo rozwijały się na gruncie systemów wspomagania decyzji, a później objęły znacznie szersze obszary. Problematyka ta stała się szczególnie ważna w ostatnich latach w związku z rozwojem Internetu. Jego wielkość sprawia jednak, że bez dodatkowych narzędzi pomagających w dotarciu do interesujących użytkownika treści jest praktycznie bezużyteczny. Aby te narzędzia mogły skutecznie spełniać swą funkcję, muszą z jednej strony efektywnie komunikować się

2 118 z użytkownikiem, co oznacza funkcjonowanie na poziomie informacji, a z drugiej sprawnie operować na poziomie danych dostępnych w Internecie w postaci stron WWW. W konsekwencji konieczne stało się opracowanie metod wyszukiwania informacji opartych na przetwarzaniu tekstów w języku naturalnym. Wykorzystanie tych metod prowadzi do odwzorowania Internetu w postaci modelu przy równoczesnej identyfikacji treści (informacji znaczeniowej, semantyki) poszczególnych stron [Amrani i in. 2004]. Dzięki temu możliwe staje się traktowanie Internetu jako bazy danych. W połączeniu z tzw. metodami sztucznej inteligencji otwiera to nowe możliwości nie tylko w zakresie wyszukiwania informacji, ale również pozyskiwania wiedzy [Zaiane 1998]. Dało to początek stosunkowo nowej dziedzinie, jaką jest odkrywanie wiedzy w bazach danych (ang. knowledge discovery in databases KDD). 2. Wyszukiwanie informacji 2.1. Uwagi ogólne Wyszukiwanie informacji jest procesem złożonym, w którym można wyodrębnić trzy najważniejsze kroki: interpretację pytania, właściwe wyszukanie informacji oraz przetworzenie i udostępnienie wyników. Pierwszy problem napotykamy przy interpretacji pytania. Dla człowieka najwygodniejszym sposobem komunikacji jest język naturalny, jednak dostępne metody przetwarzania języka naturalnego nie są wystarczająco precyzyjne. Dlatego w większości zastosowań wykorzystywane są sztuczne języki nazywane informacyjno-wyszukiwawczymi. Są one wystarczająco proste, aby mógł się nimi posługiwać przeciętny użytkownik, i jednocześnie na tyle precyzyjne, aby mogły być wykorzystane do opisu zawartości przeszukiwanych zasobów (bazy danych). Język informacyjno-wyszukiwawczy powinien spełniać trzy podstawowe warunki: warunek zupełności: zakres wykorzystywanego słownictwa i gramatyka języka powinny pozwalać na opis dowolnej sytuacji spotykanej w danej dziedzinie nauki, techniki czy działalności praktycznej; warunek jednoznaczności: słowa i wyrażenia w tym języku powinny być jednoznaczne; warunek algorytmizacji: wyrażenia w takim języku powinny się dawać łatwo przekładać na instrukcje wyszukiwania w bazie danych. Kolejnym krokiem w ogólnym schemacie przetwarzania pytania jest wyszukanie informacji, czyli wyszukanie w bazie danych obserwacji spełniających warunki określone pytaniem. W ramach analizy tego kroku można wyróżnić wiele kwestii, wśród których na pierwszy plan wybija się zagadnienie zawartości i organizacji baz danych.

3 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 119 Internet jako źródło danych ma wiele wad, z których najistotniejszą jest całkowita swoboda w zakresie struktury prezentowanej informacji 1. Aby zniwelować tę wadę, podejmowane są działania w dwóch głównych kierunkach: strukturalizacji Internetu jako takiego, poprzez wprowadzanie mechanizmów umożliwiających, bądź wymuszających, wprowadzanie dodatkowych informacji (metadanych) opisujących aspekt znaczeniowy (semantyczny) stron internetowych. budowy systemów służących do analizy danych zawartych na stronach internetowych i opisywania ich zawartości różnymi metodami analizy: od realizowanych całkowicie przez ludzi po w pełni automatyczne. Systemy te prowadzą do powstawania meta-internetu: bazy danych zawierającej ustrukturalizowany opis zawartości Internetu, której celem jest gromadzenie i udostępnianie informacji na temat treści zasobów dostępnych w Internecie. Oba te kierunki działań prowadzą do wspólnego celu realizacji koncepcji Internetu semantycznego (ang. semantic web), w którym podstawową warstwą funkcjonowania jest poziom informacji. Bezpośrednie poszukiwanie w Internecie odpowiedzi na pytanie użytkownika jest praktycznie niemożliwe ze względu na wielkość sieci. Dlatego konieczne jest odwzorowanie Internetu w postaci opisu strukturalnego [Kłopotek 2001]. Ze względu na sposób analizy stron internetowych można wyróżnić dwie metody tworzenia takiego opisu w postaci baz danych: bazy tworzone przez ludzi oraz bazy generowane automatycznie. Rezultatem pierwszej z nich są tzw. katalogi stron, a druga metoda najczęściej jest utożsamiana z funkcjonowaniem wyszukiwarek internetowych. Ponieważ katalogi stron nie odgrywają już większej roli, w dalszej części skoncentrujemy się na rozwiązaniach automatycznych Bazy danych tworzone automatycznie By rozwiązać problem zakresu i aktualności opisu zasobów Internetu w postaci katalogów stron, praktycznie równolegle rozpoczęto prace nad automatyzacją procesu tworzenia tego opisu. Zaczęły powstawać systemy, które całkowicie automatycznie lub jedynie przy niewielkiej ingerencji człowieka śledziły stan i opisywały zasoby Internetu. Podstawą tych systemów są programy komputerowe, tzw. roboty, pająki czy agenty (ang. robot, spider, crawler, agent), których zadaniem jest odwiedzanie stron internetowych, kopiowanie i analiza ich zawartości oraz podążanie za odsyłaczami hipertekstowymi (automaty skanujące). Automaty skanujące utrzymują informację o już odwiedzonych stronach i odpowiadają za aktualność ich opisu w bazie danych, czyli za ich systematyczne odwiedzanie i badanie, czy ich zawartość nie uległa zmianie. 1 Jednocześnie cecha ta z punktu widzenia rozwoju i popularności Internetu jest jego największą zaletą.

4 120 Cały proces opisywania zasobów Internetu można podzielić na dwa odrębne procesy: skanowanie Internetu i analizę jego zawartości. Choć są one ze sobą powiązane, z technicznego punktu widzenia możemy je rozpatrywać osobno. Skanowanie Internetu polega na usystematyzowanym przeglądaniu stron. Proces ten zaczyna się od wskazanej strony internetowej, następnie gromadzone są dane o przeglądanej stronie, wyodrębniana jest spośród gromadzonych danych informacja o odsyłaczach hipertekstowych do kolejnych stron. Tak powstaje lista potencjalnych stron do odwiedzenia, z której wybierana jest kolejna strona, i proces zaczyna się od początku. Mimo że ogólna zasada działania jest stosunkowo prosta, a identyfikacja odsyłaczy nie stanowi żadnego problemu, skuteczne skanowanie zasobów Internetu wymaga rozwiązania wielu problemów, spośród których za najważniejsze można uznać: wybór stron startowych dla automatów skanujących, sposób zapewnienia synchronizacji pomiędzy automatami, tak aby nie odwiedzać wielokrotnie tych samych stron, sposób wyboru kolejnej strony do przeglądania i przechowywania informacji o już przeglądanych stronach, wybór strategii aktualizacji danych, czyli ponownej analizy stron. Zanim przejdziemy do zagadnienia analizy danych, trzeba odpowiedzieć jeszcze na pytanie o zakres danych, które gromadzimy w celu dalszej analizy, czyli głębokość skanowania. Ze względu na gromadzenie danych w strukturze stron internetowych można wyróżnić trzy podstawowe składowe. Są to: treść strony w postaci tekstu zapisana najczęściej w formacie jednego z języków opisu stron, np. HTML, odsyłacze hipertekstowe do innych stron internetowych oraz odsyłacze hipertekstowe do osadzonych w treści obiektów takich jak pliki graficzne, tekstowe, muzyczne, filmy itd. Odsyłacze hipertekstowe mogą dotyczyć stron lub obiektów znajdujących się na tym samym serwerze WWW lub innych. Każdy z wyróżnionych elementów może podlegać procesowi analizy w różnym stopniu i zakresie. Treść strony jest zazwyczaj zapisana w jednym z języków opisu stron. Ze względu na elastyczność tych języków oraz ich wielość może ona, ale nie musi, zawierać dodatkowe, niewyświetlane w przeglądarkach internetowych dane opisujące zawartość informacyjną strony, tzw. metadane. Przy gromadzeniu danych na temat treści konkretnej strony możemy się ograniczyć jedynie do metadanych lub poddawać procesowi całość, ewentualnie wybrane fragmenty, tekstu zawartego na stronie. Identyfikacja odsyłaczy hipertekstowych nie stanowi problemu ze względu na składnię języków opisu stron i ich jawną deklarację. W procesie analizy wyodrębniamy odsyłacze do stron i obiektów. Odsyłacze do stron stanowią dane dla procesu sterowania automatem skanującym. W przypadku odsyłaczy do obiektów możliwości podejmowania działań zależą od rodzaju tych obiektów. Najczęściej

5 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 121 spotykanymi obiektami są różnego rodzaju pliki zawierające dokumenty tekstowe, prezentacje, grafikę, muzykę, filmy i inne. Cechą wspólną większości 2 jest to, że do korzystania z nich wymagane jest dodatkowe oprogramowanie bądź w postaci odrębnych aplikacji, bądź tzw. wtyczek (ang. plug-in) zwiększających możliwości przeglądarek internetowych. Istotnym zagadnieniem jest pytanie o możliwości analizy i tworzenia opisów strukturalnych tych obiektów. W przypadku dokumentów tekstowych sytuacja jest najprostsza, gdyż ich większość jest udostępniana w jednym z kilku powszechnie stosowanych formatów takich jak txt, doc, rtf, pdf czy ps. Oznacza to, że niewielkim nakładem pracy można te dokumenty konwertować do formatu pliku tekstowego. Ponieważ analiza zawartości stron internetowych jest oparta na metodach analizy tekstu, tym samym dysponujemy narzędziami pozwalającymi na dalszą analizę i stworzenie opisu strukturalnego dokumentów tekstowych. Z odmienną sytuacją mamy do czynienia w przypadku pozostałych obiektów, w szczególności multimedialnych (grafika, muzyka, film). Rozpoznanie rodzaju danych nie stanowi problemu, gdyż jest on jednoznacznie określony przez format pliku. Natomiast praktycznie nie dysponujemy narzędziami pozwalającymi identyfikować treść zawartą w tych plikach, przy ich analizie jesteśmy zatem skazani na analizę ich opisu tekstowego lub próbę identyfikacji zawartości na podstawie nazwy obiektu (pliku). W taki sposób działa większość wyszukiwarek internetowych pozwalających na wyszukiwanie grafiki czy utworów muzycznych 3. Wykorzystywane obecnie narzędzia koncentrują się jedynie na gromadzeniu i analizie danych zawartych w treści stron internetowych. Wyjątkiem są tzw. osobiste narzędzia multiwyszukiwawcze, które po zlokalizowaniu potencjalnych stron zawierających dane interesujące użytkownika (korzystając z klasycznych wyszukiwarek), przeprowadzają ich dokładną analizę, często pogłębioną o zawarte na stronie odsyłacze do obiektów tekstowych. Jest to możliwe, gdyż narzędzia te nie mają ograniczenia czasu odpowiedzi nacisk położony jest na relewantność, czyli zgodność odpowiedzi z zapytaniem. Proces skanowania Internetu i gromadzenia danych o poszczególnych stronach oraz ewentualnie obiektach w nich osadzonych dostarcza nam opisu tych zasobów w postaci tekstu. Dzięki temu możemy, bez straty ogólności, ograniczyć się do problemu wyszukiwania informacji w zbiorze dokumentów tekstowych. Tekst w czystej postaci, nawet wzbogacony o dodatkową informację pochodzącą z języków opisu stron internetowych, nie jest postacią danych umożliwiającą szybkie ich przetwarzanie. Dlatego w kolejnym procesie podlega on indeksacji, 2 Nie dotyczy to wszystkich obiektów. Przykładowo pliki w formacie txt mogą być wyświetlane przez większość przeglądarek internetowych i nie wymagają dodatkowego oprogramowania. 3 Stąd stosunkowo niewielkie ich możliwości oraz mała adekwatność uzyskiwanych odpowiedzi.

6 122 czyli przetworzeniu do postaci opisu strukturalnego w formie bazy danych, zoptymalizowanej w celu szybkiego tworzenia listy dokumentów (stron) zawierających określone słowa bądź frazę (termy). Proces indeksacji przebiega zasadniczo według następującego schematu [Kłopotek 2001]: wyodrębnienie z tekstu słów i fraz, usunięcie słów popularnych, wyodrębnienie tematów słów algorytmem szukającym tematu i zastąpienie ich przez identyfikatory numeryczne termów indeksujących w celu wydajniejszego przetwarzania, wyliczenie częstości występowania poszczególnych termów w dokumencie, zastąpienie termów o niskiej częstości termami ogólniejszymi (opcjonalnie), tworzenie fraz dla termów o wysokiej częstości występowania (opcjonalnie), obliczenie wag dla poszczególnych termów, fraz i klas wyróżnianych w modelu opisu strukturalnego i przypisanie ich do indeksowanego dokumentu. Po zakończeniu procesu z każdym analizowanym dokumentem jest związany jego opis strukturalny, stworzony w określonym modelu opartym na języku informacyjno-wyszukiwawczym i zapisany w bazie danych. Dwa spośród wyróżnionych etapów analizy dokumentu, a mianowicie identyfikacja termów oraz obliczenie wag dla nich, mają największe znaczenie z punktu widzenia tworzenia opisu strukturalnego. We wstępnej fazie obróbki tekst jest dzielony na słowa i frazy, następnie usuwane są słowa pospolite, które nie niosą z sobą informacji o treści dokumentu. Aby to było możliwe, musimy znać język, w którym dany dokument jest napisany. Język można określić dzięki informacjom zawartym w metadanych, na podstawie jawnej deklaracji języka, strony kodowej (zestawu znaków ASCII), poprzez identyfikację charakterystycznych dla danego języka sekwencji liter lub w przypadku, gdy mamy do czynienia z rozszerzonym zestawem ASCII lub zestawem znaków UniCode, wyszukiwaniem charakterystycznych dla danego języka znaków specjalnych czy diakrytycznych. Kolejnym krokiem jest identyfikacja termów. Polega ona na wyodrębnieniu tematu słowa, a następnie przypisaniu mu identyfikatora numerycznego. W wielu językach słowa w tekście mogą występować w różnych formach, które często nie są związane ze znaczeniem słowa, a jedynie z gramatyką języka. Stąd konieczność odfiltrowania słów i fraz, by dotrzeć do ich podstawowej postaci. W dalszej kolejności zastępujemy termy numerami indeksującymi. Powtarzając całość procesu dla wielu dokumentów i łącząc indeksy termów, budujemy model reprezentacji dokumentów. Ponieważ liczba termów jest stosunkowo duża, reprezentacja ta jest bardzo rozbudowana. Możemy ją uprościć poprzez redukcję liczby termów. Do tego celu możemy użyć tezaurusa, likwidując występowanie synonimów, a termy

7 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 123 o niskiej częstości występowania w dokumencie możemy zastąpić termami ogólniejszymi (np. słowa: klacz, wałach, ogier możemy zastąpić słowem koń 4 ). Nawet po przeprowadzeniu opisanych etapów przetwarzania dokumentu uzyskana jego postać jest bardzo rozbudowana i nie pozwala na efektywne wykorzystanie w procesie wyszukiwania informacji. Dlatego konieczna jest dalsza redukcja wielkości reprezentacji dokumentu. W tym celu termom przypisywane są wagi. Poszczególne słowa (termy) występujące w dokumencie mają różne znaczenie dla jego treści i zdolności odróżniania poszczególnych dokumentów. Można przyjąć, że częstość występowania różnych słów w dokumencie w języku naturalnym jest związana z ważnością tych słów dla reprezentowania treści danego dokumentu. Ponieważ na wcześniejszych etapach procesu indeksowania usunęliśmy z reprezentacji słowa pospolite niezwiązane bezpośrednio z treścią dokumentu, możemy przyjąć, że ważność słowa dla treści jest proporcjonalna do częstości występowania słowa w dokumencie 5. Dlatego dalszą analizę dokumentu zaczynamy od obliczenia częstości występowania w nim poszczególnych termów. W analizie częstości występowania termów nie można się ograniczać tylko do pojedynczego dokumentu, należy brać pod uwagę również częstość całkowitą, czyli częstość występowania we wszystkich analizowanych dokumentach 6. W ten sposób możemy zidentyfikować termy, które ze względu na częstość występowania w całym zbiorze dokumentów nie pozwalają na identyfikację pojedynczych dokumentów. Z kolei termy o niskiej częstości występowania w całej grupie dokumentów pozwalają na większą precyzję identyfikacji, ale nie wolno zapominać, że te, które występują sporadycznie jedynie w pojedynczych dokumentach, nie zwiększają istotnie możliwości identyfikacji dokumentów, a mogą powodować bardzo duży wzrost liczby termów. Dysponując częstością termów w dokumencie oraz częstością całkowitą termów, możemy przystąpić do nadania wag poszczególnym termom. W najprostszej metodzie porządkujemy termy według częstości całkowitej, ustawiamy progi pozwalające wyeliminować termy o największej i najniższej częstości występowania, pozostałe termy traktujemy jako termy indeksujące, tzn. wykorzystujemy je 4 Należy pamiętać, że takiemu procesowi musi być również poddane zapytanie do bazy danych. 5 Zależność ta nosi nazwę prawa Zipfa od nazwiska autora, który jako pierwszy postawił taką hipotezę. 6 W przypadku analizowania zasobów Internetu nie możemy oczywiście dysponować takimi informacjami. Zamiast tego możemy po prostu wziąć pod uwagę odpowiednio dużą próbkę i na tej podstawie obliczyć częstość występowania termów. Wartość ta może ulegać zmianom w miarę analizy kolejnych dokumentów, a zakładana aktualizacja danych na temat zasobów Internetu, czyli ponowne przeglądanie i indeksacja, będzie powodować również aktualizację reprezentacji dokumentów opartej na wagach termów.

8 124 do budowy reprezentacji dokumentu. Wagę poszczególnym termom indeksującym w dokumencie nadajemy na podstawie częstości ich występowania w danym dokumencie. Tak uzyskany wektor wag tworzy reprezentację wektorową dokumentu. Opieranie się w nadawaniu wag jedynie na częstości występowania termów indeksujących ma istotne wady. W szczególności może nadawać wysokie wagi termom równie często występującym w całym zbiorze dokumentów, a tym samym nieposiadającym istotnej wartości dyskryminacyjnej, czyli niepozwalających na rozróżnienie dwóch dokumentów. Dlatego często modyfikuje się tę metodę, wykorzystując do wyliczenia wag częstość występowania termów indeksujących w dokumencie w połączeniu z odwrotnością ich częstości całkowitej. Takie podejście nadaje większe wagi tym termom, które rzadziej występują w całym zbiorze dokumentów. Inne modyfikacje polegają na wykorzystywaniu dodatkowej informacji o termach, którą można uzyskać w trakcie analizy tekstu. Może ona pochodzić np. ze struktury dokumentu. Termy występujące w nagłówkach, tytułach czy znajdujące się blisko początku dokumentu są traktowane jako istotniejsze dla treści dokumentu od pozostałych i przypisuje się im większą wagę. Termy indeksujące wyznaczają przestrzeń wektorową, w której każdy z dokumentów jest reprezentowany w postaci wektora Przetwarzanie zapytania i poszukiwanie odpowiedzi Po odwzorowaniu zasobów Internetu do postaci bazy danych możemy przystąpić do uruchomienia procesu odpowiedzi na zapytanie użytkownika. Aby móc rozpocząć ten proces, musimy dysponować zapytaniem w postaci zgodnej z przyjętym przez nas modelem danych dla reprezentacji dokumentów, czyli zapisanym w języku informacyjno-wyszukiwawczym zgodnym z tym modelem. W przypadku systemów specjalizowanych, przeznaczonych dla określonej grupy użytkowników znających strukturę i model danych, można przyjąć, że będą oni zadawać pytanie bezpośrednio w tym języku. Niemniej jednak w przypadku ogólnym takie założenie okazuje się zbyt daleko idące. Stałe dążenie do ułatwienia pracy użytkownika sprawia, że w większości systemów ogólnie dostępnych dopuszcza się zadawanie pytań w języku zbliżonym do języka naturalnego. Stąd konieczność przetłumaczenia takiego zapytania na język obowiązujący wewnątrz systemu. Najprostszą metodą działania jest poddanie zapytania takiemu samemu procesowi, jakiemu poddawane są indeksowane dokumenty w rezultacie dostaniemy reprezentację zapytania zgodną z bazą danych. Po wyodrębnieniu tematów słów z zapytania są one porównywane z listą termów indeksujących i jeżeli występują na niej, możemy przystąpić do przeszukiwania bazy danych. Jeżeli tematy słów z zapytania nie występują na liście termów indeksujących, możemy na podstawie tezaurusa zaproponować synonimy lub próbować korzystać z termów ogólniejszych. Po wstępnym przetworzeniu formy

9 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 125 zapytania możemy rozpocząć proces wyszukiwania dokumentów spełniających kryteria. Model wyszukiwania informacji obejmuje trzy podstawowe elementy, a mianowicie reprezentację zapytania (kwerendy), reprezentację dokumentów oraz funkcję wyszukującą. Ze względu na te elementy można wyróżnić następujące modele [Kłopotek 2001]: model boolowski, w którym dokumenty traktuje się jako zbiory słów (w sensie matematycznym), a wyszukanie opiera się na wyrażeniach logicznych; model przestrzeni wektorowej, opisany powyżej, w którym szukając dokumentów spełniających kryteria, szukamy tak naprawdę odległości pomiędzy reprezentacją dokumentów i reprezentacją kwerendy, czyli odległości pomiędzy dwoma wektorami w przestrzeni wektorowej; model probabilistyczny, u którego podstaw tkwi założenie o istnieniu ukrytej struktury we wzorcu używania słów w dokumentach i o możliwości wykrycia tej struktury wzorca metodami statystycznymi. Wybór dokumentów dokonuje się na podstawie prawdopodobieństwa spełnienia przez nie warunków narzuconych przez kryterium; modele oparte na wiedzy różnią się istotnie od wcześniej prezentowanych. Nie zakładają one specyficznej postaci reprezentacji dokumentów, a koncentrują się raczej na stworzeniu modelu zachowania potencjalnego użytkownika. Jednym z kierunków działań w tych modelach jest próba stworzenia modelu strategii poszukiwania informacji przez eksperta w interakcji z systemem. Innym są próby modelowania zachowań typowego użytkownika. Po zakończeniu procesu przeszukiwania bazy danych uzyskujemy w odpowiedzi zbiór dokumentów spełniających kwerendę. Ostatnim krokiem, który powinniśmy wykonać, jest zaprezentowanie wyników użytkownikowi Prezentacja wyników zapytania ranking dokumentów W przypadku przeszukiwania Internetu liczba dokumentów spełniających kryteria określone w kwerendzie jest przeważnie bardzo duża i użytkownik nie jest w stanie przejrzeć ich wszystkich, ogranicza się więc przeważnie do maksymalnie kilkudziesięciu pierwszych dokumentów. Stąd ważne jest, w jakiej kolejności będą zaprezentowane dokumenty w wyniku zapytania. Rozwiązanie tego problemu nie jest proste i brak metody sprawdzającej się we wszystkich zastosowaniach. Najczęściej używane są metody wykorzystujące wagi termów. Na podstawie wartości wag termów występujących w kwerendzie, dokumentach będących odpowiedzią na zapytanie oraz wagach całkowitych wyliczane są wagi dla całych dokumentów, które definiują ranking (kolejność) dokumentów w odpowiedzi. Inną metodą, niezależną od wag termów, jest metoda PageRank. Analizując zasoby Internetu, można zauważyć, że istnieją strony, do których wiele osób umieszcza linki na swoich stronach. Można przyjąć, że strony te odgrywają rolę

10 126 autorytetów (ang. authorities). Z drugiej strony mamy strony startowe, które z kolei zawierają wiele linków do innych stron. Metoda PageRank opiera się na liczeniu linków wejściowych i wyjściowych, przy czym dla dwóch dokumentów o tej samej liczbie linków wejściowych za ważniejszą uznajemy tę, na którą wskazuje więcej autorytetów. Opierając się na tej idei, zaproponowano model przepływu autorytetu. W najprostszej postaci można przyjąć, że każda strona jest źródłem autorytetu, który jest dzielony po równo pomiędzy wszystkie linki z niej wychodzące, ale sama strona ma tylko tyle autorytetu, ile jest linków na nią wskazujących. Łatwo zauważyć, że strony, na które wskazuje dużo linków (autorytety), są źródłem dużej ilości autorytetu w przeciwieństwie do np. stron startowych. 3. Pozyskiwanie wiedzy 3.1. Uwagi ogólne Przy omawianiu metod gromadzenia, przetwarzania i wyszukiwania danych w procesie wyszukiwania informacji wielokrotnie w kwestiach problemowych mówiliśmy o wyborze optymalnej strategii czy konstrukcji właściwych algorytmów. Pod tymi pojęciami rozumieliśmy budowę oprogramowania, które będzie spełniać nasze wymagania. Jednym z problemów, przed którymi stawaliśmy, było określenie wymagań na tyle jasno i precyzyjnie, aby móc na ich podstawie dokonać wyboru właściwej metody. Pierwszym podejściem do tego problemu były katalogi stron WWW, które były nie tyle rozwiązaniem, ile obejściem problemu, poprzez pozostawienie decyzji w rękach człowieka. To on decydował, jakie strony internetowe przeglądać, do jakiej kategorii zaliczyć daną stronę, tworzył jej opis itd. Ponieważ precyzja, a przede wszystkim wydajność tej metody była daleko niezadowalająca, konieczna była automatyzacja całego procesu. Oznaczało to potrzebę stworzenia szeregu metod, które będą symulować pracę redaktora. Ponieważ jego praca opiera się w znacznym stopniu na wiedzy, metody takie muszą również opierać się na wiedzy zaszytej w konkretnych algorytmach i dodatkowo, podobnie jak w przypadku człowieka, muszą mieć zdolność uczenia się, czyli samodzielnego pozyskiwania wiedzy ze zgromadzonych danych. Oznacza to, że chcemy stworzyć system o trzech podstawowych właściwościach: który jest w stanie samodzielnie pozyskiwać dane z otoczenia, który z pozyskanych danych potrafi generować wiedzę, który umie wykorzystać wygenerowaną wiedzę do rozwiązania postawionego mu problemu. System taki ma za zadanie inteligentną analizę danych, czyli budowę modelu w sytuacji, gdy nie ma wystarczającej podbudowy teoretycznej.

11 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie Przebieg procesu odkrywania wiedzy w bazach danych Jak zostało pokazane w poprzedniej części artykułu, dzięki procesowi modelowania zasobów Internet można postrzegać jako bazę danych. Tym samym w dalszej części będziemy mogli zawęzić nasze rozważania do baz danych bez utraty ich ogólności. Odkrywanie wiedzy w bazach danych (ang. KDD knowledge discovery in databases) jest stosunkowo nową dziedziną badań łączącą metody z różnych dziedzin takich jak statystyka, systemy uczące się (ang. machine learning) czy bazy danych w celu identyfikacji nieoczywistych zależności w bazach danych bez konieczności stawiania explicite hipotez o ich istnieniu. Zależności te powinny spełniać szereg istotnych z punktu widzenia użytkownika wymagań: być nowe (nieznane wcześniej), potencjalnie użyteczne (w kontekście zadania, które zostało postawione), regularne (nieprzypadkowe) oraz zrozumiałe. Ten ostatni warunek jest szczególnie ważny w kontekście możliwości wykorzystania znalezionych zależności, gdyż z psychologicznego punktu widzenia rezultaty otrzymane w wyniku działań, których nie jesteśmy w stanie prześledzić, są traktowane jako mało wiarygodne i rzadko są wykorzystywane w praktyce. Całość procesu odkrywania wiedzy w bazach danych można podzielić na kilka etapów. Są to: identyfikacja celu działania i dostępnej wiedzy, wybór i przygotowanie danych, wybór metody działania, poszukiwanie (potencjalnych) zależności, interpretacja rezultatów i konsolidacja wiedzy. Każdy z wyróżnionych etapów odpowiada innemu aspektowi procesu. Choć obecnie większość działań koncentruje się głównie bezpośrednio na problemie poszukiwania potencjalnych zależności nazywanym drążeniem danych (ang. DM data mining), pozostałe etapy, szczególnie w przypadku praktycznego zastosowania, są nie mniej istotne dla końcowego sukcesu. Proces rozpoczynamy od ustalenia celów naszego działania. Potencjalny użytkownik systemu może być zainteresowany bardzo różnorodnymi zagadnieniami. W zależności od postawionego zadania możemy mieć do czynienia z zagadnieniem klasyfikacji, np. wyszukiwaniem stron internetowych o treściach sprzecznych z prawem, z problemem wykrywania i analizy skupień, np. podziałem zbioru dokumentów na grupy o podobnej tematyce lub szukaniem dokumentów podobnych do danego czy problemem wykrywania zmian i odchyleń, np. pojawiania się stron internetowych poświęconych nowej tematyce. Przy ustalaniu celu musimy zadanie postawione przez użytkownika przeformułować na język zadań realizowanych przez system. Dodatkowo na tym samym etapie musimy dokonać identyfikacji wiedzy, jaką mamy na dany temat. W zależności od niej na dalszych etapach będziemy mogli dokonać wyboru algorytmów, które wykorzystamy do poszukiwania zależności.

12 128 Kolejnym krokiem jest wybór i przygotowanie danych. Etap ten oprócz wyboru danych oraz modelu ich reprezentacji obejmuje również ich wstępną obróbkę oraz analizę możliwości redukcji. Wstępna obróbka danych polega na analizie zakresu poszczególnych atrybutów oraz niepoprawnych kombinacji atrybutów, sugerujących możliwość wystąpienia błędów w danych, na dyskretyzacji i normalizacji atrybutów oraz na wykryciu i rozwiązaniu problemu brakujących wartości atrybutów. Oprócz wstępnej obróbki danych możemy dokonać redukcji lub rzutowania danych, dzięki czemu jest możliwe znaczne przyspieszenie wykonania zadania. Jakość i dostosowanie danych do konkretnego zadania są bardzo istotne dla uzyskania poprawnych wyników. Po przygotowaniu danych przystępujemy do wyboru metody działania, czyli wyboru rodzaju zadania, z jakim mamy do czynienia, oraz wyboru algorytmu lub algorytmów, które w tym celu wykorzystamy. Wśród rodzajów zadań możemy wyróżnić następujące: klasyfikacja, analiza skupień (klasteryzacja, grupowanie), predykcja (numeryczna), wykrywanie związków (asocjacji), wykrywanie zmian i odchyleń. W zależności od rodzaju zadania wybieramy najczęściej kilka często odmiennych w swej istocie działania algorytmów, które później wykorzystamy w procesie poszukiwania potencjalnych zależności (stawiania hipotez). Algorytmy te w zależności od sposobu działania można podzielić na dwie podstawowe grupy [Machine Learning 1994]: metody oparte na modelach to grupa metod polegających na jawnym określaniu modeli probabilistycznych i odpowiedzi na pytanie o prawdopodobieństwo zachodzenia poszukiwanych związków. Do tej grupy zaliczamy większość metod statystycznych; metody oparte na danych to grupa metod, w której model nie jest explicite określany, lecz powstaje w procesie wstępnej analizy danych zwanym procesem uczenia się. Do tej grupy należą: drzewa decyzyjne, wnioskowanie oparte na regułach (ang. rule based system), algorytmy ewolucyjne (genetyczne), systemy rozmyte, sieci neuronowe. Metody oparte na danych pozwalają rozwiązywać bardziej złożone problemy z właściwościami różnego typu, zmienną liczbą atrybutów oraz dodatkowymi poziomami takimi jak hierarchie atrybutów czy ich klasy. Celem tych metod jest wykreowanie reguł logicznych wystarczająco prostych, by były zrozumiałe dla człowieka, przy jednoczesnym zapewnieniu wglądu w proces wnioskowania, tak aby był on dla człowieka przejrzysty i zrozumiały oraz w maksymalnym stopniu odwzorowywał sposób wnioskowania człowieka [Cichosz 2000]. Tego

13 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 129 ostatniego warunku nie spełniają sieci neuronowe, gdyż ze względu na ich istotę proces ich uczenia się i działania nie przebiega w sposób w pełni czytelny dla człowieka, przez co nie potrafimy śledzić procesu wnioskowania i go odtworzyć. W konsekwencji uzyskiwane wyniki często nie są traktowane jako dobrze udokumentowane i w pełni wiarygodne. Wszystkie te metody zakładają, że w fazie przygotowawczej może być wykorzystywana cała wiedza i doświadczenie człowieka (osadzenie wiedzy), sam przebieg procesu natomiast musi się odbywać bez ingerencji człowieka. Po zakończeniu przygotowań możemy już przejść do właściwego działania, czyli poszukiwania potencjalnych zależności. W tym celu stosujemy wybrany algorytm (lub algorytmy) do przygotowanego podzbioru uczącego bazy danych, a następnie sprawdzamy jego działanie na próbie testującej. Po tej weryfikacji uruchamiamy algorytm dla wcześniej przygotowanych danych i analizujemy otrzymane rezultaty. Tak uzyskane wyniki poddajemy interpretacji. Polega ona przede wszystkim na przeformułowaniu uzyskanych wyników w sposób zrozumiały dla człowieka [Grabara 2003, Rutkowski 2005]. Innymi słowy, próbujemy zrozumieć otrzymane rezultaty i opisać je w języku pierwotnie postawionego zadania. W razie powodzenia przystępujemy do konsolidacji wiedzy. Oznacza to włączenie nowych informacji do początkowego zasobu wiedzy, np. poprzez publikacje wyników czy wykorzystanie ich w procesach podejmowania decyzji lub systemie komputerowym. W dalszej części zostały przybliżone wybrane metody stosowane w najczęściej spotykanych rodzajach zadań poszukiwania wiedzy w bazach danych: zadaniach klasyfikacji i grupowania Zadania klasyfikacji i grupowania Zadania klasyfikacji to jedne z najczęściej spotykanych rodzajów zadań KDD. Klasyfikacja jest formalnym i obiektywnym procesem służącym do szybkiego określenia cech obiektu poprzez przypisanie go do klasy obiektów o już znanych cechach. W przypadku odkrywania wiedzy w bazach danych zadanie klasyfikacji to zadanie wykrycia zasad przypisywania obiektów do istniejących klas. System realizujący takie zadanie działa na podstawie próbki uczącej, która zawiera rekordy danych opisujące już sklasyfikowane obiekty w formie atrybutów informacyjnych, opisujących cechy obiektu, oraz atrybutów klasyfikujących wskazujących, do jakiej klasy dany obiekt jest zaliczany. Proces uczenia się systemu polega na wykryciu bądź skonstruowaniu zasad pozwalających, jedynie na podstawie atrybutów informacyjnych, zaliczyć obiekt do konkretnej klasy, czyli przewidzieć wartość atrybutu klasyfikującego. Zadanie klasyfikacji jest realizowane w dwóch krokach. W pierwszym system tworzy zasady klasyfikacji na bazie części danych (próbka ucząca), a w drugim stosuje je do całości danych. Do tworzenia zasad klasyfikacji wykorzystywane

14 130 są algorytmy uczące podporządkowane metodzie, którą chcemy wykorzystać w procesie klasyfikacji. Oprócz klasycznych metod statystycznych do najpopularniejszych metod klasyfikacji należą: drzewa i reguły decyzyjne, naiwna reprezentacja bayesowska (ang. naive Bayes), sieci bayesowskie, sieci neuronowe. W praktyce najczęściej wykorzystywane są drzewa decyzyjne, co wynika z ich zalet. Drzewa decyzyjne mogą reprezentować dowolne pojęcia, często bardzo złożone. Forma drzewa jest formą intuicyjną i zrozumiałą dla człowieka, a dodatkowo jest łatwo konwertowalna na zestawy reguł typu jeżeli, to, które z kolei są łatwe w analizie i implementacji. Zarówno algorytmy uczące, jak i same drzewa mają małą złożoność obliczeniową i nie wykorzystują złożonych transformacji jak logarytm czy pierwiastek kwadratowy, pozostając tym samym bardzo efektywne nawet dla dużych zbiorów danych. Do podstawowych wad drzew decyzyjnych należy zaliczyć fakt, że w każdym kroku klasyfikacji dokonujemy, opierając się przeważnie na wartościach pojedynczego atrybutu 7. Inną wadą drzew decyzyjnych jest ich silna zależność od danych należących do próbki uczącej, mogąca prowadzić do uzyskiwania niesatysfakcjonujących rezultatów w przypadku innych danych. Mimo to drzewa decyzyjne są szeroko wykorzystywane w zadaniach klasyfikacji. W systemach wyszukiwania informacji w Internecie drzewa decyzyjne są wykorzystywane między innymi do: kategoryzacji dokumentów na podstawie zbioru dokumentów już skategoryzowanych, automatycznego indeksowania dokumentów przy wykorzystaniu słów z tezaurusa, filtrowania dokumentów dla potrzeb systemów (wyszukiwarek) dziedzinowych, identyfikacji profili użytkowników. O ile drzewa decyzyjne powszechnie znajdują zastosowanie w praktyce, o tyle sieci bayesowskie, zaliczane do grupy metod statystycznych, są dość rzadko wykorzystywane do przetwarzania tekstu (choć są dość popularne w innych dziedzinach). Podstawowym tego powodem jest wysoka złożoność obliczeniowa. Niemniej jednak ich przewidywane możliwości sprawiają, że cały czas trwają prace nad konstrukcją coraz efektywniejszych algorytmów bazujących na sieciach 7 Problem ten występuje głównie w procesie tworzenia drzew, gdzie w kolejnych krokach opieramy się przeważnie na wartościach pojedynczego atrybutu. W ostatecznej postaci drzewa, po jego optymalizacji, wyboru ścieżki w drzewach często dokonujemy na podstawie kombinacji wartości kilku atrybutów.

15 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 131 bayesowskich i ich pochodnych. Szczególnie ciekawe wydają się próby generowania streszczeń dokumentów dzięki algorytmom generacji sieci bayesowskiej. Innym dużym obszarem zastosowań metod odkrywania wiedzy w bazach danych są zadania grupowania (klasteryzacji). Polegają one na podziale obiektów na grupy (klasy, klastry, kategorie) obiektów o podobnych właściwościach, przy czym pomiędzy obiektami należącymi do jednej grupy podobieństwo jest znacznie większe niż pomiędzy obiektami z dwóch dowolnych grup. W zastosowaniach odkrywania wiedzy w bazach danych zadanie polega na wykryciu grup (skupień obiektów o podobnych właściwościach) oraz znalezieniu zasad grupowania na podstawie danych wchodzących w skład próbki uczącej. Kryterium grupowania jest tzw. funkcja przynależności oparta na miarach odległości lub prawdopodobieństwa. Czasami dodatkowo określamy pożądaną liczbę grup lub wymagany minimalny stopień podobieństwa (wartości graniczne funkcji przynależności). O skuteczności metod w tego typu zadaniach decydują trzy podstawowe czynniki: silne podobieństwo wewnątrzgrupowe, minimalne podobieństwo pomiędzy grupami oraz efektywność obliczeniowa. Mimo pewnego podobieństwa pomiędzy zadaniami klasyfikacji i grupowania, wynikającego przede wszystkim z wykrywania zasad grupowania (przypisywania do poszczególnych grup), zadania te różnią się istotnie. Podstawowa różnica tkwi w procesie uczenia: podczas gdy dla zadań klasyfikacji mamy określoną liczbę klas i ich właściwości, w zadaniach grupowania oba te istotne z punktu widzenia procesu elementy są właśnie poszukiwane. Stąd często w przypadku zadań klasyfikacji mówimy o uczeniu z nadzorem, gdyż to operator określa klasy, do jakich należą obiekty w próbce uczącej, podczas gdy w zadaniach grupowania mówimy o uczeniu bez nadzoru. Z drugiej strony, analizując szczegółowo oba procesy, można jednak zauważyć, że w obu istotną rolę odgrywa człowiek nadzorca, z tym że funkcjonuje on na różnych poziomach. W zadaniach klasyfikacji określa on explicite przynależność obiektów do danej klasy dla obiektów z próbki uczącej, a w przypadku zadań grupowania określa jedynie funkcję przynależności, którą system uczący się zamienia na prostsze w obliczeniach wyrażenie. W zadania grupowania wykorzystywane są przeważnie te same metody co w zadaniach klasyfikacji. W analizie zasobów Internetu zadania grupowania są wykorzystywane do różnych celów, od procesu przygotowywania danych do prezentacji wyników zapytania. Standardowo stosuje się je m.in. do: automatycznego tworzenia tezaurusów, wyboru i redukcji liczby atrybutów (termów indeksujących), eliminacji stron prawie identycznych (lustrzanych), grupowania dokumentów w bazie danych, grupowania dokumentów w wynikach zapytania.

16 132 Ich wykorzystanie, szczególnie w zakresie redukcji liczby atrybutów i grupowania dokumentów w bazie (redukcja wymiaru danych), ma kluczowe znaczenie dla szybkości działania systemów wyszukiwania informacji. 4. Podsumowanie Wiele dziedzin badań, które przez lata były traktowane jako niszowe, nagle zyskało nowe, praktyczne zastosowania. Dotyczy to między innymi takich dziedzin jak komputerowa analiza tekstu, metody sztucznej inteligencji czy metody komunikacji człowiek komputer. Wszystkie one znalazły zastosowanie w narzędziach wyszukiwania informacji w Internecie. Problemy wyszukiwania i rozpoznawania treści dokumentów dostępnych w Internecie sprawiły, że podjęto próby jej strukturalizacji poprzez wypracowanie i upowszechnienie standardów notacji wymuszających opisywanie treści stron internetowych explicite 8. Skuteczne wprowadzenie tych zamierzeń w życie pozwoliłoby na stworzenie wspólnej pojęciowo platformy identyfikacji treści spotykanych w Internecie [Proceedings 2003, Proceedings 2001] i znacznie ograniczyłoby konieczność korzystania ze skomplikowanych metod analizy tekstu. W zamyśle badaczy zajmujących się tym zagadnieniem pozwoli to na stworzenie inteligentnego Internetu określanego również jako sieć semantyczna, który pozwoliłby użytkownikom korzystać z sieci na poziomie informacji (treści), ukrywając przed nim skomplikowaną i nienaturalną dla człowieka strukturę sieci na poziomie danych (stron internetowych, serwerów, różnego rodzaju usług sieciowych), który to poziom jest obecnie podstawowy i praktycznie jako jedyny szeroko dostępny. Koncepcja ta jest dla wielu oczywistym kierunkiem ewolucji Internetu jako sieci globalnej dostępnej praktycznie dla każdego człowieka bez względu na wykształcenie i umiejętności [Straszak 2002]. Należy jednak pamiętać, że strukturalizacja Internetu nie rozwiązuje wszystkich problemów, z jakimi mamy do czynienia przy wyszukiwaniu informacji w sieci. Ułatwia ona jedynie kwestię identyfikacji treści, pozostawiając do rozwiązania problemy skanowania, reprezentacji czy szybkiego wyszukiwania informacji. Nie rozwiązuje również bardzo istotnego problemu wiarygodności danych. Oznacza to, że znaczna cześć prezentowanych wcześniej zagadnień pozostaje aktualna jako problemy badawcze. 8 W tych działaniach oparto się na sztucznych językach opisu semantycznego wywodzących się głównie ze standardów bazujących na językach typu XML, dostosowując je do potrzeb i możliwości Internetu. Prace te są cały czas kontynuowane, a przyjęta forma działania, związana ze współpracą wielu środowisk i popularyzacją zamiast formalnego wymuszania, stosowania przyjętych a priori standardów rokuje nadzieję na skuteczność.

17 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 133 Literatura Amrani A. i in. [2004], From the Text to the Concepts They Contain: A Chain of Linguistic Treatments, Cichosz P. [2000], Systemy uczące się, WNT, Warszawa. Grabara I. [2003], Wizualizacja w procesie zdobywania wiedzy [w:] Efektywność zastosowań systemów informatycznych 2003, t. 2, WNT, Warszawa Szczyrk. Kłopotek M.A. [2001], Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza EXIT, Warszawa. Machine Learning, Neural and Statistical Classification [1994], red. D. Michie, D.J. Spiegelhalter, C.C. Taylor, Proceedings of Semantic Integration Workshop SI-2003 [2003], Second International Semantic Web Conference, Sanibel Island, Florida, USA, October 20, sematicweb.org. Proceedings of SWWS 01 [2001], The First Semantic Web Working Symposium, Stanford University, California, USA, July 30 August 1, Rutkowski L. [2005], Metody i techniki sztucznej inteligencji, PWN, Warszawa. Straszak A. [2002], Badania operacyjne i systemowe [w:] Społeczeństwo informacyjne. Badania operacyjne i zarządzanie, Akademicka Oficyna Wydawnicza EXIT, Warszawa. Zaiane O.R. [1998], From Resource Discovery to Knowledge Discovery on the Internet, School of Computing Science Simon Fraser University, Burnaby, Canada, Basic Issues of Acquiring Knowledge in the Internet The fast development of the Internet in the last decade caused that it has become an enormous source of information concerning all areas of human activity. On account of the magnitude of these resources, the main issue is an access to desired data. Tools that help to solve this problem connect achievements of various disciplines like linguistics, statistics, artificial intelligence, databases and information theory. The paper presents basic issues related to the Internet contents modelling, focused on information searching and on exploitation of the Internet as a source of knowledge.

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

2

2 1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Narzędzia Informatyki w biznesie

Narzędzia Informatyki w biznesie Narzędzia Informatyki w biznesie Przedstawiony program specjalności obejmuje obszary wiedzy informatycznej (wraz z stosowanymi w nich technikami i narzędziami), które wydają się być najistotniejsze w kontekście

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

AUTOMATYKA INFORMATYKA

AUTOMATYKA INFORMATYKA AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

STATYSTYKA EKONOMICZNA

STATYSTYKA EKONOMICZNA STATYSTYKA EKONOMICZNA Analiza statystyczna w ocenie działalności przedsiębiorstwa Opracowano na podstawie : E. Nowak, Metody statystyczne w analizie działalności przedsiębiorstwa, PWN, Warszawa 2001 Dr

Bardziej szczegółowo

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym konceptualnym modelem danych jest tzw. model związków encji (ERM

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa Autorzy scenariusza: SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2 Internet, jako ocean informacji Technologia Informacyjna Lekcja 2 Internet INTERNET jest rozległą siecią połączeń, między ogromną liczbą mniejszych sieci komputerowych na całym świecie. Jest wszechstronnym

Bardziej szczegółowo

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni) Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

Metody indeksowania dokumentów tekstowych

Metody indeksowania dokumentów tekstowych Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie

Bardziej szczegółowo

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA Nazwa kierunku studiów: Informatyczne Techniki Zarządzania Ścieżka kształcenia: IT Project Manager, Administrator Bezpieczeństwa

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

Efekt kształcenia. Wiedza

Efekt kształcenia. Wiedza Efekty dla studiów drugiego stopnia profil ogólnoakademicki na kierunku Informatyka na specjalności Przetwarzanie i analiza danych, na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie oznacza

Bardziej szczegółowo

Procesowa specyfikacja systemów IT

Procesowa specyfikacja systemów IT Procesowa specyfikacja systemów IT BOC Group BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management Office

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu XXVIII Letnia Szkoła Naukowa Metodologii Nauk Empirycznych Zakopane, 12-14.05.2014 Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu Maciej Zaborowicz Instytut Inżynierii

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych Laboratorium Technologii Informacyjnych Projektowanie Baz Danych Komputerowe bazy danych są obecne podstawowym narzędziem służącym przechowywaniu, przetwarzaniu i analizie danych. Gromadzone są dane w

Bardziej szczegółowo

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod

Bardziej szczegółowo

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej. Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-

Bardziej szczegółowo

Algorytm. Krótka historia algorytmów

Algorytm. Krótka historia algorytmów Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne

Bardziej szczegółowo

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0 ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy

Bardziej szczegółowo

Analiza danych i data mining.

Analiza danych i data mining. Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data

Bardziej szczegółowo

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1 WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1 W celu zwiększenia indeksowania i przeszukiwania publikacji autorskich przez naukowe wyszukiwarki internetowe, należy

Bardziej szczegółowo

2017/2018 WGGiOS AGH. LibreOffice Base

2017/2018 WGGiOS AGH. LibreOffice Base 1. Baza danych LibreOffice Base Jest to zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego,

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS

Bardziej szczegółowo

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

O badaniach nad SZTUCZNĄ INTELIGENCJĄ O badaniach nad SZTUCZNĄ INTELIGENCJĄ Wykład 7. O badaniach nad sztuczną inteligencją Co nazywamy SZTUCZNĄ INTELIGENCJĄ? szczególny rodzaj programów komputerowych, a niekiedy maszyn. SI szczególną własność

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Programowanie komputerów

Programowanie komputerów Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE WIADOMOŚCI I UMIEJĘTNOŚCI UCZNIÓW

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE WIADOMOŚCI I UMIEJĘTNOŚCI UCZNIÓW EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE I UCZNIÓW Ocena celujący bardzo dobry dobry dostateczny dopuszczający Zakres wiadomości wykraczający dopełniający rozszerzający podstawowy

Bardziej szczegółowo

Wymagania edukacyjne na ocenę z informatyki klasa 3

Wymagania edukacyjne na ocenę z informatyki klasa 3 Wymagania edukacyjne na ocenę z informatyki klasa 3 0. Logo [6 godz.] PODSTAWA PROGRAMOWA: Rozwiązywanie problemów i podejmowanie decyzji z wykorzystaniem komputera, stosowanie podejścia algorytmicznego.

Bardziej szczegółowo

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,

Bardziej szczegółowo

Roman Mocek Zabrze 01.09.2007 Opracowanie zbiorcze ze źródeł Scholaris i CKE

Roman Mocek Zabrze 01.09.2007 Opracowanie zbiorcze ze źródeł Scholaris i CKE Różnice między podstawą programową z przedmiotu Technologia informacyjna", a standardami wymagań będącymi podstawą przeprowadzania egzaminu maturalnego z przedmiotu Informatyka" I.WIADOMOŚCI I ROZUMIENIE

Bardziej szczegółowo

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08 Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.

Bardziej szczegółowo

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W ELBLĄGU INSTYTUT INFORMATYKI STOSOWANEJ Sprawozdanie z Seminarium Dyplomowego Temat: Ułatwienia wynikające z zastosowania Frameworku CakePHP podczas budowania stron internetowych

Bardziej szczegółowo

Zapisywanie algorytmów w języku programowania

Zapisywanie algorytmów w języku programowania Temat C5 Zapisywanie algorytmów w języku programowania Cele edukacyjne Zrozumienie, na czym polega programowanie. Poznanie sposobu zapisu algorytmu w postaci programu komputerowego. Zrozumienie, na czym

Bardziej szczegółowo

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK Paweł Lenkiewicz Polsko Japońska Wyższa Szkoła Technik Komputerowych Plan prezentacji PJWSTK

Bardziej szczegółowo

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

O badaniach nad SZTUCZNĄ INTELIGENCJĄ O badaniach nad SZTUCZNĄ INTELIGENCJĄ Jak określa się inteligencję naturalną? Jak określa się inteligencję naturalną? Inteligencja wg psychologów to: Przyrodzona, choć rozwijana w toku dojrzewania i uczenia

Bardziej szczegółowo

The Binder Consulting

The Binder Consulting The Binder Consulting Contents Indywidualne szkolenia specjalistyczne...3 Konsultacje dla tworzenia rozwiazan mobilnych... 3 Dedykowane rozwiazania informatyczne... 3 Konsultacje i wdrożenie mechanizmów

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Algorytm genetyczny (genetic algorithm)-

Algorytm genetyczny (genetic algorithm)- Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie

Bardziej szczegółowo

Faza Określania Wymagań

Faza Określania Wymagań Faza Określania Wymagań Celem tej fazy jest dokładne określenie wymagań klienta wobec tworzonego systemu. W tej fazie dokonywana jest zamiana celów klienta na konkretne wymagania zapewniające osiągnięcie

Bardziej szczegółowo

Informatyka kl. 1. Semestr I

Informatyka kl. 1. Semestr I Informatyka kl. 1 Znajomość roli informatyki we współczesnym świecie. Rozróżnianie zestawu urządzeń w komputerze, rodzajów pamięci komputera, urządzeń wejścia i wyjścia. Umiejętność tworzenia dokumentu

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium

Bardziej szczegółowo

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012 Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012 Web 3.0 - prawdziwa rewolucja czy puste hasło? Web 3.0

Bardziej szczegółowo

Okręgowa Komisja Egzaminacyjna w Krakowie 1

Okręgowa Komisja Egzaminacyjna w Krakowie 1 Okręgowa Komisja Egzaminacyjna w Krakowie 1 Egzamin maturalny Egzamin maturalny, zastąpi dotychczasowy egzamin dojrzałości, czyli tzw. starą maturę i przeprowadzany będzie: od roku 2005 dla absolwentów

Bardziej szczegółowo

- 1 - Liczba godzin. Nr lekcji. Nr punktu w podręczniku. Zagadnienia do realizacji według podstawy programowej (treści nauczania)

- 1 - Liczba godzin. Nr lekcji. Nr punktu w podręczniku. Zagadnienia do realizacji według podstawy programowej (treści nauczania) Rozkład materiału dla przedmiotu: Informatyka zakres podstawowy realizowanego według podręcznika: E. Gurbiel, G. Hardt-Olejniczak, E. Kołczyk, H. Krupicka, M.M. Sysło, Informatyka to podstawa, WSiP, Warszawa

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych, moduł kierunkowy oólny Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK

Bardziej szczegółowo

Świat rzeczywisty i jego model

Świat rzeczywisty i jego model 2 Świat rzeczywisty i jego model Świat rzeczywisty (dziedzina problemu) Świat obiektów (model dziedziny) Dom Samochód Osoba Modelowanie 3 Byty i obiekty Byt - element świata rzeczywistego (dziedziny problemu),

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej

Bardziej szczegółowo

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Bazy danych Wykład 3: Model związków encji. dr inż. Magdalena Krakowiak makrakowiak@wi.zut.edu.pl Co to jest model związków encji? Model związków

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z

Bardziej szczegółowo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego

Bardziej szczegółowo

PageRank i HITS. Mikołajczyk Grzegorz

PageRank i HITS. Mikołajczyk Grzegorz PageRank i HITS Mikołajczyk Grzegorz PageRank Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez popularną

Bardziej szczegółowo

DLA SEKTORA INFORMATYCZNEGO W POLSCE

DLA SEKTORA INFORMATYCZNEGO W POLSCE DLA SEKTORA INFORMATYCZNEGO W POLSCE SRK IT obejmuje kompetencje najważniejsze i specyficzne dla samego IT są: programowanie i zarządzanie systemami informatycznymi. Z rozwiązań IT korzysta się w każdej

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

INFORMATYKA Pytania ogólne na egzamin dyplomowy

INFORMATYKA Pytania ogólne na egzamin dyplomowy INFORMATYKA Pytania ogólne na egzamin dyplomowy 1. Wyjaśnić pojęcia problem, algorytm. 2. Podać definicję złożoności czasowej. 3. Podać definicję złożoności pamięciowej. 4. Typy danych w języku C. 5. Instrukcja

Bardziej szczegółowo

Kierunek Zarządzanie II stopnia Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów kształcenia dla obszaru nauk społecznych

Kierunek Zarządzanie II stopnia Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów kształcenia dla obszaru nauk społecznych Kierunek Zarządzanie II stopnia Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów kształcenia dla obszaru nauk społecznych Objaśnienie oznaczeń: Z efekty kierunkowe dla Zarządzania W wiedza

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

3.1. Na dobry początek

3.1. Na dobry początek Klasa I 3.1. Na dobry początek Regulamin pracowni i przepisy BHP podczas pracy przy komputerze Wykorzystanie komputera we współczesnym świecie Zna regulamin pracowni i przestrzega go. Potrafi poprawnie

Bardziej szczegółowo

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Usługi analityczne budowa kostki analitycznej Część pierwsza. Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.

Bardziej szczegółowo

Od e-materiałów do e-tutorów

Od e-materiałów do e-tutorów Od e-materiałów do e-tutorów Lech Banachowski, Elżbieta Mrówka-Matejewska, Agnieszka Chądzyńska-Krasowska, Jerzy Paweł Nowacki, Wydział Informatyki, Polsko-Japońska Akademia Technik Komputerowych Plan

Bardziej szczegółowo

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu SI w procesach przepływu i porządkowania informacji Paweł Buchwald Wyższa Szkoła Biznesu Początki SI John MC Carthy prekursor SI Alan Thuring pomysłodawca testu na określenie inteligencji maszyn Powolny

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Projekt i implementacja systemu wspomagania planowania w języku Prolog Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

W dalszej części dokumentu przedstawiamy skrócony opis kluczowych funkcji systemu. Niniejszy dokument nie zawiera opisu technicznego systemu.

W dalszej części dokumentu przedstawiamy skrócony opis kluczowych funkcji systemu. Niniejszy dokument nie zawiera opisu technicznego systemu. 1. Informacje Podstawowe Mediamanager 2.1 jest systemem wspierającym zarządzanie dokumentami elektronicznymi. Podstawowymi funkcjami realizowanymi przez oprogramowanie jest przetrzymywanie, zarządzanie

Bardziej szczegółowo

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Ewa Wołoszko Praca pisana pod kierunkiem Pani dr hab. Małgorzaty Doman Plan tego wystąpienia Teoria Narzędzia

Bardziej szczegółowo

KIERUNKOWE EFEKTY KSZTAŁCENIA

KIERUNKOWE EFEKTY KSZTAŁCENIA WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS Techniki uczenia maszynowego nazwa SYLABUS Obowiązuje od cyklu kształcenia: 2014/20 Część A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej studiów Poziom kształcenia Profil studiów

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Opis efektów kształcenia dla modułu zajęć

Opis efektów kształcenia dla modułu zajęć Nazwa modułu: Eksploracja danych Rok akademicki: 2030/2031 Kod: MIS-2-105-MT-s Punkty ECTS: 5 Wydział: Inżynierii Metali i Informatyki Przemysłowej Kierunek: Informatyka Stosowana Specjalność: Modelowanie

Bardziej szczegółowo