OPIS OCENY OFERT W RAMACH KRYTERIUM WARTOŚĆ MERYTORYCZNA

Podobne dokumenty
PROCEDURA WERYFIKACJI I OCENY DEKLAROWANYCH FUNKCJONALNOŚCI OPROGRAMOWANIA OFEROWANEGO PRZEZ WYKONAWCĘ NA ETAPIE OCENY OFERTY

Załącznik nr 2 do SIWZ

Szablon Planu Testów Akceptacyjnych

Załącznik nr 2 do SIWZ

PROCEDURA PRÓBKI W PROJEKCIE E-ZDROWIE DLA MAZOWSZA NA DOSTAWY I WDROŻENIE EDM, SSI ZAŁĄCZNIK NR 12 DO SIWZ

Sposób i zakres prezentacji Systemu

Dostawa systemu e-urząd oraz sprzętu w ramach Projektu e-myślenice wdrożenie e-usług w Gminie Myślenice

I. Oprogramowanie sieciowe do prowadzenia analiz statystycznych wyników badań naukowych

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Zakres wymagań dotyczących Dokumentacji Systemu

Przewodnik użytkownika (instrukcja) AutoMagicTest

Opis przedmiotu zamówienia

Niniejszy załącznik składa się z 5 ponumerowanych stron

Tom 6 Opis oprogramowania

Instrukcja użytkownika ARSoft-WZ3

7. zainstalowane oprogramowanie zarządzane stacje robocze

OPIS PROCEDURY TESTOWANIA PRÓBKI

Program do wagi SmartScale

Część III - Zadanie nr 4.4: Oprogramowanie do zarządzania. Lp. Zwartość karty Opis 1 Specyfikacja techniczna / funkcjonalna przedmiotu zamówienia

WYROK z dnia 1 grudnia 2014 r. Przewodniczący:

O higienie pracy, komputerze, sieciach komputerowych i Internecie

Lokalizacja Oprogramowania

Procesy ETL. 10maja2009. Paweł Szołtysek

Opis przygotowania i weryfikacji próbki systemu

Przewodnik użytkownika (instrukcja) AutoMagicTest

Text mining w programie RapidMiner Michał Bereta

BDG.WZP JP Warszawa, 15 lipca 2015 r.

Przewodnik użytkownika (instrukcja) AutoMagicTest Spis treści

Kopia zapasowa i odzyskiwanie

Regulamin prezentacji funkcjonalności systemu

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

Najwyżej ocenione raporty dla Mr Buggy 4

REFERAT PRACY DYPLOMOWEJ

Tom 6 Opis oprogramowania

Analiza najczęstszych błędów w sprawozdawanych danych

Kopia zapasowa i odzyskiwanie

Standard określania klasy systemu informatycznego resortu finansów

Konwerter XML Dla Programów Symfonia Kadry i Płace oraz Forte Kadry i Płace

PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI

PROCEDURA ADMINISTROWANIA ORAZ USUWANIA AWARII I BŁĘDÓW W CSIZS

Opis produktów wraz z instrukcją obsługi. Spełnienie wymagań sprawozdawczych za rok 2014 zawartych w. art. 44 ustawy Prawo energetyczne

Posiada (TAK / NIE. Zrzut ekranu. Opis funkcji

Analiza najczęstszych błędów w sprawozdawanych danych

Tom 6 Opis oprogramowania

Zapytanie ofertowe nr 04/03/2017

SZCZEGÓŁOWY OPIS PRZEDMIOTU ZAMÓWIENIA

CENTRALNA KOMISJA EGZAMINACYJNA

FUNKCJONALNOŚ C PORTAL B2B KAMELEON.ŚQL

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 CZĘŚĆ PRAKTYCZNA. Arkusz zawiera informacje prawnie chronione do momentu rozpoczęcia egzaminu

Przedmiotem zamówienia jest zakup oprogramowania biurowego dla Urzędu Miasta Lublin, w liczbie 50 licencji.

Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++

Opis metody pracy Komisji podczas Kwalifikacji TestingCup 2017

Moduł mapowania danych

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 CZĘŚĆ PRAKTYCZNA

Łódź, dnia r. DOA-ZP-I

Elementy modelowania matematycznego

Moduł mapowania danych

Wykaz zmian w programie SysLoger

System Kontroli Bazy Danych Topograficznych (SKBDT) zawód kartografa?

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Komentarz technik teleinformatyk 312[02]-02 Czerwiec 2009

Załącznik nr 1e do Formularza Ofertowego

TEST WSTĘPNY. Imię i Nazwisko: Telefon kontaktowy: 1. Kilobajt jest to: a bajtów b bajtów c bitów d.

OCENIANIE WYPOWIEDZI PISEMNYCH

Windows 10 - Jak uruchomić system w trybie

Zamawiający dysponuje szerokim spektrum rozwiązań infrastrukturalnych. Wykonawca uzyska dostęp do infrastruktury w niezbędnym zakresie.

Projekt współfinansowany przez Unię Europejską z Europejskiego Funduszu Rozwoju Regionalnego Fundusze Europejskie dla rozwoju regionu łódzkiego

Scenariusze testowe weryfikacji oferowanych systemów informatycznych

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

WYJAŚNIENIA I ZMIANA TREŚCI SIWZ

Szkolenie systemu POL-on

Przykładowa analiza danych

Podstawy statystyki matematycznej w programie R

ZAŁĄCZNIK NR 3 OPIS PRZEDMIOTU ZAMÓWIENIA DOTYCZĄCY WDROŻENIA PLATFORMY ZAKUPOWEJ

Instrukcja obsługi. Generatora CSV

SZCZEGÓŁOWY OPIS PRZEDMIOTU ZAMÓWIENIA

Diagnostyka komputera

ROZDZIAŁ I. BUDOWA I FUNKCJONOWANIE KOMPUTERA PC

Oprawa i druk publikacji

PROJEKT INTERFEJSU UśYTKOWNIKA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Sprzętowo wspomagane metody klasyfikacji danych

Procedura Walidacyjna Interfejs

Opcje raportów. łatwe i czytelne raportowanie

CASEWARE PROGRAM DLA BIEGŁYCH REWIDENTÓW

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

3.1. Na dobry początek

Pomoc do programu Oferent

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 8 OPROGRAMOWANIE DO ANALIZ MARKETINGOWYCH (pom. nr 1.21)

Regionalny Ośrodek Polityki Społecznej Toruń, dnia r. w Toruniu ul. Słowackiego Toruń

Opis Przedmiotu Zamówienia

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 ZASADY OCENIANIA

PROCEDURY ODBIORU PRZEDMIOTU ZAMÓWIENIA

Instrukcja obsługi systemu elektronicznego katalogu przedmiotów (sylabusów)

Odpowiedź Zamawiającego w ramach zgłoszonych wniosków o wyjaśnienie SIWZ

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

ViLab- program służący do prowadzenia obliczeń charakterystyki energetycznej i sporządzania świadectw charakterystyki energetycznej

Opis wymagań i program szkoleń dla użytkowników i administratorów

Szczegółowy opis przedmiotu zamówienia

WARUNKI TECHNICZNE. Załącznik nr 1

Transkrypt:

Załącznik nr 11 do SIWZ, nr sprawy PN-141/14/MS OPIS OCENY OFERT W RAMACH KRYTERIUM WARTOŚĆ MERYTORYCZNA Kryterium wartości merytorycznej będzie składać się z sumy punktów uzyskanych za ocenę opisu sposobu realizacji zamówienia oraz uzyskanych w testach. A. Opis sposobu realizacji zamówienia Opis musi zawierać: 1. Wykaz Oprogramowania, które Wykonawca wykorzysta w realizacji zamówienia Dla każdej pozycji wykazu Wykonawca opisze oprogramowanie i wskaże jego zastosowanie w Systemie. 2. Wykaz sprzętu 3. Opis sposobu realizacji podstawowych funkcji Systemu: a. Hurtowni z narzędziami analitycznymi, b. Portalu, c. Systemu kategoryzacji treści d. Biblioteki. 4. Opis sposobu zapewnienie niezawodności systemu i bezpieczeństwa danych. 5. Opis sposobu utrzymania Systemu (zawierający opis działań i zasobów niezbędnych do utrzymania Systemu oraz możliwości rozbudowy systemu). 6. Opis sposobu zarządzania projektem (zawierający propozycję harmonogramu, struktury projektowej, ról w projekcie, sposób zarządzania jakością, komunikacją zagadnieniami, ryzykiem, zmianą). Zamawiający oceni złożone oferty według następujących podkryteriów: 1. Sposób i zakres zasilenia hurtowni danych (obejmujący specyfikację źródeł danych, opis sposobu łączenia danych z różnych źródeł, określenie zakresu agregacji danych, opis i harmonogram zasilania danymi, wpływ procesu zasilania na wydajność i funkcjonowanie systemów). 2. Sposób realizacji operacji analitycznych w docelowym systemie (zawierający opis narzędzi analitycznych działających na danych w hurtowni, ich dostępności oraz współpracy tych narzędzi z innymi elementami systemu). 3. Sposób korzystania z portalu z uwzględnieniem głównych elementów portalu oraz możliwości modyfikacji i rozbudowy portalu. 4. Sposób kategoryzacji treści oraz zakres treści podlegających kategoryzacji (w tym opis słowników i klasyfikacji wykorzystywanych przy kategoryzacji), wraz ze sposobem wykorzystania kategoryzacji treści w Systemie. 1

5. Sposób zapewnienie niezawodności systemu i bezpieczeństwa danych. 6. Sposób utrzymania systemu (w tym opis działań i zasobów niezbędnych do utrzymania systemu oraz możliwości rozbudowy systemu). 7. Sposób zarządzania projektem (w tym propozycję struktury projektowej, ról w projekcie, sposób zarządzania jakością, komunikacją zagadnieniami). 8. Sposób zarządzania zmianą. 9. Sposób zarządzania ryzykiem, zidentyfikowane ryzyka i propozycje postępowania ze zidentyfikowanym ryzykiem. W ramach każdego z powyższych podkryteriów Zamawiający przyzna 0, 2 lub 5 punktów, zgodnie z poniższymi zasadami: 0 punktów - Opis ogólny, teoretyczny, niepoprawny merytorycznie, nieporuszający części lub całości wymaganych zagadnień, niepowiązany ze specyfiką projektu i Zamawiającego lub nieadekwatny do zakresu i terminów realizacji zadań, 2 punkty - Opis poruszający wszystkie zagadnienia, poprawny merytorycznie, nawiązujący do specyfiki projektu i Zamawiającego, przedstawiający rozwiązania w sposób powierzchowny. 5 punktów - Opis pogłębiony, poruszający wszystkie zagadnienia, poprawny merytorycznie, uwzględniający w pełni specyfikę projektu i Zamawiającego, przedstawiający rozwiązania w sposób wyczerpujący. Punkty przyznawane za opis sposobu realizacji zamówienia będą sumą punktów przyznanych w ramach poszczególnych podkryteriów. Komisja przetargowa będzie przyznawać punkty w ramach podkryterium w oparciu o opinię biegłego, powołanego na podstawie art. 21 ust. 4 PrZamPubl. B. Testy Zamawiający dokona weryfikacji zadeklarowanej w ofercie funkcjonalności rozwiązania na podstawie przeprowadzonego testu. Test polegał będzie na wykonaniu przez Wykonawcę zestawu zadań testowych sprawdzających wybrane funkcjonalności wymagane w SIWZ. Zadania wykonane zostaną na przygotowanym przez Zamawiającego zestawie danych testowych. Do wykonania zadań testowych Wykonawca będzie mógł wykorzystać jedynie oprogramowanie przekazane Zamawiającemu wraz z Ofertą. Aby zapewnić jednakowe warunki wszystkim Wykonawcom, Zamawiający i Wykonawcy postępować będą zgodnie z poniższymi zasadami. 2

Sposób przygotowania oprogramowania 1. Oprogramowanie powinno być zainstalowane na zestawie komputerowym, który Wykonawca złoży wraz z Ofertą. Do zestawu komputerowego Wykonawca dołączy wszelkie dodatkowe elementy sprzętowe, które są niezbędne do wykonania zadań testowych. Aby uniknąć skutków potencjalnej awarii oprogramowania Wykonawca może wraz z Ofertą złożyć kilka kopii oprogramowania. 2. Zamawiający zapewni przechowanie oprogramowania w pomieszczeniu, do którego dostęp będą mieli tylko upoważnieni przedstawiciele Zamawiającego. 3. Wykonawca we własnym zakresie powinien zabezpieczyć oprogramowanie, w celu zapewnienia ochrony dostępu i modyfikacji. 4. Zamawiający jest uprawniony do zaplombowania portów w sprzęcie komputerowym w celu uniemożliwienia wykorzystania ich niezgodnie z zasadami wykonania testu. Zamawiający uprawniony jest do wykonania zapisu audiowizualnego wszelkich czynności prowadzonych przez Wykonawcę na sprzęcie przeznaczonym do prezentacji oprogramowania. Procedura przeprowadzenia testów 1. Po terminie otwarcia Ofert Zamawiający wskaże termin i miejsce wykonania testu poprzez opublikowanie na stronie internetowej COI, co najmniej 5 dni roboczych przed planowanym terminem. 2. W chwili rozpoczęcia testu (weryfikacji oprogramowania) Zamawiający przekaże Wykonawcom zdeponowany sprzęt oraz zestaw danych testowych. 3. Na wykonanie zadań testowych Wykonawcy będą mieli maksymalnie 8 godzin od momentu otrzymania danych testowych. 4. Przy wykonywaniu zadań testowych Wykonawca będzie mógł korzystać jedynie ze sprzętu i oprogramowania złożonego wraz z Ofertą. Wyjątkiem jest sprzęt prezentacyjny, taki jak projektory lub monitory. W szczególności podczas testu niedopuszczalne będzie: a. instalowanie jakiegokolwiek oprogramowania, b. wgrywanie (przy pomocy nośników zewnętrznych lub innych środków komunikacji, np. sieci bezprzewodowej itp.) nowych danych i programów, poza danymi testowymi przekazanymi przez Zamawiającego, c. modyfikowanie zainstalowanego oprogramowania (z wyłączeniem zmian konfiguracyjnych). 5. Po wykonaniu testów wyniki w formacie wymaganym w opisie każdego zadania, Wykonawca powinien zarchiwizować na płycie DVD (sprzęt komputerowy zawierający próbkę musi być wyposażony w odpowiednią nagrywarkę). Demonstracja wyników Po zakończeniu testów Wykonawca zobowiązany będzie do prezentacji komisji przetargowej uzyskanych wyników. Prezentacja wraz z dokumentacją wymaganą w przypadku każdego testu będzie podstawą oceny poprawności wykonania zadań. Prezentacja wyników powinna być przeprowadzona z wykorzystaniem oprogramowania. Zamawiający zastrzega sobie prawo do proszenia o wyjaśnienia zarówno do wyników jak i do sposobu ich uzyskania. Termin prezentacji zostanie ustalony w drodze 3

losowania, które przeprowadzone zostanie przez komisję w obecności Wykonawców, przed przystąpieniem Wykonawców do przeprowadzania testów. Prezentacja wyników nie powinna przekroczyć 2 godzin zegarowych. Ocena testów Jeśli Wykonawca nie wykona Demonstracji w przedstawiony powyżej sposób lub nie będzie postępować zgodnie z powyższą procedurą, zostanie uznane, że nie spełnia kryteriów Zamawiającego i oferta zostanie odrzucona. Każde zadanie będzie punktowane osobno. Za wykonanie zadań: 1, 3, 5, 6 i 7 Wykonawca otrzyma punkty jedynie w przypadku, gdy zadanie zostanie wykonane w całości, za niepełne (częściowe) wykonanie zadania Wykonawca otrzyma 0 punktów. Wykonanie pierwszych trzech zadań jest uznawane za warunek graniczny), tj. jeżeli za którekolwiek z zadań 1 3 Wykonawca uzyska 0 punktów, test zostanie uznany za niespełniający kryteriów Zamawiającego i oferta zostanie odrzucona. Ocena testu zostanie doliczona do oceny merytorycznej oferty według opisanych kryteriów. W przypadku wystąpienia błędu w wykonaniu zadania Wykonawca może, celem usunięcia błędu, dokonać niezbędnych z jego punktu widzenia modyfikacji prezentowanego zadania. Łączny czas trwania dokonywania takich modyfikacji nie może przekroczyć 1 godziny. Opis danych W dniu testów zostanie uczestnikom przekazany w postaci płyty CD zbiór danych wejściowych. Dane będą pogrupowane w foldery (ZADNIE1 - ZADANIE8), zgodnie z informacjami w poszczególnych zadaniach. Pliki wejściowe mogą być w następujących formatach: PDF, RTF, Pliki tekstowe o rozszerzeniu NOT. Poniżej przedstawiona jest struktura plików wraz z przykładowym fragmentem treści notatki: Plik RTF i PDF: Pliki będą zawierały informacje w postaci tekstowej (nie obrazkowej) i niezabezpieczonej przed kopiowaniem oraz niezaszyfrowanej. Plik NOT będzie zawierał tylko treść do analizy. 4

Nazwy plików będą w następującej postaci: PDF: N_YYYY_MM_DD_HH_MM.PDF RTF: N_YYYY_MM_DD_HH_MM.RTF NOT: N_YYYY_MM_DD_HH_MM.NOT Gdzie: N kolejna cyfra porządkowa YYYY rok zapisania notatki MM miesiąc zapisania notatki DD dzień zapisania notatki HH godzina zapisania notatki MM minuta zapisania notatki Wszystkie pliki w ramach formatu mają to samo kodowanie. Dopuszczalne kodowania znaków, jakie mogą wystąpić to: Windows 1250 ISO-8859-2 UTF-8 Dodatkowo zostaną w ramach poszczególnych zadań udostępnione dodatkowe pliki. Poniżej opis struktury danych per zadanie: Zadanie 2 test_kategoryzacji_n.txt (gdzie N=1,2,3,4,5) plik zawiera, podobnie jak pliki.not, tylko treść do analizy. Zadanie 6 leki.txt plik zawiera listę leków potrzebnych do wykonania zadania. Nazwy poszczególnych leków przechowywane są w osobnych wierszach. Plik w pierwszym wierszu ma nazwę pierwszego leku (brak nagłówka) objawy.txt plik zawiera listę objawów potrzebnych do wykonania zadania. Nazwy poszczególnych objawów przechowywane są osobnych wierszach. Plik w pierwszym wierszu ma nazwę pierwszego objawu (brak nagłówka) 5

Zadanie 8 zadanie8.xlsx arkusz w programie MS Excel o następującej strukturze: indeks opis flaga Kolejna liczba Jednowyrazowa porządkowa Treść notatki nazwa kategorii 6

ZADANIE 1. (GRANICZNE) PRZYGOTOWANIE DANYCH Dane wejściowe - 200 plików w tym: 100 plików not 50 plików PDF 50 plików RTF oraz słownik: slownik_zadanie1.txt zawierający poprawne formy słów, które należy wykorzystać w procesie czyszczenia. W pliku slownik_zadanie1.txt zawiera listę wyrażeń potrzebnych do wykonania zadania. Poszczególne wyrażenia przechowywane są w odrębnych wierszach (brak nagłówka). Treść zadania: Należy wyczyścić otrzymane dane (należy stosować kolejność zgodnie z punktami poniżej) w taki sposób, aby 1. Pozbyć się znaków specjalnych: /n 2. Wykasować wielokrotne spacje z tekstu zamienić na jedną. 3. Wykasować wielokrotne występowanie znaków: *-~= wykasować tylko wielokrotne wystąpienia 4. ustandaryzować dane na bazie słownika. Proces musi wykorzystywać dane z dostarczonego słownika (slownik_zadanie1.txt) i tak skonstruować proces czyszczenia danych, aby dokonać korekty błędów w zapisie poszczególnych wyrazów. Błędy, które należy uwzględnić to: o brak polskich znaków (tylko w kontekście dostarczonego słownika) np. zglaszac poprawić na zgłaszać. o literówki jednoznaczne dopasowania do słownika w oparciu o dystans edycyjny Levenshteina. Próg odcięcia dla dystansu edycyjnego to 1 operacja prosta dla wyrazów o długości od 3 do 5 znaków oraz 3 operacje proste dla wyrazów dłuższych niż 5 znaków. 5. Dokonać standaryzacji formatu danych wejściowych do formatu plików tekstowych w kodowaniu znaków UTF-8 Tak przygotowane dane należy załadować do systemu, aby były dostępne dla narzędzi kategoryzujących teksty. W ramach wyniku należy dostarczyć: 1. Raport HTML przedstawiający: a. Miary w postaci liczby dokonanych zmian dla punktów 1-3, w podziale na poszczególne punkty. Reguły należy nakładać w kolejności podanej w zadaniu. b. Miary w postaci liczby skorygowanych wyrazów dla punktu 4 7

c. Miary w postaci liczby plików po konwersji oraz ich całkowitego rozmiaru na dysku dla punktu 5 2. Zrzut ekranu z porównania dokumentu, w którym dokonano najwięcej zmian. Na zrzucie ekranu należy przedstawić tekst przed i po wykonaniu kroków 1-4 z wyraźnym zaznaczeniem (np. kontrastowym tłem) dokonanych poprawek. 3. Komplet wyczyszczonych plików po zmianach w folderze WYNIK_ZADANIE1. Wyniki: wszystkie pliki (pliki, zrzuty ekranu) należy umieścić w folderze WYNIK_ZADANIE1. Zadanie jest uznane za wykonane, gdy: uzyskana zostanie pełna zgodność z wartościami oczekiwanymi dla punktów 1.a, 1.b, 1.c opisu wymaganych wyników zadania. dostarczone zrzuty ekranów zgodne z treścią zadania oraz wymaganiami SIWZ. Za poprawnie wykonane zadanie Wykonawca otrzyma 3 punkty. 8

ZADANIE 2. (GRANICZNE) KATEGORYZACJA TREŚCI Z UŻYCIEM REGUŁ LOGICZNYCH I JĘZYKOWYCH Dane wejściowe dane oczyszczone z zadania 1. Treść zadania: Należy przygotować odpowiednią kategoryzację tekstu. Kategoryzacja tekstu musi wykorzystywać natywne mechanizmy języka polskiego. Poniżej dostępna jest konfiguracja 5 kategorii: 1. Kategoria I Kategoria: Wszystkie skierowania Reguła słownie: Tekst musi zawierać co najmniej jedno wystąpienie jakiejkolwiek formy słowa skierować (wykorzystujemy tzw. steming) 2. Podkategoria I (teksty rozpatrywane w ramach kategorii I) Kategoria: Skierowani na badania Reguła słownie: Tekst zawierające słowo skierowana lub skierowany oraz badania lub badanie w odległości nie większej niż 5 wyrazów między sobą (pierwszy wyraz jest to kolejny wyraz obok badanego słowa). 3. Podkategoria II (teksty rozpatrywane w ramach kategorii I) Kategoria: Co najmniej 2 skierowania Reguła słownie: Tekst zawierający minimum dwa wystąpienia słowa skierowana lub skierowany w dokumencie 4. Kategoria II Kategoria: Zgłoszenia Reguła słownie: Tekst musi zawierać jakąkolwiek formę czasownika zgłaszać lub zgłosić, ale nie może zawierać jakiejkolwiek formy rzeczownika od tych czasownika (rzecz. Zgłoszenie) 5. Kategoria III Kategoria: Co najmniej 3 słowa powiązane ze skierowaniami Reguła słownie: Wybieramy próg o wartości 3, który jest sumą iloczynu wystąpień słów i przypisanych im wag. Tworzymy listę szukanych słów skierowana, skierowano, skierowanie z wagą 1,0. rtg, mr, echo, mammografia, krew, ct, usg, nmr, markery, kontrolne, rozszerzone z wagą 0,5. Po stworzeniu wyżej przedstawionej kategoryzacji należy wykonać zrzuty ekranu przedstawiające w interfejsie aplikacji następujące elementy: 1. Taksonomię, 2. Stworzone reguły dla każdej kategorii i podkategorii 9

Po udokumentowaniu stworzonej taksonomii wraz z regułami należy zademonstrować, w jaki sposób narzędzie umożliwia testowanie reguł. W tym celu należy zapisać w postaci zrzutów ekranu okna demonstrujące testowanie reguł na następujących dokumentach: 1. test_kategoryzacji_1.txt testowanie Kategorii I 2. test_kategoryzacji_2.txt testowanie Podkategorii I 3. test_kategoryzacji_3.txt testowanie Podkategorii II 4. test_kategoryzacji_4.txt - testowanie Kategorii II 5. test_kategoryzacji_5.txt - testowanie Kategorii III W ramach zrzutów ekranu należy przedstawić: 1. Ekran pokazujący sposób testowania poprawnej składni reguł, dla każdej kategorii oraz podkategorii 2. Ekran pokazujący sposób testowania działania reguł, dla każdej kategorii oraz podkategorii Do testowania należy wykorzystać pliki przeznaczone do danej kategorii W ramach wyniku należy dostarczyć: 1. Raport klasyfikacji każdego dokumentu ze zbioru wejściowego (200 plików) dla zbudowanej taksonomii. 2. Zrzuty ekranu taksonomii i reguły dla każdej kategorii i podkategorii 3. Zrzuty ekranu pokazujący sposób testowania poprawnej składni reguł 4. Zrzuty ekranu pokazujący sposób testowania działania reguł Wyniki: wszystkie pliki należy umieścić w folderze WYNIK_ZADANIE2 Ocena poprawności: Zadanie jest uznane za wykonane gdy: uzyskana zostanie pełna zgodność z wartościami oczekiwanymi dla punktu 1 opisu wymaganych wyników zadania. dostarczone zostaną zrzuty ekranów zgodne z treścią zadania oraz wymaganiami SIWZ. Za poprawnie wykonane zadanie Wykonawca otrzyma 8 punktów: 10

ZADANIE 3. (GRANICZNE) BUDUJEMY KLASYFIKATOR STATYSTYCZNY Dane wejściowe - 1000 plików (ZADANIE3) w tym: 800 plików not 100 plików PDF 100 plików RTF oraz 200 plików testowych (folder ZADANIE3_TEST) w tym: 100 plików not 50 plików PDF 50 plików RTF Treść zadania: Należy wykorzystać dokumenty z folderu ZADANIE3 wraz z określonym poniżej przypisaniem do kategorii w celu budowy taksonomii: 1. Układ rozrodczy folder R 2. Układ pokarmowy folder P 3. Układ oddechowy folder O 4. Układ kostny folder K Tak zdefiniowane dane wejściowe do zadania należy wykorzystać do zbudowania klasyfikatora statystycznego, na bazie zbioru uczącego utworzonego z powyższych danych, który będzie mógł zostać wykorzystany do klasyfikowania nowych tekstów. Klasyfikator statystyczny powinien zapewniać poprawność klasyfikacji powyżej 90% dla danych wejściowe. W celu udokumentowania zadania należy przedstawić wynik kategoryzacji dokumentów z folderu ZADANIE3_TEST. Dodatkowo należy stworzyć dokument zawierający charakterystykę zastosowanych modeli statystycznych wykorzystanych przy kategoryzacji (co najmniej: użyte algorytmy lub metody, architektura modelu - wzór modelu lub np. struktura sieci o ile istnieje dla wybranej metody, odniesienie do publikacji opisującej daną metodę) oraz zaprezentować w zależności od przyjętej techniki modelowania składowe modelu lub zidentyfikowane reguły. Dla każdego nowego dokumentu (dokument z folderu ZADANIE3_TEST) należy podać metodę liczenia precyzji dopasowania oraz wynikową miarę dla tego wskaźnika. W ramach wyniku należy dostarczyć: 1. Raport HTML przedstawiający miarę poprawności modelu na danych wejściowych z folderu ZADANIE3 11

2. Raport HTML z klasyfikacji danych z folderu ZADANIE3_TEST wraz z miarą precyzji dopasowania 3. Dokument zawierający charakterystykę zastosowanych modeli statystycznych Wyniki: wszystkie pliki należy umieścić w folderze WYNIK_ZADANIE3 Zadanie jest uznane za wykonane, gdy: uzyskana zostanie zgodność z zakładanym progiem dla punktu 1 opisu wymaganych wyników zadania, dostarczony zostanie raport zgodnie ze specyfikacją punktu 2 opisu wymaganych wyników zadania oraz strukturalnie zgodnie z raportem wykonanym dla punktu 1 opisu wymaganych wyników zadania, dostarczony zostanie dokument zgodny z treścią zadania i zostaną wykorzystane metody zgodne z wymaganiami SIWZ. Za poprawnie wykonane zadanie Wykonawca otrzyma 6 punktów. 12

ZADANIE 4. KLASYFIKACJA DOKUMENTÓW Z WYKORZYSTANIEM KONDYCJI CHOREGO, SAMOPOCZUCIA Dane wejściowe - 300 plików (ZADANIE4) w tym: 100 plików not 100 plików PDF 100 plików RTF oraz 200 plików testowych (folder ZADANIE4_TEST) w tym: 100 plików not 50 plików PDF 50 plików RTF Treść zadania: Zadanie będzie wykonywane na tekstach notatek przygotowywanych przez lekarzy. Zbiór danych wejściowych będzie zawierał 300 oczyszczonych gotowych do analizy plików. Należy na podstawie zbioru tekstów z folderu ZADANIE4 zbadać ogólne samopoczucie chorego. Klasyfikacji należy dokonać z uwzględnieniem poniższych poziomów z wykorzystaniem odmian różnych wyrazów wiążących się z samopoczuciem i przypisać teksty do określonej kategorii: 1. dobre drobne lub brak dolegliwości może występować złe samopoczucie i brak innych objawów (np. ból) 2. średnie stan średni, osłabienie, zmęczenie, występują bóle 3. złe stan zły, silne bóle Klasyfikację i dobór reguł do klasyfikacji należy przygotować na bazie analizy danych źródłowych. Do analizy należy wykorzystać analizę eksploracyjną oraz inne dostępne w narzędziach funkcjonalności analizy danych. W ramach dokumentowania należy podać reguły oraz frazy, które posłużyły do kategoryzacji tekstów. Wszystkie dokumenty źródłowe muszą być sklasyfikowane. Dopuszczalny jest 10% błąd sklasyfikowania dokumentów. Teksty w dokumentach należy parsować wykorzystując natywne reguły języka polskiego. Przy wykonywaniu zadania należy zignorować znaki interpunkcyjne oraz następujące części mowy: Czasownik posiłkowy Określnik Partykuła Przyimek Spójnik Wykrzyknik Zaimek 13

W ramach dokumentacji zadania należy stworzyć raport z parsowania wszystkich dokumentów źródłowych (300 plików), który będzie przedstawiał następujące elementy z pominięciem wyszczególnionych wyżej części mowy: Liczba wyrazów z podziałem na części mowy. Wykres ZIPF Wykres liczba dokumentów vs liczność dla zidentyfikowanych terminów (diagram punktowy/wykres rozproszenia) Raport musi być dostępny w narzędziu raportowym dostępnym z przeglądarki internetowej. W narzędziu raportowym należy zdefiniować dynamiczny warunek, prezentujący jedynie terminy występujące częściej niż podana jako parametr wartość. Kolejny krokiem zadania jest przypisać wagi dla częstości oraz terminu. W tym celu należy wykorzystać następujące miary: Logarytmiczną na poziome terminu, czyli 1+log (częstość występowania terminu w dokumencie). Entropię na poziome korpusu (kolekcji dokumentów źródłowych) po sprowadzeniu terminów do form podstawowych (ang. stemming). Po dokonaniu procesu ważenia należy przedstawić raport tabelaryczny z kolumnami: termin, liczebność, liczba dokumentów, waga (w oparciu o entropie) dla terminów: badanie, pacjent, rak, pierś, serce, blizna, węzeł, dawka, guzek, kość. Jako wynik pośredni, po wykonaniu procesu ważenia, należy przedstawić raport tabelaryczny zawierającą nazwę dokumentu i przypisaną kategorię (dobre, średnie, złe). Bazując na tabeli z poprzedniego kroku należy stworzyć model oceniający automatycznie kondycję pacjenta. Należy podzielić tabelę wejściową (dokument z przypisaną kategorią) na zbiór treningowy i walidacyjny w podziale 70/30 procent. Następnie należy porównać między sobą siłę klasyfikacji następujących modeli: regresji logistycznej, drzewa decyzyjnego, sieci neuronowej. W ramach dokumentacji wyniku należy zapisać w postaci raportu statystyki precyzji dopasowania dla każdego modelu oraz wykresy precyzji dopasowania typu lift oraz ROC. Należy również przetestować wszystkie modele klasyfikacyjne na zbiorze testowym z folderu ZADANIE4_TEST. Jako wynik należy przedstawić raport tabelaryczny zawierającą nazwę dokumentu i przypisaną kategorię. W ramach wyników zadania należy dostarczyć: 1. Raport z parsowania wszystkich dokumentów zrzut ekranu z narzędzie raportowego WWW. 2. Raport tabelaryczny z kolumnami: termin, liczebność, liczba dokumentów, waga (w oparciu o entropie) dla terminów HTML/DOC/PDF 14

3. Raport tabelaryczny zawierającą nazwę dokumentu i przypisaną kategorię HTML/DOC/PDF 4. Raportu statystyki precyzji dopasowania HTML/DOC/PDF 5. Raport tabelaryczny zawierającą nazwę dokumentu i przypisaną kategorię dla nowych danych testowych Wyniki: wszystkie pliki należy umieścić w folderze WYNIK_ZADANIE4 Zadanie jest uznane za wykonane, gdy: Uzyskana zostanie pełna zgodność z wartościami oczekiwanymi dla raportów z punktów 1,2 wymaganych wyników zadania. dostarczone raporty z punktów 3-5 wymaganych wyników zadania, zgodne z treścią zadania oraz wymaganiami SIWZ. Za poprawnie wykonane zadanie Wykonawca otrzyma: punkt 1 i 2 opisu wymaganych wyników zadania: 6 punktów, za wykonanie pozostałych zadań: 4 punkty. 15

ZADANIE 5. ZMIERZ POWIĄZANIE NOTATEK Dane wejściowe - 50 plików (ZADANIE5) w tym: 30 plików not 10 plików PDF 10 plików RTF Treść zadania: Dla kolekcji dokumentów z folderu o nazwie ZADANIE5 (50 dokumentów, 30 not, 10 pdf, 10 rtf) należy znaleźć dokumenty o największym stopniu podobieństwa. Do redukcji wymiarów macierzy dokumentów należy wykorzystać dekompozycję SVD. Następnie należy porównać podobieństwo tekstów wykorzystując zredukowane wymiary z dekompozycji SVD. Jako miarę podobieństwa należy wybrać miarę cosinusów. W ramach wyniku zadania należy wskazać 5 notatek najbardziej podobnych do siebie na podstawie uzyskanych miar cosinusów. Listę tych notatek wraz z miarami podobieństwa należy zapisać w formie raportu HTML. W ramach wyników zadania należy dostarczyć: 1. Raport 5 notatek najbardziej podobnych do siebie - HTML Wyniki: wszystkie pliki należy umieścić w folderze WYNIK_ZADANIE5 Zadanie jest uznane za wykonane gdy: uzyskana zostanie pełna zgodność z wartościami oczekiwanymi dla raportu z punktu 1 wymaganych wyników zadania. Za poprawnie wykonane zadanie Wykonawca otrzyma 5 punktów. 16

ZADANIE 6. SZUKAMY POWIĄZAŃ POMIĘDZY OBJAWAMI I LEKAMI Dane wejściowe - 1000 plików (ZADANIE6) w tym: 800 plików NOT 100 plików PDF 100 plików RTF oraz dodatkowo słownik zawierający nazwy leków leki.txt oraz objawów objawy.txt. Pliki zawierają nazwy leków bądź objawów w kolejnych linijkach pliku tekstowego. Treść zadania: Należy dokonać ekstrakcji nazw leków i objawów z kolekcji dokumentów używając słowników z folderu ZADANIE6 (objawy.txt, leki.txt). W przypadku objawów należy dodatkowo wykorzystać wszystkie odmiany terminów ze słownika dla języka polskiego (np. ból, boli, bolący itp.). Następnie należy zmierzyć korelację przy wykorzystaniu następujących metod: Pearsona, Spearmana, Kendalla między objawami i zastosowanymi lekami. Korelację należy przedstawić w postaci diagramu typu mapa cieplna (ang. heat map), gdzie na osi y mamy poszczególne objawy, a na osi x leki. Wykres musi być również dostępny w narzędziu raportowym dostępnym z przeglądarki internetowej. Należy przygotować raporty dla każdej metody liczenia korelacji. W ramach wyniku należy dodatkowo stworzyć 3 raporty HTML (dla każdej metody) zawierający co najmniej 5 najbardziej skorelowanych leków i objawów. W ramach wyników zadania należy dostarczyć: 1. 3 raporty zawierające diagram typu mapa cieplna HTML/DOC/PDF 2. zrzut ekranu narzędzia WWW przedstawiające diagram typu mapa cieplna 3. 3 raporty HTML zawierający co najmniej 5 najbardziej skorelowanych leków i objawów Wyniki: wszystkie pliki należy umieścić w folderze WYNIK_ZADANIE6 Zadanie jest uznane za wykonane, gdy: uzyskana zostanie zgodność z wartościami oczekiwanymi dla raportów z punktów 1, 3 wymaganych wyników zadania, dostarczone zrzuty ekranów dla punktu 2 wymaganych wyników zadania, zgodne z treścią zadania oraz wymaganiami SIWZ. 17

Za poprawnie wykonane zadanie Wykonawca otrzyma 6 punktów. 18

ZADANIE 7. GRUPOWANIE HIERARCHICZNE KOLEKCJI DOKUMENTÓW Dane wejściowe - 1000 plików (ZADANIE7) w tym: 800 plików NOT 100 plików PDF 100 plików RTF Treść zadania: Należy wykorzystać listę objawów i ich odmiany z zadania 6 (objawy.txt) jako listę filtrującą. Listę tę należy wykorzystać do parsowania kolekcji dokumentów znajdującej się w folderze ZADANIE7. Należy zbudować kategoryzację hierarchiczną, która pokaże jakie związki istnieją pomiędzy poszczególnymi objawami. Do kategoryzacji hierarchicznej wykorzystaj minimalną wariancję Ward a, (jako miarę dystansu między klastrami należy wykorzystać odległość euklidesową). W ramach wyników zadania należy dostarczyć 1. Dokument zawierający charakterystykę zastosowanej metody hierarchicznej, co najmniej: użyte algorytmy lub metody, przedstawić metodę budowania zależności między klastrami, np. dendrogram lub wykres budowania segmentów przedstawić diagram zależności między klastrami 2. Raport HTML przedstawiający wyniki w formie diagramu/grafu na podobieństwo diagramu sieci społecznościach 3. Raport tabelaryczny HTML przedstawiający odległości między skupieniami, raport powinien zawierać skupienie1, skupienie2, odległość. 4. Wyniki: wszystkie pliki należy umieścić w folderze WYNIK_ZADANIE7 Zadanie jest uznane za wykonane, gdy: Dostarczony dokument z punktu 1 wymaganych wyników zadania, zgodny z treścią zadania i wykorzystanie metod zgodnych z wymaganiami SIWZ. Raporty HTML z punktu 2 i 3 wymaganych wyników zadania, zgodne z treścią zadania i wymaganiami SIWZ. Za poprawnie wykonane zadanie Wykonawca otrzyma 5 punktów. 19

ZADANIE 8. BUDOWA MODELU NA DOKUMENTACH POSIADAJĄCYCH TAGI Dane wejściowe - 400 notatek w pliku MS Excel (ZADANIE8) oraz dodatkowo 1000 notatek w pliku MS Excel (ZADANIE8_TEST) Struktura pliku MS Excel: indeks OPIS Flaga Treść zadania: Na podstawie pliku w formie MS Excel (xlsx) z folderu ZADANIE8 należy zbudować model, w oparciu o dokumenty posiadające przypisane tagi, który będzie służył do automatycznej kategoryzacji. Należy podzielić dane wejściowe na zbiór treningowy i walidacyjny w podziale 70/30 procent. Należy porównać między sobą siłę klasyfikacji następujących modeli: regresji logistycznej, drzewa decyzyjnego, sieci neuronowej. Następnie należy stworzyć raport przedstawiający miarę poprawnej klasyfikacji dla najlepszej metody oraz raport przedstawiający wykresy precyzji dopasowania typu lift oraz ROC. W ramach kolejnego kroku zadania należy dokonać oceny punktowej zbioru z folderu ZADANIE8_TEST. W ramach wyników zadania należy dostarczyć: 1. Raport HTML przedstawiający miarę poprawnej klasyfikacji dla najlepszej metody zakładany akceptowalny poziom 90%. 2. Raport HTML przedstawiający wykresy precyzji dopasowania typu lift oraz ROC. 3. Raport HTML przedstawiający klasyfikację przy wykorzystaniu najlepszej metody z pierwszej części zadania dla zbioru testowego. Wyniki: wszystkie pliki należy umieścić w folderze WYNIK_ZADANIE8 Zadanie jest uznane za wykonane, gdy: uzyskana zostanie pełna zgodność z wartościami oczekiwanymi dla raportu z punktu 1 wymaganych wyników zadania, raporty HTML z punktów 2 i 3 wymaganych wyników zadania, zgodne z treścią zadania i wymaganiami SIWZ. Za poprawnie wykonane zadanie Wykonawca otrzyma: punkt 1 opisu wymaganych wyników zadania: 4 punkty. za wykonanie pozostałych zadań: 3 punkty. 20