ZASTOSOWANIE TECHNIK EKSPLORACJI DANYCH DO ESTYMACJI PRACOCH ONNO CI PROJEKTÓW INFORMATYCZNYCH

Podobne dokumenty
ZASTOSOWANIE TECHNIK EKSPLORACJI DANYCH DO ESTYMACJI PRACOCHŁONNO CI PROJEKTÓW INFORMATYCZNYCH

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Objaśnienia do Wieloletniej Prognozy Finansowej na lata

Harmonogramowanie projektów Zarządzanie czasem

Problemy w realizacji umów o dofinansowanie SPO WKP 2.3, 2.2.1, Dzia anie 4.4 PO IG

ZAANGA OWANIE PRACOWNIKÓW W PROJEKTY INFORMATYCZNE

U M O W A. zwanym w dalszej części umowy Wykonawcą

Lublin, Zapytanie ofertowe

KOMISJA WSPÓLNOT EUROPEJSKICH. Wniosek DECYZJA RADY

INDATA SOFTWARE S.A. Niniejszy Aneks nr 6 do Prospektu został sporządzony na podstawie art. 51 Ustawy o Ofercie Publicznej.

Efektywna strategia sprzedaży

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Załącznik Nr 2 do Uchwały Nr 161/2012 Rady Miejskiej w Jastrowiu z dnia 20 grudnia 2012

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

ZASADY WYPEŁNIANIA ANKIETY 2. ZATRUDNIENIE NA CZĘŚĆ ETATU LUB PRZEZ CZĘŚĆ OKRESU OCENY

ZASADY PROWADZENIA CERTYFIKACJI FUNDUSZY EUROPEJSKICH I PRACOWNIKÓW PUNKTÓW INFORMACYJNYCH

Opis przyjętych wartości do wieloletniej prognozy finansowej Gminy Udanin na lata

Zastosowanie technik eksploracji danych do estymacji pracochłonności i czasu trwania projektów informatycznych

AUTOR MAGDALENA LACH

DE-WZP JJ.3 Warszawa,

Zaproszenie. Ocena efektywności projektów inwestycyjnych. Modelowanie procesów EFI. Jerzy T. Skrzypek Kraków 2013 Jerzy T.

Jak usprawnić procesy controllingowe w Firmie? Jak nadać im szerszy kontekst? Nowe zastosowania naszych rozwiązań na przykładach.

HTA (Health Technology Assessment)

RZECZPOSPOLITA POLSKA. Prezydent Miasta na Prawach Powiatu Zarząd Powiatu. wszystkie

WYDZIAŁ MATEMATYCZNO PRZYRODNICZY. SZKOŁA NAUK

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

KOMISJA WSPÓLNOT EUROPEJSKICH, uwzględniając Traktat ustanawiający Wspólnotę Europejską, ROZDZIAŁ 1

4.3. Struktura bazy noclegowej oraz jej wykorzystanie w Bieszczadach

ruchu. Regulując przy tym w sposób szczegółowy aspekty techniczne wykonywania tych prac, zabezpiecza odbiorcom opracowań, powstających w ich wyniku,

Opis modułu analitycznego do śledzenia rotacji towaru oraz planowania dostaw dla programu WF-Mag dla Windows.

Krótkoterminowe planowanie finansowe na przykładzie przedsiębiorstw z branży 42

Edycja geometrii w Solid Edge ST

OPIS PRZEDMIOTU ZAMÓWIENIA DO ZAPYTANIA KE1/POIG 8.2/13

Metody wyceny zasobów, źródła informacji o kosztach jednostkowych

Prezentacja dotycząca sytuacji kobiet w regionie Kalabria (Włochy)

REGULAMIN REALIZACJI PROJEKTÓW EDUKACYJNYCH W GIMNAZJUM W MIEJSKIEJ GÓRCE. Ustalenia ogólne

Nowości w module: BI, w wersji 9.0

KRYTERIA DOSTĘPU. Działanie 2.1,,E-usługi dla Mazowsza (typ projektu: e-administracja, e-zdrowie)

UKŁAD ROZRUCHU SILNIKÓW SPALINOWYCH

Zamieszczanie ogłoszenia: obowiązkowe. Ogłoszenie dotyczy: zamówienia publicznego. SEKCJA I: ZAMAWIAJĄCY

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Warunki Oferty PrOmOcyjnej usługi z ulgą

Załącznik nr 4 WZÓR - UMOWA NR...

Objaśnienia wartości, przyjętych do Projektu Wieloletniej Prognozy Finansowej Gminy Golina na lata

Wprowadzenie do zarządzania procesami biznesowymi czym są procesy biznesowe: Part 1

Satysfakcja pracowników 2006

ZARZĄDZENIE NR 11/2012 Wójta Gminy Rychliki. z dnia 30 stycznia 2012 r. w sprawie wdrożenia procedur zarządzania ryzykiem w Urzędzie Gminy Rychliki

Procesy rozwiązywania problemów. Diagnozowanie problemu: metody graficzne (1).

Regu g l u a l min i n w s w pó p ł ó p ł r p acy O ow o iązuje od dnia

Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego ZAPYTANIE OFERTOWE

Banki, przynajmniej na zewnątrz, dość słabo i cicho protestują przeciwko zapisom tej rekomendacji.

KONCEPCJA NAUCZANIA PRZEDMIOTU RACHUNKOWOŚĆ SKOMPUTERYZOWANA" NA WYDZIALE ZARZĄDZANIA UNIWERSYTETU GDAŃSKIEGO

Modernizacja siedziby Stowarzyszenia ,05 Rezerwy ,66 II

Lokalne kryteria wyboru operacji polegającej na rozwoju działalności gospodarczej

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

RAPORT Z EWALUACJI WEWNĘTRZNEJ. w Poradni Psychologiczno-Pedagogicznej w Bełżycach. w roku szkolnym 2013/2014

Zamawiający potwierdza, że zapis ten należy rozumieć jako przeprowadzenie audytu z usług Inżyniera.

PROCEDURA OCENY RYZYKA ZAWODOWEGO. w Urzędzie Gminy Mściwojów

GŁÓWNY URZĄD STATYSTYCZNY Departament Przedsiębiorstw. Grupy przedsiębiorstw w Polsce w 2008 r.

Zmiany w Podstawie programowej przedmiotów informatycznych

Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia prostopadłościennego za pomocą arkusza kalkulacyjngo.

Projektowanie bazy danych

Warszawa: Dostawa kalendarzy na rok 2017 Numer ogłoszenia: ; data zamieszczenia: OGŁOSZENIE O ZAMÓWIENIU - dostawy

Polska-Warszawa: Usługi skanowania 2016/S

PROJEKTOWANIE PROCESÓW PRODUKCYJNYCH

REGULAMIN KONTROLI ZARZĄDCZEJ W MIEJSKO-GMINNYM OŚRODKU POMOCY SPOŁECZNEJ W TOLKMICKU. Postanowienia ogólne

U S T A W A. z dnia. o zmianie ustawy o ułatwieniu zatrudnienia absolwentom szkół. Art. 1.

CASE CPI może być wczesnym wskaźnikiem tendencji zmian cen w gospodarce

ZAPYTANIE OFERTOWE. Nazwa zamówienia: Wykonanie usług geodezyjnych podziały nieruchomości

Procedura weryfikacji badania czasu przebiegu 1 paczek pocztowych

Odpowiedzi na pytania zadane do zapytania ofertowego nr EFS/2012/05/01

Strona Wersja zatwierdzona przez BŚ Wersja nowa 26 Dodano następujący pkt.: Usunięto zapis pokazany w sąsiedniej kolumnie

PRÓG RENTOWNOŚCI i PRÓG

ZAPYTANIE OFERTOWE NR 1

17 Maja Zwi zek pomi dzy celami kszta cenia a ocenianiem Rodzaje oceniania. Metody oceniania wyników/osi gni kszta cenia G.

Sprawozdanie z II warsztatów

Możemy zapewnić pomoc z przeczytaniem lub zrozumieniem tych informacji. Numer dla telefonów tekstowych. boroughofpoole.

Projekt i etapy jego realizacji*

Trwałość projektu co zrobić, żeby nie stracić dotacji?

Karta audytu wewnętrznego w Starostwie Powiatowym w Kielcach

Wrocław, 20 października 2015 r.

ZAPYTANIE OFERTOWE z dnia r

Program Operacyjny Innowacyjna Gospodarka

WYMAGANIA EDUKACYJNE SPOSOBY SPRAWDZANIA POSTĘPÓW UCZNIÓW WARUNKI I TRYB UZYSKANIA WYŻSZEJ NIŻ PRZEWIDYWANA OCENY ŚRÓDROCZNEJ I ROCZNEJ

Waldemar Szuchta Naczelnik Urzędu Skarbowego Wrocław Fabryczna we Wrocławiu

MINISTERSTWO PRACY I POLITYKI SPOŁECZNEJ

Excel w logistyce - czyli jak skrócić czas przygotowywania danych i podnieść efektywność analiz logistycznych

Ewidencjonowanie nieruchomości. W Sejmie oceniają działania starostów i prezydentów

Zarządzanie projektami IT

Oświadczenie o stanie kontroli zarz ądczej Starosty Powiatu Radomszcza ńskiego za rok 2014

REGULAMIN WSPARCIA FINANSOWEGO CZŁONKÓW. OIPiP BĘDĄCYCH PRZEDSTAWICIELAMI USTAWOWYMI DZIECKA NIEPEŁNOSPRAWNEGO LUB PRZEWLEKLE CHOREGO

ZAPYTANIE OFERTOWE NR 01/8.1/PO IG DOTYCZY ZAPROJEKTOWANIA, STWORZENIA I WDROŻENIA SYSTEMU INFORMATYCZNEGO SŁUŻĄCEGO DO ŚWIADCZENIA E-USŁUGI

KLAUZULE ARBITRAŻOWE

Programowanie Zespołowe

Nadzór nad systemami zarządzania w transporcie kolejowym

Gospodarowanie mieniem Województwa

BENEFICJENT 1.1 NAZWA I ADRES BENEFICJENTA

Nazwa kierunku Gospodarka przestrzenna

Transkrypt:

ZASTOSOWANIE TECHNIK EKSPLORACJI DANYCH DO ESTYMACJI PRACOCH ONNO CI PROJEKTÓW INFORMATYCZNYCH ANDRZEJ KOBYLIŃSKI, PRZEMYSŁAW POSPIESZNY Streszczenie W dzisiejszym wiecie opartym na wiedzy, informacja stanowi o przewadze konkurencyjnej i decyduje o szybko ci adaptacji do wymaga rynku. W ostatnich latach techniki pozyskiwania wiedzy, takie jak eksploracja danych (ang. data mining), znalaz y powszechne zastosowanie w ró norodnych dyscyplinach jako narz dzia wsparcia procesu decyzyjnego, dostarczaj c kluczowych informacji zarz dczych. S one wykorzystywane w szczególno ci do problematyki, gdzie wyst puje du a niepewno i prawdopodobie stwo zaistnienia niekorzystnych zjawisk. W odniesieniu do zarz dzania projektami informatycznymi, techniki eksploracji danych umo liwiaj szeroki zakres zastosowa, w tym przede wszystkim do rozwi zywania problemów pojawiaj cych si w pocz tkowych fazach przedsi wzi informatycznych, a zwi zanych z planowaniem zasobów niezb dnych do zako czenia projektu sukcesem. Celem tego artyku u jest przedstawienie mo liwo ci zastosowania algorytmów data mining do estymacji pracoch onno ci inicjatyw informatycznych we wst pnych etapach realizacji projektów, gdy informacja o wytwarzanym produkcie ko cowym jest niepe na. W pracy dokonano porównania dok adno ci szacunków otrzymanych przy pomocy trzech powszechnie uznawanych za efektywne technik predykcyjnych: ogólnych modeli liniowych, sieci neuronowych i drzew decyzyjnych CHAID. Omówiono mo liwo wdro enia tych technik w praktyce, jako narz dzi wsparcia decyzyjnego. S owa kluczowe: eksploracja danych, data mining, algorytmy predykcyjne, zarz dzanie projektami informatycznymi, estymacja pracoch onno ci, szacowanie rozmiaru oprogramowania Wst p Zarz dzanie projektami pojawia o si od zarania dziejów, jednak najwi kszy rozwój i popularyzacja tej dyscypliny przypada na drug po ow 20. wieku. W latach 60. metodyki i narz dzia zarz dzania inicjatywami zosta y zastosowane w szerokim zakresie do realizacji z o onych przedsi wzi przez takie organizacje, jak NASA i IBM. W tamtym te okresie powsta y organizacje odpowiedzialne za powstanie wielu standardów prowadzenia projektów, takie jak Project Management Institute (PMI) oraz International Project Management Association (IPMA). Dyscyplina zarz dzania projektami odgrywa w dzisiejszym wiecie wa n rol. Wynika to z wszechobecno ci aplikacji informatycznych, które zosta y wytworzone w procesie realizacji projektu. To dzi ki rozwi zaniom informatycznym istnieje mo liwo automatyzacji procesów zarz dzania i wytwarzania dóbr oraz podejmowania racjonalnych decyzji, w oparciu o dostarczone 67

Andrzej Kobyli ski, Przemys aw Pospieszny Zastosowanie technik eksploracji danych do estymacji pracoch onno ci projektów informatycznych informacje zarz dcze. W rezultacie mo e si to prze o y na redukcj kosztów, usprawnienie komunikacji, czy te popraw efektywno ci zachodz cych procesów [1, 33]. Realizacja projektów informatycznych jest ograniczana przez trzy sta e projektu, takie jak: ramy czasowe, bud et oraz zakres. Definiowane s one w pocz tkowych etapach przedsi wzi, celem okre lenia op acalno ci inicjatyw, zdefiniowania przypadków biznesowych oraz zaplanowania prac zwi zanych z wytworzeniem produktu ko cowego. Jednak zgodnie z przeprowadzonymi badaniami [2] [3], w ostatnim 20-leciu mo na by o zaobserwowa, e w znacznym odsetku projektów nie uda o si utrzyma pierwotnie przyj tych za o e odno nie do bud etu, harmonogramu i zakresu. Zjawisko to cz sto prowadzi do zaniechania rozpocz tych ju przedsi wzi, gdy okazuje si, e koszt realizacji przewy sza potencjalne korzy ci z wdro enia systemu lub czas realizacji nie gwarantuje osi gni cia przewagi konkurencyjnej. Przyjmuje si, e jedn z przyczyn powy szych zjawisk s zaniedbania poczynione w procesie planowania projektu [4], kiedy to definiowane s za o enia inicjatywy, odnosz ce si w szczególno ci do pracoch onno ci. Okre lenie pracoch onno- ci jest istotne, gdy od niej zale y czas i bud et, jaki nale y zapewni wykonawcom, by ci mogli skutecznie opracowa produkt ko cowy. Estymacja pracoch onno ci zwi zanej z realizacj projektu, przeprowadzona w fazie inicjacji lub planowania, jest trudnym zadaniem. Trudno ta wynika z niepe nej wiedzy, jak posiada estymuj cy, na temat zakresu ko cowego produktu i jego funkcjonalno ci. Powszechnie wykorzystywane techniki wspomagaj ce ten proces przewa nie polegaj na szacowaniu przez analogi, ocenie eksperckiej lub przez dekompozycj. U yte przez niedo wiadczonych kierowników projektów dostarczaj b dnych, przewa nie nadmiernie optymistycznych szacunków. Organizacje, w których zarz dzanie projektami stoi na wy szym poziomie, stosuj bardziej zaawansowane metody algorytmiczne, oparte na liniach kodu ród owego (ang. source lines of code, SLOC) lub punktach funkcyjnych (ang. function points, FP). Przyk adami technik wykorzystuj cych te miary s SLIM i COCOMO II. Jednak podej cia te s w znacznej mierze subiektywne [11, 62 63] oraz s abo odzwierciedlaj rzeczywisto, gdy stosowane s wspó czesne j zyki programowania (4GL) [5]. Dodatkowo, wspomniane metody cz sto nie uwzgl dniaj pe nej pracoch onno ci zwi zanej z definiowaniem funkcjonalno ci produktu ko cowego i jego testami [6, 12], wymagaj przeszkolonego personelu oraz przeprowadzenia manualnych, stosunkowo skomplikowanych oblicze. Z powodu wspomnianych niedoskona o ci obecnie stosowanych metod szacowania pracoch onno ci przedsi wzi, pojawi o si zapotrzebowanie na bardziej dok adne i zautomatyzowane metody estymacji tej e pracoch onno ci. W ostatnich dwóch dekadach techniki eksploracji danych (ang. data mining) s szeroko stosowane w ró nych dziedzinach, w szczególno ci do prognozowania zjawisk, w których wyst puje du y poziom niepewno ci i mo liwo ci wyst pienia ryzyka. W odniesieniu do zarzadzania projektami, techniki data mining maj potencjalnie szeroki zakres wykorzystania. Mog by stosowane do predykcji pracoch onno ci, monitorowania z u yciem EVA (ang. earned value analysis) lub te oceny kosztu przysz ego utrzymania systemu. Niniejsza praca po wi cona jest najbardziej istotnemu, z punktu widzenia sukcesu projektu, aspektowi zwi zanego z realizacj przedsi wzi : estymacji pracoch onno ci projektu. Jej celem jest wykazanie, e metody eksploracji danych mog by skutecznie zastosowane do szacowania pracoch onno ci projektów informatycznych. Do tego wykorzystane zostan trzy algorytmy predykcyjne: ogólny model liniowy (ang. generalized linear model, GLM), sie neuronowa i drzewo decyzyjne CHAID. Do budowy modeli wykorzystano dane z bazy projektów informatycznych International Software Benchmarking Standards Group (ISBSG) [7]. W celu okre lenia dok adno ci 68

Studies & Proceedings of Polish Association for Knowledge Management Nr 73, 2015 wymienionych metod do estymowania pracoch onno ci, zdefiniowane zostan kryteria ewaluacji. Pos u one do porównania wyników uzyskanych trzema badanymi algorytmami. Zaprezentowana zostanie dyskusja odno nie do mo liwo ci wykorzystania tych algorytmów w praktyce zarz dzania projektami informatycznymi. 1. Estymacja projektów Szacowanie pracoch onno ci przedsi wzi cia jest jedn z najwa niejszych i stanowi cych najwi ksze wyzwanie czynno ci realizowanych w ramach zarz dzania projektem. Jest ono niezb dne do ustalenia ram projektu w postaci bud etu oraz harmonogramu. Ustalenie tych parametrów projektu pozwala na bie ce mierzenie post pu inicjatywy oraz na jej monitorowanie i kontrolowanie. Wszelkie odchylenia od za o onych parametrów mog by zidentyfikowane, a odpowiednie plany naprawcze wdro one. W wyniku tego kierownik projektu mo e podejmowa dobre decyzje w trakcie sterowania projektem i osi gn za o ony efekt ko cowy w postaci produktu lub us ugi [8, 14]. Rys. 1. Sto ek niepewno ci w projektach, przedstawiaj cy przedzia y szacunkowego kosztu realizacji inicjatyw w poszczególnych krokach milowych ród o: Opracowanie w asne na podstawie [9]. Z o ono procesu szacowania jest uwarunkowana specyfik produktu ko cowego projektu informatycznego, którym jest przewa nie zestaw logicznie po czonych instrukcji i zbioru informacji. Dodatkowo, na etapie estymacji w pocz tkowych fazach inicjatywy, jego posta nie jest w pe ni sprecyzowana, tak wi c wyst puje wysoki poziom niejasno ci i niepewno ci co do jego finalnych funkcjonalno ci. Tak wi c proces szacowania odbywa si na podstawie niepe nej wiedzy, co zwi ksza ryzyko pope nienia b du i mo e skutkowa niepowodzeniem przedsi wzi cia. Jak wynika ze sto ka niepewno ci Boehma z roku 1981 [9], przedstawionego na rys. 1, najwi ksza niepewno 69

Andrzej Kobyli ski, Przemys aw Pospieszny Zastosowanie technik eksploracji danych do estymacji pracoch onno ci projektów informatycznych istnieje w momencie rozpocz cia projektu, kiedy to rzeczywista, ostateczna warto mo e by nawet cztery razy wi ksza lub cztery razy mniejsza od wst pnie szacowanej. Dok adno estymowanych warto ci ro nie wraz z post pem inicjatywy, gdy informacja o produkcie ko cowym staje si pe niejsza. W wyniku post pu technologicznego oraz usprawnie metodyk zarz dzania projektami skala Boehma uleg a sp aszczeniu i obecnie przyjmuje si warto ci b du zwi zanego z estymowaniem parametrów na poziomie +100/-50% dla studium wykonalno ci, +50/-25% dla opracowania wymaga i +20/-10% dla projektowania [10, 111]. 2. Zarz dzanie wiedz w projektach Osi gni cie celów projektu i zako czenie go sukcesem jest w znacznym stopniu uwarunkowane odpowiednim zarz dzaniem wiedz w ramach danej inicjatywy. Wiedza jako zasób jest generowana na ka dym etapie przedsi wzi cia w postaci nieustrukturowanej wiedzy cz onków projektu, jak i sformalizowanego repozytorium informacji i dokumentacji projektowej. Od jej odpowiedniego wykorzystania zale y wytworzenie produktu w ramach za o onego harmonogramu, bud etu, a tak e spe niaj cego wymagania funkcjonalne i jako ciowe u ytkownika ko cowego. Zarz dzanie wiedz w projektach sk ada si z szeregu procesów, maj cych na celu wytwarzanie, u ycie i rozpowszechnianie wiedzy niezb dnej do przeprowadzenia projektu (mikro-wiedzy) oraz przyczyniaj cych si do budowania wiedzy organizacji (makro-wiedza), zwi kszaj c zdolno ci organizacji do osi gania celów biznesowych i tym samym wp ywaj c pozytywnie na prowadzone w ramach przedsi biorstwa inicjatywy [12]. Project Management Institute definiuje 10 podstawowych obszarów wiedzy, w których zgrupowana jest wiedza projektowa generowana w procesie cyklu ycia inicjatywy. Zalicza si do nich zarz dzanie integralno ci projektu, zakresem, czasem, kosztami, jako ci, zasobami ludzkimi, komunikacj, ryzykiem, zaopatrzeniem i interesariuszami [13, 60]. W licznych organizacjach dane o inicjatywach s zbierane i utrzymywane w postaci bazy projektów. Informacja ta, generowana przez zespó projektowy, odnosi si do kluczowych aspektów przedsi wzi cia, czyli kosztu, harmonogramu, jako ci w czasie trwania projektu. Pozwala ona przede wszystkim na monitorowanie i raportowanie trwaj cych projektów, w celu identyfikacji potencjalnych zagro e. Poza tym umo liwia wyci gni cie wniosków z projektów ju zako czonych i u ycie tej wiedzy celem optymalizacji procesu zarz dzania kolejnymi projektami. Tym samym si gaj c po najlepsze praktyki i do wiadczenia organizacje stopniowo zwi kszaj szanse zako czenia inicjatyw sukcesem. Baza projektów stanowi potencjalne ród o zastosowania procesu odkrywania wiedzy (ang. knowledge discovery in databases, KDD), którego jednym z istotnych kroków jest eksploracja danych (ang. data mining). Jest to dziedzina interdyscyplinarna, czerpi ca ze statystyki, matematyki, uczenia maszynowego (ang. machine learning), sztucznej inteligencji (ang. artificial intelligence), a tak e rozpoznawania wzorców (ang. pattern recognition). Polega na analizie du ych zbiorów danych z u yciem modeli w celu wydobycia wzorców, regu i struktur [14, 7]. W ostatnim 20-leciu data mining sta a si dziedzin niezmiernie popularn, której techniki s stosowanie w szerokim spektrum dyscyplin i ga zi przemys u, takich jak bankowo, ubezpieczenia, telekomunikacja, czy medycyna do predykcji przysz ych zjawisk lub te identyfikacji prawid owo ci. Swoj popularyzacj algorytmy eksploracji danych zawdzi czaj przede wszystkim wysok precyzj otrzymanych rezultatów, przez co umo liwiaj redukcj kosztów, zwi kszenie sprzeda y, zwi kszenie rodków na badania i rozwój, tym samym zapewniaj c osi gni cie przewagi konkurencyjnej. 70

Studies & Proceedings of Polish Association for Knowledge Management Nr 73, 2015 Zasadniczo wyró nia si dwie kategorie zada do jakich eksploracja danych mo e by stosowana: opisowe i predykcyjne, które mog by u yte zale nie od oczekiwanego rezultatu. Pierwsza z nich ma na celu scharakteryzowanie w asno ci danych, natomiast predykcja odpowiada za wnioskowanie na podstawie zbioru danych, celem szacowania przysz ych warto ci [15, 21]. W praktyce szczególnie u yteczna jest grupa technik predykcyjnych, które maj charakter uczenia nadzorowanego. Wymagaj one posiadania danych odzwierciedlaj cych badane zjawisko w celu estymacji nowych warto ci. Przyjmuj one posta klasyfikacji lub regresji w zale no ci od typu zmiennej zale nej. W pierwszym przypadku ma ona charakter dyskretny (binarny lub nominalny), natomiast wynikiem regresji jest warto numeryczna. W grupie znanych technik predykcyjnych mo na wyró ni trzy algorytmy, które powszechnie uznawane s za dostarczaj ce dok adnych estymacji, a tak e s odporne na braki i szumy w danych, tak powszechne w zbiorach informacji u ywanych do procesu ich uczenia: ogólny model regresji (GLM), sieci neuronowe oraz drzewa decyzyjne. Pierwszy z nich stanowi rozszerzenie linearnej regresji i umo liwia predykcj zjawisk, gdy wyst puj nieliniowe zale no ci pomi dzy zmiennymi. GLM nie wymaga rozk adu normalnego oraz sta ej wariancji zmiennej obja nianej, co stanowi istotn w asno w przypadku, gdy zmienne niezale ne maj niejednakowy wp yw na zmienn wynikow. Sztuczne sieci neuronowe s zespo em algorytmów nieliniowej regresji, zaliczanych do technik uczenia maszynowego, znanych z wszechstronno ci zastosowania oraz dok adno ci modeli. Podstawow zalet sieci jest zdolno do pracy z wielowymiarowymi bazami danych, charakteryzuj cymi si niepe n informacj. Natomiast drzewa klasyfikacyjne, zaliczane równie do technik uczenia maszynowego i nadzorowanego, polegaj na intuicyjnym i graficznym odzwierciedleniu wiedzy za pomoc struktury drzewa oraz zbiorów w z ów decyzyjnych po czonych poprzez ga zie rozchodz ce si w dó korzenia, a do finalnych li ci. Te odnosz ce si do zmiennej w postaci nominalnej nazywane s drzewami klasyfikacyjnymi, natomiast w przypadku zmiennej zale nej ci g ej drzewami regresyjnymi. 3. Przegl d literatury Wraz z popularyzacj technik data mining, w latach 90. rozpocz y si liczne badania w obszarze ich zastosowania do zarz dzania projektami. S one aplikowane do takich problemów zwi zanych z przeprowadzaniem inicjatyw informatycznych jak: [1] wst pna estymacja szacowanie pracoch onno ci, bud etu oraz harmonogramu projektu na etapie inicjacji lub planowania projektu, [2] monitorowanie projektów estymacja zasobów niezb dnych do uko czenia projektu podczas jego trwania; opiera si przewa nie na szacowaniu wska ników metody monitorowania Earned Value Management (EVA) [16] [17], [3] jako oprogramowania predykcja ilo ci i klasy b dów zidentyfikowanych podczas testów oraz czasu naprawy b dów [18] [19], [4] estymacja kosztu utrzymania systemów szacowanie zasobów niezb dnych do utrzymania wdro onego systemu, dokonane na podstawie przewidywanych zmian w systemie i liczbie prognozowanych b dów [20]. Spo ród wymienionych problemów, najwi kszym zainteresowaniem badaczy cieszy si problem wst pnej estymacji. Wynika o to ze wzgl dów pragmatycznych to b dna estymacja 71

Andrzej Kobyli ski, Przemys aw Pospieszny Zastosowanie technik eksploracji danych do estymacji pracoch onno ci projektów informatycznych niezb dnych zasobów uznawana jest za podstawow przyczyn niepowodze projektów informatycznych. Tab.1 zawiera spis wybranych publikacji z tego zakresu. Tab. 1. Wybrane publikacje z zakresu zastosowania technik eksploracji danych do predykcji zasobów projektu Lp Autor Tytu Rok Zadanie Techniki Baza danych 1 I.Barcelos Tronto, J.Simoes da Silva, N. Sant'Anna 2 D.Dzega, W.Pietruszkiewicz 3 4 A.Bak r, B.Turhan, A.Bener Promise Data Repository, Software Engineering Research Laboratory (SoftLab) Repository ISBSG C.Lopez- Martin, C.Isaza, A.Chavoya 5 J.Balsera, F.Fernandez, V.Montequin, R.Suarez 6 K.Dejaeger, W.Verbeke, D.Martens, B.Baesens ród o: opracowanie w asne. Comparison of Artificial Neural Network and Regression Models in Software Effort Estimation Classification and Metaclassification in Large Scale Data Mining Application for Estimation of Software Projects A comparative study for estimating software development effort intervals Software development effort prediction of industrial projects applying a general regression neural network Effort Estimation in Information Systems Projects using Data Mining Techniques Data Mining Techniques for Software Effort Estimation: A Comparative Study 2006 Estymacja pracoch onno ci 2009 Estymacja czasu trwania 2010 Estymacja pracoch onno ci 2011 Estymacja pracoch onno ci 2012 Estymacja pracoch onno ci i czasu trwania 2012 Estymacja pracoch onno ci Sieci neuronowe, regresja liniowa Drzewa decyzyjne: C4.5, random tree oraz CART Liniowa analiza dyskryminacyjna, k-najbli szych s siadów oraz drzewa decyzyjne Sieci neuronowe, regresja Drzewa decyzyjne MARS drzewa decyzyjne (M5, CART, MARS), sieci neuronowe, maszyna wektorów no nych oraz ró nego typu modele oparte na regresji liniowej COCOMO SourceForge ISBSG Cocnasa, Maxwell, USP05, CO- COMO, Desharnais, the Experience, ESA, ISBSG, and Euroclear 72

Studies & Proceedings of Polish Association for Knowledge Management Nr 73, 2015 Zasadniczo prace badawcze s prowadzone w odniesieniu do problematyki klasyfikacyjnej oraz predykcyjnej data mining i dotycz szacowania pracoch onno ci oraz czasu trwania zwi zanego z wytworzeniem produktu ko cowego. W zale no ci od stosowanego podej cia, cz bada po- wi cona jest wy onieniu najbardziej efektywnego i dok adnie wyja niaj cego badane zjawisko algorytmu, poprzez budow wielu modeli i porównaniu wyników [18] [21] [22]. Inne natomiast koncentruj si na procesie przygotowania danych, od których zale ne s ko cowe rezultaty [23]. Analizy przedstawiane w publikacjach oparte s o ró ne bazy projektów zastosowanych w procesie uczenia algorytmów. Do najwa niejszych mo na zaliczy : COCOMO [24], Albrecht [25], NASA [26], SourceForge [27] oraz ISBSG [7]. Jako kryterium oceny modeli, standardem przyj tym do porównywania dok adno ci otrzymanych szacunków, jest stosowanie redniego wzgl dnego b du (ang. mean relative error, MRE), redniego wzgl dnego b du wielko ci (ang. mean magnitude of relative error, MMRE) oraz stosunku predykcji do warto ci rzeczywistych (PRED) [28]. Pomimo wielu publikacji i opracowywania przez badaczy licznych modeli wykorzystuj cych szeroki zakres algorytmów, pocz wszy od uczenia maszynowego, sko czywszy na regresji, dotychczas trudno jest zaobserwowa wdro enie technik eksploracji danych do estymacji zasobów projektów informatycznych w praktyce jakiejkolwiek organizacji. Wynika to przede wszystkim z braku standardowego podej cia ukierunkowanego na zastosowanie modeli w praktyce, czego efektem s ró nice w dok adno ci poszczególnych technik i niespójno wyników. Przyczyn tego zjawiska jest niedok adna konfiguracja algorytmów [29] oraz rodzaj bazy danych u ytej do procesu ich uczenia. Cz sto stosowane zbiory danych o projektach zawieraj niewielk ilo zapisów, co mo e powodowa przeuczenie algorytmów. Dodatkowo, brak jest ogólnie przyj tej metodyki przygotowania danych do modelu, co skutkuje stosowaniem ró nych podej w odniesieniu do warto ci odstaj cych oraz brakuj cych. 4. Estymacja pracoch onno ci z u yciem technik Data Mining Ta cz artyku u po wi cona jest estymacji pracoch onno ci projektów informatycznych z wykorzystaniem predykcyjnych technik eksploracji danych. Spo ród znanych licznych metod, metod wst pnej selekcji i w oparciu o przegl d literatury, do dalszych bada wybrano trzy algorytmy powszechnie uznane za generuj ce dok adne szacunki oraz odporne na brakuj ce i zaszumione dane: ogólny model liniowy, sieci neuronowe i drzewa decyzyjne CHAID. Pierwszy z nich stanowi rozszerzenie regresji liniowej i charakteryzuje si du a dok adno ci estymacji z o onych zjawisk. Spo ród algorytmów uczenia maszynowego wybrano sieci neuronów (perceptor wielowarstwowy MLP) oraz drzewa decyzyjne CHAID. Zalet pierwszego z nich jest odporno na warto ci odstaj ce i brakuj ce oraz du ilo zmiennych wej ciowych. Natomiast zalet drzew decyzyjnych CHAID jest graficzny sposób reprezentacji wiedzy. Algorytmy te zostan porównane, celem oceny ich zdolno ci do odzwierciedlania badanego zjawiska oraz ich potencjalnej przydatno ci do zastosowania w praktyce. Do budowy modeli zastosowano metodyk Cross-Industry Standard Process for Data Mining (CRISP-DM) [30], natomiast dane zosta y pobrane z bazy danych o projektach ISBSG. W odró nieniu od innych dost pnych zbiorów danych o projektach informatycznych, baza ISBSG jest najbardziej kompletnym i wiarygodnym ród em informacji na temat inicjatyw informatycznych realizowanych przez ró ne organizacje na ca ym wiecie. Baza ISBSG w wersji 12 (2013) u yta do budowy modeli, zawiera dane o 6006 projektach, jakie mia y miejsce w ostatnich dwóch dekadach. 73

Andrzej Kobyli ski, Przemys aw Pospieszny Zastosowanie technik eksploracji danych do estymacji pracoch onno ci projektów informatycznych Projekty te zrealizowano g ównie w sektorze komunikacyjnym, przemys owym, finansowym i us ugowym. W ramach przygotowania danych wst pnie wybrano 28 zmiennych niezale nych, które na podstawie przeprowadzonego przegl du literatury oraz dokonanej analizy zale no ci, potencjalnie mog yby obja nia zmienn zale n : pracoch onno. Nast pnie usuni to obserwacje o danych s abej jako ci i zawieraj ce znacz c ilo warto ci brakuj cych. Za kryterium odrzucenia warto ci odstaj cych, które równie mog yby wp yn negatywnie na proces uczenia si algorytmów, przyj to potrójne odchylenie standardowe od redniej wielko ci pracoch onno ci. Tab. 2. Wyniki testów Ko omogorowa-smirnowa oraz Shapiro-Wilka na normalno rozk adów zmiennej Normalised Work Effort Ko mogorow-smirnowa Shapiro-Wilk Statystyka df Istotno Statystyka df Istotno Normalised Work Effort 0,207 1494,000 0,734 1494,000 ród o: opracowanie w asne. Rys. 2. Wykres normalno ci Kwantyl-Kwantyl dla zmiennej Normalised Work Effort ród o: wydruk z SPSS Statistics. W ramach przygotowania danych zbadano równie rozk ad warto ci zmiennej obrazuj cej pracoch onno, która wykaza a prawosko no oraz du koncentracj wyników wokó redniej (rozk ad leptokurtyczny). Do potwierdzenia odst pstwa od rozk adu normalnego przeprowadzono test Ko omogorowa-smirnowa oraz Shapiro-Wilka. Dla badanego zjawiska istotno statystyk p nie przekroczy a warto ci 0,05, tak wi c nale y odrzuci hipotez zerow o rozk adzie normalnym analizowanych zmiennych. Parametryczne algorytmy eksploracji danych oraz niektóre z grupy uczenia si maszynowego, takie jak sieci neuronowe, generuj lepsze wyniki w przypadku wyst powania 74

Studies & Proceedings of Polish Association for Knowledge Management Nr 73, 2015 rozk adu normalnego. W zwi zku z tym zmienn zale n poddano transformacji przez logarytmowanie. W rezultacie przygotowania danych otrzymano zbiór 13 zmiennych przedstawionych w tabeli 3 oraz 1494 obserwacji. Tab. 3. Zmienne u yte do budowy modeli predykcyjnych Lp. Nazwa zmiennej 1 Industry Sector 2 Application Type 3 Development Type 4 Development Platform 5 Language Type 6 Package customization Opis Rodzaj Liczba kategorii Rola Sektor przemys u Nominalna 14 Predyktor Rodzaj aplikacji Nominalna 16 Predyktor Typ dewelopmentu (nowy, rozwój, redewelopment) Platforma sprz towa (PC, Mid Range, Mainframe lub Multiplatform) Rodzaj j zyka programowania (2GL, 3GL, 4GL) Czy wymagane by o dopasowanie gotowego systemu? (tak, nie, brak informacji) Nominalna 3 Predyktor Nominalna 4 Predyktor Nominalna 3 Predyktor Nominalna 3 Predyktor 7 Relative Size Klasa wielko ci aplikacji Nominalna 7 Predyktor 8 Architecture Architektura systemu Nominalna 6 Predyktor 9 Agile Czy zastosowano metodyk zwinn? 10 Used Czy zastosowano Methodology metodyk? (tak, nie, brak 11 Resource Level informacji) Rodzaj zasobów projektowych: (zespó projektowy, zespó utrzymaniowy, zespó wsparcia, u ytkownicy ko cowi) 12 Effort Pracoch onno projektu w roboczomiesi cach, zlogarytmowana ród o: Opracowanie w asne. Flaga 2 Predyktor Nominalna 3 Predyktor Nominalna 4 Predyktor Ilo ciowa -- Przewidywana 75

Andrzej Kobyli ski, Przemys aw Pospieszny Zastosowanie technik eksploracji danych do estymacji pracoch onno ci projektów informatycznych W celu wyboru zmiennych istotnie wp ywaj cych na pracoch onno, a tak e w celu zbadania wspó zale no ci pomi dzy zmiennymi zale nymi, wykonano analiz korelacji Pearsona oraz regresj krokow. Najsilniejsza korelacja wyst powa a pomi dzy zmienn pracoch onno (effort) a d ugo ci trwania (duration) (wspó czynnik Pearsona na poziomie 0,47) oraz wielko projektu (0,672). Pozosta e zmienne mia y wp yw na pracoch onno na znacznie ni szym poziomie (0,1-0,2). Ze wzgl du na wyst puj c relatywnie siln korelacj pomi dzy zmienn effort i duration oraz na fakt, e czas trwania projektu jest wyznaczany przewa nie na podstawie przewidywanej pracoch onno ci zdecydowano o usuni ciu zmiennej duration ze zbioru wej ciowego. Dodatkowo, wspomniana wyst puj ca silna zale no tych zmiennych mog aby marginalizowa wp yw pozosta ych czynników na dostarczane estymacje pracoch onno ci przez zbudowane modele eksploracji danych. Tab. 4. Wspó czynniki dopasowania modelu regresji krokowej dla zmiennej zale nej effort Model R R- kwadrat Skorygowane R- kwadrat B d standardowy oszacowania 76 Predyktory 1,672,451,451,430 (Sta a), Relative Size 2,686,471,471,422 (Sta a), Relative Size, Language Type 3,697,486,485,416 (Sta a), Relative Size, Language Type, Development Platform 4,700,490,489,414 (Sta a), Relative Size, Language Type, Development Platform, Package Customization 5,702,493,492,413 (Sta a), Relative Size, Language Type, Development Platform, Package Customization, Development Type ród o: opracowanie w asne na podstawie wydruku SPSS Statistics. Regresja krokowa wprowadzi a do modelu 5 zmiennych w nast puj cej kolejno ci (wed ug malej cego wp ywu na zmienn zale n ): Relative Size, Language Type, Development Platform, Package Customization i Development Type. Jednak, jak wykaza a analiza korelacji, wszystkie zmienne maj istotny wp yw na predykcj pracoch onno ci. Dlatego do budowy modeli zdecydowano si u y pe nego zestawu czynników przedstawionego w tabeli 4. Wyselekcjonowany uprzednio zbiór danych zawieraj cy 1494 kompletnych obserwacji podzielono na treningowy (80%) i testowy (20%). Pierwszy z nich zosta wykorzystany do procesu uczenia modeli, natomiast drugi do ich walidacji. Do budowy modeli wykorzystano oprogramowanie IBM SPSS Modeler. Do predykcji zmiennej ci g ej pracoch onno zastosowano trzy algorytmy eksploracji danych: ogólny model liniowy (GLM), sie neuronowa (perceptor wielowarstwowy MLP) oraz drzewo decyzyjne CHAID. W przypadku pierwszego zastosowano rozk ad normalny, funkcje cz c to samo oraz metod parametru skali Chi-kwadrat. Odno nie do sieci neuronowych u yto jednej warstwy ukrytej, funkcji aktywacji typu tangens hiperboliczny. Natomiast w przypadku drzew decyzyjnych zastosowano algorytm podzia u drzewa opartego na Chi-

Studies & Proceedings of Polish Association for Knowledge Management Nr 73, 2015 kwadrat, maksymaln g boko drzewa wynosz c pi poziomów i kryterium zatrzymania wynosz ce minimum 2% rekordów w ga zi nadrz dnej i 1% w podrz dnej. W celu ewaluacji zbudowanych trzech modeli oraz oceny ich dok adno ci w predykcji pracoch onno ci projektów informatycznych zastosowano miary prognozy ex post takie jak: redni b d (ang. mean error, ME), redni absolutny b d (ang. mean absolute error, MAE), redni b d kwadratowy (ang. mean squared error, MSE) oraz pierwiastek b du redniokwadratowego (ang. root mean squared error, RMSE) [15, 362 363] [31, 44 45]. Do oceny modeli szacuj cych pracoch onno inicjatyw zwyczajowo stosuje si dodatkowe miary, które u ywane s do porównywania efektywno ci poszczególnych podej. Do wspomnianych wielo ci odnosi si modu b du wzgl dnego (ang. magnitude of relative error, MRE), redni modu b du wzgl dnego (ang. mean magnitude of relative error, MMRE) i stosunek predykcji do warto ci rzeczywistych (PRED). W estymacji projektów informatycznych (kryterium Conte a) przyjmuje si poziom wska nika PRED na poziomie PRED(0,25) 0,75, co interpretuje si jako: przynajmniej 75% warto ci przewidywanych zawiera si w 25% rzeczywistych. Natomiast MMRE powinno by mniejsze lub równe od 0,25. W rzeczywisto ci oba poziomy s rzadko osi gane w praktyce [28] [32]. Tab. 5. Porównanie wska ników oceny algorytmów zastosowanych do predykcji pracoch onno ci Ogólny model linowy Sie neuronowa Drzewo decyzyjne CHAID Uczenie Test Uczenie Test Uczenie Test ME 0,000-0,012 0,008 0,002 0,000-0,008 MAE 0,288 0,310 0,308 0,331 0,287 0,313 MSE 0,139 0,162 0,159 0,175 0,140 0,169 RMSE 0,373 0,402 0,398 0,418 0,374 0,412 MMRE 0,203 0,053 0,226 0,113 0,225 0,050 PRED(0,25) 0,599 0,604 0,571 0,545 0,612 0,607 PRED(0,3) 0,680 0,662 0,657 0,623 0,680 0,662 ród o: opracowanie w asne. Tabela 5 przedstawia miary oceny trzech modeli: ogólnego modelu liniowego, sieci neuronowej i drzewa decyzyjnego CHAID. Jak wynika z danych zawartych w tej tabeli, wszystkie trzy algorytmy posiadaj wska niki b du i jako ci dopasowania na bardzo zbli onym poziomie, przy czym nieznacznie dok adniejsze predykcje generuje ogólny model liniowy. redni b d prognozy (RMSE) dla tego modelu w zbiorze testowym by na poziomie 0,402, co oznacza, e o t warto rednio odchylaj si predykcje pracoch onno ci od warto ci rzeczywistych. Dla porównania wska nik ten dla sieci neuronowej wynosi 0,418 oraz drzewa decyzyjnego 0,412. Tak wi c ró nice b du dla poszczególnych technik by y niewielkie. Warto ci RMSE w niewielkim stopniu odchyla y si od redniego bezwzgl dnego b du (MAE), st d mo na wnioskowa o braku wyst powania b dów o du ych warto ciach. 77

Andrzej Kobyli ski, Przemys aw Pospieszny Zastosowanie technik eksploracji danych do estymacji pracoch onno ci projektów informatycznych Analizuj c redni modu b du wzgl dnego (MMRE) mo na zauwa y, e by on wy szy dla zbioru treningowego, gdzie nieznacznie przekracza 20%, ni testowego (1 5%) dla wszystkich zastosowanych algorytmów. Jego poziom wiadczy o pope nianiu do 20% b du szacuj c z u yciem ogólnego modelu liniowego, sieci neuronowej oraz drzewa decyzyjnego. MMRE dla wspomnianych technik, b d c na poziomie mniejszym ni 25%, spe nia kryterium Conte a o dobrej zdolno ci predykcyjnej zbudowanych modeli. Warto ci PRED oscyluj wokó 60%, czyli na tym poziomie warto ci szacowane zawiera y si w 25% pracoch onno ci rzeczywistej. Jest to ni szy poziom ni zak adany przez Conte a ( 75%), jednak bior c pod uwag ilo obserwacji i zmiennych u ytych do szacowania mo na uzna wysoko PRED na bardzo dobrym poziomie. Resumuj c, na podstawie zastosowanych wska ników oceny poszczególnych technik mo na stwierdzi, e modele: ogólny model liniowy, sie neuronowa oraz drzewo decyzyjne CHAID charakteryzuj si dobr zdolno ci predykcji pracoch onno ci projektów informatycznych. Generowane b dy by y niewielkie i na podobnym poziomie, przy czym nieznacznie lepsze predykcje uzyskano stosuj c ogólny model liniowy. Ponadto wszystkie modele cechowa y si dobrym dopasowaniem do danych wej ciowych i mog by zastosowane osobno lub razem do szacowania pracoch onno ci zwi zanej z dostarczeniem produktu finalnego projektu. 5. Zako czenie Estymacja pracoch onno ci projektów informatycznych jest jedn z istotniejszych czynno ci przeprowadzanych w pocz tkowych fazach ycia inicjatywy, od której warunkowany jest sukces projektu i wytworzenie produktu ko cowego. Dost pne techniki szacowania parametrów projektów polegaj w du ej mierze na subiektywnej ocenie asesora, co w przypadku niewykwalifikowanego personelu mo e prowadzi do nadmiernie optymistycznych estymacji. Dodatkowo cz sto wymagaj one dokonywania manualnych oblicze, co w przypadku z o onych projektów jest czaso- i pracoch onne. Techniki data mining s powszechnie wykorzystywane s w praktyce do zagadnie charakteryzuj cych si du ym niepewno ci i prawdopodobie stwem materializacji ryzyk. Dlatego te istnieje du y potencja do ich zastosowania w organizacjach w celu wsparcia procesu estymacji pracoch onno ci projektów informatycznych poprzez zautomatyzowane modele generuj ce predykcje na podstawie danych historycznych. W niniejszej pracy porównano dok adno szacunków trzech algorytmów predykcyjnych. Ka dy z nich dostarcza dok adnych szacunków, tym samym udowodnione zosta o, e istnieje potencja na ich wdro enie w praktyce. Najlepsze rezultaty generowa ogólny model liniowy, jednak jego przewaga by a nieznaczna. Wdro enie algorytmów eksploracji danych do praktyki projektowej wymaga dysponowania historyczn baz projektów informatycznych. W wi kszo ci organizacji za utrzymanie takiej bazy odpowiada PMO (biuro projektów, ang. Project Management Office), które zbiera dane o przedsi wzi ciach przewa nie do celów raportowych. Aby algorytmy predykcyjne dawa y wiarygodne rezultaty, trzeba unikn przeuczenia si algorytmów, wi c baza powinna zawiera wi ksz od 100 liczb inicjatyw oraz kilka do kilkunastu charakterystyk przedsi wzi. Istotnym aspektem bazy projektów jest jako danych w niej zawartych. Powinny by one weryfikowane i systematycznie aktualizowane, tak aby zapewni dok adno modelu wdro onego w praktyce. W zwi zku z tym mo na oczekiwa, e organizacjami, w których do wsparcia procesu estymacji pracoch onno ci projektów informatycznych mog by stosowane modele data mining, powinny by dojrza e 78

Studies & Proceedings of Polish Association for Knowledge Management Nr 73, 2015 organizacje, na przyk ad posiadaj ce certyfikacj CMMI (ang. capability maturity model integration). Jako danych ma bezpo redni wp yw na predykcje generowane przez algorytmy eksploracji danych. W przypadku wyst puj cych warto ci brakuj cych lub odstaj cych predykcje mog by niepoprawne. Dlatego te istotnym etapem wdro enia modeli jest odpowiednie przygotowanie danych wej ciowych, tak aby wykluczy czynniki mog ce zak óci poprawn estymacj. Dodatkowo algorytmy data mining mog dostarcza szacunków o ró nym poziomie dok adno ci w zale no ci od charakterystyki wykorzystywanego zbioru projektów. St d w celu unikni cia tego zjawiska powinny by one u yte w formie zespolonej, gdzie przyk adowo wyniki dostarczane przez trzy algorytmy generuj ce estymaty na podobnym poziomie powinny by u rednione, eby zniwelowa mo liwo wyst pienia anomalii wytworzonej przez który z modeli indywidualnych. Pomimo e w ostatnich latach podejmowano wielokrotnie w pracach badawczych tematyk zastosowania algorytmów data mining do estymacji pracoch onno ci projektów informatycznych, brak jest jakichkolwiek doniesie o ich praktycznych wdro eniach. Sytuacja ta mo e wynika z nadmiernej koncentracji badaczy na dok adno ci szacunków dostarczanych przez poszczególne techniki, a nie na wypracowaniu podej cia i metodyki wdro enia algorytmów w organizacjach. Wobec tego, kolejne prace powinny dotyczy mo liwo ci implementacji zespolonego modelu algorytmów data mining w wybranej organizacji celem weryfikacji ich przydatno ci do estymacji pracoch onno ci przedsi wzi, jako narz dzia wsparcia decyzyjnego oraz stanowi cego alternatywne podej cie wobec istniej cych stosowanych dotychczas technik estymacji parametrów projektów. Bibliografia [1] Marchewka J., Information Technology Project Managment Providing Measurable Organizational Value, Management, Wiley 2003. [2] Standish Group, The CHAOS Manifesto 2011, The Standish Group International. EUA, 2011. [3] Czarnacka-Chrobot B., Analysis of the functional size measurement methods usage by Polish business software systems providers, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2009, t.5891 LNCS, s. 17 34. [4] Eveleens J., Verhoef C., The rise and fall of the chaos report figures, IEEE software, 2010. [5] Kemerer C.F., Reliability of function points measurement: a field experiment, Communications of the ACM, 1993, t.36, nr 2, s. 85 97. [6] Galorath D., Evans M., Software Sizing, Estimation, and Risk Management, Auerbach Publications 2006, s. 573. [7] The International Software Benchmarking Standards Group (ISBSG), http://www.isbsg.org [8] McConnell S., Software Estimation: Demystifying the Black Art: Demystifying the Black Art, Microsoft Press 2009. [9] Boehm B.W., Software Engineering Economics, Prentice Hall., 1981, t.10, s. 4 21. [10] Laird L.M., Brennan M.C., Software Measurement and Estimation: A Practical Approach, John Wiley & Sons 2006, s. 257. 79

Andrzej Kobyli ski, Przemys aw Pospieszny Zastosowanie technik eksploracji danych do estymacji pracoch onno ci projektów informatycznych [11] Hill P., i International Software Benchmarking Standards Group, Practical Software Project Estimation: A Toolkit for Estimating Software Development Effort & Duration, McGraw Hill Professional 2010, s. 312. [12] Gasik S., A model of project knowledge management, Project Management Journal, 2011, t.42, nr 3, s. 23 44. [13] Project Management Institute, A Guide to the Project Management Body of Knowledge PMBOK Guide, PMI Book, Project Management Institute 2013, Fifth Edit. [14] Linoff G.S., Berry M.J.A., Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, John Wiley & Sons 2011. [15] Han J., Kamber M., Pei J., Data Mining: Concepts and Techniques, Morgan Kaufmann 2006. [16] Iranmanesh S.H., Mokhtari Z., Application of data mining tools to predicate completion time of a project, Proceeding of world academy of science, engineering and technology, 2008, t.32, s. 234 240. [17] Azzeh M., Cowling P.I., Neagu D., Software stage-effort estimation based on association rule mining and Fuzzy set theory, Proceedings 10th IEEE International Conference on Computer and Information Technology, CIT-2010, 7th IEEE International Conference on Embedded Software and Systems, ICESS-2010, ScalCom-2010, 2010, s. 249 256. [18] Balsera J.V., Montequin V.R., Fernandez F.O., González-Fanjul C.A., Data Mining Applied to the Improvement of Project Management, InTech, 2012. [19] Nagwani N.K., Bhansali A., A data mining model to predict software bug complexity using bug estimation and clustering, ITC 2010 2010 International Conference on Recent Trends in Information, Telecommunication, and Computing, 2010, s. 13 17. [20] Shukla R., Shukla M., Misra A.K., Marwala T., Clarke W.A., Dynamic software maintenance effort estimation modeling using neural network, rule engine and multi-regression approach, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2012, vol. 7336 LNCS, s. 157 169. [21] Dzega D., Pietruszkiewicz W., Classification and metaclassification in large scale data mining application for estimation of software projects, 2010 IEEE 9th International Conference on Cybernetic Intelligent Systems, CIS 2010, 2010. [22] Dejaeger K., Verbeke W., Martens D., Baesens B., Data mining techniques for software effort estimation: A comparative study, IEEE Transactions on Software Engineering, 2012, t.38, s. 375 397. [23] Lopez-Martin C., Isaza C., Chavoya A., Software development effort prediction of industrial projects applying a general regression neural network, Empirical Software Engineering, 2012, t.17, s. 738 756. [24] Reifer D.J., Boehm B.W., Chulani S., The rosetta stone: Making COCOMO 81 Files Work With COCOMO II, University of South California, 1998, s. 1 10. [25] Albrecht A.J., Gaffney J.E.. J., Software Function, Source Lines of Code, and Development Effort Prediction: A Software Science Validation, IEEE Transactions on Software Engineering, 1983, t.se-9. [26] PROMISE Software Engineering Repository, http://promise.site.uottawa.ca/ SERepository/datasets/cocomonasa.arff. [27] SourceForge, http://sourceforge.net/. 80

Studies & Proceedings of Polish Association for Knowledge Management Nr 73, 2015 [28] Conte S.D., Dunsmore H.E., Shen V.Y., Software engineering metrics and models, Benjamin/Cummings Pub. Co. 1986. [29] Paliwal M., Kumar U., Neural networks and statistical techniques: A review of applications, Expert Systems with Applications, 2009, t.36, s. 2 17. [30] Pete C., Julian C., Randy K., Thomas K., Thomas R., Colin S., Wirth R., CRISP-DM 1.0, CRISP-DM Consortium, 2000. [31] Larose D.T., Data Mining Methods and Models, John Wiley & Sons 2007. [32] Jorgensen M., A Critique of How We Measure and Interpret the Accuracy of Software Development Effort Estimation, 1st International Workshop on Software Productivity Analysis and Cost Estimation, 2007, s. 15 22. APPLICATION OF DATA MINING TECHNIQUES FOR SOFTWARE PROJECT EFFORT ESTIMATION Summary In the current fast pace of the world information plays significant role. It determines companies adaptation abilities to changing market requirements in order to achieve competitive advantage. In recent years data exploration techniques, especially data mining, are utilitised for multiple disciplines as a decision support tool delivering key management information. These techniques are widely used for areas where uncertainty is substantial and where is a high risk of adverse occurrence such as credit scoring and customer churn that may lead to financial loses. In terms of software project management, data mining techniques potentially enable wide range of applications. Foremost they can be used for initial project phases where information about final product is partial due to undefined requirements and when project practitioners are obliged to estimate resources needed for successful project completion. The aim of this article is to discuss possible application of data mining techniques for software effort estimation at the initial project stages when uncertainty and risk occurrence is high. For that purpose three machine learning algorithms are used to build predictive models: generalised linear models, neural networks and decision trees CHAID. The estimation accuracy of these models is compared in order to determine their potential deployment within organisations and which could be applied in combination with traditional and parametric effort estimation techniques or as a sole tool that provide decision support information. Keywords: data mining, data exploration, predictive algorithms, software project management, software estimation, effort estimation Andrzej Kobyli ski Przemys aw Pospieszny Instytut Informatyki i Gospodarki Cyfrowej Szko a G ówna Handlowa w Warszawie e-mail: kobyl@sgh.waw.pl 81