Materiały konferencyjne SEP 2021

7 7) Capex_2020: bazowy budżet roczny projektu - zmienna ilościowa; 8) Capex_2020_1H : budżet roczny projektu wg. aktualizacji śródrocznej- zmienna ilościowa; 9) Bdate_avg: średnia ważona indeksu miesiąca na podstawie wartości planowanego budżetu w całym roku 2020 – zmienna ilościowa. 10) Bdate_avg_1H: średnia ważona indeksu miesiąca na podstawie rozkładu planowanego bu- dżetu w II połowie roku wg. aktualizacji śródrocznej– zmienna ilościowa. Rolę zmiennych celu pełnią : 11)Var_level: Końcowo roczne odchylenie wykonania budżetu względem planu bazowego ozna- czone jako “LOW” lub “HIGH” – zmienna jakościowa; 12)Var_level_1H: Końcowo roczne odchylenie wykonania budżetu względem planów z aktuali- zacji śródrocznej oznaczone jako “LOW” lub “HIGH” – zmienna jakościowa; Metoda badawcza składa się z następujących etapów: 1) Wstępne przetwarzanie danych – obliczenie odchylenia wykonania budżetu w 2020 roku względem planu bazowego oraz aktualizacji półrocznej. Bezwzględne odchylenie procentowe poniżej dopuszczalnego progu oznaczono jako „LOW”, pozostałe jako „HIGH”. Obliczenie zmiennych Bdate_avg i Bdate_avg_1H jako średniej ważonej indeksu miesiąca względem wy- datków zaplanowanych odpowiednio na cały rok lub II półrocze 2020 roku. 2) Import danych do programu IBM SPSS Modeller 18.1 i przypisanie zmiennym ról predyktora lub zmiennej celu. 3) Podział zestawu danych na zestaw danych uczących (70%) i zestaw danych testowych (30%). 4) Określenie typów modeli predykcyjnych podlegających tworzeniu i testowaniu 5) Określenie alternatywnych parametrów modelu (np. rozmiar drzewa, funkcje jądra itp.) w celu stworzenia większej liczby modeli w ramach poszczególnych typów. 6) Proces uczenia wybranych modeli w oparciu o zbiór danych uczących 7) Testowanie modeli zestawem danych testowych wydzielonych z zestawu danych uczących 8) Ocena skuteczności modeli i identyfikacja najważniejszych predyktorów 9) Powtórna budowa modeli w oparciu o algorytmy i parametry określone w pkt. 4 i 5 z pominię- ciem rekordów reprezentujących projekty z budżetem równym zero. 10) Porównanie i ocena dokładności modeli stworzonych w pkt. 9. 5. WYNIKI BADAŃ W następstwie wstępnego przetwarzania, zaimportowano zbiór danych składający się z 750 rekordów, a następnie wykorzystano go w procesie uczenia i testowania modeli predykcyjnych realizowanego za pomocą oprogramowania IBM SPSS Modeller 18.1. W celu ułatwienia tego procesu, wykorzystano dostępny w oprogramowaniu węzeł automatycznej klasyfikacji. Obiekt ten pozwolił na ustawienie parametrów i stworzenie wszystkich potrzebnych modeli w ramach jednego węzła i zasilenie ich identycznymi zestawami danych uczących i testowych. W efekcie powstały 273 modele predykcyjne zbudowane na podstawie różnie sparametryzowanych algo- rytmów, w tym: regresji logistycznej (24 modele); sieci bayesowskich (32 modele); KNN (16 modeli); SVM (16 modeli); LSVM (9 modeli); drzew losowych (24 modeli); lasów losowych (24 modele); sztucznych sieci neuronowych (128 modeli). Modele zostały ocenione na pod- stawie ich odpowiedzi na zestaw danych testowych, w oparciu o dwa parametry:  Ogólną dokładność - procent rekordów, dla których wynik został prawidłowo przewidziany (odpowiedź modelu jest zgodna z rzeczywistą obserwacją odchylenia)