Materiały konferencyjne SEP 2021

8  Obszar pod krzywą (ang. area under curve - AUC) - obszaru pod krzywą ROC, która obra- zuje współczynnik prawdziwie dodatnich wyników względem fałszywie dodatnich. W efekcie analizy wyników otrzymano następujące rezultaty:  Pod względem ogólnej dokładności, spośród 10 najbardziej efektywnych modeli 9 opierało się na algorytmie LSVM z dokładnością w zakresie od 85,4 % do 85,9% a jeden na algo- rytmie regresji logistycznej (dokładność 84,5 %).  Biorąc pod uwagę obszar pod krzywą ROC, spośród 10 najbardziej efektywnych modeli 3 opierały się na algorytmie LSVM, z powierzchnią 0,906,a 7 wykorzystywało regresję logi- styczną (powierzchnia od 0,905 do 0.906). Otrzymane wyniki wykazują spodziewaną poprawę rezultatu względem innych badań prze- prowadzonych dla perspektywy całorocznej [16]. Porównując najlepsze modele, ogólna sku- teczność wzrosła o ok. 4 p. p., a obszar pod krzywą zwiększył się o ok. 2,5 p. p. W przypadku modeli opartych na algorytmie LSVM, automatyczna analiza wrażliwości wskazała na średnią ważoną indeksu miesiąca jako najważniejszy predyktor obok: etykiety, priorytetu projektu w portfelu oraz samego portfela. Najefektywniejsze modele bazujące na regresji logistycznej wytypowały obszar biznesowy jako istotą zmienną wejściową. Wykorzystując 5 głównych predyktorów zidentyfikowanych na tym etapie, przeprowadzono ponowny proces budowy modeli oparty o zredukowany zbiór danych, z którego wyłączono projekty, dla których plan inwestycji na rok 2020 lub jego drugą połowę (dla danych z aktualizacji półrocznej) wynosił zero, co w dotychczasowych badaniach wspierało efektywność predykcji ze względu na małe prawdopodobieństwo innego niż zerowe wykonania takiego budżetu. Ostatecznie, dla predykcji całorocznej wykorzystano 419 rekordów a dla predykcji półrocznej 388. W efekcie ponownej budowy modeli:  Dla aktualizacji śródrocznej, spośród 10 najbardziej efektywnych modeli pod względem ogólnej dokładności 2 opierały się o drzewa losowe (dokładność w zakresie 68-68,8 %), a 8 na algorytmie KNN (dokładność 68 %).  Dla aktualizacji śródrocznej, spośród 10 najbardziej efektywnych modeli pod względem powierzchni pod krzywą ROC, 8 bazowało na algorytmie KNN (zakres powierzchni 0,743-0,761) 2 opierały się o drzewa losowe (powierzchnia w zakresie 0,736-0,749)  Dla planu bazowego, wszystkie 10 najbardziej efektywnych modeli pod względem ogólnej dokładności opierało się o algorytm KNN, z dokładnością ok. 66,6 %,.  Dla aktualizacji śródrocznej, również 10 najbardziej efektywnych modeli najbardziej efek- tywnych modeli pod względem powierzchni pod krzywą ROC bazowało na algorytmie KNN (zakres powierzchni 0,606-0,626) Predykcja dla scenariusza aktualizacji śródrocznej, wykonana przez najlepszy model bazujący na algorytmie KNN wykazuje dużą dokładność w przewidywaniu niskich odchyleń, natomiast na obniżenie efektywności modelu wpływa duża ilość predykcji fałszywie niskich. Algorytmy dla predykcji całorocznej prezentują odwrotną tendencję przewidując w większości przypad- ków przekroczenie dopuszczalnego odchylenia, co wpływa na niską jakość tej predykcji.