Materiały konferencyjne SEP 2021

4 Uczenie maszynowe odgrywa ważną rolę w procesie tworzenia modeli predykcyjnych. Definiuje się je jako naukę odpowiedzialną za opracowywanie algorytmów i technik automatycznego roz- wiązywania problemów, które są trudne do zaprogramowania przy użyciu konwencjonalnych metod [11]. Charakteryzuje się je także jako zestaw narzędzi wykorzystujących algorytmy do identyfikacji ukrytych wzorców w danych, nadając im wcześniej niezidentyfikowanego znacze- nia [12]. Idea uczenia maszynowego zakłada, że naturalne, ludzkie metody uczenia się nie po- winny być traktowane jako jedyne, możliwe ścieżki poznawcze, a jego głównym celem jest eks- ploracja alternatywnych mechanizmów uczenia się [13]. Uczenie maszynowe to podzbiór szer- szej dziedziny – sztucznej inteligencji (AI). Podstawą technik uczenia maszynowego jest dostar- czenie tworzonemu modelowi odpowiedniego zestawu danych uczących, na podstawie którego określone algorytmy dostosowują parametry modelu tak, aby reagował na przyszłe dane wej- ściowe w oparciu o wzorce wykryte w zbiorze danych użytym do jego stworzenia. Podejście do procesu uczenia determinuje podział technik uczenia maszynowego na dwie główne kategorie: uczenie z nadzorem i uczenie bez nadzoru. Technika uczenia bez nadzoru charakteryzuje się bra- kiem wstępnie zdefiniowanych odpowiedzi w zbiorze danych uczących, co jest równoznaczne z przekazaniem odpowiedzialności za ich tworzenie na proces automatycznego uczenia. Głównym celem uczenia bez nadzoru jest wykrywanie naturalnych wzorców w zbiorze danych [14]. Istnieją dwie główne techniki stosowane w uczeniu bez nadzoru: klasteryzacja i redukcja wymiarów. Głównym zadaniem klasteryzacji jest identyfikacja i dzielenie zbiorów danych na klastry, co ma szczególne zastosowanie w technikach rozpoznawania obrazów i analizach rynkowych [12], pod- czas gdy redukcja wymiarów jest techniką upraszczającą zbiór danych poprzez zmniejszenie liczby zmiennych wejściowych. W przypadku uczenia z nadzorem, zestaw danych uczących za- wiera poprawne (faktycznie zaobserwowane) odpowiedzi. Parametry modelu są dostosowywane w celu uzyskania najlepszego dopasowania między prognozowanymi i zaobserwowanymi odpo- wiedziami w oparciu o ten sam zestaw danych uczących. Nauczony w ten sposób model, dla każ- dego nowego zestawu danych wejściowych, będzie starał się przypisać mu odpowiedź znaną z puli danych uczących. Główny podział metod uczenia z nadzorem wynika z charakteru odpowie- dzi, która może być ciągła (techniki regresji) lub kategoryczna (techniki klasyfikacji). Jednymi z najczęściej stosowanych algorytmów klasyfikacyjnych, które posłużą celowi tego artykułu, są: • Drzewa decyzyjne- zwane drzewami klasyfikacyjnymi, to nieparametryczne klasyfikatory oparte na drzewiastej strukturze składającej się z węzłów odchodzących od pojedynczego węzła głównego. Wartość zmiennej celu jest przewidywana za pomocą prostych reguł decy- zyjnych stosowanych w węzłach testowych (wewnętrznych). Węzły wewnętrzne mają za- równo gałęzie wychodzące, jak i przychodzące, w przeciwieństwie do węzłów końcowych zwanych liśćmi, które są przypisane do jednej klasy - najbardziej prawdopodobnej wartości docelowej dla ścieżki prowadzącej od korzenia do liścia. Wszystkie ścieżki w drzewie two- rzą zestaw reguł klasyfikacyjnych. Drzewa decyzyjne, choć proste w zrozumieniu i użyciu, mają wiele wad, z których najważniejszą jest tendencja do nadmiernego dopasowania mode- lu oraz niska stabilność. W celu złagodzenia negatywnych konsekwencji stosowane są różne wersje klasyfikatora. Jednym z przykładów jest metoda lasów losowych, która tworzy wiele drzew decyzyjnych z wykorzystaniem techniki agregacji bootstrap. Zmienna docelowa jest w tym przypadku określana na podstawie odpowiedzi ze wszystkich drzew decyzyjnych po- przez wybór odpowiedzi dominującej. • Sztuczne sieci neuronowe (ang. artificial neural networks - ANN) – algorytmy poznawcze oparte na koncepcji naśladowania ludzkiego mózgu. Sztuczna sieć neuronowa jest zbiorem

RkJQdWJsaXNoZXIy NTcxNzA3