Budowa modeli predykcyjnych w R
Budowa modeli predykcyjnych jest podstawowym zadaniem w zastosowaniach data miningu w bankowości i innych dziedzinach. Modele predykcyjne mają wiele zastosowań i mogą zwiększyć efektywność działania przedsiębiorstwa.
Szkolenie przedstawia kompleksowo metody budowy oraz oceny jakości modeli na przykładach danych dla scoringu aplikacyjnego, scoringu odpowiedzi i innych.
Unikatową cechą szkolenia jest to, że ma ono charakter praktyczny, warsztatowy oraz równocześnie bazuje na darmowym oprogramowaniu. Oznacza to, że uczestnicy szkolenia uzyskują przydatne umiejętności praktyczne, a po zakończeniu szkolenia każdy jego uczestnik może analizować własne dane bez konieczności zakupu oprogramowania. Uczestnicy otrzymują skrypty ułatwiające późniejszą pracę z własnymi danymi.
Czas trwania: 1-2 dni
Oprogramowanie: System R + RCommander
Więcej informacji
Program szkolenia i program szkolenia w pdf (55 KB).
Szkolenie dostępne jest wyłącznie jako zamknięte. Zakres i termin dostosowane będą do Państwa potrzeb. Jeśli są Państwo zainteresowani szkoleniem zamkniętym, to proszę o kontakt.
Program szkolenia
Przeczytaj program szkolenia w pdf (55 KB).
- Wprowadzenie
- zastosowania modeli predykcyjnych
- przygotowanie danych
- etapy uczenia i testowania efektywności modelu
- dobór parametrów modeli
- Przygotowanie danych
- analiza pojedynczych cech
- rozkłady cech (tablice kontyngencji, histogramy)
- obserwacje brakujące oraz obserwacje odstające
- kontrola jakości i czyszczenie danych
- wstępny wybór cech do konstrukcji modelu – analiza zdolności dyskryminacyjnej cech
- przedziałowanie zmiennych ciągłych (dyskretyzacja)
- rola przedziałowania
- metody przedziałowania
- weight of evidence (WoE)
- maksymalizacja entropii
- drzewa klasyfikacyjne
- analiza zależności między cechami i konstrukcja cech pochodnych (generated characteristics, cross characteristics)
- standaryzacja
- próbkowanie
- analiza pojedynczych cech
- Metody klasyfikacyjne i regresyjne
- analiza dyskryminacyjna
- metoda najbliższego sąsiada
- sieci neuronowe
- maszyny wektorów podpierających (SVM)
- drzewa klasyfikacyjne
- drzewa regresyjne
- randomForest
- klasyfikator Bayesa
- regresja liniowa
- regresja logistyczna
- Modele oparte na drzewach
- specyfika modeli opartych na drzewach
- przegląd zastosowań modeli opartych na drzewach
- wizualizacja i interpretacja wyników
- praktyczne aspekty związane z budową modeli opartych na drzewach:
- kryteria wyboru zmiennych
- kryteria podziału
- kryteria zatrzymania
- ocena złożoności struktury drzewa
- drzewa klasyfikacyjne
- drzewa regresyjne
- postprocessing drzew: upraszczanie i modyfikacje struktury drzew (pruning), analiza ekspercka
- zalety i wady modeli opartych na drzewach.
- poprawa stabilności i efektywności drzew (algorytm bagging, modele hybrydowe)
- lasy losowe (random forest)
- Ocena jakości klasyfikacji i dobór parametrów klasyfikatorów
- ocena błędu klasyfikacji
- ocena jakości modelu: train/test, cross-validation, leave-one-out, bootstrap
- krzywa ROC, współczynnik AUROC
- cost-sensitive learning, cost-sensitive evaluation
- dobór optymalnego punktu odcięcia
- dobór optymalnych parametrów klasyfikatorów
- porównanie i wybór najlepszego modelu
- Wybór cech do modelu
- kryteria zastosowania cech w modelach (statystyczne, biznesowe, operacyjne)
- metody graficzne
- przegląd zupełny zbioru cech
- metody jednokrokowe (filtry)
- metody wielokrokowe (forward, backward, forward-backward)
- metody wbudowane w klasyfikatory (np. randomForest), komitety modeli, inne metody
- Dodatkowe zagadnienia praktyczne związane z budową modeli R
- formaty danych wejściowych
- współpraca z MS Excel
- eksport modeli w formacie PMML
