Artur Suchwałko

szkolenia: ryzyko kredytowe, data mining, statystyka, analiza danych

Budowa modeli predykcyjnych w R

Budowa modeli predykcyjnych jest podstawowym zadaniem w zastosowaniach data miningu w bankowości i innych dziedzinach. Modele predykcyjne mają wiele zastosowań i mogą zwiększyć efektywność działania przedsiębiorstwa.

Szkolenie przedstawia kompleksowo metody budowy oraz oceny jakości modeli na przykładach danych dla scoringu aplikacyjnego, scoringu odpowiedzi i innych.

Unikatową cechą szkolenia jest to, że ma ono charakter praktyczny, warsztatowy oraz równocześnie bazuje na darmowym oprogramowaniu. Oznacza to, że uczestnicy szkolenia uzyskują przydatne umiejętności praktyczne, a po zakończeniu szkolenia każdy jego uczestnik może analizować własne dane bez konieczności zakupu oprogramowania. Uczestnicy otrzymują skrypty ułatwiające późniejszą pracę z własnymi danymi.

Czas trwania: 1-2 dni

Oprogramowanie: System R + RCommander

Więcej informacji

Program szkolenia i program szkolenia w pdf (55 KB).

Szkolenie dostępne jest wyłącznie jako zamknięte. Zakres i termin dostosowane będą do Państwa potrzeb. Jeśli są Państwo zainteresowani szkoleniem zamkniętym, to proszę o kontakt.

Program szkolenia

Przeczytaj program szkolenia w pdf (55 KB).

  1. Wprowadzenie
    • zastosowania modeli predykcyjnych
    • przygotowanie danych
    • etapy uczenia i testowania efektywności modelu
    • dobór parametrów modeli
  2. Przygotowanie danych
    • analiza pojedynczych cech
      • rozkłady cech (tablice kontyngencji, histogramy)
      • obserwacje brakujące oraz obserwacje odstające
      • kontrola jakości i czyszczenie danych
      • wstępny wybór cech do konstrukcji modelu – analiza zdolności dyskryminacyjnej cech
    • przedziałowanie zmiennych ciągłych (dyskretyzacja)
      • rola przedziałowania
      • metody przedziałowania
        • weight of evidence (WoE)
        • maksymalizacja entropii
        • drzewa klasyfikacyjne
    • analiza zależności między cechami i konstrukcja cech pochodnych (generated characteristics, cross characteristics)
    • standaryzacja
    • próbkowanie
  3. Metody klasyfikacyjne i regresyjne
    • analiza dyskryminacyjna
    • metoda najbliższego sąsiada
    • sieci neuronowe
    • maszyny wektorów podpierających (SVM)
    • drzewa klasyfikacyjne
    • drzewa regresyjne
    • randomForest
    • klasyfikator Bayesa
    • regresja liniowa
    • regresja logistyczna
  4. Modele oparte na drzewach
    • specyfika modeli opartych na drzewach
    • przegląd zastosowań modeli opartych na drzewach
    • wizualizacja i interpretacja wyników
    • praktyczne aspekty związane z budową modeli opartych na drzewach:
      • kryteria wyboru zmiennych
      • kryteria podziału
      • kryteria zatrzymania
      • ocena złożoności struktury drzewa
    • drzewa klasyfikacyjne
    • drzewa regresyjne
    • postprocessing drzew: upraszczanie i modyfikacje struktury drzew (pruning), analiza ekspercka
    • zalety i wady modeli opartych na drzewach.
    • poprawa stabilności i efektywności drzew (algorytm bagging, modele hybrydowe)
    • lasy losowe (random forest)
  5. Ocena jakości klasyfikacji i dobór parametrów klasyfikatorów
    • ocena błędu klasyfikacji
    • ocena jakości modelu: train/test, cross-validation, leave-one-out, bootstrap
    • krzywa ROC, współczynnik AUROC
    • cost-sensitive learning, cost-sensitive evaluation
    • dobór optymalnego punktu odcięcia
    • dobór optymalnych parametrów klasyfikatorów
    • porównanie i wybór najlepszego modelu
  6. Wybór cech do modelu
    • kryteria zastosowania cech w modelach (statystyczne, biznesowe, operacyjne)
    • metody graficzne
    • przegląd zupełny zbioru cech
    • metody jednokrokowe (filtry)
    • metody wielokrokowe (forward, backward, forward-backward)
    • metody wbudowane w klasyfikatory (np. randomForest), komitety modeli, inne metody
  7. Dodatkowe zagadnienia praktyczne związane z budową modeli R
    • formaty danych wejściowych
    • współpraca z MS Excel
    • eksport modeli w formacie PMML


szkolenia | data mining | analiza danych | statystyka | system statystyczny R | predictive modeling

prognozowanie | credit scoring | ryzyko kredytowe | programowanie | eksploracyjna analiza danych

analiza skupień | klasyfikacja | wizualizacja | darmowe oprogramowanie statystyczne | Wrocław