Artur Suchwałko

szkolenia: ryzyko kredytowe, data mining, statystyka, analiza danych

Blog November, 2008

Nov
28

Ułatwienie pracy z modelami predykcyjnymi w GNU R: PMML

PMML (Predictive Model Markup Language) jest opartym na XML językiem, który umożliwia wygodny eksport modeli predykcyjnych z narzędzia analitycznego, w którym model powstał, do systemu, w którym model będzie wykorzystywany (na przykład definiującego listy mailingowe dla kampanii marketingowej). Oczywiście, wyeksportowany w PMML model można wczytać do dowolnej innej aplikacji używającej standardu PMML i kontynuować pracę.

Specyfikacja PMML dostępna jest na stronie Data Mining Group.

System R posiada możliwość eksportu modeli zgodnie ze standardem PMML. Pakiet nazywa się PMML i oferuje możliwość eksportu podstawowych modeli. Według mnie najważniejszy z nich to drzewa klasyfikacyjne budowane z wykorzystaniem pakietu rpart. Pozostałe modele to sieci neuronowe, SVM, regresja liniowa i logistyczna oraz wyniki analizy skupień (k-means) i odkrywania reguł asocjacyjnych.

Można obejrzeć wideo pokazujące, jak z GNU R eksportuje się modele w formacie PMML.

Wyobrażenie o częstości korzystania z PMML dają wyniki ankiety ze strony KDNuggets.

Nov
14

Text mining z wykorzystaniem GNU R

Text mining to grupa metod analizy danych tekstowych wykorzystujących metody data mining. W języku angielskim text mining bywa czasem nazywany text data mining, co idealnie wyjaśnia, na czym on polega (oto definicja text miningu z Wikipedii).

Jeszcze do niedawna R był pozbawiony pakietu umożliwiającego wygodną analizę eksploracyjną danych tekstowych. Sytuacja zmieniła się, kiedy pojawił się pakiet tm. Informacje o nim dostępne są tutaj.

Warto przeczytać rozdział “An Introduction to Text Mining in R” w najnowszym wydaniu R-News. Zaprezentowano tam naprawdę ciekawe przykłady analizy danych tekstowych wykonane przy pomocy pakietu tm.

Lista pakietów dla GNU R przydatnych w analizie tekstu dostępna jest w odpowiednim dziale CRAN Task Views.

Do ciekawych rozwiązań należy też ReadMe: Software for Automated Content Analysis (strona projektu ReadMe).

Znane narzędzie data miningowe Open Source RapidMiner również oferuje dodatek (plug-in) do analizy tekstu.

Informacje o innych narzędziach oferujących metody text mining można znaleźć na stronie KDnuggets.

Nov
12

GNU R i dane z MS Excel

Jak wczytać do GNU R dane z arkusza Excela? Jest wiele możliwości. Między innymi eksport do pliku CSV, kopia przez schowek, wykorzystanie ODBC, czy bezpośrednie użycie technologii COM.

Warto sprawdzić działanie pakietu xlsReadWrite (oto jego strona). Pakiet jest prosty w użyciu i zawiera dwie funkcje podstawowe:

  • read.xls – odczyt danych,
  • write.xls – zapis danych

oraz kilka funkcji pomocniczych do konwersji daty i czasu między formatami Excela i GNU R.

Nov
10

Szkolenie z budowy systemów scoringowych metodą regresji logistycznej

W dniach 15-16.12.2008 prowadzę w Warszawie dla firmy eForum szkolenie z zakresu budowy systemów scoringowych “Budowa Modeli Scoringowych z Wykorzystaniem Regresji Logistycznej (Rating/Scoring Kredytowy II)”.

Szkolenie przeznaczone jest głównie dla osób, które miały już styczność z systemami scoringowymi i posiadają podstawową wiedzę z dziedziny ryzyka kredytowego.

Podstawowe walory szkolenia to przedstawienie metody regresji logistycznej oraz całego procesu budowy karty scoringowej z wykorzystaniem regresji logistycznej – najpopularniejszej i pod wieloma względami najlepszej metody stosowanej do tego celu. Drugi atut szkolenia to możliwość przećwiczenia każdego etapu samodzielnie, z wykorzystaniem komputera. Budowa własnych modeli scoringowych pozwoli na lepsze zrozumienie poruszanej tematyki. Informacje o bardziej zaawansowanych metodach analitycznych stosowanych w budowie systemów scoringowych to kolejny walor kursu.

Zapraszam wszystkich zainteresowanych!

Nov
10

Obliczenia symboliczne i optymalizacja numeryczna w GNU R

System R potrafi (w bardzo ograniczonym zakresie) wykonywać obliczenia symboliczne. Oto przykład:

D(expression(x^2+3),'x')
W tym przykładzie wyznaczana jest pochodna wyrażenia x^2 + 3 względem zmiennej x.

W podobny sposób można stworzyć funkcję, która umożliwia łatwe numeryczne wyznaczanie pochodnych funkcji podanej symbolicznie:

funkcja <- deriv((y ~ x^2 + .5 * x^4), "x", func = TRUE)
Z nowej funkcji korzystamy jak z każdej innej: funkcja(0). Uwaga: nowa funkcja nie składa się z pochodnych cząstkowych funkcji podanej symbolicznie, ale umożliwia wyznaczanie tych pochodnych oraz wartości wyjściowej funkcji. Bardziej złożony przykład powinien wyraźniej pokazać przewagę wariantu z pochodnymi liczonymi symbolicznie.

Symboliczne wyznaczanie pochodnych znajduje zastosowanie w optymalizacji numerycznej. Umożliwia to zastosowanie bardziej zaawansowanych i skutecznych metod, na przykład nlm i optim. Oto przykład porównujący optymalizację z wykorzystaniem symbolicznie wyznaczonej pochodnej:

nlm(funkcja, 3)
oraz bez niej:

funkcja.num <- function(x) {x^2 + .5 * x^4}
nlm(funkcja.num, 3)

Jak widać, oszczędzamy jedną / połowę iteracji.

Nov
10

Szkolenie z data miningu

W dniach 20-21.11.2008 prowadzę w Warszawie dla firmy eForum szkolenie z data miningu “Wprowadzenie do Data Miningu – Zadania i Metody”.

Szkolenie przeznaczone jest głównie dla początkujących i wprowadza uczestników od podstaw w tematykę data miningu. Zakres szkolenia obejmuje między innymi przegląd zadań i metod data mining oraz przygotowanie danych do analiz. Przedstawione także będą case studies oraz wybrane metodologie prowadzenia projektów data mining. Jest to pierwsze z cyklu trzech szkoleń z tej dziedziny. Kolejne będą poświęcone metodom uczenia z nadzorem (głównie klasyfikacja) oraz metodom uczenia bez nadzoru (redukcja wymiaru, analiza skupień). Podczas szkolenia jego uczestnicy będą mieli możliwość budowy własnych modeli data mining.

Zapraszam wszystkich zainteresowanych, jest jeszcze kilka wolnych miejsc!



szkolenia | data mining | analiza danych | statystyka | system statystyczny R | predictive modeling

prognozowanie | credit scoring | ryzyko kredytowe | programowanie | eksploracyjna analiza danych

analiza skupień | klasyfikacja | wizualizacja | darmowe oprogramowanie statystyczne | Wrocław