Blog November, 2008
Nov
28
PMML (Predictive Model Markup Language) jest opartym na XML językiem, który umożliwia wygodny eksport modeli predykcyjnych z narzędzia analitycznego, w którym model powstał, do systemu, w którym model będzie wykorzystywany (na przykład definiującego listy mailingowe dla kampanii marketingowej). Oczywiście, wyeksportowany w PMML model można wczytać do dowolnej innej aplikacji używającej standardu PMML i kontynuować pracę.
Specyfikacja PMML dostępna jest na stronie Data Mining Group.
System R posiada możliwość eksportu modeli zgodnie ze standardem PMML. Pakiet nazywa się PMML i oferuje możliwość eksportu podstawowych modeli. Według mnie najważniejszy z nich to drzewa klasyfikacyjne budowane z wykorzystaniem pakietu rpart. Pozostałe modele to sieci neuronowe, SVM, regresja liniowa i logistyczna oraz wyniki analizy skupień (k-means) i odkrywania reguł asocjacyjnych.
Można obejrzeć wideo pokazujące, jak z GNU R eksportuje się modele w formacie PMML.
Wyobrażenie o częstości korzystania z PMML dają wyniki ankiety ze strony KDNuggets.
Autorem postu jest Artur Suchwałko
Nov
14
Text mining to grupa metod analizy danych tekstowych wykorzystujących metody data mining. W języku angielskim text mining bywa czasem nazywany text data mining, co idealnie wyjaśnia, na czym on polega (oto definicja text miningu z Wikipedii).
Jeszcze do niedawna R był pozbawiony pakietu umożliwiającego wygodną analizę eksploracyjną danych tekstowych. Sytuacja zmieniła się, kiedy pojawił się pakiet tm. Informacje o nim dostępne są tutaj.
Warto przeczytać rozdział “An Introduction to Text Mining in R” w najnowszym wydaniu R-News. Zaprezentowano tam naprawdę ciekawe przykłady analizy danych tekstowych wykonane przy pomocy pakietu tm.
Lista pakietów dla GNU R przydatnych w analizie tekstu dostępna jest w odpowiednim dziale CRAN Task Views.
Do ciekawych rozwiązań należy też ReadMe: Software for Automated Content Analysis (strona projektu ReadMe).
Znane narzędzie data miningowe Open Source RapidMiner również oferuje dodatek (plug-in) do analizy tekstu.
Informacje o innych narzędziach oferujących metody text mining można znaleźć na stronie KDnuggets.
Autorem postu jest Artur Suchwałko
Nov
12
Jak wczytać do GNU R dane z arkusza Excela? Jest wiele możliwości. Między innymi eksport do pliku CSV, kopia przez schowek, wykorzystanie ODBC, czy bezpośrednie użycie technologii COM.
Warto sprawdzić działanie pakietu xlsReadWrite (oto jego strona). Pakiet jest prosty w użyciu i zawiera dwie funkcje podstawowe:
- read.xls – odczyt danych,
- write.xls – zapis danych
oraz kilka funkcji pomocniczych do konwersji daty i czasu między formatami Excela i GNU R.
Autorem postu jest Artur Suchwałko
Nov
10
W dniach 15-16.12.2008 prowadzę w Warszawie dla firmy eForum szkolenie z zakresu budowy systemów scoringowych “Budowa Modeli Scoringowych z Wykorzystaniem Regresji Logistycznej (Rating/Scoring Kredytowy II)”.
Szkolenie przeznaczone jest głównie dla osób, które miały już styczność z systemami scoringowymi i posiadają podstawową wiedzę z dziedziny ryzyka kredytowego.
Podstawowe walory szkolenia to przedstawienie metody regresji logistycznej oraz całego procesu budowy karty scoringowej z wykorzystaniem regresji logistycznej – najpopularniejszej i pod wieloma względami najlepszej metody stosowanej do tego celu. Drugi atut szkolenia to możliwość przećwiczenia każdego etapu samodzielnie, z wykorzystaniem komputera. Budowa własnych modeli scoringowych pozwoli na lepsze zrozumienie poruszanej tematyki. Informacje o bardziej zaawansowanych metodach analitycznych stosowanych w budowie systemów scoringowych to kolejny walor kursu.
Zapraszam wszystkich zainteresowanych!
Autorem postu jest Artur Suchwałko
Nov
10
System R potrafi (w bardzo ograniczonym zakresie) wykonywać obliczenia symboliczne. Oto przykład:
D(expression(x^2+3),'x')
W tym przykładzie wyznaczana jest pochodna wyrażenia x^2 + 3 względem zmiennej x.
W podobny sposób można stworzyć funkcję, która umożliwia łatwe numeryczne wyznaczanie pochodnych funkcji podanej symbolicznie:
funkcja <- deriv((y ~ x^2 + .5 * x^4), "x", func = TRUE)
Z nowej funkcji korzystamy jak z każdej innej: funkcja(0). Uwaga: nowa funkcja nie składa się z pochodnych cząstkowych funkcji podanej symbolicznie, ale umożliwia wyznaczanie tych pochodnych oraz wartości wyjściowej funkcji. Bardziej złożony przykład powinien wyraźniej pokazać przewagę wariantu z pochodnymi liczonymi symbolicznie.
Symboliczne wyznaczanie pochodnych znajduje zastosowanie w optymalizacji numerycznej. Umożliwia to zastosowanie bardziej zaawansowanych i skutecznych metod, na przykład nlm i optim. Oto przykład porównujący optymalizację z wykorzystaniem symbolicznie wyznaczonej pochodnej:
nlm(funkcja, 3)
oraz bez niej:
funkcja.num <- function(x) {x^2 + .5 * x^4}
nlm(funkcja.num, 3)
Jak widać, oszczędzamy jedną / połowę iteracji.
Autorem postu jest Artur Suchwałko
Nov
10
W dniach 20-21.11.2008 prowadzę w Warszawie dla firmy eForum szkolenie z data miningu “Wprowadzenie do Data Miningu – Zadania i Metody”.
Szkolenie przeznaczone jest głównie dla początkujących i wprowadza uczestników od podstaw w tematykę data miningu. Zakres szkolenia obejmuje między innymi przegląd zadań i metod data mining oraz przygotowanie danych do analiz. Przedstawione także będą case studies oraz wybrane metodologie prowadzenia projektów data mining. Jest to pierwsze z cyklu trzech szkoleń z tej dziedziny. Kolejne będą poświęcone metodom uczenia z nadzorem (głównie klasyfikacja) oraz metodom uczenia bez nadzoru (redukcja wymiaru, analiza skupień). Podczas szkolenia jego uczestnicy będą mieli możliwość budowy własnych modeli data mining.
Zapraszam wszystkich zainteresowanych, jest jeszcze kilka wolnych miejsc!
Autorem postu jest Artur Suchwałko