Artur Suchwałko

szkolenia: ryzyko kredytowe, data mining, statystyka, analiza danych

Artur Suchwałko - Blog, kategoria data mining

Jan
06

Konferencje związane z data mining

Czy ktoś z Was jest zainteresowany udziałem w konferencji związanej z data mining? Można próbować ocenić popularność konferencji na podstawie ankiety ze strony KDnuggets. Uwaga: ankiety ze strony KDnuggets często przygotowane są na małej próbie, mogą więc nie być miarodajne!

Za informację o tej ankiecie dziękuję dr. Adamowi Zagdańskiemu, uczestnikowi jednej z wymienionych konferencji.

Nov
28

Ułatwienie pracy z modelami predykcyjnymi w GNU R: PMML

PMML (Predictive Model Markup Language) jest opartym na XML językiem, który umożliwia wygodny eksport modeli predykcyjnych z narzędzia analitycznego, w którym model powstał, do systemu, w którym model będzie wykorzystywany (na przykład definiującego listy mailingowe dla kampanii marketingowej). Oczywiście, wyeksportowany w PMML model można wczytać do dowolnej innej aplikacji używającej standardu PMML i kontynuować pracę.

Specyfikacja PMML dostępna jest na stronie Data Mining Group.

System R posiada możliwość eksportu modeli zgodnie ze standardem PMML. Pakiet nazywa się PMML i oferuje możliwość eksportu podstawowych modeli. Według mnie najważniejszy z nich to drzewa klasyfikacyjne budowane z wykorzystaniem pakietu rpart. Pozostałe modele to sieci neuronowe, SVM, regresja liniowa i logistyczna oraz wyniki analizy skupień (k-means) i odkrywania reguł asocjacyjnych.

Można obejrzeć wideo pokazujące, jak z GNU R eksportuje się modele w formacie PMML.

Wyobrażenie o częstości korzystania z PMML dają wyniki ankiety ze strony KDNuggets.

Nov
14

Text mining z wykorzystaniem GNU R

Text mining to grupa metod analizy danych tekstowych wykorzystujących metody data mining. W języku angielskim text mining bywa czasem nazywany text data mining, co idealnie wyjaśnia, na czym on polega (oto definicja text miningu z Wikipedii).

Jeszcze do niedawna R był pozbawiony pakietu umożliwiającego wygodną analizę eksploracyjną danych tekstowych. Sytuacja zmieniła się, kiedy pojawił się pakiet tm. Informacje o nim dostępne są tutaj.

Warto przeczytać rozdział “An Introduction to Text Mining in R” w najnowszym wydaniu R-News. Zaprezentowano tam naprawdę ciekawe przykłady analizy danych tekstowych wykonane przy pomocy pakietu tm.

Lista pakietów dla GNU R przydatnych w analizie tekstu dostępna jest w odpowiednim dziale CRAN Task Views.

Do ciekawych rozwiązań należy też ReadMe: Software for Automated Content Analysis (strona projektu ReadMe).

Znane narzędzie data miningowe Open Source RapidMiner również oferuje dodatek (plug-in) do analizy tekstu.

Informacje o innych narzędziach oferujących metody text mining można znaleźć na stronie KDnuggets.

Nov
10

Szkolenie z data miningu

W dniach 20-21.11.2008 prowadzę w Warszawie dla firmy eForum szkolenie z data miningu “Wprowadzenie do Data Miningu – Zadania i Metody”.

Szkolenie przeznaczone jest głównie dla początkujących i wprowadza uczestników od podstaw w tematykę data miningu. Zakres szkolenia obejmuje między innymi przegląd zadań i metod data mining oraz przygotowanie danych do analiz. Przedstawione także będą case studies oraz wybrane metodologie prowadzenia projektów data mining. Jest to pierwsze z cyklu trzech szkoleń z tej dziedziny. Kolejne będą poświęcone metodom uczenia z nadzorem (głównie klasyfikacja) oraz metodom uczenia bez nadzoru (redukcja wymiaru, analiza skupień). Podczas szkolenia jego uczestnicy będą mieli możliwość budowy własnych modeli data mining.

Zapraszam wszystkich zainteresowanych, jest jeszcze kilka wolnych miejsc!

Oct
01

Książki o GNU R

Znane wydawnictwa również zauważają rosnącą popularność systemu R. Świadczy o tym fakt, że Springer i Cambridge University Press wydają sporo książek temat systemu R oraz jego zastosowań. Listę książek wydanych przez Springera w poświęconej GNU R serii “UseR” można znaleźć tutaj: Springer Use R. Większość książek dotyczących R wydanych przez Cambridge University Press wymieniona jest tutaj: Cambridge Statistics R.

Moją ulubiona książka dotycząca R to “R Graphics” Paula Murrella. Więcej informacji jest na stronie wydawcy.

Sep
23

Na początek

Ten blog będzie dotyczył moich zainteresowań zawodowych: systemu GNU R, analizy danych, statystyki obliczeniowej, data miningu oraz ryzyka kredytowego.

Najprawdopodobniej na blogu będzie dominował system R. Używam go intensywnie od kilku lat. Praktycznie codziennie. Uczę studentów wykorzystania R (data mining, statystyka), wykorzystuję go podczas szkoleń i przygotowywania materiałów szkoleniowych (R ma świetne możliwości graficzne). Z systemu R korzystam także podczas pracy statystyka w banku: do budowy systemów scoringowych, analizy ryzyka kredytowego, do budowy modeli na potrzeby metody zaawansowanej w Basel II oraz do innych celów. System R wykorzystuję także w projektach komercyjnych z bioinformatyki (analiza danych SELDI-ToF) i z innych dziedzin oraz w pracy naukowej.

Bez R nie wyobrażam sobie pracy. Narzędzie jest potężne, elastyczne i wciąż mnie zaskakuje. Wydaje się, że potrafi wszystko: obliczenia rozproszone, obliczenia symboliczne, programowanie obiektowe, integracja z dowolnymi narzędziami i językami programowania. Na serwerach CRAN w oficjalnej dystrybucji jest ponad 1500 pakietów / bibliotek rozszerzających możliwości R.

Z wpisów na blogu nie powstanie raczej kurs systemu R dla początkujących. Będę starał się wybierać głównie ciekawostki oraz potencjalnie przydatne w praktyce elementy. W Sieci można znaleźć bardzo dużo pomocy do nauki R. Potrzeba tylko dobrych chęci i czasu. Początki z R z pewnością będą trudne, ale naprawdę warto zainwestować czas.

Sądzę, że oprócz kwestii związanych z R dosyć często będą pojawiały się wpisy dotyczące data miningu. Będę pisał przede wszystkim o data miningu w kontekście R, ale też o innych darmowych narzędziach oraz o samej metodologii data miningu i algorytmach.



szkolenia | data mining | analiza danych | statystyka | system statystyczny R | predictive modeling

prognozowanie | credit scoring | ryzyko kredytowe | programowanie | eksploracyjna analiza danych

analiza skupień | klasyfikacja | wizualizacja | darmowe oprogramowanie statystyczne | Wrocław