Artur Suchwałko - Blog, kategoria analiza danych
Oct
01
Znane wydawnictwa również zauważają rosnącą popularność systemu R. Świadczy o tym fakt, że Springer i Cambridge University Press wydają sporo książek temat systemu R oraz jego zastosowań. Listę książek wydanych przez Springera w poświęconej GNU R serii “UseR” można znaleźć tutaj: Springer Use R. Większość książek dotyczących R wydanych przez Cambridge University Press wymieniona jest tutaj: Cambridge Statistics R.
Moją ulubiona książka dotycząca R to “R Graphics” Paula Murrella. Więcej informacji jest na stronie wydawcy.
Autorem postu jest Artur Suchwałko
Oct
01
W dniach 4-5.12.2008 prowadzę w Warszawie dla firmy eForum szkolenie z systemów scoringowych “Zastosowanie Punktowych Metod Oceny Klientów (Rating/Scoring Kredytowy I)”.
Szkolenie przeznaczone jest głównie dla początkujących i wprowadza uczestników od podstaw w tematykę budowy systemów scoringowych. Najważniejsze w szkoleniu jest przedstawienie kompletnej metodologii budowy systemów scoringowych. Ważnym elementem jest omówienie pojęć z zakresu systemów scoringowych, prezentacja kolejnych etapów budowy karty scoringowej oraz ćwiczenia praktyczne, podczas których uczestnicy szkolenia będą budować własne modele scoringowe.
Zapraszam wszystkich zainteresowanych!
Szkolenie to jest pierwszym z organizowanego przez firmę eForum cyklu szkoleń dotyczących systemów scoringowych. O kolejnych szkoleniach napiszę później.
Autorem postu jest Artur Suchwałko
Sep
28
Czy podstawowe operacje na ramkach danych i macierzach wykonywane są przez R z taką samą szybkością? To oczywiście zależy od rodzaju operacji. Zrobiłem dzisiaj prosty eksperyment polegający na wybieraniu kolumn o tych samych numerach z macierzy i z ramki danych oraz mierzeniu czasu tych operacji.
To nie jest całkiem akademicki problem. W przypadku dużych zadań obliczeniowych różnice w efektywności reprezentacji danych mogą mieć znaczenie. Podobnie podczas obróbki wstępnej danych do dalszych analiz statystycznych, czy wykonywanych metodami data mining. W tej sytuacji podstawowym obiektem jest ramka danych, ale może okazać się, że pewne operacje wykonywane są szybciej na innego rodzaju obiektach.
x.macierz <- matrix(rnorm(5000*1000), 5000, 1000)
x.ramka.danych <- as.data.frame(x.macierz)
podzbior <- sample(1:1000, 1000, replace=T) # losujemy numery kolumn
czas.pocz <- proc.time()
for (i in 1:10) x.macierz[, podzbior] -> y # wybieramy kolumny
proc.time() - czas.pocz
czas.pocz <- proc.time()
for (i in 1:10) x.ramka.danych[, podzbior] -> y
proc.time() - czas.pocz
A czy w przypadku wyboru wierszy zamiast kolumn szybsza okaże się ta sama reprezentacja danych?
Przy okazji, jak widać z przykładu, macierz na ramkę danych konwertuje się funkcją as.data.frame. Ramkę danych na macierz przekształca się korzystając z as.matrix albo data.matrix.
Autorem postu jest Artur Suchwałko
Sep
23
Ten blog będzie dotyczył moich zainteresowań zawodowych: systemu GNU R, analizy danych, statystyki obliczeniowej, data miningu oraz ryzyka kredytowego.
Najprawdopodobniej na blogu będzie dominował system R. Używam go intensywnie od kilku lat. Praktycznie codziennie. Uczę studentów wykorzystania R (data mining, statystyka), wykorzystuję go podczas szkoleń i przygotowywania materiałów szkoleniowych (R ma świetne możliwości graficzne). Z systemu R korzystam także podczas pracy statystyka w banku: do budowy systemów scoringowych, analizy ryzyka kredytowego, do budowy modeli na potrzeby metody zaawansowanej w Basel II oraz do innych celów. System R wykorzystuję także w projektach komercyjnych z bioinformatyki (analiza danych SELDI-ToF) i z innych dziedzin oraz w pracy naukowej.
Bez R nie wyobrażam sobie pracy. Narzędzie jest potężne, elastyczne i wciąż mnie zaskakuje. Wydaje się, że potrafi wszystko: obliczenia rozproszone, obliczenia symboliczne, programowanie obiektowe, integracja z dowolnymi narzędziami i językami programowania. Na serwerach CRAN w oficjalnej dystrybucji jest ponad 1500 pakietów / bibliotek rozszerzających możliwości R.
Z wpisów na blogu nie powstanie raczej kurs systemu R dla początkujących. Będę starał się wybierać głównie ciekawostki oraz potencjalnie przydatne w praktyce elementy. W Sieci można znaleźć bardzo dużo pomocy do nauki R. Potrzeba tylko dobrych chęci i czasu. Początki z R z pewnością będą trudne, ale naprawdę warto zainwestować czas.
Sądzę, że oprócz kwestii związanych z R dosyć często będą pojawiały się wpisy dotyczące data miningu. Będę pisał przede wszystkim o data miningu w kontekście R, ale też o innych darmowych narzędziach oraz o samej metodologii data miningu i algorytmach.
Autorem postu jest Artur Suchwałko