Artur Suchwałko

szkolenia: ryzyko kredytowe, data mining, statystyka, analiza danych

Artur Suchwałko - Blog, kategoria statystyka

Feb
04

Tworzenie GUI dla programów pisanych w GNU R

Często spotykam się z potrzebą udostępnienia programu analizującego dane czy budującego modele predykcyjne napisanego w języku R użytkownikom, którzy systemu R nie znają. Idealnym rozwiązaniem w takiej sytuacji jest stworzenie graficznego interfejsu użytkownika (GUI) dla skryptu wykonującego tę analizę.

Możliwe jest na przykład połączenie R z dowolnym językiem programowania, w którym później zostanie napisane GUI. Można wykorzystać Tcl/Tk (tak, jak w pakiecie RCommander). Kolejna opcja to stworzenie aplikacji analitycznej działającej na serwerze i dostępnej przez przeglądarkę internetową. Skorzystanie z każdego z tych rozwiązań wymaga jednak sporo czasu. Oprócz kilku innych możliwości istnieje bardzo proste, ale – jak sądzę – niezbyt powszechnie znane, rozwiązanie.

RGG – R GUI Generator jest narzędziem bardzo upraszczającym pisanie w języku R programów wyposażonych w GUI. Tworzenie interfejsu użytkownika polega na utworzeniu odpowiedniego pliku składającego się ze znaczników XML opisujących kontrolki GUI
oraz z kodu analizy napisanego w R. Do działania programu z GUI konieczne jest posiadanie zainstalowanego R, Javy oraz dodatkowego “środowiska uruchomieniowego”. Przykłady można znaleźć na stronie RGG.

Oczywiście, rozwiązanie to ma ograniczenia i czasami jest konieczne wybranie innego narzędzia umożliwiającego komunikację programu napisanego w R z jego użytkownikiem.

Feb
04

Ciekawa książka: “Super Crunchers”

Parę tygodni temu dostałem książkę “Super Crunchers: Why Thinking-By-Numbers is the New Way To Be Smart” autorstwa I. Ayresa. Wciągająca lektura, przeczytałem ją błyskawicznie.

Książkę naprawdę przyjemnie się czyta. Pokazuje ona robiące duże wrażenie nietypowe zastosowania prostych modeli predykcyjnych. Wyjątkowo ciekawy jest przykład pozwalający na dosyć dobrą prognozę przyszłej ceny wina na podstawie warunków pogodowych panujących w rejonie i okresie uprawy winorośli, z których to wino było wyprodukowane.

Oto link do strony książki: http://www.randomhouse.com/bantamdell/supercrunchers/ oraz link do strony jej autora: http://islandia.law.yale.edu/ayers/indexhome.htm

Polecam tę książkę wszystkim!

Jan
06

Świetne wprowadzenie do systemu R

Dzisiaj chciałbym polecić wyjątkowe wprowadzenie do systemu R: Quick-R (autor: Rob Kabacoff). Jest naprawdę dobrze przygotowane i zwięzłe.

Jan
06

Ciekawe opinie dotyczące GNU R

Pakiet fortunes dla R zawiera cytaty wypowiedzi twórców R oraz jego znanych użytkowników. Jest kilka możliwości użycia tej biblioteki:

> library(fortunes)
> fortune() # losowanie cytatu
> fortune(92)
If you don't go with R now, you will someday.
-- David Kane (on whether to use R or S-PLUS)
R-SIG-Finance (November 2004)
>

Moje ulubione cytaty to (oprócz podanego w przykładzie wyżej): fortune(109), fortune(184).

Dec
10

Analiza dużych zbiorów danych w GNU R

Jedną z wad systemu R jest trudna praca z dużymi danymi. Dlaczego? Dane, na których pracuje R, powinny mieścić się w pamięci operacyjnej komputera. Istnieje kilka sposobów obejścia tego problemu.

Ciekawym przykładem jest pakiet biglm. Pozwala on na budowę modeli regresji liniowej i uogólnionych modeli liniowych (do tej grupy należy na przykład często używana w budowie systemów scoringowych regresja logistyczna) dla danych, które nie mieszczą się w pamięci komputera.

Nov
12

GNU R i dane z MS Excel

Jak wczytać do GNU R dane z arkusza Excela? Jest wiele możliwości. Między innymi eksport do pliku CSV, kopia przez schowek, wykorzystanie ODBC, czy bezpośrednie użycie technologii COM.

Warto sprawdzić działanie pakietu xlsReadWrite (oto jego strona). Pakiet jest prosty w użyciu i zawiera dwie funkcje podstawowe:

  • read.xls – odczyt danych,
  • write.xls – zapis danych

oraz kilka funkcji pomocniczych do konwersji daty i czasu między formatami Excela i GNU R.

Nov
10

Szkolenie z budowy systemów scoringowych metodą regresji logistycznej

W dniach 15-16.12.2008 prowadzę w Warszawie dla firmy eForum szkolenie z zakresu budowy systemów scoringowych “Budowa Modeli Scoringowych z Wykorzystaniem Regresji Logistycznej (Rating/Scoring Kredytowy II)”.

Szkolenie przeznaczone jest głównie dla osób, które miały już styczność z systemami scoringowymi i posiadają podstawową wiedzę z dziedziny ryzyka kredytowego.

Podstawowe walory szkolenia to przedstawienie metody regresji logistycznej oraz całego procesu budowy karty scoringowej z wykorzystaniem regresji logistycznej – najpopularniejszej i pod wieloma względami najlepszej metody stosowanej do tego celu. Drugi atut szkolenia to możliwość przećwiczenia każdego etapu samodzielnie, z wykorzystaniem komputera. Budowa własnych modeli scoringowych pozwoli na lepsze zrozumienie poruszanej tematyki. Informacje o bardziej zaawansowanych metodach analitycznych stosowanych w budowie systemów scoringowych to kolejny walor kursu.

Zapraszam wszystkich zainteresowanych!

Oct
01

Książki o GNU R

Znane wydawnictwa również zauważają rosnącą popularność systemu R. Świadczy o tym fakt, że Springer i Cambridge University Press wydają sporo książek temat systemu R oraz jego zastosowań. Listę książek wydanych przez Springera w poświęconej GNU R serii “UseR” można znaleźć tutaj: Springer Use R. Większość książek dotyczących R wydanych przez Cambridge University Press wymieniona jest tutaj: Cambridge Statistics R.

Moją ulubiona książka dotycząca R to “R Graphics” Paula Murrella. Więcej informacji jest na stronie wydawcy.

Sep
23

Na początek

Ten blog będzie dotyczył moich zainteresowań zawodowych: systemu GNU R, analizy danych, statystyki obliczeniowej, data miningu oraz ryzyka kredytowego.

Najprawdopodobniej na blogu będzie dominował system R. Używam go intensywnie od kilku lat. Praktycznie codziennie. Uczę studentów wykorzystania R (data mining, statystyka), wykorzystuję go podczas szkoleń i przygotowywania materiałów szkoleniowych (R ma świetne możliwości graficzne). Z systemu R korzystam także podczas pracy statystyka w banku: do budowy systemów scoringowych, analizy ryzyka kredytowego, do budowy modeli na potrzeby metody zaawansowanej w Basel II oraz do innych celów. System R wykorzystuję także w projektach komercyjnych z bioinformatyki (analiza danych SELDI-ToF) i z innych dziedzin oraz w pracy naukowej.

Bez R nie wyobrażam sobie pracy. Narzędzie jest potężne, elastyczne i wciąż mnie zaskakuje. Wydaje się, że potrafi wszystko: obliczenia rozproszone, obliczenia symboliczne, programowanie obiektowe, integracja z dowolnymi narzędziami i językami programowania. Na serwerach CRAN w oficjalnej dystrybucji jest ponad 1500 pakietów / bibliotek rozszerzających możliwości R.

Z wpisów na blogu nie powstanie raczej kurs systemu R dla początkujących. Będę starał się wybierać głównie ciekawostki oraz potencjalnie przydatne w praktyce elementy. W Sieci można znaleźć bardzo dużo pomocy do nauki R. Potrzeba tylko dobrych chęci i czasu. Początki z R z pewnością będą trudne, ale naprawdę warto zainwestować czas.

Sądzę, że oprócz kwestii związanych z R dosyć często będą pojawiały się wpisy dotyczące data miningu. Będę pisał przede wszystkim o data miningu w kontekście R, ale też o innych darmowych narzędziach oraz o samej metodologii data miningu i algorytmach.



szkolenia | data mining | analiza danych | statystyka | system statystyczny R | predictive modeling

prognozowanie | credit scoring | ryzyko kredytowe | programowanie | eksploracyjna analiza danych

analiza skupień | klasyfikacja | wizualizacja | darmowe oprogramowanie statystyczne | Wrocław