14
Text mining z wykorzystaniem GNU R
Posted under analiza danych, data mining, GNU R by Artur SuchwałkoText mining to grupa metod analizy danych tekstowych wykorzystujących metody data mining. W języku angielskim text mining bywa czasem nazywany text data mining, co idealnie wyjaśnia, na czym on polega (oto definicja text miningu z Wikipedii).
Jeszcze do niedawna R był pozbawiony pakietu umożliwiającego wygodną analizę eksploracyjną danych tekstowych. Sytuacja zmieniła się, kiedy pojawił się pakiet tm. Informacje o nim dostępne są tutaj.
Warto przeczytać rozdział “An Introduction to Text Mining in R” w najnowszym wydaniu R-News. Zaprezentowano tam naprawdę ciekawe przykłady analizy danych tekstowych wykonane przy pomocy pakietu tm.
Lista pakietów dla GNU R przydatnych w analizie tekstu dostępna jest w odpowiednim dziale CRAN Task Views.
Do ciekawych rozwiązań należy też ReadMe: Software for Automated Content Analysis (strona projektu ReadMe).
Znane narzędzie data miningowe Open Source RapidMiner również oferuje dodatek (plug-in) do analizy tekstu.
Informacje o innych narzędziach oferujących metody text mining można znaleźć na stronie KDnuggets.
