Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Free statistics help forum. Discuss statistical research, statistical consulting Smarter Poland Portal statystyczny

Poprzedni temat «» Następny temat

Tagi tematu: Brak tagów.

data mining a R
Autor Wiadomość
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2008-03-21, 21:55   data mining a R

popelnilem dla moich studentow skrotowy opis wybranych metod do eksploracyjnej analizy danych w R
http://www.biecek.pl/stat...elajPrzezDM.pdf

moze sie komus przyda, a tez chetnie wyslucham uwag co warto dodac, co warto zmienic itp
wiece jezeli macie jakies sugestie to prosze napiszcie mi o nich
_________________
pozdrawiam
Przemek
www.biecek.pl
Ostatnio zmieniony przez mathkit 2009-04-19, 09:03, w całości zmieniany 1 raz  
 
     
Google

Wysłany:    Reklama google.

 
 
stanek 
Szeregowy



Pomógł: 1 raz
Wiek: 38
Posty: 3
Skąd: Kraków
Wysłany: 2009-01-02, 18:12   

Gratuluję. Ciekawa pozycja. Na pewno z niej skorzystam.
Ostatnio jeden z moich studentów zainteresował mnie R-em. Przyznaję, że jak na darmowe oprogramowanie jest całkiem niezły. Ale w mojej pracy Matlaba niestety nie zastąpi.
pozdrawiam
_________________
Każdy ideał w ciele jest trywialny.
 
     
Silvestris 
Starszy Szeregowy


Wiek: 107
Posty: 25
Skąd: Kraków
Wysłany: 2009-04-11, 23:35   

Niestety R w wielu przypadkach nie nadaje się do profesjonalnego/komercyjnego wykorzystania.

Jednym z mankamentów jest to, że brak w jego procedurach optymalizacji pod kątem dużych zbiorów danych i zdarza się, że program zgłosi błąd bo próbuje załadować cały zestaw danych do pamięci operacyjnej.

Z ciekawych rzeczy o których pewnie nie wszyscy wiedzą STATISTICA 8 współpracuje praktycznie bezproblemowo z R, umie nawet uruchamiać makra pisane w czystym R więc można korzystać w ten sposób z dobrodziejstw obu programów.
Ostatnio zmieniony przez Silvestris 2009-04-14, 21:21, w całości zmieniany 1 raz  
 
 
     
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2009-04-14, 11:01   

Silvestris napisał/a:
Jednym z mankamentów jest to, że brak w jego procedurach optymalizacji pod kątem dużych zbiorów danych


E tam - zobacz http://cran.at.r-project....eComputing.html
 
     
Silvestris 
Starszy Szeregowy


Wiek: 107
Posty: 25
Skąd: Kraków
Wysłany: 2009-04-14, 21:28   

Zgadza się, ale pokusiłbym się o stwierdzenie, że losowo wybrana funkcja R wywali się na dużym zbiorze danych, bo z tego co widzę to tylko dowodzi tego co napisałem, że wielu przypadkach (a nie, że w ogóle) R nie nadaje się do profesjonalnego wykorzystania :)

Owszem można modyfikować istniejące funkcje albo wyszukiwać pakiety, które robią to samo ale z uwzględnieniem skalowalności, ale zwykle "management" nie specjalnie ma ochotę zatrudniać jakiegoś machera tylko po to żeby zmusić R do działania.

R ma jeszcze jeden poważny mankament, z tego co wiem nikt nie bierze odpowiedzialności prawnej/finansowej za np. poprawność obliczeń i np. 24h czas reakcji na błąd, a często to, że można na kogoś zwalić/pozwać albo do kogoś zadzwonić decyduje o wdrożeniu.

Z tego co wiem to w Polsce tylko w Europejskim Funduszu Leasingowym wykorzystuje się R do analiz.
 
 
     
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2009-04-15, 08:03   

Silvestris napisał/a:
Zgadza się, ale pokusiłbym się o stwierdzenie, że losowo wybrana funkcja R wywali się na dużym zbiorze danych
skąd ta pewność? testowałaeś? Jaki zbiór danych jest dla Ciebie duży?


Silvestris napisał/a:
R ma jeszcze jeden poważny mankament, z tego co wiem nikt nie bierze odpowiedzialności prawnej/finansowej za np. poprawność obliczeń


A jak kupisz Statistike czy SPSS to oni biorą odpowiedzialnośc prawną za poprawność obliczeń? Poczytaj licencje to się przekonasz.

Co do R, to są co najmniej dwie firmy, które wspierają swoje wersje R:
http://www.revolution-computing.com/
http://random-technologies-llc.com/

Wiele zachodnich instytucji finansowych (banki, fundusze inw.), koncernów farmaceutycznych, etc używa R.
 
     
Silvestris 
Starszy Szeregowy


Wiek: 107
Posty: 25
Skąd: Kraków
Wysłany: 2009-04-15, 10:01   

Z tego co wiem nie biorą odpowiedzialności za np. zastosowanie modelu i podejmowane na podstawie tego decyzje, co do reszty myślę, że to raczej kwestia konkretnej umowy a nie licencji bo w tego typu sprawach mamy do czynienia raczej z wdrożeniem konkretnego rozwiązania niż samym zakupem oprogramowani.

A duży zbiór danych? Np. 10 000 000 rekordów i 60 zmiennych, STATISTICA to łyknie, a R chyba raczej nie :)

Sam testów nie wykonywałem opieram się na tym co dowiedziałem się między innymi na studiach, może najnowsze wersje są wolne od tego typu bolączek.
 
 
     
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2009-04-16, 19:34   

Cytat:

Sam testów nie wykonywałem opieram się na tym co dowiedziałem się między innymi na studiach, może najnowsze wersje są wolne od tego typu bolączek.


Warto rozrozniac ,,nie potrafie tego zrobic w R'' od ,,nie da sie tego zrobic w R'' ;-)

R jak kazdy pakiet ma wady i zalety.
Ale stwierdzenie, ze nie nadaje sie do profesjonalnego zastosowania bez podania przykaldow czym sa te profesjonalne zastosowania (czy profesjonalne to duzo danych?) jest malo powazne.

Oczywiscie najlepiej znac wiele narzedzi i wybierac te ktore akurat do konkretnego problemu nadaje sie najlepiej.
Z narzedzi, ktore znam akurat programowanie w R sprawia najwieksza przyjemnosc.
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
Silvestris 
Starszy Szeregowy


Wiek: 107
Posty: 25
Skąd: Kraków
Wysłany: 2009-04-16, 21:31   

No jeżeli akurat chodzi o data mining to bardzo duże zbiory danych to raczej nie jest nic nadzwyczajnego.

Poza tym zupełnie czym innym są zabawy akademickie gdzie na wiele rzeczy można przymknąć oko a czym innym wykonywanie analiz na realnych danych otrzymanych od klienta/zleceniodawcy.

Przykład kiedy się wywala:

x <-rnorm(720000000,0,1)

Niedawno miałem akurat zbiór w którym było ponad 40 000 000 rekordów i 18 zmiennych, stąd akurat taka ilość :)

Zwykle nikt nie wykonuje analizy na całym zbiorze, tylko albo się coś losuje albo wykonuje agregacje, ale akurat w tym przypadku jednym z wymogów było przeprowadzenie analiz na pełnym zbiorze.

A co do programowania to ja chyba jednak wolę c# czy c++ :)
 
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 12 razy
Posty: 199
Skąd: Wrocław
Wysłany: 2009-04-16, 21:58   

Silvestris napisał/a:
Przykład kiedy się wywala:

x <-rnorm(720000000,0,1)

Nie wywala się, tylko grzecznie informuje, że: "cannot allocate vector of length 720000000"
Ale chyba można użyć pakietów, które to obchodzą. Użytkownik Piotrek podał link. Nigdy nie potrzebowałem tego używać, ale zakładam, że działa.

Silvestris napisał/a:
Poza tym zupełnie czym innym są zabawy akademickie gdzie na wiele rzeczy można przymknąć oko a czym innym wykonywanie analiz na realnych danych otrzymanych od klienta/zleceniodawcy.


Widzę, że masz mylne wyobrażenie o pakietach. Zakładasz, że te komercyjne to 100% gwarancji a open-sourcowe to są dla pasjonatów, gdzie błędy to chleb powszedni.
Okazuje się, że te nawet z najwyższej pólki jak SAS mają błędy. Czytałem w jednym z artykułów Alana Agrestiego (to ten od książki Categorical Data Analysis), że SAS przy estymacji uogólnionych, mieszanych modeli nieraz podaje błędne oszacowania. Niestety tytułu artykułu nie pamiętam.
Społeczność R coraz bardziej się rozrasta, więc jeśli pojawiają się jakieś błędy w kilkunastu podstawowych pakietach to będą na pewno odkryte. A w takim SASie jest jeden tester i tyle :-D
Silvestris napisał/a:
A co do programowania to ja chyba jednak wolę c#

To proponuję napisać program na mnożenie lub odwracanie macierzy i porównać jego szybkość z R. Jak nie jesteś b.dobrym programistą to chyba ci się nie uda.
 
     
Silvestris 
Starszy Szeregowy


Wiek: 107
Posty: 25
Skąd: Kraków
Wysłany: 2009-04-16, 22:27   

Programując w c# nie muszę pisać wszystkiego od początku, mając do dyspozycji np. STATISTICA mogę wykorzystywać wszystkie zaimplementowane tam procedury np. mnożenie macierzy :)

A co do tego jednego biednego testera :) to myślę, że jak użytkownik SAS'a zgłosi błąd to to nie idzie do /dev/null :)

Zresztą ja nie uważam, że R jest do kitu i nie nadaje się do firmy, zresztą żywe przykłady temu przeczą, ale zwykle ważniejszym czynnikiem jest to, że jest do kogo zadzwonić i zwalić na niego rozwiązanie problemu.

R czeka jeszcze sporo zmian :) chociaż z tego co ostatnio widzę to zdecydowanie idzie ku dobremu.

Z mojej strony EOT, bo myślę, że już nic sensownego z tej rozmowy nie wyniknie, a co najwyżej możemy zacząć małe flame wars :)
 
 
     
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2009-04-17, 09:45   

Cytat:
A co do programowania to ja chyba jednak wolę c# czy c++ :)


Chodzilo mi o przyjemnosc z programowania w R a nie o mozliwosciach jezyka.
Kiedys perlowcy pisali wiersze w perlu dlatego ze jezyk umozliwial rozne ciekawe konstrukcje (http://docstore.mik.ua/orelly/perl/prog3/ch27_02.htm).

Przyjemnosc z programowania to oczywiscie calkowicie subiektywne odczucie.
Ale az kusi parafraza ,,Nie da Ci Matlab nie da Ci Sas, frajdy ktora z R masz''
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
bstq 
Chorąży


Pomógł: 9 razy
Posty: 103
Skąd: Warszawa
Wysłany: 2009-04-17, 10:57   odp

a ja te ksiazke polecam, bo jest przyjazna i konkretna :) przede mna jedno kolokwium z tej tematyki (w programie R) oraz analiza przykladowego zbioru danych (od histogramow po LDA itp.), wiec jeszcze kilka razy z niej skorzystam

rozumiem, ze celem autora tej ksiazki nie bylo dokladne wyjasnienie metod, tylko sposoby ich implementacji w R

jesli ktos chcialby poznac (doglebnie) teoretyczne podstawy takich metod, to polecam ksiazke
J. Cwika i J. Koronackiego: "Statystyczne systemy uczace sie" (znam tylko te ksiazke z tej tematyki:))
 
     
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2009-04-28, 20:37   

Cytat:

Przykład kiedy się wywala:

x <-rnorm(720000000,0,1)


przypadkiem sprawdzilem i okazuje sie ze wcale sie nie wywala !

liczy sie kilkanascie sekund i zajmuje 5GB pamieci ale smiga bez problemu (oczywiscie pod linuxem, windows ma problemu z pamiecia)
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
Pietrucha 
Starszy Szeregowy


Wiek: 38
Posty: 22
Skąd: Warszawa
Wysłany: 2009-05-17, 19:18   

Właśnie wpadłem w internecie na to forum i dyskusję na temat dataminingu w R.
Tak sobie myślę, że w zasadzie od sześciu lat zajmuję się analizą danych i pracowałem na dwóch pakietach (SPSS, SAS) i w zasadzie poza problemami z licencją i pogawędkami dotyczącymi kolejnych modułów oprogramowania nigdy telefon do konsultanta nie spowodował, żebym jakiś problem biznesowo-analityczny rozwiązał. Głównie korzystam w tych sprawach z googla i książek :lol:

Od jakiegoś czasu chciałbym zabrać się za R - widziałem, że są olbrzymie możliwości.
W związku z tym mam pytanie odnośnie książki - czy można ją już zakupić ?

I pytanie nr 2 - czy istnieją w pakiety dataminingowe, które zawierają zestaw narzędzi do przygotowania danych do analizy i porównywalną do komercyjnych ilość algorytmów stosowanych w dataminingu. Wydaje mi się, że mimo wielkich możliwości używanie R do tego typu analiz wymaga od użytkownika bardzo dobrej znajomości R i różnych jego pakietów.
Zgadzam się z Silvertisem, że między zastosowaniem naukowym, a zastosowaniem biznesowym jest spora różnica. Wynika ona przede wszystkim z czasu, który trzeba poświęcić na rozwiązanie problemu. W biznesie jest go bardzo mało zwykle i dużo łatwiej jest 'wyklikać' w kreatorze, aniżeli napisać kod w R.

Pozdrowienia - Piotrek
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Podobne Tematy
Temat Autor Forum Odpowiedzi Ostatni post
Brak nowych postów Ogłoszenie: SEMINARIA POŚWIĘCONE STATYSTYCE I DATA MINING
Kraków, Warszawa - czyli 80% nudy i komerchy, ale nawet dla pozostałych 10% warto
mathkit Ogłoszenia, sprawy organizacyjne forum, regulamin 4 2007-02-09, 11:11
alinaptaszek
Brak nowych postów Przyklejony: Data mining a giełda
gk Biblioteki R, Pakiety R 2 2010-01-13, 18:00
pyged
Brak nowych postów Przyklejony: Wprowadzenie do data mining
bor1904 Data Mining, Metody klasyfikacji 1 2010-11-09, 11:08
Jackiller
Brak nowych postów Przyklejony: konferencja OLAP i data mining
mathkit Data Mining, Metody klasyfikacji 0 2006-11-24, 22:21
mathkit
Brak nowych postów Przyklejony: Współpraca - Data Mining - Projekt Unijny
ML Institute Ogłoszenia, sprawy organizacyjne forum, regulamin 0 2011-10-03, 11:41
ML Institute

Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,05 sekundy. Zapytań do SQL: 27