Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Free statistics help forum. Discuss statistical research, statistical consulting Smarter Poland Portal statystyczny

Poprzedni temat «» Następny temat

Tagi tematu: Brak tagów.

data mining a R
Autor Wiadomość
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2009-05-18, 08:00   

Cytat:
W związku z tym mam pytanie odnośnie książki - czy można ją już zakupić ?
http://www.aktyka.pl/shop...96&categorie=82
Polecam.
Jest jeszcze
http://ksiegarnia.pwn.pl/...ml?kategoria=73
Nie czytałem - może inni się wypowiedzą.
Cytat:
zy istnieją w pakiety dataminingowe, które zawierają zestaw narzędzi do przygotowania danych do analizy i porównywalną do komercyjnych ilość algorytmów stosowanych w dataminingu

Tak - zobacz http://cran.at.r-project.org/web/views/
Cytat:
Wydaje mi się, że mimo wielkich możliwości używanie R do tego typu analiz wymaga od użytkownika bardzo dobrej znajomości R i różnych jego pakietów.

Czy z innymi pakietami, również komercyjnymi nie jest podobnie. Zreztą jest doskonały help.
Popatrz na http://www.liaad.up.pt/~ltorgo/DataMiningWithR/
 
     
Google

Wysłany:    Reklama google.

 
 
Pietrucha 
Starszy Szeregowy


Wiek: 38
Posty: 22
Skąd: Warszawa
Wysłany: 2009-05-19, 09:37   

Dzięki za odpowiedż - zakupiłem już Przewodnik po R, druga pozycję kupuje dzisiaj :).
Help jest rzeczywiście fajny. Grzebałem sporo w necie i widziałem, ze rzeczywiście są problemy z przetwarzaniem duzych wolumenów danych w R (czytałem wywiad z twórcą RATTLE).

Może ktoś wie, czy istnieje jakiś handbook - optymalna konfiguracja sprzętowa do R, do wykonywania analiz na dużych wolumenach danych ?
Konkretnie chodzi dane transakcyjne klientów, bazy od 1mln do 5mln rekordów maksymalnie. Z tego co zrozumiałem na linuxie działa to wydajniej, bo sam linux działa wydajniej. Jednak w większości przypadków zmuszeni jesteśmy pracować na windzie. .

P.

piotrek napisał/a:
Cytat:
W związku z tym mam pytanie odnośnie książki - czy można ją już zakupić ?
http://www.aktyka.pl/shop...96&categorie=82
Polecam.
Jest jeszcze
http://ksiegarnia.pwn.pl/...ml?kategoria=73
Nie czytałem - może inni się wypowiedzą.
Cytat:
zy istnieją w pakiety dataminingowe, które zawierają zestaw narzędzi do przygotowania danych do analizy i porównywalną do komercyjnych ilość algorytmów stosowanych w dataminingu

Tak - zobacz http://cran.at.r-project.org/web/views/
Cytat:
Wydaje mi się, że mimo wielkich możliwości używanie R do tego typu analiz wymaga od użytkownika bardzo dobrej znajomości R i różnych jego pakietów.

Czy z innymi pakietami, również komercyjnymi nie jest podobnie. Zreztą jest doskonały help.
Popatrz na http://www.liaad.up.pt/~ltorgo/DataMiningWithR/
 
     
Skywalker 
Szeregowy


Wiek: 40
Posty: 6
Skąd: Warszawa
Wysłany: 2009-06-30, 15:58   

Przepraszam jeśli kogoś obrażę, ale dyskusja wydaje się być czysto akademicka, taka typu o wyższości świąt ... nad świętami ... .

Wszystko zależy, które narzędzie do jakich zadań. O tym, że OS MAC czy jakikolwiek Linux/Unix jest stabilniejszy od WNDW wiedzą wszyscy. Tylko tyle, że WNDW jest używany ca. na 90% PC, ot i cała prawda. 'Rynek' lub jego 'niewidzialna ręka' zadecydowała, iż łatwiej korzystać z WNDW niż z pozostałych. Łatwiej, to znaczy jest bardziej dostępne (we wszystkich aspektach, także cenowych - cena to nie tylko koszt nabycia, to raczej TCO - total cost of ownership - całkowity koszt posiadania Linuxa, MAC OS, WNDW, pomocy technicznej, wożenia sprzętu do serwisu czy wołania kolegi - więcej kolegów zna WNDW niż Linux czy MAC OS ).

Wracając do pakietów statystycznych.

Trudno porównać R, SPSS, SAS czy Statistica. Tutaj trzeba by dołożyć także Stata, Kxeen, EViews, Gauss, Mathlab, Mathematica a i tak pewnie coś pomijam.

Dlaczego niby R a nie VEKA z UW? Też pewnie dadzą za darmo ...
Dlaczego Statistica a nie SPSS? A może SAS?
Albo Matlab czy Mathematica?

Do rzeczy: rynek zadecydował, iż jeśli chce używać, kupić profesjonalne rozwiązanie analityczne to wybiera tak jak w tym linku (http://www.sas.com/news/analysts/idc-ww-bi-tools-2008.pdf) (Table 4 Worldwide Advanced Analytics Tools Revenue by Vendor, 2006 – 2008, Raport IDC).

Klient kupuje nie tylko pakiet do data mining. Kupuje często cały projekt: model danych, modele analityczne, predefiniowane modele zasilania repozytorium analitycznego, poradę jak zbudować takie repozytorium, jak zasilić aby było wydajne, itd. itp. Czyli klient kupuje RADĘ oraz ZAUFANIE, iż w tym co robi ma wsparcie kompetentncyh ludzi, którzy 'zjedli zęby' na analizie danych. Ww wiedzy nie da się przeczytać w książkach, a w internecie jest bardzo, ale to bardzo rozproszona. Często nie publikuje się takich informacji, lub tylko mówi o nich ogólnie, gdyż jest to prawdziwy 'know how' projektowy, skrzętnie ukrywany przez firmę przed konkurencją a gromadzony przez firmy komercyjne zajmujemy się analityką i sprzedawany.

Mało kto wie np. iż taki SPSS w Polsce nie ma stałego zespołu konsultingowego. Więc za każdym razem projekt trzeba tworzyć od podstaw...

KXEEN dla odmiany sprzedaje analitykę jako 'czarne skrzynki' do których klient w ogóle nie powinien się dotykać. A jak trzeba coś zmienić to zawołać konsultanta ...

Przywołane w wcześniejszym poście firmy wspierające R nie występują w ww raporcie, znaczy się wykorzystanie R w biznesie jest znikome.

Istotnym problemem analityków danych jest lekceważenie prostej zasady: 80-90% czasu to gromadzenie danych, czyszczenie, modelowanie i przygotowanie do analiz, 10-20% czasu to sama analiza danych. Ten kto to lekceważy zawsze będzie miał bałagan w danych. Zatem oceniając pakiet analityczny, trzeba oceniać nie tylko to, jakie ma możliwości analityczne, ale także GROMADZENIA, PRZETWARZANIA i MODELOWANIA danych. O ile mi wiadomo z ww tylko jedna firma oferuje język przetwarzania danych, oferuje HURTOWNIE DANYCH, sprzedaje i wdraża. A cały SQL mieści się w jednej z procedur języka (jeśli jest inaczej proszę o sprostowanie).

Pozostałe pakiety wspierają się na bazach danych: komercyjnych i open source i przez to wykorzystują do przetwarzania danych język zapytań do baz - SQL. Jak niewygody jest SQL chyba wie każdy, który próbował odwrócić w SQLu macierz ...

Kolejny problem to czas poświęcany na przenoszenie danych pomiędzy bazą danych a pakietem statystycznym. Polecam proste ćwiczenie. Wygenerowanie bazy danych 20 tabel po 5GB (i tutaj potrzebne już chyba jest coś do przechowywania, wszak w 'przyrodzie' takie dane nie są gotowe, a gromadzą je bazy) i 'powachlowanie' tym pomiędzy bazą a pakietem statystycznym ...

Dlatego nowy trend pojawiający się na rynku to 'in data base processing' (http://www.sas.com/technologies/architecture/in-databaseprocessing/index.html). Przetwarzanie całych zbiorów w pamięci operacyjnej nie jest najbardziej efektywną metodą analizy DUŻYCH zbiorów danych.

Istnieje ogromna różnica w jeżdżeniu ciężarówką po autostradzie informacyjnej, a uprawianiu poletka naukowego traktorem z pługiem i przyczepą. Pierwsza nadaje się do śmigania po autostradzie danych z olbrzymimi przebiegami i obciążeniami, drugie czasami pociągnie przyczepę danych, ale rozhulać się raczej nie da. No i czas już wspomniany, w biznesie go ciągle brak, naukowcy wydaje się mają go ciągle w nadmiarze.

Jeśli chodzi o czysty data mining to porównanie można znaleźć tutaj http://mediaproducts.gart...3/article3.html , zarówno w obszarze ilości wdrożonych projektów na świecie jak i innowacyjności narzędzia (ale już nie wielkości projektów).

I konkludując: koncerny, głównie SAS, nie sprzedają regresji i sieci neuronowych. Sprzedają gotowe rozwiązania biznesowe (http://www.sas.com/software/). Tą droga podąża także SPSS i mało znany w Polsce KXEEN. Szybko drogę tą zrozumiał Statsoft, ale chyba tylko w Polsce. Pozostałe firmy to ciągle narzędzia ...

Analitycy natomiast często boją się dopracowanych rozwiązań biznesowych, wolą wszystko rozwijać od podstaw (co zrozumiałe). Niestety często nie dostrzegają korzyści wynikających z wdrożenia gotowego rozwiązania i skorzystania z usług firmy posiadające doświadczenie we wdrożeniach rozwiązań analitycznych.

Rozumiejąc inicjatywę akademicką i środowiska wolnych twórców oprogramowania takie firmy jak SAS, SPSS czy Statistica (kolejność alfabetyczna) udostępniły wtyczki umożliwiające wykonanie kodu R w swoim silniku obliczeniowym (np.: http://support.sas.com/fo...threadID=5597). Z prostej przyczyny: najnowsze procedury analityczne pojawiają się najszybciej w R (niezależnie czy biznes ich potrzebuje czy nie).

Ps. Linki pochodzą akurat ze strony SAS gdyż są łatwe do znalezienia. Strona SAS jest dość przejrzysta.
 
     
Crunchy 
Major
Crunchy


Pomógł: 74 razy
Posty: 1112
Skąd: Katowice
Wysłany: 2009-06-30, 21:59   

Skywalker napisał/a:

Trudno porównać R, SPSS, SAS czy Statistica. Tutaj trzeba by dołożyć także Stata, Kxeen, EViews, Gauss, Mathlab, Mathematica a i tak pewnie coś pomijam.


Szczególnie trudno z Matlabem i Mathematicą, czy Abaqusem albo Nastranem, a i tak na pewno coś pomijam ;-)
A dlaczego dołożyć...?

Skywalker napisał/a:

Dlaczego niby R a nie VEKA z UW?

Bo do R jest pakiet RWeka...?


Skywalker napisał/a:

Klient kupuje nie tylko pakiet do data mining. Kupuje często cały projekt: model danych, modele analityczne, predefiniowane modele zasilania repozytorium analitycznego, poradę jak zbudować takie repozytorium, jak zasilić aby było wydajne, itd. itp. Czyli klient kupuje RADĘ oraz ZAUFANIE, iż w tym co robi ma wsparcie kompetentncyh ludzi, którzy 'zjedli zęby' na analizie danych. Ww wiedzy nie da się przeczytać w książkach, a w internecie jest bardzo, ale to bardzo rozproszona. Często nie publikuje się takich informacji, lub tylko mówi o nich ogólnie, gdyż jest to prawdziwy 'know how' projektowy, skrzętnie ukrywany przez firmę przed konkurencją a gromadzony przez firmy komercyjne zajmujemy się analityką i sprzedawany.

Z pewnością masz rację, tyle że w praktyce to wyszło np. tak:
Pietrucha napisał/a:

Tak sobie myślę, że w zasadzie od sześciu lat zajmuję się analizą danych i pracowałem na dwóch pakietach (SPSS, SAS) i w zasadzie poza problemami z licencją i pogawędkami dotyczącymi kolejnych modułów oprogramowania nigdy telefon do konsultanta nie spowodował, żebym jakiś problem biznesowo-analityczny rozwiązał. Głównie korzystam w tych sprawach z googla i książek.


Skywalker napisał/a:

Przywołane w wcześniejszym poście firmy wspierające R nie występują w ww raporcie, znaczy się wykorzystanie R w biznesie jest znikome.

Nieprawda, ponieważ wykorzystywać R w biznesie może każdy i za darmo, a porównania dotyczą różnic dochodów firm z min. 10 mln USD rocznie, kategoria inne zawiera w 2008 1,832 mln $ (23.5%) rynku.

Skywalker napisał/a:

Przetwarzanie całych zbiorów w pamięci operacyjnej nie jest najbardziej efektywną metodą analizy DUŻYCH zbiorów danych.

Jakieś przykłady...? Chyba, że są tak duże, że się nie mieszczą - ale wtedy oczywiście przestają taką być.

Skywalker napisał/a:

Istnieje ogromna różnica w jeżdżeniu ciężarówką po autostradzie informacyjnej, a uprawianiu poletka naukowego traktorem z pługiem i przyczepą. Pierwsza nadaje się do śmigania po autostradzie danych z olbrzymimi przebiegami i obciążeniami, drugie czasami pociągnie przyczepę danych, ale rozhulać się raczej nie da. No i czas już wspomniany, w biznesie go ciągle brak, naukowcy wydaje się mają go ciągle w nadmiarze.

PZU, LOT, P4, elektrownie i dwa banki - flagowi klienci SAS w Polsce. Istnieje ogromna różnica, przede wszystkim w zastosowaniu - więc porównywanie nie jest miarodajne.

Skywalker napisał/a:

Ps. Linki pochodzą akurat ze strony SAS gdyż są łatwe do znalezienia. Strona SAS jest dość przejrzysta.

Zapewne, i pozdrawiamy Panią Katarzynę Kwiecień. I z ciekawości, może ktoś poda orientacyjne ceny tych rozwiązań biznesowych, na pewno się ktoś z forum skusi...
 
     
Skywalker 
Szeregowy


Wiek: 40
Posty: 6
Skąd: Warszawa
Wysłany: 2009-06-30, 22:39   

A kto to jest Katarzyna Kwiecień?
 
     
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2009-07-01, 08:05   

Czy dumanie o zamknietych czarnych klockach to temat do rozmowy dla statystykow na tym forum?

90% czytelnikow chce wiedziec jak policzyc na kartce test t-studenta dla 20 obserwacji
9% czytelnikow potrzebuje zrobic to dla 200 obserwacji i Ci moga uzyc dowolnego pakietu statystycznego
0,9% czytelnikow potrzebuje czegos do analizy baz danych ktore choc nie sa male to mieszcza sie w RAM o ile jest go duzo (czyli do kilku GB danych)

Cytat:
Wszystko zależy, które narzędzie do jakich zadań.

zgadzam sie z Toba w 100%
Ale nie uwazam by materialy SASa (czy dowolnej innej firmy) z ,,magicznymi kwadratami'' porownujace narzedzia sa dobrym zrodlem wiedzy dla analityka.
Znacznie lepiej w miare mozliwosci poznac te narzedzia (przy odrobinie szczescia mozna poznac kilka na studiach gdy uczelnia placi za licencje) i wyrobic sobie wlasne zdanie co jest ciezarowka a co nie.

To oczywiscie moje zdanie i jestem pewien, ze osoby pracujace w przemysle a nawet inne osoby z Akademii maja czesto drastycznie inne zdanie.
Dobrze tez poznac zdanie innych.
Dzieki Bogu za taka roznorodnosc.

Wracajac do klientow SAS w Polsce.
Aktualnie dla duzych klientow w Polsce SAS ma prawie pozycje monopolisty, widac to po oplatach licencyjnych itp.
Ciekaw jestem jak ta sytuacja bedzie wyglądała za 10 lat.
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
Skywalker 
Szeregowy


Wiek: 40
Posty: 6
Skąd: Warszawa
Wysłany: 2009-07-01, 16:31   

Popieram w 100 %. Najlepiej jak student sam zapozna się z oprogramowaniem.

Rankingi jednak są przydatne. Korzystam z nich wybierjąc auto, dlaczego nie software?

Do małych zbiorków danych osobiście bardzo podoba mi się JMP (www.jmp.com).

Problemy Akademii:

- wielu nauczycieli akademickich nie korzysta z żadnego oprogramowania (sic! nigdy nie zrobiło żadnego projektu biznesowego)

- studenci są uczeni głównie Statistica

- nauczyciele nie rozróżniają zastosowań akademickich (research) i biznesowych

Pożyjemy, zobaczymy :-) . Słyszałem, iż ostatnio w Polsce otwarła swe biuro Stata. Może ktoś to zweryfikować?

Tymczasem pozdrawiam ze szkolenia R.
 
     
Crunchy 
Major
Crunchy


Pomógł: 74 razy
Posty: 1112
Skąd: Katowice
Wysłany: 2009-07-01, 19:47   

Skywalker napisał/a:

Rankingi jednak są przydatne. Korzystam z nich wybierjąc auto, dlaczego nie software?

Wyciąganie bezpodstawnych wniosków, na podstawie rankingów jest wg mnie błędem. Nie można twierdzić na podstawie tego raportu, że skoro dwie firmy wspierające R nie mają przynajmniej 10M$ zysku rocznie, to wykorzystanie R w biznesie jest znikome - ponieważ R jest darmowy i korzysta z niego znacznie więcej osób bez wsparcia tych firm.

Skywalker napisał/a:
Tymczasem pozdrawiam ze szkolenia R.
:shock:


Tu jest mały przewodnik, i są nawet wykłady. Zdecydowanie polecam Metody ilościowe w R. Aplikacje ekonomiczne i finansowe.

kk.png
Plik ściągnięto 14229 raz(y) 2,66 KB

 
     
Skywalker 
Szeregowy


Wiek: 40
Posty: 6
Skąd: Warszawa
Wysłany: 2009-07-01, 23:46   

Kto jak kto ale statystyk nie powinien uciekać się do twierdzenia:

Crunchy napisał/a:

- ponieważ R jest darmowy i korzysta z niego znacznie więcej osób bez wsparcia tych firm.


Jakiś przykład? Badania?

To że kolega A i kolega B używa R bo kolega C też używa nie znaczy, iż cały świat używa R.
O ile mi wiadomo R jest świetny jeśli chodzi o 'research tool' stąd jego popularność w świecie nauki.

Dzięki za tutoriale, wykłady, książki, itp. Przydadzą się. Zgodnie z radą książki nie kupię, bo to komercja :-|

Na pierwszej stronie e-booka jest " In this book we will use MySQL as the core database management system." A więc jednak R potrzebuje wspracia RDBMS ... a już myślałem, że to perpetum mobile.

Przy okazji MySQL ZNACZNIE ustępuje ORACLE Ng czy IBM DB2. (Ależ one są koszmarnie drogie słyszę już w powietrzu ...)

Pójdźmy dalej: ile jest firm z taką konfigurację: Linux, MySQL, Open Office, R, może jeszcze jakiś darmowy ERP i BI?

Chętnie poczytałbym badania na ten temat. :oops:

A Panią Kwiecień PR pozdrawiamy. O nieobecnych na tym forum nie mówimy źle. Najlepiej o nikim nie mówmy źle. :evil:
 
     
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2009-07-02, 10:23   

To jeszcze jeden kamyczek, narzedzi jest wiele itp, mozna dyskutowac co jest najczesciej uzywane na swiecie i wygra pewnie chinska wersja R.

Bylem kiedys na ENBIS (the European Network for Business and Industrial Statistics) http://www.enbis.org/ i wsrod narzedzi stosowanych przez tych analitykow dominowaly R i SAS (kolejnosc alfabetyczna).
Na Directions in Statistical Computing (DSC 2009) R dominuje ze zrozumialych powodow (tam sa praktycznie open sorce).

Oczywiscie na innych spotkaniach moga dominowac inne narzedzia, powyzsze dwa sa jednak w jakis sposob reprezentatywne. Jest na nich masa ludzie non-academic.
To ze na useR!2009 bedzie dominowal R nikogo nie zaskoczy.
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
Skywalker 
Szeregowy


Wiek: 40
Posty: 6
Skąd: Warszawa
Wysłany: 2009-07-02, 11:18   

Salomonowe rozwiązanie. :idea:

R(S)AS kozia śmierć. Trzeba się nauczyć obu 8-)
 
     
Crunchy 
Major
Crunchy


Pomógł: 74 razy
Posty: 1112
Skąd: Katowice
Wysłany: 2009-07-03, 19:04   

Pietrucha napisał/a:

Może ktoś wie, czy istnieje jakiś handbook - optymalna konfiguracja sprzętowa do R, do wykonywania analiz na dużych wolumenach danych ?
Konkretnie chodzi dane transakcyjne klientów, bazy od 1mln do 5mln rekordów maksymalnie.

Najbezpieczniej jest generować podobne zbiory i porównywać, np. czas wykonywania testów/analiz - i wtedy już wiesz na czym stoisz. ;-) np.:
Kod:
a=500000
d<-data.frame(styczeń = c(rnorm(a,mean = 3100, sd = 1400)),luty = c(rnorm(a,mean = 3000, sd = 1600)), marzec =c(rnorm(a,mean = 2900, sd = 2500)), kwiecień = c(rnorm(a,mean = 3200, sd = 2000)), maj = c(rnorm(a,mean = 3400, sd = 1600)), czerwiec=c(rnorm(a,mean = 3800, sd = 2300)),lipiec=c(rnorm(a,mean = 4800, sd = 1000)),sierpień=c(rnorm(a,mean = 5900, sd = 1200)),wrzesień=c(rnorm(a,mean = 4000, sd = 1000)),październik=c(rnorm(a,mean = 3200, sd = 1700)),listopad=c(rnorm(a,mean = 3100, sd = 2100)),grudzień=c(rnorm(a,mean = 3000, sd = 2000)) )
fix(d)
system.time(kruskal.test(d))
t.test(d$styczeń,d$luty)
b<-c(col="green")
par(mfrow=c(3,4))
hist(d$styczeń,col=b)
hist(d$luty,col=b)
hist(d$marzec,col=b)
hist(d$kwiecień,col=b)
hist(d$maj,col=b)
hist(d$czerwiec,col=b)
hist(d$lipiec,col=b)
hist(d$sierpień,col=b)
hist(d$wrzesień,col=b)
hist(d$październik,col=b)
hist(d$listopad,col=b)
hist(d$grudzień,col=b)
par(mfrow=c(1,1))
średnie<- mean(d)
plot(średnie,type="s")


bez komentarza.png
Plik ściągnięto 14139 raz(y) 2,97 KB

 
     
Pietrucha 
Starszy Szeregowy


Wiek: 38
Posty: 22
Skąd: Warszawa
Wysłany: 2009-07-04, 02:46   

Crunchy napisał/a:
Najbezpieczniej jest generować podobne zbiory i porównywać, np. czas wykonywania testów/analiz - i wtedy już wiesz na czym stoisz.


Dzięki - wychodzi na to, że anyway w praktyce trzeba sprawdzić.

Skywalker napisał/a:
Kolejny problem to czas poświęcany na przenoszenie danych pomiędzy bazą danych a pakietem statystycznym. Polecam proste ćwiczenie. Wygenerowanie bazy danych 20 tabel po 5GB (i tutaj potrzebne już chyba jest coś do przechowywania, wszak w 'przyrodzie' takie dane nie są gotowe, a gromadzą je bazy) i 'powachlowanie' tym pomiędzy bazą a pakietem statystycznym ...


No Skywalker tutaj masz trochę racji i się mylisz również. Ja w praktyce na takich danych pracowałem na sas-ie, na silnym serwerze obliczeniowym i mi się zawieszał po prostu. Więc, żeby przetworzyć duże ilości danych musiałem stosować zapytania w klasycznej pętli ściągać dane za cały miesiąc do biblioteki tymczasowej, mergować to wszystko i dopiero zająć się właściwą analizą danych. Coś mi mówi, że po prostu przy niestandardowych analizach ad hoc dla firmy wychodzi na to samo, ale bez olbrzymich wydatków na w przypadku sas-a coroczną licencję i szkolenia dla analityków. A szkolenia w SAS Institute są drogie i podzielone na tyle bloków tematycznych, żeby kosztowało to bardzo dużo w każdej konfiguracji, która przyjdzie do głowy.

Jak napisałeś 80-90% czasu to czyszczenie danych i jeśli trzeba to zrobić pisząc kody to nie ma różnicy pomiędzy świetnym kontekstowym GUI, a wierszem poleceń.

Skywalker napisał/a:
Do rzeczy: rynek zadecydował, iż jeśli chce używać, kupić profesjonalne rozwiązanie analityczne to wybiera tak jak w tym linku (http://www.sas.com/news/analysts/idc-ww-bi-tools-2008.pdf) (Table 4 Worldwide Advanced Analytics Tools Revenue by Vendor, 2006 – 2008, Raport IDC).


Jeśli chodzi o takie rankingi to ja nie wierzę w ich reprezentatywność - ja nie widzę w tym materiale marketingowym podstawowych informacji, nie wiem jak to zbadano, jaki dobór próbki, kogo w tych firmach pytano o zdanie etc. To jest bardzo ważne, bo mój szef/dyrektor nie wie jakiego ja oprogramowania użyłem, żeby przygotować mu raport do podjęcia decyzji biznesowej :lol: . A z drugiej strony w dużych firmach oprogramowanie kupuje IT, ze swojego budżetu i niekoniecznie biznesowe działy firmy mają wiele do powiedzenia. I kończy się to tak, że wydajesz 100mln rocznie na oprogramowanie, z którego korzysta 450 osób, z których około 30ści wie co tam w tym oprogramowaniu siedzi. Wydajesz pieniądze na szkolenia, wszelkie bugi przez dostawcę są usuwane z dwuletnim opóźnieniem, bo dostawca trzyma firmę w garści i zmiana oprogramowania na inne wiąże się z zablokowaniem wielu procesów w firmie itd. A trzyma w garści, bo razem z oprogramowaniem wcisnął w czasie podpisywania kontraktu hurtownię danych i jeśli nie zapłacisz za licencję to w godzinie X przestaje działać w firmie dosłownie wszystko, każdy dzień generuje straty.
Niestety praktyka jest taka, że w wielu firmach oprogramowanie analityczne jest używane do celów stricte operacyjnych, a nie wyłącznie analitycznych, np. w direct marketingu. Owszem przygotowujesz segmentację klientów, nawet najbardziej wyrafinowaną, ale ona jest potrzebna do konkretnych celów biznesowych, czyli baza klientów z segmentu Y jest wysyłana do drukarni, dla tego segmentu jest wysyłana konkretna oferta itp.
Ja mógłbym o tym elaborat napisać cały na ten temat. Mimo, że naprawdę jestem hard userem SAS-a, zacząłem się interesować oprogramowaniem alteRnatywnym. W tej chwili komputery są na tyle mocne, że nawet przetwarzanie danych w pamięci operacyjnej nie musi być problemem.
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 12 razy
Posty: 199
Skąd: Wrocław
Wysłany: 2009-07-04, 10:38   

Pietrucha napisał/a:
W tej chwili komputery są na tyle mocne, że nawet przetwarzanie danych w pamięci operacyjnej nie musi być problemem.

Ale operacje na pamięci operacyjnej wykonywane są najszybciej. Problemem jest jej ograniczona wielkość.
A Luki Skywalker jako przedstawiciel SAS powinien, a nawet musi zachęcać do używania SASa. Zapomniał jednak wspomnieć, że jest to narzędzie piekielnie drogie i raczej niewiele małych i średnich przedsiębiorstw jest w stanie ponieść takie koszty.
Skywalker napisał/a:
rynek zadecydował, iż jeśli chce używać, kupić profesjonalne rozwiązanie analityczne to wybiera

Co to znaczy rynek zadecydował. Czy chodzi o to, że kilka największych firm zdecydowało?
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Podobne Tematy
Temat Autor Forum Odpowiedzi Ostatni post
Brak nowych postów Ogłoszenie: SEMINARIA POŚWIĘCONE STATYSTYCE I DATA MINING
Kraków, Warszawa - czyli 80% nudy i komerchy, ale nawet dla pozostałych 10% warto
mathkit Ogłoszenia, sprawy organizacyjne forum, regulamin 4 2007-02-09, 11:11
alinaptaszek
Brak nowych postów Przyklejony: Data mining a giełda
gk Biblioteki R, Pakiety R 2 2010-01-13, 18:00
pyged
Brak nowych postów Przyklejony: Wprowadzenie do data mining
bor1904 Data Mining, Metody klasyfikacji 1 2010-11-09, 11:08
Jackiller
Brak nowych postów Przyklejony: konferencja OLAP i data mining
mathkit Data Mining, Metody klasyfikacji 0 2006-11-24, 22:21
mathkit
Brak nowych postów Przyklejony: Współpraca - Data Mining - Projekt Unijny
ML Institute Ogłoszenia, sprawy organizacyjne forum, regulamin 0 2011-10-03, 11:41
ML Institute

Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,12 sekundy. Zapytań do SQL: 30