Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Smarter Poland Portal statystyczny

Poprzedni temat «» Następny temat

Tagi tematu: Brak tagów.

Przesunięty przez: mathkit
2015-03-23, 16:03
[R] Eksploracja danych z pliku csv
Autor Wiadomość
Grześ 
Starszy Szeregowy



Posty: 39
Skąd: Biała Podlaska
Wysłany: 2009-04-15, 21:36   [R] Eksploracja danych z pliku csv

Mam zapisany plik w formacie csv, chciałbym móc eksplorować z niego dane i stąd moje pytania:

1) Liczby typu intiger lub zmiennoprzecinkowe (rozdzielone przecinkiem) należy poddać dyskretyzacji, dlaczego muszę to koniecznie zrobić i w jaki sposób można tego dokonać wykorzystując pakiet R?

chodzi mi o to abym w rezultacie dostał np. (coś<s,coś=s,coś>s)

2) W kolejnym kroku na powyższych danych muszę dokonać faktoryzacji, co to konkretnie jest za funkcja? Podobno dopiero po jej przeprowadzeniu będę mógł odpowiednio wykorzystać dane do przetwarzaeni (budowania drzew) w języku R.

3) Po czym poznać, że dane powiniennem poddać dyskretyzacji?
Ostatnio zmieniony przez mathkit 2010-01-31, 10:25, w całości zmieniany 1 raz  
 
     
Google

Wysłany:    Reklama google.

 
 
Silvestris 
Starszy Szeregowy


Wiek: 108
Posty: 25
Skąd: Kraków
Wysłany: 2009-04-15, 22:35   

1. Ciężko powiedzieć nie widząc danych i nie znając celu analizy. co do technicznych aspektów (czyli jak to zrobić w R może ktoś ci pomoże)

2. Faktoryzacja to rozłożenie na czynniki pewnie tutaj chodzi o czynniki sprzyjające jakiemuś zajwisku czy coś

3. Tak ogólnie to tego się nie da powiedzieć, zależy od danych, rodzaju analizy

Jeżeli zaczynasz zabawy z R to polecam
http://cran.r-project.org...prowadzenie.pdf
 
 
     
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2009-04-16, 08:29   

napisał/a:
W kolejnym kroku na powyższych danych muszę dokonać faktoryzacji, co to konkretnie jest za funkcja? Podobno dopiero po jej przeprowadzeniu będę mógł odpowiednio wykorzystać dane do przetwarzaeni (budowania drzew) w języku R.


Co rozumiesz przez faktoryzację? Czy może chodzi Ci o konwersję niektórych zmienych do rodzaju factor? Jeśli o to, to nie jest faktoryzacja.
Konwersja - poczytaj o funkcji factor, czy as.factor.

Poczytaj help do biblioteki rpart w R.

Zobacz do tej publikacji: T.M. Therneau and Atkinson E.J. "An introduction to recursive partitioning".

Silvestris napisał/a:
Jeżeli zaczynasz zabawy z R to polecam
http://cran.r-project.org...prowadzenie.pdf


albo to http://www.biecek.pl/R/

Jest także forum w języku polskim na temet R https://www.im.uj.edu.pl/gur/index.php
 
     
Grześ 
Starszy Szeregowy



Posty: 39
Skąd: Biała Podlaska
Wysłany: 2009-04-20, 13:27   

Ogólnie to sam dokładnie nie wiem o co mi chodzi (proszę wybaczyć mi szczerość). Nie wiem jak dostać się do danych, które są zrobione w pliku csv (- jest on utworzony na pewno w sposób odpowiedni)

Jeżeli chcę się dostać do kolumny to dostaję wartość NULL, np.:

> data$ID
NULL
> data$kod
NULL

ale jeżeli po przez wektor, to bez problemu mogę wyciągnąć każdą wartość:
> data[2,3]
[1] '082'

Powyższe problemy uniemożliwiają mi także skonstruowanie prostego drzewa:

> t.tree0=rpart(ID~.,t.train)
Error in eval(expr, envir, enclos) : object "ID" not found
> t.tree0=rpart(kod~.,t.train)
Error in eval(expr, envir, enclos) : object "kod" not found

Wydaje mi się, iż powinienem w jakiś sposób sformatować te dane (przy pomocy pakietu R), bo nie jest to wina błędnego zapisu w bazie danych.

Dodatkowo pozwolę sobie zamieścić komendy(zasugerowane na innym forum), które być może okażą się pomocne:

> class(data)
[1] "data.frame"

> str(data)
'data.frame': 2193 obs. of 83 variables:
$ X.ID. : Factor w/ 2193 levels "'18201'",..: 1 2 3 4 5 6 7 8 9 10 ...
$ X.kod. : Factor w/ 20 levels "'01'","'02'",..: 1 1 1 1 1 1 1 1 1 1 ...
$ X.wiel. : int 7 7 7 7 7 7 7 8 8 8 ...
$ X.piech. : num 1 99.9 4 0.5 4 2 99.9 2 2 99.9 ...
$ X.rodz. : int NA 2 4 NA 4 2 2 3 2 NA ...
 
     
Pearson 
Podporucznik
Pearson



Pomógł: 12 razy
Posty: 199
Skąd: Wrocław
Wysłany: 2009-04-20, 17:31   

Grześ napisał/a:
eżeli chcę się dostać do kolumny to dostaję wartość NULL, np.:

> data$ID
NULL
> data$kod
NULL

ale jeżeli po przez wektor, to bez problemu mogę wyciągnąć każdą wartość:
> data[2,3]
[1] '082'

Dlatego, że nazwa kolumny to X.ID (tak wynika z str(data))
 
     
Grześ 
Starszy Szeregowy



Posty: 39
Skąd: Biała Podlaska
Wysłany: 2009-04-20, 21:59   

faktycznie, wielkie dzięki !
 
     
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2009-04-28, 00:44   

Cytat:

Jest także forum w języku polskim na temet R https://www.im.uj.edu.pl/gur/index.php


swoją drogą, czy ktoś z forumowiczów wie dlaczego ta strona od kilku dni nie działa?
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
newfuntek 
Szeregowy
newfuntek


Wiek: 46
Posty: 17
Skąd: Warszawa
Wysłany: 2009-05-21, 00:29   

Jest X.data kiedy wczytuje się headery w csv w cudzysłowie pojedyńczym, a nie podwójnym, na domyślnych ustawieniach read.csv. np:
'id' 'wiek'
zamiast
"id" "wiek", wtedy jest po prostu data lub id, wiek, a nie X.data, X.id, X.wiek.
 
     
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2009-05-21, 08:53   

cogito napisał/a:
Cytat:

Jest także forum w języku polskim na temet R https://www.im.uj.edu.pl/gur/index.php


swoją drogą, czy ktoś z forumowiczów wie dlaczego ta strona od kilku dni nie działa?


Nawet dłużej - chyba z 3 tygodnie. Ale nie wiem jaka jest przyczyna. Mam nadzieję, że to nie koniec :cry:

[ Dodano: 2009-05-21, 14:38 ]
Działa :lol:
 
     
Szyna 
Szeregowy
Szyna


Posty: 6
Skąd: Poznań
Ostrzeżeń:
 1/3/6
Wysłany: 2011-11-10, 14:50   

Witam serdecznie. Mam ogromne problemy z programem R.
Dostałam zadanie na wykonanie w tym programie jakiegoś "ładnego" i "ciekawego" wykresu - nie mam pojęcia co to znaczy... - mogę prosić o jakieś małe podpowiedzi??

Poza tym po utworzeniu pliku .csv z pewnymi danymi i wrzuceniu go do R, powinnam zrobić podstawowe obliczenia statystyczne: mediana, średnia, jakiś wykres, a nie wiem nawet od czego zacząć, bo miałam dopiero dwa zajęcia z tym programem. Czy mogę prosić o jakieś podstawowe formuły, które wystarczą mi do rozwiązania tego zadania?
 
     
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2011-11-10, 17:20   

Szyna napisał/a:
Witam serdecznie. Mam ogromne problemy z programem R.
Dostałam zadanie na wykonanie w tym programie jakiegoś "ładnego" i "ciekawego" wykresu - nie mam pojęcia co to znaczy... - mogę prosić o jakieś małe podpowiedzi??

Popatrz na to

Małe wprowadzenie tutaj

pozdrawiam
 
     
Szyna 
Szeregowy
Szyna


Posty: 6
Skąd: Poznań
Ostrzeżeń:
 1/3/6
Wysłany: 2011-11-10, 18:54   

Wow, wykresy są super:) Może uda mi się coś pokombinować:)

Mam tylko problem z plikiem .csv. Posiadam tabelę o nazwie "papierosy" w której znajdują się 3 kolumny: w pierwszej mam nazwy województw, w drugiej lata (do każdego województwa od roku 2005-2010) oraz 3 kolumna z cenami papierosów (do województw i lat). Nie wiem jak do tego sporządzić jakikolwiek wykres rozkładu, wyliczyć medianę, średnią czy wariancję. Po prostu nie potrafię odnieść się w kodzie do tej sporządzonej wcześniej tabeli:/
 
     
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2011-11-10, 19:50   

Kod:
?read.csv

potem ewentualnie sobie skonwertujesz (jeśli będzie potrzeba) do serii czasowych


Kod:
?mean

Kod:
?var

Kod:
?quantile


pozdrawiam
 
     
Szyna 
Szeregowy
Szyna


Posty: 6
Skąd: Poznań
Ostrzeżeń:
 1/3/6
Wysłany: 2011-11-13, 12:56   

Kochany Panie Piotrze. Dziękuję za starania, ale ja próbuję coś zrobić ze swoim plikiem tylko cały czas wyskakują mi jakieś ERRORy:( Już nie wiem co mam robić? Można to jakoś wytłumaczyć mi łopatologiczniej? Choć pewnie bardziej tłumaczyć już się nie da...:(
 
     
piotrek 
Podporucznik


Pomógł: 13 razy
Posty: 198
Skąd: b.d.
Wysłany: 2011-11-13, 16:00   

To może wklej tutaj polecenia, komunikaty błędów i plik z danymi.
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Podobne Tematy
Temat Autor Forum Odpowiedzi Ostatni post
Brak nowych postów Przyklejony: [R] zaczytanie pliku - read.table()
model liniowy problem
amax4 Biblioteki R, Pakiety R 3 2009-07-30, 21:13
amax4
Brak nowych postów Przyklejony: [R] Duży zbiór danych
cogito Biblioteki R, Pakiety R 4 2009-07-26, 12:44
Odyseusz
Brak nowych postów Przyklejony: [R] Graficzne przedstawienie danych
Grześ Biblioteki R, Pakiety R 13 2010-01-05, 23:27
Grześ
Brak nowych postów Przyklejony: [R] Eksport danych z Excela do R
bulva Biblioteki R, Pakiety R 24 2009-11-13, 14:30
madzias
Brak nowych postów Przyklejony: Walidacja spójności danych
Modelowanie wypadków drogowych
Wichurowa Modelowanie ekonometryczne 10 2011-10-11, 14:25
mfigrs

Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,2 sekundy. Zapytań do SQL: 29