Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Smarter Poland Portal statystyczny

Poprzedni temat «» Następny temat

Tagi tematu: Brak tagów.

Przesunięty przez: mathkit
2015-03-23, 16:03
[R] Drzewa decyzyjne
Autor Wiadomość
Grześ 
Starszy Szeregowy



Posty: 39
Skąd: Biała Podlaska
Wysłany: 2009-04-30, 16:39   [R] Drzewa decyzyjne

W jaki sposób najlepiej możnaby przygować dane do zbudowania drzewa w R, które są dostarczone w postaci daty, np:

> 00-06-05 00:00
> 00-08-06 00:00
> 00-08-16 00:00
> 00-05-23 00:00
> 00-01-14 00:00
> 00-10-28 00:00 ...

Wydaje mi się, iż najlepiej byłoby przetworzyć ja na coś w rodzaju struktury podobnej jak ma to miejsce w funkcji "factor" (przetworzyć te dane w taki sposób aby uzyskać z nich np. trzy grupy). Tylko jak to konkretnie ma wyglądać w praktyce? Istnieje do tego celu jakaś biblioteka?
Ostatnio zmieniony przez mathkit 2011-06-22, 20:07, w całości zmieniany 2 razy  
 
     
Google

Wysłany:    Reklama google.

 
 
cogito 
Podporucznik



Pomógł: 30 razy
Posty: 310
Skąd: Wrocław
Wysłany: 2009-04-30, 18:38   

to co warto wybierac z dat zalezy do tego co twoim zdaniem bedzie dobrze dyskryminowalo
czy dzien tygodnia, czy dzien miesiaca, czy godzina, czy miesiac
wydobywac atrybuty z dat mozesz funkcja format
np.
format(Sys.time(), "%a %b %d %H:%M:%S %Y")
_________________
pozdrawiam
Przemek
www.biecek.pl
 
     
basko 
Szeregowy


Posty: 3
Skąd: Kraków
Wysłany: 2010-06-29, 20:40   [R] Rattle - drzewo decyzyjne

Witam,
Z tego co wiem, to niewiele osób zna i korzysta paczki rattle w R do data miningu... Niemniej jednak mam nadzieje, że znajdzie się ktoś, kto odpowie mi na pytanie jakie parametry ustawia się w miejscu zaznaczonym czerwonym prostokątem...

Krótki opis do tych dwóch funkcji brzmi:
Min split - minimum number of observations that must exist in a node resulting of a split before a split will be performed.
Min bucket - minimum number of observations allowed in any leaf node of the decision tree.

Nie potrafię znaleźć zależności pomiędzy wielkościami tych parametrów (zwłaszcza min bucket), a wyglądem drzewa.

rattle.png
Plik ściągnięto 545 raz(y) 126,32 KB

 
     
Crunchy 
Major
Crunchy


Pomógł: 76 razy
Posty: 1134
Skąd: Katowice
Wysłany: 2010-06-29, 21:10   

Nosz... czytanie ze zrozumieniem, nie ma tu niczego tajemniczego, split - minimalna ilość obserwacji, która pozwoli dzielić dalej, nie mniej jednak niż najmniejsza ilość obserwacji we wszystkich (każdym).
 
     
bulva 
Podporucznik


Pomógł: 6 razy
Posty: 205
Skąd: Zgierz
Wysłany: 2010-06-29, 22:32   

Krótko mówiąc jest to kryterium stopu dla algorytmu partycjonującego - im więcej ustawisz tym mniejsze będziesz miał drzewo. Polecam ustawić 5-10 obserwacji (zależnie od ilości obserwacji), potem przyciąć drzewo używając kryterium cost-complexity.
 
     
basko 
Szeregowy


Posty: 3
Skąd: Kraków
Wysłany: 2010-06-30, 10:33   

Jest zbiór uczący: rok studiów (1 lub 2), odległość (mala umiarkowana duża) i średnia (niska umiarkowana wysoka). Utworzone są wszystkie kombinacje (18 rekordów) i do każdej jest przypisany wynik - przydzielić akademik czy nie.

dlaczego dla min bucket = 1, 2 lub 7 (!) rysowany jest taki sam wykres? To, że dla 1 i 2 to jeszcze rozumiem, ale dla 7? Przy wpisaniu 8 i więcej wyskakuje komentarz, że drzewo posiada tylko korzeń.

Narysowane drzewo jest dla bucket = 1,2,7

akademik.png
Plik ściągnięto 659 raz(y) 63,09 KB

 
     
Crunchy 
Major
Crunchy


Pomógł: 76 razy
Posty: 1134
Skąd: Katowice
Wysłany: 2010-06-30, 11:38   

Kod:
> drzewo.1
n= 18

node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 18 6 NIE (0.6666667 0.3333333) 
   2) odl=mała,umiarkowana 12 2 NIE (0.8333333 0.1666667) 
     4) odl=mała 6 0 NIE (1.0000000 0.0000000) *
     5) odl=umiarkowana 6 2 NIE (0.6666667 0.3333333) 
      10) rok< 1.5 3 0 NIE (1.0000000 0.0000000) *
      11) rok>=1.5 3 1 TAK (0.3333333 0.6666667) 
        22) średnia=wysoka 1 0 NIE (1.0000000 0.0000000) *
        23) średnia=niska,umiarkowana 2 0 TAK (0.0000000 1.0000000) *
   3) odl=duża 6 2 TAK (0.3333333 0.6666667) *
> drzewo.2
n= 18

node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 18 6 NIE (0.6666667 0.3333333) 
   2) odl=mała,umiarkowana 12 2 NIE (0.8333333 0.1666667) 
     4) odl=mała 6 0 NIE (1.0000000 0.0000000) *
     5) odl=umiarkowana 6 2 NIE (0.6666667 0.3333333) 
      10) rok< 1.5 3 0 NIE (1.0000000 0.0000000) *
      11) rok>=1.5 3 1 TAK (0.3333333 0.6666667) *
   3) odl=duża 6 2 TAK (0.3333333 0.6666667) *
> drzewo.4
n= 18

node), split, n, loss, yval, (yprob)
      * denotes terminal node

1) root 18 6 NIE (0.6666667 0.3333333) 
  2) odl=mała,umiarkowana 12 2 NIE (0.8333333 0.1666667) *
  3) odl=duża 6 2 TAK (0.3333333 0.6666667) *
> drzewo.7
n= 18

node), split, n, loss, yval, (yprob)
      * denotes terminal node

1) root 18 6 NIE (0.6666667 0.3333333) *

Zapewne jakiś błąd "techniczny"... w rpartcie wszystko gra, zobacz czy rysujesz nowe/kolejne obiekty. Niestety nigdy nie używałem rattle...
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Podobne Tematy
Temat Autor Forum Odpowiedzi Ostatni post
Brak nowych postów drzewa decyzyjne i algorytmy
blue1920 Data Mining, Metody klasyfikacji 1 2011-10-14, 11:44
Shidley
Brak nowych postów Drzewa decyzyjne firmy Microsoft, a interpretacja.
machuandkowal Metody prognostyczne 0 2014-05-07, 10:58
machuandkowal
Brak nowych postów Drzewa regresyjne w prognozowaniu!!
Wszelkie informacje pilnie potrzebne...
panas Metody prognostyczne 4 2009-07-28, 12:26
piotrek
Brak nowych postów Zadanie decyzyjne - Metoda liniowa
plosaczek Modelowanie ekonometryczne 0 2015-11-17, 15:25
plosaczek
Brak nowych postów Drzewo decyzyjne/model klasyfikacyjny Statistica lub R
klenk Statystyka w badaniach sondażowych rynku 0 2017-01-18, 14:00
klenk

Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,18 sekundy. Zapytań do SQL: 23