Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Smarter Poland Portal statystyczny

Poprzedni temat «» Następny temat

Tagi tematu: Brak tagów.

Uzupełnianie brakujących obserwacji
Autor Wiadomość
cziks 
Szeregowy


Posty: 4
Skąd: Toruń
Wysłany: 2011-04-11, 20:04   Uzupełnianie brakujących obserwacji

Witam. Mam mały problem. Brakuje 4 obserwacji w szeregu czasowym. Są to dane miesięczne dot. odwiedzin turystów w mieście w latach 2003 - 2009, turyści krajowi, zagraniczni i ich suma. Brakuje 4 obserwacji w roku 2005 (wrzesień, październik, listopad, grudzień). Uzupełnienie danych w szeregu wydawało by się proste a spędziłem na tym cały dzień a wyniki marne. Na pewno jest jakiś prosty sposób. Próbowałem w SPSS i Statistica, ale kompletnie nie znam się na nich więc tylko straciłem czas. W Gretlu dodałem zmienne czasowe, opóźnienia bo jest autokorelacja, zmienne periodyczne 0-1 dla uchwycenia sezonowości i też wyniki jakieś dziwne (mimo, że R^2 modelu powyżej 0,95). Błagam o pomoc bo włosy sobie z głowy powyrywam.
Załączam plik excel z danymi.
Najlepiej by mi pasowało jak by ktoś to po prostu wyliczył i podał mi te 4 brakujące obserwacje z krótkim opisem jak to zrobił, tak bym mógł dalej pracować. Będę bardzo bardzo wdzięczny.
Pozdrawiam

brakujace obserwacje.xls
Dane miesięczne odwiedzin turystów krajowych, zagranicznych i w sumie, w latach 2003 - 2009. Brakuje 4 obserwacji (wrzesień, październik, listopad, grudzień) w roku 2005.
Pobierz Plik ściągnięto 309 raz(y) 28 KB

Ostatnio zmieniony przez mathkit 2011-04-15, 12:07, w całości zmieniany 1 raz  
 
 
     
Google

Wysłany:    Reklama google.

 
 
bulva 
Podporucznik


Pomógł: 6 razy
Posty: 205
Skąd: Zgierz
Wysłany: 2011-04-15, 09:21   

Dość dobrym sposobem gdy brakuje tylko kilku obserwacji jest "random imputation", po prostu uzupełniasz brakujące informacje losowo wybierając z tych niebrakujących. Łap kod w R:

Kod:
random.imp <- function (a) {

  missing    = is.na(a)
  n.missing = sum(missing)
  a.obs       = a[!missing]
  imputed   = a
  imputed[missing] = sample(a.obs, n.missing, replace = TRUE)
 
  return(imputed)
}

#usage:
data_imp = apply(data, 2, random.imp)


Inne metody to "mean imputation", regresja, możesz tez uzyć autoregresji, danych z innego okresu, możesz wreszcie "zapytać eksperta". Kiedy masz więcej brakujących obserwacji należy postępować bardzo ostrożnie. Możesz użyć drzew decyzyjnych czy regresji logistycznej i poszukać jaka jest zależność między brakującymi obserwacjami a innymi zmiennymi. Czasem, gdy w obserwacji brakuje zbyt wielu zmiennych po prostu nie ma dobrego sposobu na imputacje i trzeba usunąć, c'est la vie. Zazwyczaj jednak nawet żle przeprowadzone uzupełnianie brakujących informacji jest lepsze niż ich usunięcie z analizy.

Kiedy jednak brakuje jedynie kilku obserwacji, jak u Ciebie śmiem twierdzić iz nie ma większej różnicy, której metody użyjesz. Nie polecam tylko wróżenia z wnętrzności kozy, za duża wariancja.
 
     
cziks 
Szeregowy


Posty: 4
Skąd: Toruń
Wysłany: 2011-04-15, 10:44   

bulva, wielkie dzięki. Ten skrypt to random, więc trendu nie uchwyci i silnych wahań sezonowych, tylko wstawi loteryjką. Nie wiem jaki robię błąd - w Gretlu dodaje zmienne czasowe, 0-1 periodyczne, sprawdzam opóźnienia i dodaje zmienne opóżnione (tak jak robiłem na ćwiczeniach). Stosuje model zgodny - w efekcie otrzymuje bzdury.
Mean imputation - próbowałem w sapp i zauważyłem, że w wyliczonych obserwacjach brakuje pewnej cechy, która powtarza się co roku, w tym samym okresie. Tj. W październiku przyjeżdża o 1000 więcej krajowych turystów niż we wrześniu. Wyniki mean imputation tego nie uwzględniły. Ściągnę R i zobaczę co i jak z tym random.
A propos R ... Z R miałem kontakt minimalny, patrzyłem prof. przez ramie i tyle. Wiem, że można zrobić różnokolorowy wykres w kształcie mapy Polski z podziałem na województwa (np. w moim przypadku, żeby zaznaczyć w których województwach był większy ruch turystyczny %). Jak napisać skrypt, żeby przygotować taką mapkę w R ?? A może jest jakiś inny program ?
bulva, pomożesz? ;-) bo widzę, że masz z tym kontakt... z góry dziękuję
 
 
     
mathkit 
Major



Pomógł: 46 razy
Wiek: 34
Posty: 1301
Skąd: Katowice
Wysłany: 2011-04-15, 12:07   

Model zwykłej regresji z sezonowością nie przechodzi ?
Masz przeciez prawie idealny model.

regresja sezonowosc.JPG
Plik ściągnięto 247 raz(y) 26,57 KB

 
 
     
bulva 
Podporucznik


Pomógł: 6 razy
Posty: 205
Skąd: Zgierz
Wysłany: 2011-04-19, 21:29   

No moge cos tam pomóc oczywiście, po to jest forum. Najlepiej skorzystać z pakietu ggplot, tutaj masz przykład:

Kod:

library(ggplot2)
library(maps)


world.map <- map_data("world")
world.map <- world.map[grep("Poland", world.map$region),]

poly_color       <- "burlywood"
boundaries_color <- "grey20"

p.map <- ggplot(world.map)
p.map <- p.map + geom_polygon(aes(long, lat, group = group ), fill = I(poly_color), size = .2, color = I(boundaries_color))
p.map <- p.map + ylab("") + xlab("")

theme_null <- theme_update(
        panel.grid.major = theme_blank(),
        panel.grid.minor = theme_blank())
       
p.map <- p.map + theme_set(theme_null)
p.map <- p.map + opts(panel.background = theme_rect(fill = "lightblue", colour = "white"))
p.map <- p.map + coord_map(projection = "mercator")
print(p.map)


Jak chcesz miec podział na województwa musisz ściągnać odpowiedni plik shapefile (.shp) i wczytac go do R (funkcja readShapePoly z pakietu maptools), później zrobic z niego data.frame, przyda się fortify.SpatialPolygons z ggplot2. Następnie dostosujesz sobie powyższy kod. Jak się gdzies zatniesz - pisz, pomożemy.
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Podobne Tematy
Temat Autor Forum Odpowiedzi Ostatni post
Brak nowych postów Przyklejony: [R] skupisko obserwacji
pakiet R
Grześ Biblioteki R, Pakiety R 1 2009-11-05, 13:22
bstq
Brak nowych postów Przyklejony: test t dla prób zależnych (par obserwacji)
założenia
mathkit Testowanie hipotez statystycznych 41 2013-06-10, 22:35
szw1710
Brak nowych postów Przyklejony: Normowanie pracy - Metoda obserwacji migawkowych
Projekt badawczy
shukacz Statystyka w badaniach sondażowych rynku 0 2009-01-27, 13:46
shukacz
Brak nowych postów Estymacja wartości brakującej
kaczan87 Teoria estymacji 0 2011-04-11, 19:50
kaczan87
Brak nowych postów Metody uzupełniania braku danych
evk Modelowanie ekonometryczne 2 2011-01-09, 19:02
piotrek

Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,08 sekundy. Zapytań do SQL: 20