Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Smarter Poland Portal statystyczny

Poprzedni temat «» Następny temat

Tagi tematu: Brak tagów.

Przesunięty przez: mathkit
2011-11-06, 19:10
Walidacja spójności danych
Autor Wiadomość
Wichurowa 
Szeregowy


Posty: 6
Skąd: Warszawa
  Wysłany: 2011-10-10, 11:39   Walidacja spójności danych

Witam serdecznie,
jestem nowym użytkownikiem, a na dodatek osoba nieco zieloną ze statystyki, ale robiącą sobie wielkie nadzieje w tej dziedzinie :mrgreen:
moim hobby są wypadki drogowe. Od lat staram się zgłębiać to zagadnienie, na dodatek obkładam się książkami ze statystyki, robię proste analizki, ale podyplomówki na SGH rozwinęły mój apetyt na modelowanie.

Czy mogę prosić o pomoc? mam nadzieję, że wiele się dowiem z tego forum, które mnie z jednej strony fascynuje wiedzą prezentowaną przez innych użytkowników, a z drugiej strony, zaczynam już mieć mętlik w głowie.

obecnie moim problemem jest baza danych o wypadkach. Do tej pory "liznęłam" Sas-a i SpSS, ale nie czuje się na siłach podjąć decyzji: czym obrobić bazę danych? tym bardziej, ze w miejscu gdzie pracuje, bardzo patrzy się na koszty i muszę walczyć o profesjonalne oprogramowanie.

co radzicie? a może cis innego niż sas, czy spss? czy są jakies darmowe, dobre programy, które dobrze zadziałają w bazie wypadków, gdzie mamy cechy i ilościowe i jakościowe?
Ostatnio zmieniony przez mathkit 2011-11-06, 19:12, w całości zmieniany 1 raz  
 
     
Google

Wysłany:    Reklama google.

 
 
jabol 
Kapitan
Gdańsk/Łódź



Pomógł: 43 razy
Wiek: 46
Posty: 625
Skąd: Gdańsk
Wysłany: 2011-10-10, 13:46   Re: MOdelowanie wypadków drogowych

heh..lezka w oku mi sie zakrecila... :)

dawno dawno temu mialem szlachetny zamiar sie tym zajac. o ile dane z SEWIKA (tak sie chyba baza policyjna nazywa) dostalem za darmo, o tyle IMGW zazyczylo sobie za dane meteo 8 tysiecy zlotych - a bylo to 5-6 lat temu ....


a co do programu. zalezy co chcesz liczyc ale ten progranm jest naprawde niezly:

www.pqstat.pl
_________________
Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, STATYSTYKI .... :)

Autor: Benjamin Disraeli
 
     
mfigrs 
Szeregowy


Pomógł: 1 raz
Posty: 6
Skąd: Szczecin
Wysłany: 2011-10-10, 18:58   

Jeśli baza danych nie jest zbyt wielka (poniżej 2GB), to nic nie zastąpi starego poczciwego "R" - jest darmowy, mnóstwo dokumentacji w sieci, ogromne możliwości obliczeniowe oraz prezentacji danych.

Gdyby tylko nie to ograniczenie pamięci...
_________________
Michał J. Figurski
 
     
Wichurowa 
Szeregowy


Posty: 6
Skąd: Warszawa
Wysłany: 2011-10-10, 21:17   

dziekuję za podpowiedź. Wydaje mi siejednak, ze z R-em może być problem, chcociaz jakby rozpatrywac w obszrze województ, co ogólnie jest polecane z tytułu specyfiki regionów, to z kolei moge spórbowac R-em.

Jest jeszcez jeden problem-dane o wypadkach są niepełne i mało wiarygodne.Szczególnie kuleje tutaj lkalizacjawypadków, czesto wpisywana z kapelusza. W związku ztym, pare pomysłów na modelowanie wypadków odpada.

Czy R i pqstat sparwdza mi sie wnaprawianiu bazy danych?zdaje sobie sprawe, ze uzupełnianie rekordów jest swego rodzajem fałszerstwem, ale z kolei brak informacji o lokalizacji, albo lokalizacjaz kapelusza, w mojej pracywłasciwie z góry skazuje badania statystyczne i szukaniemodelu na niepowodzenie. Jakie sa Wasze doswiadczenia z naprawianiem bazy danych?
 
     
jabol 
Kapitan
Gdańsk/Łódź



Pomógł: 43 razy
Wiek: 46
Posty: 625
Skąd: Gdańsk
Wysłany: 2011-10-10, 21:34   

Wichurowa napisał/a:
Jakie sa Wasze doswiadczenia z naprawianiem bazy danych?


moze sprecyzuj co dokladie masz na mysli mowiac o naprawianiu danych ?
_________________
Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, STATYSTYKI .... :)

Autor: Benjamin Disraeli
 
     
Wichurowa 
Szeregowy


Posty: 6
Skąd: Warszawa
Wysłany: 2011-10-10, 21:48   

hmmm, chodzi bardzo ogólnie o brakujące dane bądź wpisane nielogicznie, ale niestety w duzym procencie. Ztego co pamietam, powinno sie je po prostu odrzucić. Ale dane policyjne, a z takimi pracuję, są niechlujnie wypełniane w tak duzej skali, ze obawiam sie, ze niewiel moze zostac po takim kasowaniu ;). I co i rusz jest pelno wypadków które zdarzyły sie np w nocy, przy swietle dziennym i takie tam rozbieznosci.
jak wspominałam najwikesza bolaczką jest to, że POlicjanie nie korzysta z systemu GPS i wpisuje z reki lokalzację, czasem z kapelusza, czasem w ogóle. Tych braków jest bardzo duzo. Na jednych studiach podyplomowych słyszałam o naprawianiu danych w postaci "fałszowania danych" polegającyhc na ich uzupełnianiu w sposób logiczny wg jakiegos klucza. Na przykład wiadomo, ze wypadek o 2 nad ranem, zdarzył sie w nocy, a swiatło dzienne jest czynnikiem źle zaznaczonym. Gorzej z błędnymi onformacjami, nie tak oczywistymi..

mam nadzieję, że na szybko jakos sie wyraziłam:)
_________________
nie patrz co robią inni, bo nigdy nie bedziesz tam gdzie oni
 
     
jabol 
Kapitan
Gdańsk/Łódź



Pomógł: 43 razy
Wiek: 46
Posty: 625
Skąd: Gdańsk
Wysłany: 2011-10-10, 22:00   

formuly "logiczne" to chyba najprosciej jest w excelu tworzyc

jesli zas chodzi o lokalizacje to powinnas zagregowac miejsca do wiekszych obszarow - wtedy problem w pewnym sensie zniknie


jesli chodzi o kwestie "mniej oczywiste" to obawiam sie ze bedziesz musiala poddac to zmudnej obrobce zwiazanej z twoimi wiadomosciami
_________________
Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, STATYSTYKI .... :)

Autor: Benjamin Disraeli
 
     
Wichurowa 
Szeregowy


Posty: 6
Skąd: Warszawa
Wysłany: 2011-10-10, 22:11   

wydaje mi sie tylko, że agregacja lokalizacji dowiekszych obszarów unimozliwi znaleznienie związków z charakterystykamidrogi, które zmieniaja sie dosyć dynamicznie wjej ciagu..

ale wielkei dzieki za poswiecony mi czas. Będę dłubać daleji pozwolesobie dzielic sie problemami mniejszymi badx wiekszymi :lol:
 
     
jabol 
Kapitan
Gdańsk/Łódź



Pomógł: 43 razy
Wiek: 46
Posty: 625
Skąd: Gdańsk
Wysłany: 2011-10-10, 22:15   

Wichurowa napisał/a:
wydaje mi sie tylko, że agregacja lokalizacji dowiekszych obszarów unimozliwi znaleznienie związków z charakterystykamidrogi, które zmieniaja sie dosyć dynamicznie wjej ciagu..


moim skromnym zdaniem.. ;-) powinnas wieksza uwage poswiecic warunkom BIOmeteorologicznym i ich wplywie na ilosc wypadkow/kolizji. jest cos takiego jak wskaźnik patogennosci pogody.

zerknij tez na prace mgr z lodzkiej geografii a zwlaszcza skontaktuj sie z Agnieszka Podstawczynska - jest adiunktem na meteo - pisala z tego tematu prace :)
_________________
Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, STATYSTYKI .... :)

Autor: Benjamin Disraeli
 
     
Wichurowa 
Szeregowy


Posty: 6
Skąd: Warszawa
Wysłany: 2011-10-11, 07:25   

o, ciekawe, jestem in zyneirem, wiec skupiłam sie na drodze. Ale skorzystam ze wskazowki:)
_________________
nie patrz co robią inni, bo nigdy nie bedziesz tam gdzie oni
 
     
mfigrs 
Szeregowy


Pomógł: 1 raz
Posty: 6
Skąd: Szczecin
Wysłany: 2011-10-11, 14:25   

Jeśli zaś chodzi o brakujące i niespójne dane, to proces nazywa się "walidacją" danych i jest powszechnie stosowany w naukach biomedycznych. Kryteria walidacji ustala się arbitralnie, ale najlepiej zanim się zacznie przeglądać dane (aby uniknąć wygodnego dla siebie dobierania rekordów). Np. kryterium może być, że jeśli dwa elementy wpisu wykluczają się nawzajem, to usuwamy rekord. Proces można puścić automatycznie i zobaczyć, co na końcu zostanie.

Raz miałem kiedyś do czynienia z takim sporym zbiorem wyników z badania klinicznego - zbudowałem algorytm, który wypluł mi wszystkie niespójności, ale na tym się niestety nie skończyło - trzeba było dzwonić do osób, które dodawały wpisy i wszystko przez telefon wyjaśniać... To dopiero była robota!

No, ale wracając do sprawy. Po wyczyszczeniu danych z niespójności zostają zawsze niekompletne rekordy. Można je także usunąć, albo skorzystać z "multiple imputing" - jest do tego kilka pakietów w R, np. "mitools". W skrócie: odpowiedni algorytm "zgaduje" ("imputuje") brakujące dane na podstawie pozostałych informacji, i oblicza co tam się chce - wielokrotnie (np 1000x). Na końcu zbiera się wyniki wszystkich statystyk i otrzymuje podsumowanie wraz z przedziałami ufności.
_________________
Michał J. Figurski
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Podobne Tematy
Temat Autor Forum Odpowiedzi Ostatni post
Brak nowych postów Przyklejony: [R] Duży zbiór danych
cogito Biblioteki R, Pakiety R 4 2009-07-26, 12:44
Odyseusz
Brak nowych postów Przyklejony: [R] Eksploracja danych z pliku csv
Grześ Biblioteki R, Pakiety R 17 2011-11-13, 19:26
Szyna
Brak nowych postów Przyklejony: [R] Eksport danych z Excela do R
bulva Biblioteki R, Pakiety R 24 2009-11-13, 14:30
madzias
Brak nowych postów Przyklejony: [R] Wizualizacja danych na mapie
Czyli, prosty sposób, żeby pokazać dane na mapie Polski
Pietrucha Biblioteki R, Pakiety R 27 2015-06-16, 11:37
Gość
Brak nowych postów Przyklejony: [R] Graficzne przedstawienie danych
Grześ Biblioteki R, Pakiety R 13 2010-01-05, 23:27
Grześ

Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,28 sekundy. Zapytań do SQL: 24