Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Smarter Poland Portal statystyczny

Poprzedni temat «» Następny temat

Tagi tematu: ekstremalnych, odstajacych, usuwanie, wartosci

Usuwanie wartości odstających i ekstremalnych
Autor Wiadomość
tagarela 
Szeregowy


Posty: 4
Skąd: Mikołów
Wysłany: 2017-02-10, 21:26   Usuwanie wartości odstających i ekstremalnych

Witam,
dostałam do analizy dane medyczne i pełno w nich wartości ekstremalnych i odstających. Po jednokrotnym wyczyszczeniu danych (w Statistice, usuwałam ekstremalne, czyli powyżej 3 x odch std) pojawiły się znowu wartości ekstremalne. Po trzykrotnym czyszczeniu dalej pojawiają się nowe. I teraz pytanie: jaka jest poprawna procedura? Czyści się, aż nie będzie ekstremalnych? Albo na przykład tylko 3 razy? Problem polega na tym, że po wyczyszczeniu aż do braku ekstremalnych mam bardzo duże braki w niektórych zmiennych.
Pozdrawiam i proszę o pomoc.
 
     
Google

Wysłany:    Reklama google.

 
 
jabol 
Kapitan
Gdańsk/Łódź



Pomógł: 41 razy
Wiek: 46
Posty: 608
Skąd: Gdańsk
Wysłany: 2017-02-12, 19:34   Re: Usuwanie wartości odstających i ekstremalnych

tagarela napisał/a:
Witam,
dostałam do analizy dane medyczne i pełno w nich wartości ekstremalnych i odstających. Po jednokrotnym wyczyszczeniu danych (w Statistice, usuwałam ekstremalne, czyli powyżej 3 x odch std) pojawiły się znowu wartości ekstremalne. Po trzykrotnym czyszczeniu dalej pojawiają się nowe. I teraz pytanie: jaka jest poprawna procedura? Czyści się, aż nie będzie ekstremalnych? Albo na przykład tylko 3 razy? Problem polega na tym, że po wyczyszczeniu aż do braku ekstremalnych mam bardzo duże braki w niektórych zmiennych.
Pozdrawiam i proszę o pomoc.


pierwsza sprawa: czy jestes pewna ze te dane są poprawne tz czy nie wynikaja z bledu wpisania

druga sprawa: zalezy od tego co i jaką procedurą chcesz liczyc, ale zawsze mozesz wykorzytac testy nieparametryczne

trzecia sprawa: podlinkuj surową bazę danych
_________________
Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, STATYSTYKI .... :)

Autor: Benjamin Disraeli
 
     
tagarela 
Szeregowy


Posty: 4
Skąd: Mikołów
Wysłany: 2017-02-12, 22:53   

ad 1)
Tak. To są badania dotyczące osób o różnym stopniu upośledzenia. Niektórzy mieli bardzo mocne wychwiania, a inni dużo mniejsze. Po usunięciu jednokrotnym w miejsce ,,ekstremalnych" przesunęły się następne osoby i tak w kółko. Po eliminacji ,,do skutku" została mi tylko około połowa danych w grupie najmocniej upośledzonych. Współpracujący z nami lekarze zalecili ,,usunąć te odstające, bo to zawsze oni tak robią, że usuwają te wyniki, które mocno odstają". Na pytanie o dokładną procedurę dostałam odpowiedź: ,,No do tej pory usuwaliśmy tak na oko, co widzieliśmy, że nie pasuje na pewno". Więc generalnie zgroza.
ad 2)
Zdaję sobie sprawę z możliwości wykonania testów nieparametrycznych, ale oprócz porównań grup planowana jest jeszcze regresja wieloraka.
ad 3)
Niestety nie mogę, to nie są moje badania.
 
     
Crunchy 
Major
Crunchy


Pomógł: 75 razy
Posty: 1129
Skąd: Katowice
Wysłany: 2017-02-13, 18:24   Re: Usuwanie wartości odstających i ekstremalnych

tagarela napisał/a:
jaka jest poprawna procedura? Czyści się, aż nie będzie ekstremalnych? Albo na przykład tylko 3 razy? Problem polega na tym, że po wyczyszczeniu aż do braku ekstremalnych mam bardzo duże braki w niektórych zmiennych.


1) A po co w ogóle to robić...? Może to jest zupełnie niepotrzebne, albo warto uwzględnić inny czynnik zamiast go ignorować.
2) Jeżeli są mocne fundamenty, żeby uznawać że zmienne mają rozkład normalny, to wartości odstające zwykle stanowią mniej niż ~10%.
 
     
gosia_2018 
Szeregowy


Posty: 4
Skąd: Poznań
Wysłany: 2018-04-13, 09:40   

Witam!

Chciałam zasięgnąć rady w sprawie identyfikacji wartości odstających/ekstremalnych.

Mam listę genów oraz wartości liczby kopii (CNF) dla referencji. Z teoretycznego punktu widzenia spodziewam się, że CNF dla wszystkich genów powinien wynosić 2. Rzeczywiście w ~96% tak jest, natomiast pozostałe 4% przypuszczam, że powstały jako efekt błędu programu bioinformatycznego, którego używałam do analizy.

Ponieważ ta linia referencyjna będzie służyła jako odniesienie do wszystkich późniejszych analiz bardzo chciałabym poprawnie przygotować wiarygodny zbiór genów. I tutaj moje pytanie: jak ze statystycznego punktu widzenia powinnam poprawnie przygotować taki zbiór/ z czego mogłabym skorzystać?

- rozkład danych nie jest normalny, jest bardzo wysoka kurtoza,

- próbowałam skorzystać z właściwości wykresu pudełkowego, jednak zarówno zakres dla wartości odstających jak i ekstremalnych usuwa część wyników dla genów, które mają wartość referencyjną = 2 po zaokrągleniu

- czy powinnam po prostu założyć, że wszystkie geny, których wartosci są różne od 2 powstały w wyniku błędu i wykluczyć je z analizy bez konieczności "udowadniania" tego statystycznie?

W załaczniku przesyłam dane dla lepszego zobrazowania.
Z góry dziękuję za odpowiedź.
 
     
jabol 
Kapitan
Gdańsk/Łódź



Pomógł: 41 razy
Wiek: 46
Posty: 608
Skąd: Gdańsk
Wysłany: 2018-04-13, 10:13   

gosia_2018 napisał/a:


W załaczniku przesyłam dane dla lepszego zobrazowania.
Z góry dziękuję za odpowiedź.



brak załącznika
_________________
Istnieją trzy rodzaje kłamstw: kłamstwa, okropne kłamstwa, STATYSTYKI .... :)

Autor: Benjamin Disraeli
 
     
gosia_2018 
Szeregowy


Posty: 4
Skąd: Poznań
Wysłany: 2018-04-13, 10:55   

Reczywiście, przepraszam - nie mogę dodać załącznika, otrzymałam informację, ze "Limit na wszystkie załączniki na tym forum został przekroczony." Czy mogę przesłać te dane w prywatnej wiadomości?
 
     
szw1710 
Porucznik



Pomógł: 62 razy
Wiek: 49
Posty: 432
Skąd: Cieszyn
Wysłany: 2018-04-13, 14:49   

Najlepiej wrzucić na dysk Google lub Dropbox i podlinkować, jeśli nie możesz umieścić fizycznej kopii pliku.
_________________
Być matematykiem - blog dla tych, dla których matematyka jest czymś więcej niż cyferki.
 
     
gosia_2018 
Szeregowy


Posty: 4
Skąd: Poznań
Wysłany: 2018-04-16, 09:03   

Poniżej przesyłam link do danych:

https://drive.google.com/open?id=1I8SHTwniwi4nRxmNpztG31l82fb6GWRO
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych zakładek(IE)
Wersja do druku

Skocz do:  

Podobne Tematy
Temat Autor Forum Odpowiedzi Ostatni post
Brak nowych postów Przyklejony: obserwacje nietypowe / odstające
CebuLaa Statystyka opisowa 14 2013-01-08, 09:42
jabol
Brak nowych postów Przyklejony: Uzupełnianie brakujących obserwacji
cziks Metody prognostyczne 4 2011-04-19, 21:29
bulva
Brak nowych postów Przyklejony: Warunkowa wartość oczekiwana
wdsk Wiedza statystyczna 0 2012-10-29, 21:13
wdsk
Brak nowych postów Przyklejony: Wartości teoretyczne modelu
ann88 Modelowanie ekonometryczne 12 2010-11-19, 07:10
Shidley
Brak nowych postów Przyklejony: warunkowa wartość oczekiwana
misza Teoria i rachunek prawdopodobieństwa 5 2014-10-25, 08:23
aron11

Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,3 sekundy. Zapytań do SQL: 21