To jest tylko wersja do druku, aby zobaczyć pełną wersję tematu, kliknij TUTAJ
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

Biostatystyka - Usuwanie wartości odstających i ekstremalnych

tagarela - 2017-02-10, 21:26
Temat postu: Usuwanie wartości odstających i ekstremalnych
Witam,
dostałam do analizy dane medyczne i pełno w nich wartości ekstremalnych i odstających. Po jednokrotnym wyczyszczeniu danych (w Statistice, usuwałam ekstremalne, czyli powyżej 3 x odch std) pojawiły się znowu wartości ekstremalne. Po trzykrotnym czyszczeniu dalej pojawiają się nowe. I teraz pytanie: jaka jest poprawna procedura? Czyści się, aż nie będzie ekstremalnych? Albo na przykład tylko 3 razy? Problem polega na tym, że po wyczyszczeniu aż do braku ekstremalnych mam bardzo duże braki w niektórych zmiennych.
Pozdrawiam i proszę o pomoc.

jabol - 2017-02-12, 19:34
Temat postu: Re: Usuwanie wartości odstających i ekstremalnych
tagarela napisał/a:
Witam,
dostałam do analizy dane medyczne i pełno w nich wartości ekstremalnych i odstających. Po jednokrotnym wyczyszczeniu danych (w Statistice, usuwałam ekstremalne, czyli powyżej 3 x odch std) pojawiły się znowu wartości ekstremalne. Po trzykrotnym czyszczeniu dalej pojawiają się nowe. I teraz pytanie: jaka jest poprawna procedura? Czyści się, aż nie będzie ekstremalnych? Albo na przykład tylko 3 razy? Problem polega na tym, że po wyczyszczeniu aż do braku ekstremalnych mam bardzo duże braki w niektórych zmiennych.
Pozdrawiam i proszę o pomoc.


pierwsza sprawa: czy jestes pewna ze te dane są poprawne tz czy nie wynikaja z bledu wpisania

druga sprawa: zalezy od tego co i jaką procedurą chcesz liczyc, ale zawsze mozesz wykorzytac testy nieparametryczne

trzecia sprawa: podlinkuj surową bazę danych

tagarela - 2017-02-12, 22:53

ad 1)
Tak. To są badania dotyczące osób o różnym stopniu upośledzenia. Niektórzy mieli bardzo mocne wychwiania, a inni dużo mniejsze. Po usunięciu jednokrotnym w miejsce ,,ekstremalnych" przesunęły się następne osoby i tak w kółko. Po eliminacji ,,do skutku" została mi tylko około połowa danych w grupie najmocniej upośledzonych. Współpracujący z nami lekarze zalecili ,,usunąć te odstające, bo to zawsze oni tak robią, że usuwają te wyniki, które mocno odstają". Na pytanie o dokładną procedurę dostałam odpowiedź: ,,No do tej pory usuwaliśmy tak na oko, co widzieliśmy, że nie pasuje na pewno". Więc generalnie zgroza.
ad 2)
Zdaję sobie sprawę z możliwości wykonania testów nieparametrycznych, ale oprócz porównań grup planowana jest jeszcze regresja wieloraka.
ad 3)
Niestety nie mogę, to nie są moje badania.

Crunchy - 2017-02-13, 18:24
Temat postu: Re: Usuwanie wartości odstających i ekstremalnych
tagarela napisał/a:
jaka jest poprawna procedura? Czyści się, aż nie będzie ekstremalnych? Albo na przykład tylko 3 razy? Problem polega na tym, że po wyczyszczeniu aż do braku ekstremalnych mam bardzo duże braki w niektórych zmiennych.


1) A po co w ogóle to robić...? Może to jest zupełnie niepotrzebne, albo warto uwzględnić inny czynnik zamiast go ignorować.
2) Jeżeli są mocne fundamenty, żeby uznawać że zmienne mają rozkład normalny, to wartości odstające zwykle stanowią mniej niż ~10%.

gosia_2018 - 2018-04-13, 09:40

Witam!

Chciałam zasięgnąć rady w sprawie identyfikacji wartości odstających/ekstremalnych.

Mam listę genów oraz wartości liczby kopii (CNF) dla referencji. Z teoretycznego punktu widzenia spodziewam się, że CNF dla wszystkich genów powinien wynosić 2. Rzeczywiście w ~96% tak jest, natomiast pozostałe 4% przypuszczam, że powstały jako efekt błędu programu bioinformatycznego, którego używałam do analizy.

Ponieważ ta linia referencyjna będzie służyła jako odniesienie do wszystkich późniejszych analiz bardzo chciałabym poprawnie przygotować wiarygodny zbiór genów. I tutaj moje pytanie: jak ze statystycznego punktu widzenia powinnam poprawnie przygotować taki zbiór/ z czego mogłabym skorzystać?

- rozkład danych nie jest normalny, jest bardzo wysoka kurtoza,

- próbowałam skorzystać z właściwości wykresu pudełkowego, jednak zarówno zakres dla wartości odstających jak i ekstremalnych usuwa część wyników dla genów, które mają wartość referencyjną = 2 po zaokrągleniu

- czy powinnam po prostu założyć, że wszystkie geny, których wartosci są różne od 2 powstały w wyniku błędu i wykluczyć je z analizy bez konieczności "udowadniania" tego statystycznie?

W załaczniku przesyłam dane dla lepszego zobrazowania.
Z góry dziękuję za odpowiedź.

jabol - 2018-04-13, 10:13

gosia_2018 napisał/a:


W załaczniku przesyłam dane dla lepszego zobrazowania.
Z góry dziękuję za odpowiedź.



brak załącznika

gosia_2018 - 2018-04-13, 10:55

Reczywiście, przepraszam - nie mogę dodać załącznika, otrzymałam informację, ze "Limit na wszystkie załączniki na tym forum został przekroczony." Czy mogę przesłać te dane w prywatnej wiadomości?
szw1710 - 2018-04-13, 14:49

Najlepiej wrzucić na dysk Google lub Dropbox i podlinkować, jeśli nie możesz umieścić fizycznej kopii pliku.
gosia_2018 - 2018-04-16, 09:03

Poniżej przesyłam link do danych:

https://drive.google.com/open?id=1I8SHTwniwi4nRxmNpztG31l82fb6GWRO



Powered by phpBB modified by Przemo © 2003 phpBB Group