Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Reklama pqstat.pl
Statystyka, prognozowanie, ekonometria, data mining
Forum miłośników statystyki - Portal Statystyczny

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  Chat   Regulamin  Kadra forum
PORTAL STATYSTYCZNY
 Ogłoszenie 
FORUM STATYSTYCZNE MA JUŻ 10 LAT

Znasz statystykę lub ekonometrię, metody prognozowania, data mining i chcesz pomóc w rozwoju forum statystycznego ?
Pisz na: administrator(małpa)statystycy.pl

Rozpoczął swoją działalność portal statystyczny - masz pomysł na jego rozwój ?

Drogi forumowiczu! Zanim napiszesz posta zapoznaj się z regulaminem forum i przedstaw się
The International Year of Statistics (Statistics2013) Smarter Poland Portal statystyczny
Znalezionych wyników: 4
Statystyka, prognozowanie, ekonometria, data mining Strona Główna
Autor Wiadomość
  Temat: Usuwanie wartości odstających i ekstremalnych
gosia_2018

Odpowiedzi: 8
Wyświetleń: 2980

PostForum: Biostatystyka   Wysłany: 2018-04-16, 09:03   Temat: Usuwanie wartości odstających i ekstremalnych
Poniżej przesyłam link do danych:

https://drive.google.com/open?id=1I8SHTwniwi4nRxmNpztG31l82fb6GWRO
  Temat: Usuwanie wartości odstających i ekstremalnych
gosia_2018

Odpowiedzi: 8
Wyświetleń: 2980

PostForum: Biostatystyka   Wysłany: 2018-04-13, 10:55   Temat: Usuwanie wartości odstających i ekstremalnych
Reczywiście, przepraszam - nie mogę dodać załącznika, otrzymałam informację, ze "Limit na wszystkie załączniki na tym forum został przekroczony." Czy mogę przesłać te dane w prywatnej wiadomości?
  Temat: Usuwanie wartości odstających i ekstremalnych
gosia_2018

Odpowiedzi: 8
Wyświetleń: 2980

PostForum: Biostatystyka   Wysłany: 2018-04-13, 09:40   Temat: Usuwanie wartości odstających i ekstremalnych
Witam!

Chciałam zasięgnąć rady w sprawie identyfikacji wartości odstających/ekstremalnych.

Mam listę genów oraz wartości liczby kopii (CNF) dla referencji. Z teoretycznego punktu widzenia spodziewam się, że CNF dla wszystkich genów powinien wynosić 2. Rzeczywiście w ~96% tak jest, natomiast pozostałe 4% przypuszczam, że powstały jako efekt błędu programu bioinformatycznego, którego używałam do analizy.

Ponieważ ta linia referencyjna będzie służyła jako odniesienie do wszystkich późniejszych analiz bardzo chciałabym poprawnie przygotować wiarygodny zbiór genów. I tutaj moje pytanie: jak ze statystycznego punktu widzenia powinnam poprawnie przygotować taki zbiór/ z czego mogłabym skorzystać?

- rozkład danych nie jest normalny, jest bardzo wysoka kurtoza,

- próbowałam skorzystać z właściwości wykresu pudełkowego, jednak zarówno zakres dla wartości odstających jak i ekstremalnych usuwa część wyników dla genów, które mają wartość referencyjną = 2 po zaokrągleniu

- czy powinnam po prostu założyć, że wszystkie geny, których wartosci są różne od 2 powstały w wyniku błędu i wykluczyć je z analizy bez konieczności "udowadniania" tego statystycznie?

W załaczniku przesyłam dane dla lepszego zobrazowania.
Z góry dziękuję za odpowiedź.
  Temat: Witam
gosia_2018

Odpowiedzi: 539
Wyświetleń: 324364

PostForum: Przedstaw się   Wysłany: 2018-04-13, 09:37   Temat: Witam
Witam wszystkich!
 
Skocz do:  
Ideą przyświecającą istnieniu forum statystycznego jest stworzenie możliwości wymiany informacji, poglądów i doświadczeń osób związanych ze statystyką, mierzenie się z różnego rodzaju problemami statystycznymi i aktuarialnymi. Poruszane problemy: Statystyka w badaniach sondażowych rynku, metody reprezentacyjne, Teoria i rachunek prawdopodobieństwa, statystyka opisowa, teoria estymacji, testowanie hipotez statystycznych, ekonometria, prognozowanie, metody data mining.
Copyright (C) 2006-2015 Statystycy.pl
Powered by phpBB modified by Przemo © 2003 phpBB Group
Strona wygenerowana w 0,03 sekundy. Zapytań do SQL: 15