Saturday 14 October 2017

Brakujące Dane Imputowanie Binarne Opcje


16 1 2 Ogólne zasady postępowania z brakującymi danymi. Jest duża literatura statystycznych metod postępowania z brakującymi danymi Tu krótko przeanalizujemy kilka kluczowych pojęć i przedstawiamy ogólne zalecenia dla autorów przeglądów Cochrane Ważne jest, aby myśleć, dlaczego brakuje danych Statystykom często brakuje terminów losowych i nie brakuje przypadków w celu przedstawienia różnych scenariuszy. Dane są brakuje przypadkowo, jeśli brak ich nie jest związany z rzeczywistymi wartościami brakujących danych Na przykład, jeśli niektóre z jakości - kwestie dotyczące życia zostały utracone w systemie pocztowym, mało prawdopodobne byłoby powiązanie z jakością życia badanych uczestników, którzy ukończyli formularze W pewnych okolicznościach statystycy odróżniają dane losowo przypadkowe i brakujące dane zupełnie losowo, chociaż w kontekst systematycznego przeglądu rozróżnienia jest mało prawdopodobne Ważne dane, których brakuje przypadkowo, mogą nie być ważne Analiza oparta na dostępnych danych będzie raczej bezstronny, chociaż opiera się na mniejszej wielkości próbki niż pierwotny zestaw danych. Dane nie są przypadkowe, jeśli brakuje im faktu związanego z faktycznymi brakiem danych Na przykład w próba depresji, uczestnicy, którzy mieli nawrót depresji, mogą mieć mniejsze szanse na uczestnictwo w ostatnim wywiadzie, a bardziej prawdopodobne, że nie posiadają danych dotyczących wyników. Te dane nie są ignorowane w tym sensie, że sama analiza dostępnych danych zazwyczaj źle wpływa na wyniki Publikacja i wybiórcze nastawienia w zakresie sprawozdawczości prowadzą z definicji do danych, które nie są przypadkowe, a także często zanikają i wykluczają osoby w ramach badań. Głównymi wariantami postępowania z brakującymi danymi są: 1 analizowanie tylko dostępnych danych ignorując brakujące dane2 powodując brakujące dane z wartościami zastępczymi i traktując je tak, jakby były obserwowane, np. ostatnia obserwacja przeniesiona do przodu, przynosząc założone rezultaty przy założeniu, że wszystkie były złymi skutkami, przypisując średnie, impozycyjne oparte na przewidywanych wartościach z analizy regresyjnej3. przypisując brakujące dane i uwzględniając fakt, że zostały one przypisane niepewności, np. wielokrotne przypisywanie, proste metody imputacji jako punkt 2 z dostosowaniem do standardowy błąd.4 przy użyciu modeli statystycznych umożliwiających brak danych, co zakłada założenia dotyczące ich relacji z dostępnymi danymi. Oprakcja 1 może być odpowiednia, jeśli można uznać, że dane nie występują w sposób losowy Opcje 2 do 4 są próbami adresowania danych, których nie brakuje w dowolnym przypadku Opcja 2 jest praktyczna w większości przypadków i bardzo często stosowana w systematycznych przeglądach. Jednakże nie uznaje niepewności w przypisywanych wartościach i wynikach, zazwyczaj w przedziałach ufności, które są zbyt wąskie Opcje 3 i 4 wymagałoby zaangażowania znanego statystyk Ogólne ogólne zalecenia dotyczące postępowania z brakującymi danymi w przeglądach Cochrane są następujące pierwotnych dochodzenia w celu zażądania brakujących danych. Zawartość założeń wszelkich metod stosowanych w celu poradzenia sobie z brakiem danych, na przykład, że dane są zakładane jako brakujące w sposób losowy lub że przyjmuje się, że brakuje wartości mających szczególną wartość, taką jak złe wyniki. Przeprowadź analizy wrażliwości, aby ocenić, jak wrażliwe skutki przynoszą rozsądne zmiany w założeniach, które zostały przedstawione w rozdziale 9, sekcja 9 7.Zaznacz potencjalny wpływ brakujących danych na wyniki przeglądu w sekcji Dyskusja. Wielokrotne implikacje w Stata Imputing. Jest to część czwartej serii wielokrotnych implikacji w serii Stata. Aby uzyskać listę tematów omawianych w tej serii, zobacz część Wprowadzenie. W tej części omówimy szczegóły procesu imputowania. Pamiętaj, że przeczytałeś co najmniej poprzednią sekcję, Tworzenie implikacji Modele, dzięki czemu masz poczucie, jakie problemy mogą mieć wpływ na trafność wyników. Przykładowe dane. Aby zilustrować ten proces, użyjemy zestawu danych, który nie jest taki, jak w e przykłady sekcji, ten zestaw danych ma mieć podobieństwo do rzeczywistych danych świata. Jednak binary. race kategoryczne, trzy values. urban binary. edu sortowane kategoryczne, cztery wartości. exp continuous. wage continuous. Missingness Każda wartość wszystkich zmiennych z wyjątkiem żeńczyka ma 10 szans na całkowite przypadkowe zagubienie, ale oczywiście w prawdziwym świecie, że nie wiedziałem, że jest to MCAR z wyprzedzeniem Więc sprawdzimy, czy to MCAR czy MAR MNAR nie można sprawdzić, patrząc na obserwowane dane za pomocą procedury nakreślonej w Decydowaniu na Impute. unab numvars unab missvars pensja miejska misstable sum, gen miss. foreach var miejscowych missvars local covars lista numvars - var display newline 3 logit missingness var na covars logit miss var covars foreach nvar of lokalne lokomotywy wyświetlają nową linię 3 ttest nvr o brakujące dane var ttest nvar, ominięcie var. Zobacz plik dziennika dla wyników. Następnie chodzi o regres płace na płeć, rasę, poziom wykształcenia i doświadczenie Aby zobaczyć poprawne odpowiedzi, otwórz e do pliku, który tworzy zestaw danych i zbadać polecenie gen definiujące kod wagowy dla procesu imputowania można znaleźć w poniższym pliku. Proces imputowania tworzy wiele wyników. plik dziennika zawierający powiązane wykresy można znaleźć tutaj. Każdy fragment artykułu zawiera odnośniki do odpowiedniej sekcji logu Kliknij w przeglądarce, aby wrócić do tej strony. Pierwszym krokiem w użyciu poleceń mi jest mi ustawianie danych Jest to nieco podobne do svyset tsset lub xtset Polecenie mi set mówi Stacie, jak powinno przechowywać dodatkowe imputacje, które utworzysz. Proponujemy użycie szerokiego formatu, ponieważ jest nieco szybsze. Z drugiej strony mlong używa nieco mniej pamięci. Stata korzysta z szerokiej struktury danych, typu. Aby Stata używała długiej struktury marginalnej mlong, typ. Szeroka i długa terminologia jest zapożyczona ze zmian kształtu i struktury są podobne. Jednak nie są one równoważne, a użytkownik woul nigdy nie używaj zmiany kształtu, aby zmienić strukturę danych używaną przez mi Zamiast tego, zmień mi przekonwertuj szerokie lub mi miksuj mlong add, czy jesteś jasny, jeśli dane nie zostały zapisane od ostatniej zmiany. W większości przypadków nie musisz się martwić tym, jak imputacje są zapisywane mi polecenia dowodzą automatycznie, jak stosować co robisz do każdego imputacji Ale jeśli musisz manipulować danymi w sposób mi nie może zrobić dla ciebie, to musisz dowiedzieć się szczegółów dotyczących struktury jesteś przy użyciu Musisz być bardzo, bardzo ostrożny Jeśli interesujesz się takimi rzeczami, w tym rzadko używanymi formatami flong i flongsep, uruchom plik i przeczytaj komentarze, które zawiera podczas sprawdzania przeglądarki danych, aby zobaczyć, jak wyglądają dane w każdym form. Registering Variables. The polecenia mi rozpoznają trzy rodzaje zmiennych. Zmienne nieobowiązkowe to zmienne, które mi impute lub imputed. Regularne zmienne są zmiennymi, których mi nie ma na celu, albo przez wybór, albo dlatego, że nie brakuje żadnej wartości Zmienne es. Passive to zmienne, które są całkowicie określone przez inne zmienne Na przykład, płaca dzienna jest określana przez płace, lub wskaźnik otyłości można określić na podstawie wagi i wysokości. Określenia interakcyjne są również zmiennymi pasywnymi, ale jeśli używasz Stata s interakcja, którą wyznasz, musi zadeklarować je jako takie Bierne zmienne są często problematyczne przykłady transformacji nieliniowości i interakcji pokazują, jak ich niewłaściwe użycie może prowadzić do tendencyjnych szacunków. Jeśli zmienna bierna jest określona przez zmienne regularne, to może ona traktować jako zmienną regularną, ponieważ nie ma potrzeby przypisywania Zmienne pasywne muszą być traktowane jako takie tylko wtedy, gdy zależą one od zmiennych imputowanych. Za rejestrowanie zmiennej mówi Stata, jakiej zmiennej jest zmienna typu Imputed musi być zawsze zarejestrowana. gdzie varlist należy zastąpić rzeczywistą listą zmiennych, które mają zostać przypisane. Często zmienne często nie muszą być rejestrowane, ale to jest dobry pomysł. mi zarejestrować regularną zmienną varlist. Passive musi być registered. mi zarejestrować pasywną varlist. Jednak pasywne zmienne są częściej tworzone po imposing zrobić to z mi pasywne i będą rejestrowane jako bierne automatycznie. W naszym przykładzie danych, należy przeliczyć wszystkie zmienne, z wyjątkiem żeńskich. Odpowiednie polecenie z mi register zarejestruj is. mi rejestrowane wyznanie. Zauważ, że nie możesz używać jako swojej listy, nawet jeśli musisz przypisać wszystkie zmienne, bo to będzie zawierać zmienne systemowe dodane przez mi ustawione w celu śledzenia struktury imputacji. Zarejestrowanie samice jako regularnej jest opcjonalne, ale dobry pomysł. mi rejestrować regularnie female. Checking Modelu Imputacji. W zależności od typów zmiennych, oczywiste metody imputacji are. race kategoryczne, trzy wartości mlogit. urban binarne logit. edu sortowane kategorycznie, cztery wartości ologit. exp ciągłe regress. wage ciągłe regres. kobieta nie musi być przypisana, ale powinna być włączona do modeli imputowania zarówno dlatego, że znajduje się w modelu analizy, a ponieważ prawdopodobnie będzie istotna. Przedpodczas przeprowadzania testu sprawdzamy każdy model imputacji. Zawsze uruchamiaj każdy z Twoich modele imputacji indywidualnie, poza mi impute chained context, aby zobaczyć, czy się zbiegają i tak dalece, jak to możliwe sprawdź, czy są one prawidłowo określone. Code do uruchomienia każdego z tych modeli jest. mlogit r ace exp wynagrodzenie logit miasto exp wynagrodzenie ologit edu exp wynagrodzenie regres exp wynagrodzenie wynagrodzenie exp. Zwróć uwagę, że gdy zmienne kategoryczne zostały uporządkowane lub nie pojawiają się jako współzmienne i rozszerzają je na zestaw zmiennych wskaźników. Jak zobaczymy później, wyjście mil impute komenda łańcuchowa zawiera komendy dla poszczególnych modeli, na które działa Ten użyteczny skrót, zwłaszcza jeśli masz wiele zmiennych do przypisania, jest skonfigurowanie polecenia mi przyporządkowane łańcuchem z opcją dryrun, aby uniemożliwić jej wykonanie dowolnego rzeczywistego impulsu, uruchomić to, a następnie skopiuj polecenia z pliku wyjściowego do pliku do przetestowania. Problemy z domeną. Po pierwsze należy zauważyć, że wszystkie te modele działają z powodzeniem Złożone modele, takie jak mlogit, mogą nie być zbieżne, jeśli masz dużą liczbę zmiennych kategorycznych, ponieważ często prowadzi to do małych rozmiarów komórek Aby rozwiązać przyczynę problemu, usuń większość zmiennych, upewnij się, że model działa z tym, co zostało w lewo, a następnie dodać zmienne z powrotem po jednym lub w małych grup do czasu, gdy przestanie pracować Z niektórymi eksperymentami powinieneś być w stanie zidentyfikować zmienną problemu lub kombinację zmiennych W tym punkcie musisz podjąć decyzję, czy można łączyć kategorie lub upuszczać zmienne lub wprowadzać inne zmiany w celu stworzenia przystosowanego modelu. Prefect Prediction. Perfect przewidywania jest kolejnym problemem do zapamiętania Proces imputacji nie może po prostu upuścić idealnie przewidywane obserwacje sposób logit można można je upuścić przed imposing, ale to zdaje się pokonać cel wielu imputacji Alternatywą jest dodać rozszerzenie lub po prostu aug opcja na dotkniętych metod Ta metoda zachęca do używania podejścia zwiększonego regresji, dodając fałszywe obserwacje z bardzo małymi gramatami w taki sposób, że mają one nieistotny wpływ na wyniki, ale zapobiegają idealnemu przewidywaniu Aby uzyskać szczegółowe informacje, patrz sekcja "Problem doskonała predykcja podczas przypisywania danych kategorycznych w dokumentacji Stata MI. Kontrola niewłaściwej nazwy. Jesteś ould również spróbować ocenić, czy modele są prawidłowo określone Pełna dyskusja na temat określenia prawidłowego lub prawidłowego modelu regresji jest poza zakresem niniejszego artykułu, ale użyj dowolnych narzędzi, które uznasz za właściwe Oto kilka przykładów. Residual vs Wykresy wartości dopasowanych. Niektóre zmienne ciągłe, wykresy rezydualne lub wartości dopasowane można łatwo wykonać za pomocą rvfplot mogą być użyteczne kilka przykładów używa ich do wykrycia problemów Rozważmy wykres dla doświadczonych doświadczeń expres wynagrodzenia rvfplot. Należy zauważyć, jak wiele punktów jest zgrupowanych wzdłuż linia w lewym dolnym rogu, a nie ma jej poniżej. To odzwierciedla ograniczenie, że doświadczenie nie może być mniejsze od zera, co oznacza, że ​​dopasowane wartości zawsze muszą być większe lub równe pozostałości, lub alternatywnie, że resztki muszą być większe niższy lub równy ujemnej wartości dopasowanej Jeśli wykres miał taką samą skalę na obu osiach, linia ograniczająca będzie linią 45 stopni Jeśli wszystkie punkty były poniżej a si linia milarna, a nie górna, to wskazywałoby, że istnieje górna granica na zmiennej, a nie dolnej związanej Przecięcie y linii ograniczającej mówi nam, że limit w każdym przypadku Możesz także mieć zarówno dolną granicę, jak i górna granica, umieszczając wszystkie punkty w pasmie między nimi. Oczywisty model, regres jest niewłaściwy dla doświadczenia, ponieważ wygrałby zastosować to ograniczenie Jest to również nieodpowiednie dla płac z tego samego powodu Alternatywy obejmują truncreg, ll 0 i pmm będziemy używać pmm. Adding Interactions. W tym przykładzie wydaje się prawdopodobne, że relacje pomiędzy zmiennymi mogą różnić się między grupami wiejskimi, rasowymi, płciowymi i urbanistycznymi W ten sposób jednym ze sposobów sprawdzenia błędów jest dodanie do modeli wzorów interakcji i sprawdzenie, czy się okazują być ważne Na przykład będziemy porównywać oczywiste model. regress exp wage. with, który zawiera interactions. regress exp. Chcemy podobne porównania dla modeli innych zmiennych To tworzy wiele więc sprawdź plik dziennika dla wyników Interakcje między zmiennymi płci żeńskiej a innymi zmiennymi są znaczące w modelach dla exp expa edu i urbanistyki Istnieje kilka znaczących interakcji między rasami lub zmiennymi miejskimi i innymi, ale nie tak dużo, i pamiętaj, że z tym wiele współczynników oczekujemy fałszywych pozytywów przy użyciu poziomu istotności 05 W ten sposób oddzielamy mężczyzn i kobiety oddzielnie Jest to szczególnie dobra opcja dla tego zestawu danych, ponieważ kobieta nigdy nie jest zagubiona Gdyby tak było, musimy upuścić te obserwacje, które nie posiadają kobiet, ponieważ nie można ich umieścić w jednej lub innej grupie. W poleceniu imputowania oznacza to dodanie opcji żeńskiej W przypadku testowania modeli oznacza to, że uruchamia się komendy z prefektem żeńskim i usuwa kobietę z list Współzmienność Takie ulepszone modele imputacji są takie same. bysort kobiet reg exp pensa przez płci żeńskiej logit exp expensji miejskiej przez płeć żeńska expresy wyścigowe mlogit exp kobiet przez regres płac exp female ologit edu ex p wage. pmm nie może być uruchomiony poza kontekstem imputacji, ale ponieważ to opiera się na regresji, możesz użyć regresji regularnej do przetestowania. Te modele powinny być testowane ponownie, ale pominiemy ten proces. Standardowa składnia dla mi impute chained is. mi implicit chained method1 varlist1 method2 varlist2 regvars. Each metoda określa metodę, która ma być użyta do przypisania następującej listy varlist Możliwości metody to regress pmm truncreg intreg logit ologit mlogit poisson i nbvreg regvars to lista regularnych zmiennych używanych jako Współzmienne w modelach imputacji, ale nie przyporządkowanych nie może być. Podstawowe opcje są. Należy wpisać R detektor tracefile replace. N jest liczbą imputacji dodawanych do zbioru danych R jest materiałem siewnym, który ma być użyty do losowego jeśli nie ustawisz tego, otrzymasz nieco inne imputacje za każdym razem, gdy polecenie zostanie uruchomione Plik śledzenia jest zbiorem danych, w którym mi impute chained będzie przechowywał informacje o procesie imputacji e ten zestaw danych w celu sprawdzenia konwergencji. Określenia, które odnoszą się do konkretnej metody przejdź do metody, wewnątrz nawiasów, ale po przecinku, np. mlogit, aug Opcje, które są istotne dla procesu imputation jako całości, jak samica idź na końcu , po przecinku. Dla naszego przykładu, polecenie to. i przypisuje łańcuchowi logit miejski mlogit wyścig ologit edu pmm exp wynagrodzenie, dodać 5 sondowane 4409 przez samice. Zauważ, że nie zawiera opcji savetrace W ramach tego piśmie, savetrace nie może być użyta w tym samym czasie, prawdopodobnie dlatego, że wymagałoby to jednego pliku śledzenia dla każdej grupy Stata zdaje sobie sprawę z tego problemu i mamy nadzieję, że zostanie ona wkrótce zmieniona Do celów niniejszego artykułu usuwamy opcję, jeśli chodzi o ten artykuł czas, aby zilustrować użycie pliku śledzenia Jeśli problem pojawi się w Twoich badaniach, porozmawiaj z nami o pracy wokół. Wybierając liczbę implikacji. Istnieje kilka niezgodności między władzami na temat liczby imputacji wystarczających Niektórzy mówią, że w prawie 3-10 wszystkie okoliczności, dokumentacja Stata sugeruje co najmniej 20, podczas gdy White, Royston i Wood twierdzą, że liczba imputacji powinna być mniej więcej równa procentowi przypadków o brakujących wartościach. Nie jesteśmy jednak świadomi żadnego argumentu, że zwiększenie liczby imputacje kiedykolwiek powodują problemy, że marginalna korzyść innego imputowania asymptotycznie zbliża się do zera. Zwiększenie liczby imputacji w twojej analizie zasadniczo nie wymaga żadnej pracy ze strony użytkownika Wystarczy zmienić numer w opcji dodawania na coś większego Z drugiej strony może to być wiele pracy dla komputera wiele imputacji wprowadziło wielu naukowców do świata miejsc pracy, które zajmują godziny lub dni do uruchomienia Można ogólnie założyć, że wymagany czas będzie proporcjonalny do liczby imputacji wykorzystanych np. jeśli plik do dwie godziny pracy z pięcioma imputacjami, to prawdopodobnie potrwa około czterech godzin, aby uruchomić z dziesięć imputacji Więc oto nasza sugestia. Zacznij z pięciu im sugestie na temat tego, co jest powszechnie uznawane za zgodne z prawem. Prowadzenie projektu badawczego, dopóki nie będziesz rozsądnie mieć pewność, że analiza jest w ostatecznym kształcie Upewnij się, że wszystko zrób pliki, aby można było ją ponownie uruchomić. proces, od przypisania do analizy końcowej. Zastanów się, ile czasu masz dostępnego i zadecyduj ile imputacji możesz sobie pozwolić na uruchomienie, przy użyciu reguły, która jest wymagana, jest proporcjonalna do liczby imputacji Jeśli to możliwe, wprowadź liczbę imputacji w przybliżeniu równa odsetkowi przypadków z brakującymi danymi wysokiej końcowej oceny tego, co jest wymagane Pozwól, aby czas odzyskać, jeśli rzeczy się mylą, jak to zwykle robisz. Zwiększ liczbę imputacji w pliku do i zacznij. plik do działa, podobnie jak pisanie swojego artykułu Dodawanie imputacji nie powinno znacząco zmieniać wyników, a w nieprawdopodobnych okolicznościach, co się zdecydują, uważają się za szczęśliwego, że odkryli to przed publikacją. g Proces wprowadzania wielu imputacji wprowadził wielu badaczy do świata miejsc pracy, które zajmują godziny, dni lub nawet tygodnie, aby je uruchomić Zazwyczaj nie warto spędzać czasu, aby kod Stata działał szybciej, ale wiele imputacji może być wyjątkiem. Use najszybszy komputer dostępny dla użytkowników SSCC, co oznacza uczenie się pracy na Linstat, klaster komputerowy Linux Linux SSCC nie jest tak trudny, jak myślisz, używając instrukcji Linstat. Wiele imputacji wymaga więcej czytania i zapisywania na dysku niż większość poleceń Stata Czasami dotyczy to zapisu plików tymczasowych w bieżącym katalogu roboczym Użyj najszybszej dostępnej przestrzeni dyskowej, zarówno dla zbioru danych, jak i katalogu roboczego Ogólnie, lokalna przestrzeń dyskowa będzie szybsza niż miejsce na dysku sieciowym, a na ramdadzie Linstat katalog, który jest rzeczywiście przechowywany w pamięci RAM będzie szybszy niż lokalna przestrzeń na dysku Z drugiej strony, nie chcesz na stałe przechowywać zestawów danych wszędzie, ale netwo rk disk space Więc rozważyć posiadanie pliku do zrobienia czegoś podobnego do następującego. Windows Winstat lub własnego komputera. Jest to również przy ponownym wykorzystaniu imputowanych danych. Jeśli twój zestaw danych jest wystarczająco duży, że praca z nim po imputacji jest powolna, powyższe procedura może pomóc. Kontrola konwergencji. MICE jest procesem iteracyjnym W każdej iteracji mi impute chained najpierw oblicza model imputowania, wykorzystując zarówno obserwowane dane, jak i dane pochodzące z poprzedniej iteracji. Następnie narysuje nowe wartości przypisane z otrzymanych dystrybucji Uwaga że w wyniku tego każda itercja ma pewną autokorelację z poprzednim imputacją. Pierwsza itercja musi być szczególnym przypadkiem w niej, mi impute chained najpierw oblicza model imputacji dla zmiennej z najmniejszymi wartościami brakującymi na podstawie obserwowanych danych i rysunków wartości imputowane dla tej zmiennej Następnie oblicza model zmiennej przy następnych minimalnych brakujących wartościach, używając zarówno obserwowanych wartości, jak i przypisanych wartości o f pierwsza zmienna i przebiega podobnie dla reszty zmiennych Tak więc pierwsza iteracja jest często nietypowa, a ponieważ iteracje są skorelowane, może później powtarzać iteracje również nietypowe. Aby tego uniknąć, domyślnie mijany łańcuch mi implikuje przez dziesięć iteracji każdy przypisany zestaw danych żądany, zapisujący tylko wyniki dziesiątej iteracji Pierwsze dziewięć iteracji nazywa się okresem spopie - niań Normalnie czas poświęcony jest na znaczne skutki pierwszej iteracji, a proces zbliża się do stan stacjonarny Należy jednak pamiętać o zbieżności i zwiększyć liczbę iteracji w razie potrzeby, aby upewnić się, że używa opcji burnin. W tym celu zbadaj plik śledzenia zapisany przez mi impute chained Zawiera średnie i standardowe odchylenie każdej zmiennej przypisanej każda iteracja Różnią się losowo, ale nie powinny wskazywać żadnej tendencji Łatwy sposób sprawdzania to z tsline, ale wymaga zmiany kształtu danych. model imputacji używa więc nie może zapisać pliku śledzenia W ten sposób usuwamy przez chwilę Zwiększymy również opcję burnin do 100, dzięki czemu łatwiej jest zobaczyć, jak wygląda stabilny ślad Weźmy następnie ponownie kształt i tsline, aby sprawdzić convergence. preserve mi impute chained logit miejski mlogit wyścig ologit edu pmm exp płaca samica, dodaj 5 rseed 88 savetrace extrace, wymień burnin 100 use extrace, wymień odwzorowanie wide mean sd, i iter jm tsset iter tsline expmean, tytuł Mean of Imputed Values ​​of Doświadczenie Każda linia jest dla jednej legendy przywłaszczania poza eksportem wykresu zastępującego tsline expsd, tytuł Standardowe odchylenie implikowanych wartości doświadczenia note Każda linia jest dla jednej legendy przywłaszczania poza eksportem wykresu zastępującego przywrócenie. Pracujące wykresy nie wykazują żadnych oczywistych problemów. Jeśli nie widać znaki, że proces może się nie zbiegać po domyślnym dziesięciu iteracjach, zwiększyć liczbę iteracji wykonanych przed zapisaniem wartości przypisanych z opcją burnin Jeśli konwergencja nigdy nie jest achi eved oznacza to problem z modelem imputacji. Sprawdzanie wartości impedowanych. Po imputowaniu należy sprawdzić, czy dane impedowane przypominają obserwowane dane Niestety nie ma formalnego testu w celu określenia, co jest wystarczająco blisko Oczywiście, jeśli dane są MAR ale nie MCAR, imputowane dane powinny być systematycznie różne od obserwowanych danych Ironicznie, im mniej zagubionych wartości, tym więcej zmian będziesz widział między impedowanymi danych a obserwowanymi danymi i pomiędzy imputacjami. Dla zmiennych binarnych i kategorycznych, porównaj tabele częstości Dla zmiennych ciągłych, porównywanie średnich i odchyleń standardowych jest dobrym punktem wyjścia, ale należy spojrzeć na ogólny kształt dystrybucji, jak również Z tego względu sugerujemy wykresy gęstości ziarna lub histogramy Poszukaj osobno, zamiast sumowania wszystkich wartości przypisane, dzięki czemu można sprawdzić, czy któryś z nich poszedł źle. Przedtem pojazdy xeq mówi Stata, aby zastosowała kolejne polecenie do każdego im putation indywidualnie Odnosi się to również do pierwotnych danych, zeroth imputacji Thus. mi xeq tab race. will daje sześć tabel częstotliwości dla jednego oryginalnego danych, a jeden dla każdego z pięciu imputacji. Jednak chcemy porównać dane obserwowane do tylko danych implikowanych, a nie całego zbioru danych Wymaga to dodania jeśli warunek do poleceń tabulacji dla imputacji, ale nie obserwowanych danych Dodaj liczbę lub numlist do działania mi xeq na konkretnych imputations. mi xeq 0 tab race mi xeq 1 5 wyścig tabulacji, jeśli missrace. This tworzy tabele częstotliwości dla obserwowanych wartości wyścigu, a następnie imputed wartości we wszystkich pięciu imputations. If masz znaczną liczbę zmiennych do zbadania można łatwo pętli nad them. foreach var varlist miejskich wyścig edu mi xeq 0 tab var mi xeq 1 5 tab var if miss var. For wyniki zobacz plik dziennika. Przeglądanie statystyk podsumowujących zmiennych ciągłych odbywa się w tym samym procesie, ale tworzenie wykresów gęstości jądra powoduje komplikację, którą trzeba zapisać wykresy lub dać sobie szansę patrzeć na nich mi xeq może wykonywać wiele poleceń dla każdego imputowania po prostu umieścić je w jednej linii za pomocą średnika na końcu każdego To nie będzie działało, jeśli zmieniłeś ogólny koniec komendy ogranicznik do średnika Polecenie uśpienia mówi Stata, aby wstrzymać się przez określony czas, mierzony w milisekunds. mi xeq 0 kdensity pensja wynagrodzenia 1000 mil xeq 1 5 pensji kdensity jeśli miss var sleep 1000.Again, to wszystko może być zautomatyzowane. varlist Wynagrodzenie expa za xeq 0 suma z rytmu 1 5 suma var jeśli zabraknie mi dochód 0 kdensity var Śmierć 1000 mi xeq 1 5 kdensity var jeśli zabraknie var sleep 1000. Zapisywanie wykresów okazuje się nieco trudniejsze, ponieważ potrzebujesz aby dać wykres z każdego imputowania inną nazwę pliku Niestety nie można uzyskać dostępu do numeru imputacji w mi xeq Można jednak utworzyć pętlę forvalues ​​nad numerami imputacji, a następnie je xeq działać na każdym z nich. forval i 1 5 mi xeq i kdensity exp if missexp graph eksportuj replace. Integ Ocena tego z poprzednią wersją daje. foreach var varlist Wynagrodzenie expa za xeq 0 suma do jazdy 1 5 sum var if miss var mi xeq 0 kdensity var graph export wymień forval i 1 5 mi xeq i kdensity var if miss var export export zastąpić. Dla wyników, patrz plik dziennika. Jest to kłopotliwe, że przy wszystkich imputacjach średnia wartości przypisanej płacy jest wyższa niż średnia obserwowanych wartości płacy, a średnia wartości przypisanych exp jest niższa od średniej z obserwowanych wartości exp Nie znaleźliśmy dowodów na to, że dane to MAR, ale nie MCAR, więc spodziewamy się, że dane zostaną połączone w obrębie środków obserwowanych danych. Nie ma formalnego testu, aby ostatecznie określić, czy jest to problem, czy nie, ale powinien wzbudzić podejrzenia, a jeśli końcowe wyniki z tymi implikowanymi danymi różnią się od wyników pełnej analizy przypadków, rodzi się pytanie, czy różnica jest spowodowana problemami z modelem imputacji. Zaktualizowane 8 23 2017A nowa metoda imputacji dla niekompletnych danych binarnych. Munevver Mine Subasi a. Ersoy Subasi b. Martin Anthony c. Peter L Hammer 1.a Wydział Nauk Matematycznych, Floryda Institute of Technology, 150 W University Blvd Melbourne 32901, USA. b RUTCOR , Rutgers Center for Operations Research, 640 Bartholomew Road, Piscataway, NJ 08854, USA. c Wydział Matematyki, London School of Economics i Nauk Politycznych, Houghton Street, Londyn WC2A 2AE, Wielka Brytania. Received 17 października 2009, poprawione 28 sierpnia 2010, Przyjęty 31 stycznia 2011, dostępny online 21 marca 2011. W problemach z analizą danych, w których dane są reprezentowane przez wektory liczb rzeczywistych, często zdarza się, że niektóre punkty danych będą brakowały wartości, co oznacza, że ​​jeden lub więcej wpisy wektora, które opisują punkt danych nie są przestrzegane W niniejszym artykule proponujemy nowe podejście do przypisywania brakujących wartości binarnych Wprowadzona technika wykorzystuje podobieństwo wprowadzone przez Anthony'a i Hammera 20 06 1 Porównujemy eksperymentalnie z wynikami naszej techniki z tymi, które opierają się na zwykłym pomiarze odległości Hamminga i wielu imputacjach. Butlean podobieństwo miary.1 Wstęp. W praktycznej nauce maszyn lub w analizie danych, w których dane mają być analizowane, składa się z wektorów rzeczywistych liczby często zdarza się, że niektóre punkty danych będą brakowały wartości, co oznacza, że ​​jeden lub więcej wpisów wektora, który opisuje punkt danych, nie jest znany Naturalnie spróbuj uzupełnić lub wyliczyć te brakujące wartości, tak aby jeden z nich nie ma pełnych danych do pracy z To może być konieczne, na przykład, aby dane mogły być wykorzystane do uczenia się przy użyciu technik uczenia się komputerowego lub statystycznego Jest to klasyczny problem z zagadnieniami statystycznymi i komputerowymi oraz wiele technik . Ponieważ w aplikacjach rzeczywistych brakuje danych stanowi uciążliwość, a nie główny nacisk, metoda imputowania o dobrych właściwościach może być lepsza niż ta, która jest skomplikowana do wdrożenia i bardziej wydajnego, ale specyficznego dla danego problemu. Niektóre podejścia do obsługi brakujących danych po prostu ignorują lub usuwają punkty, które są niekompletne Klasyczne podejścia tego typu są listowe usuwanie LD i usuwanie pary PD Dzięki swojej prostocie są powszechnie używane , np. 15 i są domyślne dla większości pakietów statystycznych Jednak zastosowanie tych technik może prowadzić do dużej utraty obserwacji, co może prowadzić do zbyt małych zbiorów danych, jeśli ułamek brakujących wartości jest wysoka, a szczególnie jeśli pierwotny zestaw danych jest niewielki. Jednym z najbardziej wymagających decyzji stojących przed naukowcami jest wybór najbardziej odpowiedniej metody obsługi brakujących danych podczas analizy Little i Rubin 13 sugerują, że naiwne lub nieprzypisane metody imputacji mogą powodować więcej problemów niż rozwiązać najczęściej stosowanymi technikami imputacji danych są średnie imputacje zwane również bezwarunkowo średnim imputacją, implikacja regresji RI odnosi się również do jako warunkowej średniej imputacji, imputacji na gorąco pokładzie HDI i wielu imputacji MI zauważamy, że średnia imputacja i podobne podejścia nie są właściwe w sensie Rubin 16, a zatem nie są zalecane W większości przypadków proste techniki obsługi brakujących danych, takie jak pełne metody analizy przypadków LD i PD, ogólny MI i brak danych wskaźnikowych wykazują tendencyjne wyniki, jak udokumentowano w 5 12 16 18 i 21 Bardziej wyrafinowana technika MI daje lepsze wyniki 5 12 16 18 i 21.MI 16 jest statystycznym technika, w której każda brakująca wartość jest zastępowana kilkoma wartościami kk, tworząc kompletne zestawy danych kk do analizy Różnice między tymi zestawami danych odzwierciedlają niepewność brakujących wartości Każdy implikowany zestaw danych jest analizowany za pomocą standardowych procedur kompletnego przetwarzania danych, zignoruj ​​rozróżnienie między wartościami rzeczywistymi a wartością impulsu Wyniki kk są następnie łączone w taki sposób, że zmienność wynikająca z przypisywania może zostać włączona W przypadku prawidłowego wykonania wyniki tych połączonych analiz nie tylko dostarczają nieuznawanych estymatorów parametrów, ale odpowiednio uwzględniają niepewność związaną z brakiem danych, tzn. przedstawiają prawidłową ocenę odchyleń tych parametrów Rubin 16 dał kompleksowe postępowanie z MI i technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2017, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2017, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2017, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2017, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.

No comments:

Post a Comment