Fehlende Daten Imputation Binär Optionen

16 1 2 Allgemeine Grundsätze für den Umgang mit fehlenden Daten. Es gibt eine große Literatur der statistischen Methoden für den Umgang mit fehlenden Daten Hier sehen wir kurz einige wichtige Konzepte und machen einige allgemeine Empfehlungen für Cochrane Review Autoren Es ist wichtig zu denken, warum Daten fehlen können Statistiker verwenden oft die Begriffe, die zufällig fehlen und nicht zufällig fehlen, um verschiedene Szenarien darzustellen. Daten sollen zufällig fehlen, wenn die Tatsache, dass sie fehlen, ist nicht mit tatsächlichen Werten der fehlenden Daten verwandt. Zum Beispiel, wenn einige Qualität von - Tags-Fragebögen wurden im Postsystem verloren, dies wäre unwahrscheinlich, dass sie mit der Lebensqualität der Versuchsteilnehmer verwandt sind, die die Formulare abgeschlossen haben. Unter bestimmten Umständen unterscheiden die Statistiker zwischen zufällig fehlenden Daten und Daten, die vollständig zufällig fehlen, obwohl in Im Kontext einer systematischen Überprüfung ist die Unterscheidung unwahrscheinlich, dass wichtige Daten, die zufällig fehlen, nicht wichtig sein können. Analysen basiert Auf die verfügbaren Daten neigen dazu, unvoreingenommen zu sein, obwohl auf einer kleineren Stichprobengröße als der ursprüngliche Datensatz basiert. Daten werden zufällig nicht zufällig fehlen, wenn die Tatsache, dass sie fehlen, auf die tatsächlichen fehlenden Daten bezogen ist Ein Depressionsversuch, Teilnehmer, die einen Rückfall von Depressionen hatten, könnten weniger wahrscheinlich sein, an dem endgültigen Follow-up-Interview teilzunehmen und eher fehlende Ergebnisdaten zu haben. Diese Daten sind nicht ignorierbar in dem Sinne, dass eine Analyse der verfügbaren Daten allein wird In der Regel werden voreingenommene Publikations-Bias und selektive Berichterstattung Bias führen per Definition zu Daten, die nicht zufällig fehlen, und Abreibung und Ausschlüsse von Personen innerhalb von Studien oft auch als gut. Die wichtigsten Optionen für den Umgang mit fehlenden Daten sind.1 analysieren nur die verfügbaren Daten Dh die fehlenden Daten zu ignorieren.2 die fehlenden Daten mit Ersatzwerten zu übermitteln und diese zu behandeln, als ob sie zB die letzte Beobachtung vorgestellt wurden, was ein angenommenes Ergebnis bedeutet Wie man davon ausgeht, dass alle schlechte Ergebnisse waren, indem sie den Mittelwert angaben, der auf den vorhergesagten Werten aus einer Regressionsanalyse basiert.3 die fehlenden Daten aufzugeben und die Tatsache zu berücksichtigen, dass diese mit Unsicherheit, z. B. Mehrfach-Imputation, einfache Anrechnungsmethoden als Punkt 2 mit Anpassung an Der Standardfehler.4 unter Verwendung statistischer Modelle, um fehlende Daten zuzulassen und Annahmen über ihre Beziehungen zu den verfügbaren Daten zu machen. Option 1 kann angemessen sein, wenn Daten zufällig zufällig fehlen können. Optionen 2 bis 4 sind Versuche, Daten zu adressieren, die nicht fehlen Zufällig Option 2 ist praktisch in den meisten Fällen und sehr häufig in systematischen Bewertungen verwendet Allerdings ist es nicht bekannt, Unsicherheit in den unterstellten Werten und Ergebnisse, in der Regel in Vertrauen Intervalle, die zu eng sind Optionen 3 und 4 würde die Einbeziehung eines sachkundigen Statistiker erfordern. Four allgemeine Empfehlungen für den Umgang mit fehlenden Daten in Cochrane Bewertungen sind wie folgt. Wenn immer möglich, kontaktieren Sie bitte Die ursprünglichen Ermittler, um fehlende Daten anzufordern. Machen Sie explizit die Annahmen von irgendwelchen Methoden, die verwendet werden, um mit fehlenden Daten zu bewältigen, zum Beispiel, dass die Daten vermutlich zufällig fehlen oder dass fehlende Werte einen bestimmten Wert wie ein schlechtes Ergebnis angenommen haben. Führen Sie Sensitivitätsanalysen durch, um zu beurteilen, wie sich empfindliche Ergebnisse auf vernünftige Veränderungen in den getroffenen Annahmen beziehen, siehe Kapitel 9, Abschnitt 9 7.Adresse die potenziellen Auswirkungen fehlender Daten auf die Ergebnisse der Überprüfung im Abschnitt Diskussion. Mehrfache Imputation in Stata Imputing. Dies ist Teil vier der Multiple Imputation in Stata-Serie Für eine Liste der Themen, die von dieser Serie abgedeckt werden, siehe die Einleitung. Dieser Abschnitt wird Sie durch die Details des Imputation-Prozesses zu sprechen. Seien Sie sicher, dass Sie mindestens den vorherigen Abschnitt, Erstellen von Imputation lesen Modelle, so dass Sie ein Gefühl dafür haben, welche Probleme die Gültigkeit Ihrer Ergebnisse beeinflussen können. Beispiel Daten. Um den Prozess zu veranschaulichen, verwenden wir einen gefertigten Datensatz Im Gegensatz zu denen in th E Beispiele Abschnitt, ist dieser Datensatz entworfen, um einige Ähnlichkeit mit realen Welt Daten. female binary. race kategorischen, drei values. urban binary. edu bestellt kategorischen, vier values. exp continuous. wage continuous. Missingness Jeder Wert aller Variablen Außer weiblich hat eine 10 Chance, völlig zufällig zu fehlen, aber natürlich in der realen Welt haben wir t wissen, dass es MCAR vor der Zeit ist So werden wir überprüfen, ob es sich um MCAR oder MAR MNAR nicht durch das Betrachten der beobachteten überprüft werden kann Daten mit dem Verfahren in der Entscheidung zu entscheiden, zu impute. unab numvars unab missvars städtischen Lohn mißbräuchliche Summe, gen miss. foreach var von lokalen missvars lokalen covars Liste numvars - var display newline 3 logit fehlt von var auf covars logit miss var covars foreach nvar von Lokale Kovare zeigen Newline 3 ttest von nvar durch fehlende var ttest nvar, durch miss var. See die Log-Datei für results. Our Ziel ist es, Lohn auf Geschlecht, Rasse, Bildung Ebene und Erfahrung zurückzukehren Um die richtigen Antworten zu sehen, öffnen th E do datei, die den Datensatz erstellt und untersucht den gen-Befehl, der wageplete Code für den Imputation-Prozess definiert, kann in der folgenden Datei gefunden werden. Der Imputation-Prozess schafft eine Menge von Output Wir ll setzen Highlights in dieser Seite, aber eine komplette Protokolldatei einschließlich der zugehörigen Graphen finden Sie hier. Jeder Abschnitt dieses Artikels haben Links zu dem entsprechenden Abschnitt des Protokolls Klicken Sie zurück in Ihrem Browser, um zu dieser Seite zurückzukehren. Der erste Schritt bei der Verwendung von mi Befehlen ist, mi Ihre Daten zu setzen Dies ist etwas ähnliches wie svyset tsset oder xtset Der mi set Befehl sagt Stata, wie es die zusätzlichen Imputationen, die du erstellen soll, speichern soll. Schlagen wir vor, das breite Format zu verwenden, da es etwas schneller ist. Andererseits verwendet mlong etwas weniger Speicher Stata verwenden die breite Datenstruktur, type. To haben Stata verwenden die mlong marginal lange Datenstruktur, Typ. Die breite vs lange Terminologie ist von Umformung geliehen und die Strukturen sind ähnlich Allerdings sind sie nicht gleichwertig und Sie woul Ich benutze niemals umgestalten, um die Datenstruktur zu ändern, die von mi verwendet wird. Stattdessen geben Sie mi konvertieren breit oder mi konvertieren mlong hinzufügen, klar, wenn die Daten seit der letzten Änderung nicht gespeichert wurden. Die meisten der Zeit müssen Sie sich nicht darum kümmern, wie die Imputationen sind gespeichert die mi Befehle herauszufinden, automatisch, wie man anwenden, was auch immer Sie tun, um jede Anrede Aber wenn Sie die Daten in einer Weise mi tun können t t tun für Sie, dann müssen Sie lernen, über die Details der Struktur, die Sie re Verwenden Sie Sie müssen auch sehr, sehr vorsichtig sein Wenn Sie sich für solche Dinge interessieren, einschließlich der selten verwendeten Flong - und Flongsep-Formate, führen Sie diese Datei aus und lesen Sie die Kommentare, die sie enthält, während Sie den Datenbrowser untersuchen, um zu sehen, wie die Daten in jedem aussehen Form. Registering Variablen. Die mi Befehle erkennen drei Arten von Variablen. Imputed Variablen sind Variablen, die mi zu begehen oder hat imitiert. Reguläre Variablen sind Variablen, die mi ist nicht zu begehen, entweder durch Wahl oder weil sie nicht fehlen keine valu Es. Passive Variablen sind Variablen, die vollständig durch andere Variablen bestimmt werden. Beispielsweise wird der Protokolllohn durch Lohn bestimmt oder ein Indikator für Fettleibigkeit kann durch eine Funktion von Gewicht und Höhe bestimmt werden. Interaktionsbegriffe sind auch passive Variablen, wenngleich Stata verwendet wird S Interaktion Syntax Sie gewann t müssen sie als solche Passive Variablen sind oft problematisch die Beispiele für Transformationen Nicht-Linearität und Interaktionen zeigen, wie die Verwendung von ihnen unangemessen kann zu voreingenommen Schätzungen führen. Wenn eine passive Variable durch regelmäßige Variablen bestimmt ist, dann kann es Als eine reguläre Variable behandelt werden, da keine Anrede erforderlich ist Passive Variablen müssen nur als solche behandelt werden, wenn sie von unterstellten Variablen abhängen. Registrieren einer Variablen sagt Stata, welche Art von Variable es ist Imputed Variablen müssen immer registriert werden. Mi Register unterstellte Varlist. Wo varlist sollte durch die tatsächliche Liste der Variablen ersetzt werden, um zu rechnen. Reguläre Variablen oft don t müssen registriert werden, aber Es ist eine gute idea. mi registrieren regelmäßige varlist. Passive Variablen müssen registriert werden. mi registrieren passive varlist. However, passive Variablen werden häufiger erstellt nach dem Imputing Do dies mit mi passiv und sie werden als passiv automatisch registriert werden. In unseren Beispieldaten, Alle Variablen außer weiblichen müssen unterlegt werden Der entsprechende mi register befehl ist. mi registriert geratener rennsohn. Beachten Sie, dass Sie nicht als Ihre varlist verwenden können, auch wenn Sie alle Ihre Variablen zu beurteilen müssen, denn das würde die Systemvariablen hinzufügen, die von mi gesetzt wurden, um die Imputationsstruktur zu verfolgen. Registrierende Frau als regulär ist optional, aber eine gute idea. mi Registrieren regelmäßige female. Checking der Imputation Model. Based auf die Arten der Variablen, die offensichtlichen Imputation Methoden are. race kategorischen, drei Werte mlogit. urban binary logit. edu geordneten kategorischen, vier Werte ologit. exp kontinuierlichen regress. wage kontinuierlichen Regress. Weiblich muss nicht bezichtt werden, sondern sollte in die Imputation Modelle sowohl weil es in der Analyse-Modell und weil es wahrscheinlich ist, relevant zu sein. Before fortfahren, um zu beurteilen, werden wir überprüfen, jede der Imputation Modelle Immer laufen jeder von Ihrem Anrechnungsmodelle einzeln, außerhalb der mi verketten verknüpften Kontext, um zu sehen, ob sie konvergieren und insofern es möglich ist, zu überprüfen, dass sie korrekt angegeben sind. Code, um jedes dieser Modelle laufen zu lassen ist. mlogit r Ace exp Lohn Logit städtischen Exploge ologit edu exp Lohn Regress Explo Lohn Regress Lohn Exp. Note, dass, wenn kategorische Variablen geordnet oder nicht als Kovariaten erscheinen, erweitert ich sie in Sätze von Indikator-Variablen. Als wir sehen später, die Ausgabe der mi pute Verketteten Befehl enthält die Befehle für die einzelnen Modelle, die es läuft So eine nützliche Verknüpfung, vor allem, wenn Sie eine Menge von Variablen zu beurteilen haben, ist es, Ihre mi platziert Kette Befehl mit der Dryrun-Option, um zu verhindern, dass es eine tatsächliche Imputing, laufen Es, und dann kopieren Sie die Befehle aus der Ausgabe in Ihre do-Datei für testing. Convergence Probleme. Die erste Sache zu beachten ist, dass alle diese Modelle laufen erfolgreich Komplexe Modelle wie mlogit kann nicht konvergieren, wenn Sie eine große Anzahl von kategorischen Variablen haben, Denn das führt oft zu kleinen Zellengrößen Um die Ursache des Problems festzulegen, entfernen Sie die meisten Variablen, stellen Sie sicher, dass das Modell mit dem, was übrig ist, funktioniert, und fügen Sie dann Variablen wieder einzeln oder klein hinzu Gruppen bis es aufhört zu arbeiten Mit einigen Experimenten sollten Sie in der Lage sein, die Problemvariable oder die Kombination von Variablen zu identifizieren. An diesem Punkt müssen Sie entscheiden, ob Sie Kategorien kombinieren oder Variablen variieren oder andere Änderungen vornehmen können, um ein bearbeitbares Modell zu erstellen Prediction. Perfect Vorhersage ist ein weiteres Problem zu beachten Der Imputation Prozess kann nicht einfach fallen die perfekt vorhergesagte Beobachtungen die Art und Weise Logit können Sie können sie vor dem Imputing, aber das scheint, den Zweck der Mehrfach-Imputation zu besiegen Die Alternative ist, um die Erweiterung oder einfach nur hinzufügen Option für die betroffenen Methoden Dies sagt, dass mi veranlasst ist, den erweiterten Regressionsansatz zu verwenden, der gefälschte Beobachtungen mit sehr niedrigen Gewichten so hinzufügt, dass sie eine vernachlässigbare Wirkung auf die Ergebnisse haben, aber eine perfekte Vorhersage verhindern. Einzelheiten siehe den Abschnitt Die Frage von Perfekte Vorhersage während der Angabe von kategorischen Daten in der Stata MI Dokumentation. Checking für Misspecification. You sh Oys auch versuchen zu beurteilen, ob die Modelle korrekt angegeben sind Eine vollständige Diskussion darüber, wie zu bestimmen, ob ein Regressionsmodell korrekt angegeben ist oder nicht, ist weit über den Rahmen dieses Artikels hinaus, aber verwenden Sie, was Werkzeuge, die Sie finden finden Hier sind einige Beispiele. Residual vs Fitted Value Plots. Für kontinuierliche Variablen, Residual vs Fit Wert Plots leicht mit rvfplot durchgeführt werden kann nützlich sein mehrere der Beispiele verwenden sie, um Probleme zu erkennen Betrachten Sie die Handlung für experience. regress exp Lohn rvfplot. Hinweis, wie eine Reihe von Punkten entlang einer Zeile in der unteren linken und keine Punkte sind darunter. Dies spiegelt die Einschränkung, die Erfahrung kann nicht weniger als Null, was bedeutet, dass die angepassten Werte müssen immer größer als oder gleich den Residuen, oder alternativ, dass die Residuen größer sein müssen Als oder gleich dem Negativ der angepassten Werte Wenn der Graph auf beiden Achsen die gleiche Skala hatte, wäre die Einschränkungslinie eine 45-Grad-Linie. Wenn alle Punkte unterhalb eines si liegen würden Vielere Linie eher als über es, würde dies Ihnen sagen, dass es eine obere Grenze auf die Variable anstatt eine untere Grenze Die y-Intercept der Einschränkungslinie sagt Ihnen die Grenze in beiden Fällen können Sie auch eine untere Grenze und ein Obere Grenze, die alle Punkte in eine Band zwischen ihnen. Das offensichtliche Modell, Regress ist unangemessen für die Erfahrung, weil es gewann t gelten diese Einschränkung Es ist auch unangemessen für Löhne aus dem gleichen Grund Alternativen gehören truncreg, ll 0 und pmm wir verwenden Pmm. Adding Interactions. In diesem Beispiel scheint es plausibel, dass die Beziehungen zwischen Variablen zwischen Rasse, Geschlecht und städtischen ländlichen Gruppen variieren können. So ist eine Möglichkeit, auf Misspecification zu überprüfen, um Interaktionsbedingungen zu den Modellen hinzuzufügen und zu sehen, ob sie sich herausstellen Sei wichtig Zum Beispiel werden wir das offensichtliche Modell vergleichen. regress exp Lohn. mit einer, die interactions. regress exp. We ll führt ähnliche Vergleiche für die Modelle der anderen Variablen Dies schafft viel Ausgabe, also sehen Sie die Log-Datei für Ergebnisse Interaktionen zwischen weiblichen und anderen Variablen sind in den Modellen für exp Lohn edu und städtischen Es gibt einige wichtige Interaktionen zwischen Rasse oder städtischen und anderen Variablen, aber nicht annähernd so viele und denken Sie daran, dass Mit diesen vielen Koeffizienten erwarten wir einige falsche Positives mit einem Signifikanzniveau von 05 Wir werden also die Männer und Frauen gesondert ansprechen Dies ist eine besonders gute Option für diesen Datensatz, weil die Frau niemals fehlt. Wenn wir es wären, müssen wir diese fallen lassen Beobachtungen, die weiblich fehlen, weil sie nicht in einer Gruppe oder der anderen platziert werden können. Im Anrechnungsbefehl bedeutet dies, dass die Option "Weibliche" bei der Prüfung von Modellen angewendet wird. Es bedeutet, die Befehle mit dem weiblichen Präfix zu starten und die weiblichen aus den Listen zu entfernen Kovariaten Die verbesserten Anrechnungsmodelle sind also. Bysort weiblich reg exp Lohn durch weibliche Logit städtischen Exploge von weiblichen mlogit Rasse Exploge von weiblichen Reg Lohn exp von weiblichen ologit edu ex P wage. pmm selbst kann nicht außerhalb des Imputationskontextes laufen, aber da es auf der Grundlage von Regression basiert, kannst du regelmäßige Regression verwenden, um es zu testen. Diese Modelle sollten nochmals getestet werden, aber wir werden diesen Prozess nicht auslassen. Die Grundsyntax für mi verkürzte Is. mi impute chained method1 varlist1 method2 varlist2 regvars. Each Methode spezifiziert die Methode, die für die Eingabe der folgenden varlist verwendet werden soll Die Möglichkeiten für die Methode sind regress pmm truncreg intreg logit ologit mlogit poisson und nbreg regvars ist eine Liste der regelmäßigen Variablen als verwendet werden Kovariaten in den Anrechnungsmodellen, aber nicht unterschrieben gibt es vielleicht keine. Die grundlegenden Optionen sind. add N rseed R savetrace tracefile replace. N ist die Anzahl der Imputationen, die dem Datensatz hinzugefügt werden sollen R ist die Samen für die zufällige verwendet werden Nummerngenerator, wenn du das nicht stellst, bekommst du jedes Mal, wenn der Befehl ausgeführt wird, etwas andere Imputationen. Die Tracefile ist ein Datensatz, in dem mi veranlagt ist, die Information über den Imputationsprozess zu speichern E dieser Datensatz, um auf Konvergenz zu überprüfen. Optionen, die für eine bestimmte Methode relevant sind, gehen mit der Methode, innerhalb der Klammern, aber nach einem Komma zB mlogit, aug Optionen, die für den Imputationsprozess als Ganzes relevant sind, wie bei Frauen am Ende gehen , Nach dem Kommando. Für unser Beispiel würde der Befehl sein. mi behaupten verketteten Logit städtischen mlogit Rennen ologit edu pmm exp Lohn, fügen Sie 5 rseed 4409 von female. Hinweis, dass dies nicht enthalten eine savetrace Option As von diesem Schreiben, von und Savetrace kann nicht zur gleichen Zeit verwendet werden, vermutlich weil es eine Trace-Datei für jeden von der Gruppe benötigt Stata ist sich dieses Problems bewusst und wir hoffen, dass dies bald geändert wird Für die Zwecke dieses Artikels werden wir die Option entfernen, wenn es kommt Zeit, um die Verwendung der Trace-Datei zu veranschaulichen Wenn dieses Problem in Ihrer Forschung auftaucht, sprechen Sie mit uns über Work-arounds. Choosing die Anzahl der Imputationen. Es gibt einige Meinungsverschiedenheiten zwischen Behörden darüber, wie viele Imputationen sind ausreichend Einige sagen 3-10 in fast Alle Umstände, die Stata-Dokumentation schlägt mindestens 20 vor, während White, Royston und Wood argumentieren, dass die Anzahl der Imputationen in etwa gleich dem Prozentsatz der Fälle mit fehlenden Werten sein sollte. Jedoch sind wir uns kein Argument bewusst, dass die Anzahl der Imputationen verursachen jemals Probleme, nur dass der marginale Nutzen einer anderen Anregung asymptotisch Null annähert. Die Erhöhung der Anzahl der Imputationen in Ihrer Analyse nimmt im Wesentlichen keine Arbeit an Ihrem Teil. Ändern Sie einfach die Nummer in der Add-Option auf etwas Größer Andererseits kann es sein Eine Menge Arbeit für den Computer mehrere Imputation hat viele Forscher in die Welt der Arbeitsplätze eingeführt, die Stunden oder Tage zu laufen nehmen Sie können in der Regel davon ausgehen, dass die Menge an Zeit erforderlich ist proportional zu der Anzahl der Imputationen verwendet, zB wenn eine Datei dauert Zwei Stunden, um mit fünf Imputationen zu laufen, wird es wahrscheinlich etwa vier Stunden dauern, um mit zehn Imputationen zu laufen. Also hier ist unser Vorschlag. Starten Sie mit fünf im Putionen das niedrige Ende von dem, was s weitgehend als legitim. Work auf Ihrem Forschungsprojekt, bis Sie vernünftig zuversichtlich, dass Sie die Analyse in seiner endgültigen Form haben, ist sicher, alles mit do Dateien zu tun, so dass Sie es wieder laufen können. Wie auch lange die Prozess nimmt von der Anrede bis zur endgültigen Analyse. Beachten Sie, wie viel Zeit Sie zur Verfügung haben und entscheiden, wie viele Imputationen können Sie sich leisten, mit der Faustregel, dass die Zeit erforderlich ist proportional zur Anzahl der Imputationen Wenn möglich, machen Sie die Anzahl der Imputationen Ungefähr gleich dem Prozentsatz der Fälle mit fehlenden Daten ein High-End-Schätzung von was s erforderlich Erlauben Sie Zeit, sich zu erholen, wenn Dinge falsch gehen, wie sie in der Regel tun. Erhöhen Sie die Anzahl der Imputationen in Ihrem do-Datei und starten Sie es Die do-Datei läuft, wie schreiben Sie Ihre Papier Hinzufügen von Imputationen sollten nicht ändern Sie Ihre Ergebnisse deutlich und in dem unwahrscheinlichen Fall, dass sie tun, betrachten Sie sich glücklich, dass herausgefunden, dass vor der Veröffentlichung. Speedin G up der Imputation Process. Multiple Imputation hat viele Forscher in die Welt der Jobs, die Stunden, Tage oder sogar Wochen zu laufen in der Regel ist es nicht wert, Ihre Zeit zu machen, um Stata-Code schneller laufen, aber mehrere Anrede kann eine Ausnahme sein. Verwenden Sie den schnellsten Computer, der Ihnen zur Verfügung steht Für SSCC-Mitglieder bedeutet das Lernen, Aufträge auf Linstat auszuführen, ist der SSCC-Linux-Computing-Cluster Linux nicht so schwierig wie Sie vielleicht denken, dass Linstat Anweisungen hat. Mehrere Imputation beinhaltet mehr Lesen und Schreiben auf Festplatte als Die meisten Stata-Befehle Manchmal beinhaltet dies das Schreiben von temporären Dateien im aktuellen Arbeitsverzeichnis Verwenden Sie den schnellsten Speicherplatz, der Ihnen zur Verfügung steht, sowohl für Ihren Datensatz als auch für das Arbeitsverzeichnis. Im Allgemeinen ist der lokale Speicherplatz schneller als der Festplattenspeicherplatz und auf Linstat ramdisk Ein Verzeichnis, das tatsächlich im RAM gespeichert ist, wird schneller als der lokale Speicherplatz sein. Auf der anderen Seite möchten Sie nicht dauernd Datensätze überall speichern, aber netwo Rk Speicherplatz So betrachten Sie Ihre do-Datei tun so etwas wie die folgenden. Windows Winstat oder Ihren eigenen PC. This gilt, wenn Sie wieder mit unterstellten Daten als auch Wenn Ihr Datensatz ist groß genug, dass die Arbeit mit ihm nach der Imputation ist langsam, die oben Prozedur kann helfen. Überprüfen für Konvergenz. MICE ist ein iterativer Prozess In jeder Iteration, mi verurteilen verkettet erste Schätzungen der Imputation Modell, mit sowohl die beobachteten Daten und die unterstellten Daten aus der vorherigen Iteration Es zieht dann neue unterstellte Werte aus den resultierenden Verteilungen Hinweis Dass also jede Iteration eine gewisse Autokorrelation mit der vorherigen Imputation hat. Die erste Iteration muss ein besonderer Fall sein, mi veranlasste zuerst die Schätzung des Imputationsmodells für die Variable mit den wenigsten fehlenden Werten, die nur auf den beobachteten Daten beruhen und zeichnet Unterstellte Werte für diese Variable Es schätzt dann das Modell für die Variable mit den nächstgelegenen fehlenden Werten, wobei sowohl die beobachteten Werte als auch die unterstellten Werte o verwendet werden F die erste Variable, und verläuft ähnlich für den Rest der Variablen So ist die erste Iteration oft untypisch, und weil Iterationen korreliert sind, kann sie auch nachfolgende Iterationen atypisch machen. Um dies zu vermeiden, verlässt sich mi veranlaßt durch Default durch zehn Iterationen Jeder unterstellte Datensatz, den Sie anfordern, nur die Ergebnisse der zehnten Iteration sparen Die ersten neun Iterationen heißen die Burn-In-Periode Normalerweise ist dies genügend Zeit für die Effekte der ersten Iteration, um unbedeutend zu werden und für den Prozess zu konvergieren Stationärer Zustand Allerdings sollten Sie auf Konvergenz zu überprüfen und erhöhen Sie die Anzahl der Iterationen, wenn nötig, um sicherzustellen, dass es mit der burnin Option. To dies zu tun, untersuchen Sie die Trace-Datei gespeichert von mi verketten verkettet Es enthält die mittlere und Standardabweichung jeder unterstellten Variable in Jede Iteration Diese werden zufällig variieren, aber sie sollten keinen Trend zeigen Eine einfache Möglichkeit zu überprüfen ist mit tsline, aber es erfordert die Umgestaltung der Daten first. Our bevorzugt Imputation-Modell verwendet, so kann es nicht speichern eine Trace-Datei So werden wir entfernen, um für den Augenblick Wir werden auch erhöhen die Burnin-Option auf 100 so ist es einfacher zu sehen, was eine stabile Spur aussieht Wir werden dann verwenden Umform und tsline zu überprüfen Konvergenz. preserve mi veranlasste verkettete logit städtische mlogit Rasse ologit edu pmm exp Lohn weiblich, fügen Sie 5 Reseed 88 Savetrace Extrace, ersetzen burnin 100 Verwendung extrace, ersetzen Sie umgestalten breite mittlere sd, i iter jm tsset iter tsline expmean, Titel Mittler von Imputed Values of Erleben Sie Anmerkung Jede Zeile ist für eine Imputation Legende aus Diagramm Export tsline expsd, Titel Standard Abweichung von Imputed Werte der Erfahrung Hinweis Jede Zeile ist für eine Imputation Legende aus Graph Export ersetzen Wiederherstellung. Die resultierenden Graphen zeigen keine offensichtlichen Probleme. Wenn Sie Sehen Sie die Zeichen, dass der Prozess nach den voreingestellten zehn Iterationen nicht konvergiert werden kann, erhöhen Sie die Anzahl der durchgeführten Iterationen, bevor Sie die unterstellten Werte mit der Burnin-Option speichern. Wenn die Konvergenz niemals achi ist Dies deutet auf ein Problem mit dem Imputationsmodell hin. Überprüfen der Imputed Values. Nach dem Imputieren sollten Sie überprüfen, ob die unterstellten Daten den beobachteten Daten entsprechen. Leider gibt es keinen formalen Test, um festzustellen, was genau genug ist. Natürlich, wenn die Daten MAR sind Aber nicht MCAR, die unterstellten Daten sollten systematisch von den beobachteten Daten abweichen Ironischerweise sind die weniger fehlenden Werte, die Sie zurechnen müssen, je mehr Variation Sie zwischen den unterstellten Daten und den beobachteten Daten und zwischen den Imputationen sehen. Für binäre und kategorische Variablen, Vergleichstabelle Für kontinuierliche Variablen, Vergleichsmittel und Standardabweichungen ist ein guter Ausgangspunkt, aber man sollte sich die Gesamtform der Verteilung anschauen. Dafür schlagen wir Kerndichte-Graphen oder vielleicht Histogramme vor. Betrachten Sie jede Imputation separat, anstatt alle zu bündeln Die unterstellten Werte, so dass Sie sehen können, ob einer von ihnen schief gegangen ist. Das mi xeq Präfix sagt Stata, um den nachfolgenden Befehl an jedes im zu übergeben Putation einzeln Es gilt auch für die ursprünglichen Daten, die nullte Imputation So. mi xeq Tab Rennen. Wird Ihnen sechs Häufigkeit Tabellen ein für die ursprünglichen Daten und eine für jede der fünf Imputationen. Jedoch wollen wir die beobachteten Daten vergleichen Zu den unterstellten Daten, nicht den gesamten Datensatz Dies erfordert das Hinzufügen einer if Bedingung zu den Tab-Befehlen für die Imputationen, aber nicht die beobachteten Daten Hinzufügen einer Zahl oder numlist, um mi xeq auf bestimmte imputations. mi xeq 0 tab Race mi zu haben Xeq 1 5 Tab Rennen, wenn missrace. This erstellt Frequenz Tabellen für die beobachteten Werte der Rasse und dann die unterstellten Werte in allen fünf Imputationen. Wenn Sie eine beträchtliche Anzahl von Variablen zu untersuchen, können Sie leicht Schleife über sie. foreach var von varlist städtischen Rennen edu mi xeq 0 tab var mi xeq 1 5 tab var wenn miss var. For Ergebnisse siehe die Protokolldatei. Running Summary Statistiken über kontinuierliche Variablen folgt dem gleichen Prozess, aber das Erstellen von Kernel Dichte Graphen fügt eine Komplikation, die Sie entweder speichern müssen Grafische oder geben Sie sich eine Chance, um sie zu sehen mi xeq kann mehrere Befehle für jede Anrede ausführen nur Platz sie alle in einer Zeile mit einem Semikolon am Ende von jedem Dies wird nicht funktionieren, wenn Sie das allgemeine Ende des Befehls geändert haben Trennzeichen zu einem Semikolon Der Schlafbefehl sagt, dass Stata für eine bestimmte Zeitspanne pausiert, gemessen in Millisekunden. mi xeq 0 Kddel Lohnschlaf 1000 Meilen xeq 1 5 Kddel Lohn, wenn Miss var Schlaf 1000.Geben, das können alle automatisiert werden. foreach var Varlist Lohn exp mi xeq 0 Summe var mi xeq 1 5 Summe var wenn fehl var mi xeq 0 kdentität var schlaf 1000 mi xeq 1 5 kdigkeit var wenn vermisse var schlaf 1000.Spielen der grafiken erweist sich als etwas schwieriger, weil man braucht Um den Graphen von jeder Anrede einen anderen Dateinamen zu geben Leider können Sie nicht auf die Imputationsnummer innerhalb von mi xeq zugreifen. Allerdings können Sie eine Forvalues-Schleife über Imputationsnummern machen, dann haben Sie mi xeq auf jeden von ihnen. forval i 1 5 mi xeq i Kdensity exp wenn missexp grafik export ersetzen. Integ Bewertung dieser mit der vorherigen Version gibt. foreach var von varlist Lohn exp mi xeq 0 Summe var mi xeq 1 5 Summe var, wenn Miss var mi xeq 0 kditude var graph export ersetzen forval i 1 5 mi xeq i kdensity var if miss var graph export Ersetzen. Für die Ergebnisse, siehe die Protokolldatei. Es ist störend, dass in allen Imputationen der Mittelwert der unterstellten Werte des Lohnes höher ist als der Mittelwert der beobachteten Werte des Lohnes und der Mittelwert der unterstellten Werte von exp ist niedriger als der Mittelwert Der beobachteten Werte von exp Wir haben keinen Beweis dafür gefunden, dass die Daten MAR sind, aber nicht MCAR, also erwarten wir, dass die Mittel der unterstellten Daten um die Mittel der beobachteten Daten gruppiert werden. Es gibt keinen formalen Test, um uns endgültig zu sagen, ob Dies ist ein Problem oder nicht. Allerdings sollte es Verdacht erheben, und wenn die endgültigen Ergebnisse mit diesen unterstellten Daten von den Ergebnissen der vollständigen Fallanalyse abweichen, stellt sich die Frage, ob der Unterschied auf Probleme mit dem Imputationsmodell zurückzuführen ist Überarbeitet 8 23 2012.A Neue Imputationsmethode für unvollständige binäre Daten. Munevver Mine Subasi a. Ersoy Subasi b. Martin Anthony c. Peter L Hammer 1.a Abteilung für Mathematische Wissenschaften, Florida Institute of Technology, 150 W University Blvd Melbourne, FL 32901, USA. b RUTCOR , Rutgers Center for Operations Research, 640 Bartholomew Road, Piscataway, NJ 08854, USA. c Abteilung für Mathematik, London School of Economics und Politische Wissenschaften, Houghton Street, London WC2A 2AE, UK. Received 17. Oktober 2009, Überarbeitet am 28. August 2010, Akzeptiert am 31. Januar 2011, online verfügbar 21 März 2011. Datenanalyse Probleme, bei denen die Daten durch Vektoren von reellen Zahlen dargestellt werden, ist es oft der Fall, dass einige der Datenpunkte fehlende Werte haben, was bedeutet, dass eine oder mehrere der Einträge des Vektors, der den Datenpunkt beschreibt, wird nicht beobachtet In diesem Beitrag schlagen wir einen neuen Ansatz für die Anrechnung von fehlenden binären Werten vor. Die Technik, die wir einführen, setzt eine Ähnlichkeitsmaßnahme ein, die von Anthony und Hammer 20 eingeführt wurde 06 1 Wir vergleichen experimentell die Leistungsfähigkeit unserer Technik mit denen, die auf der üblichen Hamming-Distanzmessung und der Mehrfach-Imputation basieren. Boolean Ähnlichkeitsmaß.1 Einleitung. In praktischen maschinellen Lern - oder Datenanalyseproblemen, bei denen die zu analysierenden Daten aus Vektoren von real bestehen Zahlen ist es oft der Fall, dass einige der Datenpunkte fehlende Werte haben werden, was bedeutet, dass einer oder mehrere der Einträge des Vektors, der den Datenpunkt beschreibt, nicht bekannt ist. Es ist natürlich zu versuchen, diese fehlen zu füllen oder zu begehen Werte, so dass man als vollständige Daten zur Arbeit von Dies kann notwendig sein, zum Beispiel, so dass die Daten verwendet werden können, um von der Verwendung von statistischen oder maschinellen Lerntechniken lernen Dies ist ein klassisches statistisches und maschinelles Lernproblem und viele Techniken wurden eingesetzt . Da in realen Anwendungen fehlende Daten eher ein Ärgernis als der primäre Fokus sind, kann eine Imputationsmethode mit guten Eigenschaften vorzuziehen, die kompliziert ist Zu implementieren und effizienter, aber problemspezifisch. Einige Ansätze zur Handhabung fehlender Daten einfach ignorieren oder löschen Punkte, die unvollständig sind Klassische Ansätze dieser Art sind liste-weise Löschung LD und paarweise Löschen PD Aufgrund ihrer Einfachheit sind sie weit verbreitet zu sehen , Z. B. 15 und neigen dazu, der Standard für die meisten statistischen Pakete zu sein. Allerdings kann die Anwendung dieser Techniken zu einem großen Verlust von Beobachtungen führen, was zu Datensätzen führen kann, die zu klein sind, wenn der Bruchteil der fehlenden Werte hoch ist und Vor allem, wenn der ursprüngliche Datensatz selbst klein ist. Einer der schwierigsten Entscheidungen, die sich mit Forschern befassen, wählt die am besten geeignete Methode, um fehlende Daten während der Analyse zu behandeln. Wenig und Rubin 13 schlägt vor, dass naive oder nicht prinzipierte Anrechnungsmethoden mehr Probleme verursachen können, als sie lösen Die häufigsten Daten-Imputation Techniken sind die mittlere Anrede auch als bedingungslose mittlere Anrechnung bezeichnet, Regression Anrede RI auch erwähnt Als bedingte mittlere Anrede, Hot-Deck-Imputation HDI und multiple Imputation MI Wir bemerken, dass die mittlere Imputation und ähnliche Ansätze im Sinne von Rubin 16 nicht richtig sind und daher nicht empfohlen werden. In den meisten Situationen sind einfache Techniken zur Handhabung fehlender Daten wie zB Komplette Fallanalyseverfahren LD und PD, Gesamt-MI und die fehlende Indikatormethode produzieren voreingenommene Ergebnisse, wie in 5 12 16 18 und 21 dokumentiert Eine anspruchsvollere Technik MI gibt viel bessere Ergebnisse 5 12 16 18 und 21.MI 16 ist eine statistische Technik, bei der jeder fehlende Wert durch mehrere kk-Werte ersetzt wird, wobei kk ausgefüllte Datensätze für die Analyse erzeugt werden. Die Unterschiede zwischen diesen Datensätzen spiegeln die Unsicherheit der fehlenden Werte wider. Jeder unterstellte Datensatz wird nach Standard-Vollständigkeitsdaten analysiert Ignorieren die Unterscheidung zwischen realen und rechnerischen Werten Die kk - Ergebnisse werden dann so kombiniert, dass die Variabilität durch Zurechnung eingebaut werden kann Die Ergebnisse dieser kombinierten Analysen liefern nicht nur unvoreingenommene Schätzer für Parameter, sondern adäquat die Ungewissheit, die aufgrund der fehlenden Daten einhergeht, dh gültige Schätzungen der Abweichungen dieser Parameterschätzungen zu erzeugen. Rubin 16 gab eine umfassende Behandlung von MI und adressierte potentielle Verwendungen der technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2014, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2014, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2014, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2014, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.

Billig Beelitz (Brandenburg)

Search This Blog

Fehlende Daten Imputation Binär Optionen

Comments

Post a Comment

Popular posts from this blog

Aktien Index Futures Und Optionen

Forex Trading Charts Für Binäre Optionen

Besteuerung Des Plus Werte Sur Stock Optionen