Monday 17 July 2017

Mit Großen Daten Sets In Stata Forex Arbeiten


Stata: Datenanalyse und statistische Software Kevin S. Turner, StataCorp Stellen Sie zunächst sicher, dass Sie genügend Speicher installiert haben oder genügend virtuellen Speicher zugelassen haben. Wenn Sie und immer noch diese Fehlermeldung haben, lesen Sie weiter. Unter allen gängigen 32-Bit-Windows-Betriebssystemen (Windows 8, 7, Vista, XP, 2000, NT, ME, 98, 95) ist der gesamte verfügbare Adressraum für jede Anwendung 2.1 GB. Wenn Sie ein Dataset größer als 2.1 GB haben, können Sie es nicht auf Stata für Windows laden. Dies ist lediglich eine Einschränkung des Betriebssystems. Leider können Sie, selbst wenn Ihr Datenbestand unter dem 2,1-GB-Limit liegt, Schwierigkeiten beim Laden in Stata haben. Der Fehler liegt wieder darin, wie Windows den 2.1-GB-Adressraum verwaltet. Wenn eine typische Anwendung geladen wird, gibt es normalerweise mehrere Bibliotheken (oder DLLs), die ebenfalls geladen werden. Diese Bibliotheken werden üblicherweise in den 2.1-GB-Speicherplatz am oberen Ende geladen, jedoch nicht in einer deterministischen Reihenfolge. Microsoft hat uns versichert, dass es keine Möglichkeit gibt, diese Bibliotheken daran zu hindern, in beliebige Adressen zu laden und so den verfügbaren Speicherplatz zu zersplittern. Wenn Stata versucht, eine Datenmenge zu laden, fordert es von Windows den größten angrenzenden Speicherplatz im 2.1-GB-Bereich an. Je nachdem, wo Windows die ersten Bibliotheken geladen hat, kann dies 1,8 GB, 1,3 GB oder sogar weniger sein. Sie können überrascht sein, zu finden, dass ein 1.4-GB-Dataset ein Mal geladen, aber nicht später geladen werden. Dies ist einfach eine unglückliche Nebenwirkung der Windows-Speicherverwaltung. Ab Stata 11.1 wurden einige der Abhängigkeiten von externen DLLs entfernt, wodurch die Speicherfragmentierung verringert und die für Stata verfügbare Speichermenge erhöht wurde. Wenn Sie 32-Bit-Windows XP verwenden und Sie immer noch Probleme beim Zuweisen von Speicher haben, sollten Sie ldquoMemory Zuweisung in Windows XPrdquo lesen. Inzwischen fragen Sie sich, was Ihre Alternativen sind. Seit Juli 2007 stehen mehrere Betriebssystem-Alternativen mit 64-Bit-Unterstützung zur Verfügung. Sehen Sie unsere Liste der mit Stata kompatiblen Betriebssysteme. Die 64-Bit-Plattform ermöglicht es Ihnen, mit großen Datensätzen zu arbeiten. Je nach Betriebssystem sollten Sie in der Lage sein, so viel Speicher wie möglich auf der Maschine zuzuordnen, abzüglich der Systemanforderungen. Um diese Technologie nutzen zu können, benötigen Sie eine 64-Bit-kompatible Hardware, ein 64-Bit-Betriebssystem und natürlich eine 64-Bit-Version von Stata. Als letztes Mittel können Sie eventuell unnötige Daten aus Ihrem Dataset beschneiden oder das Dataset in zwei Dateien teilen. Möglicherweise möchten Sie die zweite Syntax des Befehls use verwenden, um nur die beobachteten Variablen zu lesen. Zum Beispiel: Abhängig von Ihren Daten und Analysen, ist dies möglicherweise nicht möglich und wird nur als Vorschlag angeboten. Arbeiten mit großen Dateien Stata erfordert, dass die Datendatei, die Sie analysieren möchten, passt in den Speicher. Dies bedeutet, dass das Arbeiten mit Dateien, die sich der Größe des Speichers auf Ihrem Computer nähern, eine Herausforderung sein kann. Glücklicherweise hat Stata eine Reihe von netten Tools für den Umgang mit großen Dateien geliefert. Wir überprüfen sie hier. Beschreiben mit Manchmal können Sie nur sehen, welche Variablen in der großen Datei sind. Sie müssen nicht die gesamte Datei verwenden, nur um eine Liste von Variablen und deren Labels zu sehen. Stattdessen können Sie eingeben, wo bigfile. dta der Name der Datei ist, die Sie beschreiben möchten. Stata gibt Ihnen alle Informationen über die Variablen, die Sie von dem beschreiben Befehl erwarten würden. Idealerweise können Sie eine Teilmenge von Variablen oder eine Teilmenge von Beobachtungen auswählen, nur indem Sie auf beschreiben. Lookfor und lookforall Wenn die große Datei eine Menge von Variablen hat, wird die Beschreibung mit Befehl geben Ihnen eine Menge von Text zu suchen. Der lookfor-Befehl durchsucht die Variablennamen und Beschriftungen für jede Zeichenfolge, die Sie liefern, und listet die Variablennamenlabels auf, die diese Zeichenfolge enthalten. Wenn Sie mehrere Dateien zu suchen haben, versuchen Sie lookforall. Dieser Befehl ist in den SSC-Archiven verfügbar. Es durchsucht alle Stata-Datendateien im aktuellen Verzeichnis (und dessen Unterverzeichnisse, wenn Sie danach fragen) nach einem beliebigen String, den Sie suchen möchten. Der String kann im Variablennamen oder Label stehen. Beispielsweise möchten Sie vielleicht die Variable mit dem Sampling-Gewicht zu finden, so dass Sie versuchen, die Suche nach dem String-Gewicht. Zuerst wechseln Sie die Verzeichnisse (cd) in das Verzeichnis mit der Datei oder den Dateien, die Sie durchsuchen möchten, und suchen Sie dann nach der Zeichenfolge: Der Befehl listet den Namen jeder Datei auf, die diese Zeichenfolge zusammen mit den Namen aller Variablen enthält, die diese Zeichenfolge in ihrem Namen enthalten Oder Etikett. Es gibt dann eine klickbare Link zu jeder Datei mit einem Spiel. Dieser Befehl hat viele schöne Features. Siehe Hilfe lookforall bei CPC, oder Sie können es auf Ihrem Standalone-Computer mit ssc installieren lookforall herunterladen. Use list ofvariables using Sie können eine Teilmenge von Variablen aus bigfile. dta in den Speicher mit diesem Formular des Befehls use: Nach Betrachten der Ergebnisse der beschreiben mit oder lookfor. Entscheiden Sie, welche Variablen Sie für Ihre Analyse benötigen, und listen Sie sie im Befehl use auf. Sie können eine kleine Probe von Beobachtungen aus einer großen Datei mit dieser Version des Befehls: Dies ermöglicht es Ihnen, ein Beispiel der Variablen sorgfältiger zu betrachten, vielleicht mehr lernen, als Sie aus dem Befehl beschreiben könnte. Angenommen, Sie sind nur daran interessiert, Menschen in einem bestimmten Alter zu studieren. Natürlich können Sie beliebige oder alle dieser Funktionen in demselben Befehl kombinieren. Zufällige Stichprobe Vielleicht möchten Sie Ihr Modell auf einer kleinen Zahl von Beobachtungen testen. Wenn Sie diese Beobachtungen nach dem Zufallsprinzip auswählen, können Sie einen etwas repräsentativeren Satz erhalten, als zum Beispiel diejenigen, die am Anfang der Datei stehen. Sie können die Runiform-Funktion verwenden, um beliebige Prozent der Beobachtungen auszuwählen, die Sie wählen. Die Funktion gibt einen Wert zwischen 0 und 1 zurück, sodass Sie, um ein 10-Sample zu erhalten, Beobachtungen verwenden können, wenn runiforme Werte zwischen 0 und 0,1 oder ein beliebiger anderer Längenbereich 0.1 liegen:

No comments:

Post a Comment