Wednesday 22 November 2017

Gewichtet Gleitend Durchschnittlich Sas


Ab Release 6.08 des SAS-Systems kann PROC EXPAND in der SASETS-Software verwendet werden, um eine Vielzahl von Datenumwandlungen vorzunehmen. Diese Transformationen beinhalten: Leads, Lags, gewichtete und ungewichtete gleitende Durchschnitte, bewegte Summen und kumulative Summen, um nur einige zu nennen. Viele neue Transformationen wurden in Release 6.12 hinzugefügt, einschließlich separater Spezifikationen für zentrierte und rückwärts bewegte Durchschnitte. Diese neuen Transformationen machten es notwendig, die Syntax für einige der vor Release 6.12 unterstützten Transformationen zu ändern. Beispiele für die Angabe der Syntax für zentrierte und rückwärts bewegte Mittelwerte mit Release 6.11 und früher und Release 6.12 und höher sind nachfolgend aufgeführt. PROC EXPAND kann entweder einen zentrierten gleitenden Durchschnitt oder einen rückwärts gleitenden Durchschnitt berechnen. Ein 5-Perioden-zentrierter gleitender Durchschnitt wird berechnet durch Mittelung von insgesamt 5 aufeinanderfolgenden Werten der Reihe (der aktuelle Periodenwert zusätzlich zu den beiden unmittelbar vorhergehenden Werten und zwei unmittelbar nach dem aktuellen Wert folgenden Werten). Ein 5-fach rückwärts gleitender Durchschnitt wird berechnet, indem der aktuelle Periodenwert mit den Werten aus den 4 unmittelbar vorhergehenden Perioden gemittelt wird. Die folgende Syntax veranschaulicht, wie die TRANSFORM (MOVAVE n) - Spezifikation verwendet wird, um einen 5-Perioden-Zentrier-Gleitender Durchschnitt mit Release 6.11 oder früher zu berechnen: Um einen n-Perioden-Rückwärts-Gleitender Durchschnitt mit Release 6.11 oder früher zu berechnen, verwenden Sie die TRANSFORM (MOVAVE N LAG k) Spezifikation, wobei k (n-1) 2, wenn n ungerade ist oder wo k (n-2) 2 ist, wenn n gerade ist. Beispielsweise veranschaulicht die folgende Syntax, wie ein 5-fach rückwärts gleitender Durchschnitt mit Release 6.11 oder früher berechnet werden kann. Die folgende Syntax veranschaulicht, wie die TRANSFORM (CMOVAVE n) - Spezifikation verwendet wird, um einen 5-Perioden-zentrierten gleitenden Durchschnitt mit Release 6.12 oder zu berechnen Später: Die folgende ähnliche Syntax veranschaulicht, wie die TRANSFORM (MOVAVE n) - Spezifikation verwendet wird, um einen 5-fach rückwärts gleitenden Durchschnitt mit Release 6.12 oder höher zu berechnen: Weitere Informationen finden Sie unter Transformationsoperationen im EXPAND-Kapitel des SASETS-Benutzerhandbuchs. Wenn Sie keinen Zugriff auf SASETS haben, können Sie einen gleitenden Durchschnitt im DATA-Schritt berechnen, wie in diesem Beispielprogramm dargestellt. Betriebssystem und Release InformationCompute einen gleitenden Durchschnitt in SAS Dieser Beitrag wurde freundlicherweise von der DO Loop beigetragen - dort hingehen, um zu kommentieren und den ganzen Beitrag zu lesen. Eine gemeinsame Frage zu SAS Diskussionsforen ist, wie man einen gleitenden Durchschnitt in SAS berechnet. Dieser Artikel zeigt, wie man PROC EXPAND verwendet und Links zu Artikeln enthält, die den DATA-Schritt oder Makros verwenden, um gleitende Mittelwerte in SAS zu berechnen. In einem früheren Beitrag erklärte ich, wie man einen gleitenden Durchschnitt definiert und ein Beispiel gibt, das hier gezeigt wird. Die Grafik ist ein Streudiagramm des monatlichen Schlusskurses für IBM Lager über einen Zeitraum von 20 Jahren. Die drei Kurven bewegen sich im Durchschnitt. Die 8220MA8221 Kurve ist ein Fünfpunkt (Schleppen) gleitender Durchschnitt. Die 8220WMA8221-Kurve ist ein gewichteter gleitender Durchschnitt mit den Gewichten 1 bis 5. (Bei der Berechnung des gewichteten gleitenden Mittelwertes zum Zeitpunkt t hat der Wert yt das Gewicht 5, der Wert y t-1 hat das Gewicht 4, der Wert y t-2 hat ein Gewicht 3 und so weiter.) Die 8220EWMA8221-Kurve ist ein exponentiell gewichteter gleitender Durchschnitt mit Glättungsfaktor alpha 0.3. Dieser Artikel zeigt, wie die EXPAND-Prozedur in der SASETS-Software verwendet wird, um einen einfachen gleitenden Durchschnitt, einen gewichteten gleitenden Durchschnitt und einen exponentiell gewichteten gleitenden Durchschnitt in SAS zu berechnen. Für einen Überblick über PROC EXPAND und seine vielen Fähigkeiten empfehle ich das Lesen der kurzen Papier 8220Stupid Human Tricks mit PROC EXPAND8221 von David Cassell (2010). Da nicht jeder SAS-Kunde eine Lizenz für SASETS-Software hat, gibt es Links am Ende dieses Artikels, die zeigen, wie man einen einfachen gleitenden Durchschnitt in SAS mit dem DATA-Schritt berechnet. Erstellen Sie eine Beispiel-Zeitreihe Bevor Sie einen gleitenden Durchschnitt in SAS berechnen können, benötigen Sie Daten. Der folgende Aufruf von PROC SORT erstellt eine Beispiel-Zeitreihe mit 233 Beobachtungen. Es gibt keine fehlenden Werte. Die Daten werden nach der Zeitvariable T verrechnet. Die Variable Y enthält den monatlichen Schlusskurs der IBM Aktie während eines Zeitraums von 20 Jahren. Berechnen Sie einen gleitenden Durchschnitt in SAS mit PROC EXPAND PROC EXPAND berechnet viele Arten von gleitenden Durchschnitten und andere rollende Statistiken, wie z. B. rollende Standardabweichungen, Korrelationen und kumulative Summen von Quadraten. In der Prozedur identifiziert die ID-Anweisung die Zeitvariable T. Die Daten sollten nach der ID-Variablen sortiert werden. Die CONVERT-Anweisung gibt die Namen der Ein - und Ausgangsvariablen an. Die Option TRANSFORMOUT gibt die Methode und die Parameter an, die zur Berechnung der Rollstatistik verwendet werden. Das Beispiel verwendet drei CONVERT-Anweisungen: Die erste gibt an, dass MA eine Ausgangsvariable ist, die als (rückwärts) gleitender Durchschnitt berechnet wird, der fünf Datenwerte (k 5) verwendet. Die zweite CONVERT-Anweisung gibt an, dass WMA eine Ausgangsvariable ist, die ein gewichteter gleitender Durchschnitt ist. Die Gewichte werden nach dem Verfahren automatisch standardisiert, so dass die Formel WMA (t) (5 yt 4 y t-1 3 y t-2 2 y t-3 1 y t-4) ist. 15. Die dritte CONVERT-Anweisung gibt an, dass EWMA Ist eine Ausgangsvariable, die ein exponentiell gewichteter gleitender Durchschnitt mit Parameter 0.3 ist. Beachten Sie die Option METHODNONE auf der PROC EXPAND-Anweisung. Standardmäßig passt die EXPAND-Prozedur zu kubischen Spline-Kurven zu den nichtmissenden Werten von Variablen. Die METHODNONE-Optionen sorgen dafür, dass die Rohdatenpunkte zur Berechnung der gleitenden Mittelwerte und nicht für interpolierte Werte verwendet werden. Visualisierung von gleitenden Durchschnitten Eine wichtige Verwendung eines gleitenden Durchschnitts ist es, eine Kurve auf einem Streudiagramm der Rohdaten zu überlagern. Damit können Sie kurzfristige Trends in den Daten visualisieren. Der folgende Aufruf von PROC SGPOT erstellt den Graphen an der Oberseite dieses Artikels: Um diesen Artikel so einfach wie möglich zu halten, habe ich nicht diskutiert, wie man fehlende Daten bei der Berechnung von Bewegungsdurchschnitten behandelt. In der Dokumentation zu PROC EXPAND finden Sie verschiedene Fragen zu fehlenden Daten. Insbesondere können Sie mit der METHOD-Option festlegen, wie man fehlende Werte interpoliert. Sie können auch Transformationsoptionen verwenden, um zu steuern, wie Bewegungsdurchschnitte für die ersten Datenpunkte definiert werden. Erstellen Sie einen gleitenden Durchschnitt in SAS, indem Sie den DATA-Schritt verwenden Wenn Sie keine SASETS-Software haben, zeigen die folgenden Referenzen, wie Sie den SAS-DATA-Schritt verwenden, um einfache gleitende Mittelwerte mit der LAG-Funktion zu berechnen. Die SAS Knowledge Base liefert den Artikel 8220Compute den gleitenden Durchschnitt einer Variablen.8221 Premal Vora (2008) vergleicht den DATA-Schritt mit dem PROC EXPAND-Code im Papier 8220Easy Rolling Statistics mit PROC EXPAND.8221 Ron Cody enthält ein SAS-Makro in mehreren seiner Bücher Zum Beispiel, Cody8217s Sammlung von beliebten SAS-Programmierung Aufgaben und wie man sie anpacken bietet ein Makro namens movingAve. Sie können das Makro als Teil des 8220Example Code und Data8221 für das Buch herunterladen. Der DATA-Schritt, der entworfen ist, um eine Beobachtung zu einem Zeitpunkt zu behandeln, ist nicht das beste Werkzeug für Zeitreihenberechnungen, die natürlich mehrere Beobachtungen (Verzögerungen und Leads) erfordern. In einem zukünftigen Blogpost werde ich zeigen, wie man SASIML-Funktionen schreibt, die einfache, gewichtete und exponentiell gewichtete Bewegungsdurchschnitte berechnen. Die Matrixsprache in PROC IML ist einfacher zu arbeiten für Berechnungen, die Zugriff auf mehrere Zeitpunkte erfordern. ffTheDoLoopdyIl2AUoC8zA ffTheDoLoopdqj6IDK7rITs ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: gIN9vFwOqvQ ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: VsGLiPBpWU ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: F7zBnMyn0Lo ffTheDoLoopdl6gmwiTKsz0 13 Jeder Punkt auf dem Diagramm zeigt den Wert der gleichmäßig gewichteten gleitenden Durchschnitt für diese Untergruppe. Der gleitende Durchschnitt für die i-te Untergruppe (A i) ist definiert, wobei w die Spanne oder die Anzahl der Begriffe des gleitenden Durchschnitts ist. Sie können die Spanne mit der SPAN-Option in der MACHART-Anweisung oder mit dem Wert SPAN in einem LIMITS-Datensatz angeben. Zentrale Zeile 13 Standardmäßig zeigt die zentrale Zeile eines gleitenden Durchschnittsdiagramms eine Schätzung an, die berechnet wird. Wenn Sie einen bekannten Wert () angeben, gibt die Mittellinie den Wert von. 13 Sie können die Grenzwerte auf folgende Weise berechnen: als vorgegebenes Vielfaches (k) des Standardfehlers von A i oberhalb und unterhalb der Mittellinie. Die Standardgrenzen werden mit k 3 berechnet (diese werden als Grenzwerte bezeichnet). Als Wahrscheinlichkeitsgrenzen, die in Bezug auf eine bestimmte Wahrscheinlichkeit definiert sind, dass A i die Grenzen überschreitet Die folgende Tabelle stellt die Formeln für die Grenzwerte dar: Tabelle 21.19: Grenzwerte für bewegte durchschnittliche Schaubilder 13 Diese Formeln gehen davon aus, dass die Daten normalerweise verteilt sind. Wenn Standardwerte vorliegen und in Tabelle 21.19 für ersetzen und ersetzen können. Beachten Sie, dass die Grenzen mit n i und i variieren. Wenn die Untergruppen-Stichprobengrößen konstant sind (n i n), vereinfachen sich die Formeln für die Kontrollgrenzen für Montgomery (1996) für weitere Details. Wenn die Untergruppenprobengrößen konstant sind, nimmt die Breite der Steuergrenzen für die ersten w bewegten Mittelwerte monoton ab, da jeder der ersten w bewegten Mittelwerte einen weiteren Term als der vorhergehende gleitende Durchschnitt enthält. Wenn Sie die ASYMPTOTIC-Option angeben, werden konstante Kontrollgrenzen mit den folgenden Werten angezeigt: Für asymptotische Wahrscheinlichkeitsgrenzen ersetzen Sie k in diesen Gleichungen. Sie können asymptotische Begrenzungen anzeigen, indem Sie die ASYMPTOTIC-Option angeben. Sie können Parameter für die gleitenden Durchschnittsgrenzen wie folgt angeben: Geben Sie k mit der Option SIGMAS oder mit der Variablen SIGMAS in einem LIMITS-Datensatz an. Geben Sie mit der ALPHA-Option oder mit der Variablen ALPHA in einem LIMITS-Datensatz an. Geben Sie eine konstante nominale Stichprobengröße für die Kontrollgrenzen mit der Option LIMITN oder mit der Variablen LIMITN in einem LIMITS-Datensatz an. Geben Sie w mit der Option SPAN oder mit der Variablen SPAN in einem LIMITS-Datensatz an. Geben Sie mit der Option MU0 oder mit der Variablen MEAN in einem LIMITS-Datensatz an. Geben Sie mit der Option SIGMA0 oder mit der Variablen STDDEV in einem LIMITS-Datensatz an. 13 Es gibt nur wenige veröffentlichte Richtlinien für die Auswahl der Spanne w. In einigen Anwendungen kann die praktische Erfahrung die Wahl von w diktieren. Ein systematischerer Ansatz besteht darin, w zu wählen, indem man seine Wirkung auf die durchschnittliche Lauflänge berücksichtigt (die erwartete Anzahl von Punkten, die vor einer Verschiebung aufgezeichnet wurden). Dieser Effekt wurde von Roberts (1959) untersucht, der Simulationsmethoden verwendete. Sie können Tabelle 21.20 und Tabelle 21.21 verwenden, um eine Kombination von k und w zu finden, die eine gewünschte ARL für einen In-Control-Prozess () und für eine bestimmte Verschiebung ergibt. Tabelle 21.20: Durchschnittliche Lauflängen für einseitig gleichmäßig gewichtete bewegliche durchschnittliche Charts Angenommen, Sie wollen ein zweiseitiges gleitendes Durchschnittsdiagramm mit einer In-Control-ARL von 100 und einem ARL von 9 für die Erkennung einer Verschiebung von konstruieren. Tabelle 21.21 zeigt, dass die Kombination w 3 und k 2,5 eine In-Control-ARL von 101,24 und eine ARL von 8,61 für ergibt. Beachten Sie, dass Sie auch Tabelle 21.20 und Tabelle 21.21 verwenden können, um eine bestehende gleitende Durchschnittskarte zu bewerten (siehe Beispiel 21.2). Das folgende SAS-Programm berechnet die durchschnittliche Lauflänge für ein zweiseitiges gleitendes Durchschnittsdiagramm für verschiedene Verschiebungen im Mittelwert. Dieses Programm kann angepasst werden, um Durchschnittswerte für verschiedene Kombinationen von k und w zu berechnen. Im vorangehenden Programm ist die Größe der Spanne w (SPAN) 4 und die Verschiebungen im Mittel werden nach den ersten 100 Beobachtungen in die Variable (Y) eingeführt. Die erste DO-Schleife spezifiziert Verschiebungen unterschiedlicher Größenordnung, die zweite DO-Schleife führt 50000 Simulationen für jede Schicht durch, und die dritte DO-Schleife zählt die Lauflänge (TIME), dh die Anzahl der Samples, die vor dem Steuerkartensignal beobachtet wurden. Eine große obere Schranke (15000) für TIME ist so spezifiziert, dass die Lauflänge unzensiert ist. Das Programm kann für verschiedene Spanngrößen verallgemeinert werden, indem ein anderer Wert für die Variable SPAN vergeben und der Ausdruck für X entsprechend geändert wird. Optional können Sie die ARL für ein einseitiges Diagramm berechnen, indem Sie die Grenzen ändern, dh x623sqrt (span). Dies war die Technik, die verwendet wurde, um Tabelle 21.20 und Tabelle 21.21 zu konstruieren. Moving averages Moving averages Mit herkömmlichen Datasets ist der Mittelwert oft der erste und eine der nützlichsten, zusammenfassenden Statistiken zu berechnen. Wenn Daten in Form einer Zeitreihe vorliegen, ist das Serienmittel ein nützliches Maß, entspricht aber nicht der Dynamik der Daten. Mittelwerte, die über kurzgeschlossene Perioden berechnet werden, die entweder der aktuellen Periode vorausgeht oder auf der aktuellen Periode zentriert sind, sind oft nützlicher. Weil diese Mittelwerte variieren oder sich bewegen, wenn sich die aktuelle Periode von der Zeit t 2, t 3 usw. bewegt, werden sie als gleitende Mittelwerte (Mas) bezeichnet. Ein einfacher gleitender Durchschnitt ist (typischerweise) der ungewichtete Durchschnitt von k vorherigen Werten. Ein exponentiell gewichteter gleitender Durchschnitt ist im Wesentlichen derselbe wie ein einfacher gleitender Durchschnitt, aber mit Beiträgen zum Mittelwert, der durch ihre Nähe zur aktuellen Zeit gewichtet wird. Weil es nicht eine, sondern eine ganze Reihe von gleitenden Durchschnitten für jede gegebene Serie gibt, kann der Satz von Mas selbst auf Graphen aufgetragen, als Serie analysiert und bei der Modellierung und Prognose verwendet werden. Eine Reihe von Modellen kann mit gleitenden Durchschnitten konstruiert werden, und diese sind als MA-Modelle bekannt. Wenn solche Modelle mit autoregressiven (AR) Modellen kombiniert werden, sind die resultierenden zusammengesetzten Modelle als ARMA - oder ARIMA-Modelle bekannt (die I ist für integriert). Einfache Bewegungsdurchschnitte Da eine Zeitreihe als ein Satz von Werten betrachtet werden kann, kann t 1,2,3,4, n der Mittelwert dieser Werte berechnet werden. Wenn wir annehmen, daß n ziemlich groß ist und wir eine ganze Zahl k wählen, die viel kleiner als n ist. Wir können einen Satz von Blockdurchschnitten oder einfache gleitende Mittelwerte (der Ordnung k) berechnen: Jede Maßnahme repräsentiert den Mittelwert der Datenwerte über ein Intervall von k Beobachtungen. Beachten Sie, dass die erste mögliche MA der Ordnung k gt0 die für t k ist. Im Allgemeinen können wir den zusätzlichen Index in den obigen Ausdrücken fallen lassen und schreiben: Dies besagt, dass der geschätzte Mittelwert zum Zeitpunkt t der einfache Durchschnitt des beobachteten Wertes zum Zeitpunkt t und der vorhergehenden k -1 Zeitschritte ist. Wenn Gewichte angewendet werden, die den Beitrag von Beobachtungen, die weiter weg in der Zeit sind, verringern, wird der gleitende Durchschnitt exponentiell geglättet. Bewegliche Mittelwerte werden oft als eine Form der Prognose verwendet, wobei der Schätzwert für eine Reihe zum Zeitpunkt t 1, S t1. Wird als MA für den Zeitraum bis einschließlich Zeit t genommen. z. B. Die heutige Schätzung basiert auf einem Durchschnitt der bisher aufgezeichneten Werte bis einschließlich gestern (für Tagesdaten). Einfache gleitende Durchschnitte können als eine Form der Glättung gesehen werden. In dem unten dargestellten Beispiel wurde der in der Einleitung zu diesem Thema gezeigte Luftverschmutzungs-Datensatz um eine 7-Tage-Gleitende Durchschnitt (MA) - Linie erweitert, die hier in rot dargestellt ist. Wie man sehen kann, glättet die MA-Linie die Gipfel und Tröge in den Daten und kann sehr hilfreich bei der Identifizierung von Trends sein. Die Standard-Vorwärtsberechnungsformel bedeutet, dass die ersten k -1 Datenpunkte keinen MA-Wert haben, aber danach rechnen die Berechnungen bis zum endgültigen Datenpunkt in der Serie. PM10 tägliche Mittelwerte, Greenwich Quelle: London Air Quality Network, londonair. org. uk Ein Grund für die Berechnung einfacher gleitender Durchschnitte in der beschriebenen Weise ist, dass es ermöglicht, Werte für alle Zeitschlitze von der Zeit tk bis zur Gegenwart berechnet werden, und Da eine neue Messung für die Zeit t 1 erhalten wird, kann die MA für die Zeit t 1 dem bereits berechneten Satz hinzugefügt werden. Dies stellt eine einfache Prozedur für dynamische Datensätze zur Verfügung. Allerdings gibt es einige Probleme mit diesem Ansatz. Es ist vernünftig zu argumentieren, dass der Mittelwert über die letzten 3 Perioden, sagen wir, zum Zeitpunkt t -1 liegen sollte, nicht Zeit t. Und für eine MA über eine gerade Anzahl von Perioden vielleicht sollte es sich am Mittelpunkt zwischen zwei Zeitintervallen befinden. Eine Lösung für dieses Problem ist die Verwendung von zentrierten MA-Berechnungen, bei denen das MA zum Zeitpunkt t der Mittelwert eines symmetrischen Satzes von Werten um t ist. Trotz seiner offensichtlichen Verdienste wird dieser Ansatz im Allgemeinen nicht verwendet, weil es erfordert, dass Daten für zukünftige Ereignisse verfügbar sind, was möglicherweise nicht der Fall ist. In Fällen, in denen die Analyse vollständig aus einer bestehenden Serie besteht, kann die Verwendung von zentriertem Mas vorzuziehen sein. Einfache gleitende Durchschnitte können als eine Form der Glättung betrachtet werden, wobei einige hochfrequente Komponenten einer Zeitreihe entfernt werden und die Trends in ähnlicher Weise wie der allgemeine Begriff der digitalen Filterung hervorgehoben werden (aber nicht entfernen) werden. In der Tat sind gleitende Mittelwerte eine Form des linearen Filters. Es ist möglich, eine gleitende Durchschnittsberechnung auf eine Reihe anzuwenden, die bereits geglättet worden ist, d. h. Glätten oder Filtern einer bereits geglätteten Reihe. Zum Beispiel können wir mit einem gleitenden Durchschnitt von Ordnung 2, wie sie mit Gewichten berechnet werden, also die MA bei x 2 0,5 x 1 0,5 x 2 betrachten. Ebenso ist die MA bei x 3 0,5 x 2 0,5 x 3. Wenn wir Eine zweite Glättung oder Filterung anwenden, haben wir 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 dh die zweistufige Filterung Prozess (oder Faltung) hat einen variabel gewichteten symmetrischen gleitenden Durchschnitt mit Gewichten erzeugt. Mehrere Windungen können sehr komplexe gewichtete Bewegungsdurchschnitte erzeugen, von denen einige von besonderem Gebrauch in spezialisierten Bereichen, wie in Lebensversicherungsberechnungen, gefunden wurden. Bewegliche Mittelwerte können verwendet werden, um periodische Effekte zu entfernen, wenn sie mit der Länge der Periodizität als bekannt berechnet werden. Zum Beispiel, mit monatlichen Daten saisonale Variationen können oft entfernt werden (wenn dies das Ziel ist), indem Sie einen symmetrischen 12-Monats-gleitenden Durchschnitt mit allen Monaten gleich gewichtet, mit Ausnahme der ersten und letzten, die mit 12 gewichtet werden. Dies ist, weil es wird 13 Monate im symmetrischen Modell (aktuelle Zeit, t. - 6 Monate). Die Summe wird durch 12 geteilt. Ähnliche Verfahren können für jede klar definierte Periodizität angenommen werden. Exponentiell gewichtete Bewegungsdurchschnitte (EWMA) Mit der einfachen gleitenden Durchschnittsformel: Alle Beobachtungen werden gleich gewichtet. Wenn wir diese gleichen Gewichte nennen, alpha t. Jedes der k Gewichte würde 1 k betragen. So wäre die Summe der Gewichte 1, und die Formel wäre: Wir haben bereits gesehen, dass mehrere Anwendungen dieses Prozesses dazu führen, dass die Gewichte variieren. Bei exponentiell gewichteten Bewegungsdurchschnitten wird der Beitrag zum Mittelwert aus Beobachtungen, die in der Zeit mehr entfernt werden, reduziert und damit neue (lokale) Ereignisse hervorgehoben. Im wesentlichen wird ein Glättungsparameter, 0lt alpha lt1, eingeführt und die Formel überarbeitet: Eine symmetrische Version dieser Formel wäre von der Form: Werden die Gewichte im symmetrischen Modell als Begriffe der Binomialexpansion ausgewählt, (1212) 2q. Sie werden auf 1 summieren, und wenn q groß wird, wird die Normalverteilung angenähert. Dies ist eine Form der Kernel-Gewichtung, wobei die Binomie als Kernfunktion fungiert. Die im vorigen Unterabschnitt beschriebene zweistufige Faltung ist genau diese Anordnung, wobei q 1 die Gewichte ergibt. Bei der exponentiellen Glättung ist es notwendig, einen Satz von Gewichten zu verwenden, die auf 1 summieren und die Größe geometrisch verkleinern. Die verwendeten Gewichte sind typischerweise in der Form: Um zu zeigen, dass diese Gewichte auf 1 summieren, betrachten wir die Ausdehnung von 1 als Reihe. Wir können den Ausdruck in Klammern mit der Binomialformel (1- x) p schreiben und erweitern. Wobei x (1-) und p -1, was ergibt: Dies ergibt dann eine Form des gewichteten gleitenden Durchschnitts der Form: Diese Summation kann als eine Wiederholungsrelation geschrieben werden, die die Berechnung stark vereinfacht und das Problem vermeidet, dass das Gewichtungsregime Sollte strikt unendlich sein, damit die Gewichte auf 1 summieren (für kleine Werte von alpha ist dies normalerweise nicht der Fall). Die Notation, die von verschiedenen Autoren verwendet wird, variiert. Manche verwenden den Buchstaben S, um anzuzeigen, daß die Formel im wesentlichen eine geglättete Variable ist und schreibt: Während die Kontrolle Theorie Literatur oft Z anstelle von S für die exponentiell gewichteten oder geglätteten Werte verwendet (siehe z. B. Lucas und Saccucci, 1990, LUC1 , Und die NIST-Website für weitere Details und arbeitete Beispiele). Die oben zitierten Formeln stammen aus der Arbeit von Roberts (1959, ROB1), aber Hunter (1986, HUN1) verwendet einen Ausdruck der Form: die für die Verwendung in einigen Kontrollverfahren besser geeignet ist. Bei alpha 1 ist die mittlere Schätzung einfach der gemessene Wert (oder der Wert des vorherigen Datenelementes). Mit 0,5 ist die Schätzung der einfache gleitende Durchschnitt der aktuellen und früheren Messungen. Bei der Vorhersage der Modelle ist der Wert S t. Wird oft als Schätz - oder Prognosewert für den nächsten Zeitraum verwendet, dh als Schätzung für x zum Zeitpunkt t 1. Damit haben wir: Dies zeigt, dass der Prognosewert zum Zeitpunkt t 1 eine Kombination aus dem vorherigen exponentiell gewichteten gleitenden Durchschnitt ist Plus eine Komponente, die den gewichteten Vorhersagefehler darstellt, epsilon. Zum Zeitpunkt t. Unter der Annahme, dass eine Zeitreihe gegeben ist und eine Prognose erforderlich ist, ist ein Wert für Alpha erforderlich. Dies kann aus den vorhandenen Daten abgeschätzt werden, indem die Summe der quadratischen Vorhersagefehler mit variierenden Werten von alpha für jedes t 2,3 ausgewertet wird. Einstellung der ersten Schätzung als der erste beobachtete Datenwert x 1. Bei den Steuerungsanwendungen ist der Wert von alpha wichtig, der bei der Bestimmung der oberen und unteren Kontrollgrenzen verwendet wird und die erwartete durchschnittliche Lauflänge (ARL) beeinflusst Bevor diese Kontrollgrenzen kaputt sind (unter der Annahme, dass die Zeitreihe einen Satz von zufälligen, identisch verteilten unabhängigen Variablen mit gemeinsamer Varianz darstellt). Unter diesen Umständen ist die Varianz der Kontrollstatistik: (Lucas und Saccucci, 1990): Kontrollgrenzen werden gewöhnlich als feste Vielfache dieser asymptotischen Varianz gesetzt, z. B. - 3 mal die Standardabweichung. Wenn beispielsweise Alpha 0,25 und die zu überwachenden Daten eine Normalverteilung N (0,1) haben, wenn die Kontrolle begrenzt wird, werden die Regelgrenzen - 1.134 sein und der Prozeß erreicht eine oder andere Grenze in 500 Schritten im Durchschnitt. Lucas und Saccucci (1990 LUC1) leiten die ARLs für eine breite Palette von Alpha-Werten und unter verschiedenen Annahmen mit Markov Chain Verfahren ab. Sie tabellieren die Ergebnisse, einschließlich der Bereitstellung von ARLs, wenn der Mittelwert des Kontrollprozesses um ein Vielfaches der Standardabweichung verschoben wurde. Zum Beispiel ist bei einer 0,5-Schicht mit alpha 0,25 die ARL weniger als 50 Zeitschritte. Die oben beschriebenen Ansätze werden als einzelne exponentielle Glättung bezeichnet. Da die Prozeduren einmal auf die Zeitreihen angewendet werden und dann analysiert oder kontrolliert werden, werden Prozesse auf dem resultierenden geglätteten Datensatz durchgeführt. Wenn der Datensatz einen Trend und saisonale Komponenten enthält, kann eine zweidimensionale oder dreistufige Exponentialglättung als Mittel zur Beseitigung (expliziten Modellierung) dieser Effekte angewendet werden (siehe weiter unten den Abschnitt "Vorhersage" und das NIST-Beispiel). CHA1 Chatfield C (1975) Die Analyse der Times-Serie: Theorie und Praxis. Chapman und Hall, London HUN1 Hunter J S (1986) Der exponentiell gewichtete gleitende Durchschnitt. J von Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Exponentiell gewichtete Moving Average Control Schemes: Eigenschaften und Erweiterungen. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolltabelle Tests basierend auf geometrischen Moving Averages. Technometrics, 1, 239-250

No comments:

Post a Comment