Ausreißer erkennen – wikiHow

Inhaltsverzeichnis:

Ausreißer erkennen – wikiHow
Ausreißer erkennen – wikiHow

Video: Ausreißer erkennen – wikiHow

Video: Ausreißer erkennen – wikiHow
Video: wichtig und richtig 2024, Kann
Anonim

In der Statistik ist ein Ausreißer oder „Ausreißer“ein Datum, das sehr stark von jedem anderen Datum innerhalb einer Stichprobe oder eines Satzes von Daten abweicht (der Satz von Daten wird als Daten bezeichnet). Häufig kann ein Ausreißer in einem Datumssatz dem Statistiker als Warnung vor einer Anomalie oder einem experimentellen Fehler bei den durchgeführten Messungen dienen, was den Statistiker dazu veranlassen könnte, den Ausreißer aus dem Datumssatz zu entfernen. Wenn der Statistiker die Ausreißer aus dem Datumssatz entfernt, können die Schlussfolgerungen aus der Studie sehr unterschiedlich sein. Daher ist es sehr wichtig zu wissen, wie Ausreißer berechnet und analysiert werden, um das richtige Verständnis eines statistischen Datumssatzes sicherzustellen.

Schritt

Ausreißer berechnen Schritt 1
Ausreißer berechnen Schritt 1

Schritt 1. Erfahren Sie, wie Sie potenzielle Ausreißerdaten identifizieren können

Bevor wir entscheiden, ob wir Ausreißer-Bezüge aus dem Bezugssatz entfernen oder nicht, müssen wir natürlich identifizieren, welche Bezüge das Potenzial haben, Ausreißer zu werden. Im Allgemeinen ist ein Ausreißer ein Datum, das sehr weit von den anderen Datumsangaben in einem Datumssatz abweicht – mit anderen Worten, ein Ausreißer liegt „außerhalb“der anderen Datumsangaben. Ausreißer in einer Datentabelle oder (insbesondere) in einem Diagramm sind normalerweise leicht zu erkennen. Wenn ein Satz von Bezügen visuell mit einem Diagramm beschrieben wird, erscheint der Ausreißer-Bezug "sehr weit" von den anderen Bezügen entfernt. Wenn beispielsweise die meisten Bezüge in einem Bezugssatz eine gerade Linie bilden, wird der Ausreißer-Bezug vernünftigerweise nicht so interpretiert, dass er diese Linie bildet.

Schauen wir uns eine Reihe von Daten an, die die Temperaturen von 12 verschiedenen Objekten in einem Raum darstellen. Wenn 11 Objekte eine Temperatur von etwa 70 Fahrenheit (21 Grad Celsius) haben, aber das 12. Objekt, ein Ofen, eine Temperatur von 300 Fahrenheit (150 Grad Celsius) hat, ist sofort ersichtlich, dass die Ofentemperatur sehr wahrscheinlich ist ein Ausreißer

Ausreißer berechnen Schritt 2
Ausreißer berechnen Schritt 2

Schritt 2. Ordnen Sie die Bezugspunkte in einem Satz von Bezugspunkten vom niedrigsten zum höchsten an

Der erste Schritt zur Berechnung von Ausreißern in einem Bezugssatz besteht darin, den Median (Mittelwert) dieses Bezugssatzes zu ermitteln. Diese Aufgabe wird sehr einfach, wenn die Bezüge in einem Satz von Bezügen vom kleinsten zum größten angeordnet werden. Ordnen Sie daher die Bezüge in einem solchen Bezugssatz an, bevor Sie fortfahren.

Setzen wir das obige Beispiel fort. Dies ist unser Satz von Daten, die die Temperaturen mehrerer Objekte in einem Raum darstellen: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Wenn wir die Daten vom niedrigsten zum höchsten anordnen, wird die Reihenfolge der Daten: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Ausreißer berechnen Schritt 3
Ausreißer berechnen Schritt 3

Schritt 3. Berechnen Sie den Median des Bezugssatzes

Der Median eines Bezugssatzes ist ein Bezugspunkt, bei dem die andere Hälfte des Bezugspunkts über diesem Bezugspunkt und die verbleibende Hälfte darunter liegt – im Grunde ist dieser Bezugspunkt der Bezugspunkt, der sich in der "Mitte" des Bezugssatzes befindet. Wenn die Anzahl der Bezugspunkte in einem Bezugssatz ungerade ist, ist es sehr einfach zu finden – der Median ist der Bezugspunkt, der die gleiche Nummer darüber und darunter hat. Wenn jedoch die Anzahl der Bezüge im Bezügesatz gerade ist, dann werden die 2 Bezüge in der Mitte gemittelt, um den Median zu finden, da kein Datum in die Mitte passt. Zu beachten ist, dass dem Median bei der Berechnung von Ausreißern in der Regel die Variable Q2-ni zugewiesen wird, da Q2 zwischen Q1 und Q3 liegt, dem unteren und oberen Quartil, auf das wir später noch eingehen werden.

  • Nicht zu verwechseln mit einem Bezugssatz, bei dem die Anzahl der Bezugspunkte gerade ist - der Durchschnitt der 2 mittleren Bezugspunkte wird oft eine Zahl zurückgeben, die nicht im Bezugssatz selbst enthalten ist - das ist in Ordnung. Wenn jedoch die beiden mittleren Datumsangaben dieselbe Zahl haben, ist der Durchschnitt natürlich auch dieselbe Zahl, was auch in Ordnung ist.
  • Im obigen Beispiel haben wir 12 Bezüge. Die 2 mittleren Daten sind die 6. und 7. Daten - 70 bzw. 71. Der Median unseres Satzes von Daten ist also der Durchschnitt dieser 2 Zahlen: ((70 + 71) / 2), = 70.5.
Ausreißer berechnen Schritt 4
Ausreißer berechnen Schritt 4

Schritt 4. Berechnen Sie das untere Quartil

Dieser Wert, den wir der Variablen Q1 geben, ist der Bezugspunkt, der 25 Prozent (oder ein Viertel) der Bezugspunkte darstellt. Mit anderen Worten, es ist das Datum, das die Bezugspunkte halbiert, die unterhalb des Medians liegen. Wenn die Anzahl der Bezugspunkte unterhalb des Medians gerade ist, müssen Sie die 2 Bezugspunkte in der Mitte erneut mitteln, um Q1 zu finden, genau wie Sie den Median selbst finden würden.

In unserem Beispiel gibt es 6 Bezüge, die oberhalb des Medians liegen, und 6 Bezüge, die unterhalb des Medians liegen. Das bedeutet, dass wir, um das untere Quartil zu finden, die 2 Datumsangaben in der Mitte der 6 Datumsangaben unterhalb des Medians mitteln müssen. Das 3. und 4. Datum von 6 Datumswerten unterhalb des Medians sind beide 70. Der Durchschnitt ist also ((70 + 70) / 2), = 70. 70 wird unser Q1.

Ausreißer berechnen Schritt 5
Ausreißer berechnen Schritt 5

Schritt 5. Berechnen Sie das obere Quartil

Dieser Wert, den wir der Variablen Q3 geben, ist der Bezugspunkt, auf dem sich 25 Prozent der Bezugspunkte im Bezugssatz befinden. Das Finden von Q3 ist ziemlich dasselbe wie das Finden von Q1, außer dass wir in diesem Fall die Daten oberhalb des Medians betrachten, nicht unterhalb des Medians.

In Fortsetzung unseres obigen Beispiels sind die 2 Datumsangaben in der Mitte der 6 Datumsangaben über dem Median 71 und 72. Der Durchschnitt dieser 2 Datumsangaben ist ((71 + 72)/2), = 71, 5. 71, 5 ist unser Q3.

Ausreißer berechnen Schritt 6
Ausreißer berechnen Schritt 6

Schritt 6. Finden Sie den Interquartilabstand

Nachdem wir nun Q1 und Q3 gefunden haben, müssen wir den Abstand zwischen diesen beiden Variablen berechnen. Der Abstand von Q1 zu Q3 wird durch Subtrahieren von Q1 von Q3 ermittelt. Die Werte, die Sie für Interquartilsabstände erhalten, sind sehr wichtig, um die Grenzen von Nicht-Ausreißer-Bezügen in Ihrem Bezugssatz zu definieren.

  • In unserem Beispiel sind unsere Werte von Q1 und Q3 70 und 71, 5. Um den Interquartilabstand zu finden, subtrahieren wir Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Dies gilt auch dann, wenn Q1, Q3 oder beide negative Zahlen sind. Wenn unser Q1-Wert beispielsweise -70 wäre, wäre unser korrekter Interquartilabstand 71,5 - (-70) = 141, 5.
Ausreißer berechnen Schritt 7
Ausreißer berechnen Schritt 7

Schritt 7. Suchen Sie den „inneren Zaun“im Bezugssatz

Ausreißer werden gefunden, indem geprüft wird, ob das Datum innerhalb der Zahlengrenzen liegt, die als „innerer Zaun“und „äußerer Zaun“bezeichnet werden. Ein Bezugspunkt, der außerhalb des inneren Anschlags des Bezugssatzes liegt, wird als „kleiner Ausreißer“bezeichnet, während ein Bezugspunkt, der außerhalb des äußeren Anschlags liegt, als „großer Ausreißer“bezeichnet wird. Um den inneren Zaun in Ihrem Bezugssatz zu finden, multiplizieren Sie zuerst den Interquartilabstand mit 1, 5. Dann addieren Sie das Ergebnis mit Q3 und subtrahieren es ebenfalls von Q1. Die beiden Werte, die Sie erhalten, sind die inneren Zaungrenzen Ihres Bezugssatzes.

  • In unserem Beispiel beträgt der Interquartilabstand (71,5 - 70) oder 1,5. Multiplizieren Sie 1,5 mit 1,5, was 2,25 ergibt. Wir addieren diese Zahl zu Q3 und subtrahieren Q1 um diese Zahl, um die Grenzen des inneren Zauns wie folgt zu ermitteln:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Die Grenzen unseres inneren Zauns sind also 67, 75 und 73, 75.
  • In unserem Satz von Daten liegt nur die Ofentemperatur, 300 Fahrenheit, außerhalb dieser Grenzen und daher ist diese Angabe ein kleiner Ausreißer. Wir haben jedoch immer noch nicht berechnet, ob diese Temperatur ein großer Ausreißer ist, also ziehen Sie keine voreiligen Schlüsse, bevor wir unsere Berechnungen durchgeführt haben.

    Ausreißer berechnen Schritt 7Bullet2
    Ausreißer berechnen Schritt 7Bullet2
Ausreißer berechnen Schritt 8
Ausreißer berechnen Schritt 8

Schritt 8. Suchen Sie den „äußeren Zaun“im Bezugssatz

Dies geschieht auf die gleiche Weise wie das Finden des inneren Zauns, außer dass der Interquartilabstand mit 3 multipliziert wird statt mit 1,5. Das Ergebnis wird dann zu Q3 addiert und von Q1 subtrahiert, um die obere und untere Grenze des äußeren Zauns zu finden.

  • In unserem Beispiel ergibt die Multiplikation des Interquartilabstands mit 3 (1, 5 x 3) oder 4, 5. Wir finden die Grenzen des äußeren Zauns auf die gleiche Weise wie zuvor:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Die Grenzen des äußeren Zauns sind 65,5 und 76.
  • Die Bezugspunkte, die außerhalb der Begrenzung des äußeren Zauns liegen, werden als Hauptausreißer bezeichnet. In diesem Beispiel liegt die Ofentemperatur, 300 Fahrenheit, eindeutig außerhalb des äußeren Zauns, daher ist dieses Datum "definitiv" ein großer Ausreißer.

    Ausreißer berechnen Schritt 8Bullet2
    Ausreißer berechnen Schritt 8Bullet2
Ausreißer berechnen Schritt 9
Ausreißer berechnen Schritt 9

Schritt 9. Verwenden Sie eine qualitative Beurteilung, um zu bestimmen, ob das Ausreißerdatum „verworfen“werden soll oder nicht

Unter Verwendung des oben beschriebenen Verfahrens kann bestimmt werden, ob ein Datum ein Nebendatum, ein Hauptdatum oder überhaupt kein Ausreißer ist. Machen Sie jedoch keinen Fehler – wenn Sie ein Datum als Ausreißer finden, wird dieses Datum nur als „Kandidat“markiert, der aus dem Bezugssatz entfernt werden muss, nicht als ein Datum, das „verworfen“werden sollte. Der "Grund", der bewirkt, dass ein Ausreißer-Datum von anderen Daten in einem Datumssatz abweicht, ist sehr wichtig bei der Entscheidung, ob es verworfen werden soll oder nicht. Im Allgemeinen kann ein Ausreißer, der beispielsweise durch einen Fehler in der Messung, Aufzeichnung oder experimentellen Planung verursacht wurde, verworfen werden. Ausreißer, die nicht durch Fehler verursacht werden und die auf neue Informationen oder Trends hinweisen, die vorher nicht vorhergesagt wurden, werden dagegen in der Regel „nicht“verworfen.

  • Ein weiteres zu berücksichtigendes Kriterium ist, ob der Ausreißer einen großen Einfluss auf den Mittelwert eines Bezugssatzes hat, d. h. ob der Ausreißer ihn verwirrt oder falsch erscheinen lässt. Dies ist sehr wichtig, wenn Sie Schlussfolgerungen aus dem Durchschnitt Ihres Datensatzes ziehen möchten.
  • Schauen wir uns unser Beispiel an. Da es in diesem Beispiel "höchst" unwahrscheinlich erscheint, dass der Ofen durch unvorhersehbare Naturkräfte 300 Fahrenheit erreichte, können wir mit ziemlicher Sicherheit schlussfolgern, dass der Ofen versehentlich eingeschaltet gelassen wurde, was zu einer Anomalie der hohen Temperatur führte. Wenn wir die Ausreißer nicht entfernen, ist unser Bezugssatzmittelwert (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 Grad Celsius.).), während der Durchschnitt, wenn wir die Ausreißer entfernen, (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 Grad Celsius) beträgt.

    Da diese Ausreißer durch menschliches Versagen verursacht wurden und es falsch wäre zu sagen, dass die durchschnittliche Raumtemperatur fast 32 Grad Celsius erreicht, sind wir besser dran, unsere Ausreißer „wegzuwerfen“

Ausreißer berechnen Schritt 10
Ausreißer berechnen Schritt 10

Schritt 10. Kennen Sie die Bedeutung (manchmal) der Pflege von Ausreißern

Obwohl einige Ausreißer aus dem Bezugssatz entfernt werden sollten, weil sie Fehler verursachen und/oder die Ergebnisse ungenau oder fehlerhaft machen, sollten einige Ausreißer beibehalten werden. Wenn beispielsweise ein Ausreißer auf natürliche Weise erworben zu sein scheint (dh nicht das Ergebnis eines Fehlers) und/oder eine neue Perspektive auf das untersuchte Phänomen bietet, sollte der Ausreißer nicht aus dem Datumssatz entfernt werden. Die wissenschaftliche Forschung ist in Bezug auf Ausreißer normalerweise eine sehr sensible Situation – das falsche Entfernen von Ausreißern kann bedeuten, dass Informationen verworfen werden, die auf einen neuen Trend oder eine neue Entdeckung hinweisen.

Nehmen wir zum Beispiel an, wir entwickeln ein neues Medikament, um die Größe von Fischen in einem Fischteich zu erhöhen. Wir werden unseren alten Satz von Datumsangaben verwenden ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), außer dass dieses Mal jedes Datum das Gewicht eines Fisches darstellt (in Gramm), nachdem von Geburt an ein anderes experimentelles Medikament verabreicht wurde. Mit anderen Worten, das erste Medikament bewirkt, dass ein Fisch 71 Gramm wiegt, das zweite Medikament bewirkt, dass ein anderer Fisch 70 Gramm wiegt und so weiter. In diesem Fall ist 300 „noch“ein großer Ausreißer, aber wir sollten dieses Datum nicht verwerfen, da es unter der Annahme, dass es fehlerfrei erhalten wurde, einen Erfolg in der Studie darstellt. Das Medikament, das Fische 300 Gramm wiegen lässt, wirkt besser als alle anderen Medikamente, daher ist dieses Datum tatsächlich das "wichtigste" in unserem Datumssatz, nicht das "unwichtigste"

Empfohlen: