Ausreißer richtig ermitteln (mit Excel)
Guten Tag, liebe Statistik-experten!
Ich habe einen großen Datensatz mit Lieferzeitenabweichungen in Wochen von verschiedenen Lieferanten aus verschiedenen Jahren. Jetzt möchte ich die Ausreißer der Abweichungen eliminieren um dann Mittelwerte pro Jahr zu bilden (Das ganze in Excel 2007).
Nun weiß ich nicht, ob es richtig ist die Ausreißer der Urliste zu nehmen, in der ja noch alle Daten drin sind oder diese erst nach Lieferanten aufzuteilen und dann die Ausreißer pro Lieferant herauszufinden oder nach Lieferant und Jahr oder nur nach Jahr...
In Excel würde ich das ganze mit der Funktion "Gestutztmittel" ermitteln. Weiß vielleicht jemand wonach sich die Prozentzahl richtet und sinnvoll ist?
Ich hoffe ihr wisst, was ich meine...
LG, katerel999
3 Antworten
Der "Prozentwert" (hab grad mal in die Doku reingeschaut, der Name ist irreführend, da der Wert zwischen 0 und 1 liegen muss) - also dieser Wert bestimmt, welches Quantil an den Enden abgeschnitten wird. (Zur Info an spätere Leser ...)
Ab wo ein Wert als Ausreißer zu bezeichnen ist und über welche Grundgesamtheit bzw. Teilgrundgesamtheit die Ausreißer jeweils genommen werden sollen, ist die große Kunst der Statistikbereinigung. (Oder je nach Verwendungszweck und ob es Freund oder Feind tut auch Statistikfälschung.)
Da musst du dir schon die entsprechenden Verteilungen anschauen und abschätzen, wo es jeweils sinnvoll ist, von Ausreißern zu sprechen.
Diese Frage lässt sich bestimmt nicht so aus der Ferne beantworten ohne nähere Informationen über die Verteilungen der Datenpunkte.
Da hast du natürlich Recht, allerdings geht es nicht um die Lieferzeit an sich sondern um die Lieferabweichungen, also wieviel zu spät (oder zu früh) zum geplanten Termin geliefert wurde. Daher ist es im Grunde nicht sinnvoll nach Lieferant zu filtern...pünktlich sollten sie ja alle sein :D
Wenn es darum geht, wie viel Vorrat ihr halten müsst, ist die Gesamtauswertung sinnvoll, wenn es um Bewertung der Lieferanten geht, die Einzelauswertung.
Hallo PWolf,
Es sind 11263 Datenreihen. Werte zwischen -104 und 210. Mittelwert liegt bei -3,54 Median bei -2,57. Es sind eindeutig Ausreißer auf beiden Seiten vorhanden...
Bei dieser Asymmetrie wäre es wohl sinnvoll, zwei Funktionen zu nehmen, die jeweils nur an einer Seite abschneiden. Und die Abschneidekriterien sinnvoll anzupassen (auch, ob Quantil oder Wert).
ja, wahrscheinlich muss ich sowas basteln, vielen Dank!
öööhm, wie möchtest du aus den hier genannten Infos auf Ausreißer schließen - das Einzige, was man hier sehen kann, ist, dass die Verteilung nicht symmetrisch, d.h. schief ist...
Am besten jagst du deinen Datensatz durch ne Statistiksoftware... das geht schneller und ist i.d.R. zuverlässiger als der Weg über Excel...
Wie gesagt, über Excel geht das über einen kleinen Umweg - falls du deine Frage noch nicht lösen konntest, gebe ich dir den geeigneten Weg...
man kann diese Frage nicht allgemein beantworten- wichtig ist, dass du dir überlegst, was Sinn macht. z.B. wäre es möglich, dass man innerhalb eines bestimmten Frist im Jahr Ausreißer eliminiert, weil dann grundsätzlich alles länger dauert (Weihnachtsgeschäft, Sommerferien). Ich an deiner Stelle würde mehrere Tabellen-Varianten erstellen z.B. nach Lieferanten sortiert oder auch nach Warengruppen.
gestutztmittel kann man nachsehen z.b https://support.office.com/de-de/article/GESTUTZTMITTEL-Funktion-d90c9878-a119-4746-88fa-63d988f511d3 --> man kann damit einen bestimmten %satz kleinster und größter Werte herausschneiden. Eine andere Möglichkeit geht über die Standardabweichung: Werte, die mehr als 2 (oder auch 3) Standardabweichungseinheiten vom Mittel entfernt liegen, sind Ausreißer.
Die Standardabweichung hat mit Ausreißern nix zu tun! Die kannst du auch bei (Normal-)Verteilungen ohne Ausreißer ermitteln.
Im Bereich Mittelwert +/- s liegen 68,8 % der Werte
Im Bereich Mittelwert +/- 2s liegen 95,5 % der Werte
Im Bereich Mittelwert +/- s liegen 99,7 % der Werte
Das sagt aus, wie stark eine Verteilung streut (daher nennt sich das Dingen auch "Streuungsmaß") und wie gut man den Mittwelwert als Schätzwert nutzen kann.
Ausreißer werden normalerweise über Statistikprogramme ermittelt, über einen kleinen Umweg, kann man das auch in Excel ermitteln. Die vorgeschlagene Excelfunktion ist nicht geeignet um potenzielle Ausreißer zu ermitteln - es sei denn man folgt nicht den Grundsätzen der (deskriptiven) Statistik.. :S
ausreisser ermittelt man nicht mit statistikprogrammen, sondern nach bestimmten ueberlegungen, die zu statistischen verfahren gefuehrt haben, die man moeglicherweise in software ueberfuehrt hat. ein statistikprogramm ist nur ein hilfsmittel, kein goldstandard.
um ausreisser zu ermitteln, gibt es unterschiedliche verfahren, auch das von mir genannte, wo standardabweichungseinheiten den abstand von der mitte der verteilung bestimmen, der nicht ueberschritten werden darf, siehe zb. http://www.statistics4u.info/fundstat_germ/cc_outlier_tests_4sigma.html
auch eine normalverteilung kann ausreisser haben, denn was ein ausreisser ist, bestimmt der zweck der sache. so kann z.b. ein messwert normalverteilt sein und trotzdem wuerde man extremwerte identifizieren wollen, wenn es dabei um giftigkeit oder hohe kosten gehen wuerde.
Was ist, wenn du keinen Mittelwert ziehst sondern den MEDIAN
moeglicherweise interessiert den statistiker in dem fall der median nicht- statistik wird mit einem ziel eingesetzt, sofern es die daten hergeben; wenn der median uninteressant ist, dann sollte man ihn nicht berechnen.
Nachtrag: Manche Sachen lassen sich auch durch Plausibilitätsüberlegungen beantworten. Wenn ihr z. B. einen Lieferanten in China habt, der Schrauben zu einem Spottpreis liefert, allerdings mit 6 Wochen Lieferzeit, und in der Nachbarstadt einen Mittelständler, der zwar 10mal so teuer ist aber innerhalb von 2 Arbeitstagen liefern kann (und nebenbei im Verhältnis nur 1/5 so viel Ausschuss produziert) ergeben Ermittlungen von Ausreißern natürlich nur lieferantenbezogen einen Sinn.