Warum bringen die Leute hier nur eigene teils unsinnige Vermutungen ein (50/50 was sioll das?) Im Link unten kann man für 0-, 20-, 40-, 60-, 65- und 80-jährige Frauen und Männer die verbleibende Lebenserwartung ablesen. Allerdings, das muss ich zugeben, hilft das nicht viel, wenn man schätzen will, wie viele nach genau 10 Jahren gestorben sein werden. Dazu bräuchte man nicht nur die durchschnittliche Lebenserwartung, sondern auch die Quantile dieser Verteilungen, also z.B. nach wieviel Jahren sind 20% der 40-jährigen Männer verstorben, allgemein x% der y-jährigen mit z-Geschlecht.

https://www-genesis.destatis.de/genesis/online?sequenz=tabelleErgebnis&selectionname=12621-0002&zeitscheiben=16&sachmerkmal=ALT577&sachschluessel=ALTVOLL000,ALTVOLL020,ALTVOLL040,ALTVOLL060,ALTVOLL065,ALTVOLL080#abreadcrumb

...zur Antwort

Ob etwas erheblich oder wesentlich abweicht (von der Hypothese oder vom Vergleichsobjekt), ist eigentlich nur eine inhaltliche Frage und hat zunächst mit Statistik nichts zu tun. Für die Statistik muss man sich vorher überlegen, welche Mindest-Abweichung man als wesentlich betrachtet, und dann kann man - mit Verteilungsannahmen - eine Fallzahlberechnung anstellen, für die eine Ablehnung der Nullhypothese "Nicht-Abweichung" nur mit einer kleinen Fehlerwahrscheinlichkeit, meist nimmt man 5%=0,05, behaftet wäre, wenn die Abweichung in der Stichprobe wie erhofft ausfällt (Diese Signifikanz bedeutet nur - und nichts weiter - , dass wenn in der Grundgesamtheit Nicht-Abweichung tatsächlich gälte, dieses oder ein noch stärker abweichendes Stichprobenergebnis eine Wahrscheinlichkeit <= 5% hätte).

Macht man dann die Stichprobe zu klein, so wird man keine Signifikanz erreichen, selbst wenn die Abweichung so ausfällt wie erhofft, macht man sie zu groß, hat man zu viel Arbeit gehabt, und viel kleinere Abweichungen können statistisch signifikant ausfallen, obwohl sie inhaltlich unerheblich sind.

"Signifikant" aus dem Lateinischen heißt zwar bedeutsam, ist aber im deutschen Sprachgebrauch, jedenfalls unter Statistikern, eben für diese "technische" Bedeutung reserviert.

Deinen 2. Absatz solltest Du ganz vergessen. Nach Deinem Schema könnte man es signifikant nennen, wenn 100% aller Menschen eine Nase haben, und nicht signifikant, wenn 50% aller Menschen einen Penis haben. Deine Aussage steht statistisch in einem luftleeren Raum.

Statistisch signifikant kann etwas nur sein, wenn es von 0 verschieden ist, oder von einem anderen vorgegebenem Wert z.B. Deinen 70% mit Haustieren (wenn z.B. 60% oder 80% in der Stichprobe rauskommt), oder wenn 2 verglichene Gruppen sich stark genug unterscheiden, z.B. Anteil Single-Haushalte mit Haustieren und Anteil 2+-Haushalte mit Haustieren

...zur Antwort

Nach dem Link von Halbrecht ist die "Durchschnittliche Volatilität pro Tag" gleich der (empirischen) Standardabweichung. Die "annualisierte Volatilität" nach dem Link scheint mir ein sehr merkwürdiges Maß zu sein, und ich (wenig Ahnung vom Finanzmarkt, mehr von Statistik) verstehe überhaupt nicht, was das soll, welche Information das liefern soll. Wenn ich eine Standardabweichung habe, die sich über die Zeit kaum verändert, die also z.B. aus 7 oder 30 oder 365 Tageswerten berechnet wird und etwa gleich bleibt, erhalte ich trotzdem jeweils stark unterschiedliche Werte. Was hilft das, wenn ich z.B. bei allen 3 Berechnungen σ=1 habe und daher annualisierte Volatilität jeweils 2,65, 5,48 und 19,10?

Übrigens sind die %e, die im Link-Diagramm auf der y-Achse eingetragen sind, einfach die täglichen Renditen im Vgl. zum Vortag, also die Dimension (Maßeinheit) der x-Werte, und die Standardabweichung, wie der Mittelwert, hat immer die gleiche Dimension wie die einzelnen gemessenen Werte. Damit hat die durchschnittliche Volatilität ebenso die Dimension %, und merkwürdigerweise hat die annualisierte Volatilität die Dimension % * Wurzel(Zeit) - wie bitte?

...zur Antwort

Die Antwort von Halbrecht ist i.w. korrekt. Nur eine Bemerkung zu der Tabelle: hier fehlt n, die Anzahl der Kinder in den beiden Gruppen. Das sollte in jeder seriösen Statistik angegeben sein. Immerhin erkennt man, dass wohl mindestens etwa 100 3-4-jährige dabei sind, sonst könnte keine Prozentzahl von 99,00 auf 2 Stellen genau herauskommen (angenommen die Prozentwerte beziffern den Anteil der Kinder und nicht irgendwelche an den Kindern gemessenen Werte).

Im übrigen finde ich, dass bei allen Ausdrücken außer Freude die Streuungen ziemlich groß sind. Bei möglichen Zahlen von 0-100 ist eine mittlere Abweichung vom Mittelwert (für die die Streuung ja steht) von ca. 50 doch ziemlich hoch, auch 30 finde ich noch ziemlich hoch.

...zur Antwort

Aus https://versuch.file2.wcms.tu-dresden.de/w/index.php/Moderator-_und_Mediatorvariablen:

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

Moderator- und Mediatorvariablen

Moderatorvariablen beeinflussen und verändern die Wirkung einer unabhängigen Variable auf eine abhängige Variable. Eine Moderatorvariable zählt zu den Kovariablen, d.h. sie ist nicht Bestandteil der Untersuchungshypothese, aber übt trotzdem einen Einfluss auf die abhängige Variable (AV) aus. Sie ändert den Effekt einer unabhängigen Variable (UV) auf eine AV. Wenn der Einfluss der Moderatorvariable nicht berücksichtigt wird, würde dies den Zusammenhang zwischen UV und AV verzerrt darstellen.

Beispiel: Bei einem Ernährungsprogramm lernen die Klienten, dass vor allem Bioprodukte eine besonders gute Nahrungsgrundlage bilden. Gemessen wird im Anschluss, wie viele Bioprodukte gekauft wurden. Moderiert wird der Einfluss des Programms auch durch das Einkommen der Klienten. Bioprodukte sind teurer als vergleichbare Produkte von anderen Herstellern. Je höher das Einkommen, umso eher kann sich der Klient auch Bioprodukte leisten.

Mediatorvariablen hingegen vermitteln die Wirkung der unabhängigen Variable auf die abhängige Variable. Sie zählen damit ebenso zu den Kovariablen.Würde der Einfluss der Mediatorvariable wegfallen, würde dies den Zusammenhang zwischen UV und AV aufheben.

Beispiel: In einer Untersuchung wird der Einfluss der Dauer von Pausen (x) auf den Lernerfolg (y) untersucht. Im Ergebnis zeigt sich, dass Versuchspersonen mit längeren Pausen einen größeren Lernfortschritt hatten als jene mit kürzeren Pausen. Vermittelt wird dieser Effekt jedoch darüber, dass die längeren Pausen sinnvoll genutzt wurden zum Rekapitulieren des Stoffes (z).

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

Demnach muss ich Machma2000 recht geben. Ich denke, das so oder so vorhandene (oder weniger vorhandene) Selbstbewusstsein moderiert den UV-AV-Zusammenhang, es hängt aber nicht von der UV ab und wirkt dann auf die AV wie das im obigen Mediatorbeispiel der Fall ist. Vielleicht helfen die früher üblichen Benennungen latente bzw. Stör-Variablen für Mediator- bzw. Moderator-Variablen, jedenfalls interpretiere ich das so.

...zur Antwort

Nicht ganz, ich würde es als starken negativen Zusammenhang bewerten mit starker Signifikanz, vorausgesetzt "Höchst" bezeichnet trotz des Namens nicht die stärkste sondern die schwächste Kategorie; "Mittle" bedeutet vermutlich mittlere Reife. P(chi2(8)) ist immerhin < 0.001 (=0,1%), und ebenso ist das 0,1%-Konfidenzintervall um gamma, -0,361 ± 3,29*0,033 = -0,361 ± 0,10857 deutlich ganz im Negativen, d.h. gamma ist signifikant von 0 verschieden auf dem zweiseitigen 0,1%-Niveau. (3,29 aus Standardnormalverteilungstabelle für 1-0,001/2=0,9995). Inhaltlich stark negativ lese ich aus den Zahlenreihen. (Das erwähne ich, da bei genügend größer Stichprobe alles signifikant wird, selbst ein kleinster uninteressanter Effekt. Signifikant heißt ja nur, ≠0, egal wie nah es an 0 herankommt.)

Ich würde mir - Stata bietet das vermutlich an - zu Chi² und Gamma auch das Konfidenzintervall ausgeben lassen - standardmäßig liefern die Programme das 5%-Konfidenzintervall, aber Du kannst es hier ja sogar mit dem 0,1%-Konfidenzintervall machen.

...zur Antwort

Das zeigt die Excel-Hilfe:

>>>>>>>>>>>>>>>>>>>>>>>>>>>>

NORM.VERT(x;Mittelwert;Standabwn;Kumuliert)

Die Syntax der Funktion NORM.VERT weist die folgenden Argumente auf:

  • x    Erforderlich. Der Wert der Verteilung, dessen Wahrscheinlichkeit Sie berechnen möchten
  • Mittelwert    Erforderlich. Das arithmetische Mittel der Verteilung
  • Standabwn    Erforderlich. Die Standardabweichung der Verteilung
  • Kumuliert    Erforderlich. Ein Wahrheitswert, der die Form der Funktion bestimmt. Wenn kumulativ wahr ist, Norm. Vert gibt die kumulative Verteilungsfunktion zurück. ist der Wert false, wird die Funktion Wahrscheinlichkeitsdichte zurückgegeben.

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

Falls Du Excel hast, kannst Du über die x-Reihe meinetwegen von -5 bis +55 z.B in 0,5-Schritten die y-Werte von beiden Funktionen ermitteln. Falls nicht:

Den "positiven Teil" (rechts von 25) der Verteilungsfunktion bekommst Du heraus, indem Du in https://de.wikipedia.org/wiki/Standardnormalverteilungstabelle die Spalte unter 0 als y-Werte nimmst und als x die z-Werte mit 5 multipliziert und dann 25 addiert.

Den positiven Teil der Dichte erhältst Du, wenn Du zu diesen x-Werten y-Werte berechnest aus Formel in https://de.wikipedia.org/wiki/Normalverteilung unter Definition mit µ=25 und σ=5.

Die negativen Teile bekommst Du wegen der Symmetrie im Fall der Verteilungsfunktion als Punktspiegelung am y-Achsenabschnit, im Fall der Dichte als Spiegelung an der Y-Achse

...zur Antwort

Keine Antwort, aber 2 Bemerkungen dazu:

1.) Die Forbes-Daten beziehen sich nicht auf Wald-Flächen, sondern Land-Flächen überhaupt. Das schließt Savannen mit ein, auf denen oft nur vereinzelt Bäume stehen.

2.) Der Autor beruft sich hauptsächlich auf eine Studie von 2015; da waren die australischen und sibirischen Brände zumindest in der Öffentlichkeit noch nicht beachtet wenn überhaupt stattgefunden. Vielleicht müsste diese Studie entsprechend aktualisiert werden.
Eine Merkwürdigkeit in diesem Zusammenhang: Die Graphik ist betitelt mit der Abnahme von 2003-2019, die Graphik endet aber 2015.

...zur Antwort

Wie ich im Vergleich zur letzten Frage sehe, hast Du I und F jeweils für sich sortiert, sodass die Zahlen für eine Firma nicht in der gleichen Zeile stehen. Für die univariaten Statistiken, also Fragen a) bis c), macht das keinen Unterschied, aber für die bivariate Frage d) natürlich schon. Bei Deiner Umsortierung ergibt sich eine Korrelation von fast 1 und eine Rangkorrelation von identisch 1 (Die Ränge sind ja identisch). Übrigens brauchst Du für die Rang-Funktion die Daten nicht zu sortieren. Um die bei Statistikern übliche Rang-Funktion zu benutzen, solltest in Excel übrigens die Funktion Rang.mittelw benutzen, die gleichen Werten deren Durchschnitts-Rang zuweist.

Bei Frage c) hast Du wohl das Größer-Zeichen > mit dem Kleiner-Zeichen < verwechselt, und die Kategorien 200 etc. sollten wohl heißen "=100 - <200" etc.. Ich würde die Verteilung außerdem als rechtsschief (=linkssteil) bezeichnen, wobei durch Deine grobe Kategorisierung in 100er-Schritten die linkssteile Flanke ganz wegfällt und das Histogramm mit dem Modalwert beginnt. Würdest Du in 50er-, erst recht in 20er-Schritten vorgehen, wäre Dir das sofort klar. Du hast ja sowieso eine positive Schiefe ausgerechnet in a), und das bedeutet definitiv rechtsschief https://de.wikipedia.org/wiki/Schiefe_%28Statistik%29).

Und nun endlich zu Deiner Frage bezgl. b): Die hast Du ja noch gar nicht angegangen, jedenfalls sehe ich das nicht. Du musst hierzu aus der Standardnormalverteilung die 20-, 40-, 60- und 80-Perzentile raussuchen, mit deiner StdAbw. jeweils multiplizieren und den MW dazuaddieren, getrennt für I und F. Anschaulich heißt das, Du verschiebst die Standardnormalverteilung von MW 0 auf Deinen MW und streckst sie dann von StdAbw. 1 auf Deine StdAbw. Und wenn Du die Kurve dann über das feiner kategorisierte Histogramm legst, hast Du einen sehr schönen Vergleich zwischen der empirischen Verteilung und der Normalverteilung mit gleichen MW und StdAbw.

...zur Antwort

Zu Deinem Kommentar zu IchMalWiederXY: Die Stichproben- (gleich empirische) Varianz erhältst Du, in dem Du die Stichprobe als die Gesamtpopulation betrachtest, mit VAR.P. Wolltest Du dagegen aus dieser Stichprobe die Varianz in der Grundgesamtheit schätzen, so müsstest Du VAR.S nehmen, sie ist etwas größer, weil hier ja die Schätzungsunsicherheit des Mittelwertes eingeht. Für die Standardabweichung gilt entsprechendes.

...zur Antwort

Was wird da gemessen? Ich nehme an, es gibt nur positive Werte, und Verhältnisse wie das Doppelte, die Hälfte, das 1,5-fache (+50%), das 1,2-fache (+20%), 3/4 (75%) usw. sind interessante Werte. Und ist es vielleicht eine Skala, die nach oben offen ist (nach unten ja durch die 0 beschränkt) wie Einkommen, dann ist sie möglicherweise rechtsschief (linkssteil). In so einem Falle sind immer auch die logarithmierten Werte interessant, sie könnten, da die kleinen Werte gespreizt und die großen Wert gestaucht werden, eine eher symmetrische Verteilung ergeben. Interessant sind hier natürlich ebenso die von Dir und Machma2000 genennten Kenngrößen. Das arithmetische Mittel der logarithmierten Skala ist übrigens gleichzeitig das geometrische Mittel der ursprünglichen Skala.

Interessant ist schon auch die Häufigkeitsverteilung der sagen wir 5 häufigsten Werte, sofern es keine rein stetige Verteilung ist. Ich nehme allerdings an, es handelt sich bei Deinen Daten um 1 einziges Merkmal (Einkommen, BSP, Stromverbrauch, ...), das viele verschiedene Ausprägungen (=Werte) hat, verwechsle bitte nicht die Ausdrücke Merkmal und Ausprägung.

...zur Antwort

Ich denke, für die Frage, ob das Design quasi-experimentell isis oder nicht, spielt das Untersuchungsziel keine Rolle. Hier geht es ja nur darum, ob die Gruppeneinteilung randomisiert erfolgte, was für die erste Einteilung nicht der Fall ist, also quas-experimentell.

Ob und wie man das kritisieren kann/soll, ist allerdings schon davon abhängig, was man untersuchen will. Und ob die Benennung des Designs als quasi-experimentell notwendig ist, hängt mE vom Zielpublikum ab. Die gegebene Beschreibung reicht für einen Statistiker aus, ohne dass die Ausdrücke randomisiert oder quasi-experimentell benutzt werden müssten.

...zur Antwort

Woher die Annahme, dass die (genetische ?) Verwandtschaft der Viren irgendwie etwas mit der Dauer der Pandemie zu tun haben könnte? Gibt es da Hinweise aus früheren Pandemien mit 2 verschiedenen aber verwandten Erregern?

Viel entscheidender scheint mir die Infektionsrate und die regionale Ausbreitung zu sein sowie die Dauer der Infektiosität, zusammen mit den Schutzmaßnahmen, die ja regional sehr unterschiedlich getroffen werden. Man muss also ein komplexes Modell erstellen, für das vermutlich jede Grundlage fehlt.

...zur Antwort

Bei vielen Statistiken hat man nur positive Zahlen, z.B. Körpergröße, Einkommen, Gegenbeispiel Temperatur. Manche von den positiven können bis zu 0 runterreichen (Körpergröße nicht), z.B. Einkommen, und die können dann nach oben ausfransen, z.B. die Superverdiener. Diese beeinflussen dann stark den Mittelwert, aber überhaupt nicht den Median. Ob in der oberen Hälfte der Einkommen die ganz oberen noch weiter nach oben gehen oder nicht, ist egal, da ja der Median beim Schnitt der oberen und unteren Hälfte der Werte liegt. In solchen häufigen Fällen ist dann das arithmetische Mittel natürlich höher als der Median. Die möglichen Abweichungen nach unten vom Median sind durch die 0 begrenzt, nach oben sind sie unbegrenzt.

...zur Antwort

Diese Hypothese kann nicht mit einem Signifikanztest behandelt werden, sondern nur mit einem Äquivalenztest. Der ist etwas komplizierter, Du musst nämlich, da Du nur mit Wahrscheinlichkeit 0 in einer Stichprobe den exakten Wert der Grundgesamtheit erreichen wirst, einen Bereich um mü0 festlegen, den Du noch als gleich betrachtest, und erst, wenn Dein Konfidenzintervall um das Stichproben-mü mü0 enthält, kannst Du die 0-Hypothese der Ungleichheit ablehnen. Am besten schaust Du mal in Wikipedia nach Äquivalenztest.

...zur Antwort

Da es eine Schätzung aus einer Stichprobe und nicht eine Berechnung in der Grundgesamheit ist, musst Du n-1 statt n zugrundelegen, als 25 statt 26

...zur Antwort

Keine Ahnung was " ( X, Y ) mit PX=ε_0" bedeuten soll, aber "−E[X]+Var(X)=0" ist äquivalent zu "E[X]=Var(X)" und das gilt z.B. für die Poisson-Verteilung.

Außerdem ist "Erwartungswert des Erwartungswerts" nicht definiert, da ein Erwartungswert keine Zufallsvariable ist, sondern ein Parameter einer Verteilung. Man könnte aber vielleicht eine Grundgesamtheit von Stichproben definieren und deren Erwartungswerte als Zufallsvariablen betrachten, merkwürdige Konstruktion.

...zur Antwort

Such mal in Google und finde https://de.wikipedia.org/wiki/Perfektoider_Raum, scheint viel Vorwissen nötig, oder finde https://scienceblogs.de/mathlog/tag/perfektoider-raum/, der 1. Artikel gibt einem schon eine kleine Idee (der 2. vielleicht auch, den habe ich aber nicht aufgeklappt)

...zur Antwort