Frage von irgendetwas1234, 38

Statistische Berechnung eines Datenbestandes?

Ich schriebe gerade an meiner Semesterarbeit und war in Mathe/Statistik noch nie sonderlich gut.

Ich arbeite an einer Prototypischen Suchmaschine, welche (vereinfacht) so funktioniert:

  • Webadresse wird eingegeben
  • Programm sucht nach allen Links auf der Seite und speichert diese in der Datenbanktabelle "liste"
  • Programm speichert zudem Name, Beschreibung und Schlüsselworte der Aktuellen Seite in der Tabelle "index"
  • Programm holt sich eine adresse aus "liste" und wiederholt das Prozedere, markiert die aktuelle URL als erledigt

Mein Hoster erlaubt mir leider nicht das weiterführen des Projekts aufgrund der Datenlast, mir fiel leider zu spät ein, die Aufnahmezeitpunkte zu protokollieren, weshalb ich irgendeine Prognose machen muss, wie viele Indexeinträge ich aus dem verbleibenden Datenbestand gewinnen könte (hypothetisch)

Daten:

liste: 2.778.962 Einträge insgesamt, davon 2.741.925 unbearbeitet

index: 37.037 Einträge

Meine amateurhafte Berechnung ist diese:

2.778.962 - 37.037 = 2.741.925
37.037 * x = 2.741.925
x approx 74 
2.741.925 * 74 = 202.902.450

Ich versuche die Durchschnittliche Linkdichte (x rund 74) rauszufinden und das dann auf den unbearbeiteten Datenbestand zu multiplizieren.

Ist sicherlich falsch. Wenn ja, warum? Wie geht es richtig?

Antwort
von WeicheBirne, 14

Die Idee auszurechnen wie viele Links jede bereits bearbeitete Seite im Durchschnitt hatte ist sicher nicht schlecht.

Die Gesamtzahl aller Links in den unbearbeiteten Seiten kannst Du sicherlich grob so abschätzen.

Allerdings müßtest Du Dir überlegen ob alle Links einzigartig sind, d.h. es gibt keine zwei Seiten, die den gleichen Link enthalten.

Ansonsten wären Konfidenzintervalle für Deine Durchschnittsanalyse auch noch ganz gut -wenn Du weißt welche Links auf welchen bearbeiteten Seiten waren bietet sich Bootstrap an.

Kommentar von irgendetwas1234 ,

Ich würde eine Redundanz von ca 5% schätzen und eine Art Kulanzwert für X von 90% nehmen.
Aber die 200 Mio wären schon realistisch, oder?

Dein letzter Punkt ist gut, leider lässt sich das nicht mehr im System nachvollziehen

Kommentar von WeicheBirne ,

Wie realistisch die 200 Mio. sind hängt von der Redundanz und den Konfidenzintervallen ab.


Hier mal zur Verdeutlichung:

Die 200 Mio. hypothetischen Links könnten ja auch wieder jeweils 74 weitere Links enthalten. Dann hättest Du noch etwa 15 Mrd. weitere Links. Die könnten auch wieder jeweils 74 Links enthalten usw. ...

Irgendwann muß ja mal Schluß sein. Das Internet enthält einfach nicht unendlich viele Seiten.

Dieses Problem kannst Du in zwei Grenzfällen betrachten:

1) Jede Seite enthält tatsächlich etwa um die 74 Links. Dann muß es aber viele redundante Links geben. Z.B. wird eine Seite von mehreren anderen verlinkt oder es gibt Seiten, die gegenseitig aufeinander zeigen.

Du hast in den noch nicht bearbeiteten Seiten dann zwar 200 Mio. Links, aber viele davon sind redundant. Wie viele zusätzliche Seiten Du noch gefunden hättest hängt sicherlich davon ab wie stark jede Seite verlinkt ist und wie hoch Deine Redundanz in den schon bearbeiteten Links ist.

Für die Annahme, daß die meisten Seiten gleich oft verlinkt sind könntest Du mit einer Multinomialverteilung und der beobachteten Redundanz die Gesamtzahl an Seiten abschätzen.

Allerdings ist es gut möglich, daß die Anzahl an Malen mit denen eine Seite verlinkt ist dem Zipfschen Gesetz folgt

https://en.wikipedia.org/wiki/Zipf%27s\_law

In dem Fall könntest Du über eine Monte-Carlo-Simulation herausfinden wie groß die Grundgesamtheit sein muß, damit Du die beobachtete Redundanz in 37.037 bearbeiteten Links siehst.


Das alles gilt für den Fall, daß die meisten Seiten eine ähnliche Anzahl von Links enthalten.

2) Es ist auch möglich, daß es nur eine geringe Anzahl von Seiten gibt, die eine große Anzahl der Links enthalten, während die meisten Seiten nur sehr wenige Links enthalten. 

Dann hast Du vermutlich schon fast alle Seiten gefunden, denn es sind ja einige wenige Seiten, die Dir die gesamte Information geben.

Ob das so ist könntest Du vielleicht mit einer kleineren Analyse prüfen. Vielleicht läßt Dein Hoster Dich ja noch einmal einige 1000 Links prüfen. Du kannst dann ein Histogramm für die Anzahl an enthaltenen Links pro Seite erstellen.

Kommentar von irgendetwas1234 ,

Uff, das ist sehr ausführlich, danke sehr.
Leider werde ich das wohl nicht auf die Reihe bekommen, da muss ich das raus nehmen. Aber für das nächste Projekt weiß ich Bescheid

Kommentar von WeicheBirne ,

Tut mir echt leid für Dich :o(

Manchmal passiert leider so ein Mist. Ist mir auch schon so gegangen.

Keine passende Antwort gefunden?

Fragen Sie die Community