Frage von sophie1235, 16

Warum heißen "Stoppwörter" Stoppwörter, obwohl sie übergangen werden?

Im Information Retrieval bzw. in der Informationsrückgewinnung (siehe https://de.wikipedia.org/wiki/Information_Retrieval ) gibt es sogenannte Stoppwörter. Indiziert ein Webcrawler eine Internetseite, so werden Stoppwörter wie "und", "der", "ein", etc. nach der Indizierung in der Regel verworfen, weil sie für die Auswertung des Textinhalts nur von geringer Bedeutung sind.

Auch wenn die Stoppwörter mitindiziert werden, müssten sie doch eigentlich z.B. "Übergangswörter" heißen, weil der Webcrawler sie ignoriert bzw. übergeht, oder nicht? Die Wörter, die für die Erfassung des Textinhaltes tatsächlich interessant sind, sind das genaue Gegenteil der Stoppwörter, obwohl der Webcrawler bei diesen (bildlich gesehen) einen Stopp macht, um sie zu indizieren.

Gestellt habe ich mir diese Frage, weil ich herausfinden wollte, wie man das Gegenteil von einem Stoppwort nennt. Wie nennt man die Wörter, die bei der maschinellen Auswertung des Textinhalts von hoher Bedeutung sind?

Antwort
von Mikkey, 11

Die Wörter werden vor dem Eintragen in den Index gestoppt.

Kommentar von sophie1235 ,

Kannst Du das etwas detaillierter erklären?

Kommentar von Mikkey ,

Die "normalen" Wörter fließen aus den Texten in den Index, die Stoppwörter werden angehalten ("gestoppt").

Kommentar von sophie1235 ,

Alles klar, das macht Sinn. Vielen Dank!

Und kannst Du mir sagen, wie nun die Wörter heißen, die in den Index kommen?

Kommentar von Mikkey ,

Ich würde sie "Stichwörter" nennen.

Keine passende Antwort gefunden?

Fragen Sie die Community