Meine Mutter besucht einen Online-Kurs, um eine Art Bibliothekarin zu werden. In diesem Kurs werden Boolesche Suchen behandelt, damit sie Datenbanken effizient durchsuchen können. Sie hat jedoch eine Frage, die in etwa so aussieht:
Die Suche "x ODER y" ergibt 105 000 Treffer, während eine Suche nach nur x 80 000 Treffer ergibt und eine Suche nach nur y 35 000 Treffer ergibt. Warum ergibt die Suche "x ODER y" 105 000 Treffer, wenn die kombinierte Einzelsuche 115 000 Treffer ergibt?
Für mich klang das seltsam, also habe ich das selbst getestet, mit den Worten Speck und Sandwich .
- Nur Speck lieferte 179 000 000 Ergebnisse
- Nur Sandwich ergab 312 000 000 Ergebnisse
- Speck oder Sandwich gab 491 000 000 Ergebnisse
Aber für mich summiert sich: 179 000 000 (Speck) + 312 000 000 (Sandwich) = 491 000 000 (Speck ODER Sandwich)
Warum kann eine ODER-Abfrage zu weniger Treffern führen als beide Einzelabfragen zusammen?
Antworten:
Hinweis: Die Suche x UND y ergibt 10 000 Treffer.
quelle
Hier gilt das Zählprinzip Einschluss-Ausschluss .
Damit die Zahlen klappen,|X∩Y|
Ein Venn-Diagramm kann für jemanden überzeugender sein, der sich von der Notation einschüchtern lässt.
quelle
Dokument 1: Die Katze ist auf dem Tisch
Dokument 2: Meine Katze ist schwarz
Dokument 3: Der Hund ist unter dem Tisch
Dokument 4: Wie heißt Ihre Katze?
Dokument 5: Dies ist ein Schwarzweißfoto
Search for cat: returned documents are 1,2,4 (3 documents returned)
Search for black: returned documents are ...
Search for cat OR black: returned documents are ...
:-D :-D
quelle
In simple words:
Search for X gives you n answers.
Search for Y gives you m answers.
Search for X AND Y gives you p answers.
In searching for X OR Y, the search breaks off as soon as it finds either X or Y. So if there's an X before a Y, that Y will not be counted in searching for X OR Y. Therefore your search for X OR Y will give you n + m - p answers.
It's important to note that the results will be the same, whether you do 2 searches, or just one. It's just that in summing the two searches, some documents are counted twice.
quelle
Imagine you have only one document. This is Document#1 with this:
Now imagine you have a search function that can give you all the documents based on one keyword:
Notice that the number of documents in both cases is 1. Now if you have a search function that gives you the number of documents that matched one or more of the keywords supplied:
When you add the number of documents containing
X
to the number of documents containingY
, this causes you to count the same document twice. In your case, this happened10000
times as pointed out above :)quelle