Premium Partner

IR - Kontrollfragen

Informationswissenschaft

Informationswissenschaft

Nicht sichtbar

Nicht sichtbar

Kartei Details

Karten 34
Sprache Deutsch
Kategorie Allgemeinbildung
Stufe Universität
Erstellt / Aktualisiert 06.03.2012 / 19.04.2021
Lizenzierung Kein Urheberrechtsschutz (CC0)
Weblink
https://card2brain.ch/box/ir_kontrollfragen
Einbinden
<iframe src="https://card2brain.ch/box/ir_kontrollfragen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was wird bei der Evaluierung von IRS bewertet!

Die Effektivität und die Effizienz der Retrievalsysteme

Effektivität: wie gut wird die Aufgabe erfüllt. Qualität der Ergebnisse

Effizienz: Aufwand, den das System erfordert. Effizienzfaktoren wie z.B.: Antwortzeiten, Monetäre

Kosten, Lernaufwand.

Was bedeutet Precision und Recall und wie werden diese zwei Werte berechnet!

Precision / Genauigkeit (Teil 1)

Die Ermittlung der "Precision" ist ein Mittel zur Bewertung der Effizienz eines IR-Systems. Mathematisch definiert wird sie über folgende

Formel: Precision = Anzahl der gefundenen relevanten Dokumente, geteilt durch die Anzahl aller gefundenen Dokumente. Die Precision kann somit einen Wert

zwischen 0 und 1 annehmen. Eine Precision von 1 besagt, dass alle gefundenen Dokumente als relevant gelten. Sie gibt also in gewissem Sinne die Genauigkeit der Treffer in einer Datenbank wieder.

Was bedeutet Precision und Recall und wie werden diese zwei Werte berechnet! (Teil 2)

Zur Feinrecherche ist eine hohe Precision sinnvoll, da man nur 100%ig relevante Dokumente erhält und somit die Anzahl der

Dokumente, auch auf die Gefahr hin, dass einem interessante Dokumente entgehen, gering gehalten wird. Recall / Vollständigkeit: Die Ermittlung des "Recall" ist ein Mittel zur Bewertung der Effektivität eines IR-Systems. Mathematisch definiert wird er über folgende Formel: Recall = Anzahl der gefundenen relevanten

Dokumente geteilt durch die Anzahl aller relevanten Dokumente in der DB. Der Recall kann somit einen Wert zwischen 0 und 1 annehmen. Ein Recall von 1

besagt, dass alle relevanten Dokumente der Datenbank gefunden wurden. Er ermöglicht also Schlüsse auf den Umfang der Datenbank. Zur Grobrecherche ist ein

Wie verhalten sich die durchschnittlichen Recall-Precision-Werte bei steigender Anzahl Treffer in der Ergebnismenge! Interpretieren sie den

Je mehr Treffer aufgelistet werden, umso höher ist der Recall (Vollständigkeit). Gleichzeitig verschlechtert sich hingegen die Precision (Genauigkeit), da die hohe

Anzahl an Treffern die Genauigkeit beeinträchtigt. Bzw.: Je mehr Treffer angezeigt werden, umso schwieriger wird es, das treffendste Dokument zu finden.

So ist der Recall zwar sehr hoch, wenn viele Dokumente gefunden wurden; die Precision jedoch eher tief. Wenn hingegen die Precision sehr hoch ist, ist in der Regel

der Recall tief.

Als Zusatzinfo:

Die Precision:

0 = Kein Dokument ist relevant, 1 = Alle Dokumente, die ich erhalten habe, sind relevant

Der Recall:

0 = Keines der relevanten Dokumente wurde gefunden,

1 = Alle relevanten Dokumente wurden gefunden

Idealer Wert bei Recall & Precision: 1,

JEDOCH: Im Normalfall muss eine Entscheidung getroffen werden, auf welchen Messwert man mehr Wert legt. Denn eine hohe Precision und einen hohen Recall

erreicht man nur in den seltensten Fällen gleichzeitig.

Welche Bedeutung haben die Werte Fallout und Generality!

Der Fallout bezieht sich auf ein Verhältnis der Daten, die bei einer Recherche gefunden wurden aber nicht relevant sind, zu allen Dateien die nicht zu der gestellten

Suchanfrage passen. Dabei wird die Zahl der gefundenen Daten durch die Zahl aller nicht relevanten Dateien dividiert.Je tiefer das Ergebnis ausfällt, desto besser

wurde die Suchanfrage formuliert. Denn sobald viele nicht relevante Dokumente gefunden werden, ist die Suchanfrage zu oberflöchlich.

Die Generality bezieht sich ebenfalls auf die Formulierung der Suchanfrage. Dabei werden alle relevanten Daten, die gefunden wurden und die Daten, die man noch

im Datenpool vermutet durch die gesamt Zahl aller relevanten Daten und nciht relevanten Daten dividiert. Hier ist das Ergebnis aber umgekehrt zu bewerten. Denn

je höher das Ergebnis ausfällt, desto besser wurde die Suchanfrage erstellt. Bekavac: Gei der Generality wird eher die thematische Abdeckung der Wissensbasis

Welche Probleme kann es bei der Beurteilung der Relevanz von Suchergebnissen geben!

In der Bewertung der Relevanz geht es vorerst einmal darum, dass die Suchergebnisse mit der gestellten Suchanfrage verglichen werden. Die maschinelle Relevanz wird durch die Analyse der inhaltlichen Ähnlichkeit durch lexikalische Ähnlichkeit überprüft. Aber ob das entsprechende Rechercheergebnis wirklich relevant ist, kann nur derjenige bestätigen, der ein bestimmtes Informationsbedürfnis formuliert und aus

dem Rechercheergebnis eine passende Antwort erhält. Hier spricht man von einer benutzerorientierten Relevanz.

Aus der Sicht der Anwender können aber auch Recherche-ergebnisse relevant sein, die nicht im Kontext des formulierten Informationsbedarfes stehen. Dies ist

meistens der Fall, wenn das Ergebnis sich für eine andere Frage-stellung als nützlich erweist. Wenn eine grosse Ergebnismenge anfällt, kann es sein, dass

Dokumente mit ähnlichem Inhalt nicht mehr relevant sind, da bereits eine Auswahl getroffen wurde. Weiter kann es vorkommen, das ein Dokument in der

Ergebnisliste...

Was versteht man unter TREC!

TREC steht für Text REtrieval Conference. Diese besteht aus einer Reihe von wissenschaftlichen Konferenzen, welche die Forschung im Bereich des Information

Retrieval fördern und unterstützen.

Als Zusatzinfo:

Die Konferenzen bestehen aus mehreren Tracks, die unterschiedliche Problemstellungen behandeln. Zu jedem Track gibt es einen Wettbewerb, bei dem die

teilnehmenden Gruppen Datensätze und Testaufgaben erhalten. Nach dem Auswerten der Ergebnisse, tauschen sich die Teilnehmer aus und stellen aktuelle und

künftige Forschungsfelder vor.

Um eine grossflächige Evaluation von Information-Retrieval-Methoden zu ermöglichen, wird an den Konferenzen jeweils eine gut ausgebaute Infrastruktur

Welches sind als Informationsdienstleistungen die 'Ahnen' des Information Retrieval! Schätzen Sie Vor- und Nachteile dieser Formen gegenüber

dem modernen Online-Retrieval ein!

Bibliothekskataloge, Bibliografien, Referateorgane, statistische Jahrbücher, Fachhandbücher

der Fakteninformation. allgemein: gedruckte Medien oder Versand von CD-Rom.

Nachteile

o Suche dauert länger

o Zugänglichkeit zu den Daten ist für die Kunden erschwert. (Versand von CDRom,

Versand von Referenzlisten, etc.)

o grössere Monetäre Kosten (für DBProduzent)

o eher kleinere Sammlungen

o Erstellung dauert sehr lange

Vorteile

o Hostanbieter nicht notwendig

o traditioneller Wert (Bibliothekare, die die Arbeit mit Papier dem Computer vorziehen.)