Premium Partner

Websemantik

Information Retrieval

Information Retrieval

Nicht sichtbar

Nicht sichtbar

Kartei Details

Karten 39
Sprache Deutsch
Kategorie Informatik
Stufe Universität
Erstellt / Aktualisiert 31.08.2013 / 02.09.2013
Lizenzierung Kein Urheberrechtsschutz (CC0)
Weblink
https://card2brain.ch/box/websemantik
Einbinden
<iframe src="https://card2brain.ch/box/websemantik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Definition IR

Finden von Material (Dokumenten) unstrukturierter Natur (Texte) innerhalb einer großen Anzahl von Dokumenten, die meist auf Computern gespeichert sind. Dabei wird eine Informationsbedürfnis eines Benutzers gestillt.

IR-Process

Query --> erzeuge Queryrepräsentation --> in suche einfließen

Corpus (mehr. Dok) --> erzeuge Dokumentenrepräsentation --> Index --> in Suche einfließen

Suchergebnis -->Dokumente nach Rang sortierte and Benutzer zurückgeben

Retrievalmodel - Ermittelt

  • ermittelt die Struktur  der Dokumente/Abfragen,
  • wie kann man feststellen welche Dokumente der Abfrage am ehesten entsprechen
  • --> Suchmatrix (Ähnlichkeit/Matchingfunktion) nötig
  • Ähnlichkeitsfunktion wird durch Suchbegriffe beeinflußt

Retrievalmodel - Bedeutung/Qualität

Bedeutung:

  • wird durch Ähnlichkeitsfunktion bestimmt
  • soll das Userbedürfnis (richtiges thema, Neuheit) stillen
  • kein Objektives Mß (alter d. Dokuments, vertrauenswürdigkeit des Dokuments?

Qualität:

dadurch bestimmt, wie gut wurde das Userbedürfnis abgedeckt wurde

Vergleich SQL:

  • SQL kann benutzt werden um Retrieval-Model zu implementierten
  • Korrek. Evaluierung einer Query Language Expresseion

 

IR-Definitionen

  1. QUERY
    • Repräsentation was Benutzer sucht (Liste von Wörtern od. Phrase)
    • nicht mit SQL verwechseln!
  2. DOCUMENT
    • Informationsobjekt, welches Benutzer abrufen will
  3. CORPUS/COLLECTION
    • Menge von Dokumenten
  4. INDEX
    • Informationsobjekt, welches Abfragen erleichtert
  5. TERM
    • Wort od. Begriff welches im DOKUMENT od. QUERY vorkommt
  6. DICTIONARY
    • eine sortierte Liste aller TERME im CORPUS, vom INDEX benutzt

Schritte während der Normalisierung

  • abschneiden unerwünschter Zeichen/Markups (Htmltags zb.)
  • Tokenization
  • Stopwörter-Entfernung
  • Stemming
  • Synonym-Matching
  • Indizierung

Tokenisierung

Prozess des Herausbrechens von Wörtern/Phrasen/Symbolen aus Textstrom

  • passiert nicht auf Wortebene
  • nicht-trivial f. bestimmte domänen (zB Biomedizin)
  • Tokens: kleinste Einheit von aussagekräftigen Text
  • Tokenizer beruht auf simplen Heuristiken
    • z.B. Alle benachbarten Strings des Alphabets sind Teil eines Tokens
    • Whitespaceentferung im Token oder auch nicht

Stemming

heuristischer Prozess der die Wortenden abschneidet

verschiedene Wortformen haben selbe Bedeutung

  • z.b. search, searching

Token werden zu Wurzelwörtern reduziert

  • zb. computational -> compute