Websemantik
Information Retrieval
Information Retrieval
39
0.0 (0)
Nicht sichtbar
Nicht sichtbar
Kartei Details
Karten | 39 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 31.08.2013 / 02.09.2013 |
Lizenzierung | Kein Urheberrechtsschutz (CC0) |
Weblink |
https://card2brain.ch/box/websemantik
|
Einbinden |
<iframe src="https://card2brain.ch/box/websemantik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Definition IR
Finden von Material (Dokumenten) unstrukturierter Natur (Texte) innerhalb einer großen Anzahl von Dokumenten, die meist auf Computern gespeichert sind. Dabei wird eine Informationsbedürfnis eines Benutzers gestillt.
Retrievalmodel - Ermittelt
- ermittelt die Struktur der Dokumente/Abfragen,
- wie kann man feststellen welche Dokumente der Abfrage am ehesten entsprechen
- --> Suchmatrix (Ähnlichkeit/Matchingfunktion) nötig
- Ähnlichkeitsfunktion wird durch Suchbegriffe beeinflußt
Retrievalmodel - Bedeutung/Qualität
Bedeutung:
- wird durch Ähnlichkeitsfunktion bestimmt
- soll das Userbedürfnis (richtiges thema, Neuheit) stillen
- kein Objektives Mß (alter d. Dokuments, vertrauenswürdigkeit des Dokuments?
Qualität:
dadurch bestimmt, wie gut wurde das Userbedürfnis abgedeckt wurde
Vergleich SQL:
- SQL kann benutzt werden um Retrieval-Model zu implementierten
- Korrek. Evaluierung einer Query Language Expresseion
IR-Definitionen
- QUERY
- Repräsentation was Benutzer sucht (Liste von Wörtern od. Phrase)
- nicht mit SQL verwechseln!
- DOCUMENT
- Informationsobjekt, welches Benutzer abrufen will
- CORPUS/COLLECTION
- Menge von Dokumenten
- INDEX
- Informationsobjekt, welches Abfragen erleichtert
- TERM
- Wort od. Begriff welches im DOKUMENT od. QUERY vorkommt
- DICTIONARY
- eine sortierte Liste aller TERME im CORPUS, vom INDEX benutzt
Schritte während der Normalisierung
- abschneiden unerwünschter Zeichen/Markups (Htmltags zb.)
- Tokenization
- Stopwörter-Entfernung
- Stemming
- Synonym-Matching
- Indizierung
Tokenisierung
Prozess des Herausbrechens von Wörtern/Phrasen/Symbolen aus Textstrom
- passiert nicht auf Wortebene
- nicht-trivial f. bestimmte domänen (zB Biomedizin)
- Tokens: kleinste Einheit von aussagekräftigen Text
- Tokenizer beruht auf simplen Heuristiken
- z.B. Alle benachbarten Strings des Alphabets sind Teil eines Tokens
- Whitespaceentferung im Token oder auch nicht
Stemming
heuristischer Prozess der die Wortenden abschneidet
verschiedene Wortformen haben selbe Bedeutung
- z.b. search, searching
Token werden zu Wurzelwörtern reduziert
- zb. computational -> compute