
- Titel: Information Retrieval
- Organisation: UNI DUISBURG
- Seitenzahl: 204
Inhalt
- Einführung
- Was ist Information Retrieval?
- IR-Konzepte
- Daten — Information — Wissen
- Konzeptionelles Modell für IR-Systeme
- Evaluierung
- Effizienz und Effektivität
- Relevanz
- Distributionen
- Standpunkte und Bewertungsmaße
- Benutzerstandpunkte
- Benutzer- vs. Systemstandpunkte
- Maße für boolesches Retrieval
- Recall, Precision und Fallout
- Recall-Abschätzung
- Frageweise Vergleiche
- Mittelwertbildung
- Rangordnungen
- Lineare Ordnung
- Schwache Ordnung
- Interpretation von Recall-Precision-Graphen
- Abbruchkriterium
- Abbruchkriterium
- Mittelwertbildung und Signifikanztests bei Rangordnungen
- Nützlichkeitsmaß
- Evaluierungsinitiativen
- Evaluierungsmaße
- TREC
- CLEF
- NTCIR
- INE
- Evaluierung von interaktivem Retrieval
- Wissensrepräsentation für Texte
- Problemstellung
- Freitextsuche
- Informatischer Ansatz
- Computerlinguistischer Ansatz
- Dokumentationssprachen
- Allgemeine Eigenschaften
- Klassifikationen
- Thesauri
- RDF (Resource Description Framework)
- Dokumentationssprachen vs. Freitext
- Beurteilung der Verfahren zur Repräsentation von Textinhalten
- Zusammenhang zwischen Modellen und Repräsentationen
- Textrepräsentation für IR-Modelle
- Einfache statistische Modelle
- Nicht-probabilistische IR-Modelle
- Notationen
- Überblick über die Modelle
- Boolesches Retrieval
- Mächtigkeit der booleschen Anfragesprache
- Nachteile des booleschen Retrieval
- Fuzzy-Retrieval
- Beurteilung des Fuzzy-Retrieval
- Das Vektorraummodell
- Coordination Level Match
- Relevance Feedback
- Dokumentindexierung
- Beurteilung des VRM
- Dokumenten-Clustering
- Cluster-Retrieval
- Ähnlichkeitssuche von Dokumenten
- Probabilistisches Clustering
- Cluster-Browsing
- Scatter/Gather-Browsing
- Probabilistic Models in Information Retrieval
- Introduction
- Basic concepts of relevance models
- The binary independence retrieval model
- A conceptual model for IR
- Parameter learning in IR
- Event space
- The Probability Ranking Principle
- Some relevance models
- A description-oriented approach for retrieval functions
- The binary independence indexing model
- A description-oriented indexing approach
- The 2-Poisson model
- Retrieval with probabilistic indexing
- IR as uncertain inference
- Parameter estimation
- Parameter estimation and IR models
- Standard methods of parameter estimation
- Optimum parameter estimation
- Models based on propositional logic
- A Probabilistic Inference Model
- Classical IR models
- Disjoint basic concepts
- Nondisjoint basic concepts
- Models based on predicate logic
- Introduction
- Terminological logic
- Thesauri
- Elements of terminological logic
- Semantics of MIRTL
- Retrieval with terminological logic
- Datalog
- Introduction
- Hypertext structure
- Aggregation
- Object hierarchy
- Retrieval with terminological knowledge
- Probabilistic Datalog
- Introduction
- Informal description of DatalogP
- Syntax
- Semantics of DatalogP
- Evaluation of DatalogP programs
- DatalogP with independence assumptions
- Further application examples
- Probabilistic rules
- IR-Systeme
- Ebenenarchitektur
- Konzeptionelle Ebene
- Stufen der Systembeteiligung
- Arten von Suchaktivitäten
- Kombination von Systembeteiligung und Suchaktivitäten
- Semantic level
- The FERMI multimedia retrieval model
- POOL
- FMM and POOL
- Implementierung von IR-Systemen
- Hardware-Aspekte
- Speichermedien
- Ein-/Ausgabegeräte
- Kommunikationsnetzwerke
- Aufbau von IRS
- Funktionale Sicht
- Dateistruktur
- Dialogfunktionen herkömmlicher IRS
- Dokumentarchitekturen
- ODA
- Markup-Sprachen
- Zugriffspfade
- Scanning
- Ähnlichkeit von Zeichenketten
- Invertierte Listen
- Signaturen
- PAT-Bäume
- Fact Retrieval
- A Probabilistic Approach to Fact Retrieval
- Introduction
- Foundations of the probabilistic model
- Indexing for missing or imprecise data
- Retrieval functions
- Integration of Text and Fact Retrieval
- Introduction
- Extending text retrieval methods for coping with facts
- An application example
Vorschau
Information Retrieval Skriptum zur Vorlesung im SS 04
Norbert Fuhr 11. Juni 2004
Inhaltsverzeichnis
1 Einfuhrung ¨ 1.1 Was ist Information Retrieval? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 IR-Konzepte 2.1 Daten — Information — Wissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Konzeptionelles Modell f¨r IR-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 3 Evaluierung 3.1 Effizienz und Effektivit¨t . . . . . . . . . . . . . . . . . . . . . . . a 3.2 Relevanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Distributionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Standpunkte und Bewertungsmaße . . . . . . . . . . . . . . . . . . 3.4.1 Benutzerstandpunkte . . . . . . . . . . . . . . . . . . . . . 3.4.2 Benutzer- vs. Systemstandpunkte . . . . . . . . . . . . . . . 3.5 Maße f¨r boolesches Retrieval . . . . . . . . . . . . . . . . . . . . . u 3.5.1 Recall, Precision und Fallout . . . . . . . . . . . . . . . . . a 3.5.2 Recall-Absch¨tzung . . . . . . . . . . . . . . . . . . . . . . 3.5.3 Frageweise Vergleiche . . . . . . . . . . . . . . . . . . . . . 3.5.4 Mittelwertbildung . . . . . . . . . . . . . . . . . . . . . . . 3.6 Rangordnungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Lineare Ordnung . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2 Schwache Ordnung . . . . . . . . . . . . . . . . . . . . . . . 3.7 Interpretation von Recall-Precision-Graphen . . . . . . . . . . . . . 3.7.1 Abbruchkriterium: Anzahl der relevanten Dokumente (NR) 3.7.2 Abbruchkriterium: Anzahl der Dokumente . . . . . . . . . . 3.8 Mittelwertbildung und Signifikanztests bei Rangordnungen . . . . 3.9 N¨tzlichkeitsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 3.10 Evaluierungsinitiativen:TREC, CLEF, NTCIR und INE . . . . . 3.10.1 Evaluierungsmaße . . . . . . . . . . . . . . . . . . . . . . . 3.10.2 TREC: Text REtrieval Conference . . . . . . . . . . . . . . 3.10.3 CLEF: Cross-Language Evaluation Forum . . . . . . . . . . 3.10.4 NTCIR: NACSIS Test Collection Project . . . . . . . . . . 3.10.5 INE : Initiative for the Evaluation of ML Retrieval . . . 3.11 Evaluierung von interaktivem Retrieval . . . . . . . . . . . . . . . 4 Wissensrepr¨sentation fur Texte a ¨ 4.1 Problemstellung . . . . . . . . . . . . . 4.2 Freitextsuche . . . . . . . . . . . . . . 4.2.1 Informatischer Ansatz . . . . . 4.2.2 Computerlinguistischer Ansatz 4.3 Dokumentationssprachen . . . . . . . 4.3.1 Allgemeine Eigenschaften . . . 4.3.2 Klassifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 8 8 9 13 14 14 15 15 15 16 16 16 17 18 19 20 20 21 24 24 27 27 28 31 31 31 32 32 32 33 34 34 34 35 36 43 43 43
1
INHALTSVER EICHNIS 4.3.3 Thesauri . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4 RDF (Resource Description Framework) . . . . . . . . . 4.3.5 Dokumentationssprachen vs. Freitext . . . . . . . . . . . Beurteilung der Verfahren zur Repr¨sentation von Textinhalten a usammenhang zwischen Modellen und Repr¨sentationen . . . a 4.5.1 Textrepr¨sentation f¨r IR-Modelle . . . . . . . . . . . . a u 4.5.2 Einfache statistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 48 52 54 55 56 56 56 57 57 58 58 59 59 59 60 61 62 62 65 66 66 67 68 68 71 71 72 72 72 72 74 75 76 77 79 79 83 85 87 87 89 90 90 91 93 96 96 97 97 99
4.4 4.5
5 Nicht-probabilistische IR-Modelle 5.1 Notationen . . . . . . . . . . . . . . . . . . . . . . ¨ 5.2 Uberblick uber die Modelle . . . . . . . . . . . . . ¨ 5.3 Boolesches Retrieval . . . . . . . . . . . . . . . . . 5.3.1 M¨chtigkeit der booleschen Anfragesprache a 5.3.2 Nachteile des booleschen Retrieval . . . . . 5.4 Fuzzy-Retrieval . . . . . . . . . . . . . . . . . . . . 5.4.1 Beurteilung des Fuzzy-Retrieval . . . . . . . 5.5 Das Vektorraummodell . . . . . . . . . . . . . . . . 5.5.1 Coordination Level Match . . . . . . . . . . 5.5.2 Relevance Feedback . . . . . . . . . . . . . 5.5.3 Dokumentindexierung . . . . . . . . . . . . 5.5.4 Beurteilung des VRM . . . . . . . . . . . . 5.6 Dokumenten-Clustering . . . . . . . . . . . . . . . 5.6.1 Cluster-Retrieval . . . . . . . . . . . . . . . ¨ 5.6.2 Ahnlichkeitssuche von Dokumenten . . . . . 5.6.3 Probabilistisches Clustering . . . . . . . . . 5.6.4 Cluster-Browsing . . . . . . . . . . . . . . . 5.6.5 Scatter/Gather-Browsing . . . . . . . . . .
6 Probabilistic Models in Information Retrieval 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Basic concepts of relevance models . . . . . . . . . . . . . . . 6.2.1 The binary independence retrieval model . . . . . . . 6.2.2 A conceptual model for IR . . . . . . . . . . . . . . . 6.2.3 Parameter learning in IR . . . . . . . . . . . . . . . . 6.2.4 Event space . . . . . . . . . . . . . . . . . . . . . . . . 6.2.5 The Probability Ranking Principle . . . . . . . . . . . 6.3 Some relevance models . . . . . . . . . . . . . . . . . . . . . . 6.3.1 A description-oriented approach for retrieval functions 6.3.2 The binary independence indexing model . . . . . . . 6.3.3 A description-oriented indexing approach . . . . . . . 6.3.4 The 2-Poisson model . . . . . . . . . . . . . . . . . . . 6.3.5 Retrieval with probabilistic indexing . . . . . . . . . . 6.4 IR as uncertain inference . . . . . . . . . . . . . . . . . . . . . 6.5 Parameter estimation . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Parameter estimation and IR models . . . . . . . . . . 6.5.2 Standard methods of parameter estimation . . . . . . 6.5.3 Optimum parameter estimation . . . . . . . . . . . . . 7 Models based on propositional logic 7.1 A Probabilistic Inference Model . . . 7.2 Classical IR models . . . . . . . . . . 7.2.1 Disjoint basic concepts . . . . 7.2.2 Nondisjoint basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .