Capitole Speciale de Informatică Curs 4: Calculul scorurilor în un sistem complet de extragere a informaţiilor 18 octombrie 2018 Reamintim că în cursu

Documente similare
Capitole Speciale de Informatica - Curs 5: Extragerea informatiilor prin feedback de relevanta. Metode probabiliste de extragere a informatiilor

Capitole Speciale de Informatică Curs 2: Determinarea vocabularului de termeni şi a listelor de postări 4 octombrie 2018 Reamintim că listele de indec

Capitole Speciale de Informatică Curs 1: Extragerea informaţiilor. Modelul boolean şi modelul boolean extins 27 septembrie 2018 Extragerea informaţiil

Curs 6: Clasificarea surselor de informatii - Clasificarea Bayes Naiva. Modelul Bernoulli

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Microsoft Word - Algoritmi genetici.docx

PAS cap. 2: Reprezentări rare p. 1/35 Prelucrarea avansată a semnalelor Capitolul 2: Reprezentări rare Bogdan Dumitrescu Facultatea de Automatică şi C

I

ALGORITMICĂ. Seminar 3: Analiza eficienţei algoritmilor - estimarea timpului de execuţie şi notaţii asimptotice. Problema 1 (L) Să se determine număru

Curs 3 Permutari cu repetitie. Combinari. Algoritmi de ordonare si generare

1. Găsiți k numerele cele mai apropiate într-un şir nesortat Dându-se un şir nesortat și două numere x și k, găsiți k cele mai apropiate valori de x.

OPERATII DE PRELUCRAREA IMAGINILOR 1

Analiză statică Analiza fluxului de date 23 octombrie 2014

Modelarea si Simularea Sistemelor de Calcul

Cursul 12 (plan de curs) Integrale prime 1 Sisteme diferenţiale autonome. Spaţiul fazelor. Fie Ω R n o mulţime deschisă şi f : Ω R n R n o funcţie de

PROGRAMARE ORIENTATA PE OBIECTE

Microsoft Word - 2 Filtre neliniare.doc

Microsoft Word - cap1p4.doc

Logică și structuri discrete Limbaje regulate și automate Marius Minea marius/curs/lsd/ 24 noiembrie 2014

Analiză de flux de date 29 octombrie 2012

DAN LASCU ADRIANA-LIGIA SPORIŞ ANDA OLTEANU PAUL VASILIU MATEMATICĂ. CULEGERE DE PROBLEME TIP GRILĂ PENTRU ADMITEREA ÎN ACADEMIA NAVALĂ MIRCEA CEL BĂT

PowerPoint Presentation

Paradigme de Programare

Clustere şi impurităţi în sisteme complexe

VALORIFICAREA EXPERIENŢEI POZITIVE PRIVIND PROIECTAREA CURRICULARĂ ÎN ÎNVĂŢĂMÂNTUL LICEAL PORNIND DE LA COMPETENŢE CA FINALITĂŢI ALE ÎNVĂŢĂRII Prof. P

Diapositive 1

BAC 2007 Pro Didactica Programa M1 2 Rezolvarea variantei 61 versiune finală Redactia Pro Didactica Suportul pe net:

Cuantizare Vectoriala.doc

Creational design patterns

Logică și structuri discrete Logică propozițională Marius Minea marius/curs/lsd/ 3 noiembrie 2014

Microsoft Word - CarteC.doc

Sistem de supraveghere video inteligent cu localizarea automata a evenimentelor de interes SCOUTER, cod proiect PN-II-IN-DPST , contract nr

Microsoft PowerPoint - Curs_SDA_9_RO_2019_v2.pptx

Subiectul 1

Slide 1

Spatii vectoriale

Microsoft Word - Software pentru ordonarea multirang a componentelor unei colectivitati.doc

Microsoft PowerPoint - Curs_SDA_10_RO_2019_v1.pptx

Microsoft Word - matem_aplicate in Economie aa FD Bala.doc

E_d_Informatica_sp_SN_2014_bar_10_LRO

Dorel LUCHIAN Gabriel POPA Adrian ZANOSCHI Gheorghe IUREA algebră geometrie clasa a VIII-a ediţia a V-a, revizuită mate 2000 standard EDITURA PARALELA

Gheorghe IUREA Adrian ZANOSCHI algebră geometrie clasa a VII-a ediţia a V-a, revizuită mate 2000 standard EDITURA PARALELA 45 Matematică. Clasa a VII-

Curs 10 Aplicaţii ale calculului diferenţial. Puncte de extrem 10.1 Diferenţiale de ordin superior S¼a trecem acum la de nirea diferenţialelor de ordi

Fâciu N. Maria-Ema CASA CORPULUI DIDACTIC BRĂILA PROGRAM DE FORMARE INFORMATICĂ ȘI TIC PENTRU GIMNAZIU CLASA A V-A SERIA 1 GRUPA 2 CURSANT: Fâciu N. M

Facultatea de Matematică Anul II Master, Geometrie Algebrică Mulţimi algebrice ireductibile. Dimensiune 1 Mulţimi ireductibile Propoziţia 1.1. Fie X u

Slide 1

Slide 1

Lecții de pregă,re la informa,că Admitere 2019 Tema: Discutarea problemelor date la ul,mele sesiuni de admitere Bogdan Alexe

ALGORITMII ŞI REPREZENTAREA LOR Noţiunea de algoritm Noţiunea de algoritm este foarte veche. Ea a fost introdusă în secolele VIII-IX de către Abu Ja f

Facultatea de Științe Politice, Administrative și ale Comunicării Str. Traian Moșoiu nr. 71 Cluj-Napoca, RO Tel.: Fax:

LUCRAREA 8 PROGRAMAREA NELINIARĂ ÎN REZOLVAREA PROBLEMELOR DIN ENERGETICĂ. METODE DE ORDINUL Aspecte generale Programarea neliniară are o foart

Microsoft Word - Curs_09.doc

D.Rusu, Teoria măsurii şi integrala Lebesgue 6 MĂSURA LEBESGUE Cursul 5 Teorema 6.26 Există submulţimi ale lui R care nu sunt măsurabile Lebesgue. Dem

Probleme rezolvate informatica: Probleme rezolvate grafuri si a

Transmisia datelor multimedia in retele de calculatoare <Titlu Lucrare>

Introducere

PowerPoint Presentation

Laborator 9: Fire de execuţie Întocmit de: Adina Neculai Îndrumător: Asist. Drd. Gabriel Danciu 20 noiembrie 2011

Plan de activități Domeniul: Siguranța online Tema: Reputația mea online Grupul țintă: Elevii claselor a VIII-a IX-a Obiective operaționale O1 Elevii

Laborator 4: Continuare Programare Orientată pe Obiecte Întocmit de: Adina Neculai Îndrumător: Asist. Drd. Gabriel Danciu 29 octombrie 2011

Addendum Syllabus 6 Microsoft Access 2016 REF Syllabus 6.0 Cunoașterea domeniilor în care se utilizează bazele de date Datorită potenţialului ma

Informație și comunicare

Universitatea Politehnica din Bucureşti 2019 Disciplina: Geometrie şi Trigonometrie G1 * Varianta A 1. Ştiind cos x = 3 2, atunci sin2 x

Grafuri - Concepte de baza. Tipuri de grafuri. Modalitati de reprezentare

Pattern Recognition Systems

Matematika román nyelven középszint Javítási-értékelési útmutató 1813 ÉRETTSÉGI VIZSGA május 7. MATEMATIKA ROMÁN NYELVEN KÖZÉPSZINTŰ ÍRÁSBELI VI

Guns N' Roses Video Slots Regulile jocului Guns N' Roses Video Slots este un slot video cu 5 role, 3 rânduri și 20 de linii care conține substituții W

Concurs online de informatică Categoria PROGRAMARE Secţiunea 5-6 avansaţi PROBLEMA puncte DANS De 1 Iunie - Ziua Copilului se organizează un spe

Lucrarea 7 Filtrarea imaginilor BREVIAR TEORETIC Filtrarea imaginilor se înscrie în clasa operaţiilor de îmbunătăţire, principalul scop al acesteia fi

Probleme rezolvate de fizică traducere de Nicolae Coman după lucrarea

ALGORITHMICS

Limbaje de ordinul I LOGICA DE ORDINUL I Un limbaj L de ordinul I este format din: o mulţime numărabilă V = {v n n N} de variabile; conectorii şi ; pa

Poo Laboratoare 1 Contents Laborator7 2 1 Colecţii de obiecte în Java Interfaţa Iterator Interfaţa C

E_d_Informatica_sp_MI_2015_bar_02_LRO

Baze de date Anul 2 Teorie Examen 1. Diagrama entitate/relatie si diagrama conceptuala (curs 2-5) 2. Arbore algebric si expresie algebrica (curs 6-10)

Microsoft Word - O problema cu bits.doc

Şiruri de numere reale Facultatea de Hidrotehnică Universitatea Tehnică Gheorghe Asachi Iaşi, 2015 Analiză Matematică Lucian Maticiuc 1 / 29

Microsoft Word - TIC5

Object Oriented Programming

BAC 2007 Pro Didactica Programa M1 2 Rezolvarea variantei 36 versiune finală Redactia Pro Didactica Suportul pe net:

Microsoft Word - Curs_08.doc

Lucrarea nr. 4 - Algoritmi de sortare şi ordonare Breviar teoretic Un algoritm de sortare este o metoda prin care se aranjează elementele unui tablou

C10: Teoria clasică a împrăștierii Considerăm un potențial infinit în interiorul unui domeniu sferic de rază a și o particulă incidentă (Figura 1) la

Analiz¼a Matematic¼a - Curs 6 M¼ad¼alina Roxana Buneci

carteInvataturaEd_2.0_lectia5.pdf

Distanţa euclidiană (indusă de norma euclidiană) (în R k ). Introducem în continuare o altă aplicaţie, de această dată pe produsul cartezian R k XR k,

SUBPROGRAME

Nr

Laborator 3

MergedFile

Algebra si Geometri pentru Computer Science

Metode de sortare - pregătire admitere - Conf.dr. Alexandru Popa Lect. dr. Andrei Pătraşcu Universitatea din Bucureşti 1

COMENTARII FAZA JUDEŢEANĂ, 9 MARTIE 2013 Abstract. Personal comments on some of the problems presented at the District Round of the National Mathemati

Web Social FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 2. Dezvoltarea blogurilor prin intermediul WordPress.com PREZE

Microsoft PowerPoint - ST_5

RecMat dvi

SSC-Impartire

Teoreme cu nume 1. Problema (Năstăsescu IX, p 147, propoziţia 5) Formula lui Chasles Pentru orice puncte M, N şi P avem MN + NP = MP.

Şcoala ………

Transcriere:

Capitole Speciale de Informatică Curs 4: Calculul scorurilor în un sistem complet de extragere a informaţiilor 18 octombrie 2018 Reamintim că în cursul precedent am prezentat modelul de spaţiu vectorial în care fiecare document d din o colecţie D de N documente care are vocabularul de termeni V = {t 1,..., t M }, este reprezentat ca un vector V (d) = (wf t1,d,..., wf tm,d) unde wf ti,d este greutatea termenului t în documentul d. De obicei, wf t,d se defineşte în unul din următoarele 2 feluri: 1. wf t,d := tf t,d, adică numărul de apariţii ale termenului t în documentul d, sau 2. wf t,d := tf-idf t,d = idf t tf t,d unde idf t = log N df t Şi cererile se reprezintă ca vectori: o cerere q = t i1 t i2... t in este descrisă de vectorul V (q) = (w t1,q,..., w tm,q) unde w tj,q = 1 dacă j {i 1,..., i n } şi w tj,q = 0 în caz contrar. Valorile normalizate ale acestor vectori sunt vectorii de lungime 1 definiţi astfel: V v(d) := (d) V V şi v(q) := (q) (d) V (q) = V (q) n Scorul (sau gradul) de similaritate cosinusoidală dintre d şi q este cosinus unghiului dintre v(q) şi v(d), adică produsul scalar v(q) v(d). Sistemele complete de extragere a informaţiilor facilitează determinarea rapidă a primelor K documente care se potrivesc cel mai bine cu o cerere de căutare q, adică acele documente d pentru care scorul v(q) v(d) este cât mai mare. Pentru performanţă ridicată (adică timp de răspuns scurt, fără a compromite semnificativ calitatea răspunsului), se elimină nişte calcule inutile şi se folosesc metode euristice care nu garantează calculul exact al celor mai bune K potriviri, dar dau K răspunsuri apropiate de cele mai bune K. 1

În acest curs sunt prezentate (1) tehnici şi metode euristice de calcul al documentelor cu cele mai bune scoruri de potrivire cu o cerere dată, (2) o arhitectură pentru un motor de căutare web, bazat pe generalizări ale indecşilor şi metodelor de calcul al scorului de potrivire, şi (3) extensii ale modului de interogare pentru modelul de reprezentare a documentelor în spaţiu vectorial. Optimizare: evitarea normalizării vectorului V (q) Primele K documente care se potrivesc cel mai bine cu o cerere q sunt documentele d 1,..., d K D astfel încât v(q) v(d i ) v(q) v(d i+1 ) pentru 1 i < K, şi v(q) v(d K ) v(q) v(d) pentru toţi d D \ {d 1,..., d K }. Se observă că v(q) v(d) v(q) v(d ) V (q) V (q) v(d) V (q) V (q) v(d ) V (q) v(d) V (q) v(d ) Deci, primele K documente care se potrivesc cel mai bine cu o cerere q sunt documentele d 1,..., d K D pentru care V (q) v(d) iau valorile cele mai mari. Deoarece componentele nenule ale lui V (q) sunt 1, rezultă că algoritmul de calcul al celor mai bune potriviri din cursul 3 poate fi optimizat astfel: ScorCosinusoidalRapid(q) 1 float scoruri[n] = [0] 2 for fiecare d din colecţia D do 3 iniţializează lungime[d] 4 for fiecare termen t din cererea q do 5 obţine lista de postări a lui t 6 for fiecare pereche (d, tf t,d ) din lista de postări a lui t do 7 scoruri[d] += wf t,d 8 for fiecare document d D do 9 scoruri[d] := scoruri[d]/lungime[d] 10 return primele K componente din scoruri[ ] Figure 1: Un algoritm de calcul mai rapid al scorurilor în modelul vectorial. Extragerea primelor K componente din scoruri[ ] se poate face în 2 paşi: (1) se sortează documentele din D în ordine descrescătoare a scorurilor (în timp O(N log N)) şi se extrag primele K elemente din lista sortată de documente (în timp constant, fiindcă K este o valoare constantă). O alternativă mai eficientă este să se plaseze documentele d cu scoruri[d] > 0 în o structură heap. Dacă în colecţie sunt J documente d cu scoruri[d] > 0, construcţia structurii heap se face folosind 2 J paşi de comparare, iar apoi extragerea primelor K elementele cu cele mai mari scoruri se poate face folosind log J paşi de comparare. 2

1 Calculul inexact al primelor K potriviri Idee: există tehnici cu timp de calcul mult mai scurt care, pentru o cerere q, extrag K documente din o colecţie, pentru care probabilitatea este mare să fie printre primele K documente cu scor de potrivire maxim. D.p.d.v. al utilizatorului, aceste tehnici de potrivire inexactă sunt adesea un lucru bun: timpul de răspuns este mult mai mic, măsura de similaritate cosinusoidală este doar o aproximare a gradului de relevanţă perceput de utilizator. Vom prezenta metode euristice care au probabilitate mare să returneze K documente cu scoruri cosinusoidale apropiate de cele ale primelor K potriviri cosinusoidale. Aceste metode operează în 2 paşi: 1. Se determină o mulţime de candidaţi A care are mai mult de K elemente, adică K < A N. Nu este necesar ca A să conţină primele K potriviri pentru cererea q, dar sunt şanse mari ca A să conţină multe documente cu scoruri apropiate de primele K scoruri de potrivire. 2. Se returnează K documente din A care au cele mai mari scoruri de potrivire cu q. a) Eliminarea indecşilor Aceast a metodă euristică se aplică pentru cereri q = t 1... t n cu cel puţin 2 termeni de interogare (adică n > 1). Idee de bază: se consideră doar documente d D care conţin cel puţin un termen din q. Alte euristici posibile: Se consideră doar documente d D care conţin termeni din t cu idf t mai mare decât o valoare prestabilită. În general, termenii t cu idf t mic au liste de postări lungi mulţimea de documente pentru care se calculează scoruri devine mult mai mică. Se consideră doar documente d D cre conţin mulţi termeni din q. b) Liste de campioni Listele de campioni se calculează pentru termeni diin dicţionar şi depind de alegerea unui număr întreg pozitiv r > 0: lista de campioni a lui t V constă din r documente d care au cele mai mari valori pentru wf t,d. Idee: construcţia lui A bazată pe liste de campioni se face astfel: A este reuniunea listelor de campioni pentru termenii din cererea q. Calculul scorurilor de potrivire se face doar pentru documente din A. 3

Valoarea lui r se fixează înainte de construcţia indecşilor, şi poate varia în funcţie de termen: de pildă, r poate fi mai mare pentru termeni care apar mai rar. c) Scoruri şi ordini statice de calitate Numeroase motoare de extragere a informaţiilor calculează pentru fiecare document d o măsură g(d) a calităţii documentului, care nu depinde de vreo cerere. Astfel de m]u asuri se numesc scoruri statice de calitate. De obicei, 0 g(d) 1. Valoarea lui g(d) poate fi determinată în mai multe feluri, ce de exemplu din numărul de comentarii favorabile primite de la vizitatori pe web. Scorul net de potrivire a unui document d cu o cerere q este o combinaţie între g(d) şi wf t,d. De exemplu, poate fi scor-net(q, d) = g(d) + V (q) V (d) V (q) V (d). Pentru procesarea eficientă a listelor de postări, de exemplu pentru intersecţia a două liste de postări, este necesar ca postările tuturor termenilor să fie ordonate la fel, de exemplu: în ordine crescătoare a identificatorilor de document, sau în ordine descrescătoare a valorilor statice g(d). Exemplul de mai jos este pentru o colecţie de trei documente Doc1, Doc2 şi Doc3 cu scorurile statice de calitate g(1) = 0.25, g(2) = 0.5, g(3) = 1: auto Doc2 Doc1 best Doc3 Doc1 car Doc3 Doc2 Doc1 insurance Doc3 Doc2 Valorile statice {g(d) d D} ne permit să definim liste globale de campioni pentru o valoare fixată parametrului r: la fiecare termen t asociem ca postări postări r documente care au cele mai mari valori pentru g(d) + tf-idf t,d. Listele de postări ale tuturor termenilor trebuie ordonate după o ordine comună; de exemplu în ordine crescătoare a identificatorului de document, sau în ordine descrescătoare a scorului static de calitate g(d). d) Ordonare bazată pe impact Algoritmii de calcul al rangului bazaţi pe gradarea după termeni nu necesită ca postările termenilor să fie ordonate după o ordine comună. Idee de bază: ordonarea bazată pe impact ordinează documentele din lista de postări a unui termen t în ordine descrescătoare a valorilor lui tf t,d. Prin urmare ordonarea documentelor poate varia de la o listă de postări a unui termen la lista de postări a altui termen. 4

Acest mod de ordonare a documentelor permite reducerea semnificativă a mulţimii de documente pentru care calculăm scoruri de potrivire: 1. Putem fixa criterii de oprire a traversării unei liste de postări pentru un termen t, de exemplu (1) după ce s-a traversat un număr de r postări; sau (2) după ce tf t,d a devenit mai mică decât o anumită valoare. 2. Termenii care apar în cererea q se traversează în ordine descrescătoare a idf t. Această euristică se bazează pe observaţia că termenii t din q care contribuie cel mai mult la scorurile de potrivire a documentelor sunt cei pentru care idf t are valoare mare. putem fixa criterii de încetare a acumulării de valori pentru scorurile documentelor, pentru termeni din q care contribuie cu valori mici. e) Reducere bazată pe grupuri În reducerea bazată pe grupuri (engl. cluster pruning) se efectuează un pas de preprocesare care produce grupuri de documente, iar atunci când se primeşte o cerere de informare, se iau în considerare doar documentele dintr-un număr mic de grupuri, pentru care se calculează scorurile de potrivire cu q. Preprocesarea unei colecţii de N documente cu această metodă se face-n 2 paşi: 1. Se aleg la întâmplare N documente din colecţie. Documentele alese se numesc lideri. 2. Pentru fiecare document d din celelalte documente se calculează liderul cel mai apropiat de d. Documentele care nu sunt lideri se numesc urmăritori. Numărul estimat de urmăritori ai fiecărui lider ales aleator este N/ N = N. Procesarea unei cereri de interogare q se face astfel: 1. Se detectează documentul lider L cel mai similar cu q (se calculează N scoruri cosinusoidale) 2. Mulţimea de candidaţi A este mulţimea de urmăritori ai lui L. 5

2 Componentele unui sistem complet de extragere a informaţiilor Un sistem rudimentar complet de extragere a informaţiilor se poate dezvolta pornind de la modelul de spaţiu vectorial pentru documente şi de la ideile prezentate de calcul al scorurilor de potrivire cu o cerere de informare. 2.1 Indecşi organizaţi pe niveluri Idee de bază: Euristicile prezentate pot produce mulţimi de candidaţi A cu A < K. Indecşii organizaţi pe niveluri rezolvă această problemă, după cum este ilustrat în exemplul de mai jos: Pe nivelul 1 reţinem postări de documente d pentru termeni t cu tf t,d > 20, Pe nivelul 2 reţinem postări de documente d pentru termeni t cu tf t,d > 10, Pe nivelul 3 reţinem restul de postări de documente. O astfel de situaţie este ilustrată în figura de mai jos. Dacă eşuăm să obţinem K rezultate de pe nivelul 1, continuăm cu procesarea documentelor de pe nivelul 2, ş.a.m.d. Pe fiecare nivel, postările sunt ordonate după identificatorii de document. 2.2 Proximitatea termenilor din cereri Idee de bază: sunt mai relevante documentele în care termenii din cerere au apariţii apropiate. De exmplu, fie q o cerere de informare conţine k termeni t 1, t 2,..., t k, şi ω lăţimea (adică, numărul de termeni) celui mai mic fragment 6

din d care conţine toţi termenii din q. Cu cât ω este mai mic, cu atât este documentul mai relevant petru cererea q. Numeroase motoare de căutare (inclusiv Google) calculează măsuri de proximitate a termenilor din cereri q, care afectează scorul de potrivire al unui document cu q. 2.3 Construirea funcţiilor de analiză a cererilor şi de calcul al scorului Stare de fapt: interfeţele majorităţii sistemelor de extragere a informaţiilor au operatori complecşi de exprimare a cererilor de informare. Aceşti operatori nu sunt gândiţi să fie folosiţi de utilizatori. De obicei, se presupune că un utilizator comunică o cerere de informare printr-un text liber (engl. free text), care este o secvenţă de termeni. Textul liber este analizat şi transformat în una sau mai multe cereri de informare exprimate cu operatorii complecşi al sistemului de extragere a informaţiilor. De exemplu, cererea prin text liber rising interest rates a K = 10 potriviri, poate fi procesată astfel: 1. Mai întâi se caută documentele în care apare fraza rising interest rates, şi li se calculează rangul folosind reprezentarea ca vectori. 2. Dacă sunt mai puţin de K documente care conţin această frază, se caută documentele care conţin frazele rising interest şi interest rates. Din nou, se poate calcula rangul documentelor găsite folosind reprezentarea ca vectori. 3. Dacă nu am găsit încă K răspunsuri, se continuă cu cererile ce constau din termenii individuali ai cererii iniţiale. Fiecare din cei 3 paşi produce o listă de documente cu scoruri aferente de potrivire. Fiecare scor calculat trebuie să combine contribuţii ce provin din valoarea scorului în spaţiu vectorial, scorul static de calitate, proximitatea în documente a termenilor din cerere, şi alc ti factori potenţiali de exemplu, un document poate să apară în listele unor paşi diferiţi. Petnru a rezolva această problemă, trebuie definită o funcţie de agregare a scorurilor de potrivire produse de paşi diferiţi: Unele sisteme oferă utilizatorului un toolkit cu care pot să-şi configureze (1) modul de reducere a cererii din text liber în cereri concrete, şi (2) funcţia de agregare a scorurilor calculate de paşii diferic ti. Acest mod de configurare este adecvat pentru colecţii de documente cre nu se modifică frecvent: o dată configurat, este de aşteptat ca sistemul de extragere a informaţiilor să funcţioneze satisfăcător. 7

Pentru colecţii de documente care se modifică frecvent, ca de exemplu documentele indexate de motoarele de căutare web, este imposibilă calibrarea manuală a funcţiilor de analiză a cererilor şi de calcul al scorului. În acest caz, se folosesc tehnici de machine learning. 2.4 Arhitectura unui model complet de căutare Bibliografie 1. Capitolul 7: Computing scores in a complete search system din Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval. Ediţie online (c) 2009 Cambridge UP. http://nlp.stanford.edu/ir-book/pdf/irbookonlinereading.pdf 8