UNIVERSITY POLITEHNICA of BUCHAREST DEPARTMENT OF COMPUTER SCIENCE Analiza şi extragerea automată a conţinutului documentelor Paper-Based Augmented Reality Căţoiu Laurenţiu-Cătălin catoiulaurentiu@yahoo.com documentelor 1
Cuprins Realitatea augmentată Aplicații AR Paper Based AR Descrierea algoritmului Text Patch Recognition Detalii implementare Aplicații Concluzii documentelor 2
Realitate augmentată (AR) Realitatea augmentată oferă o perspectivă în timp real, directă sau indirectă, asupra unui mediu fizic existent, ale cărui elemente sunt augmentate folosind senzori şi instrumente multimedia. Spre deosebire de realitatea virtuală, nu este creată o simulare a realităţii. Utilizatorului ii este permis să vadă lumea reală, împreună cu elemente suprapuse sau compuse cu cele din realitate. documentelor 3
Aplicaţii AR Jocuri sportive televizate Expoziţii muzee Jocuri FPS (Head Mounted Display) Aviaţie, automobile (Head-Up Display) Medicina Cinematografie Publicitate Arhitectură documentelor 4
Paper-based AR Recunoaşterea de imagini este folosită pentru obţinerea de informaţii conexe, folosind markere explicite sau implicite într-o scenă Se pot declanşa procese, cum ar fi extragerea de informaţie dintr-un web site. Metoda propusă nu modifică formatul documentului de pe hârtie, nefiind introduse coduri de bare sau markere. Porţiuni dreptunghiulare de text pot conţine destulă informaţie pentru a le face unice asemenea unor amprente. Porţiuni aleatoare de text pot deveni markere pentru AR, făcând legătura cu datele electronice de pe un site web. Se foloseşte o cameră de telefon mobil drept instrument de recunoaştere. documentelor 5
Descrierea algoritmului Documentele ce permit PBAR (Paper-Based Augmented Reality) sunt inițial scanate și indexate pentru recunoașterea porțiunilor de text. Datele electronice sunt asociate cu regiuni hot spots ce reprezintă porțiuni dreptunghiulare de text. documentelor 6
Descrierea algoritmului (2) Indexarea și datele hot spot sunt stocate în baza de date PBAR. Un exemplu de date asociate cu un hot spot este un URL către pagină web, dar ar putea fi și un fișier video sau audio sau chiar versiunea electronică a documentului însuși. Utilizatorul fotografiază o porțiune din document cu ajutorul camerei de la telefon, iar sistemul aplică același algoritm de recunoaștere a porțiunilor de text folosit la faza de indexare, determinând dacă imaginea se află în baza de date. Este returnat un identificator al paginii, precum și coordonatele porțiunii curente de text și regiunile hot spot din apropiere. Datele asociate unui hot spot pot fi transmise telefonului si redate cu ajutorul unei aplicații corespunzătoare, cum ar fi un web browser pentru date de tip URL. documentelor 7
Text Patch Recognition Obiectivul acestui algoritm este determinarea corectă a identității paginii și coordonatele porțiunii de text fotografiate. Imaginile tipice produse de camerele telefoanelor au o calitate redusă, caracterele fiind atât de încețoșate încât OCR este greu de aplicat. Se pot identifica însă bounding box-urile din jurul cuvintelor, din moment ce spațiile dintre cuvinte și linii se pot distinge. O metodă anterioară pentru potrivirea imaginilor folosea numărul de caractere din N cuvinte adiacente orizontal (denumite n-grame), pe post de caracteristică sau descriptor și identifica imaginea de intrare pe baza porțiunii ce conținea cei mai mulți descriptori. Valorile tipice pentru N erau 4,5 sau 6 și aveau o precizie îmbunătățită când se aplica pentru date sintetice. documentelor 8
Text Patch Recognition (2) În prezența zgomotului se obține o precizie mai slabă, deoarece procentajul de n-grame incorecte crește cu procentajul cuvintelor cu lungimea determinată imprecis. Această metodă poate fi îmbunătățită prin folosirea aranjamentului vertical al cuvintelor pe lângă cel orizontal. documentelor 9
Text Patch Recognition (3) Trigramele verticale sunt generate exhaustiv din toate cuvintele aflate sub sau deasupra unui cuvânt dat, unde sub și deasupra sunt bazate pe suprapunerea bounding box-urilor. Documentele ce conțin atât trigrame orizontale cât și trigrame verticale sunt căutate în bazele de date organizate să suporte astfel de interogări. Sunt furnizate și două liste de voturi. Algoritmul care combină listele de voturi de la potrivirea n-gramelor orizontale și verticale folosesc informație despre localizarea fizică a n-gramelor în cadrul documentelor originale. documentelor 10
Text Patch Recognition (4) Pentru fiecare document în comun din primele M alegeri făcute de fiecare clasificator, locația fiecărei n-grame orizontale ce a votat pentru documentul respectiv este comparată cu fiecare n-gramă verticală ce a votat pentru același document. Performanța metodei de combinare a n-gramelor de lungimi de cuvinte, orizontale și verticale, a fost testată cu date extrase din 738 fișiere Word, conținând 5699 de pagini, downloadate de pe Internet. Fișierele au fost convertite la o reprezentare XML ce include toate caracterele. documentelor 11
Text Patch Recognition (5) Fiecare cuvânt, cum ar fi solutions, este caracterizat prin numărul de document 3075 și numărul paginii în care a apărut. Sunt date și coordonatele bounding box, precum și lungimea cuvântului. Un simulator de zgomot a fost dezvoltat pentru a alege aleator un procentaj dat de cuvinte cărora le modifica lungimea prin adunarea sau scăderea cu 1. Un experiment a fost realizat și consta în combinarea primele 10 alegeri de la ambele clasificatoare folosind criteriul suprapunerii. Dacă o porțiune nu era comună rejectată de sistem. documentelor 12
Text Patch Recognition (5) Adaptarea clasificatorului pe bază de bounding box la imagini de slabă calitate obținute cu o cameră de mobil a dus la creearea unor descriptori ce reprezentau lungimea cuvintelor în unități denumite nubs, determinate prin raportul dintre lățimea unui cuvânt în pixeli și înălțimea lui. Descriptorii unei porțiuni de text combină informația orizontală și verticală utilizând unghiurile dintre grupuri de bounding boxes adiacente orizontal și vertical. Hash table-ul este organizat pe porțiuni de text și nu pe pagini complete. Rezultatul identificatorului de porțiuni este o listă de porțiuni (incluzând și paginile în care apar și coordonatele lor) sortate după numărul de descriptori în comun cu imaginea de intrare. documentelor 13
Detalii implementare Implementarea a fost realizată folosind un telefon Treo 700w cu un procesor PXA272 312Mhz având 4 cadre pe secundă și o bază de date cu 250 de documente. Au fost realizate experimente pentru testarea preciziei sistemului în timp real (rulând pe un PC) cu o bază de date de 5000 de imagini de dimensiunea 176x144, generate de un sistem ce simula ieșirea video a unui telefon Treo ca și cum se deplasa pe deasupra documentului. Rezultatele au arătat că o rată corectă de 55% poate fi obținută cu imagini ce conțin 8 linii de text. În practică este un rezultat adecvat, deoarece un sistem PBAR rulează în timp real pe un stream video în timp ce utilizatorul deplasează camera pe deasupra documentului, cooperând în mod esențial cu identificatorul pentru a îmbunătăți performanța. documentelor 14
Aplicații Sunt multe aplicații posibile bazate pe PBAR, ele fiind diferențiate în funcție de baza de date, care se poate afla pe telefon sau pe un server și dacă baza de date este creată ca un efect secundar al printării unui document pe PC. O primă aplicație este un ghid pentru călătorii, în care de exemplu se poate afla orarul unui loc pe care utilizatorul vrea să îl viziteze. documentelor 15
Aplicații (2) Clickable Paper documentelor 16
Concluzii A fost prezentată o metodă prin care se poate asocia conținut electronic unor documente pe hârtie fără a schimba formatul lor. Se bazează pe ideea esențială că semnătura unui document poate fi obținută dintr-o porțiune de text și acea semnătură poate fi linkată cu date electronice. A fost descrisă o metodă de recunoaștere a porțiunilor de text și au fost prezentate rezultate experimentale ce au demonstrat identificarea unei porțiuni dintr-o colecție de imagini. Există și o altă abordare pentru documente și prelucrarea lor cu ajutorul AR și anume PADD (Paper Augmented Digital Document) ce ajută ca modificările făcute pe documentul original să fie vizibile și în documentul electronic PapierCraft PaperProof documentelor 17
Vă mulțumesc! Întrebări? documentelor 18