Evaluarea şi sumarizarea automată a conversaţiilor chat

Documente similare
Microsoft Word - N_ND.02_Capitol.doc

Microsoft PowerPoint - 3.ppt [Compatibility Mode]

ALGORITHMICS

Microsoft Word - F.Paladi_TD_manual.doc

Inteligență artificială Laboratorul 5 Normalizarea datelor. Mașini cu vectori suport (SVM) 1. Normalizarea datelor Metode obișnuite de preprocesare a

Microsoft Word _ISABEL_GA

Prelucrarea Datelor cu Caracter Personal de către OSIM Toate datele cu caracter personal colectate de Oficiul de Stat pentru Invenții și Mărci (OSIM)

CELULA DE ELECTROLIZĂ: este formată prin asocierea a doi electrozi, iar trecerea curentului electric se datorează aplicării unei tensiuni electrice ex

NU ESTE TERMINATĂ

Microsoft Word - acasa_Reteua de difractie.doc

I. Proiectii financiare si indicatori financiari (Anexele B pentru persoanele juridice si Anexele C pentrupersoanele fizice autorizate, intreprinderi

METODE NUMERICE PENTRU ECUAŢII DIFERENŢIALE

Microsoft Word - Anexa 5A Precizarea ipotezelor care au stat la baza proiectiilor finaciare

Microsoft PowerPoint - 5_.ppt

Microsoft Word - L07_TEFO_FILTRUL_KALMAN.doc

INFLPR

Microsoft PowerPoint - p1_PowerVLSI.ppt

UNIVERSITATEA "POLITEHNICA" DIN BUCUREŞTI

ROMÂNIA UNIVERSITATEA BABEŞ- BOLYAI CLUJ-NAPOCA Str. Mihail Kogãlniceanu, nr. 1, Cluj-Napoca Tel. (00) *; ; ;

i Fisa de date Tip anunţ: Anunţ de participare simplificat Tip legislaţie: Legea nr. 98/ Nu a existat o consultare de piaţa prealabila SECŢI

Microsoft Word CursAppAnNum08

Slide 1

Microsoft Word - DIN-Cap.5.3.doc

Slide 1

MINISTERUL NVźÅMÂNTULUI Program TEMPUS JEP 3801 SCIENCES DE L'EAU ET ENVIRONNEMENT METODE NUMERICE N HIDROGEOLOGIE Serie coordonatå de: Jean Pierre C

PowerPoint-Präsentation

Microsoft Word - declatie avere 2013.doc

Microsoft Word - declaraţii de avere 2015.doc

Microsoft PowerPoint - INDEXWATCH

A3_33_50.xlsx

MATEMATICĂ... 2 FIZICĂ ŞI FUNDAMENTE DE INGINERIE ELECTRICĂ... 6 UNITĂŢI DE MĂSURĂ ÎN S.I CHIMIE ANORGANICĂ CHIMIE FIZICA CHIMIE OR

Microsoft Word - F.Paladi_TD_manual.doc

BRD Media G ROMGAZ Societatea Naţională de Gaze NaturaLe Romgaz S.A. - - România 1 7 MAI. 219 INTRARE11ERE RAPORT CURENT Conform Legii nr. 24/2017 pri

DECLARAŢIE DE AVERE S pitalul Judeţean de IJrgentâ (Vlavt o rnaţi" 8otosani I N.m A R E ~ ie S ip E HR.tfQ/.CkJ...Zl &K2 una..clan Subsemnatul/Subsemn

Transformata Laplace

fu vu ^ p DECLARAŢIE DE AVERE dg pe TlMiŞ N r. j f - S u b s e m n a t a N Ă S T U R A Ş A L I N A, a v â n d f u n c ţ i a d e g r e f i

Nr 33, Q Cuprinsul editiei: I. Rolul zambetului de volatilitate al aurului in determinarea pozitiei pietei II. Evolutii ale pretului aurului in

Brosura Lindab Rezidentiale.cdr

Globalizarea şi mondoeconomia

(UNIVERSITATEA TEHNICA \223GH)

DECLARAŢIE DE AVERE A e i f ia de jf r â r â m m Subsemnata GALAN C ELENA având funcţia de Director general la... Agenţia Naţionala de Integritate, Bu

Capitole Speciale de Informatică Curs 4: Calculul scorurilor în un sistem complet de extragere a informaţiilor 18 octombrie 2018 Reamintim că în cursu

Facultatea de Științe Politice, Administrative și ale Comunicării Str. Traian Moșoiu nr. 71 Cluj-Napoca, RO Tel.: Fax:

Microsoft Word - Articol_Cretu Ion [RO].docx

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de

C(2019)1900/F1 - RO (annex)

MUNICIPIUL BUCURESTI BUGETUL PE ANUL 2017 LISTA obiectivelor de in vest it i i cu finantare integrala sau partiala de la buget I. Credite de angajamen

Microsoft Word - L8

DECLARAŢIE DE AVERE Subsemnata Ganea C. Mioara Daniela având funcţia de Referent Agenţia Naţionala de Integritate, Bucureşti, SECTOR 1 la... CNP, domi

DECLARATIE DE AVERE Subsemnatul Vasile Nicusor Adrian, avand functia de sef serviciu, la INSPECTORATUL TERITORIAL DE MUNCA PRAHOVA, declar pe propria

Microsoft Word - Sinteza Generala ID 786.doc

FIŞA DISCIPLINEI

* Categoriile indicate sunt: (1) apartament; (2) casa de locuit; (3) casa de vacanta; (4) spatii comerciale/de prnductie. *2) La "Titular" se mentione

ANEXA 1 RECOMANDARI LICENTA

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior UNIVERSITATEA DE VEST DIN TIMISOARA 1.2 Facultatea DE ECONOMIE SI DE ADM

Microsoft Word - Alina-Mihaela ION - TEHNOLOGIA INFORMA?IEI CU APLICA?II

_ ;jc'.,,. _.' ERE I ')t nnau.l 05 1 _._L'111V~4Ii lv~~~, avand Iunct ia de 1 I //-c e A/T_ CO H C//..J / T7f-12.._ 1- _:f.7?c ~ _ -F-"'--=--='--'-'--

A3_63_50.xlsx

UNIVERSITATEA DIN CRAIOVA FACULTATEA DE STIINTE EXACTE DEPARTAMENTUL DE INFORMATICA Pozitia postului: 23 Disciplina postului: Inteligenta artificială

Microsoft PowerPoint - INDEXWATCH

Anexa nr. 2 Domeniile şi programele de studii universitare de master, locaţiile geografice de desfăşurare, numărul de credite de studii transferabile

MINISTERUL AFACERILOR INTERNE INSPECTORATUL GENERAL PENTRU SITUAȚII DE URGENȚĂ I ANALIZA ACŢIUNILOR DE PREVENIRE 1. ACTIVITATEA DE AVIZARE - AUTORIZAR

Un model dinamic de dezvoltare a firmei

rptFisa

MINISTERUL AFACERILOR INTERNE INSPECTORATUL GENERAL PENTRU SITUAȚII DE URGENȚĂ I ANALIZA ACŢIUNILOR DE PREVENIRE 1. ACTIVITATEA DE AVIZARE - AUTORIZAR

Microsoft Word - TST48.10.docx

Prezentare KICK OFF MEETING

A3_51_50.xls

Curriculum vitae Europass

5

Assessment of patients' satisfaction in a public health service

Microsoft Word - fmnl06.doc

Opel Zaf i r al i f e P r eţ u r i, opţ i u n i ș i dat et eh n i c e, 1I u l i e

Microsoft Word - Ghid_practica_2009.doc

RAPORT: Evoluţia pieţelor de comunicaţii electronice – trimetrul 1, 2012

Grile pentru evaluarea Toolkit-ului ComBuS Instrucțiuni: Vă rugăm să evaluați criteriile de mai jos pe o scală de la 1 la 5, răspunzând la întrebarea

EVALUAREA ACTIVITĂȚII DIDACTICE DE CĂTRE STUDENȚI ÎN ANUL UNIVERSITAR Semestrul II CENTRUL DE DEZVOLTARE UNIVERSITARĂ ȘI MANAGEMENT AL CALIT

OBICEIURI DIGITALE SĂNĂTOASE CEVA CE CREĂM ÎMPREUNĂ Sfaturi utile pentru părinții copiilor cu vârsta între 0-18 ani

M Ciocea Mediul Global si European al Dezvoltarii

Capitole Speciale de Informatică Curs 1: Extragerea informaţiilor. Modelul boolean şi modelul boolean extins 27 septembrie 2018 Extragerea informaţiil

UNIVERSITATEA TEHNICA FACULTATEA DE AUTOVEHICULE RUTIERE, MECATRONICA si MECANICA DEPARTAMENTUL AUTOVEHICULE RUTIERE SI TRANSPORTURI FIŞA DISCIPLINEI

Microsoft Word - projects.doc

ACADEMIA ROMÂNĂ,,Dezvoltarea capacității Ministerului Educației Naționale de monitorizare și prognoză a evoluției învățământului superior în raport cu

Cuprins

PRIMARIA MUNICIPIULUI BUCURE~TI DECLARATIE DE AVERE d S f u b St~mdna(~r.;tu t lis b i~e~s t a...,... HICo L..,.."""... "..., av~n.q unc fa e.~..'...-

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de

Învățarea bazată pe probleme

A3_25_50.xlsx

Nr

T. Ștefănuț, C. Rusu (eds.), RoCHI 2013 Evoluţia opiniilor în forum-uri folosind o abordare semantică de sumarizare Dumitru Clementin Cercel Universit

Fişa disciplinei FIŞA DISCIPLINEI: Comunicare în afaceri (limba franceză) 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea B

TRADIȚIE ȘI EXCELENȚĂ FACULTATEA DE FIZICĂ Str. M. Kogălniceanu nr. 1 Cluj-Napoca, RO Tel.: / Fax:

Transmisia datelor multimedia in retele de calculatoare <Titlu Lucrare>

Cod F-81 Ediţia / Revizia O ROMANIA JUDEŢUL BRAiLA CONSILIUL JUDEŢEAN H O T A RAREA N r.j $.Q din 2o j2- privind: rectificarea bugetului propriu al ju

Curriculum vitae Europass Informaţii personale Nume / Prenume Adresă(e) Bârză, Silviu Bucureşti, România Telefon(oane) Mobil: Fax(uri) E-

Microsoft Word - Fisa verificare Badita.doc

Fişa disciplinei FIŞA DISCIPLINEI: Comunicare în afaceri (limba franceză) 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea B

Microsoft Word - AI.doc

A3_02_50.xlsx

Transcriere:

Evaluarea ş sumarzarea automată a conversaţlor chat Mha Dascălu, Ștefan Trăușan-Matu, Phlppe Dessus To cte ths verson: Mha Dascălu, Ștefan Trăușan-Matu, Phlppe Dessus. Evaluarea ş sumarzarea automată a conversaţlor chat. Romanan Journal of Human - Computer Interacton, 00, Proceedngs of the Natonal Conference on Human-Computer Interacton Bucharest, -3 September 00, 3, pp.95-00. http://roch.utcluj.ro/rroc/en/ndex.html. hal-0079347 HAL Id: hal-0079347 https://hal.archves-ouvertes.fr/hal-0079347 Submtted on Nov 04 HAL s a mult-dscplnary open access archve for the depost and dssemnaton of scentfc research documents, whether they are publshed or not. The documents may come from teachng and research nsttutons n France or abroad, or from publc or prvate research centers. L archve ouverte plurdscplnare HAL, est destnée au dépôt et à la dffuson de documents scentfques de nveau recherche, publés ou non, émanant des établssements d ensegnement et de recherche franças ou étrangers, des laboratores publcs ou prvés.

Evaluarea ş sumarzarea automată a conversaţlor chat Mha Dascălu Unverstatea Poltehnca dn Bucureșt, SC CCT SRL 33 Splaul Independențe, 06004 Bucureșt, Româna mha.dascalu@cs.pub.ro Ștefan Trăușan-Matu Unverstatea Poltehnca dn Bucureșt 33 Splaul Independențe, 06004 Bucureșt, Româna stefan.trausan@cs.pub.ro Phlppe Dessus Grenoble Unversty 5 av. Centrale, BP 47, F- 38040 Grenoble CEDEX 9, France phlppe.dessus@upmfgrenoble.fr REZUMAT Odată cu evoluţa contnuă a medlor colaboratve, nevoa une analze automate în vederea evaluăr partcpanţlor la dscuț de tp Instant Messenger (chat) a devent dn ce în ce ma acută. De asemenea, o facltate necesară la nvelul unu sstem de notare ș evaluare a replclor ș, mplct, a partcpanțlor este sumarzarea. În vederea atnger acestor obectve, o sere de factor bazaț pe procesarea lmbajulu natural (nclusv analza semantcă prn ntermedul Latent Semantc Analyss - LSA) ş datamnng au fost luaț în consderare. De asemenea, în vederea obțner une evaluăr mnuțoase ș multperspectste a partcpanţlor, au fost calculaț factor dervaț dn metodele lu Page de notare a eseurlor, dverse abordăr pentru estmarea lzbltăț ş metrc specfce analze rețelelor socale. Un standard de aur a fost utlzat pentru măsurarea corecttudn rezultatelor obțnute. Cuvnte chee sumarzarea extractvă a chat-urlor, evaluarea partcpanțlor dn medul colaboratv, rețele socale, LSA etchetat. Clasfcare ACM H5.. Informaton nterfaces and presentaton: Tranng, help, and documentaton and Natural language. INTRODUCERE Ca urmare a evoluţe web-ulu au apărut no nstrumente de colaborare ş concomtent cu acestea s-a multplcat dornţa de procesare automată a unu volum cât ma mare de nformaţ. În cadrul Învățământulu Colaboratv Sprjnt de Calculator (Computer Supported Collaboratve Learnng CSCL) [8], chat-urle joacă un rol mportant ş au devent dn ce în ce ma utlzate. Pe de altă parte, evaluarea manuală a unu chat este un proces consumator de tmp pentru profesor, necestând pentru analză un tmp ma mare decât durata efectvă a dscuțe. Astfel, necestatea de a dezvolta aplcaţ care pot ajuta procesul de evaluare a devent esenţală. Dn această perspectvă au fost vzate două drecț majore: Un sstem automat pentru evaluarea fecăru partcpant la o sesune de chat prn utlzarea unor metode specfce prelucrăr lmbajulu natural, analza de suprafață ș analza rețelelor socale; Un sstem automat de sumarzare extractvă bazat pe rezultatele sstemulu de ma sus, care poate f utlzat pentru a reduce consderabl tmpul petrecut de tutor în cazul une evaluăr manuale. Utltatea sumarzăr se răsfrânge în posbltatea de a evalua manual un număr mult ma mare de chat-ur în aceeaș untate de tmp. De asemenea, sumarzarea este utlă ș unu partcpant care ntră ma târzu în chat sau pentru a revedea ce s-a dscutat. Scenarul utlzat pentru sesunle de chat a fost următorul: studenţ dn cadrul cursurlor de Interacțune Om- Calculator (IOC) dn do an dferț ș de la Prelucrarea Lmbajulu Natural, de la facultatea de Automatcă ș Calculatoare au fost nvtaţ să dscute benefcle nstrumentelor colaboratve on-lne (de exemplu, la IOC w-ur, blog-ur, chat-ur ş forumur), dezbătând ș argumentând benefcle ș dezavantajele fecăre tehnolog. Fecare student era responsabl de o tehnologe ș îș susțnea punctul de vedere relatv la benefcle acestea, încercând totodată să contracareze ofertele celorlalț partcpanț. În ultma parte a dscuțe erau analzate posbltățle de ntegrare ș nter-comuncare a dfertelor tehnolog. Toate nteracţunle sunt exclusv între studenţ, fără ntervenţa efectvă a unu profesor, ar lmba utlzată în cadrul dscuțlor a fost engleza. Medul utlzat a fost VMT [9], ar în mede fecare chat a avut 4 partcpanţ. Corpusul obţnut conţnea aproxmatv 80 de chat-ur, care au fost ulteror evaluate manual de un student de la un an dfert. Astfel s-a încercat dmnuarea subectvsmulu în evaluare. Domenul dscuțlor a fost IT-ul, centrat pe tehnolog web colaboratve, ar partcpanţ au avut cunoştnţe smlare, atât de bază cât ș în domenul tehnologlor dscutate, ş aceleaş rolur în cadrul dscuţe dn perspectva responsabltățlor. Această analză poate f extrapolată la orce tp de dscuţ centrate pe un domenu specfc, cu o reprezentare corespunzătoare a cunoştnţelor (condțonat, de un proces anteror de învăţare supervzată folosnd Latent Semantc Analyss (LSA)). De asemenea, se pot realza expermente pe baza următoarelor scenar: prezenţa efectvă a unu tutore/profesor ș nfluența acestua, sau nteracţunle între partcpanț la acelaş nvel, precum este cazul celor prezentate anteror. Următoarea secţune a acestu document va prezenta factor utlzaț în cadrul procesulu de evaluare: de la ce ma smpl precum lzbltatea sau metrcle dervate dn metodele lu Page de analză a eseurlor [7], trecând la analza reţelelor socale ş, în fnal va f utlzat Latent Semantc Analyss LSA [], pentru o abordare semantcă a procesulu de notare. A trea secţune evaluează sstemul, ar ultma secţune, înante de concluz, va f dedcată prezentăr sstemulu de sumarzare. 95

PROCESUL DE EVALUARE Noutatea abordăr constă în prmul rând în procesul de evaluare atât al replclor, cât ș al partcpanțlor la nvelul cărua sunt ntegrate perspectve multple pentru o prvre cât ma holstcă. Astfel, evaluarea se realzează pe 3 nvele după cum urmează: Analza de suprafață structurată pe două drecț: pe de-o parte evdențerea lzbltăț replclor, ar pe de alta o sere de metrc dervate dn studle nțale ale lu Page pentru analza eseurlor precum fluență, corecttudne gramatcală, dcțe sau structura replclor [7]; Analza morfologcă (Spellchecng, Stemmng, Toenzng) ș etchetarea actelor de vorbre (Part of Speech Taggng); Analză semantcă având în spate modelul Latent Semantc Analyss (LSA) pentru evaluarea smlartăț dntre o replcă ș întreaga conversațe, respectv cu un set predefnt de cuvnte specfcate de profesor drept subecte mpuse de dscuțe. Adțonal, analza specfcă rețelelor socale este aplcată atât asupra grafulu rezultat dn numărul de mesaje nterschmbate între partcpanț, cât ș asupra grafulu cu costul arcelor egal cu suma notelor replclor aferente. Analza de suprafață Analza de suprafață se focalzează pe două categor de factor: lzbltate ș factor obțnuț prn adaptarea studlor lu Page aplcate nțal exclusv pentru analza eseurlor. Ideea în sne era smplă evaluarea automată a unu document cu performanțe smlare cu ale unu evaluator uman având la bază exclusv atrbute smple statstce []. Scopul sstemulu presupunea facltarea evaluăr, permțând astfel asgnarea ma multor teme ș îmbunătățrea capabltățlor studentulu prn exercțu, smlare cu cele ale sstemulu de față. Ideea de evaluare a avut la bază relața dntre proxes (aproxmăr ale nteresulu documentulu la nvel de factor ușor de calculat automat practc componenta computațonală) ș trns (varable ntrnsec utlzate de către evaluator uman). Concluzle studulu nțal au fost promțătoare: corelațe de 7% smlară cu corelața mede dntre do evaluator uman, demonstrând astfel vabltatea metode. Pornnd de la acest studu nțal ș ntegrând abordarea lu Slotnc [] pentru gruparea factorlor dentfcaț anteror în funcțe de valorle ntrnsec, următor factor au fost obțnuț, fecare cu o pondere egală la nvelul note categore dn care fac parte. Nota fnală reprezntă meda artmetcă a notele fecăre categor. Astfel factor utlzaț în specal dn perspectva une analze canttatve, ulteror convertț în procente prn scalarea raportat la valoarea maxmă, sunt ce dn Tabelul ș sunt fguraț conform Fgur la nvelul aplcațe dezvoltate. A doua categore de factor reprezentatv la nvelul de suprafață reflectă lzbltatea textulu înțeleasă drept ușurnța cu care pot f parcurse replcle unu partcpant, ofernd o magne concludentă asupra stlulu propru de screre. Aceasta are un mpact major asupra înțeleger, retențe, vteze de ctre, precum ș asupra persstențe textulu ctt. Factor Fluență Tabelul. Factor specfc analze de suprafață Corecttudne gramatcală Dcțe Structura replclor Proxes aferente Număr total de caractere, numărul total de cuvnte, numărul total de replc, numărul medu de cuvnte per replcă, numărul de cuvnte dferte utlzate, numărul de fraze (dfert de numărul de replc, întrucât se pot întâln ma multe fraze la nvelul aceleaș replc) Număr de cuvnte scrse corect dn perspectvă gramatcală raportat la numărul total de cuvnte redactate de un utlzator Valoarea mede ș abaterea standard relatv la lungmea cuvntelor utlzate Numărul de replc, numărul medu de cuvnte, lungmea meda a une replc estmată prn numărul de caractere Fgura. Analza de Suprafață metrc având la bază Page s proxes Un alt aspect mportant relatv la lzbltate într-un medu colaboratv îl reprezntă reflectarea punctulu de vedere al partcpantulu dn perspectva trăsăturlor personale, nteres, motvare sau char cunoștnțe apror. Un lmbaj elevat nduce o anumtă stare, pe când utlzarea permanentă a unor replc scurte creează o cu totul altă mprese. Întrucât dscuțle sunt purtate în Engleză ș pornnd de la ctatul lu Jacques Barzun conform cărua Smple Englsh s no person s natve tongue, adresarea corespunzătoare audențe, în cazul nostru formată dn celalț partcpanț la chat, este esențală. În cadrul dscuțlor purtate exstă o smplfcare a frazelor; totuș, lzbltatea oferă în contnuare nformaț utle despre nvelul de nstrure, de înțelegere ș uneor attudne. Orcum corelarea cu alte metrc, descrse ulteror, joacă un rol esențal. În mod uzual, lzbltatea este estmată în mod nconștent, însă dn perspectvă computațonală au fost foloste următoarele formule obțnute în cadrul unor stud detalate, pe un eșanton mare de texte ș care aproxmează nvelul țntă al audențe: Flesch Readng Ease Readablty Formula [3] este una dn cele ma vech abordăr care exprmă dfcultatea ctr unu text pe o scală de 0 la 00. O valoare ma mare exprmă o ușurnță ma mare de ctre, nu neapărat ș o înțelegere ma bună a textulu. Plaja optmă este consderată [60, 70]: RE = 06,835- (,05*ASL) - (84,6* ASW) 96

RE = Readablty Ease ASL = Average Sentence Length (numărul de cuvnte raportat la numărul de fraze) ASW = Average number of Syllables per Word (numărul total de slabe împărțt la numărul de cuvnte) Gunnng Fog Index (FOG) [4] pleacă de la deea că artcolele dn zar ș documentele busness sunt plne de ambgutăț ș nformaț nutle ( fog ) având astfel o complextate nutlă. Astfel, formula estmează numărul de an de educațe formală pe care un cttor de ntelgență mede ar trebu să- abă în spate pentru a înțelege un text la nvelul prme parcurger. Un dezavantaj al mplementăr este că nu toate cuvntele de peste slabe sunt dfcle, dar performanțele computațonale sunt foarte bune. Valorle optme sunt în jurul lu, ar orce peste 8 este mult prea dfcl de ctt: FOG = (ASL + PHW)*0,4 PHW = Percentage of Hard Words (în mplementarea curentă numărul de cuvnte cu ma mult de slabe relatv la mulțmea tuturor cuvntelor utlzate) Flesch Grade Level Readablty Formula [5] notează partcpanț după modelul de școlarzare amercan. Astfel se formează o asocere bunvocă: scorul N determnă faptul că documentul poate f ctt de o persoană cel puțn în clasa a N-a. Abordarea ajută ș la asgnarea de materale de ctt conform nvelulu actual de nstrure. O valoare în domenul [7, 8] este consderată optmă întrucât textul este ușor de ctt: FKRA = (0,39*ASL) +(,8*ASW) -5,59 FKRA = Flesch-Kncad Readng Age Notarea partcpanțlor dn cadrul unu chat se face în funcțe de abaterea față de valorle consderate optme, ar vzualzarea se realzează conform următoare fgur. Dn punctul de vedere al rețelelor socale, dverse metrc sunt calculate pentru a determna cel ma mplcat partcpant la nvelul dscuțe: gradul (ndegree ș outdegree), centraltate (closeness, graph centralty, egen centralty) ș ranng-ul utlzatorlor, smlar cu bnecunoscutul algortm Google Page Ran. Aceste metrc sunt aplcate asupra unor matrce la nvelul cărora arcele reprezntă: Numărul efectv de replc nterschmbate între partcpanț, cu accent preponderent pe o abordarea canttatvă; Suma notelor fecăre replc bazate pe evaluarea semantcă a fecăre replc; procesul de evaluare propru-zsă a une replc va f descrs într-o secțune ulteroară, ar această abordare fundamentează evaluarea caltatvă a chat-ulu. Astfel, dn aplcarea metodelor specfce de analză a rețelelor socale, atât asupra numărulu de replc, cât ș asupra sume notelor aferente, se accentuează dualtatea abordăr dn următoarele perspectve: Evaluare canttatvă vs. Evaluare caltatvă cu substrat semantc; Implcarea în dscuțe (gregarousness) vs. cunoștnțele prezentate/dobândte ș aportul cogntv, evaluate semantc folosnd LSA. Toate metrcle foloste în cadrul analze rețelelor socale reprezntă valor relatve în sensul în care pot ofer scorur relevante numa în comparațe cu mplcarea celorlalț partcpanț a aceluaș chat. Acesta este prncpalul motv pentru care toț factor sunt scalaț între partcpanț, ofernd fecărua un procent ponderat raportat la performanța globală. Un rol mportant în analza rețelelor socale îl are componenta de vzualzare, care permte modelarea atât prn ntermedul unu model fzc, cât ș prn ntermedul unu model radal al nteracțun dntre partcpanț []. Analza rețelelor socale Fgura. Lzbltatea În scopul obțner une perspectve cât ma profunde, factor socal sunt luaț în consderare pentru relefarea nteracțun dntre partcpanț. Astfel, un graf este generat pe baza transcrptulu chat-ulu analzat: nodurle reprezntă partcpanț, ar arcele sunt generate pe baza legăturlor explcte prn posbltățle de referențere drectă între replc dn medul chat. Fgura 3. Modelarea rețelelor socale Analza semantcă LSA Analza Semantcă Latentă este o tehncă ce se bazează pe un model al spațulu de vector care este folost n analza smlartăț dntre un set de documente ș termen conțnuț. LSA pornește de la o matrce termen-document b-dmensonală care descre numărul de aparț ale fecăru termen în documentul corespunzător. LSA transformă matrcea nțală într-o relațe dntre termen ș concepte, respectv o relațe între aceste concepte ş 97

documentele aferente. Astfel, termen ş documentele devn în mod ndrect legate prn concepte [4, 6]. Această transformare se obţne prntr-o descompunere în valorle sngulare (Sngular Value Decomposton SVD) ş, ulteror, prntr-o reducere a dmensonaltăț prn proecțe după stablt. Procesul de învățare supervzată folosește corpusul de chat-ur. Prmul pas în procesul de învăţare, după verfcarea ortografe, este de a elmna cuvntele cu aport semantc redus stop-words (foarte frecvente ş lpste ca mportanță globală "the", "a", "an", "to", etc.) dn fecare replcă. Următorul pas este etchetarea actelor de vorbre Part of Speech Taggng ar, în cazul verbelor, acestea sunt reduse la rădăcnă prn stemmng pentru lmtarea formelor dentfcate, toate exprmând acelaș concept. Toate celelalte cuvnte sunt lăsate în formele lor dentfcate, sngura îmbunătățre exstând prn adăugarea de etchete corespunzătoare actelor de vorbre. Se consderă că două cuvnte, dentce ca rădăcnă ș formă, dar cu acte de vorbe dferte se regăsesc în contexte dferte, prn urmare învecnându-se cu alte nodur dn perspectvă semantcă [0]. După popularea matrce termen-document se aplcă term frequency - nverse document frequency - TF-IDF (dependență drectă relatv la frecvenţa termenlor ș nversă raportat la numărul de documente [6]). Etapele fnale ale procesulu de antrenare sunt descompunerea în valor sngulare (SVD) ş proecţa matrcelor obțnute cu scopul de a reduce dmensunle acestora. În conformtate cu [5], valoarea optmă emprcă pentru este 300, o valoare utlzată frecvent în expermente curente ș asupra cărea ma multe surse sunt de acord. Un alt aspect mportant în procesul de învăţare LSA este segmentarea care presupune împărțrea unu chat luând în consderare untăţ semnfcatve. În mplementarea actuală chat-ul este împărţt între partcpanţ, dn cauza untăţ ş coezun între replcle aceleaş persoane. Aceste documente sunt ulteror împărţte în segmente folosnd ferestre dsjuncte, fxe ca dmensune. Scopul fnal al utlzăr LSA este de a evalua proxmtatea/smlartatea dntre do termen sau cuvnte utlzând drept măsură cosnusul dntre vector aferenț: Sm( cuv, cuv ),, cuv cuv,, cuv cuv Smlartatea dntre replc ş smlartatea dntre replc ș întregul document sunt utlzate pentru a evalua mportanţa fecăre replc în parte, comparatv cu întreaga dscuțe sau cu un set predefnt de cuvnte chee menţonate ca un nou document: Vector ( repl) Sm ( repl, repl vector ( cuv ), ( log( nr _ apart ( cuv )) * Vector ( repl ) Sm Vector ( repl ), ) Mecansmul de notare al replclor, respectv al partcpanțlor Prmul aspect care trebue luat în consderare îl reprezntă construrea grafulu bazat pe legătur explcte pentru marcarea relațlor exstente. Procesul de evaluare al fecăre replc se bazează pe textul prelucrat ș obțnut în urma analze morfologce ş a POS Taggng-ulu ș presupune următoarele etape:. Evaluarea fecăre replc ndvdual, luând în consderare următoarele caracterstc: lungmea efectvă a replc nţale; lsta de cuvnte rămase după elmnarea cuvnte de tp stop-words, verfcate în prealabl ortografc; de asemenea se memorează ş numărul lor de aparț; nvelul pe care se află replca actuală într-un fr al dscuțe; factorul de ramfcare egal cu numărul de replc care au legătur explcte către replca curentă; smlartatea cu întreaga dscuțe pentru a evdența mportanța replc raportat la întreaga conversațe; smlartatea cu un set predefnt de subecte de dscuţe asgnate de profesor pentru a verfca acoperrea teme date pentru dscuțe. Aspectul surprns în cadrul abordăr este exact dualtatea perspectve: pe de-o parte avem abordarea canttatvă (lungmea replc exprmată în caractere scrse, pornnd de la premsa că nformaţa ar trebu să fe ma valoroasă dacă este transmsă în ma multe mesaje, legate împreună, ș o lungme ma mare nu este datorată dornțe de a mpresona, c pentru îmbogățrea contextulu), ar de cealaltă parte abordarea caltatvă care presupune utlzarea LSA ş a cuvntelor chee predefnte. Formule utlzate pentru evaluarea fecăre replc sunt: scor emprc lungme( repl _ neprelucrata) 0 remanng 9 scor( cuv) 0 word factor _ augmentare scor( cuv) lungme ( radacna ) *( log( nr _ apart )) augmentare ( log( nvel)) ( log( factor _ ram) Sm( replca, conversate ) Sm( replca, set _ subecte _ dscute ). Augmentarea scorulu Fecare fr de dscuțe are un maxm global relatv la scorurle calculate anteror în jurul cărua toate replcle au mportanța augmentată corespunzător cu o dstrbuţe Gaussană: p x) e ( x) (, unde: max( d _ repl _ fr ) mn( d _ repl _ fr ), d _ replca _ cu _ scor _ max m Astfel scorul fecăre replc este amplfcat cu un factor de + p(replca_curenta). 98

3. Determnarea scorulu fnal de-a lungul frulu de dscuțe Pe baza scorulu emprc, scorul fnal este obţnut după următoarea formulă: scor fnal scor ( repl _ precedenta ) coef scor, fnal emprc unde coefcentul este determnat de tpul actelor de vorbre dn replca curentă ș dn cea de care aceasta este legată prntr-o legătură explctă; astfel, sunt nspectate verbele, semnele de punctuaţe ş anumte cuvnte chee. Pornnd de la un set de tpur de acte de vorbre, coefcenţ sunt obţnuț dntr-o matrce predefntă; valorle au fost determnate după estmarea mpactulu replc curente luând în consderare numa nvelul anteror de replc dn cadrul aceluaș fr de dscuțe (smlar unu proces Marov). Scorul fnal al replclor dn cadrul unu fr de dscuţe poate f rdcat sau coborât de fecare replcă. Prn urmare, în funcţe de tpul replc ş al actelor de vorbre dentfcate, nota fnală poate avea o valoare atât poztvă cât ș negatvă. Notarea partcpanțlor combnă metrcle de la nvelul analze de suprafață cu factor specfc analze rețelelor socale aplcaț asupra celor matrce defnte anteror. Fecare dntre factor de analza este convertt la un procent (valoare curentă / suma tuturor valorlor, pentru fecare factor, cu excepţa cazulu de egen-centralty când conversa se face automat prn înmulţrea cu 00 a valor propr în modul). Scorul fnal al partcpanțlor a în consderare toţ aceşt factor ş ponderle corespunzătoare: scor _ fnal pondere procent,, unde este un factor al partcpantulu cu rangul. Corelaţa Pearson pentru fecare factor este determnată în raport cu notele oferte de evaluator uman, permțând astfel evaluarea mportanţe ş a relevanţe fecărua relatv la notele date de un evaluator uman luate drept standard de refernţă. EVALUAREA SISTEMULUI Ponderle asocate statc fecăru factor sunt următoarele: 0% pentru metrcle dervate dn metoda lu Page de evaluare a eseurlor ș lzbltate, 5% pentru factor de analză a reţelelor socale aplcaț pe numărul de replc nterschmbate ş 0% pentru factor semantc dn analza reţele socale constrută pe baza scorurlor fecăre replc. Rezultatele globale obţnute cu aceste ponder pentru corpusul analzat sunt: corecttudnea relatvă: 77.44% corecttudne absolută: 70.07% corelața Pearson: 5,4% Corecttudnea relatvă ş corecttudnea absolută reprezntă dstanțe absolute/relatve dntre valorle obțnute automat ș cele dn urma evaluăr umane. Rezultatele fnale (ca meda artmetcă pentru fecare dn ce 3 factor determnaț ndvdual per chat) sunt afşate la nvelul nterfețe grafce proectate: Fgura 4. Rezultatele obțnute SUMARIZARE EXTRACTIVĂ Cel ma mportant aspect relatv la generarea extractvă a unu rezumat este legătura strânsă dntre sumarzare ş evaluarea propru-zsă a chat-ul. Prn urmare, pentru a obţne un rezumat extractv cât ma corect, fecare replcă trebue evaluată - în cazul nostru, procesul de notare a fost descrs anteror ş oferă baza pentru dentfcarea replclor chee. Aceasta abordare combnă metoda de sumarzare automată bazată pe LSA [3], cu benefcle de a ntroduce toţ celalţ factor prezentaț în secțunle precedente, cu mpact mare în procesul de evaluare. Pentru a răspunde cât ma bne cernțelor utlzatorulu, un set de procente predefnte (procente ncrementale cu 0%) a fost prevăzut, permţând utlzatorulu să selecteze nvelul de nteres ș de fltrare al replclor. Astfel se poate determna numărul de replc care urmează să fe selectate ș care vor face parte dn rezumatul ofert de către sstem. Ulteror, replcle sunt extrase în ordnea descrescătoare a mportanţe / scorulu. Pentru a augmenta rolul replclor drect legate de replca curentă (mplct corelate ș dn perspectva dscursulu) se acordă o bonfcațe tuturor replclor de pe următorul nvel dn cadrul arborelu de replc defnt pe baza legăturlor explcte. Astfel se asgură posbltatea selectăr comentarlor ș mpreslor refertoare la o anumtă replcă, char dacă scorul nțal al acestora este relatv mc. Într-o sumarzare a chat-urlor este esențală ntegrarea acestor replc datortă aportulu cogntv ș mportanțe globale relatv la mpresle împărtăște. Scopul fnal al sstemulu este de a reduce drastc tmpul petrecut de un evaluator uman pentru a nota un chat, prn urmare, să permtă relocarea tmpulu înspre sarcn ma creatve, fără a elmna componenta umană în evaluare. Impactul real în urma utlzăr sstemulu automat de rezumare este reducerea cu ma mult de 30% a tmpulu petrecut pentru evaluarea unu sngur chat. Acest lucru permte analza ma multor chat-ur, prn urmare ofernd un corpus adnotat ma mare, utl în procesul de învăţare automată. Astfel, rezultatele pot f îmbunătăţte prn ajustarea fnă a ponderlor pentru fecare dntre factor luaţ în consderare în procesul de notare. Acest rezumat este, de asemenea, foarte utl dn perspectva studentulu, făcând posblă o scurtă descrere a fecăre dscuţ, evdențerea enunţurlor cu un nteres ma mare ş bogate în nformaţ. 99

MULŢUMIRI Ne dorm să mulţumm tuturor studenţlor dn cadrul Facultăț de Automatcă ș Calculatoare, Unverstatea "Poltehnca" dn Bucureşt, care au partcpat la expermentele noastre ş care au format baza pentru corpusul utlzat pentru evaluarea sstemulu. Actvtățle de cercetare prezentate în această lucrare au fost parţal efectuate în cadrul proectulu PC7 LTfLL (Language Technologes for Lfelong Learnng). CONCLUZII Fgura 5. Sumarzare automată Rezultatele obţnute ne permt să concluzonăm că evaluarea contrbuţe partcpanțlor într-un medu colaboratv poate f realzată automat, ar mpactul la nvelul tutorelu se reflectă într-o scădere cu peste 30% a tmpulu petrecut pentru evaluarea unu chat. De asemenea, împreună cu o ajustare ma bună a parametrlor ș a ponderlor aferente fecăru factor, împreună cu un proces îmbunătățt de învățare supervzată utlzând LSA, precum ș prn creșterea numărulu de factor specfc analze reţelelor socale (nclusv ce aplcaț la nvelul întreg reţele) credem că performanţa ş fabltatea rezultatelor obţnute va crește. Ma mult, factorul subectv în evaluarea manuală este întotdeauna prezent ş nfluenţează corecttudnea per ansamblu a sstemulu. Pornnd de la drecțle descrse anteror, următoarele îmbunătăţr vor f luate în consderare pentru îmbunătățrea rezultatelor: expermente socale cu evaluarea mpactulu aferent; realzarea de scenar dferte (cu sau fără prezenţa efectvă a unu profesor) corelate cu mpactul efectv al prezențe acestua; dentfcarea de artefacte, voc ş perspectve multple ale aceluaș concept folosnd LSA, în concordanță cu flosofa lu Bahtn [] pentru o înţelegere ma profundă a dscuțe dn punct de vedere dalogstc; ncluderea de texte comune (de exemplu, artcole de zar), pentru o perspectvă de ansamblu asupra tuturor cuvntelor întâlnte dntr-un text (nu numa asupra celor specfce unu anumt domenu) ș pentru a îmbunătăţ procesul de învăţare LSA; ntegrarea tuturor chat-urlor ș generarea une reţele socale globale, rezultând astfel posbltatea une evaluăr de ansamblu asupra întregulu corpus ş posbltatea de a căuta un partcpant pe baza competenţelor sale evaluate raportat la un subect predefnt. REFERINŢE.Bahtn, M. M.: Problems of Dostoevsy s poetcs (Edted and translated by Caryl Emerson). Mnneapols: Unversty of Mnnesota Press (993).Dascalu, M., Trausan-Matu, St, Ch.A.M.P. A Program for Chat Modelng and Assessment, Annals of the Academy of Romanan Scentsts Seres on Scence and Technology of Informaton Volume, Number /009, ISSN 066 74, pag 95-06 3.Fernandez, S., Velazquez, P., Mandn, S.: Les systèmes de résumé automatque sont-ls vrament des mauvas élèves?. In: JADT 008: 9es Journées nternatonales d Analyse Statstque des Données Textuelles (008) 4.Landauer, K. Th., Foltz, W. P., Laham, D.: An Introducton to Latent Semantc Analyss. Dscourse Processes, 5, 59-84 (998) 5.Lemare, B.: Lmtes de la lemmatsaton pour l extracton de sgnfcatons. JADT 008: 9 es Journées nternatonales d Analyse statstque des Données Textuelles (008) 6.Mannng, C., Schütze, H.: Foundatons of statstcal Natural Language Processng. MIT Press, Cambrdge (Mass.) (999) 7.Page, E. B. Paulus, D. H.: Analyss of essays by computer. Predctng Overall Qualty, U.S. Department of Health, Educaton and Welfare (968) 8.Stahl, G., Group Cognton: Computer Support for Buldng Collaboratve Knowledge. MIT Press (006)How to Classfy Wors Usng ACM s Computng Classfcaton System: http://www.acm.org/class/ 9.Stahl.G. (Ed.), Studyng Vrtual Math Teams pag. 45 473, Boston, MA: Sprnger US 0.Wemer-Hastngs, P., Zptra, I.: Rules for syntax, vectors for semantcs. In: proceedng of the 3rd Annual Conference of the Cogntve Scence Socety (00).Wresch, W.: The Immnence of Gradng Essays by Computer--5 Years Later. Computers and Composton 0(), 45-58, retreved from http:// computersandcomposton.osu.edu/archves/v0/0 ht ml/0 5_Wresch.html (993).http://lsa.colorado.edu/ 3.http://www.readabltyformulas.com/flesch-readngease-readablty-formula.php 4.http://www.readabltyformulas.com/gunnng-fogreadablty-formula.php 5.http://www.readabltyformulas.com/flesch-gradelevel-readablty-formula.php 00