Data Mining în Sistemele Integrate de Bibliotecă

 

Embed or link this publication

Description

teoretizări practice pentru biblioteci universitare

Popular Pages


p. 1

Data Mining în Sistemele Integrate de Bibliotecă teoretizări practice pentru biblioteci universitare Maria Buturugă 2014

[close]

p. 2



[close]

p. 3

Argument Termeni precum 'data mining', 'cluster', 'densitate', 'modelare', 'nucleu' şi alte asemenea, toate cu referire la datele pe care le prelucrează bibliotecarul, vor intra cât de curând în vocabularul de bază pentru domeniul biblioteconomic. Sunt 'tendinţe', în sensul de trend sau modă, dar şi de circumscriere multidimensională a datelor, care ajung să definească instrumentele de care dispune bibliotecarul în activitatea cotidiană, şi de aceea devine stringent procesul de adaptare, înainte ca informaticianul să dezvolte într-atât sistemul încât bibliotecarul să aibă nevoie de dicţionare explicative. Totul porneşte de la volumul mare de date pe care le poate stoca şi prelucra 'sistemul integrat de bibliotecă'. Din cauza şi în mare măsură datorită uimitoarelor capacităţi ale instrumentelor cu care lucrează, bibliotecarul este pregătit să se perfecţioneze profesional şi sub acest aspect, aşa cum se întâmplă deja cu personalul din criminologie, inginerie genetică, educaţie ştiinţifică sau alte domenii unde tehnicile 'data mining' încep să se aplice. Sistemul integrat de bibliotecă gestionează toate datele care circulă în spaţiul unei biblioteci, şi o face cu scopul de a furniza eficient utilizatorului informaţiile de care acesta are nevoie, dar şi ceva în plus: informaţii despre care utilizatorul nici măcar nu ştie că are nevoie şi pe care bib liotecarul i le poate semnala astfel cu promptitudine. Pentru sistemul integrat de bibliotecă, datele sunt precum neuronii care compun sistemul neuronal al unui organism viu aflat în continuă şi strânsă relaţionare cu ambientul imediat. Felul în care reacţionează un astfel de sistem (neuronal sau integrat) depinde de impulsurile trimise de la un centru de comandă. De la nivelul oricărui grup investit cu putere de decizie la un moment dat sau pe o anume direcţie din corpusul unei biblioteci, impulsurile 'neuronale' trimise au două tipuri mari de caracteristici: fie 'instinctuale', fie 'procesate'. Domeniul biblioteconomic s-a axat până acum, poate prea mult şi aproape exclusiv, pe impulsuri caracterizate 'instinctual', perfecţionând necesităţile 'vitale' şi eludând procesarea informaţiilor la nivel multidimensional. Odată cu implementarea sistemelor integrate în biblioteci, se trece la nivelul superior prin complexitate: gestionarea integrată a tuturor aspectelor asupra cărora factorii decizionali sunt chemaţi să-şi exprime opţiunile. Pliate pe cerinţele utilizatorului, se pot divers cuantifica atât acţiunile 'actorilor' implicaţi, cât şi informaţiile asupra 'obiectelor' vizate, scopul fiind definirea unor 'şabloane' care să permită utilizarea eficientă a informaţiilor oferite de biblioteci, prin intermediul sistemelor integrate de care acestea dispun. Un astfel de exemplu se urmăreşte în continuare, definind metoda clusterizării tripartite, care va fi ilustrată printr-o aplicaţie practică pentru biblioteci universitare.

[close]

p. 4

Metoda Clusterizării Tripartite (MCT) Fie T perioada curentă de raportare, dată de o analiză iniţială a situaţiei din punctul de vedere al obiectivelor de activitate şi al indicatorilor de performanţă la nivel de instituţie / departament / individ, şi λ o constantă, cu valoare arbitrară pentru început, urmând a fi ajustată la momentul intrării în bucla recurentă a algoritmului decizional. Fie D mulţimea obiectelor di vizate de 'data mining', cu i de la 1 la numărul total n al obiectelor vizate: T = perioadă curentă de raportare, λ = constantă, D = {di / i de la 1 la n}. Etapa.I: punere în scenă Considerând că activităţile de bază şi acţiunile decizionale sunt duse la îndeplinire de 'actori', se începe aplicarea MCT printr-o 'punere în scenă' a tuturor celor implicate. Într-un sistem cartezian de coordonate, abscisa x este dată de elementele di ale mulţimii D, iar ordonata y este dată de mulţimea valorilor asociate obiectelor di, în perioada curentă de raportare T. Valorile y(di) asociate variază într-un interval de la 0 la m, unde m este valoarea maximă asociată, aflată din analiza iniţială a situaţiei în perioada curentă de raportare: di = 'obiectul vizat' de 'data mining', cu i de la 1 la n, unde n este numărul total, y(di) = 'valoarea asociată' obiectului di, cu y(di) de la 0 la m, unde m este valoarea maximă asociată. Se ilustrează grafic obiectele, de la d1 la dn, şi valorile asociate corespunzătoare, împreună cu nivelul y=m-λ, care va delimita, alături de valoarea asociată y=0 şi valoarea maximă asociată y=m, cele trei clustere K pe care le avem în vedere prin MCT. y m m-1 ... m-λ ... ■ ■ 2 1 0 ■ d1 d2 d3 ■ ■ ... ■ ... ■ ■ dn x ■ ■ ■ ■ ■ ■ ■ ■ ■ ■

[close]

p. 5

Etapa.II: MCT propriu-zis Iniţiem 'data mining' prin aplicarea unei clusterizări tripartite asupra mulţimii D conţinând obiecte procesate de un sistem integrat prin care fiecărui obiect di îi este atribuită în mod unic o valoare asociată y(di). În sistemul integrat sunt încărcate aceste date în mod direct de către actorii implicaţi de-a lungul procesului de activitate al instituţiei. menţiuni suplimentare Obiectele mulţimii D pot fi clase de obiecte d'j asemenea cu di, cărora li se asociază valori echivalente, eventual cu ataşare la clase de actori colectivi: Di = {d'j / d'j ≈ di}. Relaţiile de asemănare a obiectelor şi de echivalenţă a valorilor sunt definite intrinsec, iar clasele respective sunt stabilite de actorul decizional şi vor fi menţinute astfel pe întreaga perioada de raportare. Când obiectele sunt apreciate diferit de la o perioadă de raportare la alt a, criteriile de asemănare a obiectelor, respectiv de echivalenţă a valorilor, necesită atribuirea unor factori de conversie φf reprezentând ponderile care să modeleze valoarea asociată fiecărui obiect di în funcţie de 'importanţa obiectivă' atribuită obiectului. Această medie ponderată este necesară pentru 'descrirea corectă a situaţiei' şi se calculează după formula: Σ yf(di) ○ φi / Σ φf. Dacă restrângem domeniul de definiţie la clasele de 'obiecte asemenea' sau 'valori echivalente' considerate pur şi simplu ca 'obiecte' sau 'valori', se poate defini şirul (φf)f>0 şi fără implicarea mediei ponderate, astfel încât y(di) 'valoarea asociată' obiectului di să fie produsul dintre o valoare y(d'i) obţinută prin analiza iniţială a perioadei curente, şi φi importanţa lui obiectivă din şirul factorilor de conversie: y(di) = y(d'i) ○ φi cu i de la 1 la n. Şirul factorilor de conversie (φf)f>0 este stabilit de actorul decizional imediat superior celui care desfăşoară activitatea de bază, şi va fi menţinut astfel pe întreaga perioada de raportare. În continuare, lucrurile se pot complica oricât de mult, implicând tot mai multe noţiuni, definiţii şi formule matematice. Dar scopul aplicării unor tehnici matematice în biblioteconomie nu este de a complica lucrurile, ci de a se urmări construirea unor 'şabloane' care să ofere o viziune holostică asupra activităţilor de bibliotecă, astfel încât aceste 'şabloane' să rezolve în mod automat totul, aşa cum bine o face sistemul integrat, exact în măsura în care bibliotecarul ştie să îi ofere înformaţiile şi să îi solicite răspunsuri. Aplicând clusterizarea tripartită se obţin trei clustere K de obiecte, fiecare cluster urmând a fi abordat în mod specific în Etapa.II.1, II.2 respectiv II.3. y m m-1 ... m-λ ... ■ ■ ■ ■ d1 ... d2 d3 Κ0 ■ ... ■ dn x ■ ΚR ■ ■ ■ ■ ■ ■ ■ ■ ΚM ■ ■ 2 1 0

[close]

p. 6

Etapa.II.1 Obiectele a căror valoare asociată este 0 alcătuiesc clusterul 'zero': Κ0 = {di / y(di) = 0}. Clusterul 'zero' Κ0 presupune redistribuirea externă a obiectelor, în funcţie de criterii prestabilite sau stabilite ad-hoc la momentul delimitării clusterului respectiv. Aceste obiecte urmează a fi extrase din mulţimea D, pentru a fi incluse în statisticile unor alţi actori (indivizi, departamente sau instituţii), în vederea valorificării lor eficiente. Se elimină astfel din D clusterul 'zero' Κ0, pentru a restrânge mulţimea obiectelor vizate în D*, într-o perioadă ulterioară de raportare T*: D \ Κ0 = {di / 0 < y(di) < m} inclus în D*. Etapa.II.2 Obiectele a căror valoare asociată este mai mare sau egală cu m-λ alcătuiesc clusterul 'major': ΚM = {di / y(di) = m, m-1, ..., m-λ}. Clusterul 'major' ΚM presupune aplicarea unor acţiuni suplimentare de tip 'duplicare'. Valorificarea eficientă a obiectelor cu valori asociate majore se poate face prin duplicarea acestor obiecte relativ la actorii cărora le sunt ataşate. menţiuni suplimentare În funcţie de posibilităţile efective de duplicare la nivelul corespunzător (individual, departamental, direcţional sau supra-direcţional) dar şi în funcţie de posibilităţile reale de duplicare în cad rul perioadei vizate, este posibil să se ia în considerare micşorarea valorii λ astfel încât acţiunea să fie efectiv şi real posibilă. Dacă se alege λ' < λ astfel încât K'M să fie abordabil în perioada de raportare curentă, se reia Etapa.II.2 pentru acel λ' ale mai mic decât λ. În acest caz, obiectele care nu pot fi incluse în clusterul 'major' vor fi incluse în clusterul 'rest' şi tratate ca atare: KM \ K'M = {di / m-λ < y(di) < m-λ'} inclus în ΚR. Constanta λ obţinută la ieşirea din bucla recurentă este stabilită de factorul decizional imediat superior actorului care desfăşoară acţiunea, şi va fi menţinută astfel pe întreaga perioada de raportare. Etapa.II.3 Obiectele a căror valoare asociată este nenulă, mai mică decât m-λ, alcătuiesc clusterul 'rest': ΚR = {di / 0 < y(di) < m-λ}. Clusterul 'rest' ΚR poate fi re-clusterizat, conform unor criterii suplimentare, dacă se consideră a fi necesar pentru perioada curentă de raportare, sau se recomandă pentru perioada următoare ajustarea constantei λ de la începutul aplicării algoritmului decizional. Prin acest demers, se evidenţiază indicatorii de performanţă şi criteriile de asemănare şi de echivalenţă care urmează să fie avute în vedere într-o perioadă ulterioară de raportare T*. menţiuni suplimentare Posibile clusterizări de ordin secund presupun stabilirea unor categorii definite individual pentru actorii cărora li se asociază obiectele vizate, sau categorii definite intrinsec pentru obiectele vizate. Aceste categorii sunt delimitate managerial, fiind indexate pentru fiecare etapă de aplicare a planului de management unde se aplică MCT.

[close]

p. 7

Etapa.III rezultante Rezultantele aplicării MCT sunt consecinţe cu implementare imediată şi consecinţe cu implementare de perspectivă, obţinute prin intermediul extragerii informaţiilor în mod exhaustiv. Acestea sunt definite ca vectori de trecere de la situaţia (D, T, λ), prin analiza mulţimii D în perioada de raportare T, la situaţia (D*, T*, λ*) în care se va urmări dezvoltarea mulţimii D* în perioada de raportare T*. S-a definit astfel o transformarea izomorfă: τ : (D, T, λ) → (D*, T*, λ*). menţiuni suplimentare Ţinând cont de 'importanţa obiectivă' atribuită obiectului, prin care s-a definit şirul factorilor de conversie (φf)f>0, transformarea τ se adaptează la 'descrirea corectă a situaţiei' printr-o formulă: τφ : (Dφ, T, λ) → (D*φ, T*, λ*). În domeniile considerate de importanţă majoră din cadrul instituţiei la un moment dat, este imperios necesară definirea factorilor φf la nivel instituţional cu prevenirea oricăror situaţii de contestare a lor. Pentru îndeplinirea acestui deziderat, este suficient să se coroboreze imaginile transformărilor τ de-a lungul unei secvenţe de perioade consecutive de raportare. Momentul optim pentru aplicarea MCT este la încheierea unei perioade de raportare. Rezultantele obţinute ca vectori imprimă direcţia şi sensul de evoluţie al obiectelor, valorilor asociate lor şi actorilor cărora le sunt ataşate, pornindu-se de la noua situaţie, dată de analiza perioadei de raportare tocmai încheiate, şi tinzând spre atingerea performanţelor propuse pentru următoarea perioadă de raportare. Rezultantele care combină consecinţele cu implementare imediată vizează obiectele şi valorile asociate lor, iar rezultantele care combină consecinţele cu implementare de perspectivă vizează actorii cărora le sunt ataşate aceste obiecte. Obiectele vizate de tehnicile 'data mining' pot fi: 'produse', 'servicii', 'obiective de activitate', iar valorile asociate pot fi: 'număr de valorificări', 'număr de aplicări' sau 'timp de realizare', în funcţie de tipul de activitate specific instituţiei respective, evident dotată cu un sistem integrat. În instituţiile de tip bibliotecă, obiectele vizate pot fi: 'înregistrările bibliografice din catalogul on-line', 'utilizatorii catalogului on-line', 'subiectele bibliografice', 'operatorii catalogului on-line', 'obiective de activitate pentru funcţia de execuţie', 'obiective de activitate pentru funcţia de conducere' şi alte asemenea. Asociate acestor obiecte, putem stabili valori precum: 'număr de accesări spre consultare', 'număr de actualizări în sistem' sau 'timp de realizare a obiectivului'.

[close]

p. 8

Aplicaţie practică la nivelul serviciilor pentru utilizatorii de biblioteci universitare Se identifică 'obiectele vizate' cu 'înregistrările bibliografice din catalogul on-line', şi 'valoarea asociată' cu 'numărul de accesări spre consultare'. Sistemul informatizat este capabil să contabilizeze accesările înregistrărilor bibliografice din catalogul on-line în scopul consultării textului. Se alege perioada curentă de raportare T = 'anul şcolar precedent', şi λ = 1. Elementele mulţimii D sunt clase Ei de 'înregistrări bibliografice' delimitate după criteriul 'expresie' (expression-FRBR). În Ei se grupează toate materializări fizice ale aceleiaşi expresii: Ei = { Mj / Mj 'manifestare' a 'expresiei' Ei}, iar D este mulţimea acestor clase după criteriul de asemănare dat de 'expresie': D = { Ei / i de la 1 la numărul total de 'expresii'}. Pentru fiecare clasă Ei, 'valoarea asociată' este media aritmetică (ma) a 'valorilor asociate' fiecărei 'manifestări': y(Ei) = ma(y(Mj)). Ca variantă la această alegere, elementele mulţimii D pot fi clase Mi de 'înregistrări bibliografice' delimitate nu la exemplar (item-FRBR) existent în bibliotecă, ci după criteriul 'manifestare' (manifestation-FRBR). În Mi se grupează toate exemplarele aceleiaşi materializări fizice: Mi = { Ij / Ij 'exemplar' al 'manifestării' Mi}, iar D este mulţimea acestor clase după criteriul de asemănare dat de 'manifestare': D = { Mi / i de la 1 la numărul total de 'manifestări'}. Pentru fiecare clasă Mi, 'valoarea asociată' este media aritmetică (ma) a 'valorilor asociate' fiecărui 'exemplar': y(Mi) = ma(y(Ij)). Mai clar, în primul caz, luăm în considerare evidenţa consultării titlurilor, fără a ţine cont de ediţiile diferite; în al doilea caz, luăm în considerare evidenţa consultării titlurilor, ţinând cont de ediţiile diferite. În ambele cazuri, şirul factorilor de conversie (φf)f>0 este şirul cu toţi termenii egali cu unitatea, iar 'exemplarele' aceleiaşi 'manifestări' nu sunt delimitate între ele până la momentul includerii într-un cluster 'major'. Aplicând MCT, obţinem cele trei clusterele Κ0, ΚM şi ΚR. Clusterul 'zero' este mulţimea titlurilor care nu au fost consultate vreodată: Κ0 = {di / y(di) = 0}. Aceste titluri urmează să fie incluse într-un program de redistribuire prin 'transfer' spre alte instituţii (biblioteci, asociaţii de cultură sau de reciclare a materialului). Acţiunea merită să fie făcută cu consultarea profesorilor interesaţi, în funcţie de prioritatea pe subiecte. Clusterul 'major' este mulţimea titlurilor solicitate intens: ΚM = {di / y(di) = m sau m-1}. Aceste titluri urmează să fie incluse într-un program de creştere a numărului de duplicate sau urmează să fie incluse într-un program de scanare pentru afişarea textului on-line, în funcţie de prioritatea pe subiecte, stabilită ca mai sus. Clusterul 'rest' ΚR = {di / 1< y(di) < m-1} poate fi considerat constanta perioadei respective de raportare, sau poate fi re-clusterizat în funcţie de priorităţile stabilite prin consultarea profesorilor interesaţi. Pentru perioada următoare de raportare, obiectele incluse în clusterul major ΚM care au fost prelucrate în perioada curentă de raportare, vor beneficia de factori de conversie φf negativi pentru valorile asociate lor, astfel încât aceste obiecte să nu mai fie cuprinse în zona de lucru a sistemului cartezian de coordonate pe perioada următoare de raportare.

[close]

p. 9

Variantă de aplicaţie pe subiecte Se poate delimita în catalogul on-line, mulţimea subiectelor de bază Sj implicate, definind astfel S mulţimea obiectelor vizate: S={Sj / j de la 1 la ns}, cu ns numărul total de subiecte de bază date de specializările pe facultăţi. Fiecare Sj este o clasă de subiecte derivate dintr-un subiect de bază: Sj = {s'j / s'j ≈ sj }, unde criteriul de asemănare este: subiecte derivate dintr-un subiect de bază. Pentru fiecare Sj se pot defini stratificări suplimentare după: subiect geografic, an/perioadă de publicare, sau alte criterii, în funcţie de obiectivele urmărite. În acest caz, valorile asociate subiectelor pot fi 'număr de titluri', când se urmăreşte cointeresarea profesorilor, sau 'număr de consultări', când se urmăreşte co-interesarea studenţilor. Variantă de aplicaţie pe ani de studiu Se poate realiza clusterizarea întregii mulţimi D pe anii de studiu cărora li se adresează înregistrările bibliografice din catalogul on-line. Se obţin astfel: DI, DII, DIII şi alte D-uri pentru care să se aplice separat MCT. Prin MCT, se obţin informaţii sigure despre utilizarea documentelor de bibliotecă şi se construieşte baza de indicii, pornind de la aceste informaţii, pentru a demara programe eficiente de creştere a numărului de duplicate, de scanare pentru afişarea textului on-line, de scoatere din evidenţele contabile, şi alte asemenea.

[close]

p. 10

Concluzii Este evident că orizontul expectanţelor utilizatorului s-a lărgit, trecând de la bidimensionalitate carteziană, la tri-dimensionalitate hiperbolică. Ne aflăm la o nouă răscruce de abordare mentală, cu un impact asemănător poate cu revoluţia generată de acceptarea sfericităţii terestre, la vremea trecerii de la planimentria general acceptată, indusă definitoriu prin intermediul gândirii teologice. Tehnicile 'data mining' şi diferitele metode de aplicare a lor nu pot fi luate în considerare până la momentul implementării unui sistem integrat, chiar dacă informaţiile există anterior acestui moment, întrucât structurarea, ierarhizarea şi indexarea lor sunt dificil şi aproape imposibil de realizat în afara sistemului integrat. În domeniul biblioteconomic, aceste tehnici nu introduc nimic nou: este vorba despre aceleaşi date, aceiaşi bibliotecari, aceleaşi situaţii de rezolvat. Ceea ce apare în plus este precizia rezultantelor bazată pe exhaustivitate, care permite dezvoltarea unor planuri de management mult mai eficiente. Bazele ample de date colectate şi stratificate de un sistem integrat de bibliotecă suportă aplicarea unor tehnici matematice prin care să se extragă informaţii care nu au fost vizate iniţial în colectare şi stratificare. Aceste strategii extractive oferă răspunsuri exacte la cele mai multe dintre întrebările suscitate în procesul de luare a deciziilor, dar nu numai la nivel ierarhic superior, ci oriunde de-a lungul lanţului decizional, începând cu funcţiile de execuţie de bază. Aceasta este una dintre provocările cărora trebuie să la facă faţă bibliotecarul Mileniului III. Pentru a ne sincroniza cu evoluţia orizontului pe care îl dezvoltă utilizatorul, este necesar şi suficient să implementăm plenar un sistem integrat de bibliotecă la nivelul fiecărei unităţi biblioteconomice, având la bază un plan bine structurat de proceduri, şi aplicând tehnici 'data mining' la nivelul tuturor treptelor decizionale. Sistemele integrate de bibliotecă au început să fiinţeze şi chiar să relaţioneze cu sisteme identice sau asemănătoare, cu rezultate observabile la nivelul marilor biblioteci din multe zone geografice importante. Ceea ce putem spera pentru spaţiul b iblioteconomic românesc este să se extindă / perfecţioneze / amplifice coordonarea eforturilor individuale până întratât încât rezultatele obţinute să amprenteze întregul sistem, propulsându-l spre constelaţiile către care se îndreaptă biblioteconomia la nivel mondial.

[close]

p. 11

În loc de bibliografie orice text care abordează tematica 'data mining' şi orice sistem integrat de bibliotecă.

[close]

Comments

no comments yet