Temelji znanstvenega informiranja in komuniciranja
Tekstovne zbirke
Cilji predavanja
Razumevanje:
- pojma bibliografska zbirka
in načinov njene rabe,
- pomena opisovanja vsebine dokumentov, shranjenih v
podatkovnih
zbirkah,
- postopkov intelektualnega indeksiranja - načina opisovanja
vsebine dokumentov bibliografski zbirki in vloge deskriptorjev pri tem,
- hipertekstne in večpredstavne narave sodobnih e-dokumentov,
- osnovnih postopkov avtomatskega indeksiranja,
- pojma relevantnost in
njegove vloge pri različnih iskalnih modelih,
- osnovnih razlik med iskanjem po relacijskih in tekstovnih
zbirkah,
- osnovnih razlik med Boolovim in ne-Boolovimi iskalnimi modeli.
Povzetek predavanja
Bibliografske zbirke
Znanstvena in strokovna spoznanja se pretežno širijo z dokumenti,
v katerih je največji del informacij zapisan kot besedilo. Zato ni
naključje,
da se že od vsega začetka razvoja informacijskih orodij, ta ukvarjajo
skoraj
izključno z besedili. Osnovni namen informacijskega orodja v
znanstvenem
informiranju je odkrivanje obstoja dokumenta, ki bi lahko ustrezal
informacijski
potrebi, v razvitejši obliki pa tudi dostop do tega dokumenta. Urejanje
dokumentov v nekakšni obliki podatkovne zbirke je
osnovni pogoj za odkrivanje njihovega obstoja. Vnos množice besedil v
podatkovno
zbirko tej množici vsili neko urejenost, posameznemu besedilu pa neko
strukturo.
Najstarejša, računalniško podprta oblika tekstovne
zbirke je
bibliografska zbirka. V njej niso urejeni sami dokumenti, ampak le
njihovi
nadomestki, ki jim pravimo bibliografski zapisi. Bibliografski zapis je
sestavljen
iz polj, ki vsebujejo tiste podatke o dokumentu, ki so potrebni za
njegovo
nedvoumno identifikacijo (ime(na) avtorja(jev), naslov, ime vira
(revije,
zbornika...), kjer je bil dokument objavljen...), podatkov, ki
uporabnika
bibliografskega zapisa poučijo o vsebini dokumenta (izvleček) in
podatkov,
ki omogočajo, da uporabnik bibliografske zbirke ta zapis najde v
postopku
iskanja (polja opisa vsebine).
Med načini uporabe bibliografskih zbirk je
najpomembnejše "iskanje
po vsebini dokumentov". Običajna informacijska potreba je vsebinske
narave
- zavedamo se nekakšne "luknje v znanju", v iskalni zahtevi, ki jo
posredujemo bibliografski zbirki pa opišemo vsebino dokumentov, s
kakršnimi
bi lahko zapolnili to luknjo. Denimo, da nas zanimajo sodobni načini operativnega
zdravljenja neke poškodbe.
V iskalni zahtevi bomo navedli ime te poškodbe
in način zdravljenja, verjetno pa bomo poiskano množico bibliografskih
zapisov
omejili še na interval zadnjih let (zahteva po sodobnosti). Rezultat
iskanja s tako iskalno zahtevo bodo le bibliografski zapisi, ki imajo v
svojih poljih z opisom vsebine shranjene ključne besede ali besedne
zveze z imenom poškodbe in načina zdravljenja (in v nekem drugem polju
letnico izdaje).
Indeksiranje in deskriptorji
Postopek dodeljevanja ključnih besed v bibliografski
zapis imenujemo indeksiranje. V naravnem jeziku lahko obstaja za isti
pojem več izrazov (sinonimov) in isti (homonimni) izraz lahko
predstavlja več različnih pojmov. Uporaba različnih sinonimov za
indeksiranje bi lahko povzročila, da nekateri dokumenti z iskano
vsebino ne bi bili poiskani, uporaba homonimov pa situacijo, ko bi bili
poiskani dokumenti z neželeno vsebino. Zaradi take nenatančnosti
naravnega jezika se za indeksiranje običajno uporablja umeten jezik,
sestavljen iz vnaprej
dogovorjenih eno ali večbesednih izrazov, ki jim pravimo deskriptorji.
Velja, da vsak deskriptor opisuje en
sam pojem in vsak pojem opisuje en sam deskriptor. Pri uvrščanju
podatkov o nekem dokumentu v bibliografsko zbirko indekser ta dokument
prebere ali vsaj natančno pregleda, razmisli o najpomembnejših vsebinah
in izbere deskriptorje, ki te vsebine najbolje predstavljajo. Načeloma
vedno izbere po vsebini najbolj podrobne deskriptorje, ki opisujejo nek
pojav in ne takih, ki opisujejo širšo družino sorodnih pojavov (npr.
deskriptor, ki poimenuje konkretno bolezen in ne deskriptorja, ki
poimenuje skupino bolezni, v katero sodi tudi bolezen, opisana v
dokumentu).
Deskriptorji so urejeni v tezavru, ki je več kot samo seznam
dogovorjenih izrazov. Poleg deskriptorjev so v njem še sinonimni
izrazi, vodilke od njih k sinonimom (npr, sladkorna bolezen rabi
diabetes mellitus), oznake, ki označujejo pomensko vlogo deskriptora in
navodila za rabo deskriptorjev pri indeksiranju ter iskanju. Tezaver je
nujen pripomoček tako za indeksiranje, kot za iskanje. Dobri programi
za iskanje po bibliografskih zbirkah nudijo tezaver v nazorni
elektronski obliki kot del namestitve zbirke in s tem omogočajo iskalcu
enostavno izbiro naustreznejših deskriptorjev s katerimi oblikuje
iskalno zahtevo.
Dokumenti in zbirke dokumentov
Bibliografska zbirka je v znanstvenem informiranju danes osnovni
a še vedno najpomembnejši pripomoček za pregled nad
produkcijo znanstvenih in strokovnih dokumentov. Nobeno drugo
informacijsko orodje ne zajema večine najpomembnejših objav na nekem
strokovnem področju. Zavedati pa se moramo, da je iskanje po
bibliografski zbirki samo vmesna stopnja v postopku informiranja,
bibliografski zapis pa le nadomestek pravega dokumenta. Trendi razvoja
informacijskih orodij vodijo k urejanju in ponudbi polnih dokumentov.
Pojem dokument je
zelo širok in v najbolj sproščeni obliki zajema vse oblike sporočanja,
v katerih so informacije zapisane v besedilni ali nebesedilni obliki.
Znanstveno informiranje se ukvarja predvsem s članki v strokovnih in
znanstvenih revijah. Za razliko od leposlovnega besedila, strokovno
besedilo ni popolnoma linearna struktura. Redko ga beremo zaporedno od
začetka do konca in izolirano od ostalih strokovnih besedil. Izvleček
ali uvod se sklicujeta na poglavja, nerazumljiva mesta
pogosto zahtevajo rabo referenčne literature (priročnikov, učbenikov,
leksičnih
pripomočkov...), besedilo se sklicuje na druga besedila, še posebno z
referencami v seznamu literature... Branje strokovnega dokumenta sledi
implicitni ali eksplicitni pomenski mreži, ki povezuje dele tega
dokumenta ali dokumente med seboj. Temu načelu pravimo hipertekstno
načelo.
V klasični, tiskani obliki, vsebino članka podajata
dva podatkovna tipa - besedilo in statična slika. Obstajajo tudi drugi
podatkovni tipi, ki lahko nekatere zvrsti informacij podajajo še
bolj nazorno, denimo gibljive slike in zvok, ki so najprimernejši za
opisovanje pojavov v marsikateri panogi medicine. V izvorni obliki je
bil, zaradi skromne zmogljivosti računalniške opreme, elektronski
dokument samo besedilo in je v svoji informativnosti zelo zaostajal za
tiskano obliko. Današnja stopnja razvitosti informacijske opreme
omogoča oblikovanje večpredstavnih (multimedijskih) dokumentov, ki so
po izrazni moči prekosili tiskane dokumente. Vedno bolj se zavedamo, da
je naravna oblika strokovnega dokumenta in zbirk dokumentov
hipertekstna in večpredstavna.
Avtomatsko indeksiranje
Indeksiranje, ki ga opravlja informacijski strokovnjak, je drago in
zamudno. V osnovni obliki izvira še iz predračunalniških časov
kartičnih knjižničnih katalogov. Na papirnati kartici je bilo mogoče
opisati vsebino dokumenta samo z manjšim številom gesel (ključnih besed
ali besednih zvez). Tudi v prvih desetletjih uporabe računalnikov pri
informacijskem delu je bil majhen obseg opisa vsebine nujen zaradi
skromnih pomnilniških zmogljivosti. Kljub temu so bili že v zgodnjih
70-ih letih postavljeni temelji metod, ki zgradijo opis vsebine
dokumenta na
avtomatski način, brez udeležbe informatika, sestavlja pa ga večje
število ključnih besed, izbranih neposredno iz dokumenta.
Osnovna problema avtomatskega indeksiranja sta izbor
besed, ki bodo najbolje predstavljale vsebino dokumenta in oblika teh
besed, ki bo nudila največjo možnost za uspeh pri iskanju. Za izbor
besed je odločilna količina informacije, ki jo vsebuje vsaka beseda.
Količina informacije v besedi (imenujemo jo povedna moč besede) odraža
vlogo besede pri izražanje vsebine dokumenta, mogoče pa jo je
izračunati iz porazdelitve te besede v dokumentu, ki ga indeksiramo, in
v zbirki, kamor uvrščamo dokument. Problem najustreznejše oblike besede
izvira iz dejstva, da v naravnem jeziku besede nastopajo v številnih
oblikah. Te oblike je treba poenotiti v neko nevtralno obliko, ki
zastopa vse oblike te besede in samo oblike te besede. Postopek
imenujemo krnjenje, omenjeno
nevtralno obliko pa krn. Krnjenje je še posebno pomembno v
jezikih z bogatim besedotvorjem, kakršna je, zaradi vpliva spreganja,
sklanjanja, števil, spolov, itd., tudi slovenščina.
Osnovni postopki avtomatskega indeksiranja so
statistični in običajno potekajo v treh korakih:
- blokiranje (use of stop-list),
- krnjenje (stemming), in
- računanje povednih moči (term weighting).
Vsi trije koraki potekajo na množici besed, ki
sestavljajo indeksirani dokument, zaporedoma. Pri blokiranju zavržemo besede, ki
nosijo majhno količino informacije (vezniki, predlogi, prislovi,
zaimki, ipd.) in se pojavljajo v velikem delu dokumentov v zbirki, zato
ne morejo biti dobre ključne besede. Krnjenje
v najenostavnejši obliki izvedemo tako, da od vsake besede
odrežemo morebitno končnico, ki jo izberemo iz seznama možnih končnic
za nek jezik. Za najenostavnejšo obliko računanja povednih moči nekega krna
potrebujemo frekvenco krna v dokumentu in število dokumentov v zbirki,
ki vsebujejo ta krn. Visoko povedno moč v nekem dokumentu bo dobila
beseda, ki se pogosto pojavlja v tem dokumentu in redko v ostalih
dokumentih. To je skladno z intuicijo, ki pravi, da bo zaradi take
besede dokument, ki jo vsebuje, najverjetneje poiskan z iskalno
zahtevo, ki poizveduje po vsebini, ki jo zastopa ta beseda.
Iskanje
Relevantnost
Relevantnost je osrednji pojem v znanstvenem informiranju, kljub temu
pa je težko opredeljiv. Pravimo, da "želimo pri iskanju po zbirkah
najti relevantne dokumente" (ali bibliografske zapise) in "da nas ne
zanimajo nerelevantni dokumenti". Relevantnost je torej povezana z našo
informacijsko potrebo in vsebino dokumentov. Za naše potrebe je dovolj,
da ločimo dve obliki relevantnosti: objektivno in subjektivno. Objektivno relevantni so tisti
dokumenti, pri katerih se je iskanje po podatkovni zbirki pozitivno
izteklo, torej ustrezajo iskalni zahtevi. Ni nujno, da nam vsak
objektivno relevanten dokument v resnici koristi. Možno je, da je bila
iskalna zahteva slabo sestavljena ali pa so bile ključne besede
(deskriptorji), ki opisujejo vsebino nekoristnega dokumenta, slabo
izbrane. Pri takem razmišljanju uporabljamo pojem subjektivne relevantnosti,
koristnosti dokumenta. Subjektivno relevantni so torej tisti dokumenti,
ki ustrezajo naši informacijski potrebi.
Deterministično in probabilistično iskanje
Pri iskanju po nekaterih zvrsteh zbirk poizvedujemo po znanih
informacijah ali vsaj en in prostavnih podatkih in tem uporabljamo
enostavne vrednosti v iskalni zahtevi. Tako iskanje bi bilo npr. "S
kakšno oceno je Janez Novak opravil 15. 2. 2004 izpit pri predmetu
TZIK?". Vemo, da je oseba s tem imenom opravljala izpit in vemo, kdaj
se je to zgodilo, zanima nas le ocena. Rezultat takega iskanja bodo vsi
podatki, ki jih iščemo in samo ti podatki (ali pa nič podatkov, če jih
ni v zbirki) in tako iskanje je značilno za relacijske zbirke.
Imenujemo ga deterministično iskanje,
ker je izzid vnaprej znan in en sam možen.
Pri drugi obliki iskanja bi uporabili iskalno
zahtevo, kot je "želim vse dokumente, ki opisujejo vpliv inzulina na
presnovo sladkornega bolnika". S tako iskalno zahtevo smo opisali
vsebino dokumentov, kakršni nas zanimajo. Vsebina pa je kompleksna
lastnost dokumenta , ki se je ne da opisati z nekaj ključnimi besedami
(ali deskriptorji) v iskalni zahtevi in nekaj ključnimi besedami (ali
deskriptorji) v poljih za opis vsebine bibliografskih zapisov v zbirki.
Zato bo pri iskanju po vsebini dokumentov vedno nek del relevantnih
dokumentov nepoiskan in nek del poiskanih dokumentov bo nerelevanten.
Obakrat mislimo na subjektivno relevantnost. Takemu iskanju pravimo probabilistično (verjetnostno) iskanje, ker bo vsak dokument,
relevanten za dano iskalno zahtevo, poiskan samo z neko verjetnostjo in
vsak poiskan dokument je samo z neko verjetnostjo relevanten za dano
iskalno zahtevo.
Iskalni modeli
Iskalni modeli se med seboj razlikujejo predvsem po tem, kako
primerjajo iskalno zahtevo z opisi dokumentov v zbirki in kako
oblikujejo množico poiskanih dokumentov (zadetkov), ki so rezultat te
primerjave.
Boolov iskalni model
Boolov iskalni model najpogosteje srečujemo pri uporabi bibliografskih
zbirk. Osnovna značilnost tega iskalnega modela je uporaba logičnih
(Boolovih) operatorjev IN, ALI in NE pri sestavljanju iskalne zahteve.
V Boolovem iskalnem modelu je relevantnost binarna lastnost dokumenta:
dokument je relevanten, če popolnoma ustreza iskalni zahtevi, ali pa
sploh ni. Iskanje navidez razdeli zbirko na dve jasno definirani
množici - relevantne dokumente (zadetke), ki jih ponudi iskalcu in vse
ostale, ki niso relevantni. Mišljena je seveda objektivna relevantnost.
To binarno razumevanje relevantnosti samo delno
ustreza stvarnosti. Marsikateri dokument, ki ga je iskanje zavrnilo kot
nerelevantnega, bi lahko bil vseeno zanimiv za iskalca, čeprav ne
ustreza popolnoma iskalni zahtevi in poiskani dokumenti v resnici niso
vsi enako zanimivi, čeprav jih iskalni model smatra za enakovredne.
Ne-Boolovi iskalni modeli
Ne-Boolovi iskalni modeli razumejo relevantnost kot zvezno lastnost
dokumentov. Dokument je lahko bolj ali manj relevanten. Najprimernejši
so za iskanje po zbirkah polnih dokumentov z velikim številom ključnih
besed, ki so nastale z avtomatskim indeksiranjem. Iskalne zahteve so
nestrukturirane (brez logičnih operatorjev). Ne-Boolovi iskalni modeli
(obstaja več različic) računajo relevantnost dokument na osnovi števila
besed, ki so skupne iskalni zahtevi in dokumentu ter povednih moči teh
besed v dokumentu.
Če je relevantnost zvezna lastnost in jo je mogoče
izračunati, potem je mogoče iskalcu ponuditi poiskane dokumente
razvrščene glede na te izračune. V seznamu zadetkov bodo najbolj
relevantni zadetki na vrhu, sledili pa bodo manj in manj relevantni
dokumenti. Na tak način delujejo tudi veliki spletni iskalniki, kot so
Google, Teoma, AltaVista, in podobni.
Jure Dimec,
Zadnja sprememba: 18. 11. 2003