Temelji znanstvenega informiranja in komuniciranja

Tekstovne zbirke

Cilji predavanja

Razumevanje:

pojma bibliografska zbirka in načinov njene rabe,
pomena opisovanja vsebine dokumentov, shranjenih v podatkovnih zbirkah,
postopkov intelektualnega indeksiranja - načina opisovanja vsebine dokumentov bibliografski zbirki in vloge deskriptorjev pri tem,
hipertekstne in večpredstavne narave sodobnih e-dokumentov,
osnovnih postopkov avtomatskega indeksiranja,
pojma relevantnost in njegove vloge pri različnih iskalnih modelih,
osnovnih razlik med iskanjem po relacijskih in tekstovnih zbirkah,
osnovnih razlik med Boolovim in ne-Boolovimi iskalnimi modeli.

Povzetek predavanja

Bibliografske zbirke

Znanstvena in strokovna spoznanja se pretežno širijo z dokumenti, v katerih je največji del informacij zapisan kot besedilo. Zato ni naključje, da se že od vsega začetka razvoja informacijskih orodij, ta ukvarjajo skoraj izključno z besedili. Osnovni namen informacijskega orodja v znanstvenem informiranju je odkrivanje obstoja dokumenta, ki bi lahko ustrezal informacijski potrebi, v razvitejši obliki pa tudi dostop do tega dokumenta. Urejanje dokumentov v nekakšni obliki podatkovne zbirke je osnovni pogoj za odkrivanje njihovega obstoja. Vnos množice besedil v podatkovno zbirko tej množici vsili neko urejenost, posameznemu besedilu pa neko strukturo.
Najstarejša, računalniško podprta oblika tekstovne zbirke je bibliografska zbirka. V njej niso urejeni sami dokumenti, ampak le njihovi nadomestki, ki jim pravimo bibliografski zapisi. Bibliografski zapis je sestavljen iz polj, ki vsebujejo tiste podatke o dokumentu, ki so potrebni za njegovo nedvoumno identifikacijo (ime(na) avtorja(jev), naslov, ime vira (revije, zbornika...), kjer je bil dokument objavljen...), podatkov, ki uporabnika bibliografskega zapisa poučijo o vsebini dokumenta (izvleček) in podatkov, ki omogočajo, da uporabnik bibliografske zbirke ta zapis najde v postopku iskanja (polja opisa vsebine).
Med načini uporabe bibliografskih zbirk je najpomembnejše "iskanje po vsebini dokumentov". Običajna informacijska potreba je vsebinske narave - zavedamo se nekakšne "luknje v znanju", v iskalni zahtevi, ki jo posredujemo bibliografski zbirki pa opišemo vsebino dokumentov, s kakršnimi bi lahko zapolnili to luknjo. Denimo, da nas zanimajo sodobni načini operativnega zdravljenja neke poškodbe. V iskalni zahtevi bomo navedli ime te poškodbe in način zdravljenja, verjetno pa bomo poiskano množico bibliografskih zapisov omejili še na interval zadnjih let (zahteva po sodobnosti). Rezultat iskanja s tako iskalno zahtevo bodo le bibliografski zapisi, ki imajo v svojih poljih z opisom vsebine shranjene ključne besede ali besedne zveze z imenom poškodbe in načina zdravljenja (in v nekem drugem polju letnico izdaje).

Indeksiranje in deskriptorji

Postopek dodeljevanja ključnih besed v bibliografski zapis imenujemo indeksiranje. V naravnem jeziku lahko obstaja za isti pojem več izrazov (sinonimov) in isti (homonimni) izraz lahko predstavlja več različnih pojmov. Uporaba različnih sinonimov za indeksiranje bi lahko povzročila, da nekateri dokumenti z iskano vsebino ne bi bili poiskani, uporaba homonimov pa situacijo, ko bi bili poiskani dokumenti z neželeno vsebino. Zaradi take nenatančnosti naravnega jezika se za indeksiranje običajno uporablja umeten jezik, sestavljen iz vnaprej dogovorjenih eno ali večbesednih izrazov, ki jim pravimo deskriptorji. Velja, da vsak deskriptor opisuje en sam pojem in vsak pojem opisuje en sam deskriptor. Pri uvrščanju podatkov o nekem dokumentu v bibliografsko zbirko indekser ta dokument prebere ali vsaj natančno pregleda, razmisli o najpomembnejših vsebinah in izbere deskriptorje, ki te vsebine najbolje predstavljajo. Načeloma vedno izbere po vsebini najbolj podrobne deskriptorje, ki opisujejo nek pojav in ne takih, ki opisujejo širšo družino sorodnih pojavov (npr. deskriptor, ki poimenuje konkretno bolezen in ne deskriptorja, ki poimenuje skupino bolezni, v katero sodi tudi bolezen, opisana v dokumentu).
Deskriptorji so urejeni v tezavru, ki je več kot samo seznam dogovorjenih izrazov. Poleg deskriptorjev so v njem še sinonimni izrazi, vodilke od njih k sinonimom (npr, sladkorna bolezen rabi diabetes mellitus), oznake, ki označujejo pomensko vlogo deskriptora in navodila za rabo deskriptorjev pri indeksiranju ter iskanju. Tezaver je nujen pripomoček tako za indeksiranje, kot za iskanje. Dobri programi za iskanje po bibliografskih zbirkah nudijo tezaver v nazorni elektronski obliki kot del namestitve zbirke in s tem omogočajo iskalcu enostavno izbiro naustreznejših deskriptorjev s katerimi oblikuje iskalno zahtevo.

Dokumenti in zbirke dokumentov

Bibliografska zbirka je v znanstvenem informiranju danes osnovni a še vedno najpomembnejši pripomoček za pregled nad produkcijo znanstvenih in strokovnih dokumentov. Nobeno drugo informacijsko orodje ne zajema večine najpomembnejših objav na nekem strokovnem področju. Zavedati pa se moramo, da je iskanje po bibliografski zbirki samo vmesna stopnja v postopku informiranja, bibliografski zapis pa le nadomestek pravega dokumenta. Trendi razvoja informacijskih orodij vodijo k urejanju in ponudbi polnih dokumentov.
Pojem dokument je zelo širok in v najbolj sproščeni obliki zajema vse oblike sporočanja, v katerih so informacije zapisane v besedilni ali nebesedilni obliki. Znanstveno informiranje se ukvarja predvsem s članki v strokovnih in znanstvenih revijah. Za razliko od leposlovnega besedila, strokovno besedilo ni popolnoma linearna struktura. Redko ga beremo zaporedno od začetka do konca in izolirano od ostalih strokovnih besedil. Izvleček ali uvod se sklicujeta na poglavja, nerazumljiva mesta pogosto zahtevajo rabo referenčne literature (priročnikov, učbenikov, leksičnih pripomočkov...), besedilo se sklicuje na druga besedila, še posebno z referencami v seznamu literature... Branje strokovnega dokumenta sledi implicitni ali eksplicitni pomenski mreži, ki povezuje dele tega dokumenta ali dokumente med seboj. Temu načelu pravimo hipertekstno načelo.
V klasični, tiskani obliki, vsebino članka podajata dva podatkovna tipa - besedilo in statična slika. Obstajajo tudi drugi podatkovni tipi, ki lahko nekatere zvrsti informacij podajajo še bolj nazorno, denimo gibljive slike in zvok, ki so najprimernejši za opisovanje pojavov v marsikateri panogi medicine. V izvorni obliki je bil, zaradi skromne zmogljivosti računalniške opreme, elektronski dokument samo besedilo in je v svoji informativnosti zelo zaostajal za tiskano obliko. Današnja stopnja razvitosti informacijske opreme omogoča oblikovanje večpredstavnih (multimedijskih) dokumentov, ki so po izrazni moči prekosili tiskane dokumente. Vedno bolj se zavedamo, da je naravna oblika strokovnega dokumenta in zbirk dokumentov hipertekstna in večpredstavna.

Avtomatsko indeksiranje

Indeksiranje, ki ga opravlja informacijski strokovnjak, je drago in zamudno. V osnovni obliki izvira še iz predračunalniških časov kartičnih knjižničnih katalogov. Na papirnati kartici je bilo mogoče opisati vsebino dokumenta samo z manjšim številom gesel (ključnih besed ali besednih zvez). Tudi v prvih desetletjih uporabe računalnikov pri informacijskem delu je bil majhen obseg opisa vsebine nujen zaradi skromnih pomnilniških zmogljivosti. Kljub temu so bili že v zgodnjih 70-ih letih postavljeni temelji metod, ki zgradijo opis vsebine dokumenta na avtomatski način, brez udeležbe informatika, sestavlja pa ga večje število ključnih besed, izbranih neposredno iz dokumenta.
Osnovna problema avtomatskega indeksiranja sta izbor besed, ki bodo najbolje predstavljale vsebino dokumenta in oblika teh besed, ki bo nudila največjo možnost za uspeh pri iskanju. Za izbor besed je odločilna količina informacije, ki jo vsebuje vsaka beseda. Količina informacije v besedi (imenujemo jo povedna moč besede) odraža vlogo besede pri izražanje vsebine dokumenta, mogoče pa jo je izračunati iz porazdelitve te besede v dokumentu, ki ga indeksiramo, in v zbirki, kamor uvrščamo dokument. Problem najustreznejše oblike besede izvira iz dejstva, da v naravnem jeziku besede nastopajo v številnih oblikah. Te oblike je treba poenotiti v neko nevtralno obliko, ki zastopa vse oblike te besede in samo oblike te besede. Postopek imenujemo krnjenje, omenjeno nevtralno obliko pa krn. Krnjenje je še posebno pomembno v jezikih z bogatim besedotvorjem, kakršna je, zaradi vpliva spreganja, sklanjanja, števil, spolov, itd., tudi slovenščina.
Osnovni postopki avtomatskega indeksiranja so statistični in običajno potekajo v treh korakih:

blokiranje (use of stop-list),
krnjenje (stemming), in
računanje povednih moči (term weighting).

Vsi trije koraki potekajo na množici besed, ki sestavljajo indeksirani dokument, zaporedoma. Pri blokiranju zavržemo besede, ki nosijo majhno količino informacije (vezniki, predlogi, prislovi, zaimki, ipd.) in se pojavljajo v velikem delu dokumentov v zbirki, zato ne morejo biti dobre ključne besede. Krnjenje v najenostavnejši obliki izvedemo tako, da od vsake besede odrežemo morebitno končnico, ki jo izberemo iz seznama možnih končnic za nek jezik. Za najenostavnejšo obliko računanja povednih moči nekega krna potrebujemo frekvenco krna v dokumentu in število dokumentov v zbirki, ki vsebujejo ta krn. Visoko povedno moč v nekem dokumentu bo dobila beseda, ki se pogosto pojavlja v tem dokumentu in redko v ostalih dokumentih. To je skladno z intuicijo, ki pravi, da bo zaradi take besede dokument, ki jo vsebuje, najverjetneje poiskan z iskalno zahtevo, ki poizveduje po vsebini, ki jo zastopa ta beseda.

Iskanje

Relevantnost

Relevantnost je osrednji pojem v znanstvenem informiranju, kljub temu pa je težko opredeljiv. Pravimo, da "želimo pri iskanju po zbirkah najti relevantne dokumente" (ali bibliografske zapise) in "da nas ne zanimajo nerelevantni dokumenti". Relevantnost je torej povezana z našo informacijsko potrebo in vsebino dokumentov. Za naše potrebe je dovolj, da ločimo dve obliki relevantnosti: objektivno in subjektivno. Objektivno relevantni so tisti dokumenti, pri katerih se je iskanje po podatkovni zbirki pozitivno izteklo, torej ustrezajo iskalni zahtevi. Ni nujno, da nam vsak objektivno relevanten dokument v resnici koristi. Možno je, da je bila iskalna zahteva slabo sestavljena ali pa so bile ključne besede (deskriptorji), ki opisujejo vsebino nekoristnega dokumenta, slabo izbrane. Pri takem razmišljanju uporabljamo pojem subjektivne relevantnosti, koristnosti dokumenta. Subjektivno relevantni so torej tisti dokumenti, ki ustrezajo naši informacijski potrebi.

Deterministično in probabilistično iskanje

Pri iskanju po nekaterih zvrsteh zbirk poizvedujemo po znanih informacijah ali vsaj en in prostavnih podatkih in tem uporabljamo enostavne vrednosti v iskalni zahtevi. Tako iskanje bi bilo npr. "S kakšno oceno je Janez Novak opravil 15. 2. 2004 izpit pri predmetu TZIK?". Vemo, da je oseba s tem imenom opravljala izpit in vemo, kdaj se je to zgodilo, zanima nas le ocena. Rezultat takega iskanja bodo vsi podatki, ki jih iščemo in samo ti podatki (ali pa nič podatkov, če jih ni v zbirki) in tako iskanje je značilno za relacijske zbirke. Imenujemo ga deterministično iskanje, ker je izzid vnaprej znan in en sam možen.
Pri drugi obliki iskanja bi uporabili iskalno zahtevo, kot je "želim vse dokumente, ki opisujejo vpliv inzulina na presnovo sladkornega bolnika". S tako iskalno zahtevo smo opisali vsebino dokumentov, kakršni nas zanimajo. Vsebina pa je kompleksna lastnost dokumenta , ki se je ne da opisati z nekaj ključnimi besedami (ali deskriptorji) v iskalni zahtevi in nekaj ključnimi besedami (ali deskriptorji) v poljih za opis vsebine bibliografskih zapisov v zbirki. Zato bo pri iskanju po vsebini dokumentov vedno nek del relevantnih dokumentov nepoiskan in nek del poiskanih dokumentov bo nerelevanten. Obakrat mislimo na subjektivno relevantnost. Takemu iskanju pravimo probabilistično (verjetnostno) iskanje, ker bo vsak dokument, relevanten za dano iskalno zahtevo, poiskan samo z neko verjetnostjo in vsak poiskan dokument je samo z neko verjetnostjo relevanten za dano iskalno zahtevo.

Iskalni modeli

Iskalni modeli se med seboj razlikujejo predvsem po tem, kako primerjajo iskalno zahtevo z opisi dokumentov v zbirki in kako oblikujejo množico poiskanih dokumentov (zadetkov), ki so rezultat te primerjave.

Boolov iskalni model

Boolov iskalni model najpogosteje srečujemo pri uporabi bibliografskih zbirk. Osnovna značilnost tega iskalnega modela je uporaba logičnih (Boolovih) operatorjev IN, ALI in NE pri sestavljanju iskalne zahteve. V Boolovem iskalnem modelu je relevantnost binarna lastnost dokumenta: dokument je relevanten, če popolnoma ustreza iskalni zahtevi, ali pa sploh ni. Iskanje navidez razdeli zbirko na dve jasno definirani množici - relevantne dokumente (zadetke), ki jih ponudi iskalcu in vse ostale, ki niso relevantni. Mišljena je seveda objektivna relevantnost.
To binarno razumevanje relevantnosti samo delno ustreza stvarnosti. Marsikateri dokument, ki ga je iskanje zavrnilo kot nerelevantnega, bi lahko bil vseeno zanimiv za iskalca, čeprav ne ustreza popolnoma iskalni zahtevi in poiskani dokumenti v resnici niso vsi enako zanimivi, čeprav jih iskalni model smatra za enakovredne.

Ne-Boolovi iskalni modeli

Ne-Boolovi iskalni modeli razumejo relevantnost kot zvezno lastnost dokumentov. Dokument je lahko bolj ali manj relevanten. Najprimernejši so za iskanje po zbirkah polnih dokumentov z velikim številom ključnih besed, ki so nastale z avtomatskim indeksiranjem. Iskalne zahteve so nestrukturirane (brez logičnih operatorjev). Ne-Boolovi iskalni modeli (obstaja več različic) računajo relevantnost dokument na osnovi števila besed, ki so skupne iskalni zahtevi in dokumentu ter povednih moči teh besed v dokumentu.
Če je relevantnost zvezna lastnost in jo je mogoče izračunati, potem je mogoče iskalcu ponuditi poiskane dokumente razvrščene glede na te izračune. V seznamu zadetkov bodo najbolj relevantni zadetki na vrhu, sledili pa bodo manj in manj relevantni dokumenti. Na tak način delujejo tudi veliki spletni iskalniki, kot so Google, Teoma, AltaVista, in podobni.

Jure Dimec,
Zadnja sprememba: 18. 11. 2003
ďťż

OPOZORILO : Pregledujete staro stran IBMI

Vsebine na strani so zastarele in se ne posodabljajo veÄ. Stara stran zajema doloÄene Älanke in vsebine, ki pa morajo biti ĹĄe vedno dostopne.

Za nove, posodobljene vsebine se obrnite na http://ibmi.mf.uni-lj.si/