Tämä materiaali on arkistoitu. Sisältöä ei enää päivitetä. Kaikki sisältö ei välttämättä ole saatavilla.
Muokkaa

Osa 6. Sisällönkuvailu: luokitus ja indeksointi

Sisällönkuvailu jaetaan traditionaalisesti kahteen päälohkoon: luokitukseen ja indeksointiin. Luokitus on tyypillisesti hierarkkista ja koodeihin perustuvaa, kun indeksoinnille ovat tyypillisiä luonnollista kieltä muistuttavat asia- tai avainsanat. Ulkoisista eroista ja erilaisesta kehityspolusta huolimatta luokitus- ja indeksointijärjestelmillä on paljon yhteisiä piirteitä.

Luokitus

Kaikenlaisten ilmiöiden luokittelu erilaisiin ryhmiin on arkielämässä jatkuvasti esiintyvä ilmiö. Esimerkiksi ruokakaupassa leivät ja muut leivonnaiset löytyvät läheltä toisiaan, maitotuotteet taas toisaalta. Kirjastoissa dokumenttien luokitus on ollut tiedon organisoimisen keinona käytössä kirjastojen kehityksen alusta asti.

Luokitukselle tyypillisiä piirteitä ovat:

  • systemaattinen esitystapa
  • luokkien saamat symbolit eli notaatiot (esimerkiksi Yleisten kirjastojen luokitusjärjestelmässä numero 32 on valtio-opin ja politiikan luokan luokkasymboli)
  • luokituskaavan avulla kuvataan luokitusjärjestelmä, kaavassa esitetään jokainen luokka hierarkkisessa yhteydessään ja kerrotaan, mitä kukin luokka ja alaluokka sisältää
  • luokituskaavat jakautuvat usein kolmeen osaa:
  • johdannossa kerrotaan luokituksen taustasta ja annetaan ohjeita luokittajalle ja hakijalle
  • luokitustaulukot esittävät luokat hierarkkisessa yhteydessään
  • aakkosellinen hakemisto, jossa aihepiiriä kuvaavalla sanalla voi etsiä sitä kuvaavan luokkasymbolin

Luokituksia on kehitetty moniin eri tarkoituksiin ja ne poikkeavat toisistaan sekä katteeltaan että rakenteeltaan. Traugott Koch (1997), joka on tutkinut luokitusten käyttöä Internet-ympäristössä, jäsentää luokitukset neljään eri tyyppiin:

  1. Universaaliluokitukset, jotka pyrkivät kattamaan koko tiedon universumin ja ovat lisäksi kansainvälisessä käytössä. Esim.

  • Yleinen kymmenluokittelu, UDK (Universal Decimal Classification, UDC), jonka Paul Otlet ja Henri La Fontaine kehittivät Melvil Deweyn kehittämän Decimal Classificationin pohjalta 1900-luvun alussa. UDK:ta pitää yllä eri kansainvälinen konsortio (the UDC Consortium (UDCC)). Suomessa UDK on käytössä erityisesti tekniikan ja luonnontieteen alojen korkeakouluissa ja oppilaitoksissa.

UDK on perusrakenteeltaan on hierarkkinen kymmenluokitus, jossa kukin luokka voi jakaantua kymmeneen alaluokkaan. Lisäksi tarjolla on erilaisia lisälukuja ja merkkejä, joiden avulla voidaan ilmaista tiettyjä lisälukuja ja luokkien välisiä suhteita.

  • Esim. Seinäjoen kirjaston vaiheista kertova dokumentti voidaan sijoittaa luokkaan 02, joka on kirjastotoimen luokka. Sen lisäksi luokkaan voidaan lisätä lisäluvut (091), joka tarkoittaa jonkin erikoisalan historiallista esitystä (muotoa määrittelevä lisäluku) ja (480), joka tarkoittaa Suomea (paikan lisäluku). Näin ollen koko notaatio näyttää seuraavalta: 02(091)(480)

The Dewey Decimal Classification system (DDC)

the Library of Congress Classification (LCC)

Kansalliset yleisluokitukset, jotka ovat universaaleja katteeltaan mutta suunniteltu vain yhden maan käyttöön. Esim.

  • Yleisten kirjastojen luokitusjärjestelmä (YKL) joka myös pohjautuu Deweyn kehittämään järjestelmään. YKL:ää edelsivät Luokitusopas vuodelta 1925 ja Kirjallisuuden luokitusopas vuodelta 1960. YKL uudistettiin perusteellisesti vuonna 1987-90 ja on nykyisellään käytössä lähes kaikissa Suomen yleisissä kirjastoissa. YKL on tutkittavissa myös verkossa

YKL on UDK:n tavoin hierarkkinen kymmenluokitus. Toisin kuin UDK:ssa YKL:ssä on kuitenkin käytössä vain vähän lisälukuja erilaisten näkökulmien esittämiseen. YKL:n rakenne on tarkoituksella pidetty suhteellisen yksinkertaisena.

Tietyn aiheen luokitukset, jotka on suunniteltu jonkin aihepiirin luokitteluun. Esim.

Jonkin palvelun käyttöön muodostetut luokitukset, joita esiintyy erityisesti Internetissä tällä hetkellä runsaasti. Perustuvat palvelun ylläpitäjien käsitysmaailmaan. Palvelukohtaiset luokitukset ovat helposti muutettavissa, niihin voidaan lisätä uusia luokkia nopeasti (toisin kuin esimerkiksi kansainvälisiin universaaliluokituksiin, joiden muutokset tapahtuvat aina hitaasti). Huonona puolena voidaan pitää tällä tavoin kehittyneen luokituksen suurta subjektiivisuutta ja luokkahierarkian epätasaisuutta. Palveluspesifeistä luokituksista esimerkkejä ovat:

Luokituksen pyrkimys jäsentää tietoa hierarkkisiin luokkiin rakentaa samalla kuvan tiedon käsitteellisestä maailmasta. Luokituksen pyrkimys asettaa jokainen dokumentti sille kuuluvalle paikalle tässä kuvassa ei ole käytännössä ongelmaton. Dokumentin käsittelemät teemat saattavat kuulua useisiin eri luokkiin, jolloin luokittajan täytyy päättää, mihin luokkaan dokumentti sijoittaa. Nykyään monet kirjastot ovatkin ottaneet käyttöön nk. pää- ja lisäluokat. Dokumentille voidaan siis antaa useampi luokka sisällön teemojen mukaan. Näin tehdään mm. Tampereen kaupunginkirjastossa. Esimerkin kirja Akateemiset heimokulttuurit on saanut pääluokakseen YKL- luokan 38.4, joka on yliopistojen ja korkeakoulujen luokka. Lisäluokka 30.1 taas on sosiologian luokka.

Monille kirjastonkäyttäjille luokitus tuo ensisijaisesti mieleen kirjaston kirjojen hyllyjärjestyksen. Luokitus näytteleekin tärkeää osaa tässä suhteessa, sillä moni hakija silmäilee ja selailee häntä kiinnostavan aihepiirin kirjoja, jotka on luokituksen avulla sijoitettu hyllyssä lähelle toisiaan. Jos dokumentit olisi järjestetty esimerkiksi aakkosjärjestykseen, tällainen selailu ei olisi mahdollista. Kun luokituksen avulla määritellään myös dokumenttien fyysistä sijaintia, se määräytyy yleensä valitun pääluokan mukaan. Luokitusta käytetään runsaasti myös verkkoympäristössä, jossa se on tärkeä selailun apuväline. Verkossa on käytössä sekä perinteisiä kirjastoluokituksia (esim. Linkkikirjasto) että Kochin määritelmän mukaisia tietyn palvelun tarpeisiin syntyneitä luokituksia. Verkossa ei synny dokumentin fyysisen sijoittamisen ongelmaa, sillä sama dokumentti voidaan linkittää useampaankin luokkaan.

Luokituksen toimivuus selauksen apuna riippuu pitkälti siitä, miten hyvin luokituksen rakentama käsitteellinen malli vastaa hakijan omaa käsitystä tiedon maailmasta. Jos käytetty hierarkia ei vastaa hakijan käsitystä asioiden jäsentymisestä, hänen voi olla vaikeaa löytää haluamaansa aihepiiriä. Luokitusta voidaan käyttää myös analyyttisessä haussa. Useammat tiedonhakujärjestelmät antavat mahdollisuuden hakuun luokkanotaatiolla. Jos käytetyssä luokituksessa on tarjolla haun aihetta vastaava ja riittävän spesifi luokka, sen määrittely voi olla riittävä hakuehto. Luokka voidaan myös yhdistää muihin hakuehtoihin ja rajata näin esimerkiksi haun näkökulmaa.

Indeksointi

Indeksointikieli on dokumentaatiokieli, jonka termit ovat luonnollisesta kielestä valittuja sanoja. Indeksointikieleen valitaan sanoja sovittujen sääntöjen mukaan. Säännöt vaihtelevat hieman indeksointikielestä riippuen, mutta usein esiintyviä suuntaviivoja ovat:

  • valittavien termien tulee olla käytössä vakiintuneita
  • kaikki termit ovat tietyssä muodossa (esimerkiksi verbejä ja adjektiiveja ei oteta mukaan)
  • yhtä käsitettä kuvaa indeksointikielessä vain yksi termi (luonnollisessa kielessä samaa käsitettä voidaan kuvata monella eri ilmaisulla)

Indeksointikieleen valittuja termejä kutsutaan asiasanoiksi (controlled term, descriptor). Asiasanojen avulla suoritetaan dokumenttien kuvailu. Asiasanat voivat olla yksiosaisia (esim. taide) tai fraaseja (abstrakti taide). Ohjaustermit ovat asiasanaksi kelpaamattomia sanoja, joista indeksointikielessä viitataan asiasanaan. Mukaan otetut ohjaustermit auttavat hakijaa löytämään oikean asiasanan.

Asiasanasto on asiasanojen ja ohjaustermien luettelo. Asiasanastot voidaan jakaa esimerkiksi yleisiin ja alakohtaisiin tai aakkosellisiin ja hierarkkisiin asiasanastoihin. Asiasanasto liittyy usein johonkin aihepiiriin, dokumenttikokoelmaan tai tiedonhakujärjestelmään.

  • asiasanasto voi olla lista sanoja, eli aakkosellinen asiasanasto
  • monissa asiasanastoissa kuitenkin esitetään myös termien välisiä suhteita, jolloin niitä tulisi nimittää tesauruksiksi, käytännössä termejä asiasanasto ja tesaurus käytetään nykyään synonyymeina

Tesaurus on asiasanasto, jossa asiasanojen yhteydessä ilmaistaan niiden suhteet muihin asiasanoihin ja ohjaustermeihin. Tesaurusten rakentamisesta on olemassa runsaasti kirjallisuutta sekä standardi (International Standard 2788: Documentation - Guidelines for the establishment and development of monolingual thesauri, sekä kansainvälistä standardia noudattava SFS 5471 - Suomenkielisen tesauruksen laatimis- ja ylläpito-ohjeet), jossa määritellään tesauruksessa esitettäviä semanttisia suhteita.

Tesauruksessa esitettävät termien väliset suhteet voivat olla:

a) Ekvivalenssi- eli vastaavuussuhteita
- esitetään KÄYTÄ ja KT (korvaa termin) -viittauksilla

konferenssit
KÄYTÄ kokoukset

kokoukset
KT konferenssit

b) Hierarkkisia suhteita
- esitetään LT (laajempialainen termi) ja ST (suppeampialainen termi) -viittauksilla

keilailu
LT palloilu

palloilu
ST keilailu

c) Assosiaatiosuhteita
- esitetään RT (rinnakkaistermi) -viittauksilla

ahdistus
RT jännittäminen

jännittäminen
RT ahdistus

Termien välisillä suhteilla autetaan hakijaa löytämään oikea asiasana, ideoimaan uusia hakutermejä ja hahmottamaan aihepiirin sanastoa sekä laajentamaan tai tarkentamaan hakua. Moniin asiasanastoihin on myös rakennettu muita apuvälineitä hakijalle. Tällaisia voivat olla esimerkiksi termien jako kategorioihin, joita selailemalla on helppo löytää tietyn aiheen sanasto sekä hierarkkinen hakemisto, jossa hierarkiat esitetään kokonaan. Tesauruksiin ja asiasanastoihin liittyy usein myös johdanto, jossa annetaan ohjeita indeksoijille ja hakijoille. Johdannossa voidaan määritellä myös sellaisia sanaryhmiä, joita saa indeksoinnissa vapaasti käyttää (esimerkiksi paikannimet tai eläinten- ja kasvien nimet saattavat olla tällaisia "vapaan indeksoinnin sanaryhmiä").

Indeksointikieliä on kehitetty ja kehitetään eri instituutioiden tarkoituksiin. Suomessa yleiset kirjastot ja suurin osa tieteellisistä kirjastoista käyttää Yleistä suomalaista asiasanastoa (YSA) sisällönkuvailussa. Koska YSA on nimensä mukaan hyvin yleinen, on tietyn alan tarkempaa sanastoa määrittelemään kehitetty erilaisia erikoisalojen sanastoja (esim. Taideteollisuuden asiasanasto, 1995), joita voidaan käyttää YSAn rinnalla. Asiasanoittamisessa voidaan käyttää myös useita erikielisiä asiasanastoja. Monissa erikoisalojen tietokannoissa käytetään niihin kehitettyjä tesauruksia. Esimerkiksi kasvatustieteen ERIC-tietokannassa käytetään ERIC- tesaurusta

Vaikka indeksointikielten sanat ovatkin luonnollisesta kielestä valittuja, täytyy hakijan tarkistaa, mitkä sanat kieleen on hyväksytty voidakseen käyttää indeksointikieltä tehokkaasti haun apuvälineenä. Tätä voidaan auttaa liittämällä tietokannan aineiston kuvailussa käytetty tesaurushakukäyttöliittymän yhteyteen. Esimerkiksi Viikin tiedekirjaston aineiston kuvailussa käytetty AGRIFOREST sanasto on käytettävissä tiedonhaun apuvälineenä eViikki-tietokannasta haettaessa.

Esimerkkejä asiasanoituksesta:

Esimerkkejä tesauruksista:

Lisää tietoa indeksoinnista ja tesauruksista löydät Yhteiskuntatieteellisen tietoarkiston tesaurus-sivujen kautta.


Luokituksen ja indeksoinnin eroja

luokitus pyrkii ryhmittelemään dokumentit kokonaisina

indeksointi etsii dokumentin keskeiset elementit ja kuvaa dokumentteja niiden avulla

luokitus pyrkii esittämään laajoja hierarkioita

indeksointi esittää termien pienoishierarkioita

notaatioita käyttävät luokitukset saattavat tuntua hakijasta vaikeilta

asiasanastoa/tesaurusta on helpompi ymmärtää, koska sanat ovat luonnollisesta kielestä valittuja

luokitukset kansainvälisiä (esim. UDK)

tesaurukset vahvasti sidoksissa yhteen kieleen - tosin myös monikielisiä tesauruksia kehitetään

muutokset (etenkin kansainvälisesti ylläpidettyjen) hitaita ja joskus vaikeita toteuttaa (esim. luokkarakenteen muutokset)

uusien asiasanojen lisääminen teknisesti helppoa


Sisällönkuvailun prosessiIndeksoinnilla tarkoitetaan dokumenttien asiasisällön identifiointia ja kuvailua myöhemmin tapahtuvaa tiedonhakua varten. Termiä indeksointi käytetään usein laaja-alaisesti viittaamaan dokumenttien sisällönkuvailuun eri menetelmien avulla. Toisaalta vertaillaan luokitusta ja indeksointia, jolloin viitataan indeksoinnilla avain- tai asiasanoitukseen. Tavoitteena sisällönkuvailulla on auttaa hakijaa löytämään hänelle olennaiset dokumentit.

Sisällönkuvailun etenemistä prosessina voidaan kuvata näin:

  1. Dokumenttiin ja sen asiasisältöön tutustuminen
  2. Dokumentin asiasisällön analyysi
  3. Asiasisällön kääntäminen keinotekoisen dokumentaatiokielen termeiksi (avainsanoituksessa: edustavimman avainsanan valinta dokumentista)

Indeksoitavien käsitteiden tunnistamiseen on olemassa erilaisia suosituksia. Sisällönkuvailija ei yleensä ehdi tutustua perinpohjaisesti koko kuvailtavaan dokumenttiin, vaan pyrkii hahmottamaan dokumentista oleellisen sisällön. Indeksoinnin suorittamisesta annetaan esimerkiksi seuraavanlaisia ohjeita:

Tutki

  1. Dokumentin otsikkoa
  2. Dokumentin johdantoa
  3. Typografisesti harvennettuja kohtia
  4. Kuvia
  5. Taulukoita
  6. Diagrammeja ja niiden tekstejä
  7. Dokumentin johtopäätöksiä


Kirjallisuutta:Aitchison, Jean (1997): Thesaurus construction and use: a practical manual. 3. ed. London: Aslib.

Koch, Traugott (1997). The role of classification schemes in Internet resource description and discovery.

Large, Andrew & Tedd, Lucy A. & Hartley R.J. (1999). Information seeking in the online age: Principles and practice. London: Bowker Saur.

©Anu Alaterä, Kai Halttunen & Eero Sormunen / Internetix 2001-2005