Rakenteinen termipankkimalli

Esitelmä SGML Finland '97 -seminaarissa Vaasassa, 10.10.1997

Jari Perkiömäki
Vaasan yliopisto
PL 700
65101 VAASA

fax. 06-3248725
puh. 06-3248718
jpe@uwasa.fi
http://www.uwasa.fi/%7ejpe/

FM Jari Perkiömäki toimii Vaasan yliopistossa
projektisuunnittelijana TEKESin ja ESR:n rahoittamassa hankkeessa, jossa
SGML-teknologiaa siirretään Vaasan rannikkoseudun
pk-yrityksiin. Hän on sitä ennen toiminut
opetustehtävissä yliopiston viestintätieteiden laitoksella
sekä tutkinut rakenteista dokumentointia ABB Transmit Oy Releet ja
Kaukokäytöt -divisioonassa.

Ari Hovila
Vaasan yliopisto
PL 700
65101 VAASA

fax. 06-3248725
puh. 06-3248716
ajh@uwasa.fi
http://www.uwasa.fi/%7eajh/

FM Ari Hovila toimii Vaasan yliopistossa projektisuunnittelijana TEKESin ja
ESR:n rahoittamassa hankkeessa, jossa SGML-teknologiaa siirretään
Vaasan rannikkoseudun pk-yrityksiin. Hän on sitä ennen toiminut
ATK-suunnittelijana Vaasan yliopiston ATK-keskuksessa sekä
projektisuunnittelijana SGML-pohjaisen elektronisen kurssikirjaston
kehittämisprojektissa.  

Abstrakti

Terminologianhallinta on tärkeä osa yrityksen dokumentointijärjestelmää. Käytännön työssä termejä ja niiden vieraskielisiä vastineita tarvitsevat dokumentoijat, kääntäjät ja terminologit. Rakenteisuuteen perustuva käännösjärjestelmä osaa hyödyntää tehokkaasti myös rakenteista termipankkia.

Esittelemme NTRF (Nordic Terminological Record Format) DTD:hen perustuvan terminologian hallintajärjestelmän mallin. NTRF DTD soveltuu vaativiin terminologian hallintaratkaisuihin, ja se on suunniteltu norjalaisen NTRF-määrittelyn pohjalta.

Varsinaisina sovellusympäristöinä esittelemme sekä WWW- että SGML-selaimen kautta tapahtuvan terminhaun verkosta. Lisäksi esitämme mallin siitä, miten tällainen termipankki voi olla osa suurempaa tietokoneavusteista käännösjärjestelmää.

Johdanto

Terminologiaoppi on oppi käsitteistä, käsitteiden välisistä suhteista ja käsitejärjestelmistä, jotka koostuvat kahdesta edellämainitusta. Se on myös oppi termeistä ja niiden muodostamisesta. Ammattikielissä termi on käsitteen kielellinen ilmiasu, kun taas käsite on malli, joka muodostuu kuvattavan ilmiön havaittavista tai siihen liittyvistä ominaispiirteistä. Käsite saa merkityksensä määritelmän kautta, joka pyritään muodostamaan käsitteen olennaisten ominaispiirteiden avulla. Määritelmä voi olla erilainen samalle käsitteelle tarkastelunäkökulmasta riippuen. Terminologiaksi (tai termistöksi) voidaan ymmärtää ne käsitteet ja termit, jotka ovat yleisessä käytössä jollain ammattialalla tai jossain yrityksessä.

Yrityksen asiantuntemuksen ja ydinosaamisen analysointi ja purkaminen käyttökelpoiseen muotoon muidenkin kuin asiantuntijoiden käyttöön onkin haastava tehtävä. Tällaista tietoa, joka parhaiten kuvastuukin juuri käytettävässä terminologiassa, tarvitsevat ennen muuta tekniset kirjoittajat ja kääntäjät. Tästä syystä terminologia on dokumentoitava, ja sen on oltava helposti käytettävässä muodossa.

Terminologian hallinnalla tarkoitetaan terminologian dokumentointia ja siihen kuuluvia työkaluja, joilla tätä dokumenttia, jota voidaan kutsua myös termipankiksi, voidaan käyttää ja ylläpitää. Vanhastaan termipankkiohjelmat ovat olleet kääntäjän apuvälineitä. Niitä on käytetty tekstinkäsittelyohjelman rinnalla elektronisen sanakirjan tavoin, ja niiden tärkeimpänä ominaisuutena on ollut nopea termien haku ja siirto tekstinkäsittelyyn. Rakenteiseen dokumentointiympäristöön nämä vanhat termipankki- ja sanakirjaohjelmat istuvat huonosti, koska niillä on tyypillisesti oma, valmistajakohtainen tiedostomuoto, jolloin ne ovat erillään muusta SGML-pohjaisesta järjestelmästä. Enemmän terminologiaan liittyvistä asioista ks. Tekniikan Sanastokeskus.

Tässä paperissa esitämme termipankkiratkaisun, joka perustuu suunnittelemaamme NTRF DTD:hen. NTRF DTD:n kehitystyö on osa TEKESin ja ESR:n rahoittamaa Vaasan yliopiston ja Wärtsilä NSD Finland Oy:n yhteisprojektia, missä SGML-teknologiaa siirretään Vaasan rannikkoseudun (5b) pk-yrityksiin.

NTRF ja NTRF DTD

NTRF (Nordic Terminological Record Format) on vuonna 1995 Norjan tekniikan sanastokeskuksessa RTT:ssä (Rådet for teknisk terminologi) kehitetty pohjoismainen termitietuemalli pohjoismaisten terminologisten instituutioiden käyttöön. NTRF-spesifikaatiossa määritellään termitietueen rakenne eli se, mitä kustakin termistä voidaan kertoa. Kukin termiin liittyvä informaatio on sidottu omaan kenttäänsä joko itsenäisesti tai upotettuna muihin kenttiin. Pyrkimyksenä on ollut kirjoittaa määrittely, joka soveltuu terminologisen data vaihtoon ja sovelluskehityksen avuksi, esim. SGML-implementaatioita varten.

Suomessa vuonna 1994 tehtiin Tekniikan Sanastokeskuksen (TSK) toimesta tutkimus tietotekniikan soveltamisesta suomalaisen termipankin teknisessä ja sisällöllisessä kehittämisessä. Tässä yhteydessä parannettiin TSK:n 1980-luvulla kehittämää suomalaista sanastontallennusmenetelmää (SSTM II), joka on monella tavalla yhteensopiva NTRF:n kanssa (Terminfo 5/1994:14-).

Varsinaisessa NTRF-määrittelyssä termitietueeseen liittyvät tiedot jaetaan kuuteen luokkaan:

  1. Termisidonnainen tieto
  2. Käsitesidonnainen tieto
  3. Käsitesuhdesidonnainen tieto
  4. Luokittelusidonnainen tieto
  5. Esitystapasidonnainen tieto
  6. Hallinnollinen tieto

Tämän luokittelun perusteella olemme rakentaneet alustavan version NTRF DTD:stä, joka rakenteen ylimmillä tasoilla seuraa edellä kerrottua luokitusta. Periaatteessa NTRF-määrittely ei aseta vaatimuksia siinä määritettyjen kenttien tai luokkien käyttämiselle. NTRF-määrittelystä voitaisiin näin käytännössä tehdä useita "NTRF-yhteensopivia" SGML-implementaatioita. Pyrkimyksenämme on kuitenkin ollut ja on jatkossakin saada aikaiseksi NTRF-määrittelystä mahdollisimman kattava implementaatio.

Elementtien nimiksi valitsimme spesifikaatiosta tutut nimet. NTRF:ssä käytetään 7-bittistä ASCII-merkistöä ja "erikoismerkeille", kuten esim. skandinaavisille merkeille, on luotu oma koodauskäytäntönsä. Tästä käytännöstä olemme kuitenkin luopuneet, sillä SGML-toteutukseen soveltuvat luontevimmin ISO:n merkkientiteettimääritykset. Lisäksi NTRF:n oman taulukkomäärittelyn sijaan käytetään CALS-taulukkomallia.

fiTE   generaattorinsuojaus
fiDEF  relesuojaus, jonka kohteena on voimalaitosgeneraattori
fiBCON relesuojaus
fiNCON generaattorin sisäisen vian suojaus,
       generaattorin käyttöä valvova suojaus
CLAS   1.1
TIT    relesuojaus
INST   ABB Transmit Oy Releet ja Kaukokäytöt
CREA   24.10.1996 J.K.

Esimerkki 1: NTRF:n mukaisesti koodattu termitietue

<term lang="fi">
<te>generaattorinsuojaus</te>
<def>relesuojaus, jonka kohteena on voimalaitosgeneraattori</def>
<bcon>relesuojaus</bcon>
<ncon>generaattorin sisäisen vian suojaus, generaattorin käyttöä valvova suojaus</ncon>
<clas>1.1</clas>
<tit>relesuojaus</tit>
<inst>ABB Transmit Oy Releet ja Kaukokäytöt</inst>
<crea>24.10.1996 J.K.</crea>
</term>

Esimerkki 2: NTRF DTD:n mukaisesti koodattu termitietue

Rakenteista terminologianhallintaa varten on Brigham Young Universityssä kehitelty myös ISO:n standardi ISO/DIS 12200:1995, joka tunnetaan nimellä MARTIF (Machine-readable Terminology Interchange Format). Nimensä mukaisesti se on tarkoitettu yleiseksi terminologisen datan välitysrakenteeksi (ks. mm. Wright 1995:1131-) esimerkiksi erilaisten termipankkiohjelmien välillä.

MARTIFin selkeänä tavoitteena on ollut käytön joustavuus yhdenmukaisuuden kustannuksella. Tämä voi käytännössä tarkoittaa sitä, että eri järjestelmien välillä tarvitaan räätälöityjä muunnosohjelmia rakenteen avoimuuden takia. NTRF DTD:n päämäärä on juuri toisenlainen: yhdenmukaisempi rakenne on tärkeämpi. Tiukempi rakennemäärittely antaa enemmän mahdollisuuksia monimuotoisemmalle käytölle organisaation sisällä ja niiden välillä ilman ylimääräisiä muunnoksia.

Terminhaku webbiliittymän kautta NTRF DTD:n mukaisesta datasta

Rakentamamme DTD:n käytännön testausta varten koottiin NTRF-muotoista materiaalia, joka ensin muunnettiin määritellyn rakenteen mukaiseksi.

Termipankkia haluttiin testata alustavasti WWW-pohjaisella liittymällä, sillä sen avulla voidaan tarvittaessa rakentaa ajantasainen palvelu laajalle käyttäjäkunnalle. Järjestelmän käyttö aloitetaan HTML-lomakkeelta, jossa määritellään hakuteksti sekä kentät joihin haku kohdistetaan. Haku tapahtuu kahdessa vaiheessa. Ensimmäiseksi kootaan hakukriteerit täyttävistä tietueista pelkät päätermit, jotka esitetään taulukossa. Päätermin valinta käynnistää toisen vaiheen, jonka tuloksena saadaan kyseisen termin koko tietosisältö.

Molempien käsittelyvaiheiden runko on toteutettu Perl-ohjelmointikielellä ja itse hakutoiminnoista vastaa Helsingin yliopistossa kehitetty sgrep-ohjelma. Toteutus etenee seuraavasti: WWW-palvelin antaa HTML-lomakkeen cgi-bin-rajapintaa käyttäen hakuohjelmalle, joka muotoilee sgrep-kyselyn ja palauttaa päätermeistä koostuvan sanalistan.

Päätermin valinnan jälkeen muodostettava kysely palauttaa validin NTRF DTD:n mukaisen dokumentin. Lopputuloksen esittämistä varten syntynyt dokumentti validoidaan nsgmls-parserilla, jonka ESIS (Element Structure Information Set) -tuloste muunnetaan HTML:ksi.

Lopuksi

Rakenteiseen dokumentointijärjestelmään kuuluu oleellisena osana rakenteinen terminologianhallinta. Yleisen termipankkimallistandardin luominen auttaa termistön saattamista ohjelmistoriippumattomaan muotoon niin, että siitä voidaan tehdä kyselyitä esim. WWW-liittymän kautta. Lisäksi samaa materiaalia voidaan selata tavanomaisilla SGML-selaimilla tai SGML-selain voidaan räätälöidä enemmän ei-rakenteisten termipankkiohjelmien kaltaiseksi. Toisaalta rakenteinen termipankkijärjestelmä voi nivoutua osaksi myös rakenteista tietokoneavusteista käännösjärjestelmää.

Kirjallisuutta

Nordic Terminological Record Format (NTRF) (1995). Norwegian Council for Technical Terminology.

Terminfo (1994). Tekniikan Sanastokeskuksen julkaisu, 5/1994, s. 14-.

ISO/DIS 12200 (1995). Terminology - Computer Applications - Machine-readable Terminology Interchange Format (MARTIF).

Wright, S.E. (1995). Blind interchange of terminological data: Problems and possibilities, p. 1131-. In Multilingualism in Specialist Communication. Proceedings of the 10th European LSP Symposium. Volume 2. Gerhard Budin (Ed.). Vienna: TermNet.

Wall, L. & Christiansen, T. & Schwartz, R. (1996). Programming Perl. O'Reilly & Associates, Inc. 2. painos.

Jaakkola, J. & Kilpeläinen, P. (1996). Using sgrep for querying structured text files. Proceedings of SGML Finland 1996. SGML User's Group Finland.