Tässä tietueessa ei ole kokotekstiä saatavilla TamPubista, ainoastaan metadata.
| Kirja ostettavissa Granumista | |
| Tekijä(t): | Pirkola, Ari |
| Väitöskirjan nimi: | Studies on linguistic problems and methods in text retrieval : the effects of anaphor and ellipsis resolution in proximity searching, and translation and query structuring methods in cross-language retrieval |
| Vuosi: | 1999 |
| Väitöspäivä: | 1999-06-12 |
| Tiedekunta: | Yhteiskuntatieteellinen tiedekunta |
| Laitos: | Informaatiotutkimuksen laitos |
| Oppiaine: | Informaatiotutkimus |
| Julkaisija: | Tampere University Press |
| Painettu sarja: |
|
| ISBN (print): | 951-44-4582-1 |
| URN: | urn:isbn: |
| Tiivistelmä: | Väitöskirjatutkimus käsittelee tekstihakuun liittyviä lingvistisiä ongelmia. Tekstihaussa elektronisia dokumentteja haetaan tekstikannasta dokumenttien tekstisisällön perusteella luonnollista kieltä käyttäen. Luonnollisen kielen monimuotoisuus ja monitulkintaisuus aiheuttavat sen että relevantin tiedon löytäminen tekstikannoista on vaikeaa. Työssä tutkittiin (1) ellipsien (vaillinaisten ilmaisujen) ja anaforien (esim. pronominien, joka viittaavat aikaisempiin tekstielementteihin) resoluution vaikutusta läheisyysoperaatiohakujen tuloksiin tutkimustietokantana sanomalehtiartikkeleita sisältävä tekstikanta ja (2) kieltenvälistä tiedonhakua tutkimustietokantana n. 1/2 miljoonaa englanninkielistä dokumenttia sisältävä tekstikanta.
Tekstihaussa läheisyysoperaatioilla rajataan hakusanojen sallittua etäisyyttä dokumenteissa pyrkimyksenä taata hakusanojen semanttinen yhteys. Läheisyysoperaatiohauissa relevantteja dokumentteja voi jäädä löytymättä sen vuoksi, että osa hakusanoista on elliptisessä tai anaforisessa muodossa. Ellipsien ja anaforien resoluutio tarkoittaa niiden viittausten kohteiden (korrelaattien) tunnistamista. Ellipsit ja anaforat luokitettiin korrelaattien perusteella toisaalta erisnimiin ja yleisnimiin viittaaviin ja toisaalta yksittäisiin sanoihin, yhdyssanoihin ja sanaliittoihin viittaaviin ellipseihin ja anaforiin. Työssä osoitettiin, että läheisyysoperaatiohakujen tulokset paranevat resoluution ansiosta merkittävästi silloin, kun hakusanat ovat tyypiltään erisnimisiä sanaliittoja. Muissa tilanteissa resoluution vaikutukset olivat vähäiset. Tutkimuksessa osoitettiin myös, että erisnimisten sanaliittojen ellipsien ja anaforien resoluutio voidaan suorittaa tehokkaasti ilman syntaktisen tason kielen analyysia. Kieltenvälisessä tiedonhaussa (cross-language information retrieval, CLIR) dokumentteja haetaan eri kielellä kuin millä tekstikannan dokumentit on kirjoitettu. Sanakirjaperusteisessa kieltenvälisessä tiedonhaussa lähdekielen (tutkimuksessa suomi) kyselyjen sanat käännetään kohdekielelle (tutkimuksessa englanti) elektronisten sanakirjojen avulla. Työssä tutkittiin mm. kyselyjen strukturoinnin vaikutusta CLIR-kyselyjen tehokkuuteen. Strukturoidut kyselyt ovat kyselyjä, joissa hakusanojen keskinäiset suhteet ilmaistaan sopivilla hakuoperaattoreilla. Tulokset osoittivat, että kyselyjen automaattinen strukturointi sanakirjojen antamien tulostietueiden perusteella samoin kuin käsiteanalyysin perustuva strukturointi parantavat CLIR-kyselyjen tehokkuutta merkittävästi. Strukturoidut CLIR-kyselyt olivat huomattavasti tehokkaampia kuin strukturoimattomat CLIR-kyselyt. Parhaalla käännösmenetelmällä käännettyjen strukturoitujen CLIR-kyselyjen tehokkuus oli samalla tasolla kuin vastaavien yksikielisten kyselyjen tehokkuus. |