| Kirja ostettavissa Granumista | |
| Tekijä(t): | Airio, Eija |
| Väitöskirjan nimi: | Morphological Problems in IR and CLIR. Applying linguistic methods and approximate string matching tools |
| Vuosi: | 2009 |
| Väitöspäivä: | 2009-06-13 |
| Tiedekunta: | Informaatiotieteiden tiedekunta |
| Laitos: | Informaatiotutkimuksen ja interaktiivisen median laitos |
| Oppiaine: | Informaatiotutkimus |
| Verkkojulkaisusarja: |
|
| ISBN (pdf): | 978-951-44-7708-9 |
| Julkaisija: | Tampere University Press |
| Painettu sarja: |
|
| ISBN (print): | 978-951-44-7707-2 |
| Asiasanat: | tiedonhaku; kieltenvälinen tiedonhaku; morfologia; sumeat merkkijonojen täsmäytysmenetelmät; IR; CLIR; morphology; approximate string matching tools |
| URN: | urn:isbn:978-951-44-7708-9 |
| Tiivistelmä: | Luonnollinen kieli aiheuttaa tiedonhaulle ja kieltenväliselle tiedonhaulle monenlaisia ongelmia. Ongelmat ovat kieliriippuvaisia: esimerkiksi suomelle aiheuttaa ongelmia sanojen taipuminen ja yhdyssanat, kun taas englannissa fraasit (erikseen kirjoitetut yhdyssanat) ovat ongelmallisia. Tutkimuksen tarkoituksena on selvittää, miten sanojen normalisoinnilla, sanamuotojen generoinnilla ja sumeilla merkkijonojen täsmäytysmenetelmillä voidaan ratkaista tiedonhaun morfogisia ongelmia.
Tutkimuksessa todettiin, että yhdyssanat aiheuttavat ongelmia kaksikieliselle tiedonhaulle, kun lähtökieli on fraasiorientoitunut kieli ja kohdekieli yhdyssanakieli. Yhdyssanojen pilkkominen indeksointivaiheessa parantaa hakutulosta huomattavasti. Tutkimuksen mukaan kaksikielisen tiedonhaun tulos taivutusmuotoindeksissä on huono ainakin silloin, kun kohdekieli on voimakkaasti taipuva kieli. Tämä johtuu siitä, että sanakirja antaa vain sanan perusmuodon, kun taas indeksissä esiintyy sanoja taipuneessa muodossa. Sanamuotojen generointi samoin kuin sumeat merkkijonojen täsmäytysmetelmät parantavat hakutulosta huomattavasti. Kaksikielistä tiedonhakua on perinteisesti testattu laboratoriotestein. Testien tuloksena on todettu, että käännetyt kyselyt antavat huomattavasti huonomman tuloksen kuin kohdekieliset kyselyt. Tässä tutkimuksessa suoritettiin käyttäjätestejä, joiden perusteella voidaan todeta, että kaksikielinen tiedonhaku on hyödyllistä tiedonhakijalle. Hyöty on sitä suurempaa, mitä heikompi kohdekielen taito henkilöllä on. Tämä koskee kuitenkin vain tilannetta, jossa kyselynkäännöksessä käytetään laadukasta sanakirjaa. Huonon sanakirjan antama käännös ei auta edes heikosti kieltä taitavaa tiedonhakijaa. |