A Method for Measuring Wide Range Performance of Boolean Queries in Full-Text Databases

TamPub

Näytä suppeat kuvailutiedot

dc.contributor.author Sormunen, Eero -
dc.date.accessioned 2012-12-03T12:09:32Z
dc.date.available 2012-12-03T12:09:32Z
dc.date.issued 2000 -
dc.identifier.isbn 951-44-4732-8 -
dc.identifier.uri http://tampub.uta.fi/handle/10024/67002
dc.description.abstract Tiedonhakujärjestelmillä on rajansa - Mutta mikä olisi paras hakulauseke? Väitöskirjatutkimuksessa kehitettiin uusi menetelmä tiedonhakujärjestelmien toiminnallisen tehokkuuden mittaamiseen, havainnollistettiin menetelmän soveltamismahdollisuuksia suuriin tekstitietokantoihin liittyvän tutkimuksen avulla sekä arvioitiin menetelmän käyttökelpoisuutta. Tiedonhakujärjestelmät ovat vuorovaikutteisia atk-sovelluksia, joiden avulla hakijaa kiinnostavien dokumenttien löytäminen pyritään tekemään mahdollisimman vaivattomaksi. Suuriin dokumenttiaineistoihin liittyvät tiedonhaun ongelmat ovat tuttu ilmiö esimerkiksi Internetin sanahakupalveluja (esim. AltaVista tai Ihmemaa) käyttäville. Tiedonhaun kokeellisessa tutkimuksessa pyritään selvittämään miten hyvin tiedonhakujärjestelmät toimivat käyttäjän näkökulmasta ja löytämään uusia menetelmiä hakujen tehostamiseksi. Teknisen järjestelmän toiminnan arviointi on ollut kuitenkin hankalaa, koska perinteiset tutkimusmenetelmät eivät ole selkeästi pystyneet erottelemaan hakijan ja teknisen järjestelmän vaikutusta. Kehitetty tutkimusmenetelmä perustuu testikokoelman käyttöön, joka sisältää tekstidokumenttien tietokannan, suurehkon joukon määriteltyjä testihakutehtäviä sekä relevanssiarviot siitä, mitkä dokumentit sisältävät testihakutehtävien edellyttämää informaatiota. Väitöskirjatutkimus tuotti kaksi merkittävää menetelmäinnovaatiota: Testihakutehtävät annetaan yhden tai useamman ammattihakijan analysoitavaksi ja he laativat niistä hyvin kattavat hakusuunnitelmat. Kattavat hakusuunnitelmat kuvaavat periaatteessa kaikki vaihtoehtoiset tavat muotoilla järkeviä kyselyjä annetusta testitehtävästä. Kattavien hakusuunnitelmien perusteella voidaan muodostaa ns. kyselyjen säätelyavaruus. Perinteisissä menetelmissä testitehtäviä edustavat kyselyt tuotetaan melko sattumanvaraisesti ja kattavat vain suppeita osia kyselyjen säätelyavaruudesta. Toinen innovaatio liittyy kaikkein parhaiten toimivan kyselyn löytämiseen kaikkien tarjolla olevien joukosta. Tämä perustuu kahteen automaattiseen prosessiin, joissa hakusuunnitelmat pilkotaan ensin alkeiskyselyiksi, joista koostetaan parhaiten toimiva alkeiskyselyjen yhdistelmä optimointialgoritmia käyttäen. Optimoinnissa käytetään hyväksi relevanssitietoja ja sen optimointitavoite voidaan määritellä eri hakutilanteita vastaavasti. Optimoinnin tavoitteeksi voidaan esimerkiksi asettaa kysely, joka minimoi käyttäjän selailuvaivan hänen etsiessään kaikki relevantit dokumentit tai vain kymmenen parasta. Menetelmä pystyy näin kartoittamaan teknisen tiedonhakujärjestelmän toiminnallisen tehokkuuden ylärajan eri tilanteissa. Hakija ei missään oloissa voi ylittää tuota tasoa olipa hän kuinka taitava hakija tahansa. Väitöskirjatutkimuksessa on raportoitu laaja esimerkkitutkimus, jossa menetelmällä selvitettiin suurten tekstitietokantojen tiedonhakuongelmien luonnetta. Tutkimuksessa pystyttiin löytämään uutta tietoa mm. parhaiten eri hakutilanteissa toimivista kyselyrakenteista sekä näyttämään missä tilanteissa perinteiset Boolen kyselyt toimivat hyvin, missä tilanteissa kohdataan ongelmia. Tietokannan suuruus, esimerkiksi Internetin sadat miljoonat dokumentit, eivät yleensä ole ongelma teknisen hakujärjestelmän kannalta, jos haetaan rajattua määrää, vaikkapa 10 tietyn aihepiirin dokumenttia. Sen sijaan käyttäjä voi pitää vastaavaa tilannetta ongelmallisena, jos hän ei keksi miten hyödyntää tehokkaasti järjestelmän mahdollisuuksia. Tutkimusmenetelmän käyttökelpoisuutta arvioitiin mm. esittelemällä sen soveltamismahdollisuuksia, vertaamalla menetelmän käytön tehokkuutta ja taloudellisuutta perinteisiin menetelmiin ja testaamalla empiirisesti kattavien hakusuunnitelmien ja optimointituloksen uskottavuutta. Voitiin todeta, että menetelmä täyttää keskeiset tieteellisessä tutkimuksessa menetelmille asetetut kriteerit. Tutkimuksen keskeinen tieteellinen hyöty on siinä, että se kaataa raja-aitoja laboratorio- ja käyttäjäsuuntautuneiden tutkimuslinjojen väliltä. Tiedonhaun ilmiöitä voidaan tutkia laboratorioympäristössä niin, että hakija kyselyjen muotoilun asiantuntijana otetaan mukaan tiedonhakuprosessiin eikä eristetä siitä. Käytännön hakijan näkökulmasta tutkimuksessa pystyttiin hahmottelemaan perinteisten Boolen-hakujärjestelmien maksimaalista toimintamekanismia suurissa tekstitietokannoissa. Yksittäiseen tiedonhakuun liittyvää vastausta tutkimus ei luonnollisesti voi antaa mutta se auttaa huomaamaan eri tilanteissa, mistä suunnasta parhaiten toimivaa Boolen lauseketta kannattaa lähteä hakemaan. fi
dc.description.abstract A new laboratory-based method for the evaluation of Boolean queries in free-text searching of full-text databases is proposed. The method is based on a controlled formulation of inclusive query plans, on an automatic conversion of query plans into a set of elementary queries, and on composing optimal queries at varying operational levels by combining appropriate sub-sets of elementary queries. The method is based on the idea of reverse engineering, and exploits full relevance data of documents to find the query performing optimally within given operational constraints. The proposed method offers several advantages. The method makes good use of the expertise of experienced searchers in the query formulation process while avoiding uncontrolled human biases. Inclusive query plans are comprehensive representations of query tuning space available in each individual search topic. Query tuning space defines the limits within which query exhaustivity and query extent are free to change in search for the optimally performing query. An heuristic algorithm for composing the optimal queries was developed by elaborating the original idea proposed by Harter (1990) and by applying standard algorithms for the Zero-One Knapsack Problem of physical objects. The algorithm offers an efficient technique to find the optimal sub-set of elementary queries from any finite set of available elementary queries. The characteristics of Boolean queries can be investigated over a wide operational range by composing the optimal queries at standard recall levels R0.1 R1.0 or at selected DCV levels (e.g. 2, 5, 10, 500 documents). A case experiment focusing on the mechanism of falling effectiveness of free-text searching in large full-text databases is reported. A unique feature of the case experiment was that not only were the effects of the size but also the effects of the density of relevant documents, evaluated. In high recall searching, a major finding was that retrieval performance was dominated by documents where important concepts were expressed implicitly. These least retrievable documents compel the reduction of the exhaustivity of queries, and this leads to steeply falling precision at the highest recall level R1.0. The findings gave empirical support for the hypothesis of falling recall in large full-text databases introduced by Blair & Maron (1985) as a conclusion from the well known Stairs study. In high precision searching, the study revealed among other things, that increasing exhaustivity is a tool that can be used to increase the share of highly relevant documents in query results. Another interesting finding was that Boolean AND operator seems to be competitive with proximity operators in high precision searching. Further, it was shown that, in high precision searching, the relative effectiveness achieved in large databases is greatly influenced by the density of relevant documents. From the methodological viewpoint, the case experiment demonstrated how the performance of a Boolean IR system can be measured across a wide operational range. Second, the case showed how to study the relations between measured performance and the structural characteristics of Boolean queries optimised for different retrieval goals. Third, the rationale of structural changes in optimal queries could be logically explained by analysing the characteristics of relevant documents available in the database. Further, the case study exemplified the dynamic nature of the method from the experimental design viewpoint. Validity, reliability, and efficiency issues were considered in the evaluation of the method itself. Empirical tests showed that the proposed method has a firm basis when applied to appropriate problems of the intended application domain. en
dc.language.iso en -
dc.publisher Tampere University Press -
dc.relation.isformatof 951-44-4820-0 -
dc.subject tiedonhakujärjestelmät -
dc.subject evaluointi -
dc.subject Boolen kyselyt -
dc.subject information retrieval systems -
dc.subject evaluation -
dc.subject Boolean queries -
dc.title A Method for Measuring Wide Range Performance of Boolean Queries in Full-Text Databases -
dc.type.ontasot fi=Väitöskirja | en=Doctoral dissertation| -
dc.identifier.urn urn:isbn:951-44-4732-8 -
dc.relation.numberinseries 748 -
dc.seriesname Acta Universitatis Tamperensis -
dc.oldstats 1823 -
dc.seriesname.electronic Acta Electronica Universitatis Tamperensis -
dc.relation.numberinserieselectronic 34 -
dc.publisher.electronic Tampere University Press -
dc.subject.study Informaatiotutkimus - Information Studies -
dc.date.dissertation 2000-05-13 -
dc.onsale 1 -
dc.faculty fi=Yhteiskuntatieteellinen tiedekunta | en=Faculty of Social Sciences| -
dc.department fi=Informaatiotutkimuksen laitos | en=Department of Information Studies| -

Viite kuuluu kokoelmiin:

Näytä suppeat kuvailutiedot