Variations on a Theme: The Classification of Benthic Macroinvertebrates

TamPub

Näytä suppeat kuvailutiedot

dc.contributor.author Joutsijoki, Henry -
dc.date.accessioned 2012-12-03T12:09:17Z
dc.date.available 2012-12-03T12:09:17Z
dc.date.issued 2012 -
dc.identifier.isbn 978-951-44-8953-2 -
dc.identifier.uri http://tampub.uta.fi/handle/10024/66958
dc.description.abstract Vain murto-osa maailman vesivarannoista on makeaa vettä. Jokapäiväisessä ympäristössämme olevat vesistöt, kuten joet, purot, lammet ja järvet ovat vain osajoukko makean veden kokonaismäärästä. Vesistöt kohtaavat nykyään enenevässä määrin erilaisia ympäristöpaineita muun muassa kemikaalipäästöjen muodossa. Tästä syystä vesistöjen tilojen tarkkailuun on viime vuosikymmenten aikana panostettu yhä enemmän. Vesistöjen tilojen seuranta voidaan suorittaa lyhyt- tai pitkäaikaisena. Lyhytaikaisessa seurannassa hyödynnetään usein kerättyjen vesinäytteiden kemiallista analyysia, kun taas pitkäaikaisten seurantojen yhteydessä käytetään apuna pohjaeläimiä, sillä ne reagoivat veden laadun muutoksiin hyvin ja niitä löytyy kaikista vesistöistä. Pohjaeläimet ovat pieniä selkärangattomia eläimiä, jotka ovat riippuvaisia vedenalaisesta alustastaan jossain vaiheessa niiden elinkaarta. Pohjaeläinten hyödyntäminen vesistön tilan seurannassa on monivaiheinen prosessi. Ensimmäiseksi vesistöstä kerätään lukuisia näytteitä, joista pohjaeläimet erotellaan ja säilötään yksitellen. Toiseksi biologi tai lajintunnistukseen erikoistunut taksonomisti määrittää näytteistä saatujen pohjaeläinten lajit tai yleisesti ottaen niiden taksonomiset ryhmät yksitellen. Näytteistä saatujen lajitietojen ja muun analysoinnin perusteella pystytään selvittämään vesistön tilan muuttuminen pitkältä aikaväliltä. Prosessin työläimpiä vaiheita on pohjaeläinten tunnistaminen, jonka automatisointi säästäisi huomattavasti resursseja. Väitöskirjassa keskitytään pohjaeläinten tunnistamiseen laskennallisin menetelmin, mikä on erittäin vähän tutkittu alue hahmontunnistuksen saralla. Pohjaeläinten laskennallinen tunnistaminen palautuu kuvien luokittelemiseen. Tutkimusaineistoina väitöskirjassa on käytetty kahta pohjaeläinkuva-aineistoa, joista ensimmäinen käsittää 1350 kuvaa yhteensä kahdeksasta taksonomisesta ryhmästä ja toinen kuvakokoelma pitää sisällään yli 4800 kuvaa yhteensä 50 pohjaeläinlajista. Väitöskirja koostuu viidestä artikkelista, joissa on sovellettu yhteensä 16:ta eri menetelmää pohjaeläinten tunnistamiseen. Käytetyistä menetelmistä 15 on kirjallisuudesta tuttuja ja väitöskirjassa esitetään yksi uusi luokittelumenetelmä. Erityinen painoarvo väitöskirjassa annetaan 1990-luvulla kehitetylle luokittelumenetelmälle nimeltään tukivektorikone. Tukivektorikone on suunniteltu alun perin ainoastaan kahden luokan luokittelutehtäviin. Väitöskirjassa sovelletaan neljää tukivektorikoneelle kehitettyä moniluokkalaajennosta pohjaeläinluokitteluun ja kolmea näistä menetelmistä käytetään ensimmäistä kertaa pohjaeläinten luokittelussa. Lisäksi väitöskirjassa keskitytään tukivektorikoneen laajennuksissa esiintyviin teoreettisiin ongelmiin (tasapelitilanteet joissa uuden näytteen luokka ei ole yksikäsitteisesti määritetty ja luokkien jakamiseen optimaalisesti kahteen ryhmään) ja annetaan niihin uusia ratkaisumalleja. Käytettäessä tukivektorikonetta luokittelutehtävissä sen tehokkuus riippuu suuresti ns. kernel-funktion ja siihen liittyvien parametriarvojen valinnasta. Väitöskirjassa käytettiin seitsemää kirjallisuudesta entuudestaan tuttua kernel-funktiota ja suoritettiin laajat empiiriset tutkimukset sopivien parametriarvojen löytämiseksi. Näiden lisäksi useita erilaisia kuvista laskettuja piirrejoukkoja testattiin luokittelussa. Väitöskirjassa saavutettujen tulosten perusteella tukivektorikone osoittautui erittäin hyväksi vaihtoehdoksi pohjaeläinten automaattiseen luokitteluun. Pienemmän aineiston kohdalla saavutettiin yli 97% luokittelutarkkuus ja suuremman aineiston kohdalla luokittelutarkkuus oli yli 80%. Saatujen tutkimustulosten perusteella voidaan sanoa, että pohjaeläinten automaattinen tunnistaminen on mahdollista toteuttaa vähintään yleisimpien taksonomisten ryhmien tapauksessa. Lisäksi ratkaisumallit tukivektorikonetta koskeviin teoreettisiin ongelmiin osoittautuivat menestyksekkäiksi ja niitä voidaan hyödyntää käytettäessä tukivektorikonetta luokittelutehtävissä, joissa on enemmän kuin kaksi luokkaa. fi
dc.description.abstract This thesis focused on the classification of benthic macroinvertebrates by using machine learning methods. Special emphasis was placed on multi-class extensions of Support Vector Machines (SVMs). Benthic macroinvertebrates are used in biomonitoring due to their properties to react to changes in water quality. The use of benthic macroinvertebrates in biomonitoring requires a large number of collected samples. Traditionally benthic macroinvertebrates are separated and identified manually one by one from samples collected by biologists. This, however, is a time-consuming and expensive approach. By the automation of the identification process time and money would be saved and more extensive biomonitoring would be possible. The aim of the thesis was to examine what classification method would be the most appropriate for automated benthic macroinvertebrate classification. Two datasets were used in the thesis. One dataset contained benthic macroinvertebrate images from eight taxonomic groups and the other images from 50 species of benthic macroinvertebrates. The thesis produced several novel results. Firstly, a new tie situation resolving strategy was introduced when one-vs-one SVM together with majority voting method was used. Secondly, a novel approach to parameter selection for SVMs was proposed. Thirdly, a new approach to class division problem in Half-Against-Half SVMs was developed by applying Scatter method. Lastly, a new classification method called Directed Acyclic Graph k-Nearest Neighbour was introduced. In this thesis altogether four multi-class extensions of support vector machines and 12 other classification methods were used. SVMs were tested with seven kernel functions, and several feature sets were used in the tests. SVMs were very suitable for the benthic macroinvertebrate classification. With the smaller dataset one-vs-one method achieved over 97% accuracy and half-against-half support vector machine achieved around 96% accuracy. Eleven classification methods other than multi-class support vector machines were tested with the smaller dataset. Of these methods the best ones were Quadratic Discriminant Analysis, Multi-Layer Perceptron and Radial Basis Function network. These methods attained around 94% accuracy. The larger dataset was tested with two classification methods. The accuracies achieved with these methods were around 80%. According to the classification results support vector machines are suitable for automated benthic macroinvertebrate classification when a proper feature set, kernel function and optimal parameter values are found. en
dc.language.iso en -
dc.publisher Tampere University Press -
dc.relation.isformatof 978-951-44-8952-5 -
dc.title Variations on a Theme: The Classification of Benthic Macroinvertebrates -
dc.type.ontasot fi=Väitöskirja | en=Doctoral dissertation| -
dc.identifier.urn urn:isbn:978-951-44-8953-2 -
dc.relation.numberinseries 1777 -
dc.seriesname Acta Universitatis Tamperensis -
dc.administrativeunit fi=Informaatiotieteiden yksikkö | en=School of Information Sciences| -
dc.oldstats 39 -
dc.seriesname.electronic Acta Electronica Universitatis Tamperensis -
dc.relation.numberinserieselectronic 1251 -
dc.publisher.electronic Tampere University Press -
dc.subject.study Tietojenkäsittelyoppi - Computer Science -
dc.date.dissertation 2012-11-09 -
dc.onsale 1 -

Viite kuuluu kokoelmiin:

Näytä suppeat kuvailutiedot