Mikroblogien kirjoittajien demografia- ja sentimenttianalyysi
Väitöstilaisuuden tiedot
Väitöstilaisuuden päivämäärä ja aika
Väitöstilaisuuden paikka
L6, Linnanmaa, https://oulu.zoom.us/j/64834556225?pwd=NnhPV25Zbm1LNEdXc3hadElrNU00Zz09
Väitöksen aihe
Mikroblogien kirjoittajien demografia- ja sentimenttianalyysi
Väittelijä
Diplomi-insinööri Abhinay Pandya
Tiedekunta ja yksikkö
Oulun yliopiston tutkijakoulu, Tieto- ja sähkötekniikan tiedekunta, Jokapaikan tietotekniikan tutkimusyksikkö
Oppiaine
Tietotekniikka
Vastaväittäjä
Professori Stephan Oepen, Tietojenkäsittelyopin osasto, Oslon yliopisto
Kustos
Tutkimusprofessori Mourad Oussalah, Konenäön ja signaalianalyysin tutkimuskeskus (CMVS), Tieto- ja sähkötekniikan tiedekunta
Mikroblogien kirjoittajien demografia- ja sentimenttianalyysi
Twitter-pohjainen analytiikka on noussut useiden tieteenalojen työkalupakkiin viime vuosina. Kuitenkin järjestelmällisten analyysikokonaisuuksien kehitys on mikroblogikeskustelujen erityisluonteen vuoksi haastavaa. Analysointimenetelmien heikko suorituskyky on todettu useissa sovelluskohteissa, kuten kirjoittajien väestörakenne- ja tunnetila-analyyseissa tai tehtävissä, joissa mikrobloggauksista pyritään havaitsemaan tärkeitä tapahtumia. Analyysit pitäisi suorittaa hyvin lyhyistä tekstipätkistä, tässä tutkimuksessa erityisesti mikroblogauksista. Omalaatuisten ja persoonallisten kielellisten ilmaisujen, mutta myös Twitterin emojien, metatietotagien, ulkoisten linkkien (url) ja upotettujen kuvien sekä videoiden käyttö monipuolistaa ongelmakenttää.
Aikaisemmissa tutkimuksissa on onnistuttu johtamaan hyödyllistä tietoa yksittäisistä mikroblogauksista jossain määrin, mutta metatietojen roolia ja merkitystä ei ole vielä järjestelmällisesti eikä yksityiskohtaisesti tutkittu. Lisäksi syväoppimisen hyödyntämistä Twitter-pohjaisten datojen analyyseissa on tutkittu vähän tai ei ollenkaan.
Tämän väitöskirjan tavoitteena on parantaa tietokoneiden valmiuksia käsitellä mikroblogauksia siten, että nykyistä parempi ja merkityksellisempi julkisten Twitter-aineistojen koneellinen ymmärtäminen olisi mahdollista. Ensinnäkin tutkimuksessa testataan empiirisesti syväoppivan mallin vaikuttavuutta sekä tehokkuutta ym. tekstikokonaisuuksien hajautetun semanttisen esitysmuodon integroinnissa. Toiseksi työssä parannetaan mikroblogauksien sisältöanalyysia ulkoisten, avoimen lähdekoodin tietograafien sekä muiden joukkoistettujen sanastojen avulla. Kolmanneksi tutkitaan ja kvantifioidaan käyttäjien luomien metadatojen, kuten metatietotagien ja ulkoisten linkkien roolit analyysikehikoissa.
Työssä esitellään laskennalliset mallit mikroblogauksien keskusteluun, aihepiiriin sekä aikaan liittyvien asiayhteyksien päättelemiseksi ja käytetään näitä malleja koneoppimismallien suorituskyvyn parantamiseksi Twitter-dataan pohjautuvassa analytiikassa. Mikroblogaajien verkkokäyttäytymisen perusteella saadun monimuotoisen aineiston integrointi tapahtuu koneoppivien mallien avulla. Työssä käytetyt aineistot sekä tutkimuksessa kehitetyt työkalut on saatettu julkiseksi tiedeyhteisön käyttöön.
Aikaisemmissa tutkimuksissa on onnistuttu johtamaan hyödyllistä tietoa yksittäisistä mikroblogauksista jossain määrin, mutta metatietojen roolia ja merkitystä ei ole vielä järjestelmällisesti eikä yksityiskohtaisesti tutkittu. Lisäksi syväoppimisen hyödyntämistä Twitter-pohjaisten datojen analyyseissa on tutkittu vähän tai ei ollenkaan.
Tämän väitöskirjan tavoitteena on parantaa tietokoneiden valmiuksia käsitellä mikroblogauksia siten, että nykyistä parempi ja merkityksellisempi julkisten Twitter-aineistojen koneellinen ymmärtäminen olisi mahdollista. Ensinnäkin tutkimuksessa testataan empiirisesti syväoppivan mallin vaikuttavuutta sekä tehokkuutta ym. tekstikokonaisuuksien hajautetun semanttisen esitysmuodon integroinnissa. Toiseksi työssä parannetaan mikroblogauksien sisältöanalyysia ulkoisten, avoimen lähdekoodin tietograafien sekä muiden joukkoistettujen sanastojen avulla. Kolmanneksi tutkitaan ja kvantifioidaan käyttäjien luomien metadatojen, kuten metatietotagien ja ulkoisten linkkien roolit analyysikehikoissa.
Työssä esitellään laskennalliset mallit mikroblogauksien keskusteluun, aihepiiriin sekä aikaan liittyvien asiayhteyksien päättelemiseksi ja käytetään näitä malleja koneoppimismallien suorituskyvyn parantamiseksi Twitter-dataan pohjautuvassa analytiikassa. Mikroblogaajien verkkokäyttäytymisen perusteella saadun monimuotoisen aineiston integrointi tapahtuu koneoppivien mallien avulla. Työssä käytetyt aineistot sekä tutkimuksessa kehitetyt työkalut on saatettu julkiseksi tiedeyhteisön käyttöön.
Viimeksi päivitetty: 23.1.2024