Mikroblogien kirjoittajien demografia- ja sentimenttianalyysi

Väitöstilaisuuden tiedot

Väitöstilaisuuden päivämäärä ja aika

Väitöstilaisuuden paikka

L6, Linnanmaa, https://oulu.zoom.us/j/64834556225?pwd=NnhPV25Zbm1LNEdXc3hadElrNU00Zz09

Väitöksen aihe

Mikroblogien kirjoittajien demografia- ja sentimenttianalyysi

Väittelijä

Diplomi-insinööri Abhinay Pandya

Tiedekunta ja yksikkö

Oulun yliopiston tutkijakoulu, Tieto- ja sähkötekniikan tiedekunta, Jokapaikan tietotekniikan tutkimusyksikkö

Oppiaine

Tietotekniikka

Vastaväittäjä

Professori Stephan Oepen, Tietojenkäsittelyopin osasto, Oslon yliopisto

Kustos

Tutkimusprofessori Mourad Oussalah, Konenäön ja signaalianalyysin tutkimuskeskus (CMVS), Tieto- ja sähkötekniikan tiedekunta

Lisää tapahtuma kalenteriin

Mikroblogien kirjoittajien demografia- ja sentimenttianalyysi

Twitter-pohjainen analytiikka on noussut useiden tieteenalojen työkalupakkiin viime vuosina. Kuitenkin järjestelmällisten analyysikokonaisuuksien kehitys on mikroblogikeskustelujen erityisluonteen vuoksi haastavaa. Analysointimenetelmien heikko suorituskyky on todettu useissa sovelluskohteissa, kuten kirjoittajien väestörakenne- ja tunnetila-analyyseissa tai tehtävissä, joissa mikrobloggauksista pyritään havaitsemaan tärkeitä tapahtumia. Analyysit pitäisi suorittaa hyvin lyhyistä tekstipätkistä, tässä tutkimuksessa erityisesti mikroblogauksista. Omalaatuisten ja persoonallisten kielellisten ilmaisujen, mutta myös Twitterin emojien, metatietotagien, ulkoisten linkkien (url) ja upotettujen kuvien sekä videoiden käyttö monipuolistaa ongelmakenttää.

Aikaisemmissa tutkimuksissa on onnistuttu johtamaan hyödyllistä tietoa yksittäisistä mikroblogauksista jossain määrin, mutta metatietojen roolia ja merkitystä ei ole vielä järjestelmällisesti eikä yksityiskohtaisesti tutkittu. Lisäksi syväoppimisen hyödyntämistä Twitter-pohjaisten datojen analyyseissa on tutkittu vähän tai ei ollenkaan.

Tämän väitöskirjan tavoitteena on parantaa tietokoneiden valmiuksia käsitellä mikroblogauksia siten, että nykyistä parempi ja merkityksellisempi julkisten Twitter-aineistojen koneellinen ymmärtäminen olisi mahdollista. Ensinnäkin tutkimuksessa testataan empiirisesti syväoppivan mallin vaikuttavuutta sekä tehokkuutta ym. tekstikokonaisuuksien hajautetun semanttisen esitysmuodon integroinnissa. Toiseksi työssä parannetaan mikroblogauksien sisältöanalyysia ulkoisten, avoimen lähdekoodin tietograafien sekä muiden joukkoistettujen sanastojen avulla. Kolmanneksi tutkitaan ja kvantifioidaan käyttäjien luomien metadatojen, kuten metatietotagien ja ulkoisten linkkien roolit analyysikehikoissa.

Työssä esitellään laskennalliset mallit mikroblogauksien keskusteluun, aihepiiriin sekä aikaan liittyvien asiayhteyksien päättelemiseksi ja käytetään näitä malleja koneoppimismallien suorituskyvyn parantamiseksi Twitter-dataan pohjautuvassa analytiikassa. Mikroblogaajien verkkokäyttäytymisen perusteella saadun monimuotoisen aineiston integrointi tapahtuu koneoppivien mallien avulla. Työssä käytetyt aineistot sekä tutkimuksessa kehitetyt työkalut on saatettu julkiseksi tiedeyhteisön käyttöön.
Viimeksi päivitetty: 23.1.2024