Datan valinta projektienvälisten virheiden ennustamiseen
Väitöstilaisuuden tiedot
Väitöstilaisuuden päivämäärä ja aika
Väitöstilaisuuden paikka
L5, Linnanmaa
Väitöksen aihe
Datan valinta projektienvälisten virheiden ennustamiseen
Väittelijä
Filosofian maisteri Seyedrebvar Hosseini
Tiedekunta ja yksikkö
Oulun yliopiston tutkijakoulu, Tieto- ja sähkötekniikan tiedekunta, Empiirinen ohjelmistotuotanto ohjelmistoissa, järjestelmissä ja palveluissa (M3S)
Oppiaine
Tietojenkäsittelytiede
Vastaväittäjä
Professori Michele Lanza, Universita` della Svizzera Italiana (USI)
Kustos
Apulaisprofessori Burak Turhan, Monash University
Datan valinta projektienvälisten virheiden ennustamiseen
Tausta: Tämä tutkimus edistää projektienvälisten virheiden ennustamisen nykytilan ymmärtämistä (CPDP) tutkimalla aihetta teemoissa, keskittyen erityisesti tiedollisiin lähestymistapoihin ja hakuperusteisen harjoitusdatan valintaan esittelemällä datan valintamenetelmiä ja tutkimalla niiden vaikutuksia. Tämän työn empiirinen todistusaineisto on koottu muodollisella systemaattisella kirjallisuuskatsauksella ja avoimen lähdekoodin projekteissa tehdyillä kokeilla.
Tavoite: Pyrimme ymmärtämään ja tiivistämään tavan, jolla erilaisia datan käsittelyn lähestymistapoja käytetään CPDP:ssa sekä niiden potentiaalisia vaikutuksia suorituskykyyn. Lisäksi, tavoitteenamme on hyödyntää hakuperusteisia menetelmiä, joilla muodostetaan kehittyviä harjoitusdata-settejä suodattamaan epäolennaisia esiintymiä muista projekteista ennen koulutusta.
Menetelmä: CPDP:n nykytilan kirjallisuuskatsauksen jälkeen tehtyjen tutkimusten avulla ehdotamme hakuperusteista menetelmää, jota kutsutaan geneettisen esiintymän valinnaksi (GIS). Todistamme alustavat havaintomme suorittamalla seuraavan tutkimuksen suurella joukolla datasettejä, joilla on useita ominaisuuksia. Jalostamme suunnittelupäätöksiämme käyttäen tutkivaa tutkimusta. Lopuksi, tutkimme vallitsevaa meta-oppimisen lähestymistapaa ja tarjoamme näkemyksiä sen suunnitteluun ja ehdotamme vaihtoehtoista, toistuvaa datan valintamenetelmää.
Tulokset: Kirjallisuuskatsaus paljastaa CPDP:n heikomman suorituskyvyn verrattuna projektinsisäisten virheiden ennustamisen (WPDP) malleihin ja tarjoaa joukon primaaritutkimuksia, joita voidaan käyttää perustana myöhemmälle tutkimukselle. Ehdottamamme datan valintamenetelmät puoltavat hakuperusteisia menetelmiä niiden paremman tehokkuuden ja suorituskyvyn vuoksi. Tunnistimme potentiaalisia tehokuuteen vaikuttavia tekijöitä tutkimusten avulla ja ehdotimme metodeja parempien CPDP mallien luomiseksi.
Johtopäätökset: Viime vuosikymmenten aikana kirjallisuudessa esitellyt lukuisat menetelmät ovat edistäneet alaa ja hankittu tieto ja työkalut soveltuvat monille samanlaisille alueille ja voivat toimia myös osana akateemisia opetussuunnitelmia. Tutkimuksen tulevat linjaukset voivat sisältää validointiin paremmin soveltuvan datan haun, paremmat ominaisuuksien valintatekniikat, hakuperusteisten mallien parametrien hienosäädön, oppijoiden hyper-parametrien hienosäädön, tutkimuksen useiden optimoinnin lähteiden vaikutuksista (oppija, esiintymät, ominaisuudet) ja luokan epätasapaino-ongelman vaikutuksesta.
Tavoite: Pyrimme ymmärtämään ja tiivistämään tavan, jolla erilaisia datan käsittelyn lähestymistapoja käytetään CPDP:ssa sekä niiden potentiaalisia vaikutuksia suorituskykyyn. Lisäksi, tavoitteenamme on hyödyntää hakuperusteisia menetelmiä, joilla muodostetaan kehittyviä harjoitusdata-settejä suodattamaan epäolennaisia esiintymiä muista projekteista ennen koulutusta.
Menetelmä: CPDP:n nykytilan kirjallisuuskatsauksen jälkeen tehtyjen tutkimusten avulla ehdotamme hakuperusteista menetelmää, jota kutsutaan geneettisen esiintymän valinnaksi (GIS). Todistamme alustavat havaintomme suorittamalla seuraavan tutkimuksen suurella joukolla datasettejä, joilla on useita ominaisuuksia. Jalostamme suunnittelupäätöksiämme käyttäen tutkivaa tutkimusta. Lopuksi, tutkimme vallitsevaa meta-oppimisen lähestymistapaa ja tarjoamme näkemyksiä sen suunnitteluun ja ehdotamme vaihtoehtoista, toistuvaa datan valintamenetelmää.
Tulokset: Kirjallisuuskatsaus paljastaa CPDP:n heikomman suorituskyvyn verrattuna projektinsisäisten virheiden ennustamisen (WPDP) malleihin ja tarjoaa joukon primaaritutkimuksia, joita voidaan käyttää perustana myöhemmälle tutkimukselle. Ehdottamamme datan valintamenetelmät puoltavat hakuperusteisia menetelmiä niiden paremman tehokkuuden ja suorituskyvyn vuoksi. Tunnistimme potentiaalisia tehokuuteen vaikuttavia tekijöitä tutkimusten avulla ja ehdotimme metodeja parempien CPDP mallien luomiseksi.
Johtopäätökset: Viime vuosikymmenten aikana kirjallisuudessa esitellyt lukuisat menetelmät ovat edistäneet alaa ja hankittu tieto ja työkalut soveltuvat monille samanlaisille alueille ja voivat toimia myös osana akateemisia opetussuunnitelmia. Tutkimuksen tulevat linjaukset voivat sisältää validointiin paremmin soveltuvan datan haun, paremmat ominaisuuksien valintatekniikat, hakuperusteisten mallien parametrien hienosäädön, oppijoiden hyper-parametrien hienosäädön, tutkimuksen useiden optimoinnin lähteiden vaikutuksista (oppija, esiintymät, ominaisuudet) ja luokan epätasapaino-ongelman vaikutuksesta.
Viimeksi päivitetty: 23.1.2024