Doktorsvörn í reikniverkfræði: Markus Götz
Aðalbygging
Hátíðasalur
Doktorsefni: Markus Götz
Heiti ritgerðar: Skalanleg gagnagreining með ofurtölvum
Andmælendur
Dr. Håkan Grahn, prófessor í Tölvuverkfræði við Tækniháskólann í Blekinge, Svíþjóð
Dr. Shantenu Jha, prófessor í tölvunarfræði við Rutgers Háskólann í Bandaríkjunum.
Leiðbeinandi: Dr. Morris Riedel, gestadósent við IVT-deild HÍ
Aðrir í doktorsnefnd: Dr. Ólafur Pétur Pálsson og Dr. Matthias Book, prófessorar við IVT-deild HÍ
Doktorsvörn stýrir: Kristján Jónasson, forseti Iðnaðarverkfræði- vélaverkfræði og tölvunarfræðideildar
Ágrip af rannsókn: Á síðastliðnum áratug hefur orðið mikil aukning í framleiðslu og geymslu gagna í iðnaði sem og rannsóknum. Þrátt fyrir að gagnagreining sé ekki ný af nálinni, stendur hún frammi fyrir þeirri áskorun að ráða við síaukið magn, bandvídd og flækjustig gagna. Þetta gerir hefðbundnar aðferðir óskilvirkar og hefur þetta vandamál verið nefnt gagnagnótt (e. Big Data). Í vísindum koma gögn helst frá umfangsmiklum tilraunum og hermunum. Hingað til hefur ekki verið fyllilega unnið úr gögnunum, heldur hafa þau verið geymd í gagnageymslum fyrir greiningu síðar meir, vegna skorts á skilvirkum úrvinnsluaðferðum. Af þessu má draga þá ályktun að til að greina þessi gögn þurfi víðtæka umgjörð fyrir gagnagreiningu og algrímasöfn og er tölvuumhverfið sem miðað er við, misleit kerfi sem ætluð eru fyrir stórfellda tölvuvinnslu (e. high performance computing).
Þessi ritgerð leggur til hönnun og frumgerðarútfærslu á slíkri umgjörð sem byggir á reynslu sem fengin er úr raunverulegum notkunardæmum, einkum jarðvísindum. Sérstaklega voru skoðuð dæmi um merkingu útlína hluta í punktaskýsgögnum og líffræðilegu myndefni, útlagar (e. outliers) í haffræðilegum tímaraðagögnum og flokkun á fjarkönnunarmyndefni. Til að ráða við hið mikla magn gagna voru tvö greiningaralgrím aðlöguð fyrir samhliða vinnslu í kerfum með samnota- og dreift minni. Þetta eru HPDBSCAN, sem er klösunaraðferð byggð á þéttiföllum og Distributed Max-Trees, síunaralgrím fyrir myndir. Báðar aðferðir voru færðar yfir í almenna frumgerð sem einfaldar framsetningu skalanlegra algríma fyrir aðrar sambærilegar greiningaraðferðir. Þar að auki gerir þetta kleift að setja fram skilgreiningu á þörfum fyrir hönnun víðtækra gagnagreiningaumgjarðar og söfn algríma fyrir misleit kerfi ætluð til dreifðrar stórtækrar tölvuvinnslu. Að lokum er frumgerð á útfærslu slíkrar umgjarðar kynnt sem nefnd er Juelich Machine Learning Library, sem veitir aðgang að lágtæknieiningum og tilbúnum útfærslum á greiningaralgrímum.
Lykilorð —Gagnagreining, Gagnagreiningaumgjörð, Reiknigreind, Ofurtölvureikningar, Jarðvísindi, Raundæmi.
Um doktorsefnið:
BS próf í upplýsingatækniverkfræði 2010 frá Háskólanum í Potsdam, Þýskalandi
MS próf í sömu grein frá sama skóla 2013.
Kvæntur Ewa Götz.
Markus Götz