Tekoälyn käyttö TKI-toiminnan tukena on herättänyt paljon mielenkiintoa ammattikorkeakouluissa. Tekoälysovelluksille on tunnistettu käyttökohteita TKI-projektin eri vaiheissa, esimerkiksi tutkimussuunnitelman ja rahoitushakemuksen ideointiin ja suunnitteluun, tiedonhankintaan, kirjoittamiseen ja kääntämiseen, kuvien generointiin sekä aineiston keräämiseen, analysointiin ja mallien luomiseen.
Avoin data tarkoittaa julkisesti tai pelkästään tutkimuskäyttöön saatavilla olevaa aineistoa, jota voidaan hyödyntää johonkin avoimeen lisenssiin perustuen. Avointa dataa tuotetaan esimerkiksi julkisyhteisöissä, yrityksissä sekä tutkimuslaitoksissa.
Tarkastelen tässä artikkelissa tekoälyn hyötyjä erityisesti avoimen datan näkökulmasta.
TKI-toiminnan vauhdittajat
Avoimen datan hyödyntämisen etuna on, että aineistoa ei tarvitse kerätä itse, mikä säästää aikaa ja resursseja. Jotkin aineistot saattavat myös olla niin suuria tai ainutlaatuisia, ettei niitä ole mahdollista tuottaa uudelleen. Avointa dataa saattaa myös olla mahdollista yhdistää toisiin aineistoihin niin, että aineisto rikastuu tai sen koko kasvaa. Kaikki nämä tuovat lisäarvoa datalle.
Tekoälyn etuna taas on datan nopea, automaattinen käsittely. Tekoäly pystyy analysoimaan erittäin suuria datamääriä tehokkaasti. Tekoäly saattaa myös löytää datasta sellaisia piileviä kaavoja, joita ihminen ei välttämättä huomaisi. Tekoälyä voi hyödyntää myös eri aineistojen yhdistämiseen.
Avoin data toimii siis polttoaineena tekoälymoottorille, joka antaa vauhtia tutkimuksen tekoon.
Muutamia case-esimerkkejä
Avointa dataa ja tekoälyä sen analysoinnissa voi hyödyntää monella tapaa ja monilla eri aloilla. Muutamia kiinnostavia esimerkkejä Suomesta:
Helsingin kaupunki julkaisee avoimesti kaupungin saamaa palautedataa. Sofor Oy on luonut tekoälysovelluksen, joka analysoi ja luokittelee palautedatan vapaa sana -kenttien tekstit. Lisäksi sovellus visualisoi datan muotoon, jossa tuloksia on helppo tarkastella eri näkökulmista. (Voipio 2022; Salo 2022) Helsingin kaupunki saa vuosittain noin 60 000 palautetta, joten tekoälyn hyödyntäminen tehostaa analyysia huomattavasti (Helsingin kaupungin verkkosivut).
Jenni Nurmi kehitti YAMK-opinnäytetyössään CEULA-mallin, joka hyödyntää avointa dataa ja tekoälyä yritysten kiertotalouskyvykkyyksien arviointiin ja tunnistamiseen. Malli hyödyntää julkishallinnon avoimia rekistereitä yrityksistä ja yhdistää yritysten toimialatiedot ja muut avoimet lähdetiedot, kuten verkkosivut. Tekoäly analysoi yritysten verkkosivuilta, miten ne viestivät kiertotalouteen liittyvistä asioista. Näin yritysten kiertotalousosaamisen kypsyystasoa voitiin arvioida ja toimijoita tunnistaa. Mallia on mahdollista hyödyntää myös muiden kyvykkyyksien tunnistamiseen. (Järvenpää 2024; Nurmi 2024)
Xamkin, Kansalliskirjaston ja Suomen Elinkeinoelämän Keskusarkiston (ELKA) yhteisessä ETKOT-hankkeessa rakennetaan Etelä-Savon alueelle omaa kielimallia sekä hyödynnetään kyseistä kielimallia digitaalisten aineistojen jalostamisessa liiketoiminnan ja tutkimuksen tarpeisiin. Hankkeen tavoitteena on myös tukea yrityksiä tunnistamaan tekoälyn ja avoimen datan tuomia liiketoimintamahdollisuuksia kestävästi. (ETKOT – Etelä-Savon koulutettu tekoäly Memory Labissa -hankkeen verkkosivut) Kansalliskirjasto kokoaa hankkeeseen digitoimaansa kulttuurihistoriallista aineistoa aineistopaketeiksi, joita yritykset voivat hyödyntää (Kansalliskirjaston verkkosivut).
Xamkilla on myös toinen mielenkiintoinen hanke, DAME – Etelä-Savon datatalouden kiihdyttämö, jossa ideana on eri toimialojen data-avaruuksien luominen perustuen paikallisten yritysten yhteiseen datan jakamiseen sekä muuhun avoimeen dataan. Näin jaetun datan pohjalta on mahdollista luoda uutta liiketoimintaa yhteiseksi menestystekijäksi. (DAME – Etelä-Savon datatalouden kiihdyttämö -hankkeen verkkosivut)
Tarkkana tiedon kanssa
Tekoälyn ja avoimen datan yhdistämisessä on paljon mahdollisuuksia, mutta myös haasteita, jotka on hyvä tunnistaa ja huomioida.
IT-alalla yleinen sanonta ”roskaa sisään, roskaa ulos” pätee erityisen hyvin myös tässä tapauksessa. Avoin data voi olla hajanaista, epäyhtenäistä tai huonosti dokumentoitua. Laadukas dokumentaatio on avoimen datan kohdalla välttämätöntä: kun et ole kerännyt dataa itse, tarvitset riittävät taustatiedot pystyäksesi arvioimaan datan laatua ja sitä, mitä data oikeastaan kuvaa.
Avointen datasettien yhdistäminen voi olla haastavaa, jos data ei ole samassa muodossa. Usein avointa dataa saattaakin joutua käsittelemään ennen analyysia. Jos käytetty data ei ole laadukasta ja luotettavaa, myöskään tekoälyn siitä tuottamat tulokset eivät ole luotettavia.
On myös hyvä huomioida, että kaikki verkossa oleva tieto ei ole ”avointa dataa”, eli lisenssin avulla (tiettyyn) käyttöön vapautettua. Verkosta löytyy paljon tekijänoikeudella suojattua materiaalia, jonka kopioiminen on kiellettyä. Verkkoaineistot voivat sisältää myös henkilötietoja, kuten on vaikkapa sosiaalisen median aineistojen kohdalla. Tällaisten aineistojen analysoiminen tekoälyohjelmilla vaatii tietosuojan huomioimisen lisäksi myös tarkkaa tutkimuseettistä harkintaa, esimerkiksi liittyen tutkittavien informointiin ja suostumukseen (Laaksonen 2021).
Avointa dataa käytettäessä onkin huomioitava millä lisenssillä se on julkaistu, eli mitä datalle saa lisenssiehtojen mukaisesti tehdä. Jos data on julkaistu CC 0 -lisenssillä eli vapautettu niin sanotusti public domainiin, hyvän tieteellisen käytännön mukaisesti datan tekijöihin tulee kuitenkin viitata asianmukaisesti esimerkiksi tutkimusjulkaisuissa.
Tekoälyn käyttö datan analysoimisessa voi olla tutkijalle haastavaa myös siksi, että tutkimuksen läpinäkyvyyden periaatteiden mukaisesti tulisi aina voida osoittaa, miten analyysin tulokset ovat syntyneet. Monimutkaiset tekoälysovellukset ovat kuitenkin usein ”mustia laatikoita”, eli emme tiedä millä logiikalla tekoäly päätyy analyysissaan tiettyyn lopputulemaan. Tekoälyn koulutusaineistossa saattaa myös esiintyä vinoumia, jotka vaikuttavat tuloksiin. Toisinaan tulosten toistaminen ei onnistu. (Laaksonen 2024).
Tutkijan vastuu ei katoa: Laadunvarmistus, läpinäkyvyys ja vastuullisuus
Tekoälyn ja avoimen datan käyttö TKI-toiminnassa edellyttää panostusta laadunvarmistukseen, avoimuuteen ja vastuullisuuteen.
Tutkijan on tärkeää tarkistaa sekä käyttämänsä datan että tekoälyn siitä tuottamien tulosten laatu. Tätä työtä ei voi jättää tekoälylle, sillä tutkija on vastuussa tutkimuksestaan ja tulosten oikeellisuudesta.
Tekoälysovelluksia on erilaisia ja osassa tuloksiin päätymisen prosessi on läpinäkyvämpi kuin toisissa. Esimerkiksi suuria kielimalleja hyödyntävät ChatGPT ja Microsoft Copilot ovat mustan laatikon malleja. Päätöspuihin perustuvat yksinkertaisemmat koneoppimisen mallit voivat olla hyvinkin selitettävissä, tosin niiden tarkkuus ei ole yhtä hyvä.
Tulosten selitettävyys on tekoälymallin ominaisuus, mutta lisäksi on tärkeää dokumentoida huolellisesti oma toimintansa: 1) kertoa tekoälyn käytöstä ja käytetystä sovelluksesta ja sen versiosta, 2) kuvata käytetyt kehotteet ja saadut vastaukset, sekä 3) kuvata tekniset yksityiskohdat ja parametrit, jotka mahdollistavat tulosten tarkastamisen. (Näreaho ym. 2024).
Avointa dataa ja tekoälyä käytettäessä vastuullisuuden osalta pätevät samat asiat kuin muussakin TKI-toiminnassa. Tietosuoja tulee huomioida sekä tutkimuseettiset periaatteet ja tutkimuksen turvallisuus. Hyvä etukäteissuunnittelu auttaa tässäkin; esimerkiksi aineistonhallintasuunnitelma auttaa punnitsemaan avoimen datan käyttöön mahdollisesti liittyviä riskejä.
Katse tulevaan: tekoäly ja avoin data osaksi TKI-työtä
Tekoälyn rooli TKI-toiminnassa tulee todennäköisesti kasvamaan tulevaisuudessa, samaan tapaan kuin muillakin yhteiskunnan aloilla. Se lisännee myös avoimen datan kysyntää ja tarjontaa. TKI-toimijan kannattaakin seurata tätä kehityssuuntaa alasta riippumatta, ja pohtia mahdollisuuksia tekoälyn ja avoimen datan hyödyntämiseen omassa työssään.
Edellä esitellyt esimerkit ovat kiinnostavia avauksia avoimen datan ja tekoälyn hyödyntämiseen tällä hetkellä. Tulevaisuudessa tekoäly ja avoin data voivat muuttaa TKI-toimintaa merkittävästi, mahdollistamalla entistä tehokkaamman tutkimuksen sekä uusien innovaatioiden syntymisen.
Kutsun sinut mukaan pohtimaan, tutkimaan ja kokeilemaan tekoälyn ja avoimen datan mahdollisuuksia omassa työssäsi – vastuullisesti ja vaikuttavasti.
Hyödyllisiä materiaaleja:
- Aineistonhallinta hankkeissa: Avoimen datan käyttö ja löytäminen (Libguides Metropolia)
- Tuoko tekoäly mitään uutta TKI-toimintaan tutkimusetiikan näkökulmasta? (Tikissä-blogi, pohjautuu Metropolian ohjeisiin tekoälyn käytöstä TKI-toiminnassa)
Tämän artikkelin teossa on hyödynnetty tekoälyä. Hyödyntämistavat: artikkelin rakenteen jäsennys, ideoiden sparrailu, otsikoiden ideointi. Käytetyt tekoälyt: Microsoft. (2025). Copilot, OpenAI. (2025). ChatGPT (GPT-4).
Lähteet
DAME – Etelä-Savon datatalouden kiihdyttämö -hankkeen verkkosivut. Haettu 24.3.2025.
ETKOT – Etelä-Savon koulutettu tekoäly Memory Labissa -hankkeen verkkosivut. Haettu 24.3.2025.
Helsingin kaupungin verkkosivut: Palautteiden hyödyntäminen ja tilastot. Haettu 24.3.2025.
Järvenpää, A. 2024. Opinnäytetyö: Tekoäly ja avoin data avasivat yritysten kiertotalouspotentiaalia. Uutiset 13.6.2024. HAMK – Hämeen ammattikorkeakoulun verkkosivut. Haettu 24.3.2025.
Kansalliskirjaston verkkosivut: Projektit: ETKOT – Etelä-Savon koulutettu tekoäly Memory Labissa. Haettu 24.3.2025.
Laaksonen, S. 2021. Sosiaalinen media tutkimusaineistona. Laadullisen tutkimuksen verkkokäsikirja. Tietoarkisto. Haettu 24.3.2025.
Laaksonen, S. 2024. Generatiivinen tekoäly ja tutkimusaineistojen analyysin etiikka. Etiikka.fi 12.4.2024. Haettu 24.3.2025.
Nurmi, J. 2024. AI-Driven Process for Analyzing Business Actors and their Capabilities in CE Ecosystem. Opinnäytetyö, ylempi AMK. Hämeen ammattikorkeakoulu. Transformative Leadership and Smart Services.
Näreaho, S., Koiranen, J., Hämäläinen, M., Rannikko, R., Salonen, A., Saarnia, S., Kuosmanen, L. & Leiviskä, K. 2024. Tekoälyn eettinen käyttö TKI-toiminnassa – Metropolian linjaukset (Hyväksytty 7.5.2024). Helsinki: Metropolia Ammattikorkeakoulu.
Salo, S. 2022. Tekoäly + avoin data: Helsingin kaupungin asukkaiden palautteiden analyysi. Dia-esitys. Haettu 24.3.2025.
Voipio, K. 2022. Kaupungit tekoälyä hyödyntämässä. Ajankohtaista 29.11.2022. Helsinki: Helsinki Regional Infoshare. Haettu 24.3.2025.
Kirjoittaja
-
Joona Koiranen
Specialist, Projektin toteutus ja ohjauspalvelut (en_EN)Joona Koiranen, Asiantuntija (FM, väitöskirjatutkija), Metropolia Ammattikorkeakoulu.
Tutustu tekijään