
Avoimen kulttuuriperintötiedon pilotissa kokeiltiin, miten Etelä-Savon avoimia digitaalisia kulttuuriperintöaineistoja voidaan tuoda helpommin käyttäjien ulottuville tekoälyä hyödyntävään sovellukseen / virtuaaliseen näyteikkunaan. Pilottiin osallistuivat yhteistyössä Disec Oy, Elinkeinoelämän Keskusarkisto ELKA, Kansalliskirjasto ja Kansallisarkisto.
Avoimen kulttuuriperintötiedon hyödyntämisen pilotti on toteutettiin 2024-2025 yhteistyössä kahden hankkeen kesken
- Etelä-Savon datatalouden kiihdyttämö: Jaettu data yhteisenä menestystekijänä (DAME) -hankkeessa toteutettiin API-rajapintahakuratkaisu sähköä koskevalle aineistolle. Hanke on Euroopan unionin osarahoittama. Tuen on myöntänyt Etelä-Savon ELY-keskus. Lisää DAME-hankkeesta hankesivulla.
- ETKOT – Etelä-Savon koulutettu tekoäly Memory Labissa -hankkeessa toteutettiin RAG-tekniikkaa hyödyntävä keskustelubottitoteutus ja AIkamatka Etelä-Savoon -sovellus. Hanke on Euroopan unionin osarahoittama. Tuen on myöntänyt Etelä-Savon maakuntaliitto. Lisää ETKOT-hankkeesta hankesivulla.
Pilotin tavoite
Pilotin tavoitteena oli:
- Noutaa Finna‑tietokannasta kulttuuriperintöaineistoja (painotus sähköön liittyvissä sisällöissä Etelä‑Savosta).
- Tehdä aineistoista helpommin löydettäviä ja käytettäviä uudenlaisen käyttöliittymän kautta, joka hyödyntää aineistoja keskustelubotin avulla.
- Kokeilla tekoälyä ja ns. RAG-tekniikkaa (retrieval-augmented generation), jossa botti ensin hakee tietoa valituista lähteistä ja muodostaa vastauksen niiden pohjalta.
Pilotin toteutus
DAME-hanke:
- Haettiin Finnasta Etelä-Savon sähköistymiseen liittyviä kulttuuriperintöaineistoja.
- Rakennettiin API middleware orkestroimaan pyyntöjä käyttöliittymän ja useiden taustajärjestelmien välillä.
ETKOT-hanke:
- toteutettiin ETKOT-botti
- RAG-tekniikkaa hyödyntävä bottitoteutus.
- RAG‑pinon osat: Open WebUI (6.25), Qdrant‑vektoritietokanta sekä BAAI/bge‑m3 (upotukset), BAAI/bge‑reranker‑v2‑m3 (rerankkaus) ja google/gemma3-27b-it (pohjamalli).
- Botti vastaa kysymyksiin vain aineistokohtaisesti. Tämän tarkoituksena on vähentää kielimalleissa varsin yleistä hallusinointia. Pohjamallin tehtävänä on muodostaa vastaus ohjeistuksien ja käytössä olevan aineiston pohjalta.
- määriteltiin ja toteutettiin AIkamatka Etelä-Savoon -sovellus.
Botti voi vastata myös tarkempiin kysymyksiin, esimerkiksi: ”Kerro Kissankosken vesivoimalaitoksesta.”
Tarkempi perehtyminen taustajärjestelmien toimintaa, LLM-mallien orkestraatioon ja vektoritietokantaan on mahdollista koodin dokumentaatiossa.
Aineistot
- Kansalliskirjaston sanomalehdet (Etelä-Savo, 1917-1923).
- Elinkeinoelämän keskusarkiston arkistohistoriat.
- Suur-Savon Sähkön vuosikertomukset.
- FINNA-aineistot.
Keskeiset havainnot ja opit
- LLM‑teknologian nopea kehitys mahdollisti tavoitellun toiminnallisuuden pilotin aikana.
- RAG soveltuu hyvin suojattuihin ympäristöihin ja rajattuihin tietokokonaisuuksiin, kun lähteet on kuratoitu ja vastaukset sidotaan aineistoihin.
Jatkohyödyntäminen
- Aineistokokonaisuuksien laajentaminen uusilla teemoilla ja arkistoilla.
- Botti‑ ja käyttöliittymäkokemuksen kehittäminen (esim. lähdeviitteiden esitystapa, alkuperäislähteiden suora hyödyntäminen).
Linkit
Löydät pilotin avoimen koodin Memory Labin GitLabista.
Lisätietoja Finnan avoimesta rajapinnasta
Kansalliskirjaston digitaaliset aineistot
Kansalliskirjaston digitaalisten aineistojen lataustyökalu
Teoksen artikkelikuvan laatimisessa on hyödynnetty Canvan Magic Studio -tekoälytyökalua.
