Maalauksellinen kuva kulttuuriperinnöllisesti arvokkaasta rakennuksesta.

Avoimen kulttuuriperintötiedon hyödyntäminen

Avoimen kulttuuriperintötiedon pilotissa kokeiltiin, miten Etelä-Savon avoimia digitaalisia kulttuuriperintöaineistoja voidaan tuoda helpommin käyttäjien ulottuville tekoälyä hyödyntävään sovellukseen / virtuaaliseen näyteikkunaan. Pilottiin osallistuivat yhteistyössä Disec Oy, Elinkeinoelämän Keskusarkisto ELKA, Kansalliskirjasto ja Kansallisarkisto.

Avoimen kulttuuriperintötiedon hyödyntämisen pilotti on toteutettiin 2024-2025 yhteistyössä kahden hankkeen kesken

  • Etelä-Savon datatalouden kiihdyttämö: Jaettu data yhteisenä menestystekijänä (DAME) -hankkeessa toteutettiin API-rajapintahakuratkaisu sähköä koskevalle aineistolle. Hanke on Euroopan unionin osarahoittama. Tuen on myöntänyt Etelä-Savon ELY-keskus. Lisää DAME-hankkeesta hankesivulla.
  • ETKOT – Etelä-Savon koulutettu tekoäly Memory Labissa -hankkeessa toteutettiin RAG-tekniikkaa hyödyntävä keskustelubottitoteutus ja AIkamatka Etelä-Savoon -sovellus. Hanke on Euroopan unionin osarahoittama. Tuen on myöntänyt Etelä-Savon maakuntaliitto. Lisää ETKOT-hankkeesta hankesivulla.

Pilotin tavoite

Pilotin tavoitteena oli:

  • Noutaa Finna‑tietokannasta kulttuuriperintöaineistoja (painotus sähköön liittyvissä sisällöissä Etelä‑Savosta).
  • Tehdä aineistoista helpommin löydettäviä ja käytettäviä uudenlaisen käyttöliittymän kautta, joka hyödyntää aineistoja keskustelubotin avulla.
  • Kokeilla tekoälyä ja ns. RAG-tekniikkaa (retrieval-augmented generation), jossa botti ensin hakee tietoa valituista lähteistä ja muodostaa vastauksen niiden pohjalta.

Pilotin toteutus

DAME-hanke:

  • Haettiin Finnasta Etelä-Savon sähköistymiseen liittyviä kulttuuriperintöaineistoja.
  • Rakennettiin API middleware orkestroimaan pyyntöjä käyttöliittymän ja useiden taustajärjestelmien välillä.

ETKOT-hanke:

  • toteutettiin ETKOT-botti
    • RAG-tekniikkaa hyödyntävä bottitoteutus.
    • RAG‑pinon osat: Open WebUI (6.25), Qdrant‑vektoritietokanta sekä BAAI/bge‑m3 (upotukset), BAAI/bge‑reranker‑v2‑m3 (rerankkaus) ja google/gemma3-27b-it (pohjamalli).
    • Botti vastaa kysymyksiin vain aineistokohtaisesti. Tämän tarkoituksena on vähentää kielimalleissa varsin yleistä hallusinointia. Pohjamallin tehtävänä on muodostaa vastaus ohjeistuksien ja käytössä olevan aineiston pohjalta.
  • määriteltiin ja toteutettiin AIkamatka Etelä-Savoon -sovellus.

Botti voi vastata myös tarkempiin kysymyksiin, esimerkiksi: ”Kerro Kissankosken vesivoimalaitoksesta.”

Tarkempi perehtyminen taustajärjestelmien toimintaa, LLM-mallien orkestraatioon ja vektoritietokantaan on mahdollista koodin dokumentaatiossa.

Aineistot

  • Kansalliskirjaston sanomalehdet (Etelä-Savo, 1917-1923).
  • Elinkeinoelämän keskusarkiston arkistohistoriat.
  • Suur-Savon Sähkön vuosikertomukset.
  • FINNA-aineistot.

Keskeiset havainnot ja opit

  • LLM‑teknologian nopea kehitys mahdollisti tavoitellun toiminnallisuuden pilotin aikana.
  • RAG soveltuu hyvin suojattuihin ympäristöihin ja rajattuihin tietokokonaisuuksiin, kun lähteet on kuratoitu ja vastaukset sidotaan aineistoihin.

Jatkohyödyntäminen

  • Aineistokokonaisuuksien laajentaminen uusilla teemoilla ja arkistoilla.
  • Botti‑ ja käyttöliittymäkokemuksen kehittäminen (esim. lähdeviitteiden esitystapa, alkuperäislähteiden suora hyödyntäminen).

Linkit

Löydät pilotin avoimen koodin Memory Labin GitLabista.

Tutustu Finna-palveluun

Lisätietoja Finnan avoimesta rajapinnasta

Kansalliskirjaston digitaaliset aineistot

Kansalliskirjaston digitaalisten aineistojen lataustyökalu


Teoksen artikkelikuvan laatimisessa on hyödynnetty Canvan Magic Studio -tekoälytyökalua.