17. lokakuuta 2017

Sosiaalisen median ja internetin aineistot - mitä voin arkistoida Tietoarkistoon?

Tietoarkistolta kysytään säännöllisin väliajoin voiko sosiaalisen median aineistoja ja erilaisia verkkoaineistoja arkistoida jatkokäyttöä varten. Sosiaalisen median ja verkon aineistot ovat varsin monimuotoisia, kuten niitä hyödyntävä tutkimuskin. Usein tutkijan onkin tarpeen eritellä, millaista aineistoa on keräämässä ja millaisilta alustoilta. Arkistointimahdollisuus riippuu nimittäin pitkälti siitä, tutkiiko verkkokeskusteluja, organisaatioiden nettisivuja vai esimerkiksi nettiblogeja. Lisäksi kysymykseen vaikuttavat muun muassa tekijänoikeuteen ja tietosuojaan liittyvät seikat. Asia ei siis ole yksinkertainen, mutta ei onneksi mahdotonkaan.

Aineistoista haasteellisimman kokonaisuuden muodostavat sosiaalisen median aineistot. Somedataa on yleensä mahdollista kerätä eri sosiaalisen median alustoilta ja käyttää tutkimustarkoituksiin. Ongelmaksi kuitenkin nousee aineistojen arkistointi ja jatkokäyttö, jota sosiaalisen median alustojen liiketoimintamalli ei pääsääntöisesti salli. Esimerkiksi Facebook, LinkedIn ja Google omistavat oikeuden ostaa ja myydä käyttäjiensä tuottamaa sisältöä, ja pidättävät siten sen omistusoikeuden. Käytännössä alustat haluavat siis ensisijaisesti hyödyntää käyttäjädataa itse, eivätkä antaa sitä kolmansille osapuolille jatkohyödynnettäväksi. Muun muassa tästä syystä sosiaalisen median aineistojen arkistointi jatkokäyttöä varten esimerkiksi Tietoarkistoon ei ole mahdollista.

Myös muualta verkosta kerätyissä aineistoissa on arkistoinnin näkökulmasta muutamia rajoitteita. Yksityisten henkilöiden välinen viestintä, joka tapahtuu keskustelupalstoilla, blogeissa tai muissa vastaavissa ei ole arkistoitavissa. Näin on etenkin sellaisissa tapauksissa, kun palstalle tai blogiin pääsy vaatii kirjautumisen. Arkistointi on yleensä mahdotonta myös silloin, kun verkkosivuilla on sisältöä, johon sivun ylläpitäjällä ei ole oikeuksia. Käytännössä tämä tarkoittaa esimerkiksi sivustoja, joiden sisältö on otettu jostain muualta tai sisällön ovat tuottaneet jotkut muut kuin sivuston ylläpitäjä. Asiaa monimutkaistaa vielä se, että kaikkien verkkosivujen kohdalla ei aina ole selvää, kenellä on tekijänoikeus sisältöön. Epäselvissä tapauksissa asiasta kannattaa aina kysyä sivuston ylläpitäjältä.

Vaikka rajoitteet saattavat aluksi tuntua lannistavilta, verkossa on runsaasti aineistoja, joita voi arkistoida jatkokäyttöön. Tietoarkiston ja Kopioston välinen sopimus mahdollistaa erilaisten verkkosisältöjen keräämisen ja arkistoimisen sivustoilta, jotka eivät edellytä kirjautumista tai lisenssin hankkimista. Jos kuva- tai tekstiaineisto on kerätty kaikille avoimilta nettisivuilta, esimerkiksi julkisten organisaatioiden sivuilta, sen voi arkistoida Tietoarkistoon. Tämä pätee myös yleisiin blogiteksteihin kuten lehtien ylläpitämiin tai muutoin toimitettuihin blogeihin. Kannattaa kuitenkin muistaa, että arkistoida saa vain varsinaisia blogitekstejä, ei mahdollista kommenttiosiota, jossa yksityishenkilöt viestivät keskenään.

Tietoarkistoon on mahdollista arkistoida myös sellaista verkkosivuilta kerättyä tekstiä, joka on lisensoitu CC-lisenssillä eli Creative Commons -lisenssillä. Tällä lisenssillä teoksen tekijä voi jakaa tekijänoikeuslain suomia yksinoikeuksia muille. Yleisin lisenssi on CC BY, jonka mukaisesti lisensoitua teosta ja sen pohjalta tehtyjä muokattuja versioita saa kopioida, levittää, näyttää ja esittää julkisesti. Lisäksi lisensoidun tekstiaineiston arkistointi edellyttää luvan pyytämistä tekijältä.

Verkko- ja someaineistoja keräävä tutkija voikin siis noudattaa peukalosääntönä seuraavaa:

Tietoarkistoon on mahdollista arkistoida

  • Vapaasti kaikkien saatavilla olevien verkkosivujen kuva- ja tekstiaineistoja
  • Yleisiä blogitekstejä kuten lehtien ylläpitämiä ja toimitettuja blogeja
  • CC-lisensoituja kuva- ja tekstiaineistoja verkkosivuilla, jos arkistointiin saa luvan tekijältä

Tietoarkistoon ei ole mahdollista arkistoida

  • Sosiaalisen median dataa
  • Yksityisten henkilöiden välistä viestintää keskustelupalstoilla, blogeissa tai muissa vastaavissa
  • Verkkosivustoilta kopioitua sisältöä silloin, kun osa sivusta on muualta otettua tai muiden tekemää sisältöä, joiden oikeuksien haltija ei ole verkkosivun ylläpitäjä

Lisäksi kannattaa muistaa, että AllerMedian ja Kielipankin sopimuksen mukaisesti Suomi24-aineistojen käyttö on mahdollista Kielipankin kautta. Kielipankin kautta on käytettävissä myös Helsingin Sanomien kotimaan uutisia ja niiden kommentteja sisältävä aineisto.

Mikäli et ohjeistuksesta huolimatta ole varma, soveltuuko aineistosi arkistoitavaksi, ota suoraan yhteyttä Tietoarkiston asiakaspalveluun ja kysy neuvoa!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Kielipankki
» Tietoarkistolehti (45, 2/2016): Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi