O repozitoriju CLARIN.SI in njegovih pravilnikih



O repozitoriju in njegovih pravilnikih

Raziskovalna infrastruktura CLARIN.SI je slovenski nacionalni center v okviru evropske raziskovalne infrastrukture za jezikovne vire in tehnologije CLARIN ERIC in med drugim zagotavlja repozitorij CLARIN.SI, v katerem so hranjeni jezikovni viri in orodja.

Digitalno platformo repozitorija CLARIN.SI gosti Institut »Jožef Stefan« (IJS), ki je največja raziskovalna ustanova v Sloveniji. IJS pri razvoju platforme in povezanih storitev sodeluje z drugimi ustanovami, ki so del infrastrukture CLARIN ERIC in konzorcija CLARIN.SI.

Repozitorij izpolnjuje standardna načela visokokakovostnih digitalnih repozitorijev, kot so uporaba trajnih identifikatorjev, enotnega sistema avtentikacije in avtorizacije ter strukturirane, standardizirane in dostopne formate metapodatkov.

Pravilniki, predstavljeni v nadaljevanju, določajo načine in postopke, ki urejajo hrambo podatkov in metapodatkov ter zagotavljajo njihovo celovitost. Ti načini in postopki se povezujejo z obstoječimi pravilniki IT in omrežne varnosti, ki veljajo za IJS ter za Akademsko in raziskovalno mrežo Slovenije ARNES. Hkrati se povezujejo tudi s Slovenskim nacionalnim superračunalniškim omrežjem SLING in upoštevajo smernice najboljših praks ter standarde, ki jih določata CLARIN in Core Trust Seal.

Pravilniki repozitorija CLARIN.SI so bili zasnovani, da bi:

  • zagotavljali uporabnost in dostopnost hranjenih podatkov, kar vključuje upoštevanje načel FAIR;
  • zagotavljali zanesljiv postopek pridobitve metapodatkov in podatkov ter njihovo objavo in hrambo;
  • zagotavljali celovitost in točnost metapodatkov za vse podatke ter hkrati omogočali, da je prek metapodatkov mogoče najti katerokoli od hranjenih podatkov;
  • zagotavljali dosledno uporabo licenc za podatke in omejevali uporabo podatkov v skladu s temi licencami;
  • zagotavljali kakovost in celovitost podatkov v repozitoriju prek zagotavljanja fizične in digitalne varnosti.

Izjava o poslanstvu


Namen infrastrukture CLARIN ERIC je spodbujati raziskave na področju humanistike in družboslovja, tako da je vsem raziskovalcem z enovito prijavo omogočen dostop do platforme, ki na evropski ravni združuje jezikovne vire in napredna orodja. To se uresničuje z razvojem in delovanjem skupne distribuirane infrastrukture, ki omogoča dostop do jezikovnih virov, tehnologij in strokovnega znanja humanističnim in družboslovnim raziskovalnim skupnostim.

Skupnost uporabnikov storitev CLARIN.SI zajema slovensko in mednarodno raziskovalno skupnost, še posebej raziskovalce, ki delujejo v okviru digitalne humanistike ter korpusnega in računalniškega jezikoslovja oziroma na drugih področjih, kjer proizvajajo ali uporabljajo jezikovne podatke ali orodja za obdelavo naravnih jezikov. Repozitorij je uporaben tudi za podjetja, ki razvijajo aplikacije, vezane na jezikovne tehnologije, saj vsebuje tudi vire, ki omogočajo komercialno uporabo (npr. CC-BY).

Čeprav repozitorij CLARIN.SI vključuje podatke za številne jezike, večinoma pokriva vire in tehnologije za slovenščino, hrvaščino in srbščino, zato so primarni uporabniki repozitorija CLARIN.SI raziskovalci in podjetja, ki se ukvarjajo s temi jeziki.


Etična načela hrambe podatkov v repozitoriju

Skrbniki repozitorija CLARIN.SI skušajo v okviru zmogljivosti zagotavljati, da se pri ustvarjanju, zbiranju, dostopanju do podatkov in njihovi uporabi upoštevajo ustrezna znanstvena in etična načela. Da bi uresničili poslanstvo infrastrukture CLARIN.SI, smo v Pogojih storitev določili nekaj osnovnih pravil.

Podatki v repozitoriju CLARIN.SI so dostopni v skladu z licenco, ki jim je bila dodeljena. Uporabniki morajo v vsakem objavljenem delu vir podatkov citirati z uporabo trajnega identifikatorja (glejte Citiranje podatkov) ter navedbo avtorjev in, kjer je to možno, izdajatelja. Spletni roboti vseh podatkov vnosov ne smejo zbirati, razen začasno za namene indeksiranja celotnega besedila ali analize citiranja. Komercialna prodaja podatkov vnosov brez uradnega dovoljenja imetnika avtorskih pravic je prepovedana, razen če jo dovoljuje licenca vnosa.

Avtor vnosa se med postopkom vnosa zaveže, da ima pravico deliti podatke in da sme repozitoriju podeliti pravico do distribucije teh podatkov v avtorjevem imenu. S to zavezo se razrešijo morebitne pravne zagate glede pravice do intelektualne lastnine.


Pravilnik o zasebnosti

Preberite naš Pravilnik o zasebnosti, da se seznanite z upravljanjem osebnih podatkov v repozitoriju in storitvah CLARIN.SI.


Pravilnik o citiranju

Preberite naš Pravilnik o citiranju, da se seznanite, kako pravilno citirati uporabljene podatke iz repozitorija CLARIN.SI.

Vnosi v repozitoriju se pogosto sklicujeje na objave, dostopne na spletu, ki podrobno opisujejo podatke vnosa. Za spletne naslove teh objav priporočamo uporabo stalnih identifikatorjev (npr. DOI), kadarkoli so ti dostopni.


Sporazum o vnosu in pogodbe

CLARIN.SI razlikuje med tremi vrstami pogodb:

  • Za vsak vnos sklenemo standardno pogodbo z avtorjem vnosa, t. i. Sporazum o vnosu v repozitorij, v kateri so navedene naše pravice in dolžnosti in s katero avtor vnosa izjavlja, da ima pravico deliti podatke, ter repozitoriju daje pravico do distribucije podatkov v avtorjevem imenu.
  • Vsak, ki prenese podatke, se zaveže k spoštovanju licence, ki je bila dodeljena vnosu. Če želite prenesti zaščitene podatke, se morate avtenticirati in elektronsko podpisati licenco. Seznam licenc, ki so v našem repozitoriju, lahko najdete tukaj.
  • Avtorji vnosa lahko svojemu viru dodelijo poljubno licenco med postopkom vnašanja podatkov.

Pravice intelektualne lastnine nad izvornimi podatki

Kot že omenjeno v poglavju Sporazum o vnosu in pogodbe, od avtorja vnosa zahtevamo, da podpiše Sporazum o distribuciji virov, ki določa, da ima avtor vnosa pravico deliti podatke in repozitoriju daje pravico do distribucije podatkov v avtorjevem imenu. To pomeni, da so za pravice intelektualne lastnine odgovorni izključno avtorji vnosa, zato jih morajo urediti pred objavo podatkov ali orodij v repozitoriju.

Vnose pregledajo skrbniki repozitorija (uredniki). Pri jezikovnih podatkih, še posebej pri jezikovnih korpusih so pomembni trije pravni vidiki. Prvi zajema avtorske pravice na izvirniku, ki ga po slovenski zakonodaji ureja Zakon o avtorskih in sorodnih pravicah (ZASP). Drugi vidik zadeva zaščito osebnih podatkov, kar urejata Zakon o varstvu osebnih podatkov (ZVOP-1) in uredba GDPR. Tretji vidik zajema pogoje uporabe lastnika platforme in velja za korpuse, ki vsebujejo podatke, prevzete z družbenih omrežij. Prva dva vidika je treba presojati tudi v razmerju do javnega dobrega, ki sledi iz deljenja podatkov. Če so uredniki v dvomih glede skladnosti podatkov z veljavnimi zakoni in predpisi, lahko od avtorja vnosa zahtevajo dodatne informacije ali zavrnejo objavo podatkov. Če za vnos veljajo posebni pogoji, jih je mogoče vključiti v licenco za distribucijo, ki se jo oblikuje po meri vnosa. Če se avtorji vnosa s tem strinjajo, se lahko podatki z različnimi orodji tudi prilagodijo, da ne kršijo določil zakonov, npr. za objavo se lahko pripravijo zgolj vzorci celotnih besedil ali pa se povedi besedil premeša tako, da je mogoče zadostiti predpisom glede avtorskih pravic, vendar hkrati ohraniti vsebino; z orodji za prepoznavanje imenskih entitet je mogoče besedila tudi anonimizirati, in sicer z zakritjem osebnih podatkov, s čimer se prikrije identiteta oseb oziroma zagotovi pravica do pozabe, kar je še posebej pomembno za korpuse, ki vsebujejo starejša časopisna besedila.

V repozitoriju trenutno ni vnosov z zaupnimi podatki ali podatki, ki bi ob razkritju predstavljala tveganje, niti ne pričakujemo, da bi se to v prihodnosti spremenilo. Za večino podatkov v repozitoriju velja odprt dostop oziroma podobne javne licence, in sicer predvsem različice licenc Creative Commons. Znatno manj vnosov je na voljo pod pogoji prilagojenih licenc, ki pa so še vedno samo delno omejujoče (npr. dostop samo za uporabnike z akademskih institucij in prepoved redistribucije). Poslanstvo repozitorija je zagotavljati široko dostopne podatke, zato repozitorij ne sprejema vnosov z zaupnimi podatki ali podatki, ki bi ob razkritju predstavljala tveganje. Obenem je treba omeniti, da Odbor za pravna in etična vprašanja pri CLARIN ERIC, katerega član je tudi CLARIN.SI, organizira izobraževanja na temo zakonitega in etičnega upravljanja in distribucije besedilnih podatkov.


Pravilnik o metapodatkih

Vnos mora biti opremljen z zadostnimi metapodatki, ki opisujejo vsebino, izvor in format vnosa, da se omogočita njegova hramba in distribucija. Metapodatki so prosto dostopni in v javni lasti (pod licenco CC0). Pridržujemo si pravico do obveščenosti o komercialni rabi metapodatkov iz repozitorija CLARIN.SI. Izbrane metapodatke in namen uporabe sporočite na Pomoč uporabnikom.


Pravilnik o hranjenju podatkov

CLARIN.SI se zavezuje k dolgoročni skrbi za podatke, ki so vneseni v repozitorij, in si prizadeva za uveljavljanje dobrih praks digitalnega arhiviranja.


Celovitost in pristnost podatkov v repozitoriju

Uporabniki lahko nove podatke vnesejo prek spletnega obrazca za oddajo vnosa ali prek neposrednega stika z urednikom, pri čemer urednik nato izvede vnos. Vnos vira oziroma orodja je omogočen zgolj registriranim uporabnikom, registracija pa je pogojena z akademskim računom pri eni od ustanov, ki so povezane v našo federacijo ponudnikov identitete. To pomeni, da je akademska ustanova odgovorna za preverjanje identitete uporabnika. Od trenutka, ko je vnos ustvarjen, se hranijo informacije o njegovem izvoru. Ko je vnos odobren, lahko njegove (meta)podatke spreminjajo zgolj skrbniki. Avtorji podatkov lahko več informacij najdejo na strani Življenjski ciklus vnosa ali pa se obrnejo na Pomoč uporabnikom.

Uredniki vnos pregledajo z orodji, ki dodatno preverijo metapodatke (npr. pregled URL-jev v metapodatkih), in nastavijo ustrezno raven podpore za vnesene formate podatkov. Vnose tako pregleda usposobljeno osebje, ki se prepriča, da je vnos opremljen z ustreznimi metapodatki, da formati podatkov ustrezajo dobrim praksam in izpolnjujejo zahteve glede dostopnosti, dolgoročne hrambe, celovitosti in kakovosti podatkov ter skladnosti z zakonodajo.

Z rednim preverjanjem celovitosti podatkov v vseh fazah življenjskega cikla vnosa lahko zagotovimo, da digitalni vnos ni bil spremenjen ali poškodovan. Preverjanje vključuje kontrolo kod md5, celovitosti metapodatkov in delovanja URL-jev. Rezultate teh avtomatskih tedenskih preverjanj prejmejo upravljavci repozitorija.

Vnesenih podatkov ni mogoče spreminjati. Če želite objaviti spremenjene podatke, morate ustvariti nov vnos v repozitoriju. Na ta način lahko zagotavljamo ponovljivost rezultatov, pridobljenih na osnovi določenih podatkov, kot tudi nedvoumno navezovanje trajnih identifikatorjev na vnos. Obstoj starejše oziroma novejše različice je zabeležen v metapodatkih in vizualno prikazan na spletni strani vnosa. Izjemoma je predvsem v primeru manjših popravkov mogoče spreminjati metapodatke. Repozitorij beleži revizijsko sled za vse posege v podatke, vključno s spremembami metapodatkov, ki se tudi zapiše v metapodatke vnosa.


Pristojnosti osebja repozitorija

Dostop do skrbniških funkcij repozitorija je omogočen izključno pooblaščenemu osebju. Vsi posamezniki, vključeni v vzdrževanje repozitorija in njegovo vsakodnevno delovanje, imajo jasno določene vloge ter poznajo veljavne pravilnike in svoje obveznosti glede uveljavljanja tega Pravilnika o hranjenju podatkov v skladu s svojo vlogo in pristojnostmi.

Uredniki vnosov v repozitorij so člani osebja, ki natančno poznajo določila Pravilnika o hranjenju podatkov in zahteve glede postopka vnosa ter metapodatkov. Seznanjeni so z zahtevami glede skladnosti formata podatkov, vključno s pravili glede dostopnosti, pa tudi z zahtevami, vezanimi na dolgotrajno hrambo, zakonodajo in postopek licenciranja. Uredniki prav tako upoštevajo dobre prakse in zahteve glede celovitosti in kakovosti podatkov.


Neprekinjenost delovanja in obnovitev po katastrofi

Infrastruktura repozitorija CLARIN.SI gostuje v dveh fizično ločenih računalniških centrih na IJS. IJS zagotavlja omrežno varnost, protokole za nadzor in zaščito (požarni zidovi, prijava, varnostno svetovanje in ocenjevanje). Podatki, za katere veljajo varnostni in ohranitveni ukrepi, vključujejo: (1) vnesene podatke (datoteke ali bajtne tokove), (2) metapodatke repozitorija in podatkov, (3) programsko kodo repozitorija in njegove konfiguracije, (4) instance operacijskega sistema z njihovimi nastavitvami in dnevniki za repozitorij in povezane storitve ter (5) izvožene varnostne kopije konfiguracije in baz podatkov za povezane instance storitev.

Vsaka od navedenih komponent ima svoj pravilnik za varnost podatkov in za varnostne kopije. Pred kakršnimikoli spremembami ali nadgradnjo konfiguracije se vedno najprej preveri posnetke sistema, poleg tega pa se izvaja redno repliciranje posnetkov sistema na drugi lokaciji. Datoteke, ki predstavljajo podatkovne tokove, so varnostno kopirane kot samostojne datoteke. Za vse baze podatkov se izvaja redni dnevni izvoz v varnostno kopijo, ki je ločen od varnostnih kopij in repliciranja posnetka operacijskega sistema. Enak pristop za usklajenost baze podatkov velja tudi za podatke, ki se uporabljajo v instancah storitev. Edina izjema so specializirane baze podatkov, ki so avtomatsko ustvarjene iz razpoložljivih podatkov. V tem primeru varnostne kopije vključuje izvirne podatke in pretvorbene skripte.

Upravljavci redno posodabljajo repozitorij z upoštevanjem obstoječih in široko sprejetih smernic ter dobrih praks, kar omogoča usklajeno delovanje repozitorija v skladu s sodobnimi standardi. Trenutno se to izvaja znotraj zaščitenega visokodostopnega okolja infrastrukture IT na IJS in prek široko uporabljane platforme CLARIN-DSpace. Ta platforma temelji na dobro podprti odprtokodni platformi DSpace, vendar je prilagojena za hrambo in distribucijo jezikovnih virov. Platforma je na voljo prek platforme GitHub: https://github.com/ufal/clarin-dspace, veja, ki jo uporabljamo za CLARIN.SI pa na https://github.com/clarinsi/clarin-dspace.

Platforma DSpace temelji na referenčnem modelu Odprtega informacijskega sistema za arhiviranje (OAIS), pri izvedbi pa so upoštevani standardi, ki jih je skupnost CLARIN prepoznala kot pomembne. Če bo v prihodnosti prišlo do sprememb, bo repozitorij CLARIN.SI moral izpolnjevati podobne zahteve.

Izvedba repozitorija CLARIN.SI je prilagojena in lokalizirana različica repozitorija CLARIN/LINDAT. Repozitorij CLARIN.SI sledi posodobitvam izvirne različice in je postavljen v virtualiziranih instancah operacijskega sistema na gruči, ki je sestavljena iz več aplikacijskih strežnikov in je konfigurirana tako, da zagotavlja okolje, ki je odporno na napake in podpira večje število instanc aplikacije. To vključuje beta-strežnik, ki se uporablja za preizkus nadgradenj, kot tudi sistem za hrambo podatkov s strojnim kontrolnikom RAID in konfiguracijo RAID-6 za preprečevanje izgub in za posnetke stanja različic, njihovo podvajanje in varnostno kopiranje. Poleg tega sistem podpira porazdeljen datotečni sistem, ki se izvaja na lokalnih diskih aplikacijskih strežnikov in znotraj gruče zagotavlja visokorazpoložljivost nosilcev podatkov, varnostnih kopij na ravni datotek in posnetkov aplikacij.

Vneseni podatki so varno shranjeni na več lokacijah, tj. kot bajtni tokovi repozitorija DSpace na nosilcu podatkov, ki je povezan v omrežje in ga upravlja eden od aplikacijskih strežnikov ter je podvojen na drugem strežniku, medtem ko so sami podatki shranjeni v porazdeljeni visokorazpoložljivi datotečni shrambi.

Metapodatki in podatki repozitorija so shranjeni v obliki, primerni za takojšno uporabo (tj. kot virtualizirane instance PostgreSQL znotraj produkcijske virtualne naprave), in v obliki, primerni za varnostno kopiranje in uvoz (tj. besedilni izvoz baze podatkov).

Spremembe programske opreme repozitorija in njegove konfiguracije se beležijo v sistemu za nadzor različic Git, ki omogoča povrnitev prejšnjega stanja in hrambo več različic ter je neodvisen od programskega okolja.

Vsaka aktivna instanca virtualne naprave repozitorija CLARIN.SI in povezanih storitev je redno klonirana oziroma je zanjo narejen posnetek stanja in varnostna kopija, še posebej pred kakršnimikoli spremembami ali posodobitvami konfiguracije ali programske opreme. To zagotavlja čisto povrnitev na zadnje usklajeno stanje brez izgube podatkov. Poleg tega se za spremembe konfiguracije in programske nadgradnje izvede preverjanje na aktivnem beta-strežniku s sekundarnimi instancami, ki so na voljo v primeru odpovedi sistema.

Na voljo so tudi dodatni aplikacijski strežniki, ki so namenjeni kot podpora pri popolni spremembi lokacije, kar je predvideni ukrep v primeru napake infrastrukture aplikacijskega strežnika ali tehničnih težav v strežniški sobi. Varnostne kopije virtualne naprave, podatkov in izvozov zbirk podatkov so klonirane v sekundarni sistem za varnostno kopiranje na drugi lokaciji, kar omogoča popolno obnovitev v primeru napake v podatkovnem centru. Varnostno kopiranje se redno izvaja na lokaciji infrastrukture, in sicer tako na ravni posnetkov virtualnega sistema kot na ravni izvoženih podatkov (izvozi datotek in zbirk podatkov v obliki besedila), varnostne kopije pa so nato podvojene tudi na drugi lokaciji. Za datoteke in posnetke virtualne naprave se uporablja drugačen način varnostnega kopiranja, da se preprečijo kritične točke odpovedi pri postopkih varnostnega kopiranja in obnovitve. Upoštevamo standardna priporočila za varnostno kopiranje, vključno s kodami za zagotavljanje celovitosti datotek in orodji za samodejni nadzor, kar omogoča funkcionalnosti na različnih ravneh, med drugim tudi popolno obnovitev storitve v drugem okolju in prenos vseh podatkov na drugo instanco platforme CLARIN-DSpace.


Načrt za ohranjanje podatkov repozitorija

CLARIN.SI ima pravico kopirati, prenašati in hraniti podatke ter zagotavljati dostop do podatkov. Ohranjanje podatkov vključuje prevzem vnesenih podatkov in njihovo hranjenje ter zagotavljanje, da so podatki arhivirani, dostopni in razpoložljivi za raziskovalno skupnost kot določa poslanstvo infrastrukture CLARIN.SI.

DSpace, posledično pa tudi programska oprema repozitorija CLARIN-DSpace, omogoča dve ravni ohranjanja digitalnih podatkov. Prva raven je ohranjanje bitov, kar zagotavlja celovitost podatkov in metapodatkov skozi čas ne glede na morebitne spremembe fizične shrambe. Druga raven zadeva ohranjanje funkcionalnosti. Datoteka se skozi čas lahko spreminja, zato da jo je vedno mogoče uporabljati tudi z novo programsko opremo, tj. njena digitalna oblika in nosilec se sočasno razvijata. Pretvorba med formati je glavna in najbolj neposredna strategija ohranjanja funkcionalnosti.

Strategija ohranjanja podatkov je vključena v vse funkcionalne koncepte referenčnega modela OAIS, namenjenega digitalnim okoljem za ohranjanje podatkov. Med fazo vnosa podatkov avtorji vnosa prek uporabniškega vmesnika sledijo logičnim korakom. Med drugim ti koraki vključujejo nalaganje podatkov, pri čemer morajo avtorji vnosa uporabljati formate in standarde, ki jih priporoča CLARIN in CLARIN.SI, seznanitev s pravnimi vidiki, vključno s podpisom soglasja za distribucijo podatkov, in vodeno izbiro ustreznega modela licenciranja.

V fazi pregleda uredniki preverijo vse informacije, vključno z izbiro digitalnega formata datotek. CLARIN.SI izvaja redne preglede metapodatkov in podatkov (npr. njihovo popolnost, kodiranje) in lahko od avtorjev vnosov zahteva dodatne informacije. Manjše spremembe metapodatkov (popravljanje zatipkov, poenotenje ključnih besed, dodajanje (DOI) referenc novim objavam) je mogoče izvesti tudi po objavi vnosa. Vse take spremembe se beležijo v metapodatkih vnosa. V repozitoriju nikoli ne izbrišemo metapodatkov, saj so ti ključni za dolgoročnost. Skrbniške naloge med drugim vključujejo spremljanje samodejnih sporočil platforme, ki omogočajo lažje prepoznavanje morebitnih težav pri dolgoročnem ohranjanju podatkov. Za repozitorij tudi velja, da so metapodatki javni.

Jezikovni podatki so kompleksni, saj so lahko multimodalni (besedilo, govor, video) in visokostrukturirani (npr. geselski članki v temeljnih slovarjih) ali bogato označeni (npr. skladenjsko, pomensko). Pri repozitoriju CLARIN.SI zahtevamo določeno strukturo podatkov in uporabo izbranih formatov. Smernice določajo, da imajo odprti standardi prednost pred lastniškimi, formati, da morajo označevalne sheme biti natančno dokumentirane, preverljive in izkazane, formati, ki temeljijo na besedilu, imajo prednost pred binarnimi formati in, da je v primeru digitalizacije analognega signala se priporoča brezizgubno stiskanje oziroma odpoved stiskanju podatkov.

Vsi metapodatki in podatki imajo trajni identifikator (PID). Metapodatke je mogoče zajeti v berljive in razumljive datoteke XML.

Osebje repozitorija CLARIN.SI mora zagotavljati, da se naloge, povezane s skrbništvom, vzdrževanjem in upravljanjem, izvajajo skladno z uveljavljenimi dobrimi praksami in smernicami IJS, centra CLARIN.SI, infrastrukture CLARIN EU in drugih slovenskih skupin, kot je vozlišče RDA Slovenija. Zato morajo biti tehnični ukrepi in smernice vedno posodobljeni glede na najnovejša priporočila, osebje pa se spodbuja k sodelovanju v različnih odborih CLARIN ERIC, vključno s stalnim odborom tehničnih centrov, odborom za pravna in etična vprašanja, odborom za standarde in odborom za interakcijo z uporabniki. Poleg tega mora biti programska oprema repozitorija CLARIN.SI posodobljena na najnovejšo različico. Osebje repozitorija CLARIN.SI je prek e-pošte, storitve Slack in GitHub v rednem stiku s CLARIN/LINDAT in razvijalci platforme CLARIN-DSpace. CLARIN.SI tako zagotavlja posodobljeno in varno izvedbo lokalne različice v skladu z najboljšimi praksami. CLARIN.SI razvijalcem platforme poroča o težavah in predlaga izboljšave, poleg tega pa sodeluje tudi pri razvoju platforme in standardov, ki se uporabljajo za kodiranje jezikovnih virov.

Od tehnične in uredniške ekipe repozitorija CLARIN.SI se v okviru njihove vloge pričakuje redna udeležba na konferencah in delavnicah, kjer se obravnavajo jezikovni viri, npr. Language Resources and Evaluation Conference, in spremljanje razvoja področja in najboljših področnih praks.


Neprekinjen dostop

CLARIN.SI, slovenski nacionalni center CLARIN, financira Javna agencija za raziskovalno dejavnost Republike Slovenije (ARRS) v okviru raziskovalnega programa ESFRI. Trenutna raven financiranja zadostuje za vzdrževanje repozitorija in drugih spletnih storitev CLARIN.SI ter za nadaljevanje prizadevanj za njihovo izboljšavo. Obenem prejeta sredstva omogočajo tudi vzdrževanje varnosti podatkov vsaj na trenutni ravni.

CLARIN.SI je sprejel ukrepe, ki zagotavljajo neprekinjen dostop do podatkov tudi v primeru nepričakovanega zmanjšanja finančnih sredstev. Platforma repozitorija CLARIN zahteva malo vzdrževanja, enako velja tudi za ostale spletne storitve, ki jih zagotavlja CLARIN.SI (npr. spletni konkordančniki). Skrbniki repozitorija pa so redno zaposleni v gostiteljskem institutu oziroma pri enem od konzorcijskih partnerjev CLARIN.SI. To pomeni, da bi tudi v primeru izpada prihodkov lahko vzdrževali delovanje storitev brez namenskih sredstev kar nekaj časa, zagotovo pa vsaj pet let. V tem času bi bilo v repozitorij najverjetneje mogoče vnašati tudi nove vire in orodja.

Repozitorij CLARIN.SI je odprtokodni program, enako platformo repozitorija pa uporablja tudi osem drugih centrov CLARIN, kar omogoča enostaven prenos podatkov iz enega repozitorija CLARIN-DSpace v drugega, pri čemer se ohranijo isti stalni identifikatorji vnosov in nabor funkcij. Če bi bilo torej v najslabšem primeru financiranje infrastrukture CLARIN.SI v celoti prekinjeno in drugih virov financiranja za vzdrževanje repozitorija vsaj v trenutni obliki ne bi bilo mogoče najti, bi lahko nek drug center CLARIN prevzel vsebino našega repozitorija in rekonfiguriral trajne identifikatorje za vnose iz repozitorija CLARIN.SI. Za takšen prenos smo sklenili pisni dogovor s češkim centrom LINDAT-CLARIAH-CZ.


Pogoji storitev

Da bi uresničili poslanstvo infrastrukture CLARIN.SI, smo v Pogojih storitev določili nekaj osnovnih pravil. Z uporabo ali dostopom do kakršnihkoli podatkov ali storitev, ki jih zagotavlja repozitorij, se zavezujete k spoštovanju pogojev, navedenih v zgoraj omenjenem dokumentu.

Podatki v repozitoriju CLARIN.SI so dostopni v skladu z licenco, ki jim je bila dodeljena. Uporabniki morajo v vsakem objavljenem delu vir podatkov citirati z uporabo trajnega identifikatorja (glejte Citiranje podatkov) ter navedbo avtorjev in, kjer obstaja, izdajatelja. Spletni roboti ne smejo zbirati vseh podatkov vnosov, razen začasno za namene indeksiranja celotnega besedila ali analize citiranja. Komercialna prodaja podatkov vnosov brez uradnega dovoljenja imetnika avtorskih pravic je prepovedana, razen če jo dovoljuje licenca vnosa.

Če ugotovimo, da registrirani uporabnik krši licenco ali pogoje storitev, lahko s pomočjo ponudnika identitete ugotovimo, za katero fizično osebo gre. Tej osebi preprečimo dostop do repozitorija. Raziskovalno skupnost, oz. vsaj tisti njen del, ki je povezan z našimi viri obveščanja (dopisni seznami, družbene platforme itd.) seznanimo s kršitvijo. Kot skrajnji ukrep, lahko uporabimo tudi pravna sredstva.