Novi pilotni spletni korpusi CLASSLA-web in tutorial o uporabi korpusov prek konkordančnikov CLARIN.SI
Z veseljem sporočamo, da so znotraj središča znanja CLASSLA na voljo pilotne verzije (v0.1) spletnih korpusov CLASSLA-web za hrvaščino (2,3 milijarde besed), srbščino (2,4 milijarde besed) in slovenščino (1,9 milijarde besed).
Poleg novih korpusov je objavljen tudi poljudni članek o uporabi korpusov CLASSLA-web prek konkordančnikov CLARIN.SI.
Več o novostih v središču CLASSLA si lahko preberete v nadaljevanju:
Novosti v središču znanja CLASSLA:
s središča znanja CLARIN za južnoslovanske jezike (CLASSLA) z veseljem sporočamo, da smo objavili pilotne verzije (v0.1) spletnih korpusov CLASSLA-web za hrvaščino (2,3 milijarde besed), srbščino (2,4 milijarde besed) in slovenščino (1,9 milijarde besed). Poleg tega, da so korpusi med največjimi zbirkami besedil za vsakega od teh jezikov, so njihove prednosti še nedavnost besedil (saj so bili zbrani leta 2022), avtomatsko dodani metapodatki o žanrih besedil in jezikoslovni podatki, dodani s cevovodom za jezikoslovno označevanje CLASSLA-Stanza (uporabljena verzija bo kmalu na voljo). Po korpusih lahko brskate preko konkordančnikov CLARIN.SI: Crystal NoSketchEngine, Bonito NoSketchEngine in KonText. Trenutno smo objavili pilotne verzije korpusov, da izvemo vaše mnenje o njih, proti koncu leta pa načrtujemo objavo uradnih verzij (v1.0), ne samo teh treh korpusov, ampak tudi spletnih korpusov za bosanščino, črnogorščino, makedonščino in bolgarščino.
Vse vas lepo vabimo, da malo pobrskate po korpusih in se nam oglasite na helpdesk.classla@clarin.si s kakršnimi koli predlogi za izboljšave — potrudili se bomo, da jih upoštevamo že pri prvi uradni različici. Poleg tega bomo zelo veseli informacij o tem, ali nameravate uporabiti korpuse v svojih raziskavah. Vabljeni tudi, da razširite to sporočilo po svojih kanalih.
Za vse, ki bi želeli izvedeti več o tem, kako se da uporabljati spletne korpuse za raziskovanje jezika, smo pripravili tudi poljudni članek o uporabi korpusov CLASSLA-web prek konkordančnikov CLARIN.SI. V članku korak za korakom predstavimo, kako lahko najdete kolokacije v različnih žanrih, pridobite statistiko o uporabi določenih besed in najdete primere rabe nestandardnih besed, ki jih ni v slovarjih. Za iskanje po korpusih in pridobivanje statistike ni potrebno nobeno tehnično znanje, tako da ste zelo vabljeni, da razširite informacijo o članku tudi med manj tehnične sodelavce in svoje študente s področja jezikoslovja, digitalne humanistike, pa tudi poučevanja jezika.
Se že veselimo, da slišimo vaše mnenje o korpusih CLASSLA-web!