Dataset pro sémantickou podobnost

Tento datový korpus vzniknul ve spolupráci Západočeské univerzity v Plzni, Univerzity Karlovy, České tiskové kanceláře a Českého vysokého učení technického v Praze na projektu financovaném Technologickou agenturou České republiky -- TL02000288 -- Program na podporu aplikovaného společenskovědního a humanitního výzkumu, experimentálního vývoje a inovací ÉTA.

Datový soubor se skládá z 138556 párů vět anotovaných 485 studenty žurnalistiky Univerzity Karlovy. Přesný postup a formát dat při vytváření korpusu je popsán v PLÁNOVANÉM článku (tato posáž bude po dokončení článku revidována).

Datové vzorky v obou souborech jsou náhodně zamíchány. Textová data jsou majetkem České tiskové kanceláře a smí být použita pouze k nekomerčním výzkumným účelům.

CzechNewsDatasetForSTS.zip


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.