KORLEX – Serbian Lexicon

View resource name in all available languages

Lexique serbe KORLEX

514-505-478-814-0

ID:

ELRA-L0066

This lexical resource was developed as part of the bilingual lexicon for English-Serbian built for the following project: http://www.rjecnik.com.

The lexicon data is compiled with the objective of covering the majority of text circulating in everyday use, such as in the news (e.g., newswire articles), in business, technological documentation, legal documentation, and politics. The words that are primarily used in literary and religious contexts, and which are not part of every-day usage, are generally not included in the lexicon.

The KORLEX-Serbian Lexicon provides a list of 108,491 Serbian lemmas, i.e., words in canonical form, annotated with part-of-speech (POS) tag and lexical features. Among these 108,491 entries, there are 52,027 nouns, 9,153 adverbs, 15,522 verbs and 31,052 adjectives. Remaining entries are pronouns, determiners, prepositions/postpositions, conjunctions and numerals.

The resource is a flat textual file in which each textual line contains information about one lemma. The format of a line can be captured with the following Perl regular expressions:

# Characters appearing in a word (ISO-8859-2)
$c = qr/[-{}|.\/\d\w\xA9\xAE\xB9\xBE\xC6\xC8\xD0\xE6\xE8\xF0]/
# A lemma
$m = qr/$c+(?: $c+)*/;
# A lemma specification (each line in the resource)
/^($m(?:#$m)?)\s+:(\w+)([\w:]+)\r?$/
In the last expression, $1 is a lemma, $2 is the POS tag, and $3 is a concatenated list of features. A typical line is:
vrata :nn:f
in which "vrata" is a lemma, with POS being "nn", and features including "f" gender.
A lemma may contain the hash sign (#), in which case it denotes a frequently misspelled form. For example, in:
bidem#budem :spec:x
"bidem" is an incorrect form, followed by a correct form "budem".
Additionally, the incorrect forms are marked with the feature ":x".
Local linguistic variants are tagged with :ek and :ije tags for ekavian and ijekavian forms respectively. Ekavian is spoken in Serbia, while ijekavian is spoken in Montenegro and Republika Srpska (Bosnia).
For example, in
mesec :nn:m:ek
mjesec :nn:m:ije

The resource is encoded using ISO-8859-2 encoding, and sorted according to the standard Serbian lexicographic order.

View resource description in French

Cette ressource lexicale a été développée pour la constitution d’un lexique bilingue anglais-serbe dans le cadre du projet suivant : http://www.rjecnik.com.

Les données du lexique ont été compilées avec pour but de couvrir la majorité des textes utilisés au quotidien, tels que dans les actualités (par exemple, des articles de journaux), les affaires, les documentations technologiques, juridiques et politiques. Les mots utilisés principalement dans des contextes littéraires et religieux, et qui ne font pas partie de l’usage quotidien, sont généralement exclus du lexique.

Le lexique serbe KORLEX propose une liste de 108 491 lemmes du serbe, c’est-à-dire des mots sous leur forme canonique, annotés avec des étiquettes indiquant la partie du discours (POS) et d’autres informations lexicales. Parmi ces 108 491 entrées, on peut compter 52 027 noms, 9 153 adverbes, 15 522 verbes et 31 052 adjectifs. Les entrées restantes sont constituées de pronoms, déterminants, prépositions/postpositions, conjonctions et numéraux.

La ressource est présentée dans un fichier texte à plat dans lequel chaque ligne de texte comprend des attributs par lemme. Le format d’une ligne peut être traduit par les expressions régulières Perl suivantes :

# Caractères apparaissant dans le mot (ISO-8859-2)
$c = qr/[-{}|.\/\d\w\xA9\xAE\xB9\xBE\xC6\xC8\xD0\xE6\xE8\xF0]/
# Lemme
$m = qr/$c+(?: $c+)*/;
# Spécifications d’un lemme (chaque ligne de la ressource)
/^($m(?:#$m)?)\s+:(\w+)([\w:]+)\r?$/
Dans la dernière expression, $1 est un lemme, $2 est une étiquette POS, et $3 est une liste concaténée d’attributs. Une ligne type se présente comme suit :
vrata :nn:f
où "vrata" est le lemme, avec comme étiquette POS "nn", et des attributs incluant le genre "f".
Un lemme peut contenir le signe dièse (#), auquel cas il indique une forme fréquemment mal orthographiée. Par exemple, dans:
bidem#budem :spec:x
"bidem" est une forme incorrecte, suivie par une forme correcte "budem".
De plus, les formes incorrectes sont marquées par l’attribut ":x".
Les variantes linguistiques locales sont marquées par les étiquettes :ek et :ije correspondant respectivement aux formes ekavien et ijekavien. L’ekavien est parlé en Serbie, tandis que l’ijekavien est parlé au Monténégro et en Republika Srpska (Bosnia).
Par exemple, dans
mesec :nn:m:ek
mjesec :nn:m:ije

La ressource utilise le format de codage ISO-8859-2, et est classée dans l’ordre alphabétique lexicographique standard du serbe.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1000.00 € submit
2000.00 € submit
Licence: Commercial Use - ELRA VAR
2000.00 € submit
2000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2000.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
5000.00 € submit
5000.00 € submit
31/03/2006
People who looked at this resource also viewed the following: