EnToSSLNE - a Lexicon of Parallel Named Entities from English to South Slavic Languages

View resource name in all available languages

EnToSSLNE – lexique d’entités nommées parallèle anglais-langues slaves du sud

690-348-503-270-1

ID:

ELRA-M0051

This lexicon contains multiword entries which are not strictly named entities, but contain a word which is. For example, German shepherd is an entry in this lexicon, since many dogs of this breed exist. But, the adjective German makes it a named entity in a broader sense. Accordingly, there are many multiword units in the lexicon which contain ethnonyms. Similarly, the unit Planck's law belongs to this lexicon as well.

Certain natural terms like biological species and substances, which are sometimes considered named entities, are not included in the lexicon.

Languages
The lexicon consists of 26,155 parallel named entities in seven languages: English and six South Slavic ones: Bosnian, Bulgarian, Croatian, Macedonian, Serbian, and Slovenian.

Slovenian, Croatian and Bosnian are written in Latin script, Macedonian and Bulgarian in Cyrillic. Serbian language is specific since it may come in two scripts (Cyrillic and Latin) and two dialects (ekavica and ijekavica). This lexicon takes Serbian ekavica variant and its Cyrillic script.

Classification
The tags used for named entities are: ORGANIZATION, LOCATION, PERSON, PRODUCT and MISC. Each named entity belongs to one of these classes. The classes comprise:
ORGANIZATION: political organizations, companies, schools, rock bands, sport teams
LOCATION: geographical terms, fictional places, cosmic terms
PERSON: humans, gods, saints, fictional characters
PRODUCT: industrial products, software products, weapons, art works, documents, concepts, standards, formats, anthems, algorithms, journals, coats of arms, platforms, websites
MISC: events, languages, peoples, tribes, alliances, orders, scientific discoveries, theories, titles, currencies, holidays, dynasties, positions, projects, historical periods, competitions, deceases, breeds, programs, set of locations, awards, musical genres, missions, artistic directions, set of organizations, networks.

The lexicon consists of 26,155 entries. A tag is assigned to each one of them. The distribution of classes is as follows:
ORGANIZATION: 1,575 entries
LOCATION: 6,327 entries
PERSON: 8,584 entries
PRODUCT: 1,716 entries
MISC: 7,953 entries

Formats
The lexicon comes in two formats: csv and xml.
The first row in the csv file is a title row and tab is used as a field separator, eg:
German Shepherd Nemški ovčar Njemački ovčar Njemački ovčar Немачки овчар Германски овчар Немска овчарка MISC

In the xml file, the tag denoting the class is an attribute and languages are elements.

View resource description in French

Ce lexique contient des entrées à mots multiples qui ne sont pas à strictement parler des entités nommées, mais qui contiennent des mots qui le sont. Par exemple, "German shepherd" est une entrée dans ce lexique, car plusieurs chiens de cette espèce existent. Mais, l’adjectif "German" en fait une entité nommée au sens plus large. En conséquence, plusieurs unités à mots multiples contiennent des ethnonymes. De manière similaire, l’entrée "Planck’s law" est contenue dans ce lexique.

Certains termes liés à la nature comme les espèces biologiques et les substances, qui sont parfois considérés comme des entités nommées, ne sont pas inclus dans ce lexique.

Langues
Le lexique comprend 26,155 entités nommées parallèles en anglais et six langues slaves: bosniaque, bulgare, croate, macédonien, serbe, et slovène.

Le slovène, le croate et le bosniaque sont écrits en caractères latins, le macédonien et le bulgare en cyrillique. La langue serbe est spécifique puisqu’elle peut être représentée dans les deux types de caractères (cyrilliques et latins) et dans deux dialectes (ekavica et ijekavica). Ce lexique est formé sur la variante serbe ekavica, représentée en caractères cyrilliques.

Classification
Les étiquettes utilisées pour les entités nommées sont les suivantes: ORGANIZATION, LOCATION, PERSON, PRODUCT et MISC. Chaque entité nommée appartient à l’une de ces classes. Les classes comprennent:
ORGANIZATION: organisations politiques, sociétés, écoles, groupes de rock, équipes de sport
LOCATION: termes géographiques, lieu de fiction, termes cosmiques
PERSON: humains, dieux, saints, personnages de fiction
PRODUCT: produits industriels, produits logiciels, armes, œuvres d’art, documents, concepts, standards, formats, hymnes, algorithmes, journaux, blasons, plateformes, sites web
MISC: événements, langues, peuples, tribus, alliances, ordres, découvertes scientifiques, théories, titres, devises, fêtes, dynasties, positions, projets, périodes historiques, compétitions, décès, espèces, programmes, ensemble de lieux, récompenses, genres musicaux, missions, directions artistiques, ensemble d’organisations, réseaux.

Le lexique comprend 26155 entrées. Une étiquette est assignée à chacune d’entre elles. Les classes sont réparties comme suit:
ORGANIZATION: 1575 entrées
LOCATION: 6327 entrées
PERSON: 8584 entrées
PRODUCT: 1716 entrées
MISC: 7953 entrées

Formats
Le lexique est fourni dans deux formats: csv et xml.
La première colonne dans le fichier csv correspond au titre et une tabulation est utilisée comme séparateur de champ, par exemple:
German Shepherd Nemški ovčar Njemački ovčar Njemački ovčar Немачки овчар Германски овчар Немска овчарка MISC

Dans le fichier xml, l’étiquette marquant le type de classe est indiquée en attribut et les langues sont indiquées comme éléments.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
300.00 € submit
1000.00 € submit
Licence: Commercial Use - ELRA VAR
1000.00 € submit
1000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
600.00 € submit
2000.00 € submit
Licence: Commercial Use - ELRA VAR
2000.00 € submit
2000.00 € submit
24/04/2019 Downloadable
People who looked at this resource also viewed the following: