2007 CoNLL Shared Task - Basque, Catalan, Czech & Turkish – ELRA Catalogue

Last view: 2025-09-15

54 Last view: 2025-09-15

2007 CoNLL Shared Task - Basque, Catalan, Czech & Turkish

View resource name in all available languages

Tâche partagée CoNLL 2007 - basque, catalan, tchèque et turc

ISLRN: 769-620-932-723-2

ID:

ELRA-W0121

2007 CoNLL Shared Task - Basque, Catalan, Czech & Turkish consists of dependency treebanks in four languages used as part of the CoNLL 2007 shared task on multi-lingual dependency parsing and domain adaptation. The languages covered in this release are: Basque, Catalan, Czech and Turkish.

The Conference on Computational Natural Language Learning (CoNLL) is accompanied every year by a shared task intended to promote natural language processing applications and evaluate them in a standard setting. In 2006 and 2007, the shared task was devoted to the parsing of syntactic dependencies using corpora from up to thirteen languages. The task aimed to define and extend the then-current state of the art in dependency parsing, a technology that complemented previous tasks by producing a different kind of syntactic description of input text. The 2007 shared task added a domain adaptation track for English in addition to the multilingual track. More information about CoNLL and the 2007 shared task are available respectively at: http://www.signll.org/conll/ and http://www.conll.org/previous-tasks.

The source data in the treebanks in this release consists principally of various texts (e.g., textbooks, news, literature) annotated in dependency format. In general, dependency grammar is based on the idea that the verb is the center of the clause structure and that other units in the sentence are connected to the verb as directed links or dependencies. This is a one-to-one correspondence: for every element in the sentence there is one node in the sentence structure that corresponds to that element. In constituency or phrase structure grammars, on the other hand, clauses are divided into noun phrases and verb phrases and in each sentence, one or more nodes may correspond to one element. All of the data sets in this release are dependency treebanks.

The individual data sets are:
The 3LB Treebank (Basque)
CESS-Cat Dependency Treebank (Catalan)
Prague Dependency Treebank 2.0 (Czech)
METU-Sabanci Turkish Treebank (Turkish)

This corpus is distributed jointly with LDC. LDC Catalogue Reference is: https://catalog.ldc.upenn.edu/LDC2017T19.

View resource description in French

Le corpus de la tâche partagée CoNLL 2007 - basque, catalan, tchèque et turc contient des treebanks annotés en dépendances en quatre langues, utilisés dans le cadre de la tâche partagée CoNLL 2007 concernant l’analyse en dépendances syntaxiques multilingues et de l’adaptation au domaine. Les langues couvertes par cette édition sont les suivantes: basque, catalan, tchèque et turc.

La conférence CoNLL (Conference on Computational Natural Language Learning – Conférence sur l’apprentissage du langage naturel computationnel) s’accompagne chaque année d’une tâche partagée visant à promouvoir les applications de traitement du langage naturel et les évalue dans un environnement standardisé. En 2006 et 2007, la tâche partagée s’est consacrée à l’analyse en dépendances syntaxiques, exploitant des corpus allant jusqu’à 13 langues. La tâche avait pour objectif de définir et élargir l’état de l’art du moment de l’analyse en dépendances syntaxiques, une technologie venant en complément de tâches précédentes par la production d’un genre différent des descriptions syntaxiques des textes en entrée. La tâche partagée 2007 a ajouté une tâche de vérification de l’adaptation au domaine pour l’anglais en plus de la tâche multilingue. Plus d’informations sur CoNLL et la tâche partagée de 2007 sont disponibles respectivement sur http://www.signll.org/conll/ et http://www.conll.org/previous-tasks.

Les données sources des treebanks de cette édition comprennent principalement différents types de textes (manuels, actualités, littérature, etc.) annotés en dépendance. En général, la grammaire de dépendance est basée sur le principe que le verbe est le centre de la structure propositionnelle et que les autres unités de la phrase sont connectées au verbe par des liens directs ou dépendances. C’est une correspondance biunivoque : pour chaque élément, on a un noeud de la structure de la phrase correspondant à l’élément donné. Dans les grammaires en constituants ou en structures de phrases, d’une part, les propositions sont divisées en locutions nominales et en locutions verbales et dans chaque phrase, un ou plusieurs nœuds peut correspondre à un élément. L’ensemble des données fournies dans cette édition sont des treebanks en dépendances.

Les ensembles de données individuels sont:
Treebank 3LB (basque)
Treebank en dépendances CESS-Cat (catalan)
Treebank en dépendances de Prague 2.0 (tchèque)
Treebank turc METU-Sabanci (turc)

Ce corpus est distribué conjointement avec le Linguistic Data Consortium (LDC). La référence catalogue LDC est: https://catalog.ldc.upenn.edu/LDC2017T19.

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	0.00 €	0.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	0.00 €	0.00 €

DistributionAvailability start date 21/12/2017 Distribution access medium Downloadable Contact Person

Mapelli Valérie

text

Multilingual text corpusLanguages

Catalan; Valencian

Language Script: Latin

Variety: Valencian (Type: Dialect) (2 Gb)

Basque

Language Script: Latin

Turkish

Language Script: Latin

Czech

Language Script: Latin

Linguality

Linguality type: Multilingual

Size

12 Files

Resource Creation

Creation ended: 01/01/2007

Metadata

Created: 05/12/2005

Metadata Language: French, English (fr, en)

Version

Version: 1.0

Last Updated: 12/21/2017

People who looked at this resource also viewed the following: