Dutch PAROLE Distributable Corpus

View resource name in all available languages

Corpus hollandais PAROLE

440-290-917-102-7

ID:

ELRA-W0019

The Dutch PAROLE Distributable Corpus is a 3 million words selection from the 20 million words Dutch PAROLE Reference corpus.

The Dutch corpus annotation and checking was made accordingly to the common core PAROLE tagset. The Dutch data were also checked for type.

The Dutch PAROLE Distributable Corpus contains the following texts:

BOOKS:
Van Sterkenburg:
Wdlijst tot wdboek, 1984, 65,344 words
Taal vt Journaal, 1989, 56,215 words
WNT-portret, 1992, 60,133 words

NEWSPAPERS
Short Newspaper texts:
MN_Collection, 1986-1988, 19,537 words
CVNP(S)-Collection, 1983-1990, 179,220 words

PERIODICAL:
Short texts from
- Local Papers, 1985-1988, 47,019 words
- Magazines, 1985-1989, 164,589 words

MISCELLANEOUS:
Texts to be read out in TV-news broadcasts for:
- General audience, 1992-1995, 1,285,824 words
- Youth, 1991-1995, 1,008,658 words
Short texts from Ephemera, 1985-1986, 131,692 words

TOTAL: 3,018,231 words

Over 250,000 words of corpus texts have been PoS-tagged automatically. A total of 59,798 running words has been manually corrected and checked at least two times with respect to maximal granularity, according to a lexicographer's manual. The extra 9,000 words over the required 50,000 words compensate for the occurrence of ca. 5,300 "keywords" in the original texts. The fully corrected material has been subjected to an automated post-control operation, checking the pertinence relations between the various feature values, and instantiating default values in case a mismatch (indicating a correction error) was found. Ca. 200,000 words have been checked once for PoS and type. In addition to the required PoS, type was checked for reasons of quality. This material has been subjected to an automated correction procedure addressing the feature slots (positions) beyond the first two for PoS and type so as to solve discrepancies between the manually corrected PoS and type, and the possibly erroneous, automatically assigned values of the remaining slots.

***
Introduction on the PAROLE project

LE-PAROLE project (MLAP/LE2-4017) aims to offer a large-scale harmonised set of "core" corpora and lexica for all European Union languages.

Language corpora and lexica were built according to the same design and composition principles, in the period 1996-1998.

PAROLE Corpora:

The harmonisation with respect to corpus composition (selection of corpus texts) was to be achieved by the obligatory application of common parameters for time of production and classification according to publication medium. No texts older than 1970 were allowed. As for publication medium, the corpus had to include specific proportions of texts from the categories “Book”, “Newspaper”, “Periodical” and “Miscellaneous” within a settled range.

The harmonisation effort also applied to the textual and linguistic encoding of the language corpora involved. With respect to the mark up of text structure and primary data, every single corpus text was to be encoded according to the PAROLE DTD, which is compatible with the DTD of the Text Encoding Initiative (TEI) and with that of the Corpus Encoding Standard (CES). The level of encoding was set to Level 1 of the CES, implying the encoding of text structure and textual features up to Paragraph Level, with the additional constraint, however, that all legacy data was kept.

As for linguistic corpus annotation, an equal proportion of the corpus texts (up to 250,000 running words) was to be morphosyntactically annotated according to a common core PAROLE tagset, extended with a set of language specific features. The checking of the tags was split in two: 50,000 words had to be checked for maximum granularity and 200,000 for part-of-speech (PoS) only.

The languages involved in PAROLE corpora are: Belgian French, Catalan, Danish, Dutch, English, French, Finnish, German, Greek, Irish, Italian, Norwegian, Portuguese and Swedish.

PAROLE Lexica:

The lexica (20,000 entries per language) were built conform to a model based on EAGLES guidelines and GENELEX results, underlying a common lexical tool adapted from the EUREKA-GENELEX project. This software tool was extended to support the PAROLE model and conversion and management processes of the resulting resources.

The languages involved in PAROLE lexica are: Catalan, Danish, Dutch, English, Finnish, French, German, Greek, Italian, Portuguese, Spanish and Swedish.

View resource description in French

Le corpus hollandais PAROLE est une sélection de 3 millions de mots provenant du corpus de référence hollandais PAROLE, qui lui comporte 20 millions de mots.

L'annotation et la vérification du corpus ont été réalisées d'après l'ensemble d'étiquettes commun à PAROLE. Les données du hollandais ont été également vérifiées par type.

Le corpus hollandais PAROLE contient les textes suivants :

LIVRES:
Van Sterkenburg:
Wdlijst tot wdboek, 1984, 65 344 mots
Taal vt Journaal, 1989, 56 215 mots
WNT-portret, 1992, 60 133 mots

JOURNAUX:
Textes courts de journaux :
MN_Collection, 1986-1988, 19 537 mots
CVNP(S)-Collection, 1983-1990, 179 220 mots

PERIODIQUES:
Textes courts de :
- Journaux locaux, 1985-1988, 47 019 mots
- Magazines, 1985-1989, 164 589 mots

DIVERS:
Textes lus dans des actualités télévisées pour :
- une audience générale, 1992-1995, 1 285 824 mots
- la jeunesse, 1991-1995, 1 008 658 mots
Textes courts d'"Ephemera", 1985-1986, 131 692 mots

TOTAL: 3 018 231 mots

Plus de 250 000 mots des textes du corpus ont été balisées automatiquement sur une partie du discours. Un total de 59 798 mots ont été corrigés manuellement et vérifiés au moins deux fois au niveau de la granularité maximale, en suivant le manuel d'un lexicographe. Les 9 000 mots supplémentaires aux 50 000 mots requis compensent l'occurrence d'environ 5 300 "mots clés" des textes originaux. Le matériel entièrement corrigé a fait l'objet d'une opération de post-contrôle automatique, en vérifiant les relations de pertinence entre les différentes valeurs d'attributs, et en instaurant des valeurs par défaut en cas de non concordance (en indiquant une erreur de correction). Environ 200 000 mots ont été vérifiés une fois pour la " partie du discours " et pour le type. Le type a été vérifié pour des raisons de qualité.

Ce matériel a fait l'objet d'une procédure de correction automatique en ajoutant des champs à ceux déjà existants (partie du discours et type), et ce afin de résoudre les différences entre les champs corrigés automatiquement (partie du discours et type), et les champs restants dont les valeurs ont été assignées automatiquement et pouvant contenir des erreurs.

***
Présentation du projet PAROLE

Le projet LE-PAROLE (MLAP/LE2-4017) a pour but d’offrir un noyau comparable et harmonisé de lexiques et corpus de toutes les langues de l’Union européenne.

Les corpus et lexiques ont été construits d’après une conception et des principes de composition identiques, entre 1996-1998.

Corpus PAROLE:

L’harmonisation de la composition du corpus (sélection de textes) a pu être mise en place grâce à l’application obligatoire de paramètres communs en termes de temps de production et en termes de classification des supports de publication. Aucun texte antérieur à 1970 n’a été retenu. En ce qui concerne les supports de publication, le corpus devait comprendre des proportions spécifiques de textes selon les catégories « Livre », « Journal », « Périodique » et « Divers ».

L’effort d’harmonisation concernait également le codage textuel et linguistique des corpus. Chaque corpus devait suivre la DTD PAROLE, elle-même compatible avec la DTD de la TEI (Text Encoding Initiative – Initiative de codage de textes) et du CES (Corpus Encoding Standard - Standard de codage de corpus).

Pour ce qui est de l’annotation du corpus, une proportion égale de textes (jusqu’à 250 000 mots) devait être annotée morpho-syntaxiquement selon un ensemble commun d’étiquettes, augmenté par des attributs spécifiques à chaque langue. La vérification des balises a été divisée en deux : 50 000 mots devant être vérifiés à un niveau de granularité maximum et 200 000 devant être vérifiés pour une « partie du discours » seulement.

Les corpus PAROLE concernent les langues suivantes : catalan, danois, hollandais, anglais, français, finnois, allemand, grec, italien, portugais, suédois, belge-français, irlandais et norvégien.

Lexiques PAROLE:

Les lexiques (20 000 entrées par langue) ont été construits conformément à un modèle basé sur les recommandations d’EAGLES et les résultats de GENELEX, en utilisant un outil lexical commun adapté du projet EUREKA-GENELEX. Ce logiciel a été étendu afin de supporter le modèle PAROLE, ainsi que les procédés de conversion et de gestion des ressources obtenues.

Les lexiques PAROLE concernent les langues suivantes : catalan, danois, hollandais, anglais, finnois, français, allemand, grec, italien, portugais, suédois et espagnol.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
270.00 € submit
800.00 € submit
Licence: Commercial Use - ELRA VAR
1600.00 € submit
1600.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
300.00 € submit
1300.00 € submit
Licence: Commercial Use - ELRA VAR
2500.00 € submit
2500.00 € submit

Special offer:

    Special price for academic users from the Netherlands and Belgium. The data are supplied directly by the Instituut voor Nederlandse Lexicologie, http://www.inl.nl.

    Members Special Prices: Academic - Research 150.00 EUR
    Non Members Speciaux Prices: Academic - Research 150.00 EUR

12/07/1999
People who looked at this resource also viewed the following:
Resources from the same project