Helsinki Corpus of Swahili

View resource name in all available languages

Corpus Helsinki du Swahili




This is a text corpus of Swahili language of 25 million words, annotated for part-of-speech, morphology and syntax. The corpus contains prose text from fiction, news media and government documents domains, from the period between 1953 and 2016.

This package contains:
- the Helsinki Corpus of Swahili 2.0 Non Annotated Version, which contains the raw material formatted and corrected.
- the Helsinki Corpus of Swahili 2.0 Annotated version, annotated with Salama Tagger and with metadata added to each file.

The source texts were collected from the Web (texts in news media between 1988-2016 and open government webpages between 2004 and 2006) and from books (between 1953 and 1991, scanned and proofread). Part of the oldest news material before the time of scanners was manually typed. Old material contains material collected before 2003: Books and News
New material contains a section Bunge (Hansards of the Tanzanian Parliament from the years 2004, 2005 and 2006) and a section News (from 2004-2015).

A word in the annotated corpus contains normally the following types of information: token, stem, part-of-speech, morphological description, syntactic tag, rest of verb description.

The corpus was prepared at the University of Helsinki, Department of Asian and African Studies under auspices of Prof. Arvi Hurskainen.

It is available from ELRA for commercial use only.
For academic use, it is accessible via Kielipankki - the Language Bank of Finland in Korp (

A corpus version with English glosses, where each word in corpus is provided with one or more lexical equivalents, can be distributed upon demand (terms to be discussed on a case by case basis).

View resource description in French

Ce corpus contient 25 millions de mots en swahili, annotés en partie du discours, morphologie et syntaxe. Il contient du texte de différents domaines: fiction, actualités journalistiques et documents gouvernementaux, sur une période allant de 1953 à 2016.

Le package contient :
- le corpus Helsinki du Swahili 2.0 version non-annotée: textes bruts formatés et corrigés
- le corpus Helsinki du Swahili 2.0 version annotée: textes annotés avec Salama Tagger et métadonnées intégrées à chaque fichier

Les textes sources ont été collectés sur le Web (textes d’actualités journalistiques collectés entre 1988 et 2016, contenu de sites gouvernementaux entre 2004 et 2006) et à partir de livres (textes collectés entre 1953 et 1991, scannés et révisés). La partie la plus ancienne du contenu journalistique datant d’avant les scanners a été saisie manuellement.

La section "Old material" contient les textes collectés avant 2003: livres (répertoire "Books") et contenu journalistique (répertoire "News").
La section "New material" contient une partie "Bunge" (transcriptions officielles des débats du Parlement Tanzanien entre 2004 et 2006) et une partie "News" (contenu journalistique collecté entre 2004 et 2015).

Chaque mot dans le corpus annoté contient les informations suivantes: token, lemme, partie du discours, description morphologique, étiquette syntaxique, reste de la description du verbe.

Le corpus a été produit à l’Université d’Helsinki, Département des Etudes Asiatiques et Africaines sous les auspices du Professeur Arvi Hurskainen.

Le corpus est accessible par ELRA pour un usage commercial uniquement. Pour un usage de recherche, se référer à Kielipankki - the Language Bank of Finland in Korp (

Une version du corpus contenant des gloses en anglais, dans lequel chaque mot du corpus est associé à un ou plusieurs équivalents, est accessible sur demande uniquement (termes à discuter au cas par cas).

Licence: Commercial Use - ELRA VAR
7500.00 € submit
7500.00 € submit
NON MEMBERacademiccommercial
Licence: Commercial Use - ELRA VAR
15000.00 € submit
15000.00 € submit
12/07/2017 Downloadable
People who looked at this resource also viewed the following: