EthioSpeech

886-456-351-764-8

ID:

ELRA-S0494

EthioSpeech Corpora is comprised of over 391 hours of recorded read speech in six different Ethiopian languages by ca. 200 speakers per language: Amharic (68 hours), Tigrigna (62 hours), Oromo (70 hours), Somali (56 hours), Afar (68 hours), and Sidama (68 hours). The dominating domain is media (mainly newspapers), but for some of the languages texts from different domains were used, including spiritual contents. The recording is made using mobile devices using the LIG-Aikuma speech recording tool that is installed on the devices.

This project will be a valuable resource for the development of well-performing automatic speech recognition (ASR) systems for these six languages (in a monolingual setup) and for other related languages (in a multilingual and/or cross-lingual setup) that are useful in various aspects of daily life.

Use cases of speech recognition systems using this dataset include dictation systems, transcription systems, assistive technologies, spoken dialogue systems, speech translation, and other similar speech technologies. To make the data set representative, the team selected six working languages that are used across regional states of Ethiopia while also maintaining the gender and age balance of readers, nearly equal for Amharic, Tigrigna and Oromo, whereas mainly male gender for the other 3 languages. The age distribution is between 18 and 40.

More details are given below:
- Amharic:
Number of recorded sentences (only verified): 25,610
Number of speakers: 203
Recorded Speech length in hours: 68:11
- Tigrinya:
Number of recorded sentences (only verified): 26,955
Number of speakers: 210
Recorded Speech length in hours: 61:42
- Oromo:
Number of recorded sentences (only verified): 25,287
Number of speakers: 200
Recorded Speech length in hours: 69:57
- Somali:
Number of recorded sentences (only verified): 25,175
Number of speakers: 200
Recorded Speech length in hours: 55:57
- Afar:
Number of recorded sentences (only verified): 25,659
Number of speakers: 200
Recorded Speech length in hours: 67:53
- Sidama:
Number of recorded sentences (only verified): 25,113
Number of speakers: 200
Recorded Speech length in hours: 67:36

View resource description in French

Le corpus EthioSpeech est composé de plus de 391 heures de discours lues et enregistrées dans six langues éthiopiennes différentes par env. 200 locuteurs par langue: amharique (68 heures), tigrigna (62 heures), oromo (70 heures), somali (56 heures), afar (68 heures) et sidama (68 heures). Le domaine dominant est celui des médias (principalement des journaux), mais pour certaines langues, des textes de différents domaines ont été utilisés, y compris des contenus spirituels. L'enregistrement est effectué à l'aide d'appareils mobiles à l'aide de l'outil d'enregistrement vocal LIG-Aikuma installé sur les appareils.

Ce projet est une ressource précieuse pour le développement de systèmes performants de reconnaissance automatique de la parole (ASR) pour ces six langues (dans une configuration monolingue) et pour d'autres langues connexes (dans une configuration multilingue et/ou multilingue) qui sont utiles dans divers aspects de la vie quotidienne.

Les cas d’usage des systèmes de reconnaissance vocale utilisant cet ensemble de données comprennent les systèmes de dictée, les systèmes de transcription, les technologies d'assistance, les systèmes de dialogue parlé, la traduction de la parole et d'autres technologies vocales similaires. Pour rendre l'ensemble de données représentatif, l'équipe a sélectionné six langues de travail qui sont utilisées dans les états régionaux de l'Éthiopie tout en maintenant la répartition entre les genres et l'âge des lecteurs, quasi-identiques pour l'amharique, le tigrigna et l'oromo, alors que des hommes ont principalement été enregistrés pour les trois autres langues. La répartition par âge se situe entre 18 et 40 ans.

Plus de détails ci-après:
- Amharique:
nombre de phrases enregistrées (uniquement vérifiées): 25610
nombre de locuteurs: 203
durée de parole enregistrée en heures: 68:11
- Tigrinya:
nombre de phrases enregistrées (uniquement vérifiées): 26955
nombre de locuteurs: 210
durée de parole enregistrée en heures: 61:42
- Oromo:
nombre de phrases enregistrées (uniquement vérifiées): 25287
nombre de locuteurs: 200
durée de parole enregistrée en heures: 69:57
- Somali:
nombre de phrases enregistrées (uniquement vérifiées): 25175
nombre de locuteurs: 200
durée de parole enregistrée en heures: 55:57
- Afar:
nombre de phrases enregistrées (uniquement vérifiées): 25659
nombre de locuteurs: 200
durée de parole enregistrée en heures: 67:53
- Sidama:
nombre de phrases enregistrées (uniquement vérifiées): 25113
nombre de locuteurs: 200
durée de parole enregistrée en heures: 67:36

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
4500.00 € submit
Licence: Commercial Use - ELRA VAR
4500.00 € submit
4500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
5400.00 € submit
Licence: Commercial Use - ELRA VAR
5400.00 € submit
5400.00 € submit
21/03/2025
People who looked at this resource also viewed the following: