MGB-5 Moroccan Dialect

View resource name in all available languages

Base de données MGB-5 - dialecte marocain

938-639-614-524-5

ID:

ELRA-S0404

The MGB-5 Moroccan Dialect comprises 14 hours of Moroccan Arabic speech extracted from 93 YouTube videos distributed across seven genres: comedy, cooking, family/children, fashion, drama, sports, and science clips.

Given that dialectal Arabic does not have a clearly defined orthography, different people tend to write the same word in slightly different forms. Therefore, instead of developing strict guidelines to ensure a standardized orthography, variations in spelling are allowed. Thus multiple transcriptions were produced, allowing transcribers to write the transcripts as they deemed correct. Every file has been segmented and transcribed by four different Moroccan annotators.

The 93 YouTube clips have been manually labelled for speech, non-speech segments. About 12 minutes from each program were selected for transcription. The resulting speech segments were then distributed into train, development and test data sets as follows:
Training data: 10.2 hours from 69 programs
Development data: 1.8 hours from 10 programs
Testing data: 2.0 hours from 14 programs

In addition to the transcribed 14 hours, the full programs are also provided, which amounts 48 hours for the 93 programs. This data can be used for in-domain speech or genre adaptation.

View resource description in French

La base de données MGB-5 - dialecte marocain consiste en 14 heures de parole en arabe marocain extraite de 93 vidéos YouTube et est répartie sur sept genres: comédie, cuisine, famille/enfants, mode, théâtre, sports et clips scientifiques.

Etant donné que l'arabe dialectal n'a pas d'orthographe clairement définie, des personnes distinctes sont amenées à écrire un même mot sous des formes légèrement différentes. Par conséquent, au lieu de définir des recommandations strictes afin d'assurer une orthographe standardisée, les variations orthographiques ont été autorisées. Ainsi, des transcriptions multiples ont été produites, permettant aux transcripteurs d'écrire les transcriptions de la manière qu'ils considéraient la plus juste. Chaque fichier a été segmenté et transcrit par quatre annotateurs marocains différents.

Les 93 clips YouTube ont été étiquetés manuellement sur les segments de parole et de non-parole. Environ 12 minutes de chaque programme ont été sélectionnées pour la transcription. Les segments de parole résultants ont été subdivisés en données d'apprentissage, de développement et de test, comme suit:
Données d'apprentissage: 10,2 heures provenant de 69 programmes
Données de développement: 1,8 heures provenant de 10 programmes
Données de test: 2.0 heures provenant de 14 programmes

En plus des 14 heures transcrites, les programmes complets sont également fournis, ce qui correspond à un total de 48 heures pour les 93 programmes. Ces données peuvent être utilisées pour le traitement de la parole en-domaine ou l'adaptation de genre.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
1500.00 € submit
Licence: Commercial Use - ELRA VAR
1500.00 € submit
1500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
2000.00 € submit
Licence: Commercial Use - ELRA VAR
2000.00 € submit
2000.00 € submit
04/04/2023
People who looked at this resource also viewed the following: