SecuVoice

583-080-936-563-9

ID:

ELRA-S0386

SecuVoice is a corpus of single-channel utterances in Spanish containing sequences of isolated digits from zero to nine. These utterances were acquired by using two different devices, i.e. a mid-range smartphone and a high-range one. For both models, the utterances were stored as uncompressed monophonic WAV files with a sampling frequency of 8000 Hz and 16 bits per sample.

This database is especially suitable for research on biometrics and secure applications that integrate both automatic speech recognition (ASR) and speaker recognition/verification.

SecuVoice contains a total of 7,098 utterances (169 speakers x 42 utt./speaker) with 34,476 digits (204 digits/speaker). Utterances are arranged into two different datasets: (i) the ENROLL dataset contains the 1,014 enrollment utterances (169 speakers x 6 enroll. utt./speaker) with 10,140 digits; (ii) the VERIF dataset contains the 6,084 verification utterances (169 speakers x 36 verif. utt./speaker) with 24,336 digits. Each digit from zero to nine is present 3,380 times, except digits three and five unbalanced in the VERIF dataset (2,704 utterances against 2,366 for the other digits) for a total number of 3,718 utterances each.

Along with the WAV files containing the speech utterances, XML annotation files containing detailed information about the speakers and the recorded sequences of digits are provided.

View resource description in French

Le corpus oral SecuVoice comprend des séquences de chiffres isolés de zéro à neuf en espagnol, enregistrées sur un seul canal et avec deux types de téléphones (un smartphone de milieu de gamme et un autre haut de gamme). Dans les deux cas les séquences ont été stockées sous la forme de fichiers WAV monophoniques non compressés, 16 bit 8000 Hz.

Cette base de données a été conçue pour la recherche dans le domaine biométrique et pour des applications sécurisées intégrant la reconnaissance automatique de la parole et l’identification/vérification du locuteur.

SecuVoice comprend 7,098 séquences (169 locuteurs x 42 séquences/locuteur) contenant 34,476 chiffres (204 chiffres/locuteur). Les séquences ont été classées dans deux ensembles de données : (i) ENROLL, qui contient 1,014 séquences d’entraînement (169 locuteurs x 6 séquences enroll./locuteur) et 10,140 chiffres ; (ii) VERIF, qui contient 6,084 séquences de vérification (169 locuteurs x 36 séquences vérif./locuteur) et 24,336 chiffres. Chaque chiffre de zéro à neuf est présent 3,380 fois, à l’exception des chiffres trois et cinq non équilibrés dans l’ensemble de données VERIF (2,704 occurences contre 2,366 pour les autres chiffres) pour un nombre total de 3,718 occurrences chacun.

Des fichiers d’annotation XML contenant des informations détaillées sur les locuteurs et sur les séquences sont fournis avec les fichiers WAV.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
300.00 € submit
600.00 € submit
Licence: Commercial Use - ELRA VAR
600.00 € submit
600.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
600.00 € submit
1200.00 € submit
Licence: Commercial Use - ELRA VAR
1200.00 € submit
1200.00 € submit
03/11/2016
People who looked at this resource also viewed the following: