Persian Speech Corpus – ELRA Catalogue

Last view: 2025-07-07

37 Last view: 2025-07-07

Persian Speech Corpus

View resource name in all available languages

Corpus oral du persan

ISLRN: 058-406-130-314-1

ID:

ELRA-S0415

This dataset contains more than 31 hours and 30 minutes of Persian scripted monologue and dialogue data, recorded from 89 Persian speakers (39 males and 50 females) between 17-80 years old in Iran (Tehrani dialect). Recordings were made between April and January 2022. Data consists of read and spontaneous speech recordings: books read by a person, recorded podcasts, articles in the newspapers, radio conversations, phone dialogues.

Domains are labelled and include: Accounting (ACC), Banking (BAN), Economics (ECO), Finance (FIN), Insurance (INS), Literature (LIT), Marketing (MBA), Medicine (MED), Psychology (PSY), Science (SCI), Technology (TEK), Telecommunication (TEL), and Law (LAW).

The total number of words is 242757

The package consists of 12,232 recording files. Metadata files, including transcriptions, are provided in TSV format and audio files are provided in MP3 format. An Access database containing all written data of the corpus is also provided. All transcriptions were manually done by native speakers of Persian.

View resource description in French

Cette base de données comprend plus de 31 heures et 30 minutes de données contenant des monologues et dialogues scénarisés en persan, enregistrés en Iran (dialecte de Téhéran) par 89 locuteurs du persan de 17 à 80 ans (39 hommes et 50 femmes). Les enregistrements ont été réalisés entre avril et janvier 2022. Les données comprennent des enregistrements de parole lue et spontanée: livre lus par une personne, podcasts, articles de journaux, conversations radiophoniques, dialogues téléphoniques.

Les domaines sont étiquetés et comprennent: comptabilité (ACC), banque (BAN), économie (ECO), finance (FIN), assurance (INS), littérature (LIT), marketing (MBA), médecine (MED), psychologie (PSY), science (SCI), technologie (TEK), télécommunication (TEL) et droit (LAW).

Le nombre total de mots est de 242757.

L’ensemble consiste en 12232 fichiers d’enregistrement. Les fichiers de métadonnées incluant les transcriptions sont fournis au format TSV et les fichiers audio au format MP3. Une base de données Access contenant toutes les données écrites du corpus est également fournie. Toutes les transcriptions ont été réalisées manuellement par des locuteurs natifs du persan.

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	1000.00 €	4000.00 €
Licence: Commercial Use - ELRA VAR	4000.00 €	4000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	2000.00 €	6000.00 €
Licence: Commercial Use - ELRA VAR	6000.00 €	6000.00 €

DistributionAvailability start date 27/09/2022 Contact Person

Valérie Mapelli

audio

Monolingual audio corpusLanguages

Persian

Linguality

Linguality type: Monolingual

Size

31.5 Hours

Metadata

Created: 09/27/2022

Last Updated: 09/27/2022

Metadata Language: French, English (fr, en)

People who looked at this resource also viewed the following: