Comprehensive Arabic Phonetic Database

View resource name in all available languages

Base de données phonétique complète de l’arabe

511-751-240-544-8

ID:

ELRA-S0493

The Comprehensive Arabic Phonetic Database is a robust and detailed linguistic resource offering both phonemic and phonetic transcriptions, precisely reflecting how Modern Standard Arabic words are realized in actual speech. This database is ideally suited for speech technology applications.

This is a highly comprehensive and accurate Arabic phonetic/phonemic database, covering over 329,000 entries as follows:

1. Over 61,000 general vocabulary entries including feminine and plural forms
2. Over 101,000 Arab personal names (given names and surnames)
3. Over 143,000 foreign personal names in Arabic
4. Over 21,000 worldwide place names both Arab and non-Arab
Total entries: 329,012

Each entry consists of canonical forms both vocalized and unvocalized (as in natural language) accompanied by phonetic transcriptions in IPA and X-SAMPA and the user-friendly CARS phonemic transcription system. Additionally, unique features include explicit indication of vowel neutralization, accurate word stress, gender and number codes (singular or plural), and POS (part-of-speech) codes.

A high attention has been paid to the IPA transcription accuracy, particularly in representing vowel velarization and centralization. For instance, the word إِهْرَاقٌ is transcribed as [ʔih.ˈrˤɑˤː.qʊn], accurately capturing both velarized and centralized vowels, while its phonemic transcription appears as /ʾihrā́qun/. Notably, even the pharyngealization of /r/ is explicitly shown as [rˤ].

Quantity and size: 329,012 lines / 30.8 MB

File format: flat TSV text file

View resource description in French

La base de données phonétique complète de l’arabe est une ressource linguistique robuste et détaillée offrant des transcriptions phonémiques et phonétiques, reflétant précisément la façon dont les mots de l’arabe standard moderne sont produits dans la parole réelle. Cette base de données est idéale pour les applications de technologie vocale.

Il s'agit d'une base de données phonétique/phonémique arabe extrêmement complète et précise, couvrant plus de 329 000 entrées comme suit:

1. Plus de 61 000 entrées de vocabulaire général incluant des formes du féminin et du pluriel
2. Plus de 101 000 noms de personnes arabes (noms et prénoms)
3. Plus de 143 000 noms de personnes étrangères en arabe
4. Plus de 21 000 noms de lieux du monde entier, arabes et non arabes
Nombre total d’entrées: 329 012

Chaque entrée se compose de formes canoniques voyellisées et non voyellisées (comme dans le langage naturel) accompagnées de transcriptions phonétiques en IPA et X-SAMPA, ainsi que du système de transcription phonémique CARS, conçu pour un usage convivial. De plus, cette base de données offre des particularités uniques consistant en une indication explicite de la neutralisation des voyelles, une accentuation précise des mot, des codes de genre et de nombre (singulier ou pluriel) et des codes de partie du discours (POS).

Une très grande attention a été portée sur la précision de la transcription IPA, en particulier dans la représentation de la vélarisation et de la centralisation des voyelles. À titre d’exemple, le mot إِهْرَاقٌ est transcrit sous le nom de [ʔih.ˈrˤɑˤː.qʊn], capturant avec précision à la fois les voyelles vélarisées et centralisées, tandis que sa transcription phonémique apparaît sous le nom de /ʾihrā́qun/. Notamment, même la pharyngéalisation de /r/ est explicitement indiquée comme [rˤ].

Quantité et taille: 329 012 lignes / 30,8 Mo

Format du fichier: fichier texte TSV plat

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
5400.00 € submit
9000.00 € submit
Licence: Commercial Use - ELRA VAR
10800.00 € submit
18000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
6750.00 € submit
11250.00 € submit
Licence: Commercial Use - ELRA VAR
13500.00 € submit
22500.00 € submit
21/03/2025
People who looked at this resource also viewed the following: