DiaLEX – Saudi Arabian Hijazi (DiaLEX-HA) – ELRA Catalogue

Last view: 2024-04-28

375 Last view: 2024-04-28

Last update: 2023-12-04

2 Last update: 2023-12-04

DiaLEX – Saudi Arabian Hijazi (DiaLEX-HA)

View resource name in all available languages

DiaLEX – Hijazi d’Arabie Saoudite (DiaLEX-HA)

ISLRN: 849-157-479-216-3

ID:

ELRA-L0208

The Hijazi Arabic Full-Form Lexicon (DiaLEX-HA) is a comprehensive computational lexicon covering the Hijazi Arabic dialect. Featuring over 21,000,000 forms for 30,000 lemmas, this full-form lexicon provides exhaustive treatment of all inflected forms.

DiaLEX-HA has several features that make it ideally suited to support natural language processing applications for Hijazi Arabic, especially morphological analysis and speech technology, including:

1. Extremely comprehensive coverage – over 21 million entries
2. Comprehensive treatment of all inflected forms, enclitics, proclitics, case endings, declensions, and conjugated forms.
3. Full and accurate diacriticization (vocalization), essential for speech technology.
4. Extensive coverage of variants which is necessary since dialects don't have a standard orthography.

Please note: Phonetic transcriptions, IPA and/or SAMPA, fine-tuned to the licensor’s specifications, are available upon request.

Quantity and size: 20,247,655 lines / 2,835 MB (2.8 GB)

File format: flat TSV text files

Samples and a specifications document are available upon request.

View resource description in French

Ce lexique complet comprend les formes entières du vocabulaire général couvrant le dialecte arabe hijazi (DiaLEX-HA). Avec plus de 21,000,000 formes pour 30,000 lemmes, ce lexique présente un traitement exhaustif de toutes les formes fléchies.

DiaLEX-HA offre plusieurs éléments qui en font un lexique idéal pour les applications de traitement automatique des langues pour l’arabe hijazi, tout particulièrement pour l’analyse morphologique et les technologies vocales. Notamment, il contient :
1. Une couverture extrêmement complète - plus de 21 millions d’entrées
2. Un traitement intégral de toutes les formes fléchies, enclitiques, proclitiques, terminaisons, déclinaisons et formes conjuguées.
3. Une diacritisation complète et précise (vocalisation), essentielle pour les technologies vocales.
4. Une large couverture de variantes, nécessaire pour les dialectes ne présentant pas d’orthographe standardisée.

Remarque : les transcriptions phonétiques en IPA et/ou SAMPA peuvent être fournies, en les affinant selon les spécifications du client, à la demande.

Quantité et taille: 20,247,655 lignes / 2,835 Mo (2.8 Go)

Format de fichier: fichiers textes simples au format TSV

Des échantillons et document de spécifications sont disponibles à la demande.

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	12000.00 €	20000.00 €
Licence: Commercial Use - ELRA VAR	24000.00 €	40000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	15000.00 €	25000.00 €
Licence: Commercial Use - ELRA VAR	30000.00 €	50000.00 €

DistributionAvailability start date 04/12/2023 Contact Person

Valérie Mapelli

text

Lexical Conceptual Resource General Information

Lexicon

Monolingual text lexicalConceptualResourceLanguages

Arabic

Region: Saudi Arabia

Linguality

Linguality type: Monolingual

Size

21,000,000 Entries

Metadata

Created: 05/12/2005

Metadata Language: French, English (fr, en)

Version

Version: 1.0

People who looked at this resource also viewed the following: