ATCO2 Project Data

View resource name in all available languages

Données du projet ATCO2

589-403-577-685-7

ID:

ELRA-S0484

ATCO2 project aims at developing a unique platform allowing to collect, organize and pre-process air-traffic control (voice communication) data from air space. This project has received funding from the Clean Sky 2 Joint Undertaking (JU) under grant agreement No 864702. The JU receives support from the European Union’s Horizon 2020 research and innovation programme and the Clean Sky 2 JU members other than the Union.

The project collected the real-time voice communication between air-traffic controllers and pilots available either directly through publicly accessible radio frequency channels or indirectly from air-navigation service providers (ANSPs). In addition to the voice communication data, contextual information is available in a form of metadata (i.e. surveillance data). The dataset consists of two distinct packages:

- A corpus of 4000 hours (untranscribed) of air-traffic control speech collected across different airports (Sion, Bern, Zurich, etc.) in .wav format for speech recognition. Speaker distribution is 90/10% between males and females and the group contains native and non-native speakers of English.

- A corpus of 4 hours (transcribed) of air-traffic control speech collected across different airports (Sion, Bern, Zurich, etc.) in .wav format for speech recognition. Speaker distribution is 90/10% between males and females and the group contains native and non-native speakers of English. This corpus has been transcribed with orthographic information in XML format with speaker noise information, SNR values and others.

View resource description in French

Le projet ATCO2 a pour but de développer une plateforme unique permettant de collecter, organiser, et pré-traiter des données de contrôle du trafic (communication vocales) de l’espace aérien. Le projet a reçu un financement de l’entreprise commune Clean Sky 2 sous la convention de subvention No. 864702. L’entreprise commune a reçu le soutien du programme d’innovation et de recherche de l’Union Européenne Horizon 2020 et des membres de Clean Sky 2 autres que ceux de l’Union Européenne.

Le projet a collecté les communications vocales en temps réel entre les contrôleurs aériens et les pilotes disponibles soit directement via les fréquences radios publiquement accessibles soit indirectement par l’intermédiaire des prestataires de service de la navigation aérienne (PSNA). En complément des communications vocales, des informations contextuelles sont disponibles sous la forme de métadonnées (ex. données de surveillance radar). L’ensemble de données est composé de deux sous-ensemble distincts :

- Un corpus de 4000 heures (non transcrites) de conversations du trafic aérien collectées entre différents aéroports (Sion, Berne, Zurich, etc.) au format .wav pour la reconnaissance de la parole. La distribution des locuteurs est de 90% d’hommes et 10% de femmes. Le groupe est constitué de locuteurs natifs et non-natifs de l’anglais.

- Un corpus de 4 heures (transcrites) de conversations du trafic aérien collectées entre différents aéroports (Sion, Berne, Zurich, etc.) au format .wav pour la reconnaissance de la parole. La répartition des locuteurs est de 90% d’hommes et 10% de femmes. Le groupe est constitué de locuteurs natifs et non-natifs de l’anglais. Le corpus a été transcrit avec des informations orthographiques au format XML, incluant les annotations sur le bruit, les valeurs de ratio signal bruit et d’autres informations.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1000.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
5000.00 € submit
5000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1000.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
5000.00 € submit
5000.00 € submit
19/10/2022
People who looked at this resource also viewed the following: