Glissando-ca

ISLRN: 780-617-066-913-1

ID:

ELRA-S0407

Glissando-ca includes more than 12 hours of speech in Catalan, recorded under optimal acoustic conditions, orthographically transcribed, phonetically aligned and annotated with prosodic information (location of the stressed syllables and prosodic phrasing). The corpus was recorded by 8 professional speakers and 20 non-professional speakers: 4 “news broadcaster” professional speakers (2 male and 2 female), 4 “advertising” professional speakers (2 male and 2 female), and 20 non-professional speakers (10 male and 10 female). Glissando-sp has been specially designed for prosodic studies, but can be used also for other purposes. Its structure, as well as the high number of speakers who recorded the corpus, makes the Glissando corpus especially suitable for inter-speaker and inter-style prosodic analyses.

Glissando-ca has an equivalent corpus for Spanish, Glissando-sp, with the same structure and features, which make them suitable also for inter language comparisons (see ELRA-T0406, http://catalog.elra.info/en-us/repository/browse/ELRA-S0406/).

Both corpora are the result of a coordinated project involving Pompeu Fabra University (UPF), the Autonomous University of Barcelona (UAB) and the University of Valladolid (UVA).

Glissando-ca is made of three subcorpora:
1) the “News” subcorpus contains the recordings of readings of real news texts (provided by “Cadena Ser” radio station), which were modified to meet the desired segmental and prosodic requirements established for the corpus (“Prosodic” subcorpus with 36 recordings of texts meeting prosodic criteria and “Phonetic” subcorpus with 36 recordings of texts meeting segmental criteria). It was recorded by 8 professional speakers, four of them having a “news broadcaster” and four an “advertising” profile. Four of them recorded both the “Prosodic” and “Phonetic” subcorpora, and four only the “Prosodic” subcorpus. Every text was designed to be read in one minute approximately, although the actual duration of the recordings depends on the speaker.

2) the “Task dialogues” subcorpus contains a set of recorded interactions between two speakers oriented to a specific goal in the domain of information requests. In each conversation, one of the speakers plays the role of instruction-giver and the other, the role of instruction follower. Three types of interactions were recorded: a) telephone-like conversations between an operator and a customer who wants information on prices and schedules of a specific route, b) information requests for an exchange university between a school’s administrative officer that provides information on the possibilities for a course at a foreign university and a student who requests for it, and c) one of the speakers plays the role of somebody who is planning a trip to the Greek island of Corfu, and calls a colleague who has lived for 5 years in Greece, in order to request for specific information concerning the route on the island. There is no specific route to reproduce; there is only an initial and a final point of the trip, and some places to visit on the way. These tasks were performed by 12 different pairs of speakers: 1 pair of “news broadcaster” professional speakers, 1 pair of “advertising” professional speakers, and 10 pairs of non-professional speakers.

3) the “Free dialogues” subcorpus contains a set of recordings of conversations between people who have some degree of familiarity with each other. The dialogue was started from the question “Do you remember how you met each other?”, but the speakers were free to change to other topics during their conversation. These conversations were recorded by 6 different pairs of speakers: 1 pair of “news broadcaster” professional speakers, 1 pair of “advertising” professional speakers, 4 pairs of non-professional speakers.

Recordings were made at a soundproof room of Communication Campus of the Pompeu Fabra University, in Barcelona. The Sony Vegas program, running on a PC with a RME Hammerfall HDSP 9652 soundcard, and a Yamaha 02R96 mixer with ADAT MY16AT cards, were used for recordings, at a sampling frequency of 48 KHz.

All the recordings were made using two microphones for each speaker: a fixed directional one (AKG C 414 B-ULS) and a headset wireless one (Senheisser EW100-G2).

Recordings were stored in wav files: mono files for the “News” subcorpus and stereo files, containing in separate channels the speech of the two participants in the conversation (they were recorded using different microphones), for the “Task” and “Free” dialogues.

The corpus includes the orthographic transcription of the recordings in separate files: txt files, containing only the raw text, in the case of the “News” corpus (these files contain the actual text read by every speaker) and xml files, containing an enriched transcription of the conversations, carried out by human transcribers, following TEI conventions, in the case of “Task” and “Free” dialogues.

Word-by-word orthographic transcription is also provided in a Praat TextGrid file, timealigned with the signal. This Praat TextGrid file includes also the phonetic transcription of the recordings, timealigned with the speech signal: automatically transcribed from the news texts, automatically aligned and then revised by human experts, in the case of the “News” subcorpus, and automatically transcribed from the orthographical transcriptions of conversations and automatically aligned, in the case of the “Task” and “Free” dialogues subcorpora.

The phonetic transcription was done using the SAMPA phonetic alphabet.

The TextGrid file includes also three tiers with the segmentation in syllables, major intonation groups and minor intonation groups: obtained automatically using prosodic annotation tools and then revised by human experts, in the case of the “News” subcorpus, and obtained automatically using prosodic annotation tools, in the case of the “Task” and “Free” dialogues subcorpora.

View resource description in French

Glissando-ca comprend plus de 12 heures de parole en catalan, enregistrées sous des conditions acoustiques optimales, transcrites au niveau orthographique, alignées au niveau phonétique et annotées avec des informations prosodiques (emplacement des syllabes accentuées et phrasé prosodique). Le corpus a été enregistré par 8 locuteurs professionnels et 20 non professionnels: 4 locuteurs professionnels “journalistes d’actualités” (2 hommes et 2 femmes), 4 locuteurs professionnels “publicitaires” (2 hommes et 2 femmes), et 20 locuteurs non professionnels (10 hommes et 10 femmes). Glissando-ca a été conçu spécialement pour des études en prosodie mais peut également être utilisé pour d’autres tâches. Sa structure, ainsi que le nombre élevé de locuteurs enregistrés dans le corpus font de Glissando un corpus particulièrement approprié pour les analyses prosodiques inter-locuteurs et inter-styles.

Glissando-ca possède un équivalent pour l’espagnol, Glissando-sp (see ELRA-T0406, http://catalog.elra.info/en-us/repository/browse/ELRA-S0406/), avec une structure et des attributs identiques, qui le rendent également exploitable pour des comparaisons inter-langues.

Les deux corpus sont le résultat d’un projet de collaboration impliquant l’Université Pompeu Fabra (UPF), l’Université Autonome de Barcelone (UAB) et l’Université de Valladolid (UVA).

Glissando-ca est constitué de trois sous-corpus:
1) le sous corpus “Actualités” comprend les enregistrements de textes d’actualités réels lus (fournis par la station de radio “Cadena Ser”), qui ont été modifiés afin de correspondre aux besoins de segmentation et de prosodie définis pour le corpus (un sous-corpus “Prosodique” composé de 36 enregistrements de textes correspondant aux critères de prosodie et un sous-corpus “Phonétique” de 36 enregistrements de textes correspondant aux critères de segmentation). Il a été enregistré par 8 locuteurs professionnels, quatre ayant un profil “journaliste d’actualités” et quatre ayant un profil “publicitaire”. Quatre d’entre eux ont enregistré les deux sous-corpus “Prosodique” et “Phonétique”, et quatre ont enregistré uniquement le sous-corpus “Prosodique”. Chaque texte a été conçu pour être lu une minute environ, même si la durée réelle des enregistrements dépend de chaque locuteur.

2) Le sous-corpus “Dialogues de tâches” comprend un ensemble d’interactions enregistrées entre deux locuteurs orientés dans un but spécifique dans le cadre de demandes d’informations. Pour chaque conversation, l’un des locuteurs joue le rôle d’instructeur et l’autre le rôle de suiveur d’instruction. Trois types d’interactions ont été enregistrées: a) des conversations de type téléphonique entre un opérateur et un client demandant des informations sur les prix et horaires pour un itinéraire spécifique, b) des demandes d’informations pour une université d’échange entre un fonctionnaire administratif universitaire qui fournit des informations sur les possibilités d’un cours dans une université étrangère et un étudiant qui en fait la demande, et c) l’un des locuteurs joue le rôle d’une personne planifiant un voyage sur l’île grecque de Corfou et qui appelle un collègue qui a vécu 5 ans en Grèce, afin d’obtenir des informations spécifiques pour un itinéraire sur l’île. Il n’y a pas d’itinéraire spécifique à reproduire, mais uniquement un point de départ et d’arrivé du voyage, et quelques lieux à visiter sur le chemin. Ces tâches ont été réalisées par 12 paires de locuteurs différents: 1 paire de locuteurs professionnels “journalistes d’actualités ”, 1 paire de locuteurs professionnels “publicitaires”, et 10 paires de locuteurs non professionnels.

3) Le sous-corpus “Dialogues libres” comprend les enregistrements de conversations entre des personnes ayant un certain degré de connaissance entre eux. Le dialogue démarre avec la question “Vous souvenez-vous comment vous vous êtes rencontrés?”, mais les locuteurs sont ensuite libre s de changer de sujet pendant la conversation. Ces conversations ont été enregistrées par 6 paires de locuteurs différents: 1 paire de locuteurs professionnels “journalistes d’actualités”, 1 paire de locuteurs professionnels “publicitaires”, et 4 paires de locuteurs non professionnels.

Les enregistrements ont été produits dans une salle insonorisée du Campus Communication de l’Université Pompeu Fabra, à Barcelone. Le programme Sony Vegas, fonctionnant sur PC avec une carte son RME Hammerfall HDSP 9652, et un mixeur Yamaha 02R96 avec des cartes ADAT MY16AT, ont été utilisés à une fréquence d’échantillonnage de 48 kHz.

Tous les enregistrements ont été réalisés en utilisant deux microphones pour chaque locuteur: un directionnel fixe (AKG C 414 B-ULS) et un micro-casque sans fil (Senheisser EW100-G2).

Les enregistrements sont stockés en fichiers wav: des fichiers mono pour le sous-corpus “Actualités” et des fichiers stéréo, contenant des canaux de parole séparés pour les deux participants aux conversations (enregistrés en utilisant différents microphones), pour les dialogues de “Tâches” et “Libres”.

Le corpus comprend les transcriptions orthographiques des enregistrements dans des fichiers séparés: des fichiers txt contenant uniquement le texte brut pour le corpus “Actualités” (ces fichiers contiennent le texte lu par chaque locuteur) et des fichiers xml contenant la transcription enrichie des conversations, réalisée par des transcripteurs humains, en suivant les conventions TEI, pour les dialogues de “Tâches” et “Libres”.

Une transcription orthographique mot à mot est également fournie dans un fichier TextGrid Praat, aligné au niveau temporel avec le signal. Ce fichier TextGrid Praat incluse également une transcription phonétique des enregistrements alignés au niveau temporel avec le signal de parole: une transcription automatique à partir des textes d’actualités, alignée automatiquement et révisée par des experts humains dans le cas du sous-corpus “Actualités”, et une transcription automatique à partir des transcriptions orthographiques des conversations et alignées automatiquement dans le cas des sous-corpus de dialogues de “Tâches” et “Libres”.

La transcription phonétique a été réalisée en utilisant l’alphabet phonétique SAMPA.

Le fichier TextGrid inclue trois niveaux de segmentation en syllabes, groupes d’intonation majeure et groupes d’intonation mineure: obtenus automatiquement en utilisant des outils d’annotation prosodique puis révisés par des experts humains, dans le cas de sous-corpus “Actualités”, et obtenus automatiquement en utilisant des outils d’annotation prosodique dans le cas des sous-corpus de dialogues de “Tâches” et “Libres”.

MEMBER	academic	commercial
Licence: Attribution, Non Commercial Use, Share Alike - CC-BY-NC-SA	0.00 €	0.00 €

NON MEMBER	academic	commercial
Licence: Attribution, Non Commercial Use, Share Alike - CC-BY-NC-SA	0.00 €	0.00 €