Search and Browse – ELRA Catalogue

Resource Type:

Corpus:
Lexical/Conceptual:
Tool/Service:
Language Description:

Media Type:

Text:
Audio:
Image:
Video:
Text Numerical:
Text N-Gram:

3 Language Resources

Order by:

Collins Multilingual database (MLD) - WordBank text

Arabic
Bengali
Chinese
Croatian
Czech
Danish
Dutch; Flemish
English
Finnish
French
German
Hindi
Italian
Japanese
Korean
Malayalam
Modern Greek (1453-)
Norwegian
Polish
Portuguese
Romanian; Moldavian; Moldovan
Russian
Spanish; Castilian
Swedish
Tamil
Thai
Turkish
Ukrainian
Vietnamese

ID: ELRA-T0376

ISLRN: 990-814-402-335-7

The Collins Multilingual database covers Real Life Daily vocabulary. It is composed of a multilingual lexicon in 32 languages (the WordBank) and a multilingual set of sentences in 28 languages (the PhraseBank, distributed separately under reference ELRA-T0377). The WordBank contains 10,000 words...

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	2400.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	3600.00 €

Parallel Corpora for 6 Indian Languages text

Bengali
English
Hindi
Malayalam
Tamil
Telugu
Urdu

ID: ELRA-W0320

ISLRN: 657-350-757-058-6

The Parallel Corpora for 6 Indian Languages contains data sets for Bengali (540,000 words – 20,000 parallel sentences), Hindi (1,200,000 words – 37 000 parallel sentences), Malayalam (660,000 words – 29,000 parallel sentences), Tamil (747,000 words – 35,000 parallel sentences), Telugu (951,000 wo...

MEMBER	academic	commercial
Licence: Attribution, Share Alike - CC-BY-SA-3.0	0.00 €	0.00 €

NON MEMBER	academic	commercial
Licence: Attribution, Share Alike - CC-BY-SA-3.0	0.00 €	0.00 €

The EMILLE/CIIL Corpus text

Assamese
Bengali
English
Gujarati
Hindi
Kannada
Kashmiri
Malayalam
Marathi
Oriya (macrolanguage)
Panjabi; Punjabi
Sinhala; Sinhalese
Tamil
Telugu
Urdu

ID: ELRA-W0037

ISLRN: 039-846-040-604-0

The EMILLE/CIIL Corpus consists of three components: monolingual, parallel and annotated corpora. There are fourteen monolingual corpora, including both written and (for some languages) spoken data for fourteen South Asian languages: Assamese, Bengali, Gujarati, Hindi, Kannada, Kashmiri, Malayala...

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	0.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	0.00 €