This thesis has been submitted in fulfilment of the requirements for a postgraduate degree (e.g. PhD, MPhil, DClinPsychol) at the University of Edinburgh. Please note the following terms and conditions of use: This work is protected by copyright and other intellectual property rights, which are retained by the thesis author, unless otherwise stated. A copy can be downloaded for personal non-commercial research or study, without prior permission or charge. This thesis cannot be reproduced or quoted extensively from without first obtaining permission in writing from the author. The content must not be changed in any way or sold commercially in any format or medium without the formal permission of the author. When referring to this work, full bibliographic details including the author, title, awarding institution and date of the thesis must be given. Multi-Dialect Arabic Broadcast Speech Recognition Ahmed Ali U N I VE R E S I H T T Y O H G F R E U DI N B Doctor of Philosophy Institute for Language, Cognition and Computation School of Informatics University of Edinburgh 2018 Lay Summary Multi-dialect speech recognition is an important challenge due to the growing adoption of personal assistant devices and smart phones. In particular, Arabic poses an interesting challenge as the language has many dialects, and dialectal Arabic (DA) does not have standard orthographic rules. Despite the fact that there has been a great deal of speech recognition research in modern standard Arabic (MSA), which constitutes formal speech, there is still no open platform with standard lexicon and training data to benchmark results and advance the state of the art in Arabic automatic speech recognition (ASR). With regards to DA, it is lacking speech resources as well as appropriate methods for evaluating dialectalspeechrecognition. Thestandardworderrorrate(WER)metricassumes a single reference is sufficient for a single speech utterance, which is not true for non-orthographic languages, such as DA. This thesis concerns understanding and evaluating multi-dialect Arabic ASR without prior knowledge about the Arabic dialect that will be given as speech input. Therefore, we address the following three challenges: (1) finding labelled dialectal Arabic speech data, (2) building robust dialectal speech recognition with limited labelled data and (3) evaluating speech recognition for dialects with no orthographic rules. We make the following contributions: Arabic Dialect Identification: We are concerned with Arabic speech without prior knowledge of the spoken dialect. Arabic dialects are sufficiently diverse to the extent that one can argue to describe them as different languages rather than dialects of the same language. Thus, automatically identifying the input dialect can greatly improve ASR. We look at two main groups of features: acoustic features and linguistic features. For the linguistic features, we look at a wide range of features; addressing words, characters and phonemes. With respect to acoustics, we look at raw features such as mel-frequency cepstral coefficients combined with shifted delta cepstra (MFCC-SDC), bottleneck features and the i-vector as a latent variable. In our work, we classify Arabic into five dialects: (i)Egyptian, (ii)Levantine, (iii)Gulf or Arabic peninsula, (iv)North African or Moroccan and finally (v)Modern Standard Arabic. Arabic Speech Recognition: WeintroduceoureffortinbuildingArabicspeech recognition, and we create an open research community platform to advance it. We have two main goals: First, we create a framework for Arabic speech recog- i nition that is publicly available for research. We address our effort in building two multi-genre broadcast (MGB) challenges. MGB-2 focuses on broadcast news using more than 1,200 hours of speech and 130M words for text collected from Al Jazeera broadcast news channel and their website: Aljazeera.net. MGB- 3, however, focuses on dialectal multi-genre data with limited non-orthographic speechdatacollectedfromYouTube, withspecialattentionpaidtotransferlearn- ing. Second, we build a robust Arabic speech recognition system and reporting a competitive WER results and use it as a benchmark to advance the state of the art in Arabic ASR. Evaluation: The third part of the thesis addresses our effort in evaluating di- alectal speech with no orthographic rules. Our methods learn from multiple transcribers and align the speech hypotheses to overcome the non-orthographic aspect. We have also automated this process by learning from Twitter data’s different writing and we propose a new evaluation metric. Finally, we tried to estimate the word error rate with no reference transcription using decoding and language features. We show that our word error rate estimation is robust for many scenarios with and without the decoding features. ii (cid:9) (cid:161)(cid:74)(cid:130)(cid:29) (cid:145)(cid:106)(cid:202)(cid:211) (cid:10) (cid:46) (in Arabic) (cid:65)(cid:174)(cid:16)(cid:10)(cid:74)(cid:74)(cid:46)(cid:162)(cid:16)(cid:29) (cid:233)(cid:16)(cid:10)(cid:74)(cid:203)(cid:14)(cid:64) (cid:16)(cid:232)(cid:80)(cid:241)(cid:146)(cid:29)(cid:46) (cid:72)(cid:46) (cid:241)(cid:16)(cid:74)(cid:186)(cid:211) (cid:208)(cid:67)(cid:191) (cid:250)(cid:205)(cid:13)(cid:64) (cid:16)(cid:232)(cid:88)(cid:89)(cid:170)(cid:16)(cid:74)(cid:214)(cid:207)(cid:64) (cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:65)(cid:75)(cid:46) (cid:168)(cid:241)(cid:210)(cid:130)(cid:214)(cid:207)(cid:64) (cid:208)(cid:67)(cid:190)(cid:203)(cid:64) (cid:201)(cid:10)(cid:75)(cid:241)(cid:109)(cid:26)(cid:16)(cid:39) (cid:89)(cid:170)(cid:75)(cid:10) (cid:13) (cid:16)(cid:232)(cid:88)(cid:65)(cid:75)(cid:10)(cid:81)(cid:9)(cid:203)(cid:240) (cid:44)(cid:233)(cid:16)(cid:74)(cid:10)(cid:187)(cid:89)(cid:9)(cid:203)(cid:64) (cid:173)(cid:9)(cid:16)(cid:75)(cid:64)(cid:241)(cid:234)(cid:203)(cid:64)(cid:240) (cid:233)(cid:16)(cid:10)(cid:74)(cid:146)(cid:106)(cid:9) (cid:130)(cid:17)(cid:203)(cid:64) (cid:16)(cid:232)(cid:89)(cid:171)(cid:65)(cid:130)(cid:214)(cid:207)(cid:64) (cid:16)(cid:232)(cid:81)(cid:9)(cid:234)(cid:107)(cid:46)(cid:64) (cid:250)(cid:206)(cid:171) (cid:88)(cid:65)(cid:210)(cid:16)(cid:74)(cid:171)(cid:66)(cid:64) (cid:16)(cid:232)(cid:88)(cid:65)(cid:10)(cid:75)(cid:81)(cid:9)(cid:203) (cid:64)(cid:81)(cid:162)(cid:9)(cid:29)(cid:9) (cid:189)(cid:203)(cid:88)(cid:9)(cid:240) (cid:44)(cid:65)(cid:210)(cid:19)(cid:234)(cid:211) (cid:13) (cid:81)(cid:9)(cid:30)(cid:10)(cid:210)(cid:16)(cid:74)(cid:16)(cid:75) (cid:46)(cid:250)(cid:16)(cid:71)(cid:241)(cid:146)(cid:203)(cid:64) (cid:201)(cid:171)(cid:65)(cid:174)(cid:9)(cid:16)(cid:74)(cid:203)(cid:64) (cid:200)(cid:67)(cid:103)(cid:9) (cid:225)(cid:9) (cid:211) (cid:233)(cid:16)(cid:147)(cid:65)(cid:103)(cid:9) (cid:44)(cid:233)(cid:16)(cid:74)(cid:10)(cid:170)(cid:74)(cid:10)(cid:74)(cid:46)(cid:163) (cid:16)(cid:232)(cid:80)(cid:241)(cid:146)(cid:29)(cid:46) (cid:16)(cid:232)(cid:81)(cid:9)(cid:234)(cid:107)(cid:46)(cid:66)(cid:64) (cid:232)(cid:89)(cid:9)(cid:235) (cid:169)(cid:211) (cid:201)(cid:171)(cid:65)(cid:174)(cid:9)(cid:16)(cid:74)(cid:202)(cid:203) (cid:233)(cid:16)(cid:107)(cid:46)(cid:65)(cid:109)(cid:204)(cid:39)(cid:64) (cid:10) (cid:13) (cid:80)(cid:9)(cid:81)(cid:75)(cid:46)(cid:64) (cid:225)(cid:9) (cid:211) (cid:201)(cid:170)(cid:203)(cid:240) (cid:44)(cid:250)(cid:16)(cid:71)(cid:241)(cid:146)(cid:203)(cid:64) (cid:201)(cid:103)(cid:9) (cid:89)(cid:214)(cid:207)(cid:64) (cid:169)(cid:211) (cid:201)(cid:211)(cid:65)(cid:170)(cid:16)(cid:74)(cid:203)(cid:64) (cid:233)(cid:16)(cid:75)(cid:46)(cid:241)(cid:170)(cid:147) (cid:225)(cid:9) (cid:211) (cid:89)(cid:75)(cid:10)(cid:81)(cid:9)(cid:16)(cid:75) (cid:72)(cid:16) (cid:65)(cid:214)(cid:222)(cid:133) (cid:16)(cid:232)(cid:89)(cid:170)(cid:75)(cid:46) (cid:233)(cid:16)(cid:10)(cid:74)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:233)(cid:16)(cid:170)(cid:9)(cid:202)(cid:203)(cid:64) (cid:10) (cid:16) (cid:9) (cid:16) (cid:16)(cid:9) (cid:16)(cid:9) (cid:9) (cid:16) (cid:16) (cid:16) (cid:9) (cid:89)(cid:171)(cid:64)(cid:241)(cid:175) (cid:88)(cid:241)(cid:107)(cid:46)(cid:240) (cid:208)(cid:89)(cid:171)(cid:240) (cid:44)(cid:250)(cid:106)(cid:146)(cid:174)(cid:203)(cid:64) (cid:233)(cid:10)(cid:74)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:233)(cid:170)(cid:202)(cid:203)(cid:64) (cid:250)(cid:205)(cid:13)(cid:64) (cid:233)(cid:175)(cid:65)(cid:147)(cid:66)(cid:13) (cid:65)(cid:75)(cid:46) (cid:72)(cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:88)(cid:89)(cid:170)(cid:75) (cid:58)(cid:72)(cid:65)(cid:210)(cid:130)(cid:203)(cid:64) (cid:232)(cid:89)(cid:235) (cid:13) (cid:72)(cid:16)(cid:81)(cid:9)(cid:187)(cid:80) (cid:46)(cid:40)(cid:233)(cid:16)(cid:10)(cid:75)(cid:80)(cid:241)(cid:130)(cid:203)(cid:64)(cid:240) (cid:233)(cid:16)(cid:75)(cid:10)(cid:81)(cid:229)(cid:148)(cid:214)(cid:207)(cid:64) (cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:201)(cid:17)(cid:74)(cid:211)(cid:41) (cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:225)(cid:9) (cid:211) (cid:248)(cid:66) (cid:233)(cid:16)(cid:75)(cid:46)(cid:65)(cid:16)(cid:74)(cid:186)(cid:202)(cid:203) (cid:16)(cid:232)(cid:81)(cid:174)(cid:16)(cid:16)(cid:74)(cid:130)(cid:211) (cid:233)(cid:16)(cid:10)(cid:74)(cid:75)(cid:13)(cid:65)(cid:106)(cid:46) (cid:235) (cid:10) (cid:14) (cid:13) (cid:13) (cid:213)(cid:203) (cid:233)(cid:16)(cid:74)(cid:10)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:225)(cid:9) (cid:186)(cid:203)(cid:240) (cid:44)(cid:250)(cid:106)(cid:146)(cid:174)(cid:9)(cid:203)(cid:64) (cid:233)(cid:16)(cid:74)(cid:10)(cid:75)(cid:46)(cid:81)(cid:170)(cid:202)(cid:203) (cid:250)(cid:205)(cid:66)(cid:64) (cid:201)(cid:75)(cid:10)(cid:241)(cid:106)(cid:16)(cid:74)(cid:203)(cid:64) (cid:250)(cid:206)(cid:171) (cid:233)(cid:16)(cid:174)(cid:16)(cid:75)(cid:46)(cid:65)(cid:130)(cid:203)(cid:64) (cid:72)(cid:17) (cid:65)(cid:109)(cid:26)(cid:39)(cid:46)(cid:66)(cid:64) (cid:73)(cid:46) (cid:202)(cid:171)(cid:9) (cid:64) (cid:10) (cid:173)(cid:9)(cid:10)(cid:75)(cid:81)(cid:170)(cid:16)(cid:75) (cid:169)(cid:211) (cid:233)(cid:16)(cid:107)(cid:241)(cid:16)(cid:74)(cid:174)(cid:9)(cid:211) (cid:233)(cid:16)(cid:146)(cid:74)(cid:9)(cid:211) (cid:224)(cid:9) (cid:14)(cid:66)(cid:64) (cid:250)(cid:230)(cid:16)(cid:107) (cid:89)(cid:103)(cid:46) (cid:241)(cid:75)(cid:10) (cid:66) (cid:200)(cid:65)(cid:17)(cid:74)(cid:214)(cid:207)(cid:64) (cid:201)(cid:74)(cid:10)(cid:28)(cid:46)(cid:131) (cid:250)(cid:206)(cid:170)(cid:175)(cid:9) (cid:46)(cid:208)(cid:65)(cid:210)(cid:16)(cid:74)(cid:235)(cid:66)(cid:64) (cid:129)(cid:174)(cid:9)(cid:74)(cid:9)(cid:75)(cid:46) (cid:249)(cid:162)(cid:9)(cid:109)(cid:26)(cid:16)(cid:39) (cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203) (cid:250)(cid:205)(cid:14)(cid:66)(cid:64) (cid:201)(cid:10)(cid:75)(cid:241)(cid:106)(cid:16)(cid:74)(cid:203)(cid:64) (cid:250)(cid:175)(cid:9) (cid:249)(cid:210)(cid:202)(cid:170)(cid:203)(cid:64) (cid:208)(cid:89)(cid:174)(cid:16)(cid:16)(cid:74)(cid:203)(cid:64) (cid:128)(cid:65)(cid:10)(cid:74)(cid:175)(cid:16) (cid:225)(cid:9) (cid:211) (cid:225)(cid:9) (cid:186)(cid:214)(cid:223)(cid:16) (cid:44)(cid:73)(cid:46) (cid:75)(cid:10)(cid:80)(cid:89)(cid:16)(cid:74)(cid:203)(cid:64) (cid:72)(cid:16) (cid:65)(cid:75)(cid:9)(cid:65)(cid:74)(cid:10)(cid:74)(cid:46)(cid:203) (cid:108)(cid:25)(cid:149)(cid:9) (cid:64)(cid:240) (cid:10) (cid:10) (cid:10) (cid:14) (cid:13) (cid:16) (cid:9) (cid:16) (cid:16) (cid:9) (cid:16) (cid:9)(cid:16) (cid:9) (cid:9) (cid:16) (cid:16) (cid:9)(cid:16)(cid:16) (cid:16) (cid:9) (cid:16)(cid:9) (cid:233)(cid:74)(cid:46)(cid:131)(cid:65)(cid:74)(cid:211) (cid:233)(cid:74)(cid:10)(cid:203)(cid:64) (cid:89)(cid:103)(cid:46) (cid:241)(cid:75) (cid:66) (cid:233)(cid:75)(cid:64) (cid:65)(cid:210)(cid:187) (cid:44)(cid:233)(cid:10)(cid:74)(cid:211)(cid:241)(cid:10)(cid:74)(cid:203)(cid:64) (cid:65)(cid:74)(cid:75)(cid:65)(cid:74)(cid:10)(cid:107) (cid:250)(cid:175) (cid:208)(cid:64)(cid:89)(cid:106)(cid:74)(cid:131)(cid:67)(cid:203) (cid:233)(cid:10)(cid:74)(cid:74)(cid:174)(cid:74)(cid:203)(cid:64) (cid:233)(cid:10)(cid:75)(cid:81)(cid:235)(cid:65)(cid:103)(cid:46) (cid:248)(cid:89)(cid:211) (cid:233)(cid:175)(cid:81)(cid:170)(cid:211)(cid:240) (cid:10) (cid:10) (cid:13) (cid:13) (cid:14) (cid:13) (cid:188)(cid:65)(cid:74)(cid:9)(cid:235) (cid:224)(cid:9) (cid:241)(cid:186)(cid:75)(cid:10) (cid:89)(cid:175)(cid:16) (cid:233)(cid:75)(cid:9)(cid:64) (cid:73)(cid:17) (cid:10)(cid:74)(cid:107) (cid:44)(cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:250)(cid:175)(cid:9) (cid:72)(cid:16) (cid:64)(cid:241)(cid:147)(cid:67)(cid:203) (cid:250)(cid:205)(cid:66)(cid:64) (cid:201)(cid:10)(cid:75)(cid:241)(cid:106)(cid:16)(cid:74)(cid:203)(cid:64) (cid:250)(cid:175)(cid:9) (cid:65)(cid:162)(cid:109)(cid:9)(cid:204)(cid:39)(cid:64) (cid:200)(cid:89)(cid:170)(cid:211) (cid:128)(cid:65)(cid:74)(cid:10)(cid:174)(cid:16)(cid:203) (cid:10) (cid:10) (cid:10) (cid:46)(cid:233)(cid:16)(cid:203)(cid:241)(cid:74)(cid:46)(cid:174)(cid:16)(cid:211) (cid:134)(cid:16)(cid:81)(cid:162)(cid:29)(cid:46) (cid:233)(cid:74)(cid:10)(cid:211)(cid:65)(cid:170)(cid:203)(cid:64) (cid:72)(cid:16) (cid:65)(cid:210)(cid:202)(cid:190)(cid:203)(cid:64) (cid:233)(cid:16)(cid:75)(cid:46)(cid:65)(cid:16)(cid:74)(cid:186)(cid:203) (cid:134)(cid:16)(cid:81)(cid:162)(cid:203)(cid:64) (cid:225)(cid:9) (cid:211) (cid:89)(cid:75)(cid:10)(cid:89)(cid:170)(cid:203)(cid:64) (cid:58)(cid:233)(cid:16)(cid:74)(cid:10)(cid:203)(cid:65)(cid:16)(cid:74)(cid:203)(cid:64) (cid:80)(cid:241)(cid:211)(cid:66)(cid:13) (cid:65)(cid:75)(cid:46) (cid:233)(cid:16)(cid:203)(cid:65)(cid:131)(cid:81)(cid:203)(cid:64) (cid:232)(cid:89)(cid:9)(cid:235) (cid:145)(cid:16)(cid:74)(cid:109)(cid:9)(cid:26)(cid:16)(cid:39) (cid:46)(cid:233)(cid:16)(cid:174)(cid:9)(cid:202)(cid:16)(cid:74)(cid:106)(cid:9) (cid:214)(cid:207)(cid:64) (cid:233)(cid:16)(cid:74)(cid:10)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203) (cid:233)(cid:16)(cid:74)(cid:46)(cid:131)(cid:65)(cid:74)(cid:9)(cid:211) (cid:233)(cid:16)(cid:10)(cid:74)(cid:16)(cid:75)(cid:241)(cid:147) (cid:72)(cid:16) (cid:65)(cid:75)(cid:9)(cid:65)(cid:74)(cid:10)(cid:75)(cid:46) (cid:81)(cid:30)(cid:10)(cid:146)(cid:9) (cid:109)(cid:26)(cid:16)(cid:39) (cid:45)(cid:49) (cid:250)(cid:205)(cid:13)(cid:64) (cid:134)(cid:16)(cid:241)(cid:162)(cid:74)(cid:9)(cid:214)(cid:207)(cid:64) (cid:145)(cid:74)(cid:9)(cid:203)(cid:64) (cid:201)(cid:75)(cid:10)(cid:241)(cid:109)(cid:26)(cid:16)(cid:39)(cid:240) (cid:72)(cid:16)(cid:241)(cid:146)(cid:203)(cid:64) (cid:225)(cid:9) (cid:211) (cid:233)(cid:16)(cid:74)(cid:10)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:233)(cid:16)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:250)(cid:206)(cid:171) (cid:172)(cid:9)(cid:81)(cid:170)(cid:16)(cid:74)(cid:202)(cid:203) (cid:208)(cid:65)(cid:162)(cid:9)(cid:29)(cid:9) (cid:73)(cid:46) (cid:75)(cid:10)(cid:80)(cid:89)(cid:16)(cid:75) (cid:45)(cid:50) (cid:16) (cid:9) (cid:46)(cid:72)(cid:241)(cid:74)(cid:186)(cid:211) (cid:145)(cid:29) (cid:46) (cid:13) (cid:13) (cid:16) (cid:16) (cid:9) (cid:16) (cid:9) (cid:16)(cid:16) (cid:9) (cid:16) (cid:46)(cid:233)(cid:10)(cid:74)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:72)(cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203) (cid:208)(cid:67)(cid:190)(cid:203)(cid:64) (cid:250)(cid:206)(cid:171) (cid:172)(cid:81)(cid:170)(cid:74)(cid:203)(cid:64) (cid:250)(cid:10)(cid:175) (cid:90)(cid:64)(cid:88)(cid:66)(cid:64) (cid:213)(cid:230)(cid:10)(cid:74)(cid:10)(cid:174)(cid:74)(cid:203) (cid:73)(cid:46) (cid:131)(cid:65)(cid:74)(cid:211) (cid:72)(cid:46) (cid:241)(cid:202)(cid:131)(cid:64) (cid:213)(cid:230)(cid:10)(cid:210)(cid:146)(cid:29) (cid:45)(cid:51) (cid:16) (cid:17) (cid:17) (cid:16)(cid:16) (cid:16) (cid:9) (cid:58)(cid:72)(cid:65)(cid:210)(cid:235)(cid:65)(cid:130)(cid:211) (cid:72)(cid:67)(cid:75) (cid:208)(cid:89)(cid:174)(cid:75) (cid:233)(cid:203)(cid:65)(cid:131)(cid:81)(cid:203)(cid:64) (cid:232)(cid:89)(cid:235) (cid:225)(cid:9) (cid:211) (cid:90)(cid:81)(cid:9)(cid:109)(cid:46)(cid:204)(cid:39)(cid:64) (cid:64)(cid:89)(cid:9)(cid:235) (cid:250)(cid:10)(cid:175)(cid:9) (cid:208)(cid:241)(cid:174)(cid:16)(cid:75)(cid:9) (cid:46)(cid:161)(cid:174)(cid:16)(cid:175)(cid:9) (cid:72)(cid:16)(cid:241)(cid:146)(cid:203)(cid:64) (cid:200)(cid:67)(cid:103)(cid:9) (cid:225)(cid:9) (cid:211) (cid:72)(cid:17) (cid:89)(cid:106)(cid:16)(cid:74)(cid:214)(cid:207)(cid:64) (cid:233)(cid:16)(cid:106)(cid:46) (cid:234)(cid:203) (cid:250)(cid:206)(cid:171) (cid:172)(cid:9)(cid:81)(cid:170)(cid:16)(cid:74)(cid:203)(cid:64) • (cid:233)(cid:16)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:250)(cid:206)(cid:171) (cid:172)(cid:9)(cid:81)(cid:170)(cid:16)(cid:74)(cid:203)(cid:65)(cid:75)(cid:46) (cid:208)(cid:65)(cid:162)(cid:9)(cid:74)(cid:9)(cid:203)(cid:64) (cid:208)(cid:241)(cid:174)(cid:16)(cid:10)(cid:74)(cid:203) (cid:233)(cid:16)(cid:75)(cid:10)(cid:241)(cid:170)(cid:9)(cid:202)(cid:203)(cid:64) (cid:108)(cid:215)(cid:67)(cid:214)(cid:207)(cid:64)(cid:240) (cid:233)(cid:16)(cid:74)(cid:10)(cid:16)(cid:75)(cid:241)(cid:146)(cid:203)(cid:64) (cid:108)(cid:215)(cid:67)(cid:214)(cid:207)(cid:64) (cid:208)(cid:64)(cid:89)(cid:106)(cid:9) (cid:16)(cid:74)(cid:131)(cid:65)(cid:75)(cid:46) (cid:73)(cid:17) (cid:106)(cid:74)(cid:46)(cid:203)(cid:64) (cid:44)(cid:233)(cid:16)(cid:74)(cid:10)(cid:106)(cid:46) (cid:74)(cid:10)(cid:202)(cid:109)(cid:9)(cid:204)(cid:39)(cid:64) (cid:233)(cid:16)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64) (cid:44)(cid:250)(cid:106)(cid:146)(cid:174)(cid:9)(cid:203)(cid:64) (cid:233)(cid:16)(cid:74)(cid:10)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:233)(cid:16)(cid:170)(cid:9)(cid:202)(cid:203)(cid:64) (cid:249)(cid:235) (cid:44)(cid:72)(cid:16) (cid:65)(cid:106)(cid:46) (cid:234)(cid:203) (cid:129)(cid:212)(cid:103)(cid:9) (cid:225)(cid:9) (cid:211) (cid:16)(cid:232)(cid:89)(cid:103)(cid:64)(cid:241)(cid:187) (cid:233)(cid:16)(cid:74)(cid:10)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:10) (cid:16) (cid:9) (cid:16) (cid:16) (cid:17) (cid:16) (cid:16) (cid:16) (cid:46)(cid:233)(cid:10)(cid:74)(cid:75)(cid:46)(cid:80)(cid:65)(cid:170)(cid:214)(cid:207)(cid:64) (cid:233)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64)(cid:240) (cid:44)(cid:233)(cid:74)(cid:10)(cid:211)(cid:65)(cid:130)(cid:203)(cid:64) (cid:233)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64)(cid:240) (cid:44)(cid:233)(cid:75)(cid:10)(cid:81)(cid:229)(cid:148)(cid:214)(cid:207)(cid:64) (cid:233)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203)(cid:64)(cid:240) (cid:233)(cid:16)(cid:74)(cid:10)(cid:28)(cid:46)(cid:146)(cid:170)(cid:203)(cid:64) (cid:72)(cid:16) (cid:65)(cid:190)(cid:74)(cid:46)(cid:130)(cid:17)(cid:203)(cid:64) (cid:208)(cid:65)(cid:162)(cid:9)(cid:29)(cid:9) (cid:73)(cid:46) (cid:75)(cid:10)(cid:80)(cid:89)(cid:16)(cid:74)(cid:75)(cid:46) (cid:65)(cid:74)(cid:9)(cid:212)(cid:175)(cid:16) (cid:73)(cid:17) (cid:10)(cid:74)(cid:107) (cid:44)(cid:72)(cid:46) (cid:241)(cid:16)(cid:74)(cid:186)(cid:211) (cid:250)(cid:205)(cid:13)(cid:64) (cid:134)(cid:16)(cid:241)(cid:162)(cid:74)(cid:9)(cid:214)(cid:207)(cid:64) (cid:145)(cid:74)(cid:9)(cid:203)(cid:64) (cid:201)(cid:10)(cid:75)(cid:241)(cid:109)(cid:26)(cid:16)(cid:39) • (cid:72)(cid:46) (cid:80)(cid:89)(cid:16)(cid:74)(cid:202)(cid:203) (cid:16)(cid:232)(cid:81)(cid:10)(cid:75)(cid:81)(cid:9)(cid:109)(cid:46)(cid:204)(cid:39)(cid:64) (cid:16)(cid:232)(cid:65)(cid:74)(cid:9)(cid:175)(cid:16) (cid:225)(cid:9) (cid:211) (cid:65)(cid:234)(cid:170)(cid:74)(cid:10)(cid:210)(cid:109)(cid:46)(cid:26)(cid:16)(cid:39) (cid:213)(cid:231)(cid:16)(cid:39) (cid:233)(cid:16)(cid:74)(cid:10)(cid:16)(cid:75)(cid:241)(cid:147) (cid:233)(cid:16)(cid:171)(cid:65)(cid:131) (cid:49) (cid:50)(cid:48)(cid:48) (cid:225)(cid:9) (cid:211) (cid:81)(cid:17)(cid:30)(cid:187)(cid:13)(cid:64) (cid:250)(cid:206)(cid:171) (cid:233)(cid:16)(cid:174)(cid:16)(cid:10)(cid:74)(cid:210)(cid:170)(cid:203)(cid:64) , (cid:13) (cid:65)(cid:210)(cid:187) (cid:46)(cid:233)(cid:16)(cid:75)(cid:10)(cid:241)(cid:170)(cid:9)(cid:202)(cid:203)(cid:64) (cid:108)(cid:215)(cid:67)(cid:214)(cid:207)(cid:64) (cid:250)(cid:206)(cid:171) (cid:72)(cid:46) (cid:80)(cid:89)(cid:16)(cid:74)(cid:202)(cid:203) (cid:233)(cid:16)(cid:210)(cid:202)(cid:191) (cid:224)(cid:9) (cid:241)(cid:10)(cid:74)(cid:202)(cid:211) (cid:49)(cid:51)(cid:48) (cid:225)(cid:9) (cid:211) (cid:81)(cid:17)(cid:30)(cid:187)(cid:64)(cid:240) (cid:233)(cid:16)(cid:10)(cid:74)(cid:16)(cid:75)(cid:241)(cid:146)(cid:203)(cid:64) (cid:108)(cid:215)(cid:67)(cid:214)(cid:207)(cid:64) (cid:250)(cid:206)(cid:171) (cid:46)(cid:233)(cid:16)(cid:74)(cid:10)(cid:75)(cid:46)(cid:81)(cid:170)(cid:203)(cid:64) (cid:233)(cid:16)(cid:170)(cid:9)(cid:202)(cid:203)(cid:64) (cid:72)(cid:16) (cid:65)(cid:10)(cid:74)(cid:16)(cid:75)(cid:241)(cid:147) (cid:250)(cid:10)(cid:175)(cid:9) (cid:72)(cid:17) (cid:65)(cid:109)(cid:26)(cid:39)(cid:46)(cid:66)(cid:13) (cid:64) (cid:209)(cid:171)(cid:89)(cid:203) (cid:233)(cid:16)(cid:107)(cid:241)(cid:16)(cid:74)(cid:174)(cid:9)(cid:211) (cid:233)(cid:16)(cid:74)(cid:10)(cid:17)(cid:74)(cid:109)(cid:26)(cid:39)(cid:46) (cid:233)(cid:16)(cid:146)(cid:74)(cid:9)(cid:211) (cid:90)(cid:65)(cid:130)(cid:17)(cid:29)(cid:9)(cid:65)(cid:13)(cid:75)(cid:46) (cid:65)(cid:74)(cid:9)(cid:212)(cid:175)(cid:16) iii (cid:145)(cid:74)(cid:9)(cid:203)(cid:64) (cid:201)(cid:10)(cid:75)(cid:241)(cid:109)(cid:26)(cid:16)(cid:39) (cid:233)(cid:16)(cid:210)(cid:162)(cid:9)(cid:29)(cid:9)(cid:13)(cid:64) (cid:248)(cid:241)(cid:16)(cid:74)(cid:130)(cid:211) (cid:213)(cid:230)(cid:10)(cid:74)(cid:10)(cid:174)(cid:16)(cid:16)(cid:75) (cid:250)(cid:10)(cid:175)(cid:9) (cid:65)(cid:75)(cid:9)(cid:88)(cid:241)(cid:234)(cid:107)(cid:46) (cid:200)(cid:240)(cid:65)(cid:74)(cid:9)(cid:28)(cid:16)(cid:75)(cid:10) (cid:233)(cid:16)(cid:203)(cid:65)(cid:131)(cid:81)(cid:203)(cid:64) (cid:225)(cid:9) (cid:211) (cid:73)(cid:17) (cid:203)(cid:65)(cid:17)(cid:74)(cid:203)(cid:64) (cid:90)(cid:81)(cid:9)(cid:109)(cid:46)(cid:204)(cid:39)(cid:64) • (cid:9) (cid:16)(cid:16) (cid:17) (cid:16) (cid:13) (cid:16) (cid:16) (cid:16)(cid:9) (cid:16) (cid:9) (cid:16) (cid:16) (cid:16) (cid:9) (cid:189)(cid:203)(cid:88)(cid:240) (cid:44)(cid:233)(cid:74)(cid:75)(cid:46)(cid:65)(cid:75) (cid:233)(cid:74)(cid:10)(cid:75)(cid:67)(cid:211)(cid:13)(cid:64) (cid:89)(cid:171)(cid:64)(cid:241)(cid:175) (cid:89)(cid:103)(cid:46) (cid:241)(cid:75)(cid:10) (cid:66) (cid:250)(cid:230)(cid:203)(cid:64) (cid:233)(cid:174)(cid:202)(cid:74)(cid:106)(cid:214)(cid:207)(cid:64) (cid:72)(cid:65)(cid:106)(cid:46) (cid:234)(cid:202)(cid:203) (cid:72)(cid:46) (cid:241)(cid:74)(cid:186)(cid:211) (cid:250)(cid:205)(cid:13)(cid:64) (cid:134)(cid:241)(cid:162)(cid:74)(cid:214)(cid:207)(cid:64) (cid:10) (cid:233)(cid:16)(cid:146)(cid:74)(cid:9)(cid:211) (cid:201)(cid:17)(cid:74)(cid:211) (cid:44)(cid:233)(cid:16)(cid:10)(cid:74)(cid:171)(cid:65)(cid:210)(cid:16)(cid:74)(cid:107)(cid:46)(cid:66)(cid:64) (cid:201)(cid:147)(cid:64)(cid:241)(cid:16)(cid:74)(cid:203)(cid:64) (cid:201)(cid:75)(cid:13)(cid:65)(cid:131)(cid:240) (cid:225)(cid:9) (cid:211) (cid:233)(cid:16)(cid:174)(cid:9)(cid:202)(cid:16)(cid:74)(cid:106)(cid:9) (cid:214)(cid:207)(cid:64) (cid:233)(cid:16)(cid:75)(cid:46)(cid:65)(cid:16)(cid:74)(cid:186)(cid:203)(cid:64) (cid:134)(cid:16)(cid:81)(cid:163) (cid:213)(cid:206)(cid:170)(cid:16)(cid:75) (cid:200)(cid:67)(cid:103)(cid:9) (cid:225)(cid:9) (cid:211) (cid:46)(cid:134)(cid:16)(cid:241)(cid:162)(cid:74)(cid:9)(cid:214)(cid:207)(cid:64) (cid:145)(cid:74)(cid:9)(cid:202)(cid:203) (cid:169)(cid:107)(cid:46)(cid:64)(cid:81)(cid:214)(cid:207)(cid:64) (cid:88)(cid:89)(cid:170)(cid:16)(cid:75) (cid:200)(cid:67)(cid:103)(cid:9) (cid:225)(cid:9) (cid:211)(cid:240) (cid:44)(cid:81)(cid:16)(cid:30)(cid:10)(cid:75)(cid:241)(cid:16)(cid:75) iv Abstract Dialectal Arabic speech research suffers from the lack of labelled resources and standardised orthography. There are three main challenges in dialectal Arabic speech recognition: (i) finding labelled dialectal Arabic speech data, (ii) training robust dialectal speech recognition models from limited labelled data and (iii) evaluating speech recognition for dialects with no orthographic rules. This thesis is concerned with the following three contributions: Arabic Dialect Identification: We are mainly dealing with Arabic speech without prior knowledge of the spoken dialect. Arabic dialects could be suf- ficiently diverse to the extent that one can argue that they are different lan- guages rather than dialects of the same language. We have two contributions: First, we use crowdsourcing to annotate a multi-dialectal speech corpus collected from Al Jazeera TV channel. We obtained utterance level dialect labels for 57 hours of high-quality consisting of four major varieties of dialectal Arabic (DA), comprised of Egyptian, Levantine, Gulf or Arabic peninsula, North African or Moroccan from almost 1,000 hours. Second, we build an Arabic dialect identifi- cation (ADI) system. We explored two main groups of features, namely acoustic features and linguistic features. For the linguistic features, we look at a wide range of features, addressing words, characters and phonemes. With respect to acoustic features, we look at raw features such as mel-frequency cepstral coeffi- cients combined with shifted delta cepstra (MFCC-SDC), bottleneck features and the i-vector as a latent variable. We studied both generative and discriminative classifiers, in addition to deep learning approaches, namely deep neural network (DNN) and convolutional neural network (CNN). In our work, we propose Ara- bic as a five class dialect challenge comprising of the previously mentioned four dialects as well as modern standard Arabic. Arabic Speech Recognition: We introduce our effort in building Arabic au- tomatic speech recognition (ASR) and we create an open research community to advance it. This section has two main goals: First, creating a framework for Arabic ASR that is publicly available for research. We address our effort in build- ing two multi-genre broadcast (MGB) challenges. MGB-2 focuses on broadcast news using more than 1,200 hours of speech and 130M words of text collected from the broadcast domain. MGB-3, however, focuses on dialectal multi-genre data with limited non-orthographic speech collected from YouTube, with special v attention paid to transfer learning. Second, building a robust Arabic ASR sys- tem and reporting a competitive word error rate (WER) to use it as a potential benchmark to advance the state of the art in Arabic ASR. Our overall system is a combination of five acoustic models (AM): unidirectional long short term mem- ory (LSTM), bidirectional LSTM (BLSTM), time delay neural network (TDNN), TDNN layers along with LSTM layers (TDNN-LSTM) and finally TDNN layers followed by BLSTM layers (TDNN-BLSTM). The AM is trained using purely sequence trained neural networks lattice-free maximum mutual information (LF- MMI). The generated lattices are rescored using a four-gram language model (LM) and a recurrent neural network with maximum entropy (RNNME) LM. Our official WER is 13%, which has the lowest WER reported on this task. Evaluation: The third part of the thesis addresses our effort in evaluating di- alectal speech with no orthographic rules. Our methods learn from multiple transcribers and align the speech hypothesis to overcome the non-orthographic aspects. Our multi-reference WER (MR-WER) approach is similar to the BLEU score used in machine translation (MT). We have also automated this process by learning different spelling variants from Twitter data. We mine automatically from a huge collection of tweets in an unsupervised fashion to build more than 11M n-to-m lexical pairs, and we propose a new evaluation metric: dialectal WER (WERd). Finally, we tried to estimate the word error rate (e-WER) with no reference transcription using decoding and language features. We show that our word error rate estimation is robust for many scenarios with and without the decoding features. vi Acknowledgements I would like to express my gratitude to the following people: • Steve Renals, thank you for the patience and expert guidance, scientific freedom and the opportunity to pursue my PhD studies in the CSTR. It is a great pleasure to work with Steve. • QCRI, thanks for giving me the opportunity to pursue my PhD while keep- ing my full-time job. I am very lucky to be part of the Arabic language Technologies (ALT) group. Special thanks to Stephan Vogel who always helped me to balance work with a study. • My examiners: Phil Woodland and Hiroshi Shimodaira for peer reviewing this work and for the insightful comments which led to many improvements. • My family, I owe too much for my family for the lack of time I spent with them. Special thanks for my wife for always being there when I need. • Preslav Nakov and kareem Darwish, thanks a lot for the proof-reading and your help to wrap-up my thesis, and the discussion. • ILCC colleagues: Peter Bell, Mirjam Wester, Alexandra Birch. Thank you for helping during my stay and study. You were the first people to ask when I have a problem or need help. vii Declaration I declare that this thesis was composed by myself, that the work contained herein is my own except where explicitly stated otherwise in the text, and that this work has not been submitted for any other degree or professional qualification except as specified. (Ahmed Ali) viii
Description: