ebook img

destek vektör mak neler le ses tanıma uygulaması PDF

90 Pages·2008·1.67 MB·Turkish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview destek vektör mak neler le ses tanıma uygulaması

DESTEK VEKTÖR MAKİNELERİ İLE SES TANIMA UYGULAMASI Pamukkale Üniversitesi Fen Bilimleri Enstitüsü Yüksek Lisans Tezi Elektrik-Elektronik Mühendisliği Anabilim Dalı Osman ERAY Danışman:Doç. Dr. Serdar İPLİKÇİ Ağustos 2008 DENİZLİ iii TEŞEKKÜR Bu tez çalışmasında bana her zaman destek olan ve üzerimde büyük emekleri bulunan babam İsmail ERAY’a ve annem Hasibe ERAY’a; bana her zaman moral veren sevgili kardeşim Gülsüm ERAY’a; çalışmalarım süresince bana verdiği moral ve destekten, gösterdiği sabır ve anlayıştan dolayı sevgili eşim Feden ERAY’a çok teşekkür ederim. Tez çalışmam boyunca bana yardımcı olan ve önerileri ile beni yönlendiren tez danışmanım Doç. Dr. Serdar İPLİKÇİ’ye katkılarından dolayı çok teşekkür ederim. Ayrıca Yrd. Doç. Dr. A. Kadir YALDIR, Yrd. Doç. Dr. Aydın KIZILKAYA ve Yrd. Doç. Dr. Sezai TOKAT’a da önerileri ve katkılarından dolayı teşekkür ederim. iv ÖZET DESTEK VEKTÖR MAKİNELERİ İLE SES TANIMA UYGULAMASI ERAY, Osman Yüksek Lisans Tezi, Elektrik-Elektronik Mühendisliği ABD Tez Yöneticisi: Doç. Dr. Serdar İPLİKÇİ Ağustos 2008, 79 Sayfa Ses tanıma sistemleri insan-bilgisayar arası iletişimi hızlı ve etkin bir şekilde gerçekleştirmeyi amaçlar. Bu amaçla, ses tanıma teknolojilerini geliştirmek için, son yıllarda çeşitli araştırma ve çalışmalar yapılmaktadır. Bu çalışmalara örnek olarak ses tanıma, konuşmacı tanıma ve konuşmacı doğrulama verilebilir. Fakat Türkçe ses tanıma üzerine çok fazla çalışma bulunmamaktadır. Bu çalışmada ses tanıma sistemleri incelenmiş, kullanılan yöntemler araştırılmış ve bir Türkçe ses tanıma uygulaması geliştirilmiştir. Uygulama, ses kodlama ve ses tanıma bölümlerinden oluşmaktadır. Bu çalışmada ilk olarak, bilgisayarda sıklıkla kullanılan 20 adet Türkçe komut belirlenmiştir. Her komuttan 20 adet kayıt yapılmıştır. Toplam 400 sözcük mikrofon ile bilgisayara kaydedilmiştir. Uygulamanın ses kodlama bölümünde, bilgisayara kaydedilen bu sözcükler Doğrusal Önkestirim Kodlama (LPC) yöntemi ile kodlanmış ve her bir sözcüğe ilişkin LPC parametreleri elde edilmiştir. Uygulamanın ses tanıma bölümü, eğitim ve test aşamalarından oluşmaktadır. Bu bölümde Destek Vektör Makineleri (SVM) yöntemi kullanılmıştır. İki çeşit SVM sınıflandırıcısı tasarlanmıştır. Bunlar, Soft Margin Destek Vektör Makinesi sınıflandırıcısı ve Least Square Destek Vektör Makinesi sınıflandırıcısıdır. Kodlanmış 200 sözcük Destek Vektör Makinelerinin eğitim aşaması için, 200 sözcük Destek Vektör Makinelerinin test aşaması için kullanılmıştır. Uygulamada, Soft Margin SVM sınıflandırıcısı için %91 doğru tanıma başarısı; Least Square SVM sınıflandırıcısı için %71 doğru tanıma başarısı elde edilmiştir. Anahtar Kelimeler: Ses Tanıma, Destek Vektör Makineleri, LPC Doç. Dr. Serdar İPLİKÇİ Yrd. Doç. Dr. Aydın KIZILKAYA Yrd. Doç. Dr. Sezai TOKAT v ABSTRACT THE SPEECH RECOGNITION APPLICATION WITH SUPPORT VECTOR MACHINES ERAY, Osman M. Sc. Thesis in Electric-Electronic Engineering Supervisor: Assoc. Prof. Dr. Serdar İPLİKÇİ August 2008, 79 Pages Speech recognition systems aim to perform communication between human and computer quickly and efficiently. For this purpose, in recent years various researches and studies have been conducted to develop the speech recognition technologies. Exemplary to this studies, speech recognition, speaker recognition and speaker verification can be given. However, there are not so many studies on Turkish speech recognition. In this study, speech recognition systems have been examined, the methods existing in the literature have been investigated and a Turkish speech recognition application was developed. The application consists of speech coding and speech recognition parts. In this study, firstly, 20 Turkish commands which are often used at computer were determined. 20 records were done for each command. Total 400 words were recorded by microphone to computer. In speech recognition part of the application, this words which were recorded to computer were coded with Linear Predictive Coding (LPC) method and thus the related LPC parameters have been obtained. Speech recognition part of the application consists of training and testing phases. In this part, Support Vector Machines (SVM) method was used for recognition. Two types of SVM classifiers were designed. These classifiers are Soft Margin Support Vector Machine classifier and Least Square Support Vector Machine classifier. 200 words which have been coded were used for training phase of Support Vector Machines and 200 words which have been coded were used for testing phase of Support Vector Machines. In the application, the Soft Margin SVM classifier has yielded 91% recognition performance, while the Least Square SVM classifier has 71%. Keywords: Speech Recognition, Support Vector Machines, LPC Assoc. Prof. Dr. Serdar İPLİKÇİ Asst. Prof. Dr. Aydın KIZILKAYA Asst. Prof. Dr. Sezai TOKAT vi İÇİNDEKİLER Yüksek Lisans Tezi Onay Formu.......................................................................................i Bilimsel Etik Sayfası.........................................................................................................ii Teşekkür...........................................................................................................................iii Özet..................................................................................................................................iv Abstract.............................................................................................................................v İçindekiler........................................................................................................................vi Şekiller Dizini................................................................................................................viii Tablolar Dizini.................................................................................................................ix Simge ve Kısaltmalar Dizini.............................................................................................x 1. GİRİŞ............................................................................................................................1 1.1. Ses Tanımanın Tarihçesi........................................................................................1 1.2. Literatür Araştırması..............................................................................................3 2. PROBLEMİN TANIMI................................................................................................6 3. SES................................................................................................................................8 3.1. Sesin Oluşumu ve Özellikleri.................................................................................8 3.2. Sesin Sentezi ve Analizi.......................................................................................10 3.2.1. Sesin analizi..................................................................................................11 3.2.1.1. Sesin sayısallaştırılması.............................................................................12 3.2.1.2. Özellik vektörünün çıkarılması..................................................................12 3.2.1.3. Sesin spektral analizi..................................................................................12 3.2.1.3.1. Yöntemin seçimi.....................................................................................13 3.2.1.3.2. Örnekleme hızları....................................................................................14 3.2.1.3.3. Analiz aralığının seçimi..........................................................................14 3.2.1.3.4. Pencereleme............................................................................................14 3.2.1.3.5. Önvurgulama...........................................................................................15 3.2.1.4. Hızlı Fourier Dönüşümü (FFT)..................................................................15 3.2.1.5. Dilimleme (Segmentation).........................................................................16 3.2.1.6. Zaman normalizasyonu (Time normalization)...........................................16 4. SES KODLAMA........................................................................................................17 4.1. Doğrusal Önkestirim Kodlama (LPC).................................................................17 4.1.1. LPC yöntemindeki aşamalar.........................................................................19 4.1.1.1. Önvurgulama..............................................................................................19 4.1.1.2. Çerçeveleme...............................................................................................19 4.1.1.3. Pencereleme...............................................................................................19 4.1.1.4. Otokorelasyon analizi.................................................................................20 4.1.1.5. LPC analizi.................................................................................................21 4.2. Doğrusal Önkestirim Cepstrum Katsayıları (LPCC)...........................................21 4.2.1. LPCC yöntemindeki aşamalar.......................................................................22 4.2.1.1. Önvurgulama..............................................................................................22 4.2.1.2. Çerçeveleme...............................................................................................22 4.2.1.3. Pencereleme...............................................................................................22 4.2.1.4. Otokorelasyon analizi.................................................................................22 4.2.1.5. LPC analizi.................................................................................................22 4.2.1.6. LPC-LPCC parametre dönüşümü..............................................................23 vii 4.2.1.7. Parametre ağırlıklandırma..........................................................................23 4.2.1.8. Türev hesaplama........................................................................................23 4.3. Mel Frekansı Cepstrum Katsayıları (MFCC).......................................................23 4.3.1. MFCC yöntemindeki aşamalar.....................................................................24 4.3.1.1. Çerçeveleme...............................................................................................24 4.3.1.2. Pencereleme...............................................................................................24 4.3.1.3. Hızlı Fourier Dönüşümü (FFT)..................................................................24 4.3.1.4. Mel-frekansına çevirme.............................................................................24 4.3.1.4.1. Mel-filtre bankası tasarımı......................................................................25 4.3.1.5. Mel-cepstrum.............................................................................................25 4.4. Algısal Doğrusal Önkestirim Kodlama (PLP Coding)........................................25 5. SES TANIMA.............................................................................................................27 5.1. Şablon Modeller...................................................................................................29 5.1.1. Vektör Uzaklık Ölçümü (VQ).......................................................................29 5.1.2. Dinamik Zaman Uydurma (DTW)................................................................30 5.2. Stokastik Modeller...............................................................................................30 5.2.1. Gaussian Karma Modelleri (GMMs)............................................................30 5.2.2. Gizli Markov Modeller (HMMs)..................................................................32 5.3. Yapay Sinir Ağları...............................................................................................33 5.4. Bulanık-Sinirsel Sistemler...................................................................................35 5.4.1. Bulanık-sinirsel sınıflandırıcılar...................................................................35 5.4.1.1. Bulanık çıkarım..........................................................................................35 5.4.1.2. Bulanık-sinirsel sınıflandırıcılar................................................................37 5.5. Destek Vektör Makineleri....................................................................................38 5.5.1. Kısıtlamalı optimizasyon..............................................................................38 5.5.1.1. Kısıtlamalı optimizasyon teorisi................................................................38 5.5.1.2. Lagrange teorisi..........................................................................................40 5.5.2. İstatistiksel Öğrenme Teorisi........................................................................42 5.5.2.1. VC-boyutu..................................................................................................43 5.5.2.2. Yapısal risk minimizasyonu.......................................................................43 5.5.3. Destek Vektör Makinelerine giriş.................................................................44 5.5.3.1. Destek Vektör Makinesi sınıflandırıcıları..................................................44 5.5.3.1.1. Doğrusal Destek Vektör Makinesi sınıflandırıcıları...............................45 5.5.3.1.2. Doğrusal olmayan Destek Vektör Makinesi sınıflandırıcıları................53 5.5.4. Soft Margin Destek Vektör Makinesi sınıflandırıcıları................................56 5.5.5. En Küçük Kareler Destek Vektör Makinesi sınıflandırıcıları.......................58 5.5.5.1. İkili Sınıf Tahmini için Standart Destek Vektör Makineleri......................59 5.5.5.2. En Küçük Kareler Destek Vektör Makinesi sınıflandırıcıları....................60 6. UYGULAMA SONUÇLARI.....................................................................................63 7. SONUÇ VE ÖNERİLER............................................................................................74 KAYNAKLAR...............................................................................................................76 ÖZGEÇMİŞ....................................................................................................................79 viii ŞEKİLLER DİZİNİ Şekil 3.1 Ses oluşumu organları ............................................................................................9 Şekil 3.2 İnsanda ses oluşumu mekanizmasının şematik gösterimi....................................10 Şekil 3.3 'ball', 'bar', 'bough', 'buy' kelimelerinin spektrogramı (Hagiwara 2008)............13 Şekil 4.1 Doğrusal Önkestirim Kodlama yönteminin blok diyagram olarak gösterimi......19 Şekil 4.2 Çerçeveleme.........................................................................................................20 Şekil 4.3 Doğrusal Önkestirim Cepstrum Katsayıları yönteminin blok diyagramı.............22 Şekil 4.4 MFCC’nin blok diyagram olarak gösterimi (Demirci 2005)................................24 Şekil 4.5 Mel filtre bankası (Uzunçarşılı 2005)...................................................................26 Şekil 5.1 Bir ses tanıma sisteminin blok diyagramı (Rabiner vd. 1993).............................27 Şekil 5.2 Bir ses tanıma sisteminin modülleri (Rabiner vd. 1993)......................................28 Şekil 5.3 2-boyutlu Vektör Uzaklık Ölçümü (Uzunçarşılı 2005)........................................29 Şekil 5.4 M bileşenli Gaussian yoğunluk (Uzunçarşılı 2005).............................................31 Şekil 5.5 Örnek bir Gizli Markov Model (Baygün 2006)....................................................32 Şekil 5.6 Tek girişli bir nöron modeli..................................................................................33 Şekil 5.7 Tipik çok girişli tek çıkışlı bir ANN modeli.........................................................34 Şekil 5.8 Bulanık mantıkta Modus Ponens .........................................................................36 Şekil 5.9 Bir 3-sınıf sınıflandırma örneği ...........................................................................37 Şekil 5.10 Bir 3-sınıf sınıflandırma örneğinin ağaç olarak gösterimi .................................37 Şekil 5.11 Bir bulanık-sinirsel sınıflandırma ağacı .............................................................38 Şekil 5.12 Modelleme hataları.............................................................................................43 Şekil 5.13 Doğrusal ayrılabilme durumunda optimal ayırıcı aşırıdüzlem...........................46 Şekil 5.14 Doğrusal ayrılabilme durumunda optimal ayırıcı aşırıdüzlem...........................47 Şekil 5.15 Doğrusal ayrılamama durumunda optimal ayırıcı aşırıdüzlem..........................51 Şekil 5.16 Bir doğrusal olmayan Destek Vektör Makinesi..................................................53 Şekil 5.17 Giriş uzayını özellik uzayına eşleme..................................................................54 Şekil 5.18 Giriş uzayını özellik uzayına eşleme..................................................................54 Şekil 6.1 Uygulamanın genel yapısı....................................................................................64 Şekil 6.2 LPC analizindeki aşamalar...................................................................................65 Şekil 6.3 Eğitim örüntülerinin LPC yöntemi ile kodlanması...............................................67 Şekil 6.4 Test örüntülerinin LPC yöntemi ile kodlanması ..................................................67 Şekil 6.5 Test aşamasında sistemin çalışmasının şematik olarak gösterimi........................69 Şekil 6.6 SM SVM sınıflandırıcısının eğitim aşaması ........................................................70 Şekil 6.7 LS SVM sınıflandırıcısının eğitim aşaması .........................................................70 Şekil 6.8 SM SVM sınıflandırıcısının test aşaması ............................................................71 Şekil 6.9 LS SVM sınıflandırıcısının test aşaması .............................................................72 ix TABLOLAR DİZİNİ Tablo 1.1 Ses tanıma sistemleri için geliştirilen yöntemler..................................................3 Tablo 6.1 Bilgisayar ortamına mikrofon ile kaydedilen sözcükler.....................................64 Tablo 6.2 SM SVM sınıflandırıcısının örüntü tanıma başarısı ...........................................72 Tablo 6.3 LS SVM sınıflandırıcısının örüntü tanıma başarısı.............................................73

Description:
Ses tanıma sistemleri insan-bilgisayar arası iletişimi hızlı ve etkin bir şekilde gerçekleştirmeyi işleme'nin alt bilim dallarından birisi olan ses tanıma biliminin uğraş alanı da insan- makine arası Olson, K. H. and Belar, H. (1956) Phonetic Typewriter, Journal of the Acoustic Soc
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.