BAŞKENT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ GEN İFADE VERİTABANLARINDA İÇERİK TABANLI ARAMA AHMET HAYRAN YÜKSEK LİSANS TEZİ 2014 GEN İFADE VERİTABANLARINDA İÇERİK TABANLI ARAMA CONTENT BASED SEARCH IN GENE EXPRESSION DATABASES AHMET HAYRAN Başkent Üniversitesi Lisansüstü Eğitim Öğretim ve Sınav Yönetmeliğinin BİLGİSAYAR Mühendisliği Anabilim Dalı İçin Öngördüğü YÜKSEK LİSANS TEZİ olarak hazırlanmıştır. 2014 Gen İfade Veritabanlarında İçerik Tabanlı Arama başlıklı bu çalışma, jürimiz tarafından, 14/08/2014 tarihinde, BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI 'nda YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Başkan (Danışman) : Doç. Dr. Hasan OĞUL Üye : Yrd. Doç. Dr. Emre SÜMER Üye : Yrd. Doç. Dr. Yunus Kasım TERZİ ONAY .../........ Prof. Dr. Emin AKATA Fen Bilimleri Enstitüsü Müdürü TEŞEKKÜR Sayın Doç. Dr. Hasan OĞUL'a (tez danışmanı), çalışmanın sonuca ulaştırılmasında ve karşılaşılan güçlüklerin aşılmasında her zaman yardımcı ve yol gösterici olduğu için… Değerli arkadaşım ve doktora öğrencisi olan Esma Ergüner ÖZKOÇ’a tez aşamasında yürüttüğümüz ortak çalışmalarda verdiği destekleri için... Bu tez çalışması TUBİTAK tarafından 113E527 nolu proje ile desteklenmiştir. ÖZ GEN İFADE VERİTABANLARINDA İÇERİK TABANLI ARAMA Ahmet HAYRAN Başkent Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı Büyük ölçekli gen ifade veritabanlarında zaman serisi mikrodizi deneylerinin içerik tabanlı aranması problemi ilk defa bu çalışmada araştırılmaktadır. Probleme bir bilgi geri getirim görevi olarak yaklaşılmış ve bir deneyin tamamı sorgu olarak ele alınıp önceki deneyler içerisinde aranmıştır. Metadata (üstveri) açıklamalarından daha ziyade içerik benzerliğine göre uygun deneylerin veri tabanı içerisinden bulunup getirilmesi gerekmektedir. Bu çalışmada, farklı parmak izi oluşturma yöntemleri ve uzaklık hesaplama şemalarının karşılaştırılması çeşitli zaman noktaları içerisindeki genlerin farklı ifade olma durumlarına dayalı geri getirim çatısı üzerinden sunulmuştur. Bizim oluşturduğumuz veri tabanı üzerinde yapılan tüm deneyler için, sonuçlar Pearson Bağıntı Katsayısı ve Tanimoto Uzaklığı’nın Öklid Uzaklığına göre farkı ifadeye dayalı parmak izlerinin karşılaştırılmasında yaklaşık %15 daha iyi olduğunu göstermektedir. ANAHTAR SÖZCÜKLER: gen ifade veritabanı, mikrodizi, zaman yönlü veri, zaman serisi veri, içerik tabanlı arama, biyolojik bilgi geri getirimi Danışman: Doç.Dr. Hasan OĞUL, Başkent Üniversitesi, Bilgisayar Mühendisliği Bölümü. i ABSTRACT CONTENT BASED SEARCH IN GENE EXPRESSION DATABASES Ahmet HAYRAN Baskent University Institute of Science and Engineering Department of Computer Engineering The problem of content-based searching of time-series microarray experiments in large-scale gene expression databases, for the first time, is investigated in this study. The problem is examined as an information retrieval task where an entire experiment is taken as the query and searched through a collection of previous experiments. The relevant experiments are required to be retrieved based on the content similarity rather than their meta-data descriptions. A comparison of different fingerprinting and distance computation schemes is presented over a retrieval framework based on the differential expression of genes in varying time points. For all experiments carried out on database we create, results show that Pearson Correlation Coefficent and Tanimoto Distance present about 15% better performance than Euclidean Distance in comparison fingerprints based on differential expression. KEYWORDS: gene expression database, microarray, time-course data, time-series profile, content-based search, biological information retrieval Advisor: Assoc. Prof. Dr. Hasan OĞUL, Başkent University, Department of Computer Engineering. ii İÇİNDEKİLER LİSTESİ Sayfa ÖZ..................................................................................................................................i ABSTRACT .................................................................................................................. ii İÇİNDEKİLER LİSTESİ ...............................................................................................iii SİMGELER VE KISALTMALAR LİSTESİ ..................................................................... v ŞEKİLLER LİSTESİ ..................................................................................................... vi ÇİZELGELER LİSTESİ ............................................................................................... vii 1. GİRİŞ .................................................................................................................... 1 2. ALAN BİLGİSİ ...................................................................................................... 4 2.1 DNA Mikrodizi ................................................................................................. 4 2.2 Gen İfadesi ..................................................................................................... 6 2.3 Mesajcı RNA (mRNA) .................................................................................... 7 2.4 GEO (Gene Expression Omnibus) ................................................................. 8 2.5 İçerik Tabanlı Arama ...................................................................................... 9 2.6 Zaman Serisi Deneyler ................................................................................. 10 3. YÖNTEMLER ..................................................................................................... 13 3.1 Bilgi Çıkarım Modeli ..................................................................................... 13 3.2 Parmaz İzi Çıkarma ...................................................................................... 14 3.3 Farklı İfade Olmuş Genlerin Çıkartılması ..................................................... 15 3.4 Benzerlik Ölçümleri ...................................................................................... 18 3.4.1 Öklid Uzaklığı ............................................................................................ 18 3.4.2 Pearson Bağıntı Katsayısı ........................................................................ 19 3.4.3 Spearman’ın Derece Bağıntı Katsayısı ..................................................... 19 3.4.4 Tanimoto Uzaklığı ..................................................................................... 20 3.5 Veri Kümeleri ve Organizasyonu .................................................................. 21 3.5.1 Veri kümeleri ............................................................................................. 21 iii 3.5.2 Veri organizasyonu ................................................................................... 23 4. DENEYSEL SONUÇLAR ................................................................................... 27 4.1 Deneysel Hazırlık ......................................................................................... 27 4.1.1 Benzerlik matrisi ........................................................................................ 28 4.1.2 Alıcı İşletim Karakteristiği (ROC) .............................................................. 29 4.2 Deneysel Sonuç ........................................................................................... 37 5. SONUÇLAR VE TARTIŞMA...............................................................................48 KAYNAKLAR LİSTESİ ............................................................................................... 49 iv SİMGELER VE KISALTMALAR LİSTESİ GEO Gene Expression Omnibus DNA Deoksiribonükleik asit RNA Ribonükleik asit mRNA Mesajcı RNA tRNA Taşıyıcı RNA rRNA Ribozomal RNA cDNA Bütünleyici DNA RT Ters transkriptaz (Reverse transkriptaz) TÜBİTAK Türkiye Bilimsel ve Teknolojik Araştırma Kurumu NIH The National Institute of Health EBI European Bioinformatic Institute NLM National Library of Medicine FİO Farklı İfade Olmuş PDE Probability of Diffrentialy Expressed IF Intersection Fingerprint UF Union Fingerprint v ŞEKİLLER LİSTESİ Sayfa Şekil 2.1 Mikrodizi floresan görüntüsü.........................................................................6 Şekil 3.1 Zaman serisi verilerde içerik tabanlı arama................................................14 Şekil 3.2 Her örnek için oluşturulan parmak izi dosyası............................................17 Şekil 3.3 Veri organizasyonu.....................................................................................24 Şekil 3.4 “.data” dosyası içeriği..................................................................................25 Şekil 3.5 Oluşturulan “.annotation” dosyası içeriği.....................................................25 Şekil 3.6 ProbeID ve karşılık gelen gen sembol listesi...............................................26 Şekil 4.1 Benzerlik matrisinin oluşturulma aşamaları.................................................28 Şekil 4.2 Tanimoto Uzaklığının farklı parametreler ile birleşim gen listesi kullanılarak uygulanması sonucu elde edilen ROC sonuçları........................................37 Şekil 4.3 Tanimoto Uzaklığının farklı parametreler ile kesişim gen listesi kullanılarak uygulanması sonucu elde edilen ROC sonuçları........................................38 Şekil 4.4 Farklı benzerlik metriklerinin kesişim gen listesi kullanılarak LAST_DE parmak izi verilerine uygulanması sonucu el edilen ROC sonuçları...........40 Şekil 4.5 Farklı benzerlik metriklerinin kesişim gen listesi kullanılarak MAX_DE parmak izi verilerine uygulanması sonucu el edilen ROC sonuçları...........41 Şekil 4.6 Farklı benzerlik metriklerinin kesişim gen listesi kullanılarak parmak izi verilerine uygulanması sonucu el edilen en iyi ROC sonuçları.........................42 Şekil 4.7 Farklı benzerlik metriklerinin birleşim gen listesi kullanılarak LAST_DE parmak izi verilerine uygulanması sonucu el edilen ROC sonuçları...........43 Şekil 4.8 Farklı benzerlik metriklerinin birleşim gen listesi kullanılarak MAX_DE parmak izi verilerine uygulanması sonucu el edilen ROC sonuçları...........44 Şekil 4.9 Farklı benzerlik metriklerinin birleşim gen listesi kullanılarak parmak izi verilerine uygulanması sonucu el edilen en iyi ROC sonuçları.........................45 vi
Description: