Universidade Federal do Rio Grande do Norte Centro de Tecnologia Programa de P´os-Graduac¸˜ao em Engenharia El´etrica Aplicac¸˜ao de T´ecnicas de Aprendizado de M´aquina no Reconhecimento de Classes Estruturais de Prote´ınas Valnaide Gomes Bittencourt Natal, Novembro de 2005 Universidade Federal do Rio Grande do Norte Centro de Tecnologia Programa de Po´s-Graduac¸a˜o em Engenharia El´etrica APLICAC¸A˜O DE TE´CNICAS DE APRENDIZADO DE MA´QUINA NO RECONHECIMENTO DE CLASSES ESTRUTURAIS DE PROTE´INAS Valnaide Gomes Bittencourt Disserta¸c˜ao submetida ao Programa de Po´s- Graduac¸˜ao em Engenharia El´etrica do Centro de Tecnologia da Universidade Federal do Rio Grande do Norte, como parte dos requisitos necess´ariosparaobten¸c˜aodograudeMestreem Ciˆencias. Orientador: Prof. Dr. Jos´e Alfredo Ferreira Costa Co-orientador: Prof. Dr. Marc´ılio Carlos Pereira de Souto Natal, Novembro de 2005 ii UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE TECNOLOGIA PROGRAMA DE PO´S-GRADUAC¸A˜O EM ENGENHARIA ELE´TRICA Aprovada em 25 de Novembro de 2005 pela comiss˜ao examinadora, formada pelos seguintes membros: Prof. Dr. Jos´e Alfredo Ferreira Costa (Orientador) Departamento de Engenharia El´etrica - UFRN Prof. Dr. Marc´ılio Carlos Pereira de Souto (Co-Orientador) Departamento de Inform´atica e Matem´atica Aplicada - UFRN Prof. Dr. Adria˜o Duarte D´oria Neto (Examinador Interno) Departamento de Engenharia de Computac¸˜ao e Automa¸c˜ao - UFRN Profa. Dra. Teresa Bernarda Ludermir (Examinador Externo) Centro de Inform´atica - UFPE iii Agradecimentos A Deus, por mais esta oportunidade em minha vida, acompanhando bem de perto todos os meus passos; e a Nossa Senhora, por sempre me cobrir com seu manto de prote¸c˜ao, dando-me paciˆencia e esperan¸ca necess´arias para a conclus˜ao deste trabalho. Ao professor Jos´e Alfredo, pela confianc¸a em mim depositada quando aceitou ser o meu orien- tador, pela liberdade que me deu na escolha do tema abordado nesta dissertac¸˜ao, pelo entusiasmo constantemente demonstrado em nossas conversas e pelo apoio sempre concedido. Ao professor Marc´ılio, por ter se mostrado dispon´ıvel para me ajudar mesmo antes de se tornar meu co-orientador, pela definic¸˜ao da abordagem do trabalho, pelos constantes ensinamentos, dis- cuss˜oesedirecionamentos,peladedica¸c˜aoegrandeexemplode´etica,responsabilidadeecompetˆencia. Aos meus pais, S´ergio e Lourdinha, pelo incentivo e dedicac¸˜ao, pela maneira carinhosa e com- preensivacomquesempremeap´oiamepelaeduca¸c˜aoeamorincondicional; irma˜os, HegeleH´elcio, pela forte amizade e amor, pelo est´ımulo e apoio sempre a mim proporcionados; e cunhada, Greicy, pelo carinho, incentivo e por partilhar comigo a experiˆencia de se fazer uma p´os-graduac¸˜ao. Ao meu noivo, Silvio, pelo constante companheirismo, lealdade e amor, pela disponibilidade irrestrita,apesardesuaagendalotada,epelaativapresenc¸aaolongodaelabora¸c˜aodestadisserta¸c˜ao. Aos meus amigos mais pr´oximos, cuja cita¸c˜ao sabem ser para eles direcionada, pela afei¸c˜ao e considera¸c˜ao de sempre. Aos novos colegas e amigos do mestrado, pelos momentos agrad´aveis juntos, pela frequ¨ente companhia em almo¸cos, pela descontra¸c˜ao e partilha de sentimentos. A` CAPES,peloapoiofinanceiro;aoPROMETH,napessoadoprofessorDario,aquemtamb´em agrade¸co pela constante preocupa¸c˜ao e interesse em minha vida n˜ao apenas profissional, e ao LA- BILIC, pelo apoio t´ecnico. Por fim, agradec¸o a todas as pessoas do meu conv´ıvio, que, de uma forma ou de outra, con- tribu´ıram para o desenvolvimento deste trabalho. iv “Sede alegres na esperan¸ca, pacientes na tribulac¸˜ao e perseverantes na ora¸c˜ao.” Rm 12,12 v Resumo Atualmente, a classifica¸c˜ao estrutural de prote´ınas, que diz respeito `a inferˆencia de padr˜oes em sua conforma¸c˜ao 3D, ´e um dos principais problemas em aberto da Biologia Molecular. Esse problema vem recebendo a aten¸c˜ao de muitos pesquisadores na ´area de Bioinform´atica pelofatodeasfunc¸˜oesdasprote´ınasestaremintrinsecamenterelacionadas`assuasdiferentes conforma¸c˜oes espaciais, que s˜ao de dif´ıcil obten¸c˜ao experimental em laborat´orio. Considerandoagrandediferenc¸aentreonu´merodesequ¨ˆenciasdeprote´ınasconhecidase onu´merodeestruturas tridimensionaisdeterminadasexperimentalmente,´ealta ademanda por t´ecnicas automatizadas de classifica¸c˜ao estrutural de prote´ınas. Nesse contexto, as ferramentas computacionais, principalmente as t´ecnicas de Aprendizado de M´aquina (AM), tornaram-se alternativas essenciais para tratar esse problema. Neste trabalho, t´ecnicas de AM s˜ao empregadas no reconhecimento de classes estrutu- rais de prote´ınas: A´rvore de Decis˜ao, k-Vizinhos Mais Pr´oximos, Na¨ıve Bayes, M´aquinas de Vetores Suporte e Redes Neurais Artificiais. Esses m´etodos foram escolhidos por re- presentarem diferentes paradigmas de aprendizado e serem bastante citados na literatura. Visandoconseguirumamelhoriadedesempenhonasoluc¸˜aodoproblemaabordado,sistemas de multiclassificac¸˜ao homogˆenea (Bagging e Boosting) e heterogˆenea (Voting, Stacking e StackingC) s˜ao aplicados nesta pesquisa, usando como base as t´ecnicas de AM anterior- mente mencionadas. Al´em disso, pelo fato de a base de dados de prote´ınas considerada neste trabalho apresentar o problema de classes desbalanceadas, t´ecnicas artificiais de ba- lanceamento de classes (Under-sampling Aleat´orio, Tomek Links, CNN, NCL e OSS) s˜ao utilizadas a fim de minimizar esse problema e melhorar o desempenho dos classificadores. vi vii Para a avaliac¸˜ao dos m´etodos de AM, um procedimento de validac¸˜ao cruzada ´e em- pregado, em que a acur´acia dos classificadores ´e medida atrav´es das m´edias da taxa de classifica¸c˜ao incorreta nos conjuntos de testes independentes. Essas m´edias s˜ao compara- das duas a duas pelo teste de hipo´tese a fim de avaliar se h´a diferen¸ca estatisticamente significativa entre elas. Com os resultados obtidos, pode-se observar, entre os classificadores base, o desempe- nho superior do m´etodo M´aquinas de Vetores Suporte. Os sistemas de multiclassifica¸c˜ao (homogˆenea e heterogˆenea), por sua vez, apresentaram, em geral, uma acur´acia superior ou similaradosclassificadoresusadoscomobase,destacando-seoBoosting queusouA´rvorede Decis˜ao em sua forma¸c˜ao e o StackingC tendo como meta classificador a Regress˜ao Linear. O m´etodo Voting, apesar de sua simplicidade, tamb´em mostrou-se adequado para a solu¸c˜ao do problema considerado nesta dissertac¸˜ao. Em rela¸c˜ao `as t´ecnicas de balanceamento de classes, n˜ao foram alcanc¸ados melhores resultados de classifica¸c˜ao global com as bases de dados obtidas com a aplicac¸˜ao de tais t´ecnicas. No entanto, foi poss´ıvel uma melhor classi- fica¸c˜ao espec´ıfica da classe minorit´aria, de dif´ıcil aprendizado. A t´ecnica NCL foi a que se mostrou mais apropriada ao balanceamento de classes da base de dados de prote´ınas. Abstract Nowadays, classifying proteins in structural classes, which concerns the inference of pat- terns in their 3D conformation, is one of the most important open problems in Molecular Biology. The main reason for this is that the function of a protein is intrinsically related to its spatial conformation. However, such conformations are very difficult to be obtained ex- perimentallyinlaboratory. Thus,thisproblemhasdrawntheattentionofmanyresearchers in Bioinformatics. Consideringthegreatdifferencebetweenthenumberofproteinsequencesalreadyknown and the number of three-dimensional structures determined experimentally, the demand of automated techniques for structural classification of proteins is very high. In this context, computational tools, especially Machine Learning (ML) techniques, have become essential to deal with this problem. In this work, ML techniques are used in the recognition of protein structural classes: Decision Trees, k-Nearest Neighbor, Na¨ıve Bayes, Support Vector Machine and Neural Net- works. These methods have been chosen because they represent different paradigms of learning and have been widely used in the Bioinfornmatics literature. Aiming to obtain an improvment in the performance of these techniques (individual classifiers), homoge- neous (Bagging and Boosting) and heterogeneous (Voting, Stacking and StackingC) multi- classification systems are used. Moreover, since the protein database used in this work presents the problem of imbalanced classes, artificial techniques for class balance (Under- samplingRandom,TomekLinks,CNN,NCLandOSS)areusedtominimizesuchaproblem. In order to evaluate the ML methods, a cross-validation procedure is applied, where viii ix the accuracy of the classifiers is measured using the mean of classification error rate, on independent test sets. These means are compared, two by two, by the hypothesis test aiming to evaluate if there is, statistically, a significant difference between them. With respect to the results obtained with the individual classifiers, Support Vector Machine presented the best accuracy. In terms of the multi-classification systems (homoge- neous and heterogeneous), they showed, in general, a superior or similar performance when compared to the one achieved by the individual classifiers used - especially Boosting with Decision Tree and the StackingC with Linear Regression as meta classifier. The Voting method, despite of its simplicity, has shown to be adequate for solving the problem pre- sentedinthiswork. Thetechniquesforclassbalance, ontheotherhand, havenotproduced a significant improvement in the global classification error. Nevertheless, the use of such techniques did improve the classification error for the minority class. In this context, the NCL technique has shown to be more appropriated. Sum´ario 1 Introduc¸˜ao 1 1.1 Motivac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Organizac¸˜ao da Disserta¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Prote´ınas 7 2.1 Introduc¸˜ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Estruturas de Prote´ına . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.1 Estrutura Prima´ria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.2 Estrutura Secunda´ria . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.3 Estrutura Tercia´ria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.4 Estrutura Quaterna´ria . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3 Classifica¸c˜ao Estrutural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.1 Bancos de Dados Biol´ogicos . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.2 Classe all-α . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.3 Classe all-β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.4 Classe α/β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.5 Classe α+β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4 An´alise Computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 x
Description: