ebook img

Anotação e classificação automática de entidades e relações PDF

196 Pages·2017·10.27 MB·Portuguese
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Anotação e classificação automática de entidades e relações

Jonatas dos Santos Grosman LER: Anotação e classificação automática de entidades e relações Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós–graduação em Informática da PUC-Rio. Orientador: Prof. Hélio Côrtes Vieira Lopes Rio de Janeiro Abril de 2017 Jonatas dos Santos Grosman LER: Anotação e classificação automática de entidades e relações Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós–graduação em Informática da PUC-Rio. Aprovada pela Comissão Examinadora abaixo assi- nada. Prof. Hélio Côrtes Vieira Lopes Orientador Departamento de Informática – PUC-Rio Profª. Simone Diniz Junqueira Barbosa Departamento de Informática – PUC-Rio Profª. Maria Cláudia de Freitas Departamento de Letras – PUC-Rio Prof. Marcus Vinícius Soledade Poggi de Aragão Departamento de Informática – PUC-Rio Prof. Márcio da Silveira Carvalho Coordenador Setorial do Centro Técnico Científico – PUC-Rio Rio de Janeiro, 20 de Abril de 2017 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Jonatas dos Santos Grosman Graduou-se em Sistemas de Informação pela Faculdade de Educação Tecnológica do Estado Rio de Janeiro. Ficha Catalográfica Grosman, Jonatas dos Santos LER: Anotação e classificação automática de entidades e relações / Jonatas dos Santos Grosman; orientador: Hélio Côrtes Vieira Lopes. – 2017. v., 196 f: il. color. ; 30 cm Dissertação (mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Informática. Inclui bibliografia 1. Informatica – Teses. 2. Processamento de linguagem natural. 3. Aprendizado automático. 4. Extração de infor- mação. 5. Ontologias. 6. Curadoria dedados. I. Lopes,Hélio Côrtes Vieira. II. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. III. Título. CDD: 004 Agradecimentos Começarei pelo clichê. Palavras não bastam para descrever tamanha gratidão que tenho pelas pessoas que fizeram parte do processo que culminou neste trabalho. Agora ao menos clichê. Eu poderia separar em três grupos as pessoas à agradecer, as que me fizeram entrar no mestrado, as que me fizeram continuar nele e, por fim, as que me fizeram concluí-lo. Inicialmente tentei transcrever os agradecimentos segundo essa divisão, mas me peguei em tantas intersecções que decidi escrever na ordem que encontrei algum sentido. Pois bem, eu poderia começar o agradecimento regredindo muito no tempo, lembrando dos incentivos dos meus professores e colegas de faculdade, já que foi nesse tempo que minha paixão pela computação nasceu, mas só não o farei por intuito de brevidade, preferindo começar pelos meus primeiros passos fora dela. Foi nesse tempo que conheci as pessoas que mais contribuíram para eu entender onde estava me metendo e que rumo tomar. Começo pelo estágio, onde conheci um grande amigo, Lucas Bastos, que a seu jeito me fazia querer saber mais sobre computação. Indo para a minha primeira experiência científica fora da faculdade, no tempo que fiquei no Laboratório Nacional de Computação Científica, conheci pessoas brilhantes como Anderson Menezes, Antônio Tadeu, Artur Ziviani, Bruno Bastos, Bruno Correa, Iuri Malinoski, Thiago Cardozo e Vinicius Moreira. Eles podem nem fazer ideia do quanto tenho a agradecer pelas lições aprendidas, então escrevo aqui para que tenham ciência. Na minha passagem pelo Observatório Nacional, mesmo que breve, já que tive de abandoná-los para poder fazer o mestrado, conheci pessoas como Pedro Rocha e Selma Junqueira, que me ajudaram com o empurrão que faltava paraquererenveredarpelocaminhoquetomei.Tenhomuitoaagradecer(muito mesmo) aos meus grandes amigos Fábio Albuquerque, Felipe Gomes, Wesley Hinsch e Wendson Chaper, pessoas com quem trabalhei e me ajudaram a manter a sanidade em alguns momentos difíceis. Entrando agora nos domínios da PUC-Rio, gostaria de falar sobre os amigos que sofreram comigo os pesares da pós-graduação, Bruno Pontes, Djalma Lúcio, Grazi Kapps, João Magela, Luiz Felipe Netto, Renato Moraes e Victor Thomaz, pois com eles o percurso foi, de qualquer modo, duro, porém alegre. Tenho de falar também dos amigos de laboratório, Cássio Almeida, Jefry Sastre, Sonia Fiol e William Fernandes, sempre dispostos a ajudar e rir quando eu estava em apuros. Agradeço também a todos os professores que influenciaramestetrabalho,emespecialSimoneDiniz,MariaCláudiaeMarcus Poggi (não é por acaso a participação deles na banca examinadora). Reservo aqui um espaço para falar sobre duas pessoas que foram fundamentais para a conclusão deste trabalho, Pedro Furtado e Hélio Lopes, o primeiro um grande amigo, diria irmão, que fiz no departamento e o segundo outro grande amigo e por acaso também meu orientador. Se este trabalho merece aplausos, eu os divido com os ambos. Por fim, porém não menos importante, já que se a ordem fosse determinante esta parte deveria vir na capa, gostaria de agradecer a minha família por todo apoioquemederam,dãoeseiquedarão.Cabeaquifazerumatranscriçãomais detalhada dos culpados. Aos meus pais Maria e Paulo, detentores da minha admiração e respeito por todo o sacrifício que fizeram para que eu pudesse realizar meus sonhos, ao meu irmão Felipe por seu apoio e admiração (gostaria de dizer "pelos conselhos", mas estes é melhor não seguir a risca). Agradeço também a minha esposa Júlia pelo amor, paciência e apoio dado durante o processo de construção deste trabalho (ainda espero conseguir que me libere para o doutorado), e minha cunhada Juliana e meus sogros Aníbal e Kátia pelo apoio e sincera admiração que me deram. E depois de tantos nomes, era de se esperar que ao cabo pedisse desculpas por ter esquecido algum (o que não seria nenhum espanto, já que tenho lá minhas dúvidas se tão poucas linhas seriam suficientes para cobrir minha gratidão), então peço aqui minha absolvição, e digo que se isso de fato aconteceu, não me julgue mal. Se o seu nome fosse para estar aqui, é sinal de que me conhece bem e logo sabe o quão desmemoriado sou. Resumo Grosman, Jonatas dos Santos; Lopes, Hélio Côrtes Vieira. LER: Anotação e classificação automática de entidades e re- lações. Rio de Janeiro, 2017. 196p. Dissertação de Mestrado – De- partamentodeInformática,PontifíciaUniversidadeCatólicadoRio de Janeiro. Diversas técnicas para extração de informações estruturadas de dados em linguagem natural foram desenvolvidas e demonstraram resultados muitosatisfatórios.Entretanto,paraobteremtaisresultados,requeremuma série de atividades que geralmente são feitas de modo isolado, como a anotação de textos para geração de corpora, etiquetamento morfossintático, engenharia e extração de atributos, treinamento de modelos de aprendizado de máquina etc., o que torna onerosa a extração dessas informações, dado o esforço e tempo a serem investidos. O presente trabalho propõe e desenvolve uma plataforma em ambiente web, chamada LER (Learning Entities and Relations) que integra o fluxo necessário para essas atividades, com uma interface que visa a facilidade de uso. Outrossim, o trabalho mostra os resultados da implementação e uso da plataforma proposta. Palavras-chave Processamento de linguagem natural; Aprendizado automático; Ex- tração de informação; Ontologias; Curadoria de dados. Abstract Grosman, Jonatas dos Santos; Lopes, Hélio Côrtes Vieira (Advi- sor). LER: Annotation and automatic classification of en- tities and relations. Rio de Janeiro, 2017. 196p. Dissertação de Mestrado – Departamento de Informática, Pontifícia Universidade Católica do Rio de Janeiro. Many techniques for the structured information extraction from natu- ral language data have been developed and have demonstrated their poten- tials yielding satisfactory results. Nevertheless, to obtain such results, they requiresomeactivitiesthatareusuallydoneseparately,suchastextannota- tion to generate corpora, Part-Of- Speech tagging, features engineering and extraction, machine learning models’ training etc., making the information extraction task a costly activity due to the effort and time spent on this. The present work proposes and develops a web based platform called LER (Learning Entities and Relations), that integrates the needed workflow for these activities, with an interface that aims the ease of use. The work also shows the platform implementation and its use. Keywords Natural language processing; Automatic learning; Information ex- traction; Ontologies; Data curation. Sumário 1 Introdução 20 2 Revisão bibliográfica 24 2.1 Mineração de textos e processamento de linguagem natural 24 2.2 Anotação de dados textuais 28 3 A plataforma 37 3.1 Arquitetura 40 3.2 Controle de usuários 43 3.3 Gerência de projetos 44 3.4 O ERAS 46 3.4.1 Gerência dos dados 48 3.4.2 Anotação 55 3.4.3 Estatísticas 59 3.5 Aprendizado automático 68 3.6 Publicação de serviços 77 4 Experimentos 81 4.1 Experimento de anotação 81 4.1.1 Metodologia 81 4.1.2 Resultados 82 4.2 Experimento de aprendizado automático 85 4.2.1 Dados 86 4.2.2 Metodologia 95 4.2.3 Resultados 97 4.2.3.1 NER 97 4.2.3.2 RE 102 4.2.3.3 Uso dos modelos finais 105 5 Conclusão 111 Referências bibliográficas 114 A Experimento de anotação: Guia de anotação 118 A.1 FERRAMENTA DE ANOTAÇÃO 118 A.1.1 PROCESSO DE ANOTAÇÃO 120 A.1.2 ATALHOS 127 A.2 TAREFA DE ANOTAÇÃO 127 A.2.1 RÓTULOS 127 A.2.1.1 Actor 128 A.2.1.2 Event 129 A.2.1.3 Location 131 A.2.1.4 Time 132 A.2.1.5 Tipos primitivos 132 A.2.2 RELAÇÕES 134 A.2.3 CONECTORES 138 A.2.4 EXEMPLOS 139 A.3 CONSIDERAÇÕES FINAIS 141 B Experimento de anotação: Comentários 143 C Experimento de anotação: Dados dos participantes 146 C.1 User 01(A,0,5) 146 C.2 User 02(A,0,5) 146 C.3 User 03(B,0,5) 147 C.4 User 04(B,0,5) 148 C.5 User 05(A,0,10) 149 C.6 User 06(A,0,10) 149 C.7 User 07(B,0,10) 150 C.8 User 08(B,0,10) 151 C.9 User 09(A,2,5) 151 C.10 User 10(A,2,5) 152 C.11 User 11(B,2,5) 153 C.12 User 12(A,2,10) 154 C.13 User 13(A,2,10) 154 C.14 User 14(B,2,10) 155 C.15 User 15(A,4,5) 156 C.16 User 16(A,4,5) 156 C.17 User 17(B,4,5) 157 C.18 User 18(A,4,10) 158 C.19 User 19(A,4,10) 159 C.20 User 20(B,4,10) 160 D Experimento de anotação: Tabelas e gráficos 162 E Experimento de aprendizado automático: Tabelas e gráficos 179 Lista de figuras 1.1 Exemplos de dificuldades para ferramentas computacionais conven- cionais para tratamento de textos, ao lidarem com tweets: (a) abre- viações de palavras e referência geográfica (Linha Amarela) usando um identificador de uma conta do Twitter (@LinhaAmarelaRJ); (b) horários e hyperlinks; (c) abreviações especiais do domínio do Twit- ter, como “RT” para representar “retweet”. 21 2.1 ClassesdaontologiaTEDOeobjectproperties (datatypeproperties omitidas para legibilidade) (6) 24 2.2 Resultado, em grafo, do fluxo proposto em (6) [Conforme figura do mesmo artigo, com adição das tags das relações, uma vez que no trabalho haviam números que faziam referência a uma tabela não apresentada aqui.] 27 2.3 Resultado, em RDF, do fluxo proposto em (6) [Figura obtida no referido trabalho.] 28 2.4 Processo de extração de informações do sistema TwitIE [Figura retirada de (22)] 31 2.5 Tela do ambiente de anotação do BRAT para uma aplicação específica de extração de eventos biomédicos. 32 2.6 Interface do WebAnno para configuração de projetos e definição do conjunto de tags. [Figura retirada de (23)] 33 2.7 Interface do WebAnno para curadoria de dados. [Figura retirada de (23)] 33 2.8 Interface do WebAnno para monitoração dos projetos. [Figura retirada de (23)] 34 3.1 Fluxo geral de estruturação de dados 38 3.2 Fluxo de curadoria dos dados 38 3.3 Fluxo de aprendizado automático 39 3.4 Fluxo de implantação dos modelos 39 3.5 LER 40 3.6 Arquitetura do LER 41 3.7 Exemplo de escalonamento vertical do LER 41 3.8 Exemplo de escalonamento horizontal do LER 42 3.9 Exemplo de escalonamento horizontal do LER utilizando cluster 42 3.10 Tela inicial da plataforma 43 3.11 Resumo do modelo de dados do LER 43 3.12 Menu da plataforma por níveis de acesso: (a) Administrador; (b) Usuário; (c) Colaborador 44 3.13 Criação de projetos 45 3.14 Descrição de verbos em português no Freeling 4.0 45 3.15 Área de projetos 46 3.16 Anotações usuário A: (a) anotação do documento 01.txt seguido de sua re-anotação; (b) anotação do documento 02.txt seguido de sua re-anotação 47

Description:
AngularJS: Biblioteca responsável pelo controle dos componentes do frontend bem como as chamadas aos serviços do backend. Como pode ser visto na da Av. das Américas, altura do BRT Salvador Allende, sentido Barra. – User, 08(B,0,10): Acidente e interdição deveriam ser associados ao.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.