REGRAS DE ASSOCIAÇÃO APLICADAS A UM MÉTODO DE APOIO AO PLANEAMENTO DE RECURSOS HUMANOS por Miguel José Pires da Silva Almeida Veloso Tese de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientada por Prof. Doutor Alípio Jorge Faculdade de Economia Universidade do Porto 2003 “The secret of success is to know something nobody else knows”. - Aristotle Onassis i Nota Biográfica Miguel José Pires da Silva Almeida Veloso nasceu em Maputo (ex-Lourenço Marques) – Moçambique - a 1 de Julho de 1971. Em 1996 concluiu a licenciatura em Engenharia de Sistemas e Informática pela Universidade do Minho. Iniciou a sua actividade profissional na Lusodata – Sistemas Informáticos onde ganhou larga experiência no desenvolvimento de software através de ferramentas CASE orientadas aos objectos. Em 1998 aceitou o desafio de se deslocar para a cidade de Lisboa para integrar a equipa de Management Consulting - grupo de Information Technologies - da Ernst & Young Portugal. Actualmente, e desde o ano 2000, exerce funções de gestão de projecto na Enabler – Solutions for Retailing, onde tem desenvolvido competências na área de Data Wharehouse / Business Intelligence. ii Agradecimentos Em primeiro lugar quero endereçar um agradecimento muito especial ao Prof. Doutor Alípio Jorge pela forma dedicada como conduziu a orientação desta tese. Ao Jorge Brás pela autorização que me concedeu para poder utilizar dados da Enabler na elaboração do modelo apresentado neste documento. Ao Jorge Santos e ao José Ribas pelo apoio concedido. Ao Prof. Doutor Paulo Azevedo pelos concelhos e pela ajuda na utilização do CAREN e ao projecto de investigação POSI/2001 Class. A todos os meus colegas de trabalho que amavelmente acederam ao meu pedido para o preenchimento do inquérito que será apresentado. À Alina, ao João e aos meus pais por todo apoio e ajuda. iii Resumo Nesta dissertação foi explorada a utilização de regras de associação para tarefas de recomendação, tendo como aplicação prática um caso de apoio à escolha de recursos humanos para a constituição de equipas em projectos. Foi proposta uma metodologia de apoio à decisão com base em modelos derivados a partir de dados históricos de utilização dos recursos humanos da empresa. Para sustentar esta metodologia foi desenvolvido um sistema de recomendação que utiliza um modelo de filtragem colaborativa baseado em regras de associação. As recomendações são efectuadas de duas formas: primeiro, recomendando um único elemento da equipa (recurso), dada uma equipa de projecto parcialmente constituída; segundo, recomendando alterações a uma equipa completa, previamente constituída. A avaliação foi feita a vários níveis: estimação das características preditivas dos modelos; adequação dos resultados aos objectivos da empresa – através da análise de um inquérito elaborado para medir a percepção dos potenciais utilizadores deste sistema, face à adequação das recomendações produzidas por este. O caso foi abordado seguindo a metodologia CRISP-DM. iv Abstract The subject of this thesis is the use of association rules for recommendation tasks, applied to a case of supporting human resources selection in building project-teams. A methodology of decision support is proposed, grounded on the basis of models built on historical data related to company’s human resources policy. In order to sustain this methodology, it was developed a recommendation system that uses a collaborative filtering model based on association rules. Recommendation is made at two levels: first by recommending a single team element given a partially built team; and second by recommending changes to a complete team. Assessment is made at several levels: estimation of the models’ predictive characteristics; appropriateness of the results to the company’s goals – through a users’ perception survey. The case was developed following the CRISP-DM methodology. v Índice 1 INTRODUÇÃO................................................................................................................................1 2 REGRAS DE ASSOCIAÇÃO.........................................................................................................7 2.1 INTRODUÇÃO.............................................................................................................................7 2.2 DESCOBERTA DE REGRAS DE ASSOCIAÇÃO...............................................................................9 2.3 SELECÇÃO DE REGRAS.............................................................................................................12 2.4 PÓS PROCESSAMENTO E EXPLORAÇÃO DE REGRAS DE ASSOCIAÇÃO.......................................18 2.5 RESUMO DO CAPÍTULO.............................................................................................................19 3 APLICAÇÃO DE REGRAS DE ASSOCIAÇÃO.........................................................................20 3.1 CLUSTERING DE REGRAS DE ASSOCIAÇÃO................................................................................20 3.2 REGRAS DE ASSOCIAÇÃO PARA CLASSIFICAÇÃO......................................................................22 3.3 SISTEMAS DE RECOMENDAÇÃO................................................................................................24 3.4 AVALIAÇÃO DE SISTEMAS DE RECOMENDAÇÃO.......................................................................29 3.5 SISTEMAS DE RECOMENDAÇÃO E REGRAS DE ASSOCIAÇÃO.....................................................32 4 RECOMENDAÇÃO DE RECURSOS HUMANOS PARA EQUIPAS DE PROJECTOS.......35 4.1 METODOLOGIA.........................................................................................................................36 4.2 COMPREENSÃO DO NEGÓCIO....................................................................................................40 4.2.1 Caracterização da Enabler.................................................................................................40 4.2.2 Definição do Problema.......................................................................................................48 4.3 COMPREENSÃO DOS DADOS.....................................................................................................53 4.3.1 Análises Preliminares.........................................................................................................53 4.3.2 Análise Exploratória...........................................................................................................57 4.3.3 Análise dos Cestos e dos Conjuntos de Recursos................................................................59 5 PREPARAÇÃO DE DADOS E MODELAÇÃO..........................................................................65 5.1 CONSTRUÇÃO DO MODELO.......................................................................................................65 5.2 RESULTADOS EXPERIMENTAIS.................................................................................................69 5.3 EXPERIÊNCIAS ADICIONAIS......................................................................................................76 5.3.1 Modelo com Regras Default...............................................................................................76 5.3.2 Impacto da informação disponível nos resultados..............................................................78 5.3.3 Utilização do Interest para selecção de regras..................................................................80 5.4 RECOMENDAÇÃO DE EQUIPAS..................................................................................................84 5.5 RESUMO DO CAPÍTULO.............................................................................................................90 6 AVALIAÇÃO..................................................................................................................................91 vi 6.1 PERCEPÇÃO DOS UTILIZADORES...............................................................................................91 6.2 DISCUSSÃO...............................................................................................................................94 7 OPERACIONALIZAÇÃO.............................................................................................................96 7.1 PROPOSTA DE IMPLEMENTAÇÃO...............................................................................................96 7.2 MODELO DE RESTRIÇÕES.........................................................................................................98 7.3 RECOMENDAÇÃO DE EQUIPAS................................................................................................101 8 CONCLUSÕES E TRABALHO FUTURO................................................................................102 EPÍLOGO................................................................................................................................................107 REFERÊNCIAS......................................................................................................................................108 ANEXO 1 SÍNTESE DA METODOLOGIA CRISP-DM...................................................................116 BUSINESS UNDERSTANDING.................................................................................................................116 DATA UNDERSTANDING.......................................................................................................................116 DATA PREPARATION.............................................................................................................................117 MODELING............................................................................................................................................118 EVALUATION........................................................................................................................................118 DEPLOYMENT.......................................................................................................................................119 ANEXO 2 ANÁLISES MULTIVARIADAS.........................................................................................120 ANÁLISE CLASSIFICATÓRIA HIERÁRQUICA...........................................................................................121 CLASSIFICAÇÃO....................................................................................................................................123 ANÁLISE DE COMPONENTES PRINCIPAIS...............................................................................................125 Recursos..........................................................................................................................................125 Projectos.........................................................................................................................................128 ANEXO 3 CAREN..................................................................................................................................132 ANEXO 4 PROGRAMAS EM R...........................................................................................................133 ANEXO 5 QUESTIONÁRIO.................................................................................................................139 vii 1 Introdução O fenómeno da globalização [Hill, Charles W. L. (2001)], em relação ao qual as tecnologias de informação têm hoje em dia grande responsabilidade, obriga a que todos os agentes que intervêm na sociedade, em particular as empresas, estejam receptivos e preparados para a mudança, por forma a garantir a sua sobrevivência num mercado mais amplo e competitivo [Gordon, S. R. et al. (2003)]. As empresas dos dias de hoje localizam-se praticamente onde querem em busca das melhores condições para cumprirem as suas missões. Este facto só tem sido possível à custa dos progressos verificados nas últimas décadas nas telecomunicações e na capacidade de computação. [Laudon, K. C. et al. (2002)]. As possibilidades quase ilimitadas, apesar de ainda não serem completamente compreendidas, oferecidas actualmente pela Internet às empresas, permitem que estas obtenham uma penetração de mercado tal, que não lhes é difícil estar em todo lado ao mesmo tempo: permite-lhes dar a conhecer em todo o lugar e em qualquer momento, a sua oferta de valor (o que têm para vender), e, inversamente, permite-lhes procurar em todo o mundo o que necessitam de comprar. Este paradigma de fazer negócio, e- business, complementa a visão tradicional que caracteriza a relação entre empresas (B2B - Business to Business); e entre empresas e clientes finais (B2C - Business to Consumer) [Gordon, S. R. et al. (2003)]. Porém, a Internet e a globalização exigirão agilidade e rapidez nos processos de negócio. Quando a empresa entrar na fase inevitável do comércio electrónico, torna-se necessário que internamente a sua cadeia de valor seja leve, assente em processos de negócio altamente integrados. Uma tal integração exige que os sistemas de informação da empresa estejam dotados com pacotes de software do tipo ERP (Enterprise Resource Planning) [Gordon, S. R. et al. (2003)]. Este tipo de aplicativos permitem automatizar processos manuais – incompatíveis com o comércio electrónico - e reduzir custos operacionais [Laudon, K. C. et al. (2002)]. 1 A presença dos computadores em praticamente todo lado é, hoje em dia, uma realidade inquestionável. A grande maioria dos processos que nos rodeiam são grandemente suportados por meios computacionais. Como resultado destas evidências, verifica-se que a quantidade de informação disponível actualmente é absolutamente brutal: durante o séc. XX, o volume de informação gerado e mantido por algumas empresas cresceu cerca de 100.000 vezes [Berry, Michael J. A. et al. (2000)]! A informação assume-se assim como um factor vital e indispensável para a gestão e competitividade das empresas, sendo que esta pode e deve ser considerada como um activo de elevada importância neste enquadramento. Isto é, estamos em plena era da “revolução da informação e do conhecimento” [Turban, Efraim et al. (2001)]. Com o objectivo de dotar as organizações com capacidades de “memória”, surgiram neste contexto nos últimos anos, os sistemas do tipo Data Warehouse [Inmon, W. H. (1996)], cuja função é o armazenamento eficaz e coerente da informação gerada ao longo do tempo pelas várias fontes de informação associadas a uma empresa. Pelas suas características técnicas, é suposto que um Data Warehouse disponibilize a informação certa, no sítio certo, no tempo certo, com o custo certo, no sentido de suportar as decisões certas. Usualmente, a análise da informação armazenada num Data Warehouse é efectuada por ferramentas baseadas em tecnologia OLAP – On Line Analytical Processing [Jarke, Matthias et. al (2003)], [Kimball, Ralph (1996)], [Westerman, Paul (2001)]. Uma vez que este volumes de informação podem esconder padrões interessantes e úteis do ponto de vista de negócio, de que forma é que é possível converter esta informação em conhecimento? Variados sectores do meio científico, designadamente o estatístico e o informático, têm- se empenhado no sentido de serem descobertas técnicas capazes de transformar estes imensos volumes de informação em conhecimento. Em termos computacionais designa- se vulgarmente esta transformação por: Data Mining, Pattern Recognition, ou, Knowledge Discovery in Data Bases (KDD) [Witten, Ian H. et al. (2000)], [Ripley, B. D. (2001)]. A aplicabilidade prática das acções de Data Mining são várias [Berry, 2
Description: