Departamento de Ingenier´ıa El´ectrica, Electro´nica y de Control Escuela T´ecnica Superior de Ingenieros Industriales Detectores de ca´ıdas para tele´fonos inteligentes basados en algoritmos de deteccio´n de novedad Autor: Carlos Toma´s Medrano Sa´nchez Licenciado en Ciencias F´ısicas Diploma de Estudios Avanzados en Ingenier´ıa El´ectrica, Electro´nica y de Control Director: Dr. D. Manuel Alonso Castro Gil Codirectora: Dra. D.a Inmaculada Plaza Garc´ıa 2014 Agradecimientos El apartado de agradecimientos de una tesis doctoral suele comenzar con un reconocimiento a los directores de tesis. Este documento no va a ser una ex- cepci´on, pero no me ha resultado dif´ıcil encontrar los motivos. Simplemente, sin mis directores la tesis no estar´ıa hecha. ¡Gracias Manuel! ¡Gracias Inma! Ma- nuel Castro me ha abierto las puertas del Departamento de Ingenier´ıa El´ectrica, Electr´onica y de Control. Durante estos an˜os me ha mostrado su val´ıa profesional y humana. Ha tenido una visi´on amplia para sondear posibles temas de tesis, corrigiendo el camino cuando era necesario. Su apoyo en los peores momentos tambi´en ha sido importante para m´ı, mostr´andose siempre accesible y cercano. A pesar de trabajar en una universidad distinta, estoy seguro de que el futuro nos depara todav´ıa muchas colaboraciones interesantes. La ayuda de Inmaculada Plaza tambi´en ha sido imprescindible, transmiti´endome su coraje y haci´endome ver que s´ı, que esta locura de realizar otra tesis era posible. La labor de Inma- culada Plaza es encomiable. Ha creado un grupo de investigaci´on, EduQTech, en un centro pequen˜o, la Escuela Universitaria Polit´ecnica de Teruel, donde muchas personas han tenido (y algunas todav´ıa tienen) una mentalidad cerril e ignorante frente a la investigaci´on. La u´nica contribucio´n de muchos compan˜eros es poner piedras en el camino de los dem´as. Pues bien, el grupo EduQTech ha sido recono- cido por el gobierno de Arag´on, el primero en el Campus de Teruel en el a´mbito tecnol´ogico. Adema´s, muy acertadamente, ha orientado el grupo hacia el campo de la tecnolog´ıa aplicada a la mejora de la calidad de vida, especialmente con el uso de tecnolog´ıas mo´viles, lo que se ha venido en llamar mHealth, l´ınea en la cual se encuadra mi tesis. El grupo est´a intentando crecer con ilusi´on y fuerza, para lo cual espero haber aportado mi grano de arena. Quer´ıa extender mi agradecimiento a los miembros de EduQTech con los que he coincidido, siempre en un ambiente agradable. Hemos trabajado juntos en muchos proyectos. Gracias a Rau´l, A´ngel, Antonio, Jos´e y al resto de miembros i ii del grupo. Dentro del trabajo de tesis tambi´en he podido empezar a colaborar con el grupo de Begon˜a Garc´ıa, en la Universidad de Deusto, y con Habib M. Fardoun, de la Universidad King Abdulaziz, en Arabia Saud´ı. Gracias por estas posibilidades que habr´a que reforzar en el futuro. Asimismo, Marta y Mari Cruz, del Grupo de investigaci´on en Salud Mental en Atenci´on Primaria, liderado por Javier Garc´ıa Campayo, me echaron una mano con el papeleo para el Comit´e de E´tica. Mi agradecimiento tambi´en para los voluntarios que han participado en la simulaci´on de ca´ıdas y en la recogida de datos. Su aportaci´on ha sido imprescin- dible. Dentro del grupo de voluntarios, quiero tambi´en agradecer la disposici´on de la asociaci´on de Fibromialgia, S´ındrome de Fatiga Cr´onica y Sensibilidad Qu´ımi- ca Mu´ltiple de Teruel (AFIFASEN), as´ı como a varias pacientes de Fibromialgia del Centro de Salud del Arrabal de Zaragoza. Las pruebas y estudios preliminares que hemos realizado con ellas no se han desarrollado lo suficiente como para dar lugar a un cap´ıtulo de tesis, que finalmente se ha centrado s´olo en ca´ıdas. Sin embargo, me gustar´ıa destacar su disponibilidad y voluntad, que es un ejemplo para todos nosotros. Finalmente, quisiera expresar mi agradecimiento a todas aquellas personas (profesores, compan˜erosde trabajo) que me hanhecho ampliar mis conocimientos en algu´n campo. Al final, todos esos conocimientos forman un poso que permite afrontar mejor los problemas. Acr´onimos y t´erminos ACC: Precisio´n (accuracy) de un clasificador. ADL: Actividades de la vida diaria (Activities of Daily Living). AUC: A´rea bajo la curva ROC. CV: Validacio´n cruzada (Cross Validation). DB: Base de datos de ca´ıdas y ADL en 10 voluntarios menores de 45 an˜os. DB-LL: Base de datos de ca´ıdas y ADL en 10 voluntarios menores de 45 an˜os, de la que se extraen s´olo los datos en los que se detecta inactividad (long-lie period) despu´es del pico. DN: Detector de novedad. FI: ´Indica de ca´ıda, Fall Index. FN: Falso negativo (False Negative). FP, FPR: Falso positivo (False Positive), relacio´n de falsos positivos. GNN: NN gen´erico, que utiliza las ADL de unas personas distintas a aquellas a las que se aplica el detector. GSM: Sistema globalparacomunicaciones mo´viles (GlobalSystem forMobile Communications). GPS: Sistema de posicionamiento global (Global Positioning System). GSVM: SVM gen´erico. Hw: Hardware. HMM: Modelo oculto de Markov (Hidden Markov Model). IMEI:Identificacio´ninternacionaldeequipomo´vil(InternationalMobileEquip- ment Identification). KDE:Estimaci´ondedensidadmedianteKernels(KernelDensityEstimation). k-means+NN: Algoritmo de NN en el que se ha realizado una clusterizacio´n previa de las entradas. kNN: k-vecino ma´s cercano. iii iv kNN-sum: Una variante de kNN en la nota de anomal´ıa se obtiene sumando la distancia a los k-vecinos. LOF: Factor de novedad local (Local Outlier Factor). NN: Vecino ma´s cercano (Nearest Neighbour). NNO: Vecino ma´s cercano aplicado a ca´ıdas con cambio de orientacio´n. Para ser considerado como ca´ıda, debemos tener un cambio de orientacio´n m´ınimo. NNOV: Vecino ma´s cercano aplicado a ca´ıdas con cambio de orientacio´n y velocidad m´ınima. Para ser considerado como ca´ıda, debemos tener un cambio de orientacio´n m´ınimo y una velocidad final m´ınima. OCSVM: M´aquina de vectores soporte de una clase, (One Class SVM). PNN: NN personalizado utilizando s´olo las ADL de una persona dada. PSVM: SVM personalizado. ROC:Curva Caracter´ıstica Operativadel Receptor (Receiver OperatingCha- racteristics). SE: Sensibilidad (Sensitivity). SMLR: Regresi´on Log´ıstica Multinomial Dispersa (Sparse Multinomial Lo- gistic Regression). SMS: Servicio de mensajes cortos (Short Message Service). SP: Especificidad (Specificity). SVM: M´aquina de Vectores Soporte (Support Vector Machine). Sw: Software. TP, TPR: Verdadero positivo (True Positive), relacio´n de verdaderos positi- vos. TUG: Test de tiempo de levantarse y caminar (Timed Up and Go test). Resumen Las ca´ıdas son un importante problema de salud pu´blica con graves conse- cuencias f´ısicas y psicol´ogicas entre la poblaci´on mayor, adema´s de econ´omicas para los sistemas de salud. La deteccio´n temprana de una ca´ıda permitir´ıa aliviar sus consecuencias. A pesar del gran nu´mero de trabajos cient´ıficos realizados, estos sistemas de deteccio´n no se han popularizado y todav´ıa es necesario encon- trar un sistema fiable, robusto, aceptado por los usuarios y de coste asumible. Los sistemas basados en Visi´on por Computador est´an restringidos a un entorno dado y hay una gran diversidad de algoritmos, lo que indica que no se ha en- contrado el definitivo. Los dispositivos port´atiles con sensores se pueden usar en cualquier sitio, pero pueden suponer una incomodidad para el usuario o bien el usuario puede olvidar llevarlo consigo. Sin embargo, si se integrase el detector en un tel´efono inteligente, estos problemas desaparecer´ıan en gran medida. En esta tesis se plantea el uso de algoritmos de deteccio´n de novedad en tel´efonos inteligentes de gama media. Los tel´efonos inteligentes son dispositivos cada vez ma´s populares. Aunque no est´an adaptados para personas mayores, un disen˜o cuidadoso podr´ıa ayudar a superar esta barrera. Por otro lado, est´a claro que los mayores del futuro ya estara´n habituados a ellos. Los dispositivos de gama media poseen unos precios razonables e incluyen sensor de aceleracio´n y las funciones de comunicacio´n. Por otro lado, se han probado numerosos algoritmos para detectar ca´ıdas a partir de datos de aceleracio´n, desde simples umbrales hasta t´ecnicas ma´s com- plejas de Aprendizaje Autom´atico. Las t´ecnicas de deteccio´n de novedad se basan en modelar el comportamiento (movimiento) normal, por lo que una ca´ıda se de- tecta como una anomal´ıa. Esto puede ser adecuado por varios motivos. Mientras que apenas hay datos fiables de ca´ıdas reales, s´ı que pueden recogerse datos ver- daderos de las actividades de la vida diaria (ADL), tantos como se desee. Por otro lado, cuando una nueva persona lleva el mo´vil es posible recoger sus datos v vi y re-entrenar el sistema, adapt´andose a las diferencias con respecto a un sistema gen´erico, tales como tipos de movimientos o lugar en que se lleva el m´ovil. Para llevar a cabo la investigaci´on se ha realizado una base de datos con 10 voluntarios, que realizaron ca´ıdas simuladas y llevaron el mo´vil en su vida diaria para obtener datos de ADL. La base de datos se ha hecho pu´blica, siendo una de las pocas que se pueden encontrar en el ´ambito de las ca´ıdas, y mejorando las anteriores en cuanto a nu´mero de registros. Con esta base de datos se ha realizado un an´alisis a posteriori. Se han compa- rado varios detectores de novedad que constituyen el estado del arte de la t´ecnica, siendo el vecino ma´s cercano (NN) el ma´s adecuado. Despu´es se ha comparado con un clasificador tradicional, una ma´quina de vectores soporte (SVM). SVM resulta tener mejores prestaciones en una comparaci´on est´andar, si se enfrenta a un tipo de ca´ıda diferente, o a una frecuencia de muestreo diferente. Sin em- bargo, si el mo´vil se lleva en un sitio distinto (bolsillo-bolso) o se personaliza, NN puede igualar o incluso superar a SVM. La inclusi´on de condiciones adiciona- les, por ejemplo una deteccio´n de inactividad o un cambio de orientacio´n, puede mejorar los resultados. Una estimacio´n a partir de ADL de personas mayores, indica que nuestro sistema puede llegar a obtener un nu´mero de falsos positivos por semana razonable en algunas personas, mientras que en otras todav´ıa habr´ıa que mejorarlo. Se ha desarrollado una aplicaci´on mo´vil como prueba de concepto, comprobando su funcionamiento correcto. Comotrabajofuturo,seplanteandosvertientes. Enunavertientema´st´ecnica, se puede intentar mejorar los algoritmos de vecino ma´s cercano suavizando la regio´n de decisio´n. Por otro lado, y contrariamente a nuestra base de datos, ser´ıa necesario contar con datos de personas mayores incluyendo toda la l´ınea temporal durante varios d´ıas para poder hacer una an´alisis de todas las fases de una posible ca´ıda. Summary Falls are an important public health problem, leading to severe physical and psychological consequences among the elderly and economic consequences for health systems. A prompt detection of falls could alleviate these problems. Des- pite the large number of scientific studies, this kind of detectors has not become popular and a reliable and robust detector, usable by the elderly and at an affor- dable price, would be welcome. Computer Vision-based systems are restricted to a given environment and the variety of published algorithms indicates that the ultimate solution has not been found yet. Wearable sensors can be used at any place and time, but they are not comfortable and the user can forget to wear them. However, if the sensors were integrated in a smartphone, these drawbacks will disappear toa greatextent. Inthisthesis, we proposetouse novelty detection algorithms in mid-range smartphones. Smartphones are becoming very popular. Even though they are not adapted for older people, a suitable design could help to overcome this barrier. Besides, it is clear that the elderly in the future will get used to utilising them. Mid-range devicesincludeaccelerometersandcommunicationfunctionsatareasonableprice. On the other hand, several algorithms has been tested to detect falls from ac- celerometer data, either simple thresholds or more complex Machine Learning techniques. Novelty detection techniques model the normal behaviour (move- ment), so that a fall could be detected as an anomaly. This is interesting for several reasons. While real fall data are scarce, it is easy to record true data of activities of daily living (ADL), as much as needed. In addition, whenever a new user carries the phone, it can record new data and re-train the system. In this way the detector can adapt to conditions different from those of the first training phase, like the kind of movements or the place where the phone is worn. To carry on our study, we have registered a data set with ten volunteers, who simulated falls and carried the phone in their daily life for several days. The data vii viii set is publicly available, being one of the few that can be found for fall detection, and improving the others in terms of number of records. An off-line analysis has been made with our data set. We have compared some of the state-of-the-art novelty detection algorithms. We have selected the nearest neighbour (NN) as the most suitable. Then, we have compared it with a traditional classifier, a Support Vector Machine (SVM). SVM outperforms NN in a standar cross-validation, in a cross-validation by fall type or if the system operates at a different sampling frequency. Nevertheless, if the phone is worn in a different place (pocket - hand bag) or if it is personalized, NN reaches or even exceeds SVM in performance. Additional conditions regarding the inactivity or the orientation change after the fall can improve the results. We have estimated the number of false positives per week in a set of ADL of older people. We have found a reasonable number for some of them, but the system has still to ameliorate for others. A mobile application has been developed as a proof-of- concept, checking its correct operation. Our future lines of work will be splitted in two sides. Firstly, from a more technical point of view, we would like to improve NN algorithms by smoothing the decision boundary. Secondly, we think that it would be highly desirable to record data from older people all over the time line for several days, without gaps, unlike our first data set, in order to take into account all the phases of a potential fall.
Description: