El proceso de Data Mining desde el punto de vista de negocios: Caso para el análisis

Escrito por softwarelibrevenezuela 11-08-2008 en General. Comentarios (2)
http://www.monash.edu.au/pubs/monmag/issue7-2001/img/datamining7.jpg

Por Cristián J. Figueroa Sepúlveda

Ingeniero Consultor del Departamento de Business Intelligence

SONDA S.A.

 

El proceso de Data Mining (Minería de Datos), una de las familias de soluciones del área del conocimiento llamada Business Intelligence (BI), puede ayudar a extraer conocimiento novedoso de manera automática a partir de datos de diversa índole que las compañías han generado producto de su negocio y que almacenan en sus bases de datos.

Este conocimiento implícito puede generar aplicaciones de alto valor agregado si es que el proceso de Data Mining es entendido apropiadamente, no sólo desde un punto de vista técnico sino también desde una perspectiva de negocios.

Aplicaciones tales como detección y prevención de fraudes y abusos, segmentación de clientes, análisis de fidelización, predicción de fugas, cross-selling,up-selling, market basket, o conceptos tales como clasificadores y regresiones basados en redes neuronales han emergido profusamente durante los últimos años en el vocabulario de muchas compañías como una forma de reflejar el enorme potencial que ellas podrían alcanzar con esta tecnología aplicada a sus datos.

De hecho, varias compañías han adoptado la idea de crear departamentos internos de Inteligencia de Mercado los cuales en última instancia son los responsables de llevar a cabo éstas y otras iniciativas de Business Intelligence al interior de las mismas. En esta línea, seminarios de corte académico son dictados cada año como una forma de “evangelizar” a la audiencia en cómo el proceso de Data Mining debe realizarse, comparando distintas técnicas y mostrando tasas de rendimiento superiores utilizando determinados tipos de algoritmo. Es típica la conclusión, por ejemplo, que una clasificación hecha con redes Perceptrón Multicapa (MLP) obtuvo un 85,5% de aciertos mientras que una red Bayesiana obtuvo un 85,8% de aciertos, lo cual hace que la red Bayesiana sea mejor para resolver el problema en cuestión.

Muchas veces el modelo mental que se tiene sobre el proceso de Data Mining es un conjunto de pasos centrados en los algoritmos que si se siguen ordenadamente inevitablemente nos conducirán al éxito. En concordancia con esto, la mayoría de las plataformas tecnológicas de BI vienen en sus últimas versiones con módulos previamente diseñados para que incluso un usuario final pueda ejecutar el proceso de Data Mining.

Sin embargo, lo cierto es que si los argumentos para defender el aporte de una aplicación basada en Data Mining no son lo suficientemente objetivos desde una perspectiva de negocios es muy probable que esas aplicaciones centradas en el modelado sean abortadas en el camino o en su defecto sean realizadas pero no lleguen a puerto con un resultado objetivamente superior a lo que ya se estaba haciendo antes de implementarla. La verdad es que desde el punto de vista de negocios importa más cuantificar el Retorno Económico de la Inversión (ROI) de una aplicación de Data Mining que obtener mejoras marginales en los rendimientos de uno u otro algoritmo para resolver un problema dado.

En el Departamento de Business Intelligence de SONDA hemos venido desde hace algún tiempo balanceando ambos aspectos, el técnico y el de negocios en las soluciones de Data Mining que hemos estado implementando. Nuestros clientes están muy interesados en saber cuánto es posible ahorrar mensualmente con nuestras aplicaciones basadas en Data Mining.

Técnicamente, utilizamos la metodología CRISP-DM para diseñar y construir cualquier aplicación que se base en el proceso de Data Mining, siguiendo los seis pasos:

  1. Entendimiento del problema,
  2. Entendimiento de los datos,
  3. Preparación de los datos,
  4. Modelado,
  5. Evaluación e
  6. Implantación

La experiencia con la que hemos contado para el diseño y construcción de las aplicaciones basadas en el proceso de Data Mining, siguiendo esta metodología, ha sido de nivel mundial. Esto lo valida la buena recepción que recibió nuestro sistema FraudScanning® para la detección temprana de licencias médicas fraudulentas y abusivas en el sector salud aplicado en la Isapre Banmedica.

Este caso fue presentado a la comunidad internacional de profesionales e investigadores en Business Intelligence en uno de los salones del MonteCarlo Resort & Casino de Las Vegas, Nevada, E.E.U.U., donde se realizó la Conferencia Internacional en Data Mining 2006 (DMIN’06). Dentro de los elogios recibidos destacan el modelado concebido en la solución propuesta y la retroalimentación entre entidades. Cabe destacar que la mayor parte de los asistentes a esta conferencia provenían de países tales como China, Inglaterra, Alemania, EE.UU.,Francia, Finlandia e India, quienes aplican y desarrollan soluciones deBusiness Intelligence de primer nivel.

 

Metodología CRISP-DM

 

Nuestra propuesta de sistema de detección de fraudes y abusos utiliza un conjunto de Redes Neuronales Supervisadas MLP para cada una de las entidades envueltas en el problema: licencias médicas, afiliados,profesionales, médicos y empleadores. Esta estrategia de “dividir yconquistar” nos ha permitido retroalimentar la información a través del tiempo, combinando los comportamientos de los afiliados, médicos y empleadores.

Las redes MLP han sido las más difundidas en la literatura. Dentro de sus capacidades destaca la posibilidad de actuar como aproximadores universales de cualquier función matemática. A pesar de existir la posibilidad que los resultados de esta red caigan en mínimos locales de la solución, nuestros experimentos con MLP durante la etapa de Modelado de CRISP  fueron similares a aquellos alcanzados con estrategias más sofisticadas como Support Vector Machines. De todas maneras, independiente de qué algoritmo utilizar en la etapa de Modelado, nuestra experiencia indica que el gran esfuerzo tiene que ser puesto en las etapas previas al Modelado cuando una aplicación basada en Data Mining se esté llevando acabo.