Blog TD SYNNEX LAC

8 pasos esenciales de Data Mining y su importancia

Escrito por Equipe SYNNEX Westcon-Comstor | 29-jun-2016 10:00:00

Algunos pasos del proceso de minería de datos y ejemplos de aplicaciones prácticas para empresas.

 

 

Debido a la creciente conexión de sensores RFID a objetos de las más variadas formas y tamaños, así como de servicios y entornos antes totalmente desconectados, como las propiedades rurales, la cantidad de datos que están surgiendo por todas partes no deja de aumentar: se estima que en 2020 la humanidad tendrá cerca de 44 zettabytes de información digital disponible.

 

Con tanta información, ha surgido la necesidad de contar con herramientas de análisis cada vez más poderosas para extraer información útil y relevante con el objetivo de optimizar nuestra convivencia, productividad, desarrollo económico y social. En el ámbito empresarial el análisis de datos también es de suma importancia. En la era actual, caracterizada por una competitividad cada vez mayor entre las organizaciones, la información y el conocimiento, se constituye la base para obtener los diferenciales mercadológicos.

 

Por lo tanto, hay un nuevo método en el área de análisis de datos que está ganando espacio y llamando la atención de diversos líderes corporativos que buscan en la tecnología soluciones para reducir costos y aumentar los beneficios de la cadena productiva. El Data Mining: un método que se enfoca en el desarrollo y la aplicación de técnicas de análisis para obtener información nueva y relevante de grandes bases de datos. 

 

1- Descubrimiento de Asociaciones 

 

Al registro de un conjunto de datos se le llama transacción. Una transacción está compuesta por un conjunto de ítems. En esta fase, descubrir asociaciones significa buscar ítems que frequentemente ocurren de forma simultánea, dentro de una cantidad mínima de transacciones del conjunto de datos.

 

Un ejemplo clásico es el de la relación entre cervezas y pañales: una gran cadena de supermercados norteamericana al utilizar la fase de Descubrimiento de Asociaciones, constató un número patrón: el número de personas que compraban pañales y también cerveza en víspera de fin de semana. Con base en un análisis de las transacciones de compra, los científicos de datos notaron que estos consumidores eran hombres que, cuando compraban pañales para sus hijos, también compraban cerveza para consumirla mientras cuidaban a los hijos y veían juegos deportivos en la televisión. Este descubrimiento hizo que la empresa en cuestión acercara las góndolas de pañales y las de cerveza, lo que incrementó la venta conjunta de los ambos productos. 

 

2- Clasificación

A partir de aquí, los atributos del conjunto de datos se dividen en dos tipos: los atributos predictivos y los atributos objetivos. Para cada valor diferente del atributo objetivo existe una clase que normalmente corresponde a una etiqueta de categoría que, a su vez, pertenece a un conjunto predefinido.


En esta fase, el científico de datos desea descubrir una función capaz de mapear un conjunto de registros en un conjunto de clases. Con base en este descubrimiento, la función se puede utilizar en nuevos registros para prever en que clase encuadran los registros.

Veamos un ejemplo interesante: una revendedora de automóviles que ya tiene el historial de sus clientes y su comportamiento en relación al pago de cuotas de coche. Consideremos 2 tipos de clientes: buenos pagadores y malos pagadores. Estos dos tipos representan la clase del problema - o los valores del atributo objetivo. La actividad de Clasificación aquí busca una función para mapear correctamente a los clientes con base en sus datos –valores de los atributos predictivos– en una de estas clases. En resumen, esta función se puede utilizar para hacer previsiones sobre el comportamiento de los nuevos clientes que desean comprar un nuevo coche. Dichas previsiones funcionan como un filtro para ayudar a tomar decisiones sobre el número de cuotas en que se dividirá la venta de un automóvil.

 

3- Regresión

Esta fase de la Minería de Datos consiste en la búsqueda de una función que ayude a mapear los registros de un banco de datos dentro de un intervalo de valores numéricos reales. La regresión guarda una gran semejanza con la clasificación, sin embargo, la principal diferencia es que, en la regresión, el atributo objetivo asume valores numéricos. Dos buenos ejemplos del uso de este proceso en actividades cotidianas son la definición del límite de gastos de la tarjeta de crédito de los clientes y la previsión de los riesgos de inversiones específicas.

 

 

4- Agrupamiento

El término agrupamiento es un sinónimo de Clusterización (del inglés Cluster) y consiste en la segmentación de los registros del conjunto de datos en subconjuntos o clústeres, a fin de encontrar propiedades comunes en los elementos de un mismo clúster para distinguirlos de elementos de otros grupos (clústeres).

El principal objetivo de esta fase es aumentar las coincidencias intraclúster y disminuir las semejanzas interclúster. Amazon es un ejemplo de empresa que utiliza de forma muy adecuada esta actividad de análisis de datos: agrupa consumidores con comportamientos de compra semejantes y recomienda nuevos productos con base en la información adquirida.

 

 

5- Sumarización

La sumarización busca identificar e indicar las semejanzas entre los registros del conjunto de datos. Considere un conjunto de datos con información sobre clientes que tienen una suscripción de un determinado plan de streaming de vídeo. La actividad de Sumarización se puede usar para buscar las características comunes a una buena parte de los clientes. Esto es útil para que el equipo de Marketing de la empresa elabore piezas publicitarias dirigidas a un público objetivo en crecimiento.

 

 

6- Detección de Desviaciones

La detección de desviaciones es la fase en la que el científico de datos busca identificar los registros del conjunto de datos que tienen características discordantes de lo que se considera el estándar en el contexto analizado. Estos registros se conocen como valores atípicos (outliers).

Un ejemplo de esto es el banco de datos de los clientes de una operadora de tarjeta de crédito. La información sobre las compras de los consumidores se puede analizar para detectar compras cuyas características son diferentes del perfil normal de compra del dueño de la tarjeta de crédito. De esta forma, la operadora puede inmediatamente entrar en contacto con el cliente para confirmar los valores de una compra y garantizar que no se haya clonado su tarjeta o que no fué víctima de otro tipo de fraude.

 

7- Descubrimiento de Secuencias

En este enfoque se deben identificar ítems frecuentes dentro de un determinado período de tiempo. Compras realizadas en un supermercado, por ejemplo, pueden presentar un patrón interesante. Si la empresa posee un banco de datos con información sobre cada cliente y sus respectivas compras, el proceso de descubrimiento de asociaciones se puede ampliar a fin de considerar el orden en que los productos se adquieren a lo largo del tiempo.

 

8- Previsión de Series Temporales

Primero, vamos a explicar qué es una serie temporal: es un conjunto de observaciones de un fenómeno –con una variable numérica– ordenadas en el tiempo. ¿Un ejemplo? El consumo mensual de agua en una empresa, registrado durante un año.

Esta previsión pretende inferir los valores que la variable de la serie posiblemente tendrá en el futuro, considerando los valores pasados de esta serie como base para fundamentar dicho análisis.

Estas fases no son estáticas o inalterables, ni mucho menos resumen todas las posibilidades de la aplicación de la minería y el análisis de grandes cantidades de datos. Sin embargo, representan algunas de las formas más utilizadas por científicos de datos de todo el mundo para extraer información útil que agregue valor a los productos y servicios de las empresas.

 



Fuente:
http://computerworld.com.br/exemplos-de-aplicacoes-de-data-mining-no-mercado-brasileiro