Ninguna empresa puede guiar sus acciones con base en datos si las únicas personas interesadas en el proceso de análisis de datos son los analistas. De la misma forma que las orientaciones de contadores y abogados definen la configuración de las organizaciones todos los días, las tecnologías de análisis deben estar integradas a la compañía como un todo para que puedan aportar valor.
Pero cuando se trata de convencer a todos en la empresa que dicha integración es importante, los contadores y abogados tienen una gran ventaja sobre los analistas: las orientaciones financieras y legales se apoyan en leyes, contratos y otras reglas rígidas. Y todos saben cuáles son las graves consecuencias que sufren las empresas que no siguen dichas reglas. En cambio, el análisis de datos y la utilización de los resultados para guiar las decisiones de negocios muchas veces no pasan de ser consideradas tan sólo buenas ideas.
Muchos profesionales de TI están realmente interesados en trabajar con analytics, pero no saben cómo diferenciar las necesidades comerciales legítimas de lo que simplemente sería bueno tener y se frustran, pues los científicos de datos no entienden y no evalúan las razones por detrás de las prácticas de TI.
Pero, ¿cómo los profesionales del departamento de TI pueden entender más sobre el proceso de Data Mining sin involucrarse tanto con el área de Big Data?
Primero, es necesario que comprendan y visualicen los principales elementos de un buen proceso de análisis y explicarles algunas de las formas como la TI puede y debe involucrarse en esta área tan nueva y curiosa.
El Proceso Estándar entre Industrias para Minería de Datos - más conocido como CRISP-DM (del inglés, Cross Industry Standard Process for Data Mining), se utiliza hace más de una década y es de lejos el método más usado en el proceso de análisis de datos. Es un estándar abierto, que cualquier profesional puede utilizar, desarrollado por un consorcio formado por más de 200 organizaciones interesadas y financiado con fondos de la Unión Europea.
Aunque se haya desarrollado específicamente para la minería de datos, es suficientemente flexible para atender diversos estilos de análisis de datos. Dicho modelo de proceso actualmente en uso es tan popular que diagramas hechos a partir de la documentación CRISP-DM original muchas veces se utilizan en las presentaciones sin ninguna referencia a la fuente original del material.
El modelo CRISP-DM está compuesto por 6 fases principales:
• Comprensión del negocio: es la fase en la que el profesional puede obtener una comprensión clara del problema que está tratando de resolver, del impacto de dicho problema en su organización y de los objetivos que hay que lograr para resolverlo.
• Comprensión de los datos: es la fase realizada para inspeccionar, describir y evaluar los datos disponibles.
• Preparación de los datos: en esta fase el profesional transforma el formato original de los datos en el formato necesario para su análisis.
• Modelado: aquí el profesional utiliza técnicas matemáticas para crear modelos (ecuaciones u otros modelos lógicos) que se puedan usar para apoyar las decisiones empresariales.
• Evaluación: en esta fase se evalúan los modelos para verificar si son suficientemente buenos.
• Despliegue: por último, se integran los modelos al cotidiano de la empresa.
Sin embargo, éste no es un proceso lineal que empieza en una fase específica y que funciona perfectamente si se siguen rigurosamente todos los pasos estipulados. Estas fases forman parte de un ciclo continuo de actividad de análisis, y el equipo de analytics tal vez necesite trabajar avanzando y retrocediendo con una cierta frecuencia de una fase a otra. Aún así, el proceso generalmente comienza con un problema empresarial específico y resulta en la construcción de modelos e su integración a las operaciones comerciales de rutina.
El departamento de TI desempeña un rol en todas estas fases, a pesar de que dicho rol es mucho más importante en unas fases que en otras. Es evidente que el acceso a los datos más relevantes, y de la forma más adecuada, sólo será posible con la participación de los propietarios de los datos y encargados de la seguridad de los datos. Integrar modelos a las operaciones de la empresa es algo que casi siempre se encuentra fuera de los límites de los analistas y, por ello, necesitan trabajar con el departamento de TI para realizar dichas alteraciones. La participación de TI generalmente es más sutil en otras fases, como en la del modelado. Esto se debe al hecho de que dichos profesionales generalmente no poseen las habilidades necesarias para desarrollar modelos matemáticos, pero aún así, pueden tener suficiente experiencia para saber cuál es la viabilidad de cambiar determinados procesos de negocios. Dicha información proporciona –a los analistas– una estructura útil para determinar cuáles son los tipos de modelos que se pueden, o no, implantar en el negocio.
A pesar de que muchos analistas de datos utilizan el CRISP-DM, no siempre entienden y ejecutan todas las fases del proceso con la profundidad que deberían. Cada fase del proceso requiere la ejecución y el registro de varias actividades específicas, pero a menudo los profesionales que afirman aplicar dichas fases correctamente se saltan una fase o no logran documentar de forma correcta algunas de estas actividades. Incluso cuando el trabajo se ejecuta y documenta de manera correcta, los analistas no siempre cuentan con los recursos ideales para gestionar la propiedad intelectual que crearon.
Familiarizarse con los estándares del método CRISP-DM es algo beneficioso para los profesionales de TI por diversos motivos. Por ejemplo, una pregunta que a menudo surge cuando los profesionales de tecnología escuchan hablar de datos de análisis y requisitos de computación es: ¿cuál es la aplicación práctica de esto en los negocios? La metodología requiere la identificación y documentación de las cuestiones de los negocios, por lo tanto, usarla (o usar un proceso bien definido como el estándar SAS SEMMA) garantiza que todos compartan un framework claro que resalta las cuestiones, los objetivos, el planeamiento del trabajo y los resultados del negocio. De esta forma, se sabrá qué está sucediendo desde el inicio de una actividad y se contará con la estructura y documentación necesaria para demostrar que se están ejecutando las acciones correctas, por las razones ciertas.
Un modelo de procesos bien definido ayudará al departamento de TI a efectuar una gestión adecuada de datos y del producto del trabajo. Proporcionará al menos este beneficio siempre y cuando las actividades necesarias se realicen y documenten de forma completa. Si todos están de acuerdo en usar el estándar del proceso, será posible identificar exactamente lo que es necesario hacer. Además, el departamento de TI puede y debe desempeñar un rol importante –que muchas veces se descuida– proporcionando sistemas y recursos para la gestión adecuada de las salidas de archivos de datos destinados a modelos de proyectos. Los analistas no siempre valoran este tipo de gestión, pero todos pierden cuando el trabajo se realiza de forma incompleta o incomprensible.
Es importante que se realice un trabajo en conjunto con un proceso claramente definido y compartido por todos, pues esto ayuda al departamento de TI y a los analistas de datos a entenderse entre sí, para que puedan compartir ideas y comunicarse de forma eficaz. El CRISP-DM es un método estándar establecido, respetado y gratuitamente disponible a todos y adaptable a una amplia gama de programas de análisis.
Fuentes:
http://www.cisco.com/c/en/us/solutions/data-center-virtualization/big-data/index.html#~data
http://www.cisco.com/c/en/us/solutions/enterprise/data-center-designs-cloud-computing/bigdata.html
http://www.forbes.com/sites/metabrown/2015/07/29/what-it-needs-to-know-about-the-data-mining-process/
https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining