KDD: Proceso de Extracción de conocimiento
La Extracción de conocimiento está principalmente relacionado con el
proceso de descubrimiento conocido comoKnowledge Discovery in Databases (KDD),
que se refiere al proceso no-trivial de descubrir conocimiento e información
potencialmente útil dentro de los datos contenidos en algún repositorio de
información [1]. No es un proceso automático, es un
proceso iterativo que exhaustivamente explora volúmenes muy grandes de datos
para determinar relaciones. Es un proceso que extrae información de calidad que
puede usarse para dibujar conclusiones basadas en relaciones o modelos dentro
de los datos. La siguiente figura ilustra las etapas del proceso KDD:
Como muestra la
figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:
1. Selección de datos: En esta etapa se
determinan las fuentes de datos y el tipo de información a utilizar. Es la
etapa donde los datos relevantes para el análisis son extraídos desde la o las
fuentes de datos.
2. Preprocesamiento: Esta etapa consiste
en la preparación y limpieza de los datos extraídos desde las distintas fuentes
de datos en una forma manejable, necesaria para las fases posteriores. En esta
etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco,
datos inconsistentes o que están fuera de rango, obteniéndose al final una
estructura de datos adecuada para su posterior transformación.
3. Transformación: Consiste en el
tratamiento preliminar de los datos, transformación y generación de nuevas
variables a partir de las ya existentes con una estructura de datos apropiada.
Aquí se realizan operaciones de agregación o normalización, consolidando
los datos de una forma necesaria para la fase siguiente.
4. Data Mining: Es la fase de
modelamiento propiamente tal, en donde métodos inteligentes son aplicados con
el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,
potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los
datos.
5. Interpretación y
Evaluación: Se identifican los patrones obtenidos y que son realmente
interesantes, basándose en algunas medidas y se realiza una evaluación de los
resultados obtenidos.
Además de las fases
descritas, frecuentemente se incluye una fase previa de análisis de las
necesidades de la organización y definición del problema, en la que se
establecen los objetivos de la minería de datos. También es usual incluir una
etapa final, donde los resultados obtenidos se integran al negocio para la
realización de acciones comerciales.
No hay comentarios:
Publicar un comentario