Aplicación del proceso de Mineria de Datos
KDD
El Descubrimiento del conocimiento en bases de datos o KDD (Knowledge Discovery in Databases) es un concepto creado en 1989, se dice que es el proceso completo de extracción de información el cual se encarga de preparar los datos y de la interpretación de los resultados obtenidos.
Es el proceso de la extracción de conocimiento utilizando la interpretación de grandes cantidades de datos y encontrar relaciones con patrones.
Fases del KDD
Recogida de datos, las fases sucesivas del KDD, deberán ser capaces de generar conocimiento valido y útil a partir de la información original
Preparación de datos, se deberá de eliminar el mayor número posible de datos erróneos
Mineria de Datos
Determinación del tipo de patrón a descubrir
Tipo de conocimiento a extraer para determinar la técnica de minería a utilizar
Según la búsqueda del conocimiento se puede distinguir entre Directed data mining o Undirected data mining
Evaluación y Validación, se definen criterio de evaluación de hipótesis haciendo la comprobación de la precisión del modelo o realizar una experiencia piloto con el modelo seleccionado
Interpretación y Difusión, el modelo puede requerir implementación, el modelo es descriptivo y requiere interpretación, el modelo puede tener muchos usuarios y necesita difusión
Actualización y Monitorización, un modelo válido puede dejar de serlo si no se actualiza por eso es conveniente ir revalidando el modelo con cierta frecuencia
En la aplicación de un proceso KDD, se obtienen dos ventajas, la reducción de costos y el aumento de la predisposición.
Las áreas en donde se aplican los procesos KDD son innumerables, entre ellas están:
Educación
Procesos Industriales
Seguros y salud privada.
Medicina
Biología, bioingeniería
Banca
Mercados, distribución y comercio
Telecomunicaciones
Deportes
Técnicas de minería de datos
Las técnicas de la minería de datos provienen de la inteligencia artificial y la estadística, las técnicas son algoritmos que son aplicados sobre un conjunto de datos con la finalidad de generar información.
Las técnicas más representativas son
· Redes neuronales
o Capaces de aprender patrones y características de datos
o Pueden hacer previsiones, clasificaciones y segmentaciones
o Estructuración de niveles o capas
o El aprendizaje puede ser supervisado y no supervisado
· Regresión lineal
o Utilizada para formar relaciones entre datos
o Rápida y eficaz
o Insuficiente en espacios multidimensionales
· Arboles de decisión
o Empleada para el descubrimiento de reglas y relaciones
o Se construye partiendo de conjuntos de dos o mas
o Cada subconjunto puede ser particionado
o Continua hasta no encontrar diferencias significativas de influencia
· Modelos estadísticos
o Tratamiento de grande volúmenes de datos
o Existen diferentes modelos
· Agrupamiento o Clustering, procedimiento de agrupación de vectores según criterios habitualmente de distancias, en el cual se tratara de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes
· Reglas de asociación, para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos
Técnicas NO supervisadas y descriptivas
· Correlación y asociación
o Coeficiente de correlación
o Asociaciones (cuando los atributos son discretos)
o Dependencias funcionales
· Correlación y estudios factoriales, permiten establecer relevancia/irrelevancia de factores y si esta es positiva o negativa a otro factor o variable a estudiar
· Reglas de asociación y dependencia, la terminología es coherente en este campo, Fayyad, por ej. Suele llamar asociaciones a todo y regla de asociación a las dependencias
· Reglas de asociación y dependencia de valor, se buscan dependencias de la siguiente forma (if X then Y) ej. If (X1=a, X3=c, X5=d) then (X4=b, X2=a)
· Patrones secuenciales, se trata de establecer acciones al estilo “si compra X en T comprará y en T+P”
· Dependencias funcionales, A^B^CàD esto significa que para los valores A, B y C tenemos un solo valor de D, es decir D es función de A, B y C. Representando la parte izquierda como un conjunto de condiciones, podemos establecer una relación de orden en las dependencias funcionales
· Diferencias asociaciones/dependencias, dependencias funcionales y clasificación
o Asociaciones y dependencias (A=a ^ B=b ^ C=c à D=d ^ E=e)
o Asociaciones negativas (A=a ^ B=b ^ C=c à D<>d ^ E<>e)
o Dependencias funcionales (A ^ B ^ C à D), si existiera una Tupla tal que A=X ^ B=Y ^ C=Z ^ D=W entonces para cualquier otra Tupla que A=X ^ B=Y ^ C=Z entonces D=W o dicho de otra manera (Select MAX(COUNT(DISTINCT D)) FROM R GROUP BY A, B, C; ) = 1
o Clasificación establece una dependencia funcional (puede ser un conjunto de dependencias de valor 1)
· Clustering (Segmentación), se trata de buscar agrupamientos naturales en un conjunto de datos que tengan semejanza
· Clustering (Segmentación) métodos jerárquicos, un método sencillo consiste en ir separando individuos según su distancia (medidas derivadas de enlazado linkage) e ir aumentando el límite de distancia para hacer grupos, esto nos da diferentes agrupaciones a distintos niveles, de una manera jerárquica
· Clustering (Segmentación) métodos paramétricos, el algoritmo EM (Expectation, Maximization, Maximum Likelihood Estimate) Dempster et al. 1977
· Clustering (Segmentación) métodos No paramétricos
o Métodos
§ k-NN, dado una serie de ejemplos en un espacio, se conecta cada punto con su punto más cercano
§ k-means Clustering, se utiliza para encontrar los k puntos más densos de un conjunto arbitrario de puntos
§ On-line k-means Clustering, refinamiento incremental del anterior
§ SOM (Self-Organizing Maps) o Redes Kohonen, también conocido como LVQ (linear-vector quantization) o redes de memoria asociativa (Kohonen 1984)
o Otros específicos
§ El algoritmo Cobweb (Fisher 1987)
§ El algoritmo AUTOCLASS (Cheeseman & Stutz 1996)
· Análisis estadísticos
o Estudio de la distribución de datos
o Estimación de densidad
o Detección de datos anómalos
o Análisis de dispersión
Técnicas supervisadas o predictivas
Métodos predictivos aprendizaje supervisada
· k-NN (Nearest Neighbour)o Se observan los k casos más cercanos
o Si todos son de la misma clase, el nuevo caso se clasifica en esa clase
o De los contrario, se calcula la distancia media por clase o se asigna a la clase con más elementos
· (On line) k-means Clustering, también se puede utilizar para aprendizaje supervisado, elegir un k mayor que el número de clases pero no mucho mayor
· Perceptron learning
· Multilayer perceptron, (redes neuronales artificiales ANN)
o El perceptron de una capa no es capaz de aprender las funciones más sencillas
o Se añaden capas internas, se introducen diferentes funciones de activación e incluso recientemente se introducen bucles y retardos
o En el caso más sencillo, con la función de activación sng, el número de unidades internas k define exactamente el número de boundaries que la función global puede calcular por cada salida
o El valor k se suele determinar heurísticamente
· Radial-Basis Function (Clustering Method + LMS)
o Primer paso, algoritmo Clustering
o Segundo paso, recodificar los ejemplos como distancias a los centros y normalizar
o Tercer paso, con un preceptor de k elementos de entrada y una salida, aplicar el algoritmo visto antes
· Arboles de decisión (Algoritmo divide y vencerás)
o Se crea un nodo raíz con S = todos los ejemplos
o Si todos los elementos de S son de la misma clase, el subárbol de cierra. Solución encontrada
o Se elige una condición de partición siguiendo un criterio de partición
o El problema (S) queda subdividido en dos subárboles y se vuelve a 2 para cada uno de los dos subárboles
Métodos predictivos interpolación y predicción secuencial
· Regresión lineal global, se buscan los coeficientes de una función lineal
· Regresión lineal global por gradiente descent, usualmente se utiliza “gradient descent”, se intenta minimizar la suma de cuadrados.
· Regresión No lineal global, estimación logarítmica donde se sustituye la función a obtener por y=ln(f)
· Regresión Logística, variación que se usa para clasificación entre 0 y 1 usando la f=ln(p(1-p))
· Pick and Mix – supercharging, se añaden dimensiones combinando las dadas
· Regresión lineal ponderada localmente, la función lineal se aproxima para cada punto x a interpolar
· Regresión adaptativa, son casos particulares de regresión local, en el que se supone un orden y se utiliza preferentemente para predecir futuros valores de una serie

Usando Software Orange para minería de datos
Orange es un Software libre (obtenlo aquí http://orange.biolab.si/download/ ) que ofrece la funcionalidad para la explotación de información haciendo uso de los siguientes componentes
· Entrada/Salida de datos
· Procesamiento de datos
· Modelo predictivo
· Métodos de descripción de datos
· Técnicas de validación del modelo
Requerimientos
Python
· Paquetes QT, PyQt, PyQwt, para usar Canvas y Widgets
· Paquete GraphViz
· Módulo NumPy (para funciones matemáticas)
Formatos
· C 4.5 (.dat)
· ASSISTANT Files (.dat)
· RETIS Files (.rda .rdo)
· BASBET Files (.basket)
· WEKA (.arff)
· MULAN (.xml)
· LIBSVW (.svm)
Ejemplos
Bibliografía
“Minería de datos – 2. El Proceso KDD”, Archivo PDF de Internet recuperado el 0-10-2014 de, http://users.dsic.upv.es/~jorallo/master/dm2.pdf
Gil I., (2013), “KDD/Minería de Datos”, Articulo de Internet recuperado el 10-10-2014 de, http://blog.mslformacion.es/index.php/2013/09/kdd-mineria-de-datos/
Prezi, “La minería de datos en el proceso KDD”, Articulo de Internet recuperado el 12-10-2014 de, http://prezi.com/or1-wtpdy4tv/tutorial-kdd-mineria-de-datos/
“Gestión tecnológica – MINERIA DE DATOS (DATA MINING)”, Articulo de Internet recuperado el 17-10-2014 de, http://es.slideshare.net/miriam1785/mineria-de-datos-8768313
“3.3 Técnicas de Minería de Datos”, Archivo PDF de Internet recuperado el 17-10-2014 de, http://users.dsic.upv.es/~jorallo/cursoDWDM/dwdm-III-3.pdf
“3.4.5 Técnicas y herramientas de la minería de datos”, Articulo de Internet recuperado el 17-10-2014 de, https://santacruzramos.wikispaces.com/3.4.5+T%C3%A9cnicas+y+herramientas+de+la+miner%C3%ADa+de+datos.
“Bases de Datos - Minería de datos”, Articulo de Internet recuperado el 17-10-2014 de, http://es.slideshare.net/04071977/mineria-de-datos?next_slideshow=1
Montes V., “Orange”, Archivo PDF de Internet el 1-11-2014 de, http://www.exa.unicen.edu.ar/catedras/dmining/clases/Orange.pdf
“Data Mining with Orange”, Artículo de Internet recuperado el 2-11-2014 de, http://lwn.net/Articles/504741/
“Orange Canvas”, Articulo de Internet recuperado el 2-11-2014 de, http://es.slideshare.net/justin_sun/orange-canvas-pydata-2013
Fraterno GNU/Linux, “5 Programas Libres para Data Mining (Minería de Datos)”, Articulo de Internet recuperado el 1-11-2014 de, http://fraterneo.blogspot.mx/2010/11/5-programas-libres-para-data-mining.html
Orange, “Data Mining – Fruitful and Fun”, Articulo de Internet recuperado el 1-11-2014 de, http://orange.biolab.si/