p. 1
datos introducción generalmente las empresas no cuentan con aplicaciones únicas para cada parte operativa del negocio sino que pueden tener replicaciones y distintos sistemas para atender un mismo conjunto de operaciones en esos casos es probable que las bases de datos de los sistemas operacionales contengan datos duplicados a veces erróneos superfluos o incompletos a esto se le suman los posibles errores a la hora del ingreso de los datos a los sistemas de datos operacionales en este fascículo abordaremos los conceptos y las herramientas para garantizar que la información sea lo más limpia posible a la hora de interactuar con ella 1 conceptos previos la velocidad con que se generan y almacenan datos es muy superior a la velocidad con que se procesan y analizan existe un crecimiento exponencial en la cantidad de datos generados por diferentes empresas gobiernos instituciones educativas y personas individuales las razones para este incremento principalmente son de índole tecnológica esto es el uso intensivo del computador el incremento en la capacidad de los medios para almacenamiento de datos y sus bajos costos por otro lado ha surgido lo que se denomina flujo constante de datos que se caracteriza porque los datos llegan de forma constante sin parar esta abundancia de datos ha creado la necesidad de recurrir a metodologías para analizar y explotar la información contenida en esos datos y se caracteriza por tener muchas instancias la principal preocupación que se tiene es de cómo obtener conocimiento útil de esta avalancha de información fascículo no 7 semestre 3 datos
[close]
p. 2
datos previamente hemos abordado los conceptos de recolección y almacenamiento de información ahora nos concentraremos en el análisis mapa conceptual fascículo 7 un almacén de datos del inglés data warehouse es una colección de datos orientada a un determinado ámbito empresa organización etc integrado no volátil y variable en el tiempo que ayuda a la toma de decisiones en la entidad en la que se utiliza lo s gro al finalizar el estudio del presente fascículo el estudiante estará en capacidad de construir medidas eficientes de la complejidad de los conjuntos de datos · desarrollar e implementar un algoritmo para identificar y eliminar el ruido en un conjunto de datos fascículo no 7 semestre 3 datos 2
[close]
p. 3
datos · combinar la detección y eliminación de ruido con la selección de variables e instancias con la finalidad de mejorar el rendimiento de los datos data cleansing la limpieza de datos es el proceso de corregir o remover información incorrecta con formato inapropiado o duplicado en una base de datos una empresa una industria intensiva en información como la banca los seguros la venta al menudeo las telecomunicaciones o el transporte puede utilizar una herramienta de limpieza de datos para examinar sistemáticamente los datos y detectar fallas mediante el uso de reglas algoritmos y tablas de búsqueda por lo general una herramienta de limpieza de datos incluye programas que son capaces de corregir un número específico de tipos de errores como completar números telefónicos o encontrar registros duplicados la utilización de una herramienta de limpieza de datos puede ahorrar un tiempo significativo al administrador de la base de datos y puede ser menos costoso que arreglarlo a mano en la siguiente figura se muestran algunos de los aspectos que contribuyen a la suciedad de los datos en un data warehouse ejemplo suciedad de los datos fuente:adaptación ralph kimball 2002 data warehouse toolkit segunda edición editorial wiley fascículo no 7 semestre 3 3 datos
[close]
p. 4
datos la limpieza de datos se encuentra dentro del proceso de transformación de datos de un datawarehouse esta es mucho más que simple actualización de registros con datos buenos una limpieza de datos seria involucra descomposición y reensamblaje de datos la limpieza de datos se puede dividir en 6 pasos 1 separar en elementos 2 estandarizar 3 verificar 4 machear 5 agrupar 6 documentar para ilustrar estos 6 pasos consideremos el siguiente ejemplo a través de una aplicación que maneja informaciones de clientes de una organización se introduce la siguiente dirección sergio pérez y elena ruiz representantes de gerencia de comercio ave porvenir e calle 4ta y 5ta #27 reparto vigía sta clara v c 50200 el primer paso en la limpieza de esta dirección es separarla en elementos nombre 1 sergio apellido 1 pérez nombre 2 elena apellido 2 ruiz relación representantes de entidad gerencia de comercio nombre de la calle principal ave porvenir entre calle 1 4ta datos 4 fascículo no 7 semestre 3
[close]
p. 5
datos entre calle 2 5ta número de la casa #27 reparto vigía ciudad sta clara provincia v c código postal 50200 el segundo paso es estandarizar los elementos reconocemos que ave es avenida sospechamos que el elemento sta clara pudiera ser la ciudad de santa clara hacemos el cambio provisional y en el paso de verificación se revisará si existe una ciudad o municipio con este nombre haremos lo mismos con el elemento v c lo cambiaremos por villa clara el tercer paso consiste en verificar si los elementos estandarizados contienen errores en su contenido aquí se verificaría en nuestro ejemplo si el código postal 50200 pertenece a santa clara si se tuviera otra dirección de sergio pérez o de elena ruiz y la que estamos analizando como ejemplo tuviera algún error se pudieran comparar los códigos postales y sustituirlo por el correcto el macheo consiste en encontrar otros sergio pérez o elena ruiz en los registros de clientes existentes y nos aseguramos que todos sus elementos de la dirección son idénticos el agrupamiento consiste en reconocer que sergio y elena constituyen una agrupación porque ellos comparten la misma dirección además se pudiera tener en otra fuente de datos externa o interna que indique quiénes de estas personas son hermanos o están casadas motivo de más para que compartan la misma dirección fascículo no 7 semestre 3 5 datos
[close]
p. 6
datos el sexto paso consiste en documentar los resultados de los pasos anteriores en metadatos esto ayuda a que las siguientes limpiezas sean capaces de reconocer direcciones y a que los usuarios finales de las aplicaciones puedan llevar a cabo mejor las operaciones de un dw así como para entender mejor la base de datos de los clientes como se puede observar este proceso es bastante tedioso hacerlo manualmente y para hacerlo automatizado se necesita de aplicaciones sofisticadas que contengan algoritmos de análisis gramatical parsing de direcciones algoritmos de macheo e inmensas tablas con gran cantidad de entradas que provea sinónimos para las diferentes partes de las direcciones en algunos casos es posible crear programas de limpieza efectivos en el caso de bases de datos grandes imprecisos e inconsistentes el uso de las herramientas comerciales ya existentes puede ser casi obligatorio la calidad de los datos debe cumplir con los siguientes requisitos exactitud los datos deben cumplir los requisitos de integridad consistencia y densidad integridad los datos deben cumplir los requisitos de entereza y validez entereza alcanzado por la corrección de datos que contienen anomalías validez alcanzado por la cantidad de datos que satisfacen las restricciones de integridad consistencia alcanzado por la corrección de contradicciones y anomalías sintácticas uniformidad relacionado con irregularidades densidad conocer el cociente de valores omitidos sobre el número de valores totales datos 6 fascículo no 7 semestre 3
[close]
p. 7
datos unicidad relacionado con datos duplicados herramientas de limpieza de datos las herramientas de limpieza de datos nos permite limpiar validar y corregir datos de nuestras fuentes de origen durante el proceso de incorporación y creación a un data warehouse tradicionalmente estos procesos eran manuales y difíciles de replicar y manejar con interfaces gráficos esto se simplifica en gran manera también es útil para corregir direcciones erróneas eliminar duplicados backups de datos antes de las correcciones etc hoy en día en el sector empresarial casi el 98 de la propiedad intelectual esté almacenada electrónicamente consciente de esta situación el personal de it sabe que es fundamental velar por la seguridad de los datos desde el momento de la adquisición de cualquier aparato electrónico hasta su eliminación 1 con miras a proteger estos datos vitales para las empresas se invierten millones en infraestructura it copias de seguridad políticas de almacenamiento cumplimiento legal de la protección firewall y confidencialidad no obstante a la hora de deshacerse de ordenadores viejos o sistemas con información confidencial muchos olvidan asegurarse de que la información contenida en estas unidades se elimina de forma permanente por lo que los interesados quedan en una situación de indefensión ante eventuales violaciones de la seguridad de su información que pueden llegar a ser graves el 65 de las organizaciones todavía no cuenta con una estrategia práctica para deshacerse adecuadamente de los aparatos electrónicos viejos de la empresa y destruir los datos electrónicos confidenciales data mining minería de datos es la técnicas para la extracción de información oculta en grandes bases de datos 1 fuente http www.datati.es/borrado-de-datos-permanente consultado el 19 de agosto del 2010 fascículo no 7 semestre 3 7 datos
[close]
p. 8
datos las herramientas de limpieza de datos deben garantizar que se cumplan unos procedimientos básicos como son auditoria de datos los datos son revisados con el empleo de métodos estadísticos de descubrir anomalías y contradicciones esto tarde o temprano da una indicación de las características de las anomalías y sus posiciones definición de workflow flujo de trabajo la detección y el retiro de anomalías son realizados por una secuencia de operaciones sobre los datos sabidos como el workflow para alcanzar un workflow apropiado se debe identificar las causas de las anomalías y errores si por ejemplo encontramos que una anomalía es un resultado de errores de máquina en etapas de entrada de datos la disposición del teclado puede ayudar en la solución de posibles problemas ejecución de workflow en esta etapa el workflow es ejecutado después de que su especificación es completa y su corrección es verificada la implementación del workflow debería ser eficiente aún sobre grandes cantidades de datos que inevitablemente plantean una compensación porque la ejecución de la operación limpiadora puede ser cara post-proceso y control los datos que no podían ser corregidos durante la ejecución del workflow deberán ser corregidos manualmente de ser posible el resultado es un nuevo ciclo en el proceso de limpieza de datos donde los datos son revisados nuevamente para ajustarse a las especificaciones de un workflow adicional y realizar un tratamiento automático dentro de los métodos más usados para la limpieza de datos se encuentran análisis el análisis en la limpieza de datos es realizado para la detección de errores de sintaxis un analizador gramatical decide si una datos 8 fascículo no 7 semestre 3
[close]
p. 9
datos cantidad de datos es aceptable dentro de la especificación de datos permitida esto es similar al modo que un analizador gramatical trabaja con gramáticas y lenguas transformación de datos la transformación de datos permite trazar un mapa de datos en el formato esperado esto incluye conversiones de valor o funciones de traducción así como normalización de valores numéricos para convertirse a valores mínimos y máximos eliminación de duplicados la detección de duplicados requiere un algoritmo para determinar si los datos contienen representaciones dobles de la misma entidad por lo general los datos son ordenados por un dato llave o pivote que permite la identificación más rápida método estadístico incluye analizar los datos usando promedios desviación estándar rangos o algoritmos de cluster este análisis se realiza por expertos que identificar errores aunque la corrección de datos sea difícil ya que no saben el valor verdadero pueden ser resueltos poniendo los valores a un promedio u otro valor estadístico los métodos estadísticos también pueden ser usados para manejar los valores que fallan que pueden ser substituidos por uno o varios valores plausibles que por lo general son obtenidos por algoritmos de aumento de datos extensos uso indebido de la herramienta de limpieza de datos algunos empleados intentan utilizar estos programas para destruir esconder u ocultar información en sus discos duros es muy importante comprender la naturaleza de estos productos saber cómo elegir uno para su empresa y cómo usarlos correctamente en el entorno empresarial de forma que se observen todas las normativas vigentes si se desea proteger a la empresa contra usos indebidos es fundamental que se elija una herramienta de limpieza de datos que le permita a usted y a su empresa gestionar tanto el proceso completo como el empleo del software fascículo no 7 semestre 3 9 datos
[close]
p. 10
datos procesos manuales la limpieza de una data manual o sucia es un proceso multifacético y complejo los pasos a seguir son los siguientes 1 analizar sus datos corporativos para descubrir inexactitudes anomalías y otros problemas 2 transformar los datos para asegurar que sean precisos y coherentes 3 asegurar la integridad referencial que es la capacidad del data warehouse para identificar correctamente al instante cada objeto del negocio tales como un producto un cliente o un empleado 4 validar los datos que usa la aplicación del data warehouse para realizar las consultas de prueba 5 producir la metadata una descripción del tipo de datos formato y el significado relacionado al negocio de cada campo 6 finalmente viene el paso crucial de la documentación del proceso completo para que se pueda ampliar modificar y arreglar los datos en el futuro con más facilidad en la práctica se tendría que realizar múltiples pasos como parte de una maniobra única o cuando use una sola herramienta en particular limpiar la data y asegurar la integridad referencial son procesos interdependientes las herramientas comerciales pueden ayudar en cada uno de estos pasos sin embargo es posible escribir sus propios programas para hacer el mismo trabajo los programas de limpieza de datos no proporcionan mucho razonamiento por lo que las compañías necesitan tomar sus decisiones en forma manual basados en información importante y reportes de auditoría de datos datos 10 fascículo no 7 semestre 3
[close]
p. 11
datos medición de data cleansing cada vez que se carga un nuevo conjunto de datos la limpieza de datos comúnmente constituye cerca del 25 por ciento de lo que puede ser un proceso de cuatro semanas a continuación se dará un ejemplo de las experiencias de las empresas que han realizado limpieza de datos para un ambiente data warehousing ejemplo compucom systems un gran integrador de sistemas basados en dallas implementó un registro de 12 millones en un depósito de 10 gb para el soporte de decisiones internas y de los clientes según el orden la condición y producción de la información por medio del web compucom implementó algunas rutinas de mejoramiento de datos en lenguajes de cuarta generación 4gl asociado con su base de datos progress la cual corre sobre un hp 9000 el incremento incluye desciframiento de valores de columnas en descripciones inglesas cortas o mnemotecnia el código de limpieza de datos tales como las conversiones de fecha y datos están escritas en lenguaje c la ventaja de esto es que compucom ahora posee las rutinas y puede usarlas en otras aplicaciones los usuarios ayudaron a definir los requerimientos de limpieza de datos ya que son ellos quienes mejor conocen los datos y pueden informar sobre qué tipo de datos sucios deben salir y cómo limpiarlos la compañía no usa una herramienta de limpieza comercial porque gran parte de sus datos se encuentran en la misma forma básica así la compañía puede fácilmente usar de nuevo las rutinas escritas fascículo no 7 semestre 3 11 datos
[close]
p. 12
datos la desventaja principal ha sido la cantidad de tiempo de desarrollo alrededor de una semana que se necesitó para crear las rutinas aunque tienen cierta dificultad de tiempo para mantenerse al día con la demanda y han buscado paquetes de software [comercial no han encontrado aún en el mercado algo que se ajuste mejor a sus requerimientos 2 función de las herramientas de limpieza la mayoría de la gente sabe que con apretar la tecla de suprimir o reformatear el computador no es suficiente ya que incluso después de enviar los archivos a la papelera de reciclaje del ordenador y de reformatear la unidad es posible recuperar los datos eliminados con facilidad esto se debe a que al suprimir un archivo o reformatear volúmenes sólo se están eliminando las entradas en el índice o tabla de contenidos referidas a los datos para eliminar de forma permanente los datos de un disco duro es necesario utilizar una herramienta de limpieza que sobrescriba estos datos para entender más en concreto el proceso los archivos se almacenan en un disco duro y se guardan con un patrón preciso de caracteres que genera el sistema operativo del ordenador cuando un disco duro o una partición de un disco duro se limpia empleando una herramienta de limpieza el programa sobrescribe todas las ubicaciones accesibles en el disco duro con un patrón de caracteres benigno o generado de forma aleatoria al que a menudo nos referimos como datos absurdos para seleccionar una herramienta de limpieza de datos las empresas acumulan hoy más que nunca gran cantidad de aparatos electrónicos obsoletos a esta situación hay que sumar el ritmo al que se están aprobando nuevas normas y regulaciones requisitos de confidencialidad y otras medidas de seguridad en este sentido lo que las empresas a fin de 2 fuente http www1.inei.gob.pe/biblioineipub/bancopub/inf/lib5084/2241.htm consultada el 22 de agosto de 2010 datos 12 fascículo no 7 semestre 3
[close]
p. 13
datos cuentas necesitan es encontrar una solución integral con la que tratar todos los asuntos relacionados con la eliminación de dispositivos electrónicos viejos mejoramiento continuo aunque no es complicado encontrar un producto capaz de limpiar o borrar información es de vital importancia asegurarse de que el producto elegido permite a la empresa observar las normas y a la vez reducir riesgos los directores y el personal de it responsable tanto de deshacerse del hardware como de la protección de datos deberían asegurarse especialmente de que el producto el cual buscan 1 limpia realmente los datos la única forma de garantizar que los datos se han eliminado de forma definitiva es sobrescribirlos al eliminar los indicadores conseguiremos que el usuario medio no pueda encontrar las unidades o archivos pero los datos seguirán existiendo un cazador profesional de información no tendría ningún problema en recuperar los datos de una unidad que sólo ha sido eliminada o reformateada 2 limpia todos sus datos actualmente existen productos que permiten a los consumidores limpiar sólo determinados archivos carpetas o unidades si una empresa emplea una herramienta que limpia sólo parcialmente los datos podría quedar expuesta a numerosos peligros ya que la mayoría de los ordenadores contienen varias copias de los archivos en diversas ubicaciones 3 está certificado esto quiere decir que las autoridades han probado el producto y certifican que cumple con los estándares que dice respetar la mayoría de las herramientas de limpieza del mercado no están certificadas si un producto no cuenta con esta certificación es posible que no sea capaz de hacer lo que asegura poder hacer por lo que tras su uso pueden quedar rastros de datos fascículo no 7 semestre 3 13 datos
[close]
p. 14
datos 4 es flexible las empresas no quieren tener que cambiar su infraestructura it al implementar una herramienta de limpieza de datos en este sentido lo idóneo es buscar un producto que pueda encajar en cualquier tipo de sistema y que no requiera configurar este sistema 5 ofrece informes de eliminación es indispensable contar con informes que verifiquen o confirmen que se llevó a cabo realmente aquello que se le solicitó hacer estos informes deberían documentar todo aquello que se ha limpiado especificando los detalles siguientes el número de serie y la información sobre la marca/el modelo del disco duro limpiado la fecha y hora en que se realizó la limpieza de la información y un listado con toda la información que se limpió un buen sistema de elaboración de informes le facilitará un resumen exacto de todo lo que se ha llevado a cabo de forma que un operario pueda remitir el informe con su sistema de gestión activo análisis de datos es la actividad de transformar un conjunto de datos con el objetivo de poder verificarlos muy bien dándole al mismo tiempo una razón de ser o un análisis racional 6 garantiza que las medidas de seguridad se cumplen elija una herramienta que cuente con una autorización con licencia de esta forma se asegurará de que sólo la emplean aquellos quienes se supone deben utilizarla data analysts bajo la denominación análisis de datos se engloba en estadística a un conjunto de métodos descriptivos multidimensionales para aplicar estos métodos se necesita que la información esté organizada de la manera siguiente n individuos estadísticos entidades espaciales parejas firmas descritos por p variables estos métodos permiten resumir la información contenida en las tablas de datos en dimensiones importantes tabla de n líneas por p columnas se pueden distinguir dos familias de métodos datos 14 fascículo no 7 semestre 3
[close]
p. 15
datos los análisis factoriales consisten en transformar la tabla de datos inicial en una nueva tabla que contiene la misma información pero bajo forma jerarquizada está compuesta de ejes factoriales el primer eje factorial corresponde a la combinación lineal de variables iniciales que diferencia al máximo a los individuos entre ellos Éste es de varianza máxima los ejes factoriales son independientes unos de otros y están clasificados en función de su varianza en general para extraer lo esencial de la información contenida en la tabla inicial es suficiente un pequeño número de ejes factoriales tres o cuatro la interpretación de estos ejes factoriales permite poner en evidencia la forma de las interrelaciones entre las variables estudiadas y las semejanzas y diferencias entre los individuos con respecto a esas variables los dos métodos más comúnmente utilizados son el análisis en componentes principales adaptado para datos heterogéneos que combinan variables expresadas en escalas de medida diferentes o incluso para variables expresadas en porcentajes y el análisis de correspondencias adaptado para tablas de contingencia o variables cualitativas las clasificaciones permiten elaborar tipologías y agrupar individuos por clases en función de sus semejanzas con respecto al conjunto de las variables un criterio empleado a menudo desde el punto de vista técnico es el de buscar la clasificación que minimiza la varianza intraclase variabilidad entre los individuos de una misma clase y maximiza la varianza interclase variabilidad entre las clases los métodos más clásicos son la clasificación jerárquica ascendente y la clasificación por nubes dinámicas ningún sector empresarial es inmune a los problemas de calidad de datos en este fascículo nos hemos enfocado en las bondades de realizar un buen diseño de procesos antes de iniciar su programación también y conscientes que muchas empresas pese a conocer los beneficios de fascículo no 7 semestre 3 15 datos
[close]