Idioma: ES

Inicio
Oferta Académica
Big Data: visualización y análisis interactivo bajo entornos escalables y multiplataforma

Big Data: visualización y análisis interactivo bajo entornos escalables y multiplataforma

Inscríbete

Información General

24 Duración
virtual Modalidad
diurna Jornada
Redes sociales
- Twitter
- Facebook
- Instagram
- Linkedin

En la actualidad, el análisis de Big Data representa un reto sin precedentes debido al volumen y la velocidad con la que se generan los datos, los cuales superan las capacidades de almacenamiento y poder de cómputo existentes en las organizaciones.

La variedad de la información, que puede hallarse en texto, números, imágenes o sonido, representa un reto adicional. Finalmente, determinar la veracidad de los resultados es otro de los retos por superar. De hecho, volumen, velocidad, variedad y veracidad corresponden a las 4 V del Big Data.

La visualización de datos proporciona herramientas que permiten analizar y explorar grandes volúmenes de datos de forma tanto estática como interactiva, lo que permite acelerar la toma de decisiones. Adicionalmente, las técnicas modernas de visualización son muy útiles cuando no es posible responder preguntas mediante algoritmos y consultas automatizadas. Los entornos escalables y multiplataforma permiten el incremento de las capacidades de almacenamiento y poder de cómputo dinámicamente y la creación de ambientes de desarrollo con la habilidad de reproducción de resultados idénticos, independientemente del sistema operativo en el que trabajan los colaboradores de un equipo. Así, los beneficios de la visualización de datos y entornos escalables multiplataforma son una combinación idónea para el análisis de Big Data.

Por qué estudiar con nosotros

Edificio H de la Universidad Escuela Colombiana de Ingeniería Julio Garavito

Los participantes adquirirán habilidades en visualización de datos, lo cual facilita la identificación de patrones y tendencias, así como la comunicación y presentación de resultados. Adicionalmente, acelera la toma de decisiones respaldadas en modelos matemáticos y permite responder preguntas cualitativas.

Por otro lado, los participantes conocerán y entenderán la complejidad de entornos escalables y multiplataforma y conceptos tales como reproducibilidad (independientemente del hardware o sistema operativo), aislamiento (cambios en un contenedor no afectan otras instalaciones locales o en otros contenedores), consistencia y estandarización de pruebas.

OBJETIVOS

Generales

Proporcionar una introducción teórica y práctica al análisis de datos mediante técnicas modernas de visualización por computadora (en entornos multiplataforma) orientadas a grandes volúmenes de datos.
Discutir la importancia de visualización de datos durante la solución de problemas abordando preguntas como: ¿por qué es útil?, ¿cuándo es útil?, ¿cuándo no es necesario?, teniendo como base los beneficios de visualización de datos en la industria.

Específicos

Comprender los fundamentos teóricos de la visualización de datos.
Enumerar las principales técnicas de visualización de datos.
Visualizar y reproducir resultados independientemente de la plataforma o sistema operativo utilizado.
Señalar los desaciertos frecuentes durante la creación o la presentación de visualizaciones.
Exponer caso de uso de arquitecturas escalables.

Metodología

El curso se desarrollará en modalidad remota.

Se discutirán fundamentos teóricos como variables visuales, selección de colores adecuados y principales desaciertos (pitfalls). Entre las técnicas de visualización se incluirán aquellas que involucran una variable como diagramas de cajas y de violín, y representación de varias variables como coordenadas paralelas, matrices de gráficas de dispersión y proyecciones. Al intentar visualizar datos con grandes números de características es necesario aplicar métodos de reducción como análisis de componente principal (PCA), que serán parte del curso. Técnicas de regresión logística y lineal para visualización de tendencias. Técnicas de visualización de texto, exclusión de palabras vacías (stop words), y algunos algoritmos de aprendizaje automático para procesos de grandes volúmenes de datos.

Para garantizar la consistencia y estandarización de los ejercicios, independientemente de la plataforma o sistema operativo usado por los participantes, se utilizarán contenedores Docker. Ésta es una herramienta diseñada para facilitar el desarrollo e implantación de aplicaciones de software usando contenedores, los cuales incluyen todas las librerías y dependencias necesarias para el funcionamiento de las aplicaciones. Docker puede funcionar desde equipos pequeños, como un portátil, hasta grandes computadoras, incluyendo miles de CPU y unidades gráficas de procesamiento. Además, es multiplataforma, ya que corre en ambientes Linux, Mac y Windows. Entre muchas otras características de los contenedores, se encuentra que son gratuitos y de código abierto y han sido ampliamente adoptadas por diversas empresas en el mundo.

Adicionalmente, Jupyter Notebook será otra herramienta didáctica utilizada para visualizar datos usando las técnicas respectivas. La ventaja de combinar Docker y Jupyter es que facilita la distribución de ambientes de trabajo y de programación idénticos (con las dependencias necesarias para realizar las prácticas) entre los participantes, por cuanto estos ambientes de programación pueden ser instalados en computadoras personales o cualquier escenario de mayor demanda computacional.

Este curso se desarrollará durante dos semanas del 23 de junio al 3 de julio de 2020, de martes a viernes de 7:00 a 10:00 a.m. con una intensidad horaria de 3 horas diarias para un total de 24 horas de clase.

La Escuela Colombiana de Ingeniería Julio Garavito otorgará certificados de este curso así:

De asistencia a quienes se inscriban por educación continuada y participen activa y cumplidamente como mínimo en el 90% de las sesiones programadas.

De contenido, créditos y nota a los estudiantes de pregrado y/o posgrado de la Escuela que deben realizar su inscripción por Servicios Académicos de la Escuela, en este enlace.

De contenido, créditos y nota a los estudiantes de pregrado y/o posgrado de la cualquier universidad del país que se hayan matriculado como estudiantes visitante o de intercambio. Para inscribirse como estudiante visitante o de intercambio, es necesario enviar la solicitud por escrito, indicando la Universidad de origen y el programa que cursa a la Oficina de Relaciones Internacionales (ori@escuelaing.edu.co) para iniciar el proceso.

Perfil del aspirante

CONTENIDO TEMÁTICO

Conceptos básicos asociados con entornos distribuidos y colaborativos para la visualización de datos en ambientes Big Data. Explicación de las herramientas que se pueden utilizar para tal fin.

Explicación de técnicas de visualización de datos para una y más de una variable, y algunos métodos de aprendizaje de máquina enfocados en Big Data.

Entornos escalables para visualización y colaboración sobre grandes volúmenes de datos. Arquitectura de las herramientas por utilizar con base en la descripción del curso.

Configuración del ambiente, ajustes de escalamiento enfocado en la aplicación de un caso de estudio.

Desarrollo del caso de estudio sugerido.