Loading...

Especialización en ciencia de datos

Home / Postgrado  / Especialización en ciencia de datos
Alejandro_Vaisman_ciencia_datos
Director
Alejandro Vaisman

Doctor en Ciencias de la Computación, Universidad de Buenos Aires (UBA).
Profesor e investigador en el área de bases de datos, en particular en Data Warehousing y Business Intelligence, Semantic Web y Sistemas de Información Geográfica.
Director del Centro de Extracción de Información del ITBA.

El término “Big Data” se refiere a grandes colecciones de datos, estructurados, o no, que pueden crecer a volúmenes enormes y a un ritmo tan alto que los hace difíciles de manejar con las técnicas habituales de los sistemas de bases de datos y las herramientas de análisis existentes hasta hace un tiempo. La gestión, análisis y explotación de estas cantidades masivas de datos complejos exigen nuevas soluciones que van más allá de los procesos tradicionales o herramientas de software habituales en la práctica diaria.

La Especialización en Ciencia de Datos brinda a los profesionales herramientas para diseñar, preparar, analizar y manejar grandes volúmenes de información, estructurada y no-estructurada. El énfasis está puesto tanto en los fundamentos teóricos que le dan al graduado la flexibilidad necesaria para adaptarse a los abruptos cambios de tecnologías, como en estudios de casos y práctica en laboratorios con software comercial y open source.

A su vez, tiene como objetivo lograr una vinculación efectiva entre industria y academia que fomente la investigación y desarrollo de tecnologías de análisis y explotación de grandes datos en el país.

Cursada

Duración: 1 año y medio.
Modalidad: presencial. Se cursa dos veces por semana, Viernes de 18:30 a 22:00 hs. y sábados de 9:00 a 15:00 hs., en la sede de 25 de Mayo 444, de la Ciudad Autónoma de Buenos Aires.

Temario

Esta materia tiene como objetivo impartir los fundamentos estadísticos del análisis inteligente de datos. Es decir,  no enfoca el punto de vista algorítmico, sino conceptual. Estos fundamentos serán utilizados en muchas de las asignaturas que componen la especialización
Contenidos  mínimos
Análisis exploratorio de datos (EDA).  Reducción de dimensionalidad: análisis de componentes principales. Regresión lineal simple y múltiple. Regresión logística. Análisis de varianza (ANOVA). Análisis de datos de encuestas. Curvas  ROC, ganancia. Redes Bayesianas. Introducción al análisis de series de tiempo: Los modelos  ARIMA (autoregressive integrated moving average), ARCH (autoregressive conditional heterogeneity), GARCH (generalized autoregressive conditional heterogeneity).

En esta materia se abordarán las técnicas y algoritmos básicos de data mining, con especial énfasis en regresión, análisis de asociación, y clustering. Partiendo de las técnicas clásicas se discutirán los nuevos desafíos que impone Big Data.
Contenidos  mínimos
Conceptos básicos de data mining. Modelos descriptivos y predictivos. Técnicas fundamentales: reglas de asociación, clasificación, clustering, patrones. Arboles de decisión. Aplicación a problemas concretos de predicción. Casos de estudio. KPIs (Key Performance Indicators). Dashboards. Herramientas comerciales y de código abierto.

Se estudiará la arquitectura de los data warehouses (DW), así como su  diseño conceptual, lógico y físico, y su explotación mediante herramientas de Online Analytical Processing (OLAP), mining, dashboards, etc. Se prestará especial atención al diseño de  DW frente a los 3 problemas planteados por Big Data: Voumen, velocidad, y variedad. Por eso se estudiarán las bases de datos de grafos (variedad), y los DW en tiempo real (velocidad).
Contenidos  mínimos
Arquitecturas. Diseño conceptual, lógico y físico. El modelo multidimensional: estrella, snowlflake y constellation.  Slowly changing dimensions. Diseño físico.  On Line Analytical Processing: OLAP. OLAP vs OLTP. Lenguajes de consulta: MDX básico y avanzado. Entornos avanzados para OLAP. Herramientas comerciales y de código abierto. OLAP en Big Data: Análisis en tiempo real, bases de datos de grafos.

En esta materia se estudian las herramientas que popularmente se identifican con Big Data: Hadoop  y MapReduce, así como las arquitecturas de procesamiento masivamente paralelo con clusters de tipo commodity. Es decir, aquí el estudiante estará expuesto a un entorno real de Big Data, desde el punto de vista del hardware y del software.
Contenidos  mínimos
Fundamentos de sistemas distribuidos. Modelos. El teorema CAP. Clusters para programación masivamente paralela (MPP).  Virtualización de clusters y data centers. Arquitecturas cloud. Conceptos fundamentales de Big Data: Velocidad, Volumen, Variedad, Veracidad. Qué es y qué no es “Big Data”.  Datos estructurados y no estructurados. Bases de datos No SQL: MongoDB.  El paradigma MapReduce. Hadoop File System. YARN: evolución de hadoop. Arquitectura, componentes. Bases de datos columnares: Apache Cassandra, HBase.  Key-value stores: Amazon DynamoDB, Redis. Lenguages de alto nivel: HiveQL y Pig Latin.  Análisis de datos con Hadoop y Hive. Apache Spark. Programación con Spark. Streaming, captura de Tweets y e datos en real time, machine learning con Spark.

La visualización de la información es parte fundamental del análisis de datos. En este curso se verán los fundamentos teóricos de la visualización de datos (por ejemplo, cómo representar visualmente datos con alta dimensionalidad) y las herramientas prácticas para implementarla.
Contenidos  mínimos
Introducción, definiciones, antecedentes, gráficos notables. Principios de la excelencia gráfica. Observaciones y variables. Tipo de variables. Visualizando tablas, jerarquías y redes. Utilización del color.   Representación eficiente de la información, sumarización y visualización de grandes volúmenes de datos. Prácticas con d3js, jit, Processing, Google Visualization API, Tableau, Fusion Tables y QGIS.

El objetivo de esta materia es que el estudiante adquiera los conocimientos generales y prácticos del estado del arte en Aprendizaje Automático para su aplicación en la práctica profesional, en particular en un contexto de Big Data. El estudiante, al finalizar el curso, conocerá los principales modelos y algoritmos de aprendizaje computacional, y podrá  definir métodos y pruebas que le permitan seleccionar el modelo apropiado a los casos prácticos que se le presente. Esta materia complementará los modelos y algoritmos que se estudian en la asignatura “Data Mining”.
Contenidos  mínimos
Conceptos básicos de machine learning. Inferencias.  Espacio de versiones. Aprendizaje como búsqueda heurística. Conceptos generales de sesgo y poda.  Árboles de decisión. Extensiones a los algoritmos básicos y problemas de implementación. Generación de reglas.  Aprendizaje Bayesiano. Algoritmos aglomerativos y de partición. K-Means, SVM. Características descriptivas y discriminantes. Presentación general de otros modelos (genéticos, redes neuronales, etc.). Aplicaciones en Big Data.

El proceso de extracción, transformación, y carga (ETL) de un data warehouse (DW) es el proceso clave en todo proyecto, ya que involucra el 80% de su presupuesto. En un entorno de Big Data es aún más crítico, pues al volumen de datos, se suma la necesidad de un análisis en tiempo casi-real (por la velocidad de llegada de los datos), y una gran variedad de procesos de captura y adquisición, debido a la variedad  de los datos, en gran medida provenientes de la Web. En esta asignatura se estudiarán estos procesos, con fuerte enfoque de aplicación.
Contenidos  mínimos
El proceso de Extract, Transform-Load (ETL). Diseño Conceptual. Uso de técnicas de BPMN. Aplicación. Herramientas comerciales (MS Integration Services) y de código abierto (Pentaho Kettle).  ETL para soporte de real-time OLAP y DW.  Uso de Hadoop/MapReduce en el proceso de ETL. ETL vs ELT.  Ejemplos prácticos y programación de procesos ETL.

Los Sistemas de Información Geográfica (GIS), y las aplicaciones científicas son, junto con las redes sociales, las más grandes fuentes de Big Data, y requieren tratamientos particulares para su administración, integración con otros tipos de datos, y consulta. Estos problemas se abordarán en esta asignatura.
Contenidos  mínimos
Sistemas de Información Geográfica (GIS): modelos discretos y continuos (Continuous Fields).  OLAP sobre GIS. Análisis de trayectorias de objetos móviles: patrones. Ontologías. Análisis de datos biológicos, astronómicos, químicos. Análisis de Microarrays.

Este seminario se realizará durante el receso invernal,  durante una semana a tiempo completo, y será dictado por profesores invitados de reconocida relevancia en el área.  Su objetivo es compartir la visión de otros especialistas, promover el intercambio con otras instituciones, y  presentar a los estudiantes posibles temas de trabajo final.

Durante este seminario los estudiantes planificarán  su trabajo final integrador.  El objetivo del taller es contribuir a la formación de un pensamiento crítico, alcanzado a través de que el alumno logre: adquirir los conocimientos básicos del método científico y de las técnicas metodológicas; conocer cómo se lleva a cabo y qué etapas incluye la realización de una investigación; conocer los distintos tipos de investigaciones que pueden realizarse, los distintos instrumentos de recolección de datos que pueden utilizarse, y sus ventajas y limitaciones; adquirir habilidad para el análisis metodológico de trabajos de investigación; adquirir los conocimientos indispensables para participar en un trabajo de investigación, y encaminarse en la preparación de su TFI; adquirir  las herramientas necesarias para elaborar el reporte final.
El trabajo final consistirá en el desarrollo de un proyecto individual relacionado con un área de aplicación (GIS, biología, etc).
El  alumno propondrá un trabajo, y el Director y CA designarán al tutor del TFI, seleccionándolo dentro del grupo de tutores indicado anteriormente.  La aceptación formal del tema seleccionado estará a cargo del Director de la Carrera en conjunto con el Comité Académico.  El TFI deberá ser presentado como máximo dentro de los 12 meses a partir de la fecha de aprobación del último módulo.   El TFI será evaluado por profesionales designados por el Director y seleccionados por su experiencia académica y profesional relevante y pertinente al objeto de estudio del trabajo del alumno. Estos deberán emitir su opinión escrita y fundamentada dentro de los sesenta (60) días de recibida, enmarcados en las pautas que indique  el DC en acuerdo con el CA.

Cuerpo Docente

Coordinadora

Gómez, Silvia
Doctora en Ingeniería en Informática, ITBA. Directora del Centro de Innovación Educativa del ITBA. Especialista en Data Warehousing, OLAP y Sistemas de Información Geográfica.

Consejo Académico

* Dr. Delrieux,  Claudio (Universidad Nacional del Sur)
* Dr. Yankilevich, Daniel (Pragma Consultores)
* Dr. Romero, Oscar (Universidad Politécnica de Cataluña, España)

Licenciado en Ciencias de la Computación, UBA. 25 años de experiencia docente en Inteligencia Artificial, Sistemas Expertos, Data Mining y Visualización de Información. organizaciones.

Magister en Dirección de Empresas de la  Universidad del CEMA, Ingeniero en Informática, Universidad de la República, Uruguay, Lic. En Cs. de la Computación, ESLAI (Escuela Latinoamericana de Informática).

Doctora en Ciencias de la Computación, UBA. Licenciada en Ciencias Matemáticas, UBA. Profesor Titular a tiempo completo en el Departamento de Ingeniería Informática, ITBA.

Doctora en Ingeniería en Informática, ITBA. Profesora Titular de Bases de Datos, Directora del Centro de Interacción Hombre-Dispositivo y Usabilidad, ITBA. Especialista en Data Warehousing, OLAP y Sistemas de Información Geográfica.

Doctora en Lenguajes y Sistemas Informáticos, Universidad Rey Juan Carlos (Madrid). Master en Ingeniería de Software, Universidad Politécnica de Madrid. Diploma de Estudios Avanzados del Doctorado en Antropología, Universidad Complutense de Madrid. Licenciada en Sociología, UBA.

Ingeniero Informático por el.  Participó en proyectos de Big Data tanto en Google (a través de Globant), Despegar.com y Socialmetrix utilizando herramientas como Sqoop, Pig, Hbase, Hive, Oozie, Spark y Cassandra. Fue docente de   grado en el ITBA (desarrollo de aplicaciones web).  Actualmente, se encuentra desarrollando la infraestructura de procesamiento de datos de Real-Time Bidding de ads y tracking de eventos de aplicaciones mobile en Jampp. Es docente de la Diplomatura en Big Data del ITBA desde Abril de 2015.

Doctora en Ciencias de la Computación por la Universidad de Buenos Aires, Argentina.
Cuenta con 15 años de experiencia en empresas de diversas industrias (IBM Information Architect – Deloitte Pre-Sales – IBM SPSS Sales Executive) llevando a cabo proyectos de consultoría de negocio, tecnología de la información e IA aplicada a negocios. Predictive Analysis, Business Analytics, Data Mining and Information Management. Es especialista en Inteligencia Artificial y Robótica, y ha sido oradora en TEDxRosario Arg 2012, TEDxBarcelona España 2013, Makers of Barcelona 2013, Campus Party México 2013, AXIS México 2014, entre otros eventos.

El proceso de admisión incluye una entrevista con el director de la carrera. Previo a la inscripción, por favor, comunicarse con María Fernández al +54 11 2150 4840 o envianos tu mensaje a mcfernan@itba.edu.ar