Examinando por Materia "ANALISIS DE DATOS"
Mostrando1 - 20 de 70
Resultados por página
Opciones de clasificación
- Artículo de Publicación PeriódicaAn algebra for OLAP(2017) Kuijpers, Bart; Vaisman, Alejandro Ariel"Online Analytical Processing (OLAP) comprises tools and algorithms that allow querying multidimensional databases. It is based on the multidimensional model, where data can be seen as a cube, where each cell contains one or more measures can be aggregated along dimensions. Despite the extensive corpus of work in the field, a standard language for OLAP is still needed, since there is no well-defined, accepted semantics, for many of the usual OLAP operations. In this paper, we address this problem, and present a set of operations for manipulating a data cube. We clearly define the semantics of these operations, and prove that they can be composed, yielding a language powerful enough to express complex OLAP queries. We express these operations as a sequence of atomic transformations over a fixed multidimensional matrix, whose cells contain a sequence of measures. Each atomic transformation produces a new measure. When a sequence of transformations defines an OLAP operation, a flag is produced indicating which cells must be considered as input for the next operation. In this way, an elegant algebra is defined. Our main contribution, with respect to other similar efforts in the field is that, for the first time, a formal proof of the correctness of the operations is given, thus providing a clear semantics for them. We believe the present work will serve as a basis to build more solid practical tools for data analysis."
- Artículo de Publicación PeriódicaAnalytical queries on semantic trajectories using graph databases(2019-10) Gómez, Leticia Irene; Kuijpers, Bart; Vaisman, Alejandro Ariel"This article studies the analysis of moving object data collected by location-aware devices, such as GPS, using graph databases. Such raw trajectories can be transformed into so-called semantic trajectories, which are sequences of stops that occur at “places of interest.” Trajectory data analysis can be enriched if spatial and non-spatial contextual data associated with the moving objects are taken into account, and aggregation of trajectory data can reveal hidden patterns within such data. When trajectory data are stored in relational databases, there is an “impedance mismatch” between the representation and storage models. Graphs in which the nodes and edges are annotated with properties are gaining increasing interest to model a variety of networks. Therefore, this article proposes the use of graph databases (Neo4j in this case) to represent and store trajectory data, which can thus be analyzed at different aggregation levels using graph query languages (Cypher, for Neo4j). Through a real-world public data case study, the article shows that trajectory queries are expressed more naturally on the graph-based representation than over the relational alternative, and perform better in many typical cases."
- Artículo de Publicación PeriódicaAnalyzing the quality of Twitter data streams(2020) Arolfo, Franco A.; Cortes Rodriguez, Kevin; Vaisman, Alejandro Ariel"There is a general belief that the quality of Twitter data streams is generally low and unpredictable, making, in some way, unreliable to take decisions based on such data. The work presented here addresses this problem from a Data Quality (DQ) perspective, adapting the traditional methods used in relational databases, based on quality dimensions and metrics, to capture the characteristics of Twitter data streams in particular, and of Big Data in a more general sense. Therefore, as a first contribution, this paper re-defines the classic DQ dimensions and metrics for the scenario under study. Second, the paper introduces a software tool that allows capturing Twitter data streams in real time, computing their DQ and displaying the results through a wide variety of graphics. As a third contribution of this paper, using the aforementioned machinery, a thorough analysis of the DQ of Twitter streams is performed, based on four dimensions: Readability, Completeness, Usefulness, and Trustworthiness. These dimensions are studied for several different cases, namely unfiltered data streams, data streams filtered using a collection of keywords, and classifying tweets referring to different topics, studying the DQ for each topic. Further, although it is well known that the number of geolocalized tweets is very low, the paper studies the DQ of tweets with respect to the place from where they are posted. Last but not least, the tool allows changing the weights of each quality dimension considered in the computation of the overall data quality of a tweet. This allows defining weights that fit different analysis contexts and/or different user profiles. Interestingly, this study reveals that the quality of Twitter streams is higher than what would have been expected."
- Proyecto final de GradoAnálisis cuantitativo de la actividad en la Cámara de Diputados de la Nación Argentina(2014) Rochebouët, Gastón de; Gutiérrez Krüsemann, Ricardo"El presente trabajo es un análisis, desde un punto de vista de la ingeniería, del funcionamiento y actividad de la Cámara de Diputados de la Nación Argentina. El foco está puesto en el diseño de indicadores y cálculo de estadísticos que resuman e iluminen el proceso de sanción de una ley. Existen diversas iniciativas de este tipo a nivel internacional y nacional, en pleno crecimiento, aunque ninguna herramienta es de uso masivo. A partir del estudio de este proceso y de los precedentes, se desarrollaron indicadores divididos en 3 categorías: proyectos, comisiones y votaciones. El cálculo de los mismos requirió un trabajo de relevamiento e ingeniería de datos extenso, exigiendo su redefinición en algunos casos. Se obtuvo de esta manera un informe de actividad para el período 2010 / 2011. Como conclusión, se puede decir que este campo de estudios es extenso y rico; el presente trabajo únicamente muestra datos generales, y la puerta está abierta para realizar análisis más específicos. La ingeniería tiene mucho que aportar y aprender de otras disciplinas, como es en este caso con respecto a la ciencia política."
- Proyecto final de GradoAnálisis de datos de pacientes y consultantes con COVID-19(2021-09-29) Pingarilho, Pedro Remigio; Gómez, Fermín; Di Luca, Miguel; Gambini, Juliana
- Trabajo final de especializaciónAnálisis de la utilización de taxis en la ciudad de Buenos Aires(2019) Pugliese, Franco; Aizemberg, Diego Ariel"Con el proyecto Uber Movement las ciudades del mundo pueden obtener información necesaria que les permita identificar puntos neurálgicos donde adaptar sus infraestructuras con objetivo de llevar a cabo una optimización del flujo de tráfico. En la Ciudad de Buenos Aires, la aplicación BA Taxi brinda similar plataforma a la de Uber. El Gobierno entrega el dataset a usuarios finales, se procede a realizar inicialmente un análisis descriptivo y se generan nuevas variables a partir de las otorgadas. Finalmente se analiza la existencia de combinación de variables tal que se prediga viajes de mala calidad, es decir, viajes en donde no se presente una correlación directa entre tiempo insumido y distancia recorrida. Luego de la clara detección de ciertos patrones clave para la identificación de viajes malos, se considerará la investigación como piedra angular para futuros estudios incluyendo nuevos conjuntos de datos cómo ser: meteorología, obras viales o protestas."
- Trabajo final de especializaciónAnálisis de sentimientos: aplicación sobre textos en redes sociales(2019) Pedro, Diego Leonardo; Soliani, Valeria"Obtener tendencias de opinión pública sobre un producto de una empresa, mediante la implementación de técnicas de análisis de sentimientos sobre mensajes de clientes en redes sociales."
- Trabajo final de especializaciónAnálisis del impacto del tipo y ubicación de los locales comerciales de un centro o corredor comercial abierto en la probabilidad de vacancia de los mismos, mediante herramientas de visualización, análisis de información geoespacial y algoritmos de aprendizaje supervisado(2020-05-27) Sanguinetti, Diego; Aizemberg, Diego Ariel"Desarrollar una herramienta que permita visualizar distintos segmentos o grupos de locales entre los que conforman un centro o corredor comercial abierto de la ciudad según el nivel de riesgo de vacancia de los mismos, a partir del entendimiento de distintas variables que caractericen a los locales y puedan afectar su vacancia, mejorando/facilitando así las decisiones de compra y venta de locales comerciales por parte de los inversores."
- Trabajo final de especializaciónAnálisis del sistema Ecobici en la Ciudad de Buenos Aires(2018) Calvo, Mario Daniel; Aizemberg, Diego Ariel"Los sistemas públicos de bicicletas se han extendido en todas las grandes ciudades el mundo. Buenos Aires ha desarrollado uno y en este estudio buscamos entender cuáles podrían ser los factores espaciales y ambientales, y el perfil de los usuarios qué expliquen el uso del sistema. Para ello se utilizaron datos provistos por el gobierno de CABA, respecto de los viajes realizados, y datos del clima. Se aplicaron métodos de minería de datos tales como: regresiones para identificar relaciones entra las variables y Kmeans, para clasificar datos. Los hallazgos más importantes fueron el efecto de la temperatura sobre el uso del sistema, y la identificación del grupo etario que más viajes realiza. La diferencia significativa entre el uso de los días de semana y los fines de semana, y su correspondencia con la hora del día. Estos hallazgos permitieron inferir que el uso en los días de semana se debe al traslado hacia el trabajo y/o centros de estudio. En tanto que el uso en los fines de semana se orienta a un uso recreativo."
- Trabajo final de especializaciónAplicación de procesamiento de lenguaje natural en el marketing(2018) Pablo, Demián; Gambini, Juliana; Ramele, Rodrigo"Con este proyecto se busca avanzar en el análisis de técnicas publicitarias, superando las métricas “cotidianas”, y logrando de esta manera obtener nuevos datos que nutran a la agencia de publicidad en cuestión de nuevos insights (no alcanzados hasta el momento) que decanten en una ventaja competitiva respecto al resto de los participantes de la industria."
- Trabajo final de especializaciónAplicación de técnicas de minería en el proceso de cobranza(2019) Comunello de Sá, Fellippe; Gómez, Leticia Irene"La cobranza es un importante servicio prestado por las empresas que maneja a los clientes morosos. Es un proceso estratégico y clave para generar valor a un rango de clientes y el camino inicial para alguna posible recuperación judicial. Cobranzas es un área dentro de una organización cuyo objetivo es convertir posibles pérdidas en posibles ingresos, utilizando el contacto como herramienta para avisar o revisar la “necesidad” de cumplimento de su obligación o deuda. En el proceso de gestión existen varias formas y tácticas para alcanzar el contacto con el cliente, tales como: cartas, llamadas telefónicas, mensajes al celular o presencial. El método más difundido y donde se presenta una mejor respuesta es vía telefónica, donde un cobrador, pudiendo ser un empleado/a de la empresa o un tercer agente, habla con el cliente intentando dar soporte y medios para la cancelación de la deuda. Junto con esa interacción se toman notas del contacto para posibles interacciones futuras. Las grandes empresas, usando bancos como base principal de referencia, necesitan de grandes áreas de cobranza para atender un variado público de clientes. Cuentan con un proceso bastante interactivo para llegar al cliente, siendo soportados por sistemas de llamadas automáticas para una mayor performance. Esos sistemas son esenciales, ya que el volumen de llamadas necesarias para intentar entrar en contacto con todos los clientes de la cartera es muy alto y sería imposible hacerlo manualmente. Cobranzas es un módulo esencial para mantener la integridad del ciclo del negocio/Crédito, siendo el puente para el mantenimiento de clientes existentes y futuros."
- Tesis de maestríaAsistente para la gestión de documentos de proyectos de explotación de datos(2006) Fernández, Enrique; Britos, Paola Verónica; García Martínez, Ramón"Esta tesis trata sobre el desarrollo de una herramienta de software del tipo “asistente”, que facilita la gestión de documentación de un proyecto de Explotación de Datos basado en la metodología CRISP-DM [Chapman, P. et al, 1999]. El desarrollo de la misma se basa tecnologías Cliente Servidor y se apoya en la metodología Métrica Versión III [Métrica III, 2000]."
- Proyecto final de GradoAutomatización en la recolección de datos deportivos(2022) Coluccio, Ignacio Nicolás; Prada, Tadeo"Es de público conocimiento que los datos están presentes en casi todos los ámbitos de la sociedad. Pero estos no significan nada si no son procesados y estudiados por el ojo conocedor, para hacer de los mismos información. La disponibilidad de los datos es importante pero la correcta utilización, y aplicación de los mismos es lo que genera la diferencia. Esto puede aplicarse a los deportes, por la gran presencia de datos crudos generados, en especial en el basquet. El basquet es uno de los deportes en los que más se utilizan los datos, siendo este un deporte que depende cada vez más y más de estadísticas, probabilidades y mejora de porcentajes. Es por esto que se busca generar un diferencial desde el lado analítico y comprender el juego a través de estos números."
- Proyecto final de GradoCalidad de datos contextual en Big Data: calidad de datos de Twitter(2020-04-24) Cortés Rodríguez, Kevin Imanol; Vaisman, Alejandro Ariel"En cada una de las fases del análisis en los procesos relacionados a Big Data, la calidad de datos juega un papel importante. La obtención de la calidad de datos, basados en las dimensiones de la calidad y métricas, deben ser adaptados en pos de capturar las nuevas características que el Big Data nos afronta. Este documento trata de profundizar dicho problema, redefiniendo las dimensiones y métricas de la calidad de datos en un escenario de Big Data, donde el dato llega en tiempo real en formato JSON y es procesado por distintos componentes para obtener métricas de calidad de datos. En particular, este proyecto estudia el caso concreto de mensajes de usuarios de la red social Twitter. Por otra parte, también se detalla la implementación de una nueva arquitectura continuando el proyecto de Data quality in a big data context: about Twitter’s data quality basada en microservicios, desde el momento que se procesa un tweet, llega desde la interfaz al usuario y todas las mejoras agregadas en pos de mejorar la experiencia al usuario."
- Tesis de maestríaCartografiado de textos: protocolo de exploración y visualización de datos textuales aplicados a la minería de datos(2007) Césari, Matilde Inés; Britos, Paola Verónica; García Martínez, Ramón; Merlino, Hernán"El objetivo de este trabajo es definir un marco teórico-metodológico que presente en forma sistemática la integración de las distintas técnicas estadísticas de análisis léxico y técnicas estadísticas de exploración multivariada; y utilizarlas en el trazado de un protocolo o guía para le exploración y diagnóstico por imagen de datos textuales. Además, experimentar con las estrategias metodológicas que implican la construcción de cartografiado de texto, a casos de ejemplo."
- Tesis de doctoradoCategorical sequential pattern mining in a spatio-temporal environment(c2009) Gómez, Leticia Irene; Vaisman, Alejandro Ariel"En esta tesis argumentamos que la información de trayectorias también puede ser integrada con datos GIS y OLAP, generando un marco poderoso de análisis".
- Trabajo final de especializaciónCategorización y análisis de la frecuencia cardíaca de un individuo con inteligencia artificial(2020) Goldman, Jorge Carlos; Riccillo, Marcela"Este estudio presenta un enfoque novedoso en la aplicación de técnicas de aprendizaje automático para la clasificación de enfermedades del músculo cardíaco. Una detección temprana de arritmias aumenta considerablemente la posibilidad de corrección y sobrevida de los pacientes mediante medicación adecuada indicada por un profesional de la salud. En el siguiente trabajo se evaluarán diversos algoritmos de aprendizaje automático con técnicas de selección de variables, a fin de lograr una clasificación, con cierto grado de exactitud, de diversas enfermedades del músculo cardíaco, basándonos en las mediciones obtenidas mediante dispositivos electrónicos. Los resultados experimentales mostraron que a través del algoritmo de Random Forest, se logra la clasificación de una persona enferma de una sana con casi 94% de exactitud, con selección de las variables más significativas mediante el algoritmo de RFE."
- Proyecto final de GradoCaylent: talent acquisition hiring process(2021) Nasillo, Agustín Gabriel"El presente trabajo tuvo como objetivo la mejora del proceso de contratación de Caylent, a través de metodología de ciencia de datos. En ese momento, Caylent realizaba un assessment de prueba de trabajo para todos los candidatos a Engineer y Solutions Architect. Dicha metodología consistía en diseñar y describir una solución que cumpliera con algunos criterios específicos, al tiempo que permitía margen de diferenciación entre los candidatos. De esta manera, la evaluación combinada con las puntuaciones del GMA y los resultados de las rondas de entrevistas técnicas, constituía la mayoría de los datos utilizados para llegar a una decisión de contratación. El foco del proyecto fue revisar los assessments y generar los correspondientes insights que puedan ayudar al negocio a mejorar su proceso de contratación actual."
- Trabajo final de especializaciónClasificación de clientes por umbral superior de ingresos(2022-06) Aguilera, Sebastián; Gómez, Leticia Irene"El presente trabajo tiene por objetivo proveer de nuevas herramientas al análisis de datos en el proceso de toma de decisiones concerniente a la banca comercial minorista. La propuesta está relacionada con la realización de un análisis que contenga el resultante de distintos modelos predictivos aplicados un set de datos provistos por la entidad, y una etiqueta generada por (la variable a regresar)."
- Trabajo final de especializaciónComercialización interna de granos(2020-08-19) Gianatiempo, Juan Pablo; Aizemberg, Diego Ariel"Cada año, en la Argentina circulan aproximadamente 120 millones de toneladas de granos. No obstante, pese a la preponderancia del sector dentro de la economía argentina, existe un desconocimiento del comportamiento de la comercialización interna de los granos. Si bien existen numerosos supuestos y teorías, aún no se han realizado estudios que incorporen los nuevos datos disponibles del sector. El presente trabajo tiene como objetivo dar una solución superadora y moderna mediante la generación de una herramienta que permita visualizar y analizar el comportamiento histórico de la comercialización interna de granos desde inicios del 2015 hasta el último día del 2019."