Ciencia de Datos

Permanent URI for this collection

Browse

Recent Submissions

Now showing 1 - 4 of 4
  • tesis de maestría.listelement.badge
    Determinación de morosidad impositiva en la provincia del Chaco utilizando modelos predictivos
    (2024) Quindt, Raúl Horacio
    El presente estudio se enfoca en la necesidad, por parte de la Administración Tributaria Provincial del Chaco, de anticiparse a la situación de mora de los contribuyentes en el pago de sus impuestos. Determinar tardíamente la morosidad, conlleva a intimaciones que generalmente terminan en planes con quita de intereses y bonificaciones especiales, lo cual implica una reducción en los recursos del estado provincial. Esto impacta directamente sobre las inversiones en materia de seguridad, administración de justicia, salud, educación y obras públicas. En este contexto, el objetivo principal de esta tesis es implementar una herramienta que, utilizando técnicas de aprendizaje automático, le permita al fisco determinar en forma predictiva qué tipo de contribuyentes o que actividades comerciales son las que podrían caer en deudas impositivas con la Administración Tributaria Provincial del Chaco. Para ello, se recaban datos históricos del fisco de la provincia, en base a las declaraciones juradas de actividades comerciales y sus posteriores pagos, se los prepara, y con ellos se entrenan seis modelos de aprendizaje automático supervisado, para luego evaluarlos a través de métricas de desempeño y determinar el más robusto y eficaz. Finalmente, a partir del análisis de importancia de características realizado sobre el mejor modelo, se identifican patrones relevantes asociados a la morosidad fiscal.
  • tesis de maestría.listelement.badge
    Clasificación de familias de instrumentos musicales con aprendizaje no supervisado sobre coeficientes cepstrales
    (2024) Gianatiempo, Juan Pablo
    El presente estudio se enfoca en la diferenciación de familias de instrumentos musicales mediante el empleo de modelos de Aprendizaje Automático no supervisado, con énfasis en las componentes principales de los coeficientes cepstrales de frecuencias mel (MFCC). Estos coeficientes, conocidos por su utilidad en el análisis del habla, ofrecen características distintivas relacionadas con la percepción auditiva humana. El objetivo primordial consiste en desarrollar una metodología que integre técnicas de procesamiento de muestras sonoras, reducción de dimensionalidad y algoritmos de aprendizaje no supervisado para clasificar con exactitud las familias de instrumentos musicales. La justificación de esta investigación radica en la creciente disponibilidad de datos musicales en línea, cuya utilidad se ve limitada por desafíos en su búsqueda y clasificación. Los avances tecnológicos en Aprendizaje Automático y procesamiento de señales ofrecen nuevas oportunidades para sistemas capaces de reconocer señales sonoras, simplificando la clasificación y reduciendo la carga computacional. Se emplean 7 algoritmos distintos de agrupamiento de aprendizaje no supervisado utilizando la distancia euclídea para el cálculo de disimilitudes entre observaciones. Cada uno de estos algoritmos se aplica a la selección de 6 coeficientes cepstrales de frecuencia mel (MFCC) en su forma original y en su versión reducida mediante la técnica de análisis de componentes principales (PCA), lo que resulta en 12 variantes de aplicación para cada algoritmo y 84 combinaciones distintas en total. Por cada variante se obtiene la exactitud y el tiempo de procesamiento como métricas de evaluación. Este enfoque permite explorar exhaustivamente las posibles combinaciones de características, optimizando así la capacidad de discernimiento y agrupamiento de los algoritmos bajo diferentes condiciones de entrada.
  • tesis de maestría.listelement.badge
    Predicción de incumplimiento crediticio en préstamos personales: aplicación de aprendizaje automático supervisado en entidades bancarias
    (2024-12) Rojas, Marcos Fernando
    El presente estudio se enfoca en la detección temprana de morosidad por parte de los clientes que toman préstamos personales en entidades financieras. El objetivo principal consiste en desarrollar una metodología basada en algoritmos de aprendizaje automático supervisado para la detección anticipada de los clientes que toman un préstamo personal y que pasan de una situación normal a una situación de morosidad. Esta detección es de vital importancia, dado que anticiparse al incumplimiento de los clientes les permite a las entidades poder ofrecer distintas alternativas para asegurar la regularidad de los pagos, lo cual beneficia tanto a la entidad como al cliente, que por falta de educación financiera puede desconocer las distintas herramientas que le pueden generar un desahogo financiero. A lo largo de la experimentación, se entrenan y validan seis modelos de clasificación distintos sobre una base de datos privados (tomados de una entidad financiera) y públicos (recabados del Banco Central de la República Argentina y de Datos Abiertos de Argentina), que luego son comparados entre sí a través de métricas predeterminadas, para detectar cuál de ellos es el más robusto para la predicción esperada.
  • tesis de maestría.listelement.badge
    Predicción del empleo formal en la República Argentina aplicando algoritmos de aprendizaje automático
    (2024) Álvarez, Fernando Hipólito
    El empleo formal puede asociarse con una mejor calidad de vida, dado que está vinculado a una serie de derechos y beneficios amparados por la legislación vigente. Un elevado nivel de empleo formal no solo promueve una mejora de la sociedad en general, sino que también contribuye a una mayor eficiencia económica. En este contexto, cuantificar el nivel de empleo formal adquiere una relevancia crítica, especialmente en economías como la de Argentina, donde una proporción significativa de la población se encuentra empleada en el sector informal. En este trabajo se realiza un procedimiento para predecir el nivel de empleo formal en Argentina en tiempo futuro, utilizando los datos de la Encuesta Permanente de Hogares (EPH). Dado el retraso de estos datos, no es posible realizar políticas públicas en tiempos adecuados, por lo tanto, una estimación correcta es de gran importancia. Se utilizan algoritmos de Aprendizaje Automático y se realiza la comparación de los resultados. El modelo XGBoost se destacó por su precisión, superando a otros modelos.