Registro:
| Documento: | Tesis Doctoral |
| Título: | Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas |
| Título alternativo: | Human action recognition in videos using deep neural networks |
| Autor: | Orozco, Carlos Ismael |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Fecha de defensa: | 2025-09-24 |
| Fecha en portada: | 2025 |
| Grado Obtenido: | Doctorado |
| Título Obtenido: | Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación |
| Departamento Docente: | Departamento de Computación |
| Director: | Jacobo Berlles, Julio César Alberto |
| Director Asistente: | Buemi, María Elena |
| Consejero: | Mejail, Marta Estela |
| Jurado: | Gambini, María Juliana; Nesmachnow, Sergio; Climent Pérez, Pau |
| Idioma: | Español |
| Palabras clave: | RECONOCIMIENTO DE ACCIONES HUMANAS; REDES NEURONALES CONVOLUCIONALES; REDES LSTM; MECANISMOS DE ATENCIONHUMAN ACTION RECOGNITION; CNN; LSTM; ATTENTION MECHANISMS |
| Formato: | PDF |
| Handle: |
https://hdl.handle.net/20.500.12110/tesis_n7819_Orozco |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7819_Orozco.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7819_Orozco |
| Ubicación: | COM 007819 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Orozco, Carlos Ismael. (2025). Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7819_Orozco |
Resumen:
El Reconocimiento de Acciones Humanas en videos (HAR) consiste en identificar y clasificar diferentes acciones que involucran una o más personas. Este campo continúa en desarrollo ya que los resultados aún no alcanzan niveles satisfactorios para muchas de sus aplicaciones tales como vigilancia, interacción hombre-máquina, asistencia sanitaria, indexación de videos, entre otras. La importancia de HAR radica en su aplicabilidad a diversos entornos donde la interpretación del comportamiento humano a partir de videos es clave. El objetivo de esta tesis fue desarrollar enfoques de aprendizaje profundo aplicados a HAR. La propuesta integró el uso de Redes Convolucionales (CNN) para extraer características espaciales y de Redes Recurrentes (LSTM) para modelar la dinámica temporal de las acciones. Se incorporó un mecanismo de atención que enfocó las regiones más relevantes de cada fotograma, mejorando el rendimiento al destacar características esenciales y reducir la influencia de los fotogramas poco representativos. La combinación de CNN, LSTM y atención ofreció una solución robusta para los desafíos de variabilidad en contextos y entornos. Además, se implementó un módulo de selección de fotogramas que optimizó el proceso de reconocimiento al identificar y utilizar los fotogramas más representativos. Este no solo mejoró la precisión del modelo, sino que también redujo los tiempos de entrenamiento al procesar menos fotogramas sin comprometer la calidad del reconocimiento. Para evaluar el rendimiento de las propuestas, se utilizaron bases de datos públicas especializadas en este tipo de problemas. Los resultados obtenidos fueron competitivos en comparación con modelos más complejos reportados en la literatura
Abstract:
Human Action Recognition (HAR) in videos consists of identifying and classifying different actions involving one or more individuals. This field remains under active development, as current results still fall short of satisfactory performance levels for many real-world applications, such as surveillance, human-computer interaction, healthcare assistance, video indexing, among others. The importance of HAR lies in its applicability to diverse settings where understanding human behavior from video data is essential. The objective of this thesis was to develop deep learning approaches applied to HAR. The proposed method integrated Convolutional Neural Networks (CNN) for extracting spatial features and Recurrent Neural Networks (LSTM) for modeling the temporal dynamics of actions. An attention mechanism was incorporated to focus on the most relevant regions of each video frame, improving performance by highlighting essential features and reducing the influence of less representative frames. The combination of CNN, LSTM, and attention provided a robust solution to the challenges posed by variability in contexts and environments. Additionally, a frame selection module was implemented to optimize the recognition process by identifying and utilizing the most representative frames. This not only enhanced the model’s accuracy but also reduced training time by processing fewer frames without compromising recognition quality. To evaluate the performance of the proposed methods, publicly available datasets specialized in this domain were used. The results obtained were competitive when compared to more complex models reported in the literature.
Citación:
---------- APA ----------
Orozco, Carlos Ismael. (2025). Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7819_Orozco
---------- CHICAGO ----------
Orozco, Carlos Ismael. "Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/tesis_n7819_Orozco
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7819_Orozco.pdf