Registro:
Documento: | Tesis Doctoral |
Disciplina: | computacion |
Título: | Reconocimiento de acciones en videos de profundidad |
Título alternativo: | Action recognition in depth videos |
Autor: | Ubalde, Sebastián |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Publicación en la Web: | 2016-06-27 |
Fecha de defensa: | 2016-03-22 |
Fecha en portada: | 2015 |
Grado Obtenido: | Doctorado |
Título Obtenido: | Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación |
Director: | Mejail, Marta Estela |
Jurado: | Ballarin, Virginia; Sánchez, Jorge Adrián; Sappa, Angel |
Idioma: | Inglés |
Palabras clave: | VIDEO DE PROFUNDIDAD; APRENDIZAJE MULTI INSTANCIA; CITATION-KNN; EDIT DISTANCE ON REAL SEQUENCE; INSTANCIA-A-CLASEDEPTH VIDEO; MULTIPLE INSTANCE LEARNING; CITATION-KNN; EDIT DISTANCE ON REAL SEQUENCE; INSTANCE-TO-CLASS |
Tema: | computación/reconocimiento de patrones
|
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n5922_Ubalde.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n5922_Ubalde |
Ubicación: | Dep.COM 005922 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Ubalde, Sebastián. (2015). Reconocimiento de acciones en videos de profundidad. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde |
Resumen:
El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.
Abstract:
The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods.
Citación:
---------- APA ----------
Ubalde, Sebastián. (2015). Reconocimiento de acciones en videos de profundidad. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde
---------- CHICAGO ----------
Ubalde, Sebastián. "Reconocimiento de acciones en videos de profundidad". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2015.https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n5922_Ubalde.pdf