Monocular visual perception techniques for augmented reality and mobile robotics applications in industry
Palabras clave : 
Visión artificial.
Reconocimiento de objetos.
SLAM
Navegación.
Realidad aumentada.
Fecha de publicación : 
19-nov-2019
Fecha de la defensa: 
15-nov-2019
Editorial : 
Servicio de Publicaciones. Universidad de Navarra
Cita: 
ZUBIZARRETA, J. "Monocular visual perception techniques for augmented reality and mobile robotics applications in industry".Aguinaga, I. Tesis doctoral. Universidad de Navarra, 2019
Resumen
The current advances in communication and computing technologies are having a large impact in industry, leading to what’s known as the fourth industrial revolution or Industry 4.0. One of the challenges being addressed is to augment machines with the intelligence to mimic the cognitive functions of the human mind. In this context, machine perception is one of the core capacities to interpret data related to the world around us. For this purpose, computer vision (CV) is a commonly used solutions due its versatility and low cost implementation of the optical sensors. This thesis studies two different visual perception problems: object recognition and simultaneous localization and mapping (SLAM). The proposed solutions focus on single camera (monocular) approaches in industrial environments. This is specially challenging due to the lack of textured surfaces of objects typical in industry, uncontrolled illumination changes, non-Lambertian materials – that render many reflections – and cluttered scenes. Both problems consist in understanding the scene and determining the camera motion as accurately as possible. Object recognition sets its focus on identifying target 3D objects in the scene, whereas SLAM aims to recover the 3D structure of the scene. The first part of this thesis proposes a novel model-based object recognition method which uses geometric properties. It combines model surface conics and edge templates to reduce the image search space increasing the localization robustness and saving computational time. In addition, the proposed method is integrated into a complete augmented reality (AR) framework for guidance in maintenance in industry, called ARgitu. It generates and presents virtual and augmented information, including the tools required for the development of new contents and adapt AR technology applications into the advanced manufacturing industry. The second part of this thesis presents a direct monocular SLAM system, called Direct Sparse Mapping (DSM). It uses a direct formulation within a mapping framework to locate the position of the camera in the scene and build a consistent global map. Up to our knowledge, this is the first fully direct SLAM approach to reuse map point reobservations. As a direct method, it does not rely on point matches and it can work with points sampled across image edges – instead of only corners – and obtain a more descriptive reconstruction despite the sparse geometry representation. The system is robust in scenes with low texture and motion blur. The extensive experimental validation demonstrates that the proposed direct mapping framework outperforms current direct odometry approaches – even with loop closure – both in the estimated trajectory and map accuracy.
Los avances actuales en las tecnologías de comunicación y computación están teniendo un gran impacto en la industria, conduciendo a la que se conoce como la cuarta revolución industrial o Industria 4.0. Uno de los principales retos es proporcionar a las máquinas la inteligencia necesaria para imitar las funciones cognitivas de la mente humana. En este contexto, la percepción e interpretación del mundo que nos rodea es una de las capacidades principales. Para este propósito, la visión por computador es una solución muy usada debido a su versatilidad y bajo coste de implementación de los sensores ópticos. Esta tesis estudia dos técnicas de percepción visual diferentes: reconocimiento de objetos y localización y mapeo simultáneos (SLAM por sus siglas en inglés). Las soluciones propuestas se centran en una única cámara (monocular) en entornos industriales. Esto es un desafío debido a la falta de superficies con textura en la escena, cambios de iluminación no controlados, materiales no-Lambertianos – que producen muchos reflejos – y escenas abarrotadas. Ambos problemas consisten en comprender la escena y determinar el movimiento de la cámara con la mayor precisión posible. El reconocimiento de objetos se enfoca en identificar objetos objetivo en la escena, mientras que el SLAM pretende recuperar la estructura tridimensional de la escena. La primera parte de esta tesis propone un nuevo método de reconocimiento de objetos basado en modelos que utiliza propiedades geométricas de los mismos. Combina cónicas de la superficie del modelo y plantillas de aristas para reducir el espacio de búsqueda en la imagen, aumentando la solidez de la localización y reduciendo el tiempo de cálculo. Además, el método propuesto se integra en un sistema industrial completo de realidad aumentada (RA), llamado ARgitu, empleado para el guiado en el mantenimiento. El sistema genera y presenta información virtual y aumentada, incluyendo las herramientas necesarias para el desarrollo de nuevos contenidos y adaptar las aplicaciones de tecnología RA en la industria de fabricación avanzada. La segunda parte de esta tesis presenta un sistema de SLAM monocular directo, llamado Direct Sparse Mapping (DSM). El método utiliza una formulación directa dentro de una infraestructura de mapeo para localizar la posición de la cámara en la escena y construir un mapa global consistente. Hasta donde sabemos, es el primer enfoque de SLAM totalmente directo que reutilice reobservaciones de los puntos del mapa. Como método directo, no depende de emparejamientos entre puntos y puede trabajar con puntos muestreados a través de las aristas en una imagen – en lugar de esquinas únicamente – y obtener una reconstrucción más descriptiva a pesar de utilizar una representación de puntos dispersa. Además, el sistema es robusto contra escenas con poca textura y desenfoques debido al movimiento. La extensa validación experimental demuestra que la infraestructura de mapeo directa que se propone supera a los enfoques de odometría directa actuales – incluso con cierre de bucle – tanto en la trayectoria estimada como en la precisión del mapa.

Ficheros en este ítem:
Vista previa
Fichero
Jon_Zubizarreta.pdf
Descripción
Tesis doctoral
Tamaño
62.76 MB
Formato
Adobe PDF


Estadísticas e impacto
0 citas en
0 citas en

Los ítems de Dadun están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.