- -

Multimodal annotation of vision demand scales to estimate object detection capabilities

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Multimodal annotation of vision demand scales to estimate object detection capabilities

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Martínez Plumed, Fernando es_ES
dc.contributor.advisor Hernández Orallo, José es_ES
dc.contributor.author Moros Daval, Yael es_ES
dc.date.accessioned 2024-10-15T10:16:10Z
dc.date.available 2024-10-15T10:16:10Z
dc.date.created 2024-09-24
dc.date.issued 2024-10-15 es_ES
dc.identifier.uri http://hdl.handle.net/10251/210152
dc.description.abstract [ES] El objetivo de este proyecto es identificar las demandas de visión requeridas por diversos problemas de detección de objetos, adaptando una escala de exigencias de visión creada originalmente por un grupo de expertos de la OCDE. La escala se organiza en cinco niveles de dificultad creciente e incluye una descripción de aquellas características visuales que pueden influir en el rendimiento de los sistemas de visión en benchmarks de detección de objetos, como el desenfoque, la oclusión, las condiciones de iluminación, la orientación del objeto, la superposición o la presencia de múltiples objetos. Las escalas se convierten en rúbricas que pueden ser utilizadas por grandes modelos de lenguaje con capacidades de visión, como GPT4-Vision, para anotar las demandas de visión de grandes muestras de imágenes en múltiples conjuntos de datos de detección de objetos (por ejemplo, COCO o VOC). También utilizamos few-shot learning para garantizar que las respuestas del anotador se ajustan a los niveles de dificultad previstos. Una vez anotados los puntos de referencia, procesamos todas las imágenes encuadradas para dos tareas diferentes, detección y localización de objetos, utilizando diversos algoritmos de visión por computador, con especial atención a la familia de modelos YOLO. Vemos cómo el rendimiento disminuye en general para niveles crecientes, lo que nos permite representar curvas características de agentes para distintos métodos y familias. El resultado de este trabajo es una metodología para estimar el nivel de capacidad visual de los algoritmos actuales de detección de objetos ---en lugar de su rendimiento---, así como proporcionar una cierta visión de su evolución en el tiempo. es_ES
dc.description.abstract [EN] This project aims to identify the vision demands required by various Object Detection problems, adapting a vision demands scale originally created by a group of experts from the OECD. The scale is organised into five levels of increasing difficulty and includes a description of those visual features that may influence machine vision performance in object detection benchmarks such as blur, occlusion, lighting conditions, object orientation, overlapping or the presence of multiple objects. The scales are converted into rubrics that can be used by Large Language Models with vision capabilities, such as GPT4-Vision, to annotate the vision demands of large samples of images in multiple object detection datasets (e.g., COCO or VOC). We also use few-shot learning to ensure the annotator s responses align with the expected difficulty levels. Once the benchmarks are annotated, we process all the images framed for two different tasks, object detection and localisation, using a variety of computer vision algorithms, with a particular focus on the YOLO family. We see how performance generally decreases for increasing levels, allowing us to represent agent characteristic curves for different methods and families. The outcome of this work is a methodology to estimate the level of visual capability of current object detection algorithms ---rather than performance---, as well as providing some insight into their evolution over time. es_ES
dc.format.extent 70 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Visión por computador es_ES
dc.subject Modelos de lenguaje es_ES
dc.subject Detección de objetos es_ES
dc.subject Anotación automática es_ES
dc.subject Evaluación de IA es_ES
dc.subject AI Evaluation es_ES
dc.subject Computer Vision es_ES
dc.subject Language models es_ES
dc.subject Automatic annotation es_ES
dc.subject Object detection es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title Multimodal annotation of vision demand scales to estimate object detection capabilities es_ES
dc.title.alternative Multimodal annotation of vision demand scales to estimate object detection capabilities es_ES
dc.title.alternative Anotació multimodal d'escales de demanda de visió per a estimar la capacitat de detecció d'objectes es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Moros Daval, Y. (2024). Multimodal annotation of vision demand scales to estimate object detection capabilities. Universitat Politècnica de València. http://hdl.handle.net/10251/210152 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\165040 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem