- -

Image Captioning using pre-trained GPT-2 models

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Image Captioning using pre-trained GPT-2 models

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Casacuberta Nolla, Francisco es_ES
dc.contributor.author García Gilabert, Javier es_ES
dc.date.accessioned 2022-09-06T09:08:42Z
dc.date.available 2022-09-06T09:08:42Z
dc.date.created 2022-07-13
dc.date.issued 2022-09-06 es_ES
dc.identifier.uri http://hdl.handle.net/10251/185325
dc.description.abstract [EN] The objective of Image captioning is to describe the content of an image in natural language. Due to the success of various deep learning architectures, this challenge that combines picture and language processing has aroused a lot of attention in recent years. The key goal for this end grade project is to create more accurate neural machine models for image captioning. Several neural network-based models are built based on the CLIP neural network, which offers similar embeddings given an image and a descriptive caption. This, in conjunction with GPT-2, a pre-trained language model, is used to propose various deep learning designs. The MSCOCO dataset, which consists of complex everyday scenes with natural language descriptions, will be used to compare different architectures. es_ES
dc.description.abstract [ES] El objetivo de la descripción de imágenes es generar el contenido de una imagen en lenguaje natural. Debido al éxito de varias arquitecturas de aprendizaje profundo, este desafío que combina el procesamiento de imágenes y lenguaje ha despertado mucha atención en los últimos años. El objetivo clave de este proyecto de grado es crear modelos de máquinas neuronales más precisos para los subtítulos de imágenes. Se pueden construir varios modelos basados en redes neuronales sobre la base de la red neuronal CLIP, que ofrece similares representaciones vectoriales de una imagen y su descripción. Esto, junto con GPT-2, un modelo de lenguaje pre-entrenado, se utiliza para varias aplicaciones de aprendizaje profundo. Se utilizará el conjunto de datos de MSCOCO, que consta de escenas cotidianas complejas con descripciones en lenguaje natural, para comparar diferentes arquitecturas. es_ES
dc.description.abstract [CA] L’objectiu del subtitulat d’imatges és descriure el contingut d’una imatge en llenguatge natural. A causa de l’èxit de diverses arquitectures d’aprenentatge profund, aquest repte que combina el processament d’imatges i el llenguatge ha despertat molta atenció en els darrers anys. L’objectiu principal d’aquest projecte de fi de grau és crear models basats en xarxes neuronals més precisos per subtitular imatges. S’han desenvolupat diversos models basats en xarxes neuronals a partir de la xarxa neuronal CLIP, que ofereix representacions similars atesa una imatge i la seva descripció. Això, juntament amb GPT-2, un model de llenguatge, s’utilitza per proposar diversos dissenys de xarxes neuronals. El conjunt de dades MSCOCO, que consisteix en escenes quotidianes complexes amb descripcions en llenguatge natural, es farà servir per comparar diferents arquitectures. es_ES
dc.format.extent 77 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Image captioning es_ES
dc.subject Pre-trained neural models es_ES
dc.subject GPT-2 es_ES
dc.subject CLP es_ES
dc.subject Descripción de imágenes es_ES
dc.subject Modelos de redes profundas pre-entrenados es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ciencia de Datos-Grau en Ciència de Dades es_ES
dc.title Image Captioning using pre-trained GPT-2 models es_ES
dc.title.alternative Descripción de imágenes utilizando modelos pre-entrenados GPT-2 es_ES
dc.title.alternative Descripció d'imatges utilitzant models pre-entrenats GPT-2 es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation García Gilabert, J. (2022). Image Captioning using pre-trained GPT-2 models. Universitat Politècnica de València. http://hdl.handle.net/10251/185325 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\147985 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem