Image Captioning using pre-trained GPT-2 models

García Gilabert, Javier

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Image Captioning using pre-trained GPT-2 models

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Garcia - Image ...

Tamaño: 13.28Mb

Formato: PDF

Abrir

dc.contributor.advisor	Casacuberta Nolla, Francisco	es_ES
dc.contributor.author	García Gilabert, Javier	es_ES
dc.date.accessioned	2022-09-06T09:08:42Z
dc.date.available	2022-09-06T09:08:42Z
dc.date.created	2022-07-13
dc.date.issued	2022-09-06	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/185325
dc.description.abstract	[EN] The objective of Image captioning is to describe the content of an image in natural language. Due to the success of various deep learning architectures, this challenge that combines picture and language processing has aroused a lot of attention in recent years. The key goal for this end grade project is to create more accurate neural machine models for image captioning. Several neural network-based models are built based on the CLIP neural network, which offers similar embeddings given an image and a descriptive caption. This, in conjunction with GPT-2, a pre-trained language model, is used to propose various deep learning designs. The MSCOCO dataset, which consists of complex everyday scenes with natural language descriptions, will be used to compare different architectures.	es_ES
dc.description.abstract	[ES] El objetivo de la descripción de imágenes es generar el contenido de una imagen en lenguaje natural. Debido al éxito de varias arquitecturas de aprendizaje profundo, este desafío que combina el procesamiento de imágenes y lenguaje ha despertado mucha atención en los últimos años. El objetivo clave de este proyecto de grado es crear modelos de máquinas neuronales más precisos para los subtítulos de imágenes. Se pueden construir varios modelos basados en redes neuronales sobre la base de la red neuronal CLIP, que ofrece similares representaciones vectoriales de una imagen y su descripción. Esto, junto con GPT-2, un modelo de lenguaje pre-entrenado, se utiliza para varias aplicaciones de aprendizaje profundo. Se utilizará el conjunto de datos de MSCOCO, que consta de escenas cotidianas complejas con descripciones en lenguaje natural, para comparar diferentes arquitecturas.	es_ES
dc.description.abstract	[CA] L’objectiu del subtitulat d’imatges és descriure el contingut d’una imatge en llenguatge natural. A causa de l’èxit de diverses arquitectures d’aprenentatge profund, aquest repte que combina el processament d’imatges i el llenguatge ha despertat molta atenció en els darrers anys. L’objectiu principal d’aquest projecte de fi de grau és crear models basats en xarxes neuronals més precisos per subtitular imatges. S’han desenvolupat diversos models basats en xarxes neuronals a partir de la xarxa neuronal CLIP, que ofereix representacions similars atesa una imatge i la seva descripció. Això, juntament amb GPT-2, un model de llenguatge, s’utilitza per proposar diversos dissenys de xarxes neuronals. El conjunt de dades MSCOCO, que consisteix en escenes quotidianes complexes amb descripcions en llenguatge natural, es farà servir per comparar diferents arquitectures.	es_ES
dc.format.extent	77	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Image captioning	es_ES
dc.subject	Pre-trained neural models	es_ES
dc.subject	GPT-2	es_ES
dc.subject	CLP	es_ES
dc.subject	Descripción de imágenes	es_ES
dc.subject	Modelos de redes profundas pre-entrenados	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ciencia de Datos-Grau en Ciència de Dades	es_ES
dc.title	Image Captioning using pre-trained GPT-2 models	es_ES
dc.title.alternative	Descripción de imágenes utilizando modelos pre-entrenados GPT-2	es_ES
dc.title.alternative	Descripció d'imatges utilitzant models pre-entrenats GPT-2	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	García Gilabert, J. (2022). Image Captioning using pre-trained GPT-2 models. Universitat Politècnica de València. http://hdl.handle.net/10251/185325	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\147985	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Image Captioning using pre-trained GPT-2 models

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Image Captioning using pre-trained GPT-2 models

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)