Page-Level Main Content Extraction from Heterogeneous Webpages

Alarte, Julián; Silva, Josep

doi:10.1145/3451168

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Page-Level Main Content Extraction from Heterogeneous Webpages

Mostrar el registro completo del ítem

Alarte, J.; Silva, J. (2021). Page-Level Main Content Extraction from Heterogeneous Webpages. ACM Transactions on Knowledge Discovery from Data. 15(6):1-21. https://doi.org/10.1145/3451168

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/181752

Ficheros en el ítem

Nombre: AlarteSilva - ...

Tamaño: 5.075Mb

Formato: PDF

Descripción: Versión del Autor.

Abrir/Preview

Nombre: 3451168.pdf

Tamaño: 4.991Mb

Formato: PDF

Descripción: Versión editorial

Solicitar una copia al autor

Metadatos del ítem

Título:

Page-Level Main Content Extraction from Heterogeneous Webpages

Autor:

Alarte, Julián

Silva, Josep

Entidad UPV:

Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació

Fecha difusión:

2021-12

Resumen:

[EN] The main content of a webpage is often surrounded by other boilerplate elements related to the template, such as menus, advertisements, copyright notices, and comments. For crawlers and indexers, isolating the main ...[+]

Palabras clave:

Information retrieval , Content extraction , Template extraction , Web mining , Block detection

Derechos de uso:

Reserva de todos los derechos

Fuente:

ACM Transactions on Knowledge Discovery from Data. (issn: 1556-4681 )

DOI:

10.1145/3451168

Editorial:

Association for Computing Machinery

Versión del editor:

https://doi.org/10.1145/3451168

Código del Proyecto:

info:eu-repo/grantAgreement/AEI/Plan Estatal de Investigación Científica y Técnica y de Innovación 2017-2020/PID2019-104735RB-C41/ES/SAFER-UPV: ANALISIS Y VALIDACION DE SOFTWARE Y RECURSOS WEB/
info:eu-repo/grantAgreement/AEI//TIN2016-76843-C4-1-R//METODOS RIGUROSOS PARA EL INTERNET DEL FUTURO/
info:eu-repo/grantAgreement/EC/H2020/952215/EU
info:eu-repo/grantAgreement/GENERALITAT VALENCIANA//PROMETEO%2F2019%2F098//DEEPTRUST/

Agradecimientos:

This work has been partially supported by the EU (FEDER) and the Spanish MCI/AEI under grants TIN2016-76843-C4-1-R and PID2019-104735RB-C41, by the Generalitat Valenciana under grant Prometeo/2019/098 (DeepTrust), and by ...[+]

Tipo:

Artículo

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro completo del ítem

Page-Level Main Content Extraction from Heterogeneous Webpages

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Page-Level Main Content Extraction from Heterogeneous Webpages

Ficheros en el ítem

Metadatos del ítem

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)