Information extraction from Webpages based on DOM distances

Castillo, Carlos; Valero Llinares, Héctor; Guadalupe Ramos, José; Silva Galiana, Josep Francesc

doi:10.1007/978-3-642-28601-8_16

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Information extraction from Webpages based on DOM distances

Mostrar el registro completo del ítem

Castillo, C.; Valero Llinares, H.; Guadalupe Ramos, J.; Silva Galiana, JF. (2012). Information extraction from Webpages based on DOM distances. En Computational Linguistics and Intelligent Text Processing. Springer Verlag (Germany). 181-193. doi:10.1007/978-3-642-28601-8_16

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/35896

Ficheros en el ítem

Nombre: cicling2012_submi ...

Tamaño: 1.339Mb

Formato: PDF

Descripción: Versión del Autor.

Abrir/Preview

Nombre: Information Extraction ...

Tamaño: 309.7Kb

Formato: PDF

Descripción: Versión editorial

Solicitar una copia al autor

Metadatos del ítem

Título:

Information extraction from Webpages based on DOM distances

Autor:

Castillo, Carlos Valero Llinares, Héctor Guadalupe Ramos, José

Silva Galiana, Josep Francesc

Entidad UPV:

Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació

Fecha difusión:

2012

Resumen:

Retrieving information from Internet is a difficult task as it is demonstrated by the lack of real-time tools able to extract information from webpages. The main cause is that most webpages in Internet are implemented ...[+]

Derechos de uso:

Reserva de todos los derechos

ISBN:

978-3-642-28600-1

Fuente:

Computational Linguistics and Intelligent Text Processing. (issn: 0302-9743 )

DOI:

10.1007/978-3-642-28601-8_16

Editorial:

Springer Verlag (Germany)

Versión del editor:

http://link.springer.com/chapter/10.1007%2F978-3-642-28601-8_16

Título del congreso:

13th International Conference, CICLing 2012

Lugar del congreso:

New Delhi, India

Fecha congreso:

March 11-17, 2012

Serie:

Lecture Notes in Computer Science;7182

Tipo:

Capítulo de libro

References

Dalvi, B., Cohen, W.W., Callan, J.: Websets: Extracting sets of entities from the web using unsupervised information extraction. Technical report, Carnegie Mellon School of computer Science (2011)

Kushmerick, N., Weld, D.S., Doorenbos, R.: Wrapper induction for information extraction. In: Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI 1997) (1997)

Cohen, W.W., Hurst, M., Jensen, L.S.: A flexible learning system for wrapping tables and lists in html documents. In: Proceedings of the international World Wide Web conference (WWW 2002), pp. 232–241 (2002)

Lee, P.Y., Hui, S.C., Fong, A.C.M.: Neural networks for web content filtering. IEEE Intelligent Systems 17(5), 48–57 (2002)

Anti-Porn Parental Controls Software. Porn Filtering (March 2010), http://www.tueagles.com/anti-porn/

Kang, B.-Y., Kim, H.-G.: Web page filtering for domain ontology with the context of concept. IEICE - Trans. Inf. Syst. E90, D859–D862 (2007)

Henzinger, M.: The Past, Present and Future of Web Information Retrieval. In: Proceedings of the 23th ACM Symposium on Principles of Database Systems (2004)

W3C Consortium. Resource Description Framework (RDF), www.w3.org/RDF

W3C Consortium. Web Ontology Language (OWL), www.w3.org/2004/OWL

Microformats.org. The Official Microformats Site (2009), http://microformats.org

Khare, R., Çelik, T.: Microformats: a Pragmatic Path to the Semantic Web. In: Proceedings of the 15h International Conference on World Wide Web, pp. 865–866 (2006)

Khare, R.: Microformats: The Next (Small) Thing on the Semantic Web? IEEE Internet Computing 10(1), 68–75 (2006)

Gupta, S., et al.: Automating Content Extraction of HTML Documents. World Wide Archive 8(2), 179–224 (2005)

Li, P., Liu, M., Lin, Y., Lai, Y.: Accelerating Web Content Filtering by the Early Decision Algorithm. IEICE Transactions on Information and Systems E91-D, 251–257 (2008)

W3C Consortium, Document Object Model (DOM), www.w3.org/DOM

Baeza-Yates, R., Castillo, C.: Crawling the Infinite Web: Five Levels Are Enough. In: Leonardi, S. (ed.) WAW 2004. LNCS, vol. 3243, pp. 156–167. Springer, Heidelberg (2004)

Micarelli, A., Gasparetti, F.: Adaptative Focused Crawling. In: The Adaptative Web, pp. 231–262 (2007)

Nielsen, J.: Designing Web Usability: The Practice of Simplicity. New Riders Publishing, Indianapolis (2010) ISBN 1-56205-810-X

Zhang, J.: Visualization for Information Retrieval. The Information Retrieval Series. Springer, Heidelberg (2007) ISBN 3-54075-1475

Hearst, M.A.: TileBars: Visualization of Term Distribution Information. In: Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems, Denver, CO, pp. 59–66 (May 1995)

Gottron, T.: Evaluating Content Extraction on HTML Documents. In: Proceedings of the 2nd International Conference on Internet Technologies and Applications, pp. 123–132 (2007)

Apache Foundation. The Apache crawler Nutch (2010), http://nutch.apache.org

[-]

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

Artículos, conferencias, monografías [48357]

Mostrar el registro completo del ítem

Information extraction from Webpages based on DOM distances

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Information extraction from Webpages based on DOM distances

Ficheros en el ítem

Metadatos del ítem

References

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)