Resumen:
|
Es bien sabido que el mundo está dividido por diferentes idiomas: por ejemplo, "fa" húngaro significa tanto madera ("holz" en alemán, "wood" en inglés) como el árbol ("baum" en alemán), mientras que "wood" en inglés también ...[+]
Es bien sabido que el mundo está dividido por diferentes idiomas: por ejemplo, "fa" húngaro significa tanto madera ("holz" en alemán, "wood" en inglés) como el árbol ("baum" en alemán), mientras que "wood" en inglés también significa bosque ("erdo" en húngaro, "wald" en alemán).
Una cuestión clave de la tecnología de la información multilingüe es diseñar un sistema que refleje estas diferencias de una manera que fomente el análisis semántico, por ejemplo, para la Web Semántica. Proponemos construir sobre Wiktionary, el diccionario multiétnico multilingüe, un sistema global que utiliza elCulturally Authentic Pictorial Lexicon como pivote, que incorpora ideas de ciencia cognitiva (Rosch 1975, Lakoff 1987, Gardenfors 2000).
Hay varios aspectos técnicos no triviales, de los cuales enumeramos aquí solo aquellos en los que esperamos mejorar el estado del arte: (1) la búsqueda e interpretación de expresiones de varias palabras; (2) la semántica de los tipos naturales; la naturalidad de los subtítulos (Karpathy 2013); y alineación multilingüe.
[-]
It is well known that the world is cut into different pieces by different languages: for examply Hungarian "fa" means both the material (German "holz", English "wood") and the plant (German "baum"), while "wood" in ...[+]
It is well known that the world is cut into different pieces by different languages: for examply Hungarian "fa" means both the material (German "holz", English "wood") and the plant (German "baum"), while "wood" in English also means the area populated by the plant (Hungarian "erdo", German "wald").
A key question of multilingual information technology is to design a system that reflects these differences in a way that furthers semantic analysis e.g. for the Semantic Web. We propose to build on Wiktionary, the multilingual crowd-sourced dictionary a global system that uses the Culturally Authentic Pictorial Lexicon as pivot, embodying ideas of cognitive science (Rosch 1975, Lakoff 1987, Gardenfors 2000).
There are several nontrivial technical aspects, of which we list here only those where we expect to improve on the state of the art: (1) the finding and interpreting of multi-word expressions; (2) the semantics of natural kinds; the naturalness of captioning (Karpathy 2013); and multilingual alignment.
[-]
|