Resumen:
|
[EN] Plagiarism is defined as the unauthorized use of the original content of other authors. It
is a difficult phenomenon to detect whose problem has worsened in recent years because
of the Internet: a vast source of ...[+]
[EN] Plagiarism is defined as the unauthorized use of the original content of other authors. It
is a difficult phenomenon to detect whose problem has worsened in recent years because
of the Internet: a vast source of information that allows users to copy and take possession,
very simply, of the original content of other authors work. Although plagiarism can be
detected manually, given the large amount of content published, it is virtually impossible
to carry out, even more if the source of plagiarism comes from documents in other
languages.
Currently, literature and science have strong interest in research and development of
automatic monolingual and cross-language similarity detection systems, capable of
detecting plagiarism among sections between documents. The Academic Community also
benefits by such systems. It allows teachers to detect and discourage their students of the
usual practice of copy and paste, without reference to its source, from original content
obtained from Internet.
In this thesis we describe the state-of-the-art in text plagiarism detection at monolingual
and cross-language level. In addition, we study the use of a multilingual semantic network
to create two cross-language plagiarism detection models: using a statistical dictionary,
and using knowledge graphs as context models from document fragments. Experimental
results are very promising. As future work, we define different research lines using
knowledge graphs.
[-]
[ES] El plagio es definido como el uso no autorizado del contenido original de la obra de otros
autores. Es un fenómeno difícil de detectar cuyo problema se ha agravado en los últimos
años a causa de Internet: una inmensa ...[+]
[ES] El plagio es definido como el uso no autorizado del contenido original de la obra de otros
autores. Es un fenómeno difícil de detectar cuyo problema se ha agravado en los últimos
años a causa de Internet: una inmensa fuente de información que permite a los usuarios
copiar y apropiarse, de forma muy sencilla, del contenido original de otros autores.
Aunque el plagio se puede detectar de forma manual, dada la gran cantidad de contenidos
que se publican, es una tarea prácticamente imposible de llevar a cabo, aún más si las
fuentes de plagio vienen de documentos en otros idiomas.
Actualmente existe un gran interés, dentro de la literatura y la ciencia, por investigar y
desarrollar sistemas de detección de similitud a nivel monolingüe y translingüe que sean
capaces de detectar de forma automática las secciones de plagio entre documentos. La
comunidad académica también se ve beneficiada por dichos sistemas, ya que permite la
detección y disuasión por parte de los profesores hacia su alumnado, de las prácticas
habituales de copiar y pegar, sin referencia alguna a la fuente de procedencia, de
contenidos originales obtenidos de la Web.
En la presente tesis describimos el estado del arte en materia de detección de plagio
textual a nivel monolingüe y translingüe. Además, se estudia la utilización de una red
semántica multilingüe para crear dos modelos de detección de plagio translingüe:
utilizando un diccionario estadístico, y mediante grafos de conocimiento a modo de
modelos de contexto para modelar fragmentos de documento. Los resultados
experimentales resultan muy prometedores. Como trabajos futuros, se definen diferentes
líneas de investigación haciendo uso de grafos de conocimiento.
[-]
|