- -

Detección de opinion spam usando PU-learning

RiuNet: Institutional repository of the Polithecnic University of Valencia

Share/Send to

Cited by

Statistics

Detección de opinion spam usando PU-learning

Show simple item record

Files in this item

dc.contributor.advisor Guzmán Cabrera, Rafael es_ES
dc.contributor.advisor Montes Gomez, Manuel es_ES
dc.contributor.advisor Rosso, Paolo es_ES
dc.contributor.author Hernández Fusilier, Donato es_ES
dc.date.accessioned 2016-03-21T07:36:12Z
dc.date.available 2016-03-21T07:36:12Z
dc.date.created 2016-01-20 es_ES
dc.date.issued 2016-07-20 es_ES
dc.identifier.uri http://hdl.handle.net/10251/61990
dc.description.abstract [EN] Abstract The detection of false or true opinions about a product or service has become nowadays a very important problem. Recent studies show that up to 80% of people have changed their final decision on the basis of opinions checked on the web. Some of these opinions may be false, positive in order to promote a product/service or negative to discredit it. To help solving this problem in this thesis is proposed a new method for detection of false opinions, called PU-Learning*, which increases the precision by an iterative algorithm. It also solves the problem of lack of labeled opinions. To operate the method proposed only a small set of opinions labeled as positive and another large set of opinions unlabeled are needed. From this last set, missing negative opinions are extracted and used to achieve a two classes binary classification. This scenario has become a very common situation in the available corpora. As a second contribution, we propose a representation based on n-grams of characters. This representation has the advantage of capturing both the content and the writing style, allowing for improving the effectiveness of the proposed method for the detection of false opinions. The experimental evaluation of the method was carried out by conducting three experiments classification of opinions, using two different collections. The results obtained in each experiment allow seeing the effectiveness of proposed method as well as differences between the use of several types of attributes. Because the veracity or falsity of the reviews expressed by users becomes a very important parameter in decision making, the method presented here, can be used in any corpus where you have the above characteristics. en_EN
dc.description.abstract [ES] Resumen La detección de opiniones falsas o verdaderas acerca de un producto o servicio, se ha convertido en un problema muy relevante de nuestra 'época. Según estudios recientes hasta el 80% de las personas han cambiado su decisión final basados en las opiniones revisadas en la web. Algunas de estas opiniones pueden ser falsas positivas, con la finalidad de promover un producto, o falsas negativas para desacreditarlo. Para ayudar a resolver este problema se propone en esta tesis un nuevo método para la detección de opiniones falsas, llamado PU-Learning modificado. Este método aumenta la precisión mediante un algoritmo iterativo y resuelve el problema de la falta de opiniones etiquetadas. Para el funcionamiento del método propuesto se utilizan un conjunto pequeño de opiniones etiquetadas como falsas y otro conjunto grande de opiniones no etiquetadas, del cual se extraen las opiniones faltantes y así lograr una clasificación de dos clases. Este tipo de escenario se ha convertido en una situación muy común en los corpus de opiniones disponibles. Como una segunda contribución se propone una representación basada en n-gramas de caracteres. Esta representación tiene la ventaja de capturar tanto elementos de contenido como del estilo de escritura, permitiendo con ello mejorar la efectividad del método propuesto en la detección de opiniones falsas. La evaluación experimental del método se llevó a cabo mediante tres experimentos de clasificación de opiniones utilizando dos colecciones diferentes. Los resultados obtenidos en cada experimento permiten ver la efectividad del método propuesto así como también las diferencias entre la utilización de varios tipos de atributos. Dado que la falsedad o veracidad de las opiniones vertidas por los usuarios, se convierte en un parámetro muy importante en la toma de decisiones, el método que aquí se presenta, puede ser utilizado en cualquier corpus donde se tengan las características mencionadas antes. es_ES
dc.description.abstract [CAT] Resum La detecció d'opinions falses o vertaderes al voltant d'un producte o servei s'ha convertit en un problema força rellevant de la nostra època. Segons estudis recents, fins el 80\% de les persones han canviat la seua decisió final en base a les opinions revisades en la web. Algunes d'aquestes opinions poden ser falses positives, amb la finalitat de promoure un producte, o falses negatives per tal de desacreditarlo. Per a ajudar a resoldre aquest problema es proposa en aquesta tesi un nou mètode de detecció d'opinions falses, anomenat PU-Learning*. Aquest mètode augmenta la precisió mitjançant un algoritme iteratiu i resol el problema de la falta d'opinions etiquetades. Per al funcionament del mètode proposat, s'utilitzen un conjunt reduït d'opinions etiquetades com a falses i un altre conjunt gran d'opinions no etiquetades, del qual se n'extrauen les opinions que faltaven i, així, aconseguir una classificació de dues classes. Aquest tipus d'escenari s'ha convertit en una situació molt comuna en els corpus d'opinions de què es disposa. Com una segona contribució es proposa una representació basada en n-gramas de caràcters. Aquesta representació té l'avantatge de capturar tant elements de contingut com a d'estil d'escriptura, permetent amb això millorar l'efectivitat del mètode proposat en la detecció d'opinions falses. L'avaluació experimental del mètode es va dur a terme mitjançant tres experiments de classificació d'opinions utilitzant dues coleccions diferents. Els resultats obtingut en cada experiment permeten veure l'efectivitat del mètode proposat, així com també les diferències entre la utilització de varis tipus d'atributs. Ja que la falsedat o veracitat de les opinions vessades pels usuaris es converteix en un paràmetre molt important en la presa de decisions, el mètode que ací es presenta pot ser utilitzat en qualsevol corpus on es troben les característiques abans esmentades. ca_ES
dc.language Español es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Opinión spam es_ES
dc.subject PU-Learning es_ES
dc.subject Opiniones falsas y verdaderas es_ES
dc.subject Opiniones favorables y desfavorables es_ES
dc.subject Minería de opiniones es_ES
dc.subject N-gramas de palabras es_ES
dc.subject N-gramas de caracteres es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.title Detección de opinion spam usando PU-learning es_ES
dc.type Tesis doctoral es_ES
dc.identifier.doi 10.4995/Thesis/10251/61990 es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Hernández Fusilier, D. (2016). Detección de opinion spam usando PU-learning [Tesis doctoral no publicada]. Universitat Politècnica de València. doi:10.4995/Thesis/10251/61990. es_ES
dc.description.accrualMethod TESIS es_ES
dc.type.version info:eu repo/semantics/acceptedVersion es_ES
dc.relation.pasarela 7068 es_ES


This item appears in the following Collection(s)

Show simple item record