Resumen:
|
[ES] La motivación principal de este trabajo es informar a los consumidores de cuáles son
los aspectos más relevantes a la hora de comprar un coche para que puedan elegir mejor
en función de las conclusiones de este ...[+]
[ES] La motivación principal de este trabajo es informar a los consumidores de cuáles son
los aspectos más relevantes a la hora de comprar un coche para que puedan elegir mejor
en función de las conclusiones de este estudio.
Todo este trabajo ha sido realizado con el software R Studio, el código de
programación estará oculto por razones visuales, no obstante, se incluye en los anexos
del trabajo.
Para lograr los diferentes objetivos, se realizan diferentes secciones, cada una acorde
a los distintos objetivos del trabajo, los cuáles serán desarrollados en el siguiente punto.
En primer lugar, se determina la tipología de variables, es decir, identificar cuáles son
numéricas y cuáles de ellas son categóricas. La principal diferencia entre estos tipos de
variables es que las categóricas identifican la clase de la observación, por ejemplo, una
persona puede ser hombre o mujer, mientras que las numéricas determinan un valor
numérico de una variable, por ejemplo, la altura de una persona.
Se realiza un análisis exploratorio de las variables con el fin de conocer mejor la base
de datos. Una vez hecho este análisis, se comprueba que no haya variables constantes
en las observaciones, porque como el propio nombre indica son variables, si fueran
constantes habría que eliminarlas.
También serán eliminadas aquellas que presenten un exceso de valores
inconsistentes. Se define como valor inconsistente a la observación que tiene un valor
que está muy distante al resto y que no es lógico.
Además, serán eliminadas aquellas variables u observaciones que tengan un
porcentaje de valores faltantes (NA: Not Available) superior al 20%. Este porcentaje se
toma como referencia, ya que supondría que una de cada cinco observaciones tendría
un NA en esa variable o que la observación tendría una de cada cinco variables en NA.
Como ya se ha comentado, se toma como referencia, pero hay que tener en cuenta que
cada base de datos es distinta y a pesar de que este porcentaje se utilice como
referencia, siempre dependerá de la persona que trata la base de datos (más o menos
estricta) y de la base datos (número de observaciones y de variables).
Tras esto, con la librería Van Buuren and Groothuis-Oudshoorn (2011), se imputarán
dichos valores faltantes en caso de que no superen el porcentaje marcado. Imputar
significa estimar qué valor tendría la observación faltante basándose en el resto de las
características que tiene esa observación. Esas características las compartirá con otras
observaciones de la base de datos, y de esta forma se podrá estimar. Existen también
procesos alternativos para las variables numéricas como la sustitución del dato faltante
por la media de las observaciones con datos. Finalmente, tras haber preparado la base de datos, se realizan relaciones entre
variables de las cuáles se pueda obtener información relevante.
Al acabar estos primeros pasos, se realiza un método de aprendizaje no supervisado,
el cual tiene como fin principal ver las relaciones entre todas las variables numéricas. El
método escogido es el Análisis de Componentes Principales (PCA). De esta forma se
consigue eliminar el posible efecto de correlación que pudieran tener las variables entre
sí. Este efecto de correlación se verá más adelante en estudios individualizados entre
variables.
A continuación, se realizarán diversos métodos de aprendizaje supervisado para ver
que variables son las más influyentes a la hora de predecir si un coche estará por encima
de 30.000$. Este valor es la mediana del precio en esta base de datos. Se escoge este
valor ya que 30.000 $ es un precio considerable para un coche y de esta forma se divide
en dos la base de datos, dividendo justo por la mitad de las observaciones. Se podría
dividir por la media, pero valores extremos en el precio (coches de más de 2.000.000 $)
hacen que este valor sea elevado y por tanto haya más cantidad de coches por debajo
de la media. Con el uso de la mediana se evita este efecto y se busca predecir qué
características tendrá un coche para estar en un grupo u otro.
La principal diferencia entre estos métodos es el objetivo, el aprendizaje supervisado
busca predecir, mientras que el aprendizaje no supervisado busca obtener información
útil a partir de la base de datos.
[-]
|