Grupo de investigación

El grupo de investigación está compuesto por Belén Saldías , estudiante de magister en ciencias de la ingeniería, y sus dos supervisores Karim Pichara y Pavlos Protopapas.

La investigación actual incluye el desarrollo experimental y computacional de un modelo que combina inferencia variacional en un modelo gráfico probabilístico dentro del contexto de crowdsourcing. El objetivo final es obtener la mejor clasificación posible para un set de objetos dados.

(De izquierda a derecha, Christian Pieringer , Pavlos Protopapas , Belén Saldías and Karim Pichara).

Contexto

Este sitio ha sido desarrollado para obtener datos (votos) reales para la tesis de magister de Belén. Los votos recolectados serán usados para testear nuestro modelo propuesto. Un acercamiento bayesiano para crowdsourcing con diferentes estrategias de preguntas.

Clasificación

En machine learning y estadísticas, el problema de clasificación corresponde a identificar a qué clase, dentro de un set de opciones, pertenece una observación u objeto.

Casos de clasificación son, por ejemplo, cuando decidimos si un email es "spam" o "no-spam", o cuando se diagnostica una enfermedad a un paciente que es descrito por exámenes y características como género, presión sanguínea, otros síntomas, etc.

Tipos de preguntas estudiadas

Supongamos que para cierta tarea existen 3 clases: perro, gato y mapache. En este caso, el principal objetivo es clasificar todas las imágenes de animales que serán presentadas a cada usuario. Para clasificar, a cada usuario se le presentarán de manera aleatoria cualquiera de los siguientes dos tipos de preguntas:

  • Pregunta SI o NO: por cada animal mostrado el usuario responderá desde una a tres de estas preguntas:

¿Es este un perro?, ¿Es este un gato?, ¿Es este un mapache? sí o no

  • Preguntas A o B o C: para algunos animales (máximo un 10% de las preguntas) cada usuario responderá esta pregunta:

¿Cuál es clase de este animal? perro o gato o mapache


Objetivos de la investigación

Una tarea de clasificación puede presentar los siguientes desafíos: pocos datos de ejemplos para aprender (training set), el costo de obtener el training set usualmente es muy alto, y los datos obtenidos pueden ser poco representativos de lo que se necesita clasificar. El método investigado propone una posible manera más barata y rápida de hacer preguntas, manteniendo las métricas de exactitud y precisión en la clasificación.

En este proyecto estamos desarrollando un modelo probabilístico que genera preguntas baratas produciendo una clasificación parcial. Esto permite incrementar el tamaño del training set con la necesidad de menos recursos, pero manteniendo las métricas generales. Este proyecto solo podrá ser terminado con tu ayuda, ¡necesitamos tu talento como clasificador!

Objetivo principal: Encontrar la clase correcta para los objetos de clase desconocida. Se ha seleccionado un subconjunto de objetos para ser clasificados por un grupo de "expertos". Dado que cada usuario falla diferentemente, y sus habilidades son asumidas independientes de cualquier otro usuario, cada uno de ellos tiene su propia matriz de error.

Objetivo secundario: Estimar la matriz de error de cada usuario. La base de datos actual será usada para medir el desempeño del modelo con votos reales provenientes de seres humanos. Las clases de los animales están en diferentes proporciones unas de otras. Los principales resultados hasta ahora (con clasificadores automáticos) muestran que es posible preguntar por menos información y obtener los mismos resultados que preguntando por toda la información.


Usuarios

A cada usuario se le hará una serie aleatoria de preguntas. Por cada respuesta será recompensado con un monto diferente de puntos dependiendo de cuan buena ha sido su votación hasta la última pregunta. Su puntaje de exactitud (accuracy score) es actualizado solo con ciertas preguntas (para las cuales el grupo de investigación conoce las respuestas - ground truth), este puntaje se refiere a la proporción de respuestas correctas que has entregado.

Hay ocho medallas (y niveles) distintas (rookie, apprentice, ace, champion, master, grand master, guru, and luminary), la que tengas dependerá de tu exactitud actual en la votación.

El campeón

El ganador de este concurso será quien alcance más puntos una vez finalizadas todas las preguntas. En caso de empate, el ganador será quien tenga mayor exactitud global, entre quienes hayan empatado.

Fecha límite

27 de marzo (incluido), 2017. Solo los usuarios que completen al 100% la tarea competirán por el premio.