Clasificación
En machine learning y estadísticas, el problema de clasificación corresponde a identificar a qué clase, dentro de un set de opciones, pertenece una observación u objeto.
Casos de clasificación son, por ejemplo, cuando decidimos si un email es "spam" o "no-spam", o cuando se diagnostica una enfermedad a un paciente que es descrito por exámenes y características como género, presión sanguínea, otros síntomas, etc.
Tipos de preguntas estudiadas
Supongamos que para cierta tarea existen 3 clases: perro, gato y mapache. En este caso, el principal objetivo es clasificar todas las imágenes de animales que serán presentadas a cada usuario. Para clasificar, a cada usuario se le presentarán de manera aleatoria cualquiera de los siguientes dos tipos de preguntas:
- Preguntas SI o NO: por cada animal mostrado el usuario responderá desde una a tres de estas preguntas:
¿Es este un perro?, ¿Es este un gato?, ¿Es este un mapache? sí o no
- Preguntas A o B o C: para algunos animales (máximo un 10% de las preguntas) cada usuario responderá esta pregunta:
¿Cuál es clase de este animal? perro o gato o mapache
Crowdsourcing
Crowdsourcing es el proceso de obtener contenido pidiendo contribución a un grupo grande de personas, especialmente una comunidad on-line. En un escenario de clasificación el contenido preguntado puede ser la clase de una observación.
Animales
En este proyecto presentamos un subconjunto de la base de datos (BD) original. Cada usuario responderá alrededor de 1000 preguntas para finalizar su participación en el proyecto "DB Animales".
El subconjunto seleccionado contiene 4 clases de animales:
- Anfibios
- Aves
- Mamíferos
- Reptiles
Además, todas las preguntas asumen que las únicas posibles clases son estas últimas cuatro.