Para calcular la intersección, que es lo que realmente nos
dará la similitud que hay entre las dos imágenes, lo que se hacía, lo que vimos,
es que se multiplica por valores fijos que no hay que encontrar por variación
trenzada, el histograma de cada uno de los niveles independientes.
No habría que buscar nuevas correspondencias entre palabras visuales
en la diferente región, como hicimos, como hacían previamente, Drauman y Darrell.
Una vez visto el esquema visual,
pasamos a explicar la base de datos que hemos utilizado.
La base de datos que hemos elegido para analizar el rendimiento de las pirámides
espaciales, es una de las primeras que hubo de escenas,
fué presentada por Oliva y Torrealba en el 2001.
Esta base de datos contiene más de 2500 muestras de 8 tipos de escenas diferentes,
de costa, bosque, montaña, campo abierto, autopista, urbano, edificio y calle.
Como vemos las clases no están balanceadas sino que el número de muestras depende del
tipo de categoría, por lo que la validación cruzada será decisiva
para determinar los mejores parámetros para hacer la fusión que queramos
pero que nos den el mejor rendimiento posible.
Para el ejemplo que veremos a continuación hemos utilizado el descriptor de forma
Sift únicamente ya que así fué como se presentó el método de pirámides espaciales
en el artículo antes mencionado.
Aquí vemos una serie de ejemplos visuales de cómo son las imágenes correspondientes
a cada una de las 8 categorías, así vemos que para algunas de las clases,
como por ejemplo, edificio o calle.
Aquí vemos que la forma sí que puede ser importante a la hora de llegar
a clasificar bien la escena.
En cambio en otras vemos que la ausencia de color será un factor decisivo a la hora
de encontrarnos con errores, ya que vemos por ejemplo que en estas imágenes de campo
abierto y de costa, la forma es muy parecida, la única diferencia primordial
sería en el color por tanto necesitaremos aplicar el color en un futuro
y somos conscientes de que habrá algunos errores provocados por este motivo.
Para analizar el rendimiento de las pirámides espaciales se
han fijado en el experimento que mostramos a continuación los siguientes parámetros.
Se ha utilizado un descriptor de 2 escalas y 8 orientaciones,
en un Sift que se ha aplicado sobre regiones de 16 por 16 píxeles.
Cada 5 píxeles hemos espaciado,
hemos decidido determinar el espaciado para hacer un muestreo denso.
También hemos variado el tamaño del vocabulario visual para observar
cuando empieza el overfitting, ya que al aumentar la representación aumentamos el
número de parámetros a considerar por cada nivel piramidal.
Básicamente estamos doblando el número de dimensiones a considerar
en el espacio de soluciones, por cada nivel que consideremos.
Para determinar los mejores parámetros del clasificador, regularizador,
etcétera, se fija una validación cruzada de 5 grupos,
es decir que para calcular la precisión repartimos el conjunto del aprendizaje en
5 grupos y se toma la medida del error cometido en cada grupo de texto.