[MÚSICA] Hola. Con este vídeo vamos a cerrar el tema de evaluación del rendimiento. Hoy nos centraremos en la evaluación de todo el detector pues hasta ahora nos habíamos dedicado a la evaluación solo del clasificador. Para aprender a evaluar el resultado final del detector partiremos de que tenemos un conjunto de imágenes de evaluación con su Ground Truth correspondiente. Primero introduciremos una medida de solapamiento entra la ventana detectada y la correspondiente ventana del Ground Truth así como el umbral de solapamiento que definirá en una primera instancia qué son los reales positivos del resultado final. Después definiremos la tasa de detección, la tasa de error y la tasa de falsos positivos por imagen. Para la comparación de detectores construiremos la curva de tasa de error versus falsos positivos por imagen. Y finalmente calcularemos el área bajo esta curva como indicador global del detector. Como ya hemos dicho, en los vídeos anteriores nos centramos en la evaluación del rendimiento del clasificador. Pues bien, hoy dejaremos de centrarnos en esto y nos dedicaremos a evaluar la decisión final del detector. Es decir, veremos cómo evaluar el comportamiento global del detector, que por supuesto está también evaluando el clasificador. El resultado de cualquier sistema detector es una o varias ventanas dentro de la imagen dada. Nos referiremos a esta ventana como ventana detectada o Vdt. Para poder evaluar si este resultado es bueno, necesitaremos el Ground Truth sobre el conjunto de imágenes de evaluación. El Ground Truth de detección será un conjunto de ventanas por cada imagen del conjunto de evaluación. Llamaremos a estas ventanas Vgt por Ground Truth. Una ventana detectada será correcta si su grado de solapamiento con una ventana del Ground Truth es suficiente. Dadas 2 ventanas con potencial de solapamiento Vdt y Vgt, representaremos en verde la ventana del Ground Truth, y en amarillo la ventana que ha retornado nuestro detector. El cálculo del solapamiento entre estas 2 ventanas vendrá dado por el cociente entre del área de intersección de las 2 ventanas partido por el área de la unión de las 2 ventanas. Para determinar si el solapamiento es suficiente, lo haremos a partir de un umbral. Se habitúa a asumir un umbral de 0.5 Este umbral de solapamiento entre ventana detectada y ventana del Ground Truth viene dado por el cociente entre la intersección de las 2 ventanas y la unión de estas. Ese cociente es el parámetro S. Si observamos el comportamiento de este parámetro veremos que es 0 para el caso en que no existe solapamiento. Es 1 para el caso de coincidencia perfecta. Y es 0.5, que es el umbral habitual, cuando el solapamiento ocupa como mínimo la mitad de la unión entre las 2 ventanas. El umbral que apliquemos sobre esta variable determinará los conjuntos de reales positivos y de falsos positivos. Así pues, para cada umbral este conjunto cambiará y determinará la evaluación posterior. Para acabar de entender las múltiples situaciones en las que nos podemos encontrar. Veamos diferentes tipos de falsos positivos que puede dar nuestro detector. Los falsos positivos más claros son aquellos en que no existe solapamiento con el Ground Truth. Otros falsos positivos son aquellos en los que existe solapamiento pero no suficiente. Aquí también se incluyen los casos de detecciones como este, mucho más pequeñas que la ventana del Ground Truth. Finalmente, nos encontramos con el caso de múltiples detecciones sobre una misma ventana del Ground Truth, de las cuales una de ellas, la de más solapamiento, será considerada como real positivo pero el resto serán consideradas falsos positivos y por tanto, penalizará el comportamiento global del detector. Una vez hemos definido el concepto de buena o mala detección, ahora definimos una serie de medidas que cuantifiquen estas detecciones. Primero definiremos la tasa de detección. Es la razón entre el número de buenas detecciones y el número total de objetos dados por el Ground Truth. Esta medida se calcula globalmente sobre las ventanas. Calcularemos también la correspondiente tasa de error que se calculará como 1 menos la tasa de detección. Finalmente, se calcula la tasa de falsos positivos por imagen, que es la razón entre el número total de falsos positivos detectados en todo el conjunto de evaluación, partido por el número total de imágenes que tenemos en este conjunto de evaluación. Todas las medidas se calculan a partir de un umbral de solapamiento que hemos fijado a priori. Si queremos comparar el rendimiento de diferentes detectores que hayamos diseñado la comparación habitual es la que representa la tasa de error versus la tasa de falsos positivos por imagen. En esta gráfica se introduce el efecto de los parámetros del clasificador. Al igual que hicimos en las curvas ROC en el vídeo anterior. Así pues para cada posible umbral del clasificador, introduciremos el punto correspondiente a la tasa de error y la tasa de falsos positivos por imagen, siempre para un mismo umbral de solapamiento fijado a priori e igual para todos los clasificadores. De esta manera se construirá una curva que es decreciente, esto es, a medida que vamos variando el umbral de clasificación la tasa de error varía inversamente a la tasa de falsos positivos por imagen. Una buena medida del comportamiento global del clasificador se puede dar calculando el área bajo esta curva. Valores bajos de esta área indicarán un buen comportamiento del clasificador. Antes de acabar, simplemente fijar la diferencia entre la evaluación por ventana que habíamos trabajado en los vídeos anteriores y la evaluación por imagen que hemos tratado en este vídeo. Recordad que en la evaluación por imagen estamos incluyendo el comportamiento del detector en su conjunto. Por tanto, estamos incluyendo el comportamiento de los módulos de generación de candidatos, de clasificación y de refinamiento de la decisión. Mientras que cuando se realiza una evaluación por ventana se está evaluando única y exclusivamente el comportamiento del clasificador. Estas evaluaciones son significativamente diferentes y evidentemente la que es relevante para la detección de objetos es la que se realiza por imagen. Por ejemplo, en aplicaciones de detección de peatones, en escenas reales, la clasificación por ventana puede dar un rendimiento del 99%. Mientras que la evaluación por imagen estaría alrededor del 85%. Como resumen final, en este vídeo hemos introducido el concepto de detección correcta a partir de la tasa de solapamiento entre ventanas detectadas y ventanas del Ground Truth sobre el que nos estamos evaluando. Hemos definido, a partir de esto el conjunto de reales positivos y de falsos positivos. Seguidamente hemos visto 3 medidas. La tasa de detección, la tasa de error y los falsos positivos por imagen. Finalmente, hemos visto cómo diseñar una curva que compara diferentes detectores a partir de la tasa de error versus la tasa de falsos positivos por imagen. Hasta aquí todo este vídeo. Con esto finalizamos todo lo que hace referencia a evaluación del rendimiento. [AUDIO EN BLANCO]