Среди читателей блога много тех, кто только учит машинное обучение, и меня часто спрашивают про разные задачи и упражнения, поэтому начинаю рубрику задача
.

Для начала два упражнения, которые мы недавно разбирали с магистрами ВМК МГУ.

Задача 1.
Рассматривается задача классификации на два класса. На рис. 1 показаны объекты в пространстве ответов двух алгоритмов (ответы вещественные — до бинаризации по порогу). Вычислить AUC (ROC) для алгоритмов.

<img data-attachment-id="486" data-permalink="https://alexanderdyakonov.wordpress.com/2015/10/09/%d0%b7%d0%b0%d0%b4%d0%b0%d1%87%d0%ba%d0%b8-%d0%bf%d1%80%d0%be-auc-roc/pic1/#main" data-orig-file="https://alexanderdyakonov.files.wordpress.com/2015/10/pic1.png" data-orig-size="400,312" data-comments-opened="1" data-image-meta="{"aperture":"0","credit":"","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed":"0","title":"","orientation":"0"}" data-image-title="pic1" data-image-description="" data-image-caption="

Рис. 1.

» data-medium-file=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic1.png?w=300″ data-large-file=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic1.png?w=400″ src=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic1.png?w=700″ alt=»Рис. 1.» srcset=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic1.png 400w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic1.png?w=150&h=117 150w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic1.png?w=300&h=234 300w» sizes=»(max-width: 400px) 100vw, 400px»>

Рис. 1.1.

Задача 2.
 Какие значения F 1
-меры могут быть у классификатора в задаче с двумя непересекающимися классами (положительным и отрицательным) и тремя объектами?

Решение 1. 



1.1. Сначала рассмотрим проекции на оси (т.е. ответы первого и второго алгоритма), см. рис. 1.2.

pic2
Рис. 1.2.

1.2. Построим ROC-кривые, см. рис 1.2 (по осям — False Positive Rate
 и  True Positive Rate
).

1.3. Вычислим площади под кривыми: 0.64 и 0.7
, см. рис. 1.3.

<img data-attachment-id="490" data-permalink="https://alexanderdyakonov.wordpress.com/2015/10/09/%d0%b7%d0%b0%d0%b4%d0%b0%d1%87%d0%ba%d0%b8-%d0%bf%d1%80%d0%be-auc-roc/pic3/#main" data-orig-file="https://alexanderdyakonov.files.wordpress.com/2015/10/pic3.png" data-orig-size="322,214" data-comments-opened="1" data-image-meta="{"aperture":"0","credit":"","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed":"0","title":"","orientation":"0"}" data-image-title="pic3" data-image-description="

Рис. 3.

» data-image-caption=»» data-medium-file=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic3.png?w=300″ data-large-file=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic3.png?w=322″ src=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic3.png?w=700″ alt=»pic3″ srcset=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic3.png 322w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic3.png?w=150&h=100 150w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic3.png?w=300&h=199 300w» sizes=»(max-width: 322px) 100vw, 322px»>

Рис. 1.3.

Решение 2. 
Можно честно рассмотреть все возможные случаи, см. рис. 2.1  — выписаны все значения полноты
(то же, что и  True Positive Rate
) и точности
(то же, что и Positive Predictive Value
):

<img data-attachment-id="491" data-permalink="https://alexanderdyakonov.wordpress.com/2015/10/09/%d0%b7%d0%b0%d0%b4%d0%b0%d1%87%d0%ba%d0%b8-%d0%bf%d1%80%d0%be-auc-roc/pic4/#main" data-orig-file="https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png" data-orig-size="834,476" data-comments-opened="1" data-image-meta="{"aperture":"0","credit":"","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed":"0","title":"","orientation":"0"}" data-image-title="pic4" data-image-description="" data-image-caption="

Рис. 2.1.

» data-medium-file=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png?w=300″ data-large-file=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png?w=700″ src=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png?w=700&h=400″ alt=»Рис. 2.1.» srcset=»https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png?w=660 660w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png?w=150 150w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png?w=300 300w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png?w=768 768w, https://alexanderdyakonov.files.wordpress.com/2015/10/pic4.png 834w» sizes=»(max-width: 660px) 100vw, 660px»>

Рис. 2.1.

F1-мера – среднее гармоническое точности и полноты, т.е. чисел из пар (1, 1), (1/2, 1), (2/3, 1), (1/3, 1), (1/2, 1/2), (0, 0). Поэтому все возможные значения F1-меры:  1, 0.8, 2/3, 0.5, 0
.

Но до ответа можно догадаться и быстрее;)

Замечание 1. 
ROC =
  receiver operating characteristic


AUC
 = area under the curve


Когда имеют в виду «площадь под ROC» пишут AUROC или AUC ROC, я написал AUC (ROC). Иногда говорят «ROC-кривая», что тоже не совсем корректно, т.к. C — это как раз первая буква CURVE, но зато звучит хорошо.

Да, кстати, вот интересная интерактивная визуализация
 (чтобы лучше понять AUC).