Распознавание планктона: выводы и мысли
Apr. 1st, 2015 08:21 pmНедавно закончился National Data Science Bowl - соревнование по machine learning - нужно представить классификатор для распознавания видов планктона, призовой фонд - $175 000.
Выиграла его команда магистров и аспирантов из Бельгии (где внезапно оказалась выпускница ФПМ КПИ) (решение), второе место за командой чувака из Microsoft Research Asia (решение, дополнение), третье заняла пара британских ученых (решение, дополнение).
Я занял девятое место, всего участвовало 1049 команд.
Каггловские соревнования - интересный опыт, советую всем, кто интересуется/занимается machine learning. В качестве доп.бонуса выяснилось, что некоторые мои ЧГКшные знакомые (если вам название "Тро-ло-ло" о чем-то говорит) тоже работают в этой области, а также познакомился с Ирой - тем самым выпускником ФПМ.
Уроки, почепнутые из соревнования:
- Надо высыпаться.
Куда? - Каггл - это легко и приятно. Четкая задача, четкий критерий. Не нужно собирать датасет или думать, а что мы собственно хотим. Намного проще, чем в реальной жизни :)
- Команда - это круто.
- Вначале разобраться с датасетом. Просмотреть вручную картинки, или что там еще. Проверить на всякую фигню и т.п. Подумать, какую предобработку можно применить.
- Записывать всё. Буквально всё, в крайнем случае сохранять логи. То, что работает и то, что не работает.
- Проверять всё, как бы не казалось, что это известно или проверено. Даже если это опубликовано на топовой конференции.
- Время, потраченное на инструментарий, окупается многократно.
- Если что-то работает не очень хорошо, не спешить выбрасывать - оно может приготиться при для финального усреднения
- Начинать с легких моделей, которые обучаются быстро. Вещи, которые замедляют вдвое ради одного лишнего процента лучше отложить на потом...если оно настанет.
- Выигрывают те, у кого есть research по теме, или те, кто его делает. Т.е. идеи. И GPUшки. Времена халявы давно прошли :)
- Viva la data augmentation
- Оптимизация гиперпараметров рулит.
- Более чем полезно следить за последними публикациями на arXiv.
- Задачи делятся на те, где данные однородны и там рулят подходы на базе CNN. И те, которые не однородны и там рулят родственники RF.
Под катом - слайды для deep.learning.kyiv.
( Слайды )