old_ufo: (old_ufo)
[personal profile] old_ufo

Недавно закончился National Data Science Bowl - соревнование по machine learning - нужно представить классификатор для распознавания видов планктона, призовой фонд - $175 000.

Выиграла его команда магистров и аспирантов из Бельгии (где внезапно оказалась выпускница ФПМ КПИ) (решение), второе место за командой чувака из Microsoft Research Asia (решение, дополнение), третье заняла пара британских ученых (решение, дополнение).
Я занял девятое место, всего участвовало 1049 команд.

Каггловские соревнования - интересный опыт, советую всем, кто интересуется/занимается machine learning. В качестве доп.бонуса выяснилось, что некоторые мои ЧГКшные знакомые (если вам название "Тро-ло-ло" о чем-то говорит) тоже работают в этой области, а также познакомился с Ирой - тем самым выпускником ФПМ.

Уроки, почепнутые из соревнования:


  1. Надо высыпаться. Куда?

  2. Каггл - это легко и приятно. Четкая задача, четкий критерий. Не нужно собирать датасет или думать, а что мы собственно хотим. Намного проще, чем в реальной жизни :)

  3. Команда - это круто.

  4. Вначале разобраться с датасетом. Просмотреть вручную картинки, или что там еще. Проверить на всякую фигню и т.п. Подумать, какую предобработку можно применить.

  5. Записывать всё. Буквально всё, в крайнем случае сохранять логи. То, что работает и то, что не работает.

  6. Проверять всё, как бы не казалось, что это известно или проверено. Даже если это опубликовано на топовой конференции.

  7. Время, потраченное на инструментарий, окупается многократно.

  8. Если что-то работает не очень хорошо, не спешить выбрасывать - оно может приготиться при для финального усреднения

  9. Начинать с легких моделей, которые обучаются быстро. Вещи, которые замедляют вдвое ради одного лишнего процента лучше отложить на потом...если оно настанет.

  10. Выигрывают те, у кого есть research по теме, или те, кто его делает. Т.е. идеи. И GPUшки. Времена халявы давно прошли :)

  11. Viva la data augmentation

  12. Оптимизация гиперпараметров рулит.

  13. Более чем полезно следить за последними публикациями на arXiv.

  14. Задачи делятся на те, где данные однородны и там рулят подходы на базе CNN. И те, которые не однородны и там рулят родственники RF.


Под катом - слайды для deep.learning.kyiv.


This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

old_ufo: (Default)
old_ufo

December 2017

S M T W T F S
     12
3456789
10111213141516
1718 1920212223
24252627282930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 20th, 2025 03:27 am
Powered by Dreamwidth Studios