По итогам завершившегося  конкурса  Анализ данных в экспериментальной химии директор по науке компании "АлгоМост" Александр Дьяконов поделился результатами своего исследования на тему ансамблей алгоритмов.

Компании, которые занимаются проведением соревнований по анализу данных и краудсорсингом, часто утверждают, что выгода для заказчика (на чьих данных проводится соревнование) заключается не только в том, что он получает несколько хороших алгоритмов, разработанных специалистами. Он также может сам построить свой супер-алгоритм как комбинацию полученных от решателей.  Комбинация является уникальной, поскольку она создана не одним конкретным человеком, а является смесью лучших решений.  Чтобы конкурент реализовал что-то похожее, ему надо знать устройство всех алгоритмов комбинации. Кроме того, качество комбинации алгоритмов выше, чем у каждого отдельного. Это давно известно в машинном обучении: на принципе совместного использования многих простых алгоритмов работают популярные модели случайных лесов, бустинг и т.п. Часто ссылаются на нашумевшее соревнование Netflix, в котором топовые участники также использовали смеси алгоритмов.

Конечно, на практике сложные комбинации алгоритмов редко внедряются компаниями. Многих смущает неинтерпретируемость таких методов решений, а также сложность поддержки кода. Тот же пример с соревнованием Netflix стал лишним подтверждением этих сложностей: код победителей не был внедрён.

Возникает простой вопрос: на сколько может увеличиться качество решения, если мы будем использовать не один ответ победителя соревнования, а смесь из ответов нескольких участников?

Читайте продолжение на сайте АлгоМост algomost.com/.../do-u-need-to-mix-algos


Please, sign up or sign in to leave a comment.