Обучение с подкреплением (reinforcement learning, RL) — это парадигма машинного обучения (machine learning, ML), которая способна оптимизировать последовательные решения. RL интересно тем, что имитирует то, как мы, люди, учимся. Мы инстинктивно способны изучать стратегии, которые помогают нам справляться со сложными задачами, такими как езда на велосипеде или сдача экзамена по математике. RL пытается скопировать этот процесс, взаимодействуя с окружающей средой для изучения стратегий.
В последнее время компании применяют алгоритмы машинного обучения для принятия единоразовых решений. Они обучаются на данных, чтобы принять лучшее на текущий момент решение. Однако часто правильное в настоящий момент решение может оказаться не лучшим решением в долгосрочной перспективе. Да, полная ванна мороженого осчастливит вас в краткосрочной перспективе, но на следующей неделе вам придется пропадать в тренажерном зале. Точно так же кликбейтные рекомендации могут давать самую высокую кликабельность, но в долгосрочной перспективе такие статьи воспринимаются как мошенничество и наносят ущерб долгосрочному вовлечению или удержанию читателя.
RL интересно тем, что позволяет изучить долгосрочные стратегии и применить их к сложным промышленным задачам. Как компании, так и специалисты-практики могут преследовать цели, которые напрямую связаны с бизнесом, такие как извлечение прибыли, наращивание количества пользователей и их удержание, а не технические показатели оценки, такие как точность или F-мера. Проще говоря, решение многих проблем зависит от последовательного принятия решений. ML не предназначено для решения этих проблем, RL — предназначено.
%text%