Этим материалом начинается цикл из трех статей о том, как объяснить проблемы специалистов по данным сотрудникам вашей компании, которые не разбираются в науке о данных. В первой части я в доступной форме расскажу о текущем положении специалистов, их проблемах и типичных требованиях, с которыми они сталкиваются.
Contents
Счастье ученых данных
Это прекрасное время для каждого специалиста по данным. Наконец, деловой мир требует модели машинного обучения. Более того, для все большего числа компаний эти модели становятся важной, а иногда и необходимой частью бизнеса. В ближайшем будущем количество компаний, использующих модели машинного обучения в своей повседневной деловой практике, будет только увеличиваться. Охват этих моделей внутри каждой компании также будет расширяться.
Даже если наступит третья зима искусственного интеллекта и остановится развитие машинного обучения, уже разработанных сегодня технологий хватит для оптимизации различных сфер деятельности с их помощью еще лет на 10-15.
Проблемы специалистов по данным
Для специалиста по данным текущая ситуация означает большие перспективы для развития и самореализации, карьерные возможности и постоянно растущий уровень дохода. В то же время он сталкивается с вызовом: все больше людей, ничего не понимающих в науке о данных и технологиях машинного обучения, вовлекаются в прямое взаимодействие с учеными по данным.
Все чаще заказчиками технологий становятся люди, которые могут быть высококвалифицированными в своей области, но имеют очень смутное представление о технологиях Data Science. Они не могут объективно оценить качество работы специалиста по данным и часто даже не могут понять его аргументы. При этом как руководители они обязаны реализовывать качественные технологии, обеспечивающие работу своего подразделения.
Часто можно услышать такие возражения:
«То есть вы сделали модель с качеством Джини 60, а с качеством 80 это было невозможно? А 100?
Или
«Вы предлагаете распил, при котором мы отказываемся от части потенциальных клиентов. Половина этих клиентов плохие, а другая половина хорошие! Таким образом, компания теряет деньги. Можно ли сделать такую модель, которая позволяла бы всем хорошим клиентам проходить, а отказываться только плохим?
Или
«Возможно, качество ваших моделей такое низкое, потому что вы не используете новейшие технологии, такие как нейронные сети. Но в других компаниях (Яндекс/Сбербанк/Netflix/и т. д.) качество моделей намного лучше, потому что они используют нейронные сети.
При этом у представителей компаний нет объективных данных о качестве моделей Яндекс/Сбербанк/Netflix рассматриваемого типа, но они уверены, что у этих компаний качество лучше, «потому что они используют нейросети». В реальном разговоре с представителями других компаний выясняется, что качество их моделей такое же или даже хуже, чем у вас.
Кто виноват и что делать?
Когда специалист по данным слышит такие возражения, он должен помнить, что бизнес-клиент — это его клиент. Выстроить правильную коммуникацию с покупателем — задача продавца, то есть в данном случае самого дата-сайентиста. Разговаривая с клиентом, вы должны доверять его уровню знаний, а не своему собственному. И строить свою аргументацию соответственно.
Эта статья написана, чтобы помочь специалистам по данным выстроить внутреннюю коммуникацию в компании. Со своим 20-летним стажем работы в маркетинге постараюсь осветить вопрос: «Что влияет на качество моделей и почему качество моделей не достигает 100%?». Приведенные выше пояснения максимально просты и доступны, не требуют специфических знаний и терминов, а основаны только на понятных любому человеку образах.
Далее я хочу предложить вам инструмент, с помощью которого вы сможете донести до своего клиента вопросы, волнующие вас как специалиста по данным, — через понятные ему аргументы. Это не должно быть вопросом качества моделей. Вы можете адаптировать материал к другим вопросам, актуальным именно для ваших клиентов. Чтобы упростить эту задачу, во второй и третьей части этой статьи я добавлю код, с помощью которого были сгенерированы все изображения, представленные в статье.
Можно ли улучшить качество моделей, используя более мощные методы?
Многим кажется, что качество модели — ее способность различать, например, хороших и плохих клиентов — зависит прежде всего от сложности и актуальности методов, используемых для ее построения. Если метод сложный и современный, например нейросеть или повышение градиента, модель будет работать хорошо. Если метод прост и давно известен — например, логистическая регрессия — с ним вы не получите хороших результатов.
Поэтому, если качество модели кажется недостаточно высоким, это вина аналитика, использовавшего недостаточно сложные и современные инструменты.
Это видение имеет мало общего с реальностью. На самом деле, главное, что влияет на качество модели, — это количество и качество информации, доступной аналитику. И метод ее лечения не столь важен.
Не стреляйте в специалиста по данным — он лучше всего предсказывает имеющиеся у него данные
Чтобы понять, почему так происходит, начнем с того, что все модели основаны на переменных. Учитывая переменные, значения которых нам известны, мы пытаемся предсказать целевую переменную, значения которой нам неизвестны.
Например, каждое изображение состоит из точек. Каждая точка имеет свой оттенок и яркость. Точный оттенок и яркость точки можно определить по трем числам, представляющим яркость красного, синего и зеленого компонентов соответственно. Смешивая на экране монитора или при печати, эти три цвета способны воспроизводить весь спектр, доступный человеческому зрению.
Обычно яркость цвета имеет 256 градаций. Итак, на изображении мы видим следующее количество переменных: [длина изображения в точках] × [ширина изображения в точках] × 3. Каждая из переменных принимает значение от 0 до 255.
Глядя на картину, мы понимаем, что там изображено. Как это произошло? Как, глядя на комбинацию цветных точек, определить, какой тип объекта находится перед нашими глазами? В нашем мозгу есть нейронная сеть, которая расшифровывает электрические импульсы, исходящие от сетчатки глаза, и распознает объект, который мы видим. Это совершенная структура, возникшая в результате более чем 500 миллионов лет эволюции. Зрительная система человека – одна из лучших среди всех живых существ. Только некоторые виды птиц, например орлы, обладают более совершенным зрением.
Система распознавания формы человека требует обучения, но минимального. Достаточно один раз назвать ранее неизвестный человеку предмет, чтобы он научился узнавать его с любого ракурса. А для обучения современных систем компьютерного зрения, разработанных на базе глубоких сверточных нейронных сетей, нужны десятки и сотни тысяч предварительно размеченных примеров.
Работа любой модели машинного обучения аналогична зрительной системе человека. Он получает входные переменные (аналог набора цветных точек) и должен выдать результат. Например, хороший или плохой потенциальный клиент, или сколько стоит квартира с заданными параметрами (общая площадь, количество комнат, городской район, удаленность от метро) и т.д.
Нам кажется, что с идеальным зрением мы можем легко распознать любой объект, который видим. Если модель машинного обучения не может этого сделать (например, отличить хорошего клиента от плохого), то она построена плохо.
Однажды я построил модель, которая должна была отличать потенциально хорошего клиента от плохого вплоть до момента заключения с ним договора банковского обслуживания. Точность модели составила 59 Джини. Это много или мало?
Давайте поиграем в простую игру
Чтобы понять это, предлагаю вам сыграть в очень простую игру – отличить кошку от собаки. С детства мы делаем это с легкостью, правда?
При построении я использовал 137 переменных. Окончательный прогноз был основан на 10 переменных. Это нормально — при распознавании образов наш мозг тоже фокусируется не на всех точках, а на наиболее характерных. Автор предлагает использовать 144 переменных для решения аналогичной задачи.
Каждый из рисунков ниже имеет собаку с одной стороны и кошку с другой. Разрешение каждого изображения составляет 12×12 пикселей, что дает нам всего 144 переменных. Сможете ли вы отличить одно животное от другого, имея примерно такое же количество данных, как в модели автора?
Вот первый рисунок. Где кошка, а где собака?

Вам удалось? Попробуем что-нибудь посложнее.

Похоже, это все еще слишком просто. Как насчет этого?

Давай еще раз попробуем!

Но эта задача будет сложной, пожалуй, даже для тех, кто легко справился с предыдущими:

Где ответы?
Хотите получить правильные ответы и узнать, сколько раз вы ответили правильно? И в то же время узнать, что на самом деле определяет качество моделей, которые ваши специалисты по данным разрабатывают для вас? Продолжение во второй части статьи.