Как думают многие из нас, человек — это школьная обезьяна, которая наблюдает за другими обезьянами, чтобы поучиться у них чему-то полезному. Именно на этом и основана важная часть обучения в целом и информатики в частности: на слежке за другими. Наблюдаю, как люди публикуют свой код или просто о чем-то говорят. Однако они не говорят вам всего.

Очень часто этот код или текст не является продуктом, предназначенным для всестороннего обучения других обезьян. Очень часто читателям навязывают что-то вырванное из контекста и не содержащее ничего важного. Например, в рассказах о работе с данными забывают рассказать о том, откуда эти данные берутся. Другими словами, о реальности.

И это лучше всего иллюстрируют два примера.

Пример №1: Работа аналитика

a329fb6e1ee9d0448fe1d7f4bb9f2ad5

(Сама статья здесь -)

Простой набор банальностей, который поможет новичку разобраться в методах анализа данных. Для простоты это представлено на примере продаж с сайта и даже сделаны правильные оговорки.

Целый месяц перед Новым годом шла массовая реклама с раздачей промокодов со скидками на красные самокаты. В результате общая прибыль компании упала. Опытный аналитик сразу определит, что на прибыль повлияли не только промокоды, но и другие факторы, такие как сезонность, появление нового сайта, изменение цен и ряд других факторов, влияние которых совпало по времени с промокодами. и могло быть не менее значительным. Поэтому необходимы более релевантные измерения, например процент пользователей, использовавших промокоды, и процент красных самокатов в доле продаж.

Казалось бы, читателю советуют, что не стоит слишком усердно искать желаемые отношения и стоит учитывать влияние других факторов.

Но посмотрите на пример диаграммы.

007baddd70bf0c7ec386040e70e2436d

Судя по подписи, это «процент пользователей, использовавших промокоды». То есть на этом графике отражены данные по вводу промокода и посещаемости сайта. Какой вопрос должен задать себе опытный аналитик перед лицом резкого роста цен в конце января? Правильно: «Разве это не проблема с данными?»

ЧИТАТЬ   Женщина побрызгала баллончиком в Мариинском театре. Ей запретили смотреть «Лебединое озеро»

Потому что на самом деле мы работаем не с данными, которые на 100% достоверно отражают реальность, а с данными, собранными с помощью конкретных технических методов, что неизбежно создает риски и искажения.

Если процент пользователей, использовавших промокоды, уменьшился, то либо количество пользователей уменьшилось, либо количество пользователей увеличилось, либо и то, и другое.

Количество пользователей фиксируется внутри сайта. Мы полностью контролируем эти данные и можем положиться на них на 100%. Что могло случиться?

Например:

  • часть базы данных промокодов вышла из строя, и некоторые записи промокодов больше не регистрировались как успешные.

  • Некоторые браузеры/антивирусы/блокировщики рекламы были обновлены, а у некоторых пользователей перестала работать привязка форм JavaScript.

  • Был обновлен скрипт сервера, обрабатывающий промокоды, убрано удаление конечных пробелов и в результате некоторые промокоды из писем, отправленных через марку, больше не принимались.

  • гораздо более

И, конечно же, ничто из этого не является «реализация нового сайта», потому что (а) внедрение нового сайта — это прежде всего вопрос удобства использования и (б) это незначительная работа в рамках существующего веб-сайта.

Обычно мы отслеживаем количество пользователей Сайта с помощью внешних средств. Просто потому, что сбор логов сервиса и очистка их от ботов и т.д. это геморрой, а внешние счетчики дают много преимуществ. Что могло случиться?

Например:

  • неизбежный переход с GA3 на GA4

  • сервис изменил методы расчета

  • коллеги изменили настройки/фильтры

  • кто-то заметил, что счетчик не был включен в шаблон, обрабатывающий ошибку 404, и исправил ситуацию

  • гораздо более

Нет, я не говорю, что @maratyv должен был записать все возможные варианты, которые привели к изменению сбора статистики, но можно сказать «да, этот скачок очень похож на сбой или изменение методологии сбора статистики, но сейчас мы это рассматривать не будем, т.к. это лишь синтетический пример для освоения методов анализа данных.

ЧИТАТЬ   C# vs Rust vs Go: сравнение производительности Kubernetes

А когда дело доходит до реального анализа, обезьяна, научившись на примере рассматриваемой статьи, может сказать себе: «Я собираюсь, как и я, проверить, откуда эти данные».

Может быть, и не станет, но давайте дадим обезьяне возможность вспомнить, что используемые данные являются лишь искаженным и неполным отражением действительности, и что это искажение и неполноту необходимо учитывать.

Пример №2: Загрузка данных

19a5da45dd9eebb5344c7722e74172cd

(Сама статья здесь -)

Понятия не имею, насколько полно и технически правильно описан процесс, но я рад, что @VasilPRM вставил в текст SWOT-анализ. Я именно об этом и пишу: надо показать обезьянам правильные подходы, и SWOT-анализ (или любой другой расчет плюсов и минусов) очень правильный.

Но вопрос о взаимодействии с реальностью пока не решен.

И здесь проявляется реальность: данные в Excel.

40f62ef9e79cbb8ebd3ff9a6d189cabb

Во-первых, это вопрос формата.

«09.06.2023» это июнь или сентябрь? Какая информация будет передана в базу данных?

Вы скажете, что точки в качестве разделителя относятся к европейскому формату даты, а не к американскому. Да, но никаких гарантий, и при этом на одном из скриншотов стоит дата в формате «09.06.2023».

Также на одном из скриншотов вы можете увидеть вес в формате «0,00», но я не вижу инструкции «убедитесь, что вы используете правильный десятичный разделитель».

Как бы тривиально это ни казалось, мы имеем дело не с самой реальностью, а с данными, записанными в формате, допускающем различные интерпретации.

Во-вторых, мы сталкиваемся с еще большей проблемой: откуда берутся эти данные?

Потому что это проявление реальности еще более ужасное, чем простая точность расчета и формата записи. Эти данные были внесены туда вручную людьми, которые не стесняются практиковать лень ума и имеют анатомические особенности в плане того, откуда на теле растут руки.

ЧИТАТЬ   Диетолог Королева рекомендовала гипертоникам ограничить потребление соли

В графе «Тип ЭО» буквы «М» и «О» вводятся вручную, а они латиница или кириллица? Сейчас смотрят на это глазами и разница не существенная, но при загрузке в большую базу может на что-то повлиять.

Здесь было бы очень уместно сказать обезьяне, что за начинку отвечают другие люди, но за загрузку отвечает именно обезьяна. Это означает, что вам необходимо проверить все форматы данных, правильность заполнения и убедиться, что не только в графе «Тип ЭО», но и в поле «Система безопасности» первая «С» стоит кириллица, а не латиница.


И это всего лишь два примера из множества других текстов, в которых люди раскрывают свои конкретные темы, не затрагивая сопутствующих вопросов.

И я понимаю этих людей, потому что они говорят об анализе и экспорте данных, а обучение обезьян гигиене — не их работа.

К сожалению, реальность такова, что обезьяны будут только читать вашу статью и действовать. И в этой схеме никто не будет переходить из рук в руки, давать им мозги и говорить, что реальность существует и что ее нужно учитывать.

Поэтому, уважаемые коллеги, начните делать в своих текстах соответствующие уточнения и оговорки.

Ведь нам всем приходится жить в мире, созданном обезьянами, освоившими ремесло по нашим текстам и примерам.

Source

От admin