«Идеономика» продолжает рассказывать о востребованных профессиях, приходящих на смену специальностям из прошлого. Совместно с онлайн-школой SkillFactory мы описываем ремесло data-аналитика, одно из самых перспективных в сегодняшней экономике знаний и данных.
Количество данных в нашем мире растет с каждым днем: мы оставляем информацию о себе в социальных сетях, смотрим новости и заказываем доставку товаров онлайн, пишем отзывы в интернет-магазинах, пользуемся онлайн-картами и оставляем другие цифровые следы. И пользователей, которые эти следы оставляют, тоже становится все больше.
Все эти данные бесценны: они позволяют анализировать и прогнозировать множество ситуаций. Например, можно рассчитать оптимальные пути транспорта, чтобы сократить время простоя, или предугадать сбои в работе оборудования на производствах. Анализ данных помогает врачам ставить диагнозы, подбирать онлайн-контент, исходя из интересов пользователей, и многое-многое другое.
Занимаются этим специальные аналитики данных или, как их называют в англоязычной среде, Data Analyst.
Такие аналитики нужны в разных областях. Чаще всего речь идет об IT, но не только: умение анализировать данные и устанавливать взаимосвязи между ними важно в финансовом и потребительском секторах, медицине, производстве, логистике, образовании, даже в психологии — в общем, практически везде, где требуется прогнозирование.
Основное отличие Data Analyst от традиционных бизнес-аналитиков – это прогнозирование событий на основе математического анализа полученных массивов данных. Поэтому без знаний математики на хорошем уровне никак не обойтись. Нужно также хорошее понимание статистики и умение строить статистические модели, в том числе в области машинного обучения. Требуются хотя бы базовые знания языков программирования. Чаще всего речь идет о Python. Наконец, желательно прилично владеть письменным английским, поскольку многие полезные в работе ресурсы опираются именно на этот язык для коммуникации. На английском основан и язык запросов, используемый при взаимодействии со многими базами данных.
Основная работа Data Analyst — это обработка данных и построение моделей, которые позволяют устанавливать взаимосвязи между событиями и прогнозировать их развитие.
Как же происходит процесс создания модели на основе данных? Для начала следует осознать поставленную задачу и четко сформулировать вопрос, на который предстоит ответить. Далее нужно понять, какая информация поможет ответить на этот вопрос. Поэтому один из ключевых шагов – это сбор первоначальных данных. От тщательности этого сбора зависит точность прогноза. Например, одна из задач SMM — прирост подписчиков аккаунта в соцсети, но при анализе результатов работы и прогнозировании дальнейшего роста нужно учитывать и количество отписавшихся, иначе прогноз может оказаться некорректным. С другой стороны, важно не перегружать анализ данными, которые не имеют отношения к конкретной задаче.
Частая ошибка при сборе данных – недостаточно репрезентативная выборка. Это может привести к серьезным ошибкам. Например, Томас Пуэйо в своей публикации спрогнозировал летальность от COVID-19 на уровне 1%, исходя из данных по заболевшим и умершим на лайнере Diamond Princess. На деле летальность во многом зависит от возраста заболевших и может составлять до 11% в отдельных регионах. Проблема с анализом Пуэйо состояла в том, что свой вывод он сделал на основании небольшой и очень специфической выборки, на которую пришлось 7 смертельных случаев.
Если аналитик работает с Big Data, то встает вопрос о том, как хранить и обрабатывать эти большие массивы информации. В этом помогают знания SQL (это язык запросов, позволяющий работать с большими и удаленными базами данных, а также проводить некоторые виды анализа) и опять-таки Python.
После получения данных их нужно подготовить для анализа – очистить от лишней информации, привести к нужному виду, присвоить метки. Обычно это самый затратный по времени этап и для многих самый скучный.
Затем необходимо сформулировать математическую модель, которая поможет ответить на первоначальный вопрос. Это означает в каком-то смысле погрузиться в прошлое, изучить то, что уже произошло. Получив выводы на основе модели, можно делать прогнозы, скажем, об успешности маркетинговых кампаний или вычислять оптимальные решения, например, для управления кадрами, ценообразования или персонализации клиентского обслуживания.
Любой анализ начинается с гипотез о том, что на самом деле происходит. Может случиться, что первоначальные гипотезы не подтверждаются, и возможно, тогда придется начать анализ сначала или даже собрать новые данные. Если гипотезы нашли подтверждение, то аналитик останавливается на первоначальной модели, которую можно затем тестировать и улучшать. Тут понадобятся знания о том, как планировать эксперименты и проводить А/Б-тестирование. Любую модель следует проверить на безопасность и надежность. Например, ошибочная модель для оценки кредитоспособности заемщика может привести к экономическим убыткам для банка, а некорректная работа моделей в медицине может поставить жизнь и здоровье людей под угрозу. Стоит также проверить модель на масштабируемость, иначе может сложиться ситуация, аналогичная случаю в 5 терминале Хитроу: система транспортировки багажа, протестированная на пробном количестве грузов, не смогла справиться с реальным их объемом, что привело к массовой отмене рейсов и испортило день открытия.
Получается, что для освоения ремесла аналитика данных нужен довольно большой объем знаний, которые не так просто освоить самостоятельно. С другой стороны, это перспективная профессия, у которой много преимуществ.
Во-первых, востребованность на рынке. Вакансий для аналитиков значительно больше, чем компетентных соискателей, и с каждым годом все больше становится компаний и организаций, которым нужен качественный анализ данных. В 2019 году вакансий в области анализа данных стало больше в 9,6 раза, а в области машинного обучения – в 7,2 раза, чем в 2015 году. Если сравнивать с 2018 годом, количество вакансий специалистов по анализу данных увеличилось в 1,4 раза, по машинному обучению – в 1,3 раза.
Во-вторых, достойная зарплата, даже на начальных ступенях карьеры. По данным исследований рынка, маркетинговые аналитики на начальном этапе зарабатывают 76 000 руб, а ставка Data Scientists начинается от 113 000 рублей и доходит до 300 000 рублей у опытных сотрудников.
В-третьих, возможность частично или даже полностью удаленной работы, что сегодня интересует многих. Такую работу проще совмещать с обучением или домашними делами, да и времени на поездки в офис тратить не надо.
В-четвертых, относительно короткий срок обучения, если подойти к делу системно.
Что делать, если высшее образование у вас уже есть, времени получать еще одно, на этот раз в области анализа данных, нет, но профессия аналитика выглядит привлекательной? Можно, конечно, попробовать самостоятельно освоить статистику, программирование и другие нужные навыки. Теоретически сделать это можно даже бесплатно – в интернете много советов и инструкций. Но у такого подхода есть недостатки. На начальном этапе невозможно понять, какие знания нужны, в каком порядке их лучше получать, и не очень понятно, где полученные навыки можно протестировать, на чем потренироваться.
Гораздо лучше осваивать эту специальность с помощью состоявшихся профессионалов, которые знакомы с нюансами этой работы, готовы поделиться своим опытом, рассказать о своих ошибках. Например, на курсе SkillFactory «Профессия Data Analyst» не просто дают информацию, а научат применять полученные навыки на практике, помогут с мотивацией и станут надежным партнером на пути в аналитику. После прохождения курса у вас уже будет портфолио выполненных проектов, а разбор кейсов подготовит к реальной работе. В ходе программы вы научитесь настраивать счетчики аналитики для веб- и мобильных версий сервисов, проводить когортный анализ, проверять результаты и представлять их в виде удобных отчетов и графиков. А дополнительный модуль обучения «Soft Skills» поможет определить ваши сильные и слабые стороны, научит делегировать полномочия и аргументировано отстаивать свою точку зрения.