Материалы

Исследование: Состояние качества данных в 2021 году

Статьи

Перевод исследования компании Datadolf


Мы провели опрос производителей данных (инженеров по данным/аналитике) и потребителей (менеджеров по продуктам, специалистов по данным, аналитиков и других ролей), чтобы изучить тенденции в инструментах, болевые точки и цели. В опросе приняли участие 231 респондент, в основном из SaaS, финансов, потребительского интернета, искусственного интеллекта, облачных вычислений и розничной торговли, в основном из компаний среднего и крупного размера


В этом отчете представлены результаты и то, что мы узнали


Качество данных является важным вопросом для большинства команд, работающих с данными. Однако у людей нет правильных инструментов наблюдения за данными и процессов, необходимых им для достижения успеха


Четыре ключевых вывода из этого опроса


• Качество и надежность данных жизненно важны для команд, работающих с данными

• Слишком много ручной работы — причина №1 низкой продуктивности команд, обрабатывающих данные

• SQL по-прежнему является интерфейсом №1 для данных и, похоже, никуда не денется

• BI остается без изменений... пока


Мы учитывали только ответы людей, непосредственно работающих с данными (в качестве производителя или потребителя). 68% респондентов принадлежат к командам, работающих с данными, а другие взаимодействуют с данными в другой роли




Вывод №1


Качество и надежность данных жизненно важны для команд (data teams).

Качество и надежность данных являются основными ключевыми показателями эффективности для сотрудников, за которыми следуют улучшение доступности данных, совместной работы и документации. Качество данных часто зависит от проблем, которые сотрудник не контролирует или даже не осознает, но это ключевой показатель, определяющий успех команды


Что важнее всего для сотрудников, обрабатывающих данные?


Мы спросили респондентов, над какими задачами и KPI они работают


Результаты разительно отличаются от общего настроения, которое мы наблюдали еще 2-3 года назад, когда низкокачественная инфраструктура, низкая скорость запросов и проблемы интеграции данных (сбор всех данных в хранилище), казалось, занимали умы специалистов по данным



Проблемы с качеством данных случаются часто


‍Более 80 % респондентов заявили, что регулярно сталкиваются с проблемами качества данных



Большинство проблем с качеством данных возникают за пределами компетенции команд, работающих с данными


Интересно то, что, по данным опрошенных сотрудников, 75% проблем с качеством данных относятся к сфере ответственности других команд и сторонних поставщиков. Кроме того, 20% респондентов не имеют никакого представления о том, откуда возникают проблемы! Это подтверждает идею о том, что задача, связанные с качеством данных не может лежать на какой-либо одной команде и должна решаться на уровне компании (так же, как безопасность) и требует тесного сотрудничества между всеми подразделениями


51% респондентов указали, что у них нет адекватных процессов и инструментов для решения проблем с качеством данных


(8% не дали ответа)


Пользователи данных в основном полагаются на ручную проверку качества данных

Из того, как специалисты по обработке данных проверяют свои данные, можно сделать три важных вывода:


  1. Почти никто (< 10%) не удовлетворен изначальным качеством данных в компании
  2. Большинство сотрудников по-прежнему полагаются на ручную проверку данных или прибегают к помощи коллег, прежде чем использовать данные для своей работы.
  3. Автоматические тесты и каталоги данных в настоящее время используются примерно 30% и 20% сотрудников соответственно в качестве источника достоверной информации о качестве данных

Большинству компаний еще предстоит внедрить инструменты контроля качества данных

Вывод №2


Слишком много ручной работы — причина №1 низкой продуктивности коллективов, обрабатывающих данные


Следующая проблематика - неэффективное сотрудничество («слишком много совещаний» и «организационные проблемы») и низкое качество данных


Учитывая, что сотрудники определяют качество данных как свой KPI, не имея при этом инструментов и процессов для управления этим, неудивительно, что сотрудники перегружены ручной работой, поскольку многие рутинные задачи, такие как тестирование изменений в коде ETL или отслеживание зависимостей данных, могут занять несколько дней без надлежащей автоматизации


Обзор стека данных


Помимо качества данных, всегда интересно изучить тенденции внедрения современных инструментов обработки данных


‍Вывод №3


SQL по-прежнему является интерфейсом №1 для данных и, похоже, никуда не денется.


Когда дело доходит до языков запросов и ETL (извлечение, обработка, загрузка), наиболее популярными являются SQL и Python, за которыми следуют R и Scala


Модели схемы «звезда» и «снежинка» являются наиболее популярными моделями данных для построения хранилищ данных


С быстрым внедрением бесконечно масштабируемых облачных хранилищ данных, таких как BigQuery и Snowflake, которые предлагают отличный UX и относительно дешевое хранилище и вычисления, нам было любопытно, как это повлияет на выбор сотрудниками их шаблонов моделирования данных


Любопытно, что когда-то доминировавший подход к построению модели данных "звезды/снежинки", хотя и остается на позиции №1, но теперь используется лишь только ~35% командами. Набирают популярность альтернативные подходы, такие как Data Vault и единая таблица событий (Activity Schema). Данные подходы быстро набирают популярность во многом благодаря своей простоте и гибкости


Вывод №4


BI остается без изменений... пока


Ни один элемент стека данных не вызывает больше внутренних раздоров, чем инструменты BI. Итак, давайте посмотрим, какие инструменты являются самыми популярными на 2021 год. Начнем сразу с победителя, которым, что неудивительно, является Tableau. 😏


Однако самым большим сюрпризом стал второй по популярности инструмент бизнес-аналитики — Google Spreadsheets! Подождите, разве инструменты BI не должны были заменить отчеты, сделанные в Excel?! Очевидно, что пользователи данных по-прежнему любят электронные таблицы, и Google Spreadsheets предоставляют им гибкость для моделирования, предлагая отличные функции для совместной работы и интеграцию с современными хранилищами


Segment и Snowplow доминируют в аналитическом оборудовании, но новые игроки их догоняют




Использование внутренних инструментов опережает использование других инструментов для интеграции данных


Очень немногие люди в наши дни используют внутреннюю инфраструктуру для инструментовки и сбора данных о событиях. На рынке по-прежнему доминируют Segment и Snowplow, а несколько новых игроков, таких как Rudderstack (клон Segment с открытым исходным кодом) и Freshpaint (также предлагает захват событий без кода), получают заметную поддержку


Интересно, что в отличие от сбора событий интеграция данных по-прежнему в основном выполняется внутри компании


Также популярностью пользуются Fivetran и Stitch


Поскольку внутренние инструменты интеграции данных становятся все более важной частью современного стека аналитики, стартапы добавляют широкий спектр инструментов для хранения и обработки данных : более 70% респондентов говорят, что их компания использует PostgreSQL, Redshift или Snowflake



Большие данные уже не хайп и даже не модное словечко — это чистая реальность. И все же самое популярное хранилище данных — старый добрый PostgreSQL!

Итак, учитывая, что большинство компаний используют какие-либо современные облачные хранилище, напрашивается вопрос - как они относятся к его производительности?





In-house инструменты по-прежнему наиболее распространены для организации преобразований данных.


Airflow, по-прежнему находится на пике популярности, но также набирает популярность проприетарные инструменты - Glue, быстрорастущий dbt


Заменит ли dbt Airflow в качестве №1? Маловероятно, так как dbt очень ориентирован на SQL, и хотя SQL (как подтверждает этот обзор) по-прежнему является самым популярным языком для преобразования данных, большинство сотрудников захотят также выполнять запросы, отличные от SQL (для машинного обучения, интеграции данных и т. д.) Так что, скорее всего, Airflow в конечном итоге будет заменен комбинацией (оркестрацией) решений нового поколения (например, Dagster) и SQL (dbt)



Удовлетворенность стеком данных: 3,3/5


‍Хотя технически общее впечатление от стека данных кажется нейтрально-позитивным, отсутствие изобилия доказывает, что есть много возможностей для улучшения


Так почему бы людям просто не изменить стеки данных?


‍Отвечая на вопрос о препятствиях на пути улучшения стека данных, респонденты чаще всего называли высокие затраты на переход и организационные препятствия. Это особенно верно для хранилищ данных и технологий бизнес-аналитики, с которых труднее всего мигрировать