Манифест DataOps

Благодаря опыту работы с данными в организациях, инструментах и ​​отраслях специалистами Data Science был найден лучший способ разработки и предоставления аналитики, который получил название DataOps.

Будь то наука о данных, инженерия данных, управление данными, большие данные, бизнес-аналитика и т.п., благодаря нашей работе мы стали ценить в аналитике:

  • Сотрудники/специалисты и их взаимодействие над процессами и инструментами 
  • Работа аналитики над всесторонней документацией
  • Сотрудничество с клиентами при переговорах о контрактах
  • экспериментирование, итерации и обратная связь через
    обширный upfront-дизайн
  • кросс-функциональная деятельность над разрозненными обязанностями

Принципы DataOps

1. Постоянно удовлетворяйте своих клиентов:

Нашим главным приоритетом является удовлетворение клиента за счет раннего и непрерывного предоставления ценной аналитической информации от пары минут до недель.

2. Ценность рабочей аналитики:

Мы считаем, что основной мерой эффективности анализа данных является степень, в которой обеспечивается глубокий анализ, включающий точные данные, а также надежные платформы и системы.

3. Примите изменения:

Мы приветствуем меняющиеся потребности клиентов, и на самом деле мы принимаем их, чтобы создать конкурентное преимущество. Мы считаем, что наиболее эффективным, действенным и гибким способом общения с клиентами является личный разговор.

4. Это командный вид спорта:

Аналитические команды всегда будут иметь различные роли, навыки, любимые инструменты и названия.

5. Ежедневные взаимодействия:

Клиенты, аналитические группы и операции должны ежедневно работать вместе на протяжении всего проекта.

6. Самоорганизация:

Мы считаем, что лучшие аналитические идеи, алгоритмы, архитектуры, требования и проекты возникают из самоорганизующихся команд.

7. Уменьшить героизм:

Поскольку скорость и широта потребности в аналитическом понимании постоянно возрастают, мы считаем, что аналитические группы должны стремиться уменьшить героизм и создавать устойчивые и масштабируемые группы и процессы для анализа данных.

8. Размышлять, подвергать сомнению:

Аналитические группы должны корректировать свою операционную деятельность путем регулярного размышления на основе обратной связи, предоставляемой их клиентами, самими участниками и оперативной статистикой.

9. Аналитика это код:

Аналитические группы используют различные индивидуальные инструменты для доступа, интеграции, моделирования и визуализации данных. По сути, каждый из этих инструментов генерирует код и конфигурацию, которые описывают действия, выполняемые с данными для обеспечения понимания.

10. Оркестровка:

От начала до конца оркестровка данных, инструментов, кода, сред и работы аналитических групп является ключевым фактором успеха аналитической работы.

11. Сделайте процесс/аналитику воспроизводимой:

Требуются воспроизводимые результаты, и поэтому мы проверяем все: данные, низкоуровневые конфигурации аппаратного и программного обеспечения, а также код и конфигурацию, характерные для каждого инструмента в цепочке инструментов.

12. Одноразовые среды:

Мы считаем, что важно минимизировать затраты для членов аналитической команды на эксперименты, предоставляя им простые в создании, изолированные, безопасные и одноразовые технические среды, отражающие их производственные среды.

13. Простота:

Мы считаем, что постоянное внимание к техническому совершенству и хорошему дизайну повышает маневренность; аналогично простота – искусство максимизировать количество не выполненной работы – имеет важное значение.

14. Аналитика – это производство:

Аналитические трубопроводы аналогичны линиям бережливого производства. Мы считаем, что фундаментальной концепцией DataOps является ориентация на процессное мышление, направленное на достижение непрерывной эффективности в производстве аналитического инсайта (аналитических данных).

15. Качество имеет первостепенное значение:

Аналитические трубопроводы (конвейеры) должны быть построены на фундаменте, который будет способен автоматически обнаруживать отклонения (jidoka) и проблемы безопасности в коде, конфигурации и данных, а также должны обеспечивать непрерывную обратную связь с операторами для предотвращения ошибок (poka yoke).

16. Контролировать качество и производительность:

Наша цель состоит в том, чтобы иметь показатели производительности, безопасности и качества, которые постоянно отслеживаются для обнаружения неожиданных изменений и получения оперативной статистики.

17. Повторное использование:

Мы считаем, что основополагающим аспектом эффективности производства аналитической информации является недопущение повторения предыдущей работы отдельного лица или команды (например, недопустимость повторных операций по разработке одного и того же кода).

18. Улучшите время цикла:

Мы должны стремиться минимизировать время и усилия, чтобы превратить потребность клиента в аналитическую идею, создать ее в разработке, выпустить ее в виде воспроизводимого производственного процесса и, наконец, рефакторинг и повторное использование этого продукта.

Дополнительное описание концепции DataOps

DataOps (акроним от data и operations) — это новая методология, предполагающая совместную работу объединенных команд разработки и эксплуатации ИТ-систем (DevOps), инженеров по подготовке данных (data engineer) и исследователей данных (data scientist) для создания инструментов, процессов и организационных структур, необходимых предприятию, опирающемуся в работе на данные (Data-Driven Enterprise).

DataOps — центр сбора и распространения данных с мандатом на контролируемый доступ к детальным корпоративным данным при обеспечении их конфиденциальности, ограничений на использование и соблюдения их целостности.

Для того, чтобы по-настоящему демократизировать данные, нужно преобразовать как средства доступа к ним, так и инфраструктуру и сервисную модель их доставки.

DataOps — способ управления данными, обеспечивающий коммуникации и интеграцию уже имеющихся данных, команд и систем, позволяющий получить преимущества от изменения, перестройки оргструктуры и технологий для поддержки взаимодействия между теми, кто собирает и готовит данные, и теми, кто их анализирует и применяет в бизнесе.

Непрерывная аналитика

Непрерывная интеграция, доставка и обработка применяются в деятельности исследователей данных, команды которых используют средства управления версиями, такие как GitHub, для отслеживания и изменения кода и технологии типа Docker и Kubernetes для создания сред анализа и развертывания моделей. Иногда такой стиль работы называют непрерывной аналитикой.

Accenture Data Driven Enterprise Maturity Model

Почему DataOps?

Слишком часто наука о данных остается ручным процессом, проводимым высококвалифицированными мастерами. Исследовательская фирма Gartner утверждает, что 80% проектов искусственного интеллекта напоминают алхимию, управляется волшебниками, чьи таланты не будут расширяться в организации.

Представьте, что автомобильный завод работает без автоматизации. Он будет страдать от нестабильного качества, продолжительного цикла, отходов, негибкости и узких мест. Никто в 21-м веке никогда не будет управлять такой командой.

Специалисты по обработке данных могут многое позаимствовать у качественных методов, используемых в автомобильной и других видах промышленности.

Такие методологии, как “Бережливое производство” и “Теория ограничений”, также применимы к операциям обработки данных и разработки аналитики, как и традиционные фабрики.

Аналитика – это конвейерный процесс. Источники данных поступают на предприятие, загружаются в базы данных, подвергаются обработке и преобразованию, а затем строятся диаграммы, графики и прогнозная аналитика.

С точки зрения процесса, этот рабочий процесс является производственной операцией. Как знает каждый менеджер фабрики, управление изменениями является критически важным аспектом деятельности.

DataOps – применение методов производства к науке о данных

Индустрия анализа данных сегодня очень похожа на индустрию программного обеспечения 1990-х годов – выпускает релизы медленными темпами и несет технический долг. Хорошей новостью является то, что индустрия программного обеспечения открыла путь вперед, используя классические методологии производства. Кроме того, эти идеи набирают силу в мире аналитики данных.

Индустрия данных относится к этим методам под общим термином DataOps. Вам не нужно выбрасывать существующую инфраструктуру и начинать все сначала. DataOps увеличивает ваши существующие операции. Это новый подход к науке о данных, основанный на трех широко распространенных методологиях, поддерживаемых инструментами и автоматизацией программного обеспечения: Agile Software Development, DevOps и средства статистического управления процессами (SPC).

Agile Development

Одна из аксиом Теории ограничений заключается в том, что небольшие партии уменьшают товарные запасы, минимизируют отходы и увеличивают общую пропускную способность системы в процессе производства. Это понимание вдохновило индустрию программного обеспечения на создание методологии, называемой гибкой разработкой. Исследования показывают, что Agile проекты выполняются более чем на 30% быстрее и имеют на 75% более низкий уровень дефектов. Сегодня две трети организаций, занимающихся разработкой программного обеспечения, называют себя «чисто гибкими» или «склонными к гибким».

Традиционное управление проектами использует последовательную методологию Waterfall. Проекты выполняются в соответствии с длинными, сложными графиками с одним конечным результатом. Есть несколько проблем с этой методологией в науке о данных. В аналитике бизнес-условия постоянно меняются, поэтому то, что потребовалось коллегам по бизнесу несколько месяцев назад, изменилось или перестало быть ценным. Другими словами, требования имеют срок годности. Кроме того, проекты водопада, по своей конструкции, методически медленные и негибкие. Проекты «Водопад», в которых действуют требования быстрого реагирования, поступающие от бизнес-пользователей, никогда не выходят из фазы планирования (и перепланирования).

В двух словах, Agile управление проектами предоставляет ценные функции в короткие промежутки времени и получают немедленную обратную связь. Большие инициативы разбиваются на небольшие приращения и выполняются итеративно. В Agile-команды по обработке данных реагируют быстрее и более тесно согласуются с требованиями и непосредственными приоритетами конечных пользователей. Методология Agile особенно эффективна в средах, где требования быстро меняются – ситуация, хорошо известная специалистам по науке о данных.

Некоторые организации понимают, что они должны быть более гибкими, но организации, как правило, не получают большой выгоды от гибких методов, если качество низкое или процессы развертывания требуют длительных и трудоемких ручных действий. «Agile Development (Гибкая разработка)» сама по себе не может сделать команду более «гибкой».

DevOps

Представьте, что вы нажимаете кнопку, чтобы полностью протестировать и опубликовать новую аналитику в производственном конвейере. Именно так Amazon и другие развертывают выпуски программного обеспечения за считанные минуты или секунды. Такой подход к выпуску программного обеспечения называется DevOps.

Традиционно организации, занимающиеся разработкой программного обеспечения, ждали недели или месяцы, пока ИТ-специалисты устанавливали и настраивали среды разработки для новых проектов. DevOps автоматизирует этот процесс, поставив его под контроль программного обеспечения. Одним нажатием кнопки (или команды) DevOps запускает виртуальную машину и настраивает ее с помощью программного обеспечения и данных. Специалист по данным может начать работу над новым проектом разработки за считанные минуты.

DevOps также автоматизирует тестирование. Обширный набор тестов проверяет и подтверждает, что новая аналитика работает и будет работать без ошибок в среде, которая точно соответствует производственной. Когда тестирование завершено, аналитика быстро публикуется для пользователей с помощью автоматизированного рабочего процесса. Этот метод публикации программного обеспечения также называется непрерывной доставкой или непрерывным развертыванием, и он является основным принципом DataOps.

Когда создание, тестирование и развертывание среды находятся под контролем программного обеспечения, это может произойти за считанные секунды или минуты. Вот как такие компании, как Amazon, достигают такого быстрого цикла.

Гибкая разработка и DevOps работают рука об руку. Agile позволяет предприятиям быстро определять и поддерживать новые функции, а DevOps ускоряет выполнение, тестирование и выпуск этих функций. Ни один из этих методов не был бы настолько эффективен без другого. Кроме того, невозможно быстро двигаться, когда команда страдает от ошибок качества.

Статистический контроль процесса

Современные предприятия имеют сотни или тысячи источников данных, поступающих в их конвейер данных. Огромное количество аналитики для обработки данных превышает возможности мониторинга типичной группы данных. Оставленные без контроля, ошибки в конечном итоге попадают в данные, а ошибки данных могут привести к поломке или аннулированию аналитики. Если вы когда-либо получали отчет, основанный на неверных данных, вы познали это на собственном опыте.

DataOps обращается к ошибкам данных так же, как производственная операция контролирует качество поставщика, незавершенное производство и готовую продукцию. DataOps заимствует методологию, прямо из бережливого производства, называемую статистическим контролем процессов (SPC). Тесты отслеживают данные, проходящие через конвейер, и подтверждают их достоверность, полноту и статистические пределы. Каждый этап конвейера данных контролирует входы, выходы и бизнес-логику. Входные тесты могут уловить дрейф процесса на поставщике данных или на стадии первичной обработки.

Выходные тесты могут отлавливать неправильно обработанные данные, прежде чем они будут переданы в нисходящий поток. Тесты обеспечивают целостность конечного результата, проверяя, что незавершенное производство (результаты промежуточных шагов в конвейере данных) соответствует ожиданиям.

Если в какой-либо точке рабочего процесса или конвейера возникает аномалия, команда данных будет первой, кто узнает об этом, с помощью автоматического оповещения, и она сможет предпринять действия. Результаты тестов также могут отображаться на информационных панелях, делая состояние конвейера данных прозрачным от начала до конца.

Превращение данных в ценность

Поскольку предприятия разрабатывают и внедряют аналитику данных с помощью DataOps, они могут достичь того же уровня производительности, который мы наблюдаем в ведущих компаниях-разработчиках программного обеспечения.

Аналитика будет создаваться и развертываться быстро, а статистический контроль процессов обеспечит высокое качество. Команда специалистов в области данных ответит на запросы о новой аналитике с беспрецедентной скоростью и точностью.

DevOps vs. DataOps – процессы разработки и развертывания

DataOps основывается на модели разработки DevOps. Как показано на рисунке, поток процесса DevOps включает в себя ряд шагов, которые являются общими для проектов разработки программного обеспечения:

  • Develop (Разработка) – создание / изменение приложения
  • Build (Сборка) – сборка компонентов приложения
  • Test (Тестирование) – проверка приложения в тестовой среде
  • Deploy (Развертывание) – переход кода в производственную среду
  • Run – запуск приложения

DevOps представляет две основополагающие концепции: непрерывная интеграция (CI) и непрерывное развертывание (CD).

  • CI постоянно строит, интегрирует и тестирует новый код в среде разработки. Сборка и тестирование автоматизированы.
  • CD – это автоматизированный подход к развертыванию или доставке программного обеспечения. Как только приложение проходит все квалификационные тесты, DevOps развертывает его в производство.

Оркестровка DataOps

«Оркестратор» может быть программным объектом, который контролирует выполнение шагов, обходит этапы и обрабатывает исключения.

В конвейере значений тесты отслеживают значения данных, проходящие через фабрику данных, чтобы выявить аномалии или пометить значения данных вне статистических норм. В конвейере инноваций тесты проверяют новую аналитику перед ее развертыванием.

Qlik Sense + DevOps = SenseOps

https://senseops.rocks/

Использованные ресурсы:

5 1 голос
Рейтинг статьи

Подписаться
Уведомление о
guest
0 комментариев
Встроенная Обратная Связь
Просмотр всех комментариев
0
Оставьте, пожалуйста, комментарий!x