Автор: Артем Пичугин Руководитель программ по большим данным, компания Newprolab
В сфере работы с данными есть множество разных ролей и профессий. Больше всего сейчас на слуху data scientist – человек, который занимается созданием моделей машинного обучения и извлечением инсайтов из данных. Однако это только лишь часть цепочки создания ценности из данных. Как правило, data scientist работает с уже предобработанными, собранными из нескольких источников, очищенными данными. Самостоятельно заниматься этим он не очень любит и умеет. Об этом говорят опросы.
Очевидно, что этим должен заниматься кто-то другой: профессионально и с удовольствием. Так возникла профессия дата инженера. Его задача доставлять данные до всех пользователей в организации в удобном для них виде. Он это делает при помощи пайплайнов – нескольких инструментов, объединенных в единую последовательность. Каждый из инструментов решает свою роль и делает свое преобразование над данными: загружает, трансформирует, складывает в базу данных или файлы. Пайплайны от английского – трубы. По сути дела, дата инженер прокладывает трубы до нужных людей. По этим трубам текут данные.
Дата инженер находится в самом начале цепочки создания ценностей из данных. Нет дата инженера – нет никаких моделей, инсайтов и ценности от работы с данными. Компании стали осознавать это для себя относительно недавно, наняв некоторое количество data scientist’ов и поняв, что они не являются универсальными специалистами. Мало того, склад ума дата инженера отличается от data scientist’а
На самом деле уже в самих названиях профессий заложено коренное отличие. Один из них ученый и на глубинном уровне хочет познать мир, анализируя его и пытаясь понять причинно-следственные связи: почему клиенты уходят, как узнать вернет ли заемщик кредит, в какой момент сломается оборудование. Второй – инженер и на глубинном уровне он хочет сконструировать систему, которая будет стабильно работать и выдавать результат: у аналитиков будут нужные данные в таблицах, у менеджеров будут нужные метрики на дэшбордах, у конечных клиентов будут нужные сервисы (например, качественный поиск по товарам).
Также он заботится и о качестве данных. Известна поговорка garbage in – garbage out (мусор на входе, мусор на выходе). Данные должны быть: доступными, своевременными, непротиворечивыми, взаимосвязанными, точными, полными и др. Ни одна data-driven компания не обойдется одними data scientist’ами, иначе они увязнут в сборе, обработке и очистке данных, и эффективность их труда снизится.
При этом оплата труда у обоих специалистов сопоставима — в США это 90 и 91 тыс. долл. в год соответственно. В нашей стране – 70-300 тыс. руб./мес.
Дефицит таких специалистов на российском рынке высок. Первая причина – область работы с данными развивается динамически. Ни один из вузов не готовит сейчас дата инженеров. Многие дата инженеры, которые есть сейчас на рынке, являются самоучками. Часто они знакомы и специализируются на одном-двух инструментах, и не знают всего ландшафта технологий и архитектур. Вторая причина – многие уезжают работать зарубеж. Например, в Германии большой спрос на таких специалистов.