Без дата инженера у вас не получится стать data-driven

author_newprolabАвтор: Артем Пичугин Руководитель программ по большим данным, компания Newprolab

 

 

 

 

 

В сфере работы с данными есть множество разных ролей и профессий. Больше всего сейчас на слуху data scientist – человек, который занимается созданием моделей машинного обучения и извлечением инсайтов из данных. Однако это только лишь часть цепочки создания ценности из данных. Как правило, data scientist работает с уже предобработанными, собранными из нескольких источников, очищенными данными. Самостоятельно заниматься этим он не очень любит и умеет. Об этом говорят опросы.

 

Очевидно, что этим должен заниматься кто-то другой: профессионально и с удовольствием. Так возникла профессия дата инженера. Его задача доставлять данные до всех пользователей в организации в удобном для них виде. Он это делает при помощи пайплайнов – нескольких инструментов, объединенных в единую последовательность. Каждый из инструментов решает свою роль и делает свое преобразование над данными: загружает, трансформирует, складывает в базу данных или файлы. Пайплайны от английского – трубы. По сути дела, дата инженер прокладывает трубы до нужных людей. По этим трубам текут данные.

 

Дата инженер находится в самом начале цепочки создания ценностей из данных. Нет дата инженера – нет никаких моделей, инсайтов и ценности от работы с данными. Компании стали осознавать это для себя относительно недавно, наняв некоторое количество data scientist’ов и поняв, что они не являются универсальными специалистами. Мало того, склад ума дата инженера отличается от data scientist’а

 

inzhener-dannyih-na-sajt

 

На самом деле уже в самих названиях профессий заложено коренное отличие. Один из них ученый и на глубинном уровне хочет познать мир, анализируя его и пытаясь понять причинно-следственные связи: почему клиенты уходят, как узнать вернет ли заемщик кредит, в какой момент сломается оборудование. Второй – инженер и на глубинном уровне он хочет сконструировать систему, которая будет стабильно работать и выдавать результат: у аналитиков будут нужные данные в таблицах, у менеджеров будут нужные метрики на дэшбордах, у конечных клиентов будут нужные сервисы (например, качественный поиск по товарам).

Также он заботится и о качестве данных. Известна поговорка garbage in – garbage out (мусор на входе, мусор на выходе). Данные должны быть: доступными, своевременными, непротиворечивыми, взаимосвязанными, точными, полными и др. Ни одна data-driven компания не обойдется одними data scientist’ами, иначе они увязнут в сборе, обработке и очистке данных, и эффективность их труда снизится.

При этом оплата труда у обоих специалистов сопоставима — в США это 90 и 91 тыс. долл. в год соответственно. В нашей стране – 70-300 тыс. руб./мес.

Дефицит таких специалистов на российском рынке высок. Первая причина – область работы с данными развивается динамически. Ни один из вузов не готовит сейчас дата инженеров. Многие дата инженеры, которые есть сейчас на рынке, являются самоучками. Часто они знакомы и специализируются на одном-двух инструментах, и не знают всего ландшафта технологий и архитектур. Вторая причина – многие уезжают работать зарубеж. Например, в Германии большой спрос на таких специалистов.

 

C 2015 года New Professions Lab разрабатывает и проводит открытые и корпоративные программы в области Big Data, Deep Learning и Data Engineering. В 2017 году Newprolab вышел на европейский рынок, проведя корпоративную программу для банка BGL BNP Paribas в Люксембурге. 
Наши выпускники работают в России и зарубежом: Airbnb, Яндекс, Booking, Lamoda, Zalando, Microsoft, ТВЦ, МегаФон, VISA, Райффайзенбанк, Сбербанк, QIWI, Avito, ABBYY, МТС, Альфа-Банк, Renault и др.

Дайджест  "Журнал КОМПЕТЕНЦИИ"  раз в неделю - для развития HR-карьеры и личной эффективности

Редакция

Коллеги ! Поделитесь с нами вашими новостями и достижениями вашей компании в работе с персоналом. Присылайте к нам на consult@hr-media.ru. Все статьи попадут в еженедельную рассылку - обзор отрасли.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

AEP