Где data science в бизнесе и в управленческом консалтинг

Где data science в бизнесе и управленческом консалтинге

Т.е. я как бы физик, но, тем не менее, с довольно большим бэкграундом и опытом в computerscience. Для меня как бы хороший инженерный, сильный инженерный бэкграунд – он говорит о многом. Так сказать, datascience– в самом названии слово scienceнемножко это некое преувеличение. Если честно, когда мы приходим к клиенту, если у него есть datascienceteam, это прекрасно. Это у вас практически autoML, больше ничего делать не надо, вот вам черный ящик.

На наш взгляд data-driven подход не работает. Потому что после того, как мы прилетели на платформу, у нас у всех переклинило, и мы тут же переделали часть модели. 

Сегодня в гостях Леонид Жуков, директор datascienceBSGGamma. Мы поговорим с Леонидом и его командой о том, над какими проектами работают data-саентисты в Гамме, тем работа в Гамме отличается от традиционного консалтинга и от работы в технологических компаниях. В чем заключается отбор в Гамму, как в нее попасть, какую роль играет формальное техническое образование и как трансформировать бизнес гигантских корпораций с помощью науки о данных. Поехали!

Расскажите, пожалуйста, об эволюции ваших научных интересов, ведь вы начинали вообще с физики.

Да, начинал я с физики, это было давно, и просто так получилось, что когда-то я поехал в аспирантуру в США, и в общем начал заниматься в аспирантуре graduateschoolзаниматься физикой. Оказалось, что довольно много задач, которые решаются – я знал из теоретической физики – они решаются с помощью вычислительных методов, численных методов. Это с одной стороны. С другой стороны, оказалось, что наше образование МИФИшное было достаточно сильное, и поэтому какие-то предметы, которые там надо было обязательно учить, мы в принципе уже проходили, и поэтому у меня было некоторое время, я стал брать классы в computerscience. И в результате этого у меня образование немножко сдвинулось, т.е. я как бы физик, но, тем не менее, с довольно большим бэкграундом и опытом в computerscience. И потихонечку вот так сказать численные методы, методы вычислений – сначала я их использовал в физике, после этого начал работать уже с биологическими данными, еще с другими данными, ну и в итоге медленно-медленно-медленно все это переместилось в численную науку. Тогда в 2000-х годах еще это не называлось datascienceи про это не говорили как bigdata, но на самом деле данные были большие, и довольно много велось вычислительной работы даже тогда. Ну, такая короткая история. 

Физика – отличный бэкграунд для data-саентиста?

Ну, по крайней мере, скажем, если я… я довольно комфортабельно, комфортно чувствую себя на проектах, связанных с инженерными задачами, задачами производства, просто потому, что конечно физика дает возможность понять процессы. 

Вы еще очень много делали исследований в теории социальных сетей, если я не ошибаюсь. Расскажите о них.

Ну, здесь как бы история такая, что опять же, если мы вернемся немножко назад, в 2000-е годы, когда стали появляться социальные сети и вообще этот взгляд на информацию, как связанную между собой как-то, такой граф информационный – это было нечто новое, и было, естественно, интересно с точки зрения исследований. И в целом эта наука о социальных сетях – она где-то… Ну, в целом обычно называют networkscience– наука о сетях – она возникла тоже где-то на стыке веков и стала активно развиваться. Она, на самом деле, представляет из себя такую мультидисциплинарную науку, ее двигали вперед и физики, и математики, компьютерщики, социологи, и это был таким интересным очень и активно развивающимся направлением. И в то же время примерно в те же годы я присоединился к Yahoo, и Yahooв этот момент уже, понятно, это был и поисковый движок, и Yahooприобрело Flickerсоциальную сеть для обмена фотографиями, был Yahooмессенджер – т.е. уже была возможность работать с довольно большими реальными социальными сетями. Как-то так.

Смотрите, вот сейчас, после исследований в физике, в теории сетей – не кажется ли работа в datascienceне такой интеллектуально глубокой? Я поясню. Еще в 14м году в интервью вы говорили, что datascienceсейчас находится на уровне master’sprogram, то есть как таковых научных вещей в ней пока нет. Можно сказать, что слово scienceздесь еще не оформилось. 

Да. На самом деле, я в общем-то до сих пор считаю, что так сказать datascienceв самом названии слово scienceэто немножко преувеличение. Потому что когда мы говорим о science, мы говорим о фундаментальных вещах – ну, например, физика, химия, математика, биология – те дисциплины, где мы изучаем и пытаемся понять законы природы, какие-то фундаментальные вещи. Datascience– это скорее все-таки такая прикладная дисциплина, где мы используем различные наработки, скажем, методов машинного обучения и других, для того чтобы найти определенные закономерности в данных. Я бы не сказал, что мы работаем с какими-то фундаментальными законами природы здесь. Т.е. для меня все-таки datascienceэто больше прикладная дисциплина. А по поводу того, что интересно – не интересно – ну, на самом деле, что здорово в datascience– что мы начинаем использовать методы, которые когда-то раньше, опять же, в 2000-х годах применялись, скажем, в физике, применялись в таких фундаментальных науках – мы их начинаем использовать для задач бизнеса. И вот это вот становится достаточно интересным. И мы смотрим на разные технологические процессы, мы смотрим на процессы, которые происходят, скажем, с покупателями при покупке вещей – открываются огромные возможности для приложений самых разнообразных. 

Но пока что сами методы из datascience, в принципе, которые идут из математики-физики – они ведь не очень сложные, пока это по сути линейная алгебра, немножко анализа, некоторое количество вещей из теории вероятности. Т.е. что-то сложней пока нет.

Ну, я бы сказал, как это – вы бы осторожнее с тем, что сложно – не сложно. Вопрос, что сложнее – квантовая механика – ну, да, она сложнее, но мы не используем методы квантовой механики здесь. Но в то же время с точки зрения самой математики, действительно, в итоге все, конечно, сводится к некоторым фундаментальным уравнениям, линейной алгебре и т.д., но это не означает, что это просто.

Как вы думаете, а что еще может прийти в datascienceиз физики и математики? Ну, допустим, на горизонте 10 лет.

Хороший вопрос! Даже так с ходу не знаю. На самом деле, одна вещь, которой не хватает datascienceна сегодняшний день, и в принципе многим методам машинного обучения и то, как используется, – это на самом деле оценка качества результата с точки зрения, скажем, более точной работы с длительными интервалами и погрешностями. Потому что обычно все-таки так получается, что в datascienceдаются некоторые предсказания, но в то же время, скажем, в науке всегда очень и очень щепетильно относились к тому, что если мы говорим, мы предсказываем какую-то величину, дальше мы даем некоторый доверительный интервал и вероятность, в которой мы считаем, что эта величина правильная. Вот в datascienceпока это особенно не принято делать еще. Хотя, на самом деле, это очень важно для того, чтобы использовать результат на практике.

Я слышу, что datascience– это в меньшей степени наука пока и в большей степени практика ее применения, по сути, инженерная часть.

Да.

Но тогда возникает вопрос, что может быть, машинное обучение может само себя обучать, само себя реализовывать? Что вы думаете про automl? Что automlможет, а где все равно нужен человек и без человека не обойтись?

Вы знаете, это очень хороший вопрос, и что мы подразумеваем под automl? Мы подразумеваем, что у нас есть определенные методы, которые мы хотим разработать, которые могли бы, когда мы просто даем сырые данные, они сами могли бы находить определенные закономерности. В принципе, я бы сказал, automlвозможны и даже на сегодняшний день уже в некотором смысле существуют в форме так называемой transferredlearning, когда у вас есть уже некоторые модели и натренированные определенным образом их как бы можно распространять на новые данные, и есть некоторая стандартизация внутри определенных классов и типов задач. Ну, т.е., например, когда мы делаем распознавание образов, и у нас есть модели, которые работают для распознавания образов, мы действительно, создав такую модель, мы можем тренировать на разных данных, и она будет работать для распознавания самых разных образов. В то же время, когда мы решаем многие задачи, связанные с бизнесом, у нас не настолько входные данные, которые используются, они очень разнообразны. И, например, если вы там решаете задачу, не знаю, оттока клиентов в банке, то у вас в качестве параметров входных может идти возраст, и пол, и адрес, где человек живет, и его транзакции предыдущие, и его друзья, и так далее, и так далее, и так далее, и так далее. И в этом во всем нужно разобраться и каким-то образом, используя все эти самые разнообразные факторы, построить модель, основываясь на этих факторах. Я сейчас не вижу, как, скажем, автоматизированная система, которая не понимает и не знает, как это все было устроено, научится брать просто эти данные и сама создавать вот эти вот фичи. Т.е. когда мы строим модели, есть в принципе два этапа – у вас есть featureengineering, т.е. превращение сырых данных в некоторые осмысленные факторы, от которых может зависеть результат, и после этого используя эти факторы, дальше основываясь на них вы строите предсказательные модели, и дальше у вас уже есть там какие-то стандартизованные стандартные алгоритмы, которые работают, используя эти факторы. Вот правильный выбор стандартных алгоритмов – да, вполне возможно автоматически. Перебор различных параметров, подстройка и т.д. Вот создание этих факторов – это в некотором смысле даже где-то на грани науки и искусства, просто потому, что нет так сказать какого-то одного правильного способа это делать, и здесь, на самом деле, требуется понимание, с одной стороны, методов машинного обучения, чтобы понимать, что вообще можно скормить в алгоритм. С другой стороны, требуется экспертиза, domainexpertise– экспертиза в той области, в которой вы работаете, чтобы понимать, что имеет смысл, что не имеет смысл. Скажем, если мы говорим – мы рассматриваем, скажем, сигнал идущий из датчиков, надо смотреть на саму величину сигнала, или надо смотреть на скорость, как он меняется, т.е. на величину или на производную. Что может быть важным? Это может знать эксперт, специалист, который понимает, что эта величина меряет. Ну, и так далее, и так далее, и так далее. Да?

Т.е. по сути фиче-engineering– это то, где требуется data-саентист, потому что требуется domainknowledgeи требуется некоторый уровень креатива.

И требуется понимание того, как работают алгоритмы, потому что фичи можно делать самые разные, некоторые из них могут быть немножко бессмысленны для алгоритма, нужно немножко понимать ту часть тоже. Т.е. это как раз тот человек, который понимает – с одной стороны у него есть представление о том, как работает сама область, с другой стороны, есть понимание о том, как устроены алгоритмы. Т.е. это как раз позиция datascientist.

Вот у меня сейчас будет, наверно, глупый вопрос, в чем заключается – смотрите, ведь часто модели тех же нейронных систем они работают как blackbox. Им не нужно понимать данные для того, чтобы на их основе что-то выдавать. Например, картинки – им не нужно понимать концепцию кошки, чтобы понять, что это кошка. Вот аналогичный вопрос – может быть, моделям и не нужно понимать доменную экспертизу какую-то, чтобы все равно выдать полезный результат, если мы можем оценить эту модель?

Смотрите, это кстати интересная тема. Дело в том, что если обратите внимание, – нейронные сети, как вы правильно заметили, они устроены так, что у вас на вход подаются реально просто сырые данные, т.е. необработанные. И где работают нейронные сети хорошо на сегодняшний день? Они работают в распознавании картинок, они работают хорошо для текста, они работают хорошо для звука, т.е. там, где у вас, во-первых, есть сигналы, временное распределение сигнала, во-вторых, где у вас входные параметры однородны. В каком смысле – когда вы смотрите на картинку на вход, и пытаетесь проанализировать ее с помощью нейронной сети, на вход вы подаете значение для каждого пикселя значение интенсивности цвета ее – от 0 до 256 или как угодно закодировано. Но они в этом смысле все одинаковы. Т.е. все фичи в этом смысле это просто значения, и все пикселы одинаковы. У вас для каждого пиксела одно и то же. После этого нейронная сеть складывает, прогоняет через алгоритмы. Если вы пытаетесь сделать решить задачу с, опять-таки, пример, который я привел с банком, у вас одна фича – это возраст, другая фича это может быть пол, третья фича – адрес, четвертая фича – доход. Просто так их сложить смысла особого не имеет. Т.е. они совершенно разнообразных типов фичи. В то время как внутри, скажем, когда вы делаете imagerecognition, у вас все фичи абсолютно одного и того же типа – это просто интенсивность каждой точки, каждого пикселя. И в этом смысле для такого типа задач действительно нейронные сети работают. Теперь один нюанс еще. Смотрите. Мы сейчас с большой легкостью говорим об использовании глубоких нейронных систем для классификации, для обработки имиджей. И мы говорим, что фичи особо не нужно там делать, мы просто залили туда напрямую данные и все сработало. Но прежде, чем это произошло, прошло много лет, пока исследователи занимались созданием архитектуры этих сетей. Т.е. в некотором смысле сложность фиче-engineeringперешла в сложность архитектуры сетей. И вот то время, которое сейчас, может быть, мы тратим на создание фич для, скажем, работы с… для банковских клиентов – вот это время было затрачено, тысячи человекочасов, десятки тысяч человекочасов исследователей, которые придумали оптимальную формулу сети для того, чтобы она научилась распознавать образы. И теперь вот это вот все время, которое закодировано в некотором смысле в черный ящик и в сеть, мы легко используем, потому что все картинки они стандартизованы, у вас все сигналы – это значение в пикселе. Вот в таком случае действительно вот для такой истории действительно у вас практически automl, больше ничего делать не надо, вот вам черный ящик.  Но таких примеров – вот мы привели, так сказать, три примера – есть ли еще такие? Ну, наверно, можно как-то больше стандартизовывать, но в целом многие задачи они настолько индивидуальны и уникальны, что я больше чем уверен, что этот этап фиче-engineeringон никуда не денется. 

Мы сейчас с вами обсудили математическую, техническую сторону вопроса. Интересна еще и бизнес сторона. Вот не так давно вы говорили очень интересную вещь: «Просто модель – это математическая развлекаловка. Нужны рычаги для трансформации бизнеса». Вот какие рычаги есть у BСG, расскажите о них, пожалуйста. 

Да, ну это вы хорошо, конечно, вспомнили все мои фразы.

Я готовился. Смотрите. У нас мы даже так у себя говорим – мы говорим, что при внедрении алгоритмов, при использовании datascienceв бизнесе, у нас есть такое правило – мы называем 10-20-70 – это те усилия, которые нужно приложить, для того, чтобы это внедрить, для того, чтобы получить value, создать ценность от наших алгоритмов. Т.е. 10% идут усилий на создание алгоритмов, 20% на внедрение самой технологии и 70% на changemanagement– на изменение бизнеса. 

Что я имел в виду. Ну, опять-таки, пример, скажем, я довольно много занимаюсь задачами, связанными с предсказаниями поломок оборудования на производстве. И, скажем, мы можем построить модель, которая предсказывает время до поломки определенного оборудования. Ну, например, у вас есть насос какой-нибудь или турбина, который работает, и глядя на данные, идущие с сенсеров с этой турбины, мы можем сказать, что наверно через 3 недели мы считаем, что может произойти поломка. Ну, в некотором смысле анализируете кардиаграмму оборудования. Какую модель можно создать? Прекрасно. Например, она такая модель создана, она теперь это все считает. Что происходит дальше? Дальше для того, чтобы создать какой-то valueдля клиента, эту модель нужно запустить в производство, и дальше все службы они должны работать, используя эту модель. В данном случае это будут операторы, которые должны понимать, которые оперируют этим производством, должны понимать, что с этим делать и как реагировать, и система maintenance, потому что есть определенная система, с помощью которой поддерживается работа, которой производится техобслуживание – ее нужно изменить, потому что если ее не изменять, тогда смысла во всей этой истории нет никакого. Мы можем потом более детально поговорить о том, как это работает, но в целом без этих изменений valueникакого вы не получаете. И вот внесение этих изменений в бизнес – это тяжелая большая задача, и как раз преимущество BCGзаключается в том, что BCGработает с бизнесом уже больше 50 лет, они понимают, как делать, как осуществлять changemanagementв бизнесе. И на самом деле, мне кажется, это критическое совершенно отличие, скажем, BCGот многих технологических стартапов, которые в принципе по технологии они, в общем-то, могут создавать эту технологию. У них возникают сложности с внедрением этого в бизнес, потому что для этого нужно иметь опыт работы с большим бизнесом, иметь доступ к этому большому бизнесу и понимать, как сделать так, чтобы люди начали использовать ваш продукт.

Расскажи свой самый интересный проект.

Вообще все проекты мои интересны. В BCGмне все проекты мои нравятся.

Выбери один какой-нибудь.

Ну, один самый – это как раз платформа. Помимо того, что была интересная задача, интересная команда, мы знали, что мы делаем, был некоторый драйв – как и всегда – но в этот раз это была очень интересная и необычная локация, именно сама платформа. Потому что это нужно было пройти тренинг подготовки к вертолетным полетам над водой, т.е. учиться по сути тонуть в вертолете и выбираться оттуда, даже вверх ногами, это очень интересный такой experience. Потом, значит, мы летели на эту платформу, там жили неделю вместо трех дней, потому что был туман и мы не смогли вылететь. И, кстати, не смогли туда прилететь с первого раза. Т.е. это вообще было интересно. Мы не смогли прилететь и не смогли улететь с первого раза оттуда. Вот. И необычный объект в море – такая вот махина железная стоит посреди моря, качает нефть, газ и как-то работает, шумит – ну, это превосходное зрелище, это очень завораживает. Думаешь, насколько гений человека вообще продвинулся вперед, что он такие вещи может строить.

А расскажи, пожалуйста, зачем туда вообще нужно летатьdata-саентисту? Казалось бы, данные можно обрабатывать и в офисе.

Да, данные можно обрабатывать в офисе, кстати, вот это интересный был момент, как мы данные на вертолете переносили – в итоге мне их привезли на вертолете на жестком диске, прям с самой платформы. Но это ладно, такой интересный факт. Потому что на наш взгляд, data-drivenподход не работает. Нужно – нам дали данные, мы просто сидим с данными и смотрим исключительно в данные и пытаемся сделать какие-то выводы на них, и построить адекватные реальные модели на этих данных, не зная специфику этой области, не посмотрев своими глазами, как все происходит, – мне кажется, это невозможно. Потому что существует огромный просто разрыв в понимании между dataset’ом на компьютере и вот этой вот реальной жизнью – то, почему эти данные собрались так, почему значения такие, что происходило в этот момент. Потому что сущность платформы – данные датчиков, вот мы смотрим на данные датчиков, хорошо. Вот был какой-то период, когда мы думаем – наверно, устройство себя вело очень плохо. А почему оно так себя вело? Мы звоним на платформу по телефону, начинаем объяснять, отсылаем к картинке – люди уже не помнят, к сожалению, операторы, что там происходило в деталях. Поэтому приходится туда прилетать, вместе с ними садиться и понимать, почему так или иначе они себя ведут, почему они принимают те или иные решения по управлению этим оборудованием и что они делают в случае, если они видят те или иные показатели. Потому что в нашем случае оказалось, что до какого-то момента там были вообще пуско-наладочные работы, и этот кусок данных вообще не стоит смотреть. Потом те параметры, которые мы видели, что они аномальны или неправильные, т.е. оборудование как-то плохо работало, оказывалось, что просто кто-то уронил огромный гаечный ключ рядом с механизмом, датчик это зафиксировал – вибрационный датчик – зафиксировал, ну, вот, и на самом деле все ок. И вот пока мы не поговорили с людьми на самой платформе об этом обо всем, прям с ними лицом к лицу – не посмотрели на это оборудование, не посмотрели, как операторы им управляют, как обходчики их осматривают – паззл в голове не сростался вообще. Потому что после того, как мы прилетели на платформу, у нас у всех переклинило, и мы тут же переделали часть моделей, а другую часть просто перекалибровали, изменили параметры подготовки данных – окна, с которыми мы смотрим какие-то показатели. Потому что пока мы не увидели процесс, не прожили его, мы не понимали до конца, что происходит.

Ну, т.е. на платформе вы не только собираете экспертизу и общаетесь с людьми, но вы и модели сами там делаете? Или вы просто приезжаете пообщаться, а потом летите обратно и разрабатываете? 

В нашем случае мы общаемся. Т.е. мы уже прилетели с какими-то моделями, т.е. уже была проведена подготовка. Ну, еще это был организационный момент, потому что на платформу полететь – это огромная работа по подготовке этого мероприятия. Т.е. это согласование со всеми заинтересантами, что мы летим, получается, бронирование места на этот вертолет, прохождение этого тренинга самого, где мы тонули на вертолете – т.е. это все, пока мы все это прошли и сделали, а еще надо работать…

Работать можно ночью или в самолете.

Ну, это в том числе да. Вот где-то в третьей четверти проекта мы уже туда полетели. Поэтому у нас уже были какие-то модели, было уже понимание, потому что у нас было огромное количество звонков с платформы, с операторами, прям даже ночью мы там сидели с ними общались, потому что там смена меняется. Но с ними полетели. И там уже прям поняли, что вот здесь надо поправить, вот здесь изменить, вот здесь нам операторы забыли рассказать… ну, не то, что забыли – скажем так, какие-то детали были не очевидны в наших вопросах, и нам они до конца были не очевидны. А когда мы все увидели, сразу все по-другому. И там же прям мы все переделали, перетестировали.

Расскажите, пожалуйста, как искать задачи для data-scienceв бизнесе? Потому что, с одной стороны, dataсаентисты обладают экспертизой в datascience, но могут не обладать domainknowledge, а бизнес обладает domainknowledge, но не понимает, что datascienceможет для них сделать. Как подружить?

Вы знаете, здесь, мне кажется, нет короткого ответа, как. Я могу рассказать, как это у нас происходит на практике. Так сказать, идет движение с двух сторон, с обоих сторон. С одной стороны, у бизнеса есть вполне себе конкретные задачи, с которыми он приходит к BCG. Это могут быть задачи, например, по управлению персоналом или еще чем-нибудь. Например, BCGклиент может спросить: «Вы знаете, у меня очень высокая текучесть кадров, мы хотели бы посмотреть, что происходит». Он нам не говорит, что это задача математическая, у него есть просто реальная проблема – уходят люди. Дальше консультанты могут посмотреть, понять, из-за чего они уходят, и если окажется, что мы можем посмотреть на эти факторы повлиять, а дальше мы смотрим на это и понимаем, что на самом-то деле ко всему прочему мы также можем попробовать предсказать, кто из людей уйдет. Наверно, скорее всего, в данном случае клиент не знал, что есть такая возможность. Они пришли с определенной задачей, с определенной болью – мы сказали, что знаете, есть современные математические модели, которые вам позволят предсказать, кто из этих людей уйдет, и тогда вы можете принять активные меры. Бывает такая ситуация. Бывает, естественно, ситуация, когда есть различные публикации в журналах, люди видят, бывает ситуация, когда кто-то слышал, что что-то происходит в другой области, и спрашивается, можно ли применить это здесь. Т.е. совершенно с разных сторон подходят. Но опять же, наверно, ключевым является то, что мы никогда не говорим клиенту: «Смотрите, у нас есть новая технология, давайте придумаем для нее применение». Мы всегда идем от бизнес задачи, от бизнес процесса, от каких-то businesspains, которые существуют.

Либо применение вы должны сами придумать, а потом сказать: «Вот ей применение». Это не клиент должен придумывать.

Явно не клиент. И даже если применение – должно быть очень практическое, которое показывает pathtovalue, т.е. как это, зачем это нужно клиенту.

Вот тогда обратный вопрос. Клиенты ведь часто сами развивают у себя компетенции в datascienceи, в принципе, у крупных компаний в России уже есть большой набор data-саентистов своих. Вот как в таких условиях BCGGammaможет принести value?

Вы знаете, если честно, когда мы приходим к клиенту, если у него есть datascienceteam, это прекрасно. Потому что это означает, что они уже на определенном этапе развития, это означает, что те модели, которые мы будем создавать, будет кому передавать.

Уже культура есть.

Культура, уже есть counterparts, т.е. это, на самом деле, очень хорошо. Что часто мы наблюдаем в таких ситуациях? Потому что понятно, что тема datascienceона уже лет 5 существует, и многие компании начали, конечно, создавать себе такие команды. Тем не менее, что мы замечаем, что случается. Обычно в эти команды либо нанимают людей внутренних, которые не были никогда, у которых нет профильного образования в datascience, они как бы знают компанию, они понимают, что как, но им не хватает знаний в технологии, и тогда такая команда она больше страдает от того, что они действительно просто не могут… у них просто нет современных алгоритмов, они не до конца понимают, как это все действительно технически работает. С другой стороны, бывает более частая история, когда нанимаются внешние люди, которые хорошо понимают машинное обучение, понимают, что такое datascience, они туда приходят, но у них нет никакой связи с бизнесом. И оказывается команда, которая немножко в таком вакууме, и она ходит по компании, пытается спросить, а что мы для кого здесь можем сделать. Т.е. нарушена вот эта вот связь между алгоритмами и практическими бизнес применениями. И в таких ситуациях обычно как раз BCGпомогают с тем, чтобы прийти и помочь им приоретизировать задачи, собрать задачи, выбрать правильные задачи и запустить процесс передачи алгоритмов, передачи решений в бизнес, имплементация. Вот эти как раз 70%, о которых мы говорили. И здесь как BCGGammaмы помогаем им разобраться с задачами и, так сказать, kickstarttheprocess. Еще хочу немножко просто прокомментировать. На самом деле, да, с одной стороны, многие компании создают такие подразделения. Но представьте себе, что вы завод, который производит трубы, и вам нужно теперь стать digital. Ну, где вы возьмете людей, которые к вам придут работать? Причем вы еще и не в Москве, а где-нибудь. Ну, очевидно, что для них это задача очень и очень сложная. Поэтому, на самом деле, еще одна из разработок, которую мы делаем тоже в BCG– это мы помогаем запустить эти проекты и помогаем собрать и создать команду. И тогда это для нас решает тоже много проблем с тем, кому передавать разработанные алгоритмы и разработанные системы.

А вот как собрать команду для такого примера, как вы сказали? Завод, где-то еще и не в Москве.

Тяжело. Тяжело-тяжело-тяжело. А есть разные варианты. Есть варианты, например, и тоже уBCGесть подразделение BCGdigitalventures, когда мы создаем вместе с клиентом, например, стартап, в который клиент вкладывает деньги, BCGвкладывает деньги, и этот стартап в него входят, например, какие-то эксперты от клиента, и мы набираем людей, естественно, он сажает в Москве или еще где-то. Т.е. делается некое такое гораздо более секси предложение, чем просто работать на трубопрокатный завод. 

Коворкинг со смузи

Да-да-да-да-да. Но в этом есть некоторый смысл. И, кстати, это проблема не только российская, это проблема во всем мире, потому что как правило вот такие вот все индустрийные тяжелые индустрии они, естественно, сидят не в столицах. Представьте себе США – они где-то сидят посередине Америки, они тоже не могут нанять себе людей. И вот эта вот история с тем, чтобы привносить новые технологии – для этого нужно приходится создавать либо какие-то setlightофисы, либо еще идти на различные ухищрения, чтобы людям было интересно там работать.Плюс, конечно же, еще один такой нюанс – для создания datascienceподразделения вам нужно набирать некоторую критическую массу людей. Просто когда есть один-два человека, они будут настолько оторваны от всего datascienceкомьюнити, что они в итоге в общем-то не выживут в этом мире. Т.е. нужно как минимум 10-15 человек команду собирать, чтобы они внутри себя могли обсуждать идеи, чтобы могли работать над разными проектами, чтобы создалось вот такое вот командное ощущение.

Почему когда нанимают data саентистов, очень много внимания уделяют техническому бэкграунду? Потому что казалось бы, data science требует, конечно, интеллектуальной… больших интеллектуальных усилий, но при этом это все-таки не science, это в какой-то степени и art тоже – прикладная вещь.

Ну, вы знаете, я немножко как бы biasedв этом вопросе, потому что у меня есть тоже инженерный бэкграунд. Мне кажется, что в некотором смысле гораздо проще взять инженера и обучить его каким-то бизнесовым вещам, чем пойти в обратном направлении. Дело в том, что все-таки инженерная дисциплина она очень прикладная и требует некоторого так сказать, ну, опыта, привычки и определенного склада ума, и просто люди, которые идут в инженерные дисциплины, они как бы обладают этим складом ума и этим подходом. Все-таки как бы data science, или можно носить – это в принципе инженерная дисциплина, потому что мы создаем продукты, которые должны работать. И это требует определенного кругозора и определенного опыта в создании таких продуктов. Т.е. в этом смысле я все-таки чуть больше, ну, стараюсь смотреть… Для меня как бы хороший, сильный инженерный бэкграунд он говорит о многом. Т.е. понимаете? Можно пойти послушать курсы на курсере и что-то знать об этом.

Вы предвосхитили мой вопрос.

Можно прослушать и что-то знать. Будете ли вы глубоко понимать все это? Ну, наверно, скорее нет чем да, потому что эта область все-таки достаточно широкая. Не случайно, чтобы получить образование, например, диплом computerсаентиста, вам нужно 4-5 лет, потому что существует много-много-много дициплин. Там год занимаетесь computervision, год занимаетесь операционными системами, вы год занимаетесь компилляторами, вы год занимаетесь программированием на разных языках, вы год занимаетесь анализом данных, методами машинного обучения… Т.е. это на самом деле большая дисциплина. Когда вы слушаете курс на курсере – ну, у вас так сказать какие-то вещи сжаты в маленькие кусочки. Т.е. в принципе, вы умеете говорить, вы что-то понимаете, но есть большая разница между тем, чтобы понимать концепцию и тем, чтобы делать продукт, который работает и работает надежно.

Вот смотри, если в CVвуз не технический, но при этом человек даже где-то поработал немного по технической специальности, видно, что много курсов проходил – вот его не отсеете? 

Не отсеем. Т.е. будет здорово, если, конечно же, кандидат подкрепит свое резюме сопроводительным письмом, где он напишет, почему ему интересно поменять, допустим, свой карьерный трек, или почему он хочет после гуманитарного направления пойти в Гамму, и он скажет о том, что да, он учился сам, у него были какие-то курсы, он умеет программировать, он может быть делал какие-то проекты, какие-то… Может быть, у него практика какая-то была, не знаю, хакатон или еще что-то, то мы в любом случае рассмотрим.

А github смотрите?

Смотрим.

Нужно github причесать, если не технарь, нужно причесать github, и показать, что технарь. 

Дело в том, что проекты, на которых мы работаем, команды обычно очень маленькие. Т.е. у нас команда может быть 2-3 человека, иногда даже может быть один человек dataсаентист и дальше у вас будет projectleader. Это означает, что вся ответственность лежит на этом человеке. При всем нашем понимании о том, что должен быть и есть всякие техники pairprogrammingи так далее, у нас к сожалению при той скорости, с которой мы разрабатываем, мы это можем использовать в очень ограниченном количестве. И поэтому нам нужно, чтобы люди уже придя к нам умели сами создавать надежный код, надежный программный продукт. Это критически важно просто потому, что вы здесь являетесь не маленьким винтиком в большой машине, и кто-то потом может прийти, посмотреть и поправить, старший товарищ придет и все это исправит, сделает за вас. Нам нужно, чтобы то, что вы создавали, оно работало. А если у вас – как бы если человек приходит, послушав курсы на курсере и нет профильного образования – ничего страшного, если он при этом несколько лет до этого проработал и действительно писал код, который идет в production. Это значит, что он действительно уже набил все те шишки.

Еще и в продакшн.

Ну, да.

Не просто модели.

Ну, ок. Может быть, не совсем уж, может быть, не полностью в продакшн, но по крайней мере, он работал с настоящими softwareинженерами, которые могли посмотреть на его код и сказать: «Ой! Так не делай. Никогда». Вот у нас, к сожалению, опять-таки, в силу того, что команды у нас небольшие и в силу того, что мы работаем с очень большой скоростью, у нас реально довольно сложно обучать таким вещам. Поэтому хотелось бы, чтобы человек приходящий, он умел это делать. С точки зрения профиля, мы ищем ребят сильных, с живым умом, которые хотят развиваться, хотят учиться. Это некая смесь аналитики и бизнес экспертизы. Ребята из сильных технических школ, которые умеют программировать, которые понимают, как результат их работы влияет далее на бизнес и которые, наверно, не боятся путешествовать.

Путешествий не боятся.

Да, потому что команда международная, проекты международные, и на самом деле большая часть работы ребят – это действительно travel, travelне только в России, но и очень много проектов зарубежных. Про этапы отбора. На самом деле, команда очень сильная, и мы стараемся в рамках процесса отобрать самых-самых сильных ребят. Я бы сказала, что рекрутинг процесс готовит, в принципе, вас к работе в BCG. Первый этап – это скрининг документов. Как я уже сказала, это резюме и сопроводительное письмо. В письме мы ожидаем, что кандидат нам расскажет, почему ему интересно попробовать в BCGGamma, почему он сильный кандидат. После скрининга мы либо встречаемся на эйчар интервью, либо мы отправляем onlinecodingchallenge. Эти этапы мы можем менять. Соответственно, на эйчар интервью мы проверяем мотивацию, мы проверяем действительно спрашиваем про проекты, которые были в больших данных и т.д., мы тестируем английский язык, в том числе, общаемся на английском. Нам интересно, как человек дальше видит свой карьерный путь, насколько его пожелания мэтчатся с тем, что мы ему можем дать здесь, потому что мы абсолютно открыто говорим о каких-то там плюсах и минусах работы у нас. На onlinecodingchallengeмы даем техническое задание, они варьируются в зависимости от профиля кандидата, там как правило несколько вопросов, где ребятам нужно кодить – кодить либо на R, либо на Питоне, и есть несколько открытых теоретических вопросов. Плюс, что технические тесты проверяют наши ребята. Т.е. проверяет не компьютер, а наши dataсаентисты.

Ну, там наверно тестирует программы компьютер, но потом они еще смотрят на качество кода. Или не так?

Ребята полностью проверяют сами качество кода и теоретические тоже вопросы.

Ок. Что дальше?

После технического задания и после эйчар интервью мы встречаемся здесь на техническое интервью с командой и с Леонидом Жуковым. И абсолютно, ну, здесь скорее уже не по резюме будет общение, а именно технические термины, какие-то формулы, ребята дают технические задачи, представляют, допустим – вы к нам пришли, и вы работаете как datascientist, у вас такой проект, такая проблема – как вы к ней подойдете, допустим. И смотрят на глубину ответов кандидатов, могут попросить даже какой-то кусочек кода написать. Ну, в общем…

Но вопросы обычно касательно datascience. Т.е. не будет вопросов по алгоритмам структуры данных, то что гномики называют.

Мне кажется, в зависимости от профиля кандидата, во-первых, т.е. у нас есть разные ребята, есть ребята, которые эксперты в machinelearning, есть ребята, которые эксперты в operationalresearch, есть новое направление для нас – это для внешней аудитории я бы сказала, что это называется софтовый инженер, и в зависимости от того…

Там гномики, скорее всего, будут.

Там могут быть.

Так, это техническое интервью. Что еще?

Соответственно, техническое интервью с командой, техническое интервью с Леонидом Жуковым и с Леонидом уже на английском, как правило, и если мы говорим про full-timeпозицию, то есть региональный раунд, состоящий из 2 технических интервью с нашими представителями из других офисов, если мы говорим про стажировку – у нас сейчас идет отбор на стажировку – то там одно техническое интервью с Леонидом и командой и только одно интервью региональное, где мы уже даем соответственно оффер.

Одно региональное. А что значит региональное интервью?

Под региональным мы подразумеваем, поскольку, еще раз, команда Гаммы международная, мы предполагаем, что в нашем процессе участвуют коллеги из других офисов. Т.е. из регионов. Могут быть из Парижа, из Испании – любой доступный интервьюер.

А кейс-интервью бывают?

Если мы говорим про full-timeпозицию, то в рамках процесса есть также кейс-интервью, мне кажется, это самый сложный этап отбора для наших dataсаентистов, потому что как правило ребята в Гамму они не заточены на решение кейса. Т.е. известно, что ребята, которые идут в классический консалтинговый трек, они не дорешали огромное количество кейсов. Здесь мы стараемся, на самом деле, помочь. Мы направляем материалы, мы направляем ссылки доступа на сайт, где можно посмотреть, как проигрываются интервью у нас, мы стараемся организовать подготовительные мероприятия по разбору кейса, либо стараемся организовать mockинтервью, но мячик всегда на стороне кандидата, поэтому здесь скорее вопрос к внимательности кандидата, его желанию инвестировать в процесс подготовки. Понятно, что на этапе классического кейс-интервью мы смотрим немножко на другие вещи. Т.е. как правило оно бьется на несколько блоков, мы оцениваем беседу по резюме – это то, как человек рассказывает про свой опыт, про свою мотивацию, про то, какой он, насколько он хороший командный игрок…

То, что называется personal experience interview

Да. И следующая часть – это как раз кейс, где мы стандартно смотрим на математику, на некую структурированность кандидата. Ну, конечно, в меньшей степени на какой-то businesssense, которое скорее ожидается от классических консультантов. Ну, и понятно, что параллельно оцениваются коммуникации кандидата, т.е. как он выстраивает отношения, насколько он умеет слышать, можно ли с ним пойти к клиенту, условно.

Отлично. Т.е. по сути если кандидат прошел кодинг-тест, интервью с эйчар, потом интервью техническое и интервью по кейсам, то тогда получает оффер.

Да. Это если мы говорим про full-timeпозицию. Если мы говорим про стажировку, то есть возможность пропустить классическое кейс-интервью и одно региональное техническое интервью и уже доказать себя, я бы сказала, в бою.

И тогда уже можно получить потом full-timeоффер и без всяких кейс-интервью.

Абсолютно верно, да. Абсолютно.

Прекрасно.

Расскажите, пожалуйста, про позиции для dataсаентистов в BCGGamma, и как выглядит карьерная лестница.

Карьерный трек очень зависит от тебя самого, от того, насколько ты готов инвестировать в свое развитие, насколько ты ответственно относишься к своим проектам. Ребята Гамма-консультанты абсолютно выровнены по позициям с классическими консультантами, с точки зрения условий, зарплаты и т.д., это абсолютно одинаковая история.

Как консультант.

Как консультант. Только в data science департаменте. И там есть, соответственно, другие названия, т.е. это datascientist, там есть внутри уровни – там есть seniordatascientist, есть leaddatascientist, что соответствует, например, в классическом консалтинге пониманию projectleader, и есть директор. У нас карьерная лестница начинается с того, что вы приходите к нам как datascientist, потом у нас есть позиция seniordatascientist, это в принципе обе позиции связанные с так сказать вы работаете руками. Послеэтогоунасестьlead data scientist, project leader.

Это тим-лид.

Да, это тим-лид. Он также абсолютно contributive, вы также продолжаете работать, но вы уже отвечаете за кусок проекта. И дальше у нас есть позиция principaldatascientist, associateдиректор – в этих позициях вы уже обычно ведете несколько команд, несколько проектов и занимаетесь большая даже часть времени уходит на то, что вы продаете, потому что, понятно, это консалтинг, т.е. проект надо еще откуда-то брать. 

И это люди из BCGGammaтоже это делают – т.е. продают не просто BCG, BCGGammaтоже.

Обязательно. Дело в том, что, ну, опять-таки, BCG, классическое BCGоно умеет продавать проекты трансформации бизнеса. Когда мы говорим про аналитические проекты, часто не хватает у классических BCGконсультантов и руководства не хватает глубины понимания. Причем вы понимаете, когда речь идет о вот так сказать проектах, связанных с аналитиками, очень часто со стороны клиента тоже участвуют люди, глубоко понимающие технологию. Поэтому, конечно, нам, как BCG, нужно тоже, чтобы в нашей команде были люди соответствующего уровня, достаточно также глубоко разбирающиеся с технологиями. Поэтому однозначно на кейсы которых потом используется BCGGamma, мы идем продавать вместе с классиками BCG. Ну, и плюс к этому добавить, что в тот момент, когда происходит продажа, также определяются… определяется стоимость проекта, определяются ресурсы, которые необходимы. Понятно, что так сказать Gamma, люди BCGGammaпонимают, сколько нам нужно ресурсов, разработчиков и т.д., что, в общем-то, не совсем бывает очевидно для классиков.

Ну, понятно. Есть ли возможность перейти из BCGGammaв классический BCGи в обратную сторону?

Хороший вопрос. Значит, однозначно сейчас, когда BCGGammaрастет, у нас есть довольно много желающих перейти из классического BCGк нам, и мы это осуществляем. При этом, ну, пройдя техническое собеседование, уже бизнес-собеседование не нужно проходить, техническую часть нужно. У нас также есть примеры, когда из Gammaпереходили в классиков. Но они, я бы сказал, редки. Но бывает.

А почему редки? Просто неинтересно людям?

Ну, просто неинтересно. Потому что если вы приходите как бы хотите заниматься чем-то cuttingedge, что-то совсем новое, вам интереснее аналитика – таких людей мы обычно нанимаем. И в принципе, так сказать, стандарт такой, что чтоб попасть в BCGGammaв принципе вы должны пройти…

В классический BCG?

Должны пройти интервью классического BCGна том же уровне, на котором вы проходите его в классике. Тогда зачем вам, в общем-то, это делать? Единственное, почему люди могут уйти, – если им просто покажется неинтересно заниматься аналитикой, хочется заниматься какими-то более стратегическим

Устал за компьютером сидеть, хочу общаться.

Например, да. Т.е. такое бывает, сейчас в Гамме уже больше 600 человек во всем мире.

А в Москве?

А в Москве сейчас 15, и мы продолжаем расти. Т.е. у нас есть открытые позиции, мы активно нанимаем.

А есть ли какие-то международные проекты, на которых ребята из BCG Gamma могут участвовать?

Да, абсолютно. BCGGammaэто глобальный офис, и на самом деле у нас довольно много международных проектов. Т.е. говорили еще сегодня с ребятами, которые – они все участвуют в международных проектах. У меня работала команда на одном из проектов в России, проект был с Лукойлом, и по нефтедобыче, по оптимизации нефтедобычи, предсказанию поломок оборудования и вот сейчас просто члены этой команды, которые были тогда, – проект закончился – один из них работает на оптимизации авиационных перевозок, другой работал на проекте, связанном с оцениванием стоимости контейнерных перевозок – это другая страна. Одна страна, вторая страна, третья работает на банковском кейсе – третья страна. Т.е. в принципе, какие-то кейсы проходят в России, какие-то кейсы проходят за границей, в общем-то, по необходимости. Я бы сказал так. У нас стаффинг происходит скорее по вашему знанию, опыту и умению. Т.е. когда нужен специалист с определенным опытом, и он есть в другой стране – не вопрос, так сказать, туда человека и везем.

Ген, расскажи, пожалуйста, про свой международный опыт. Ты сейчас, получается, 9 месяцев был на проекте в Амстердаме.

Да. С сентября мне позвонили, сказали: «Есть отличный проект с оптимизацией, все как положено, он в Амстердаме. Есть ли у тебя виза?» Визы не было, поэтому первый месяц я поработал в Москве, удаленно, достаточно удобно работать, используя Slack. Все было хорошо. Но когда я присоединился уже лично, стало намного интереснее. Потому что проект связан с авиалиниями, работы, можно сказать, в аэропорту Амстердама.

Что вы делали?

Проект очень большой, конкретно мой стрим занимался crewdisruption менеджментом, а именно если есть ситуация, когда расписание infeasibleстановится, т.е. экипаж не может его снова выполнять, как с минимальными изменениями сделать это расписание снова физибл, т.е. так, чтобы его можно было выполнять экипажу. Альтернатива этому – если это сделать нельзя, приходится либо задерживать, либо отменять рейсы. Задержка и отмена – это достаточно большие косты. Соответственно, если есть tool, который советует decisionsupport, который говорит: «Вы можете пофиксить расписание вот так, или как-то поменяв расписание, либо использовав резерв, если он есть, то это может сохранить достаточно больше количество денег».

А в чем там data science заключается? На первый взгляд, казалось бы, можно придумать какой-то rulebased.

Data science в том, что задача расписания достаточно хорошо известные математические задачи, если их сформулировать правильно, то это получается именно оптимизационная задача, с целочисленными, в данном случае, булевыми переменными. И всю эту оптимизационную задачу можно запихнуть в какой-нибудь классический solver, который очень эффективен, например, Gurobi, который работает очень быстро. И тогда у вас получается уже оптимальное решение. Оптимальное решение – самое выгодное. Если был какой-то rulebase– первое – вы можете не всегда найти завершение, во-вторых, оно скорее всего никогда не будет оптимальным. Поэтому здесь как раз таки скорее operationresearch. Исследование операций и работа с данным заключалась именно найти в начале used case, где можно применить этот вот advanced analytics, operation research, чтобы сохранить достаточно большие средства.

Что было самое интересное в этом проекте?

Атмосфера, которая создавалась командой. Командой клиента и командой консультантов, т.е. у нас была абсолютно интернациональная команда. Был softwareинженер из Италии, softwareинженер из Испании, dataсаентист из Чили, dataсаентист из Гондураса, естественно, голландцы были, несколько человек из России и вся вот эта смесь создавала неповторимую атмосферу. Сама отрасль очень интересная. Т.е. я каждую неделю два раза летал туда-обратно, и по сути я видел в нашем туле расписание этих рейсов, мог проверить задержку рейса непосредственно на своем компьютере. И даже впоследствии, когда мы упростили интерфейс – на телефоне.

Рейс задержался.

Была ситуация, когда я смотрю – мой рейс задержан на 40 минут. Смотрю официальное расписание – он не задержан. Ну, поеду на всякий случай, вдруг официальное верней. Но наше внутреннее оказалось намного точнее. Как раз из-за задержки экипажа, задержки пилотов, по-моему, наш рейс задержали.

Т.е. тул предсказал задержку.

Нет, не предсказал. Тул знал…

Данные знал.

Да, данные знал. Он знал внутренние данные. Как раз если бы его можно было применить в тот момент, он еще в разработке был, то возможно, нужно было найти решение, чтобы рейс не задерживался из-за того, что на предыдущем рейсе пилоты задержались. Соответственно, я мог на себе почувствовать, когда уже сейчас в работе, что некоторым людям может быть сокращена достаточно сильно задержка благодаря нашему тулу.

А в деньгах сколько это экономии?

В деньгах зависит от рейса. Т.е. какие-то рейсы очень дорого задерживать из-за того, что у них потом очень много пересадок, и люди теряют свои пересадки. Т.е. все очень сильно зависит. Плюс тут скорее я, если говорить о самых больших сохраненных денежных средствах, то тут не наш тул надо рассматривать, а параллельно ему, которая работает не с экипажем, а с самолетами. Потому что когда вы меняете расписание самолетов, либо оптимизируете их назначение, учитывается еще расход топлива разных моделей самолетов, задержки самолетов и т.д. Т.е. здесь ценится несколько больше.

Слушай, ты пошел в BCG Gamma из аспирантуры. 

Да.

Сразу вопрос такой – а не скучно ли работать в Гамме, ну и вообще в бизнесе, после аспирантуры?

Абсолютно нет. Во-первых, работа, на самом деле, достаточно похожая, т.е. что в аспирантуре было – найти какую-то задачу, сформулировать математическую модель, проанализировать ее, может ли она быть решена, сформулировать ее, запрограммировать на компьютере. Решить ее, проанализировать решение. Здесь то же самое – есть задача, нужно восстановить расписание. Формулируется модель, делается сначала какой-то прототип буквально на коленке, он решается – мы смотрим, что задача решаема. После этого мы уже разрабатываем сам тул, т.е. полноценный тул, который развертывается, есть цикл релизов, занимаются softwareинженеры, frontendинженеры.

На этом все. Спасибо, что смотрели. Лайкайте, отправляйте друзьям, рассказывайте о нас. Мы вам будем очень благодарны. И пожалуйста, напишите в комментариях, что вам было интересно в этом интервью, а что показалось скучным и бесполезным. Мы обязательно учтем ваши комментарии. И расскажите, с кем еще вам хотелось бы посмотреть интервью. А мы снимем. Спасибо! До следующего раза!