В фантастическом блокбастере Тони Скотта «Дежа вю» участники некоего проекта «Белоснежка» с помощью технологии распознавания образов создают открытый канал в прошлое, позволяющий герою из этого прошлого прозревать будущее. Фильм вышел на экраны в 2006 году.

В 2006 году уроженец города Невинномысск Александр Ханин, только поступивший в столичную Бауманку, еще не подозревал, что станет автором технологии распознавания образов, а созданная им в комнате 907 университетского общежития компания VisionLabs войдет в число мировых лидеров в области распознавания и анализа лиц.

Александр Ханин. Фото: Sk.ru

Для большинства людей фантастические возможности этих технологий до сих пор представляются голливудскими сказками или нахальным бредом гиков, которые сами себя назначают мировыми рекордсменами и лидерами, пользуясь технической безграмотностью современников. В случае со сколковской компанией VisionLabs лидерские позиции – это не эмоциональная оценка, а результаты самых репрезентативных американских тестов Nist и Label Faces in the Wild (последний проводит Университет Массачусетса). По Label Faces можно увидеть, что VisionLabs - в топе производителей, превосходит такие известные компании, как Face++ и Baidu; по версии Nist алгоритм VisionLabs входит в пятерку лучших.

Это – то, что касается качества распознавания образов. По быстродействию VisionLabs в разы опережает ближайшие аналоги. При этом компания, в отличие от многих конкурентов, подает на тесты реально работающий у клиентов, а не специально адаптированный алгоритм. «Наша концепция: никаких фокусов, подаем честные результаты», - говорит Александр Ханин.

Ключевое преимущество технологии VisionLabs – компактный дескриптор (описание лица), занимающий всего 204 байта.

Есть еще такой важный параметр, как, выражаясь языком разработчиков, устойчивость, или толерантность алгоритма к разным национальностям, расам и т.д. В том же отчете Nist указывается, что алгоритм VisionLabs с большим отрывом опережает все остальные по устойчивости к распознаванию лиц на международном уровне. «Мы распознаем афроамериканцев, китайцев, индийцев, и результаты теста это демонстрируют, - утверждает А. Ханин. -У нас идет ряд проектов по всему миру, в том числе, в Африке и в Азии (в Казахстане, в Китае, в Индонезии)».

Стандарт банковской отрасли

Основной на российском рынке для VisionLabs является банковская сфера. «Факт заключается в том, что за последние три года в банковской индустрии России не было внедрено ни одной системы, кроме VisionLabs LUNA (кросс-платформенная система верификации и идентификации лиц), - подчеркивает Александр. - Ни один из конкурентов (а нашими конкурентами сейчас называют себя очень многие компании) пока не внедрил ни одного решения. Де факто биометрия по лицу от VisionLabs – это сейчас стандарт банковской отрасли».

Самое масштабное внедрение технологии VisionLabs прошло в «Почта Банке», где распознавание лиц применяется на 50 000 рабочих мест сотрудников и партнеров Банка. Решение VisionLabs позволяет системе банка распознавать сотрудников, клиентов и мошенников, при этом не применяя какого-либо специализированного оборудования – используются обыкновенные web и IP-камеры. Как говорил на недавней встрече с журналистами советник президента-председателя правления «Почта Банка» Павел Гурин, ловля мошенников как таковая – это не банковский бизнес, поэтому количество схваченных за руку недобросовестных клиентов не впечатляет (4 человека). Другое дело – экономический эффект. Решение VisionLabs окупилось еще на стадии пилотного проекта. Только предотвращенные мошенничества сэкономили банку полтора миллиарда рублей (сумма не выданных мошенникам кредитов).

Борьба с мошенничеством – из области очевидного. Но технология распознавания лиц создает неожиданные возможности для самого банка.

Только на эсэмэсках, точнее, на отказе от них, банк сэкономил 3,5 млн рублей. Сотрудникам периодически нужно обновлять пароль на компьютерах; в таких случаях приходит СМС-подтверждение. Последнее в «Почта Банке» заменили подтверждением (верификацией – сравнением один к одному) по лицу.

«Мы хотим оставить след в истории, поменяв способ взаимодействия бизнеса и клиентов. Мы хотим сделать бизнес эффективнее за счет технологий компьютерного зрения. Хотим дать роботам глаза, понимая под роботом любой компьютер, который может делать часть той работы, которую раньше делал человек. И мы видим, что в России, в банковской отрасли мы какой-то след уже оставляем»

Парадокс заключается в том, что технология распознавания образов сама по себе не нужна банкам. «Им неинтересно, как вы решаете их задачи: это может быть распознавание лиц, предсказание по звездам или черная магия, - замечает Александр Ханин. - Если вы приходите в банк и начинаете рассказывать о своей технологии, о нейронной сети, банки жмут руку и говорят: «Молодцы. Приходите еще раз, рассказывайте», и в итоге ничего не покупают. У нас другой подход. Банкам нужно говорить о результатах, которых позволит добиться внедрение нашей системы распознавания лиц, например: «Применение технологии позволит ускорить ваш кредитный конвейер на 20%, сократить ваши операционные издержки на столько-то пунктов за счет сокращения времени на обслуживание, исключить некредитные и кредитные риски и т.д». Банки отвечают: «Здорово, давайте пилотироваться, внедряться». И уже по факту, когда видят результаты, они спрашивают: «А как вы это сделали?» То есть мы банкам продаем решения, ведь технологии или продукты никому не интересны.

Мы видели много компаний, которые приходили с хорошей технологией, но не могли правильно упаковать ее. Мы больше сфокусированы именно на построении решения, а также на его стандартизации. Мы прошли сертификацию по международному стандарту аутентификации и идентификации пользователей по биометрии на финансовом рынке FIDO Alliance. В России пока нет ни одной сертифицированной по этому стандарту компании. Сертификация подтверждает совместимость нашей системы с большинством банковских систем по всему миру и тот факт, что мы создаем продукты самого высокого уровня, соответствующие международным стандартам. Мы уже работаем на международном рынке, и в ряде проектов подобная сертификация – обязательное условие.

В России мы привели свое решение в полное соответствие с законодательством и получили официальное заключение на 27 страниц от НПО «Эшелон»: было проведено обследование программного комплекса VisionLabs, которое подтвердило, что в нашем ПО не обрабатываются и не хранятся персональные данные». 

Сейчас, когда у VisionLabs только на российском банковском рынке более 20 проектов, эффективность работы технологии в финансовой сфере никто не оспаривает. Но еще недавно, говорит Александр, над ним смеялись: «Наши конкуренты называли нас странными людьми: все занимаются безопасностью и госпроектами; кто-то делает метрополитен, кто-то – аэропорт, кто-то автовокзал. А мы пошли не просто в банковскую сферу, но в очень узкий сегмент: розничные банки, кредитный конвейер. Для нас это была хорошая тренировочная площадка, и мы научились там считать срок возврата инвестиций».

Все на самокатах, все с нейронными сетями

Если с утра до вечера заниматься технологиями распознавания образов, как это делают Александр Ханин и его коллеги, может сложиться ощущение, что это достаточно просто, и все в этом разбираются: «Сделать хороший алгоритм по распознаванию лиц можно за одни выходные, скачав open source проект. Сейчас в России несколько десятков проектов, которые этим занимаются. Большинство этих компаний за основу берут именно open source проекты, которые потом дообучают на своих данных и называют это своим ноу-хау. Другое дело, что от технологии до продукта большой путь, и сделать по-настоящему хороший продукт, удобный для клиента, под силу немногим».

Как бы то ни было, если дело так пойдет и дальше, технологии выплеснутся из лабораторий на улицы. Цитата: «Вот стоит выйти на улицу и крикнуть: «Кто занимается нейронными сетями?» - каждый третий поднимет руку. Без шуток. Все знают, что это такое».

Маска, я тебя знаю! Фото: Sk.ru

Положим, толпы  разбирающихся в нейронных сетях хипстеров на самокатах - это плод воображения Ханина, но в такой парадоксальной форме он выражает следующую мысль: «Мы считаем, что точность распознавания лиц подходит к своему пределу, в дальнейшем дифференцироваться можно будет только наличием решения и более качественным уровнем сервиса. Если посмотреть научные труды, там сейчас достаточно мало статей на тему улучшения качества распознавания лиц. В научном сообществе эта задача считается решенной, более того, ее считали решенной еще несколько лет назад. Поскольку индустрия инертна, сейчас как раз подходит момент, когда начинаются массовые внедрения», - уверен он.

«Сейчас основные прорывы обеспечиваются не за счет того, что нам ночью приснилась формула. Основные прорывы являются следствием того, что мы получили доступ к какому-то новому источнику данных, эти данные структурировали и смогли использовать их для дальнейшего обучения нашей нейронной сети»

На российском рынке серьезным внедрениям препятствует законодательная база для дальнейшего развития технологии, в том числе, на мобильных носителях. VisionLabs участвует в работе экспертных групп, и, как говорит А.Ханин, Госдума в ходе осенней сессии должна внести окончательные поправки в 115-й федеральный закон, которые, в частности, позволят проводить дистанционную идентификацию клиентов банков с использованием биометрии.

«В любом смартфоне есть камера, этого достаточно, чтобы клиент банка мог дистанционно открыть счет, получить кредит, сделать денежный перевод и т.д., - поясняет он. - Технологически к этому мы были готовы еще в прошлом годуС появлением такой законодательной базы банкам, которые хотят оставаться конкурентоспособными, придется идти в дистанционные каналы обслуживания клиентов».

Но это не конец пути, а только начало.

По словам гендиректора VisionLabs, наиболее перспективная область сейчас – анализ динамики лиц: «Распознавать образы мы умеем. Теперь идем дальше. Учимся распознавать лица в динамике», - говорит он.

Важно понимать, например, как человек реагирует на задаваемые вопросы. «Для бизнеса ценность возникает только тогда, когда ты выявляешь паттерны поведения, приводящего к какому-то результату. Допустим, если ты понимаешь, что реакция на какое-то предложение или действие была, например, слишком агрессивной».

В сентябре VisionLabs в партнерстве с проектом «Антирабство» запустил новый сервис по оценке прохождения интервью «Формула успешного собеседования». Исследования показали, что 83% людей, проходящих собеседование, жалуется на недостаток обратной связи; при этом большинство не получает предложение о работе из-за неправильного поведения на собеседовании. С новым сервисом кандидату, чтобы получить оценку и анализ своих ошибок, нужно просто загрузить свою видео-презентацию в сервис.

Фото: Sk.ru

Этому проекту предшествовала аналогичная работа VisionLabs по анализу видеоинтервью кандидатов, но не для соискателей, а для работодателей.

«Выявляя паттерны поведения, мы имеем возможность отсекать неподходящих кандидатов на ранних стадиях при массовом подборе, - говорит гендиректор сколковской компании. – Есть, например, такие должности и профессии, которые требуют от кандидата хладнокровия, умения сохранять спокойствие. Если человек при любом неудобном вопросе начинает трястись, качаться на стуле, - это явные признаки того, что для конкретного работодателя он не подходит.

Либо если человек проходит регистрацию на рейс и нервничает, на это стоит обратить внимание. Сейчас для этой цели используют специально натренированных животных, которые чувствуют запах адреналина и т.д. Все это можно упростить».

Нынешней работе предшествовал проект с масками, стартовавший в конце прошлого года. Речь идет о наложении интерактивных масок на лицо человека в видеопотоке. «Недостаточно понять, что перед вами тот или иной человек, - объясняет Александр Ханин. - Важно отслеживать его мимику, микроэмоции, так называемые экшн-юниты. И затем уже примерять маски. Мы быстро поняли, что это очень обширная сфера и большой рынок, на котором не так много игроков и качественных разработок».

Во всем мире компаний, которые могут качественно делать трекинг лица, т.е. находить и отслеживать точки на лице при разных сложных условиях (при большом повороте головы, при движениях, с засветкой), не больше десятка. Две из них, белорусский стартап MSQRD, а также самую известную компанию в этой области, Face-o-metrics, недавно купил Facebook.

Источник данных

 «Сейчас основные прорывы обеспечиваются не за счет того, что нам ночью приснилась формула, - рассуждает Ханин. - Основные прорывы являются следствием того, что мы получили доступ к какому-то новому источнику данных, эти данные структурировали и смогли использовать их для дальнейшего обучения нашей нейронной сети».

50% успеха, по словам Ханина, – это команда и алгоритм.

Об алгоритме. У компании собственный алгоритм и даже собственный фреймворк для запуска нейронных сетей на разных платформах.

О команде. В московском офисе VisionLabs более 50 человек, еще двое – в Воронеже и двое – в Париже. Во французской столице работает один из основателей компании Иван Лаптев, занимается академической наукой в исследовательском институте INRIA и исследованиями для VisionLabs.

VisionLabs ищет кадры по всему миру. Фото: Sk.ru

Скоро откроется офис VisionLabs в Амстердаме, компания там уже зарегистрирована. Там будут вестись исследования, к тому же это нейтральная юрисдикция, которая хороша для международной деятельности. И еще важный момент. Отмечает Александр Ханин: там есть кадры: «В России, к сожалению, кадров практически не осталось, крайне трудно найти профессионала в сфере компьютерного зрения, машинного обучения, так что мы ищем кадры по всему миру».

Одно из немногих мест в России, где VisionLabs находит для себя людей, - это Сколтех; в компании уже работает несколько выпускников Сколковского института науки и технологий.

Вторая половина успеха, считает гендиректор VisionLabs, – это доступ к данным, качество данных, на которых система обучается».

Об источниках данных. Суммарная база, к которой VisionLabs сейчас имеет доступ, - больше 100 миллионов изображений, но компания не хранит их у себя; у нее есть договоренность с партнерами и клиентами, с клиентами, позволяющая заниматься дообучением системы на площадке партнеров без обмена данными.

Примером того, как обучается система VisionLabs, является проект в Казахстане. «В 2015 году мы внедрили решение в Казахстане, где 60% населения азиатской внешности, - вспоминает А. Ханин. - На тот момент решение не было адаптировано к таким условиям. Мы обучились там, и система стала лучше работать на людях разных национальностей. Когда у нас появлялись проекты в Африке, в Индии, мы также адаптировались к новым условиям».

По мере развития компании адаптируется не только алгоритм, но и бизнес-модель. Так, VisionLabs отказалась от намерений делать собственное «железо»: «Если посмотрите нашу стартовую заявку в «Сколково», мы тогда грезили, что сделаем умную камеру. Оказалось, что это тупиковый путь, мы идем по пути партнерства с крупными производителями и адаптации наших алгоритмов под их аппаратные платформы», - говорит он.

Возвращаясь к толерантности алгоритма к лицам представителей разных наций, эта особенность системы VisionLabs очень пригодилась при выходе на китайский рынок (Китай, наряду с Северной Америкой и Юго-Восточной Азией – основные рынки, где сейчас работает компания).

Китай

В Китае уже есть законодательная база по использованию биометрии с распознаванием лица, хотя массовых внедрений, по оценкам А.Ханина, пока не наблюдается: «Идут пилотные проекты, но они идут, если не ошибаюсь, уже года три». А вот масштабы инвестиций впечатляют. Более десятка компаний уже привлекли инвестиций от 50 млн долларов каждая на распознавание лиц. Одна из самых известных компаний в этой области, Sense Time, в июле привлекла в раунде B инвестиции на распознавание лиц в размере 410 млн долларов; ее капитализация теперь – порядка полутора миллиардов долларов.

«В России, к сожалению, кадров практически не осталось, крайне трудно найти профессионала в сфере компьютерного зрения, машинного обучения, так что мы ищем кадры по всему миру»

Что VisionLabs может предложить китайцам?

«У Китая есть проблема: их компании хорошо работают только на китайцев. Многие китайские производители хотят работать глобально. Поэтому им важен алгоритм, который толерантен ко всем типам лиц всех рас и национальностей. И мы сейчас сотрудничаем с рядом компаний по объединению наших алгоритмов с их аппаратной платформой, включая потребительские устройства – мобильные телефоны и т.д., а также системы видеонаблюдения и оборудования для них. С рядом производителей мы делаем интеграцию, встраиваемся в их софт управления камерами. Тесты пройдены, идет интеграция. Такой этап занимает обычно от трех месяцев до полугода».

Оставить след в истории

По мере того, как технологии распознавания образов распространяются все шире, возможностей как-то выделиться на их фоне не прибавляется. О чем косвенно свидетельствует история презентации нового iPhone, наделенного функцией распознавать хозяина по лицу. Рынкам эта и другие технологии показались недостаточно инновационными, и акции Apple серьезно просели. На следующий день ведущие бизнес-шоу на CNN шутили о том, как утреннее выражение лица человека рискует не понравиться его трубке.

В чем амбиции основателя компании VisionLabs?

«Мы хотим оставить след в истории, поменяв способ взаимодействия бизнеса и клиентов, - говорит Александр Ханин. - Мы хотим сделать бизнес эффективнее за счет технологий компьютерного зрения. Хотим дать роботам глаза, понимая под роботом любой компьютер, который может делать часть той работы, которую раньше делал человек. И мы видим, что в России, в банковской отрасли мы какой-то след уже оставляем».