Аркадий Сандлер: «В Сколково мы постараемся сделать самый большой из доступных датасетов русской речи»

11 июля 2019 г.

Всякий раз, когда мы берем в руки смартфон и произносим слова, мы в определенном смысле бросаем их на ветер - вне зависимости от того, обсуждаются ли вопросы жизни и смерти или речь идет о пустой болтовне, призванной скоротать время. Потому что у каждого произнесенного слова есть определенная ценность в условиях цифровизации всего сущего. Вопрос в том, как этой ценностью воспользоваться.

Крупные частные и государственные компании обладают тысячами и тысячами часов записанных разговоров, но молодым компаниям, создающим новые технологии, от этого ни холодно, ни жарко. В России до сих пор не существует крупной базы деперсонализированных голосовых данных, которая была бы доступна для стартапов.

 

Не бросать слова на ветер

В апреле на конференции Skolkovo Robotics крупнейший российский телекоммуникационный оператор и провайдер цифровых услуг МТС и Фонд «Сколково» заключили соглашение о создании научно-исследовательского центра для развития решений на базе речевых технологий. В рамках соглашения МТС намерена создать крупнейшую базу голосовых данных на русском языке, собрав и разметив тысячи часов русской речи, с привлечением кадровых и технических ресурсов «Сколково».

Руководитель центра Artificial Intelligence МТС Аркадий Сандлер. Фото: Sk.ru

Как сообщалось, МТС планирует предоставлять доступ к базе данных другим компаниям, в первую очередь, – резидентам «Сколково».

Руководитель центра Artificial Intelligence МТС Аркадий Сандлер, чьим детищем является созданный в Сколково научно-исследовательский центр, привел в интервью Sk.ru некоторые подробности проекта.

«Центр придуман затем, чтобы создать открытые для рынка наборы размеченных данных на русском языке, что, в свою очередь, позволит ускорить и развить это направление в России, - говорит г-н Сандлер. - Когда команды занимаются новыми технологиями, создают новые решения в этой области, их главная проблема – поиск данных для тестирования гипотез и новых алгоритмов, где найти данные, чтобы тренировать свои системы. Мы движемся в сторону создания доступных наборов размеченных и деперсонализированных данных. Это позволит сделать порог входа новых проектов на рынок намного ниже».

Прежде, чем прийти в МТС, Аркадий Сандлер сам в течение двадцати лет занимался созданием стартапов и выводом их на рынок, поэтому проблема, о которой он рассказывает, известна ему на собственном богатом опыте.

«Нам важно, чтобы люди понимали: МТС это делает не для себя; этот проект МТС вместе со «Сколково» делает для рынка»

Предположим, три студента загорелись некоей светлой идеей и создали новый алгоритм. Однако достаточного количества данных, чтобы проверить свои гипотезы, у них нет.

«На сегодняшний момент самая большая проблема – данные и нахождение этих данных, - настаивает собеседник Sk.ru. - Это долго, дорого и сложно. Очень часто новые проекты разоряются и заканчивают свою жизнь, когда пытаются найти и подготовить данные для обучения своих систем.

А тут мы вместе со «Сколково» создаем центр, куда вы заходите, выбираете тематику диалогов и получаете доступ к энному объему размеченных текстовых и звуковых данных по заданной тематике. Так выглядит некая идеальная модель. В этом случае вам будет, на чем тренировать решение, которое может увидеть свет намного раньше».

По словам А.Сандлера, центр должен заработать осенью с.г. Без учета специально привлекаемых специалистов, постоянная команда Центра будет до двадцати человек.

Аркадий Сандлер на конференции SKOLKOVO.AI. Фото: Sk.ru

«Деятельность Центра полностью финансируется МТС, как corporate donation, - говорит он. – «Сколково» по возможности помогает нам собирать правильных людей. Нам важно, чтобы люди понимали: МТС это делает не для себя; этот проект МТС вместе со «Сколково» делает для рынка».

  

Прямая выгода для стартапов

Вице-президент Фонда «Сколково» Николай Суетин указывает, что современные устройства все больше ориентируются на речевые интерфейсы, будь то в ситуации, когда вы отдаете голосовые команды своему автомобилю или пользуетесь услугами колл-центров. «Технологически необходимо обеспечить, чтобы интерфейс легко распознавал вашу речь, какой бы она ни была и на каком бы языке ни звучала, - говорит он. - Затем, переведя голос в текст, нужно понять, в чем был вопрос - этим занимается NLP, Natural Language Processing (Обработка естественного языка); -сформулировать на него адекватный ответ и донести этот ответ нормальным человеческим голосом, а не так, как звучали переводы американских фильмов в далекие восьмидесятые годы».

Николай Суетин:«На основе этих технологий можно создавать любые приложения». Фото: Sk.ru

В том, что касается распознания с высокой точностью человеческого голоса, проблема более или менее решена, когда говорит один человек в тишине. В реальных условиях, однако, одновременно говорят нескольких спикеров, как происходит, допустим, на крупных совещаниях. Плюс посторонние шумы, - например, когда мы отдаем команду компьютеру в автомобиле. Эти проблемы надо решать.

«На основе этих технологий можно создавать любые приложения, в особенности B2C, - говорит вице-президент Фонда. - Поэтому иметь возможность пользоваться такими базами данных было бы очень здорово. Тогда доступ к ним получило бы огромное количество разработчиков, которые с помощью open source кодов могли бы создавать самый широкий круг приложений и систем управления всевозможными средствами, начиная с роботов и заканчивая теми же колл-центрами».

Примером технологий, которые упоминает Н.Суетин, служит проект резидента Фонда «Сколково» «Лаборатория Наносемантика». Компания создала виртуального консультанта для BMW Group Россия. Чат-бот уже работает в социальной сети «ВКонтакте», в ближайшее время он появится на русскоязычном сайте автопроизводителя, в Facebook Messenger и в голосовом ассистенте «Яндекс.Алиса».

Ольга Аврясова: «Мы создаем нейтральную площадку, в деятельность которой могут быть вовлечены другие заинтересованные игроки». Фото: Sk.ru

Чат-бот общается с клиентами на естественном языке и помогает разобраться в модельном ряде, комплектациях, технических характеристиках, ценах и доступных опциях. Менее опытным автолюбителям чат-бот объясняет назначение сигнализации аварийного сближения или ассистента вождения.

Таким компаниям, как «Лаборатория Наносемантика», в свое время очень пригодилась бы создаваемая ныне база данных, рассуждает Ольга Аврясова, директор по проектам кластера передовых промышленных технологий «Сколково». «Центр будет способствовать развитию сколковских стартапов, работающих в области искусственного интеллекта. Особую ценность Центр будет представлять для компаний начального уровня: сейчас в Фонде имеется порядка сотни таких стартапов, но их число постоянно растет».

Центр не будет закрытой системой, подчеркивает О.Аврясова: «Мы создаем нейтральную площадку, в деятельность которой могут быть вовлечены другие заинтересованные игроки».

Аркадий Сандлер соглашается: «Мы постараемся сделать самый большой из доступных датасетов, в том числе, в консолидации того, до чего сможем дотянуться».

 

«Все, до чего сможем дотянуться»

В беседе с Sk.ru эта формулировка - «все, до чего сможем дотянуться» – прозвучала из уст топ-менеджера МТС не единожды. Тем самым он подчеркивает: МТС изначально не рассматривается как эксклюзивный источник данных Центра: «большая часть данных должна исходить не от МТС», считает он.

Фото: Sk.ru

Помимо организационной работы, Центр сейчас занят разработкой методологии. В качестве первого шага на прошлой неделе в Сколтехе был проведен симпозиум по методологии сбора и обработки данных с привлечением широкого круга экспертов.

«Данные должны быть и будут деперсонифицированы, - подчеркивает Аркадий Сандлер. - Мы начали проект именно с этого: сформировать методологию, обсудить – чтобы она была неким консенсусным решением для рынка, - затем опубликовать ее и, ориентируясь на эту методологию, собирать датасеты.

Описание методологии будет доступно в первую очередь; данные бесполезны, если методологии не будет в открытом доступе. Люди, которые станут пользоваться нашими данными, будут иметь полный доступ к методологии по сбору и разметке этих данных».

На первом этапе Центр сосредоточится на голосовых данных. «Мы больше ориентируемся на NLP, или, еще точнее, на голосовые данные - датасеты спонтанно звучащей речи, - поэтому будем специализироваться в этой области, - говорит глава Центра. - Вряд ли мы сейчас будем уделять много внимания данным для computer vision – в мире они ничем друг тот друга не отличаются; у всех рентген легких одинаковый, и по этой теме существует достаточно большой объем открытых данных. А вот открытых голосовых данных на русском языке, до которых можно дотянуться, - их либо вовсе нет, либо они очень маленькие.

Самое важное, что мы ожидаем от потенциальных партнеров, - это данные и ресурсы по их разметке. Финансирование пока мы можем обеспечить из бюджета центра. Пока вопрос не в деньгах, а в доступе к данным», - говорит Аркадий Сандлер.