Они нас слышат: куда развиваются речевые технологии?

В недалеком будущем каждый элемент интерьера, офисной и бытовой техники будет понимать наш голос и выполнять соответствующие указания

Миллионы лет назад, когда речь только появилась у наших предков, это была «суперсила», которая помогала объединяться и координировать действия. Сегодня по мере объединения физического и цифрового мира, человек хочет использовать голос для взаимодействия и управления компьютерами, смартфонами и другими «поумневшими» устройствами.

Каждая стиральная машинка, каждый чайник оснащены сенсорным экраном. Но зачем нажимать на кнопки, когда можно использовать собственный голос? В минуту мы можем напечатать до 40 слов, а произнести до 150. Меняются скорости взаимодействия с автоматизированной техникой. И бизнес включился в эту смену парадигмы – управление голосом скоро станет обязательным условием.

Сектор речевых технологий признан одним из самых динамично развивающихся в мирe. Согласно отчету MarketsandMarkets, мировой рынок речевых технологий вырастет с 3,7 млрд долларов сегодня до 12 млрд к 2022 году. Основной драйвер роста — спрос на аутентификацию с помощью голоса в финансовых учреждениях, предприятиях здравоохранения и правительственных организациях. Вырастет доля использования речевых технологий и в телекоме, колл-центрах и В2С секторе. Самое широкое применение голосовые технологии пока получили в Азии: например, в Японии уже все колл-центры автоматизированы.

Предыстория

Технологии распознавания речи существуют еще с середины 60-х годов минувшего века. Однако лишь несколько лет назад машинное преобразование речи в текст и аудиоответы пользователям были полноценно поставлены на коммерческий поток. Рывок в развитии речевых технологий произошел за счет того, что стоимость вычислительных ресурсов за последние несколько лет сильно упала, стало экономически выгодно создавать большие нейронные сети и обрабатывать с их помощью массивы данных для решения различных задач. По оценкам Techcrunch, прорыв в голосовых технологиях за последние полтора года гораздо значительнее, чем за прошлые 15 лет. Теперь мы смело можем говорить о существовании рынка автоматической обработки речи. На нем развиваются и B2C-технологии виртуальных ассистентов, и B2B-решения распознавания речи.

Невидимый друг

К 2020 году мы все будем иметь невидимого друга. Не важно, каким будет его имя — Siri, Amazon Echo или OK Google — но мы входим в мир, где персональный ассистент реализует наши желания и отвечает на поставленные вопросы. Этот «Паспарту» будет учиться на своих ошибках, понимать контекст и будет все больше интегрирован в нашу жизнь. Согласно исследованию Google, еще в 2014 году 31% подростков используют голосовой поиск для выполнения домашнего задания, а 23% взрослых «искали голосом» во время приготовления пищи.
Большим шагом вперед для рынка «умных голосовых помощников» стал выпуск в 2014 году умной колонки со встроенным голосовым помощником Amazon Echo. Amazon Echo, небольшая колонка, — устройство голосового управления, подключенное к «облаку». Гаджет способен воспринимать голосовые команды, голосом давать на них ответы, будить вас, управлять календарем в Google, взаимодействовать с умными системами домашнего освещения, воспроизводить музыку и многое другое. На сегодняшний день стоимость Amazon Echo уже снизилась до $200.
Разработка таких устройств от Amazon, как Amazon Echo или ее облегченные версии Amazon Tap и Echo Dot были профинансированы специально созданным $100 миллионным фондом Alexa (также называется и сама голосовая платформа от Amazon). Он инвестирует только в проекты, создающие инновационные технологии в области голосового управления, умного дома и носимых аксессуаров. Amazon планирует расширить сферу действия фонда на робототехнику, здравоохранение и другие отрасли.
Огромное внимание ИТ-гигантов к речевым технологиям понятно: они предвидят или создают технологическую эволюцию, удерживая пользователя в своей экосистеме за счет постоянного добавления новых возможностей. Но и другие компании и индустрии начали активно внедрять голосовые технологии, поскольку в человеческой речи помимо естественности оказалось много других особенностей, а скорость голоса как интерфейса в разы быстрее других методов.

Беспилотные автомобили

Технология распознавания речи сегодня используется и в автомобильной промышленности. Самое примитивное — уже привычные нам навигаторы. Технологии сегодняшнего дня – это голосовое управление различными функциями автомобиля, и это доступно не только в автомобилях класса люкс. Большие успехи делает Ford, оснащая свои машины возможностями для голосового управления навигационной или мультимедийной системами. Технологии скорого будущего — беспилотные автомобили, которыми можно управлять, задавая маршрут как с помощью компьютера, так и голосом. Автономные автомобили Google, электромобиль Tesla, автомобили-роботы MIG (Made in Germany), AKTIV, VisLab, автомобиль из Брауншвейга, получивший имя Leonie — все они предполагают использование искусственного интеллекта и голосового управления. О начале разработки беспилотного грузовика сообщили Яндекс и Камаз. Первая модель увидит свет уже в 2018 году и будет оборудована искусственным интеллектом от Яндекс.

Речевые технологии на заводах

Презентация компании «ЦРТ-инновации» в Сколково. Фото: Sk.ru

В начале 2016 года резидент «Сколково» компания «ЦРТ-инновации» презентовала технологию автоматического распознавания речевых команд, запрограммированную на работу с промышленными роботами. В основе технологии лежат акустические модели, создаваемые с помощью глубоких нейронных сетей (Deep neural networks, DNN), что делает программу более точной и надежной. Новая разработка позволяет включать и выключать станок, изменять режим работы вентиляции в помещении, управлять техникой на стройке. Технология выделяет речь на фоне сильного производственного шума, адаптируется к конкретным людям на производстве, подстраиваясь под их речевые особенности и многое другое. По прогнозам создателей, программа позволит увеличить производительность труда рабочих, одновременно снизив травматизм на предприятиях.

Речевые технологии в банковском секторе

В феврале этого года банк HSBC в Великобритании предложил 15 миллионам своих клиентов голосовую идентификацию для доступа к онлайн-сервисам банка. Технология опознает клиента, даже если он простыл или охрип, анализируя до 100 параметров определения голоса: паттерны в произношении, модуляцию, звуки, которые отражают объем и форму глотки, носовую полость, голосового тракта. В 2013 году Barclays предложил подобную функцию для 300 тысяч самых состоятельных клиентов, которые были в полном восторге, ведь время идентификации снизилось с 1,5 минуты до 10 секунд.
Помимо скорости и удобства для клиента, которому теперь не нужно запоминать кодовое слово и другие пароли, переход на биометрическую аутентификацию повышает безопасность банковского аккаунта. В России технологию идентификации клиентов по биометрическим данным планирует ввести к 2018 году Сбербанк.

Речевые технологии в телекоме и маркетинге

Свои исследования и разработки в области систем распознавания речи ведет Яндекс. Сегодня система распознавания речи Yandex SpeechKit нашла свое применение сразу в двух секторах экономики — телекоме и маркетинге. Мегафон выбрал Yandex.SpeechKit для виртуального консультанта «Елена 2.0». Его главная задача заключается в том, чтобы облегчить нагрузку на колл-центры оператора. На данный момент «Елена 2.0» помогает абонентам «МегаФона» проверить биллинг, сообщает о подключенных тарифах и услугах, может подключить или отключить услугу или перевести деньги с одного номера на другой. Конечно, сейчас виртуальная барышня не сможет полностью заменить сотрудника колл-центра, но по мере машинного обучения, «Елена 2.0» сможет отвечать на сотни миллионов звонков в год.

Новые разработки есть и в сфере безопасности. AmberBox — американский стартап, участник Y Combinator S16, автор одноименного гаджета с автоматическим определением звука разряда оружия. Разработка детектора была вызвана волной вспышек насилия и расстрелов в США. В детекторе AmerBox используется комбинированный алгоритм звукового реагирования и инфракрасного обнаружения, благодаря которому устройство способно точно отделить звук выстрела от других шумов — и подать сигнал охране, предупредить находящихся поблизости людей и инициировать программу эвакуации. Это позволяет сократить время реагирования полиции вплоть до 63% и, как следствие, сохранить жизни людей.
Еще один горячий стартап, который поддерживают на своих конференциях Google и Apple — компания AVA — разработчик мобильного приложения из Сан-Франциско, которое позволяет людям видеть то, что говорят вокруг них меньше, чем за секунду. Программа предназначена для слабослышащих и глухих людей. Голосовые технологии вообще значительно помогут людям с ограниченными возможностями во взаимодействии с окружающим миром, компьютерами и умными устройствами. Например, одним из первых было приложение SayShopping для iPhone, которое позволяло слепым или слабовидящим людям покупать товары в онлайн-гипермаркетах только через голос.

Практически у всех стартапов амбициозные цели. Так например, компания ObEN, основанная в 2014 году в Калифорнии, называет своей миссией собрать самый большой в мире банк речевых паттернов и голосов и стать ресурсом для развития робототехники, игровой индустрии, развлечений, образования, здравоохранения и музыки.
Но даже если не думать обо всех зарождающихся в пригородах Сан-Франциско стартапах, а просто посмотреть вокруг, сидя в своем кабинете или квартире, мы поймем, что каждый элемент интерьера, офисной и бытовой техники будет скоро понимать наш голос и выполнять соответствующие указания. А это огромный рынок для каждого производителя.

Иногда я думаю, в чем связь между ростом популярности фильмов о супер-героях и все новыми гаджетами? Каждый новый умный девайс, словно новый навык, новая способность. И, получив новую сверхспособность, мы уже никогда не захотим отказаться от нее. ОК, Google, когда там ближайший сеанс «Доктора Стрэнджа»?

Источник: forbes.ru