Голосовые ассистенты сейчас не самая изведанная пользователями технология. Какой из них лучше, как их принимает общество, когда с ними можно будет поговорить по-человечески, почему они не говорят голосами звёзд — найти ответы на все эти вопросы и составить справочник нам помог сооснователь Parallels Яков Зубарев.

Cortana - персонаж Halo и голосовой ассистент Microsoft

Кто из них на сегодняшний день лучший?

Это как пытаться разобраться: «Что лучше – Coca Cola или Pepsi?». Кто к чему привык в силу большой обособленности платформ, то и лучше. Но, несомненно, в этой области есть две задачи: распознавание голоса, где, например, drag and speak – самый известный и старый движок. А есть область, связанная с интерпретацией контекста или так называемый искусственный интеллект – именно на этом поле в долгосрочной перспективе развернется война. В целом, степень развитости этих технологий сейчас – это интернет начала 2000-х.

Однако уже есть разные исследования (различной степени серьезности и научности), какой из сервисов лучше отрабатывает голосовые запросы. Например, по версии Stone Temple Consulting первое место занимает Google Now (так как больше настроен на поисковые технологии), второе – Siri, третье – Cortana.

Чему они скоро научатся? Они уже сейчас предлагают много удобных функций.

Голосовые помощники – это стратегические технологии для Apple, Microsoft и Google, Qualcomm, Facebook, Intel. Через пять лет этим будет пользоваться 200-300 миллионов людей. И чем более массовыми они будут, тем дешевле станут для других.

Правильнее всего будет смотреть на людей, которые только начали пользоваться устройствами. Например, какой процент детей, имеющих смартфоны или компьютеры, начали пользоваться голосовыми помощниками? Уверен, что среди них этот процент будет больше. И чем старше эти новые пользователи становятся, тем больше растет процент.

Обратите также внимание на то, как в прошлом году действовал Google, толкая каждую часть своего бизнеса в направлении работы на мобильных устройствах, где и осуществляется основная часть поисковых запросов. Центральное место в этой системе занимает Google Now, умный личный помощник, получивший в прошлом году функциональность Now on Tap – критически важную для реализации мобильной стратегии компании.

Через 10 лет в управлении как компьютером, так и приложениями мы будем пользоваться большей частью именно голосовыми помощниками. Почему? Во-первых, они научатся правильно отвечать на вопросы. Это значит, они будут не просто подсказать загруженность дороги, погоду или ресторан в зависимости от текущего местоположения. Не просто уведомлять о полетах или давать информацию о поездке, а автоматически переключать на набор приложений, используемых дома или в офисе в зависимости от вашего местоположения (дома, например, выводит на экран приложение по управлению телевизором).

Сегодняшние помощники не только дают ссылки на страницу в интернете, где можно найти ответ на вопрос, но уже и сам ответ. Не нужно разбираться, соответствует ли выдача изначальному запросу, анализировать 20 ссылок и т. д.

Во-вторых, компании-разработчики превращают вашего личного помощника из «пассивного» в «активного». Это означает, что помощники будут делать полезные вещи, прежде, чем вы его об этом попросите. Как? Внимательно изучая ваше поведение и предвосхищая ваш следующий шаг, прежде чем импульсы в вашем мозгу превратятся в настоящие мысли. Или, другими словами, став полноправным сталкером. И, так же, как сталкер, эти помощники станут частью вашей привычки. Нужен, например, рюкзак? Помощник проанализирует, кто его владелец, найдет похожих людей с учетом истории покупок и предложит оптимальный вариант. В этом отношении Amazon уже №1. Покупки – это деньги. Amazon в этом смысле знает не просто ответы на абстрактные вопросы, но как потратить деньги с умом. Facebook знает все про друзей, интересы и т. п. А Google знает историю твоих запросов. Каждый из них будет развивать своих помощников, не пересекаясь и всячески ограничивая вторжение в свою сферу интересов.

В результате увеличится скорость работы и продуктивность пользователя. Потому что в будущем все они станут взаимодействовать с системами искусственного интеллекта. Это совсем другой уровень работы с информацией - контекстно ориентированный, а стало быть, более полезный, чем если бы помощники просто предлагали рестораны для ужина в зависимости от вашего текущего местоположения.

Кроме того, помимо обработки поисковых запросов основными функциями для развития «помощников» станут: голосовое управление девайсами – от компьютера до автомобиля; управление приложениями (для начала тоже самими простыми – открыть, закрыть, до более сложных – переместить в нужное место и даже папку). Такой голосовой файловый менеджер, что-то похожее есть в Parallels Access; инструменты превращения голоса в текст; инструменты, понимающие не только голос, но и на жесты.

Вспомним полностью парализованного человека Жана-Доминика Боби, который написал книгу, подмигивая оставшимся не парализованным левым глазом. Или экспертов машинного обучения британской компании SwiftKey, которые создали клавиатуру. Их технология уже используется как приложение для работы с клавиатурой, которой пользуется Стивен Хокинг. Приложение анализирует, что уже написал профессор и предлагает слова, которые он, возможно, захочет использовать дальше.

Когда они полностью начнут понимать естественный язык?

Для этого нужно время. Любой язык – живая материя, которая постоянно изменяется. И если новые слова достаточно быстро интегрируются (и столь же быстро забываются), то на парадигмы уходит эти 5-10 лет. Так что развитие голосовых помощников будет постоянным процессом (либо будут включаться механизмы самообучения системы). Кроме того, необходимо также, чтобы сами технологии стали работающими, прежде всего в части распознавания речи (акцентов).

Могут ли российские компании предложить что-то, что сможет конкурировать с Siri, Cortana и Google Now?

Вопрос не в том, чтобы просто разработать. Для этого в России хватает талантливых инженеров. У наших программистов вообще имидж ребят, которые могут «достать звезду». Вопрос в том, чтобы не ограничивать рынок продаж локальным рынком, затачивая продукты только под русскоязычную речь.

Я считаю, что, если скрестить «Яндекс» и ABBYY, то получится очень хороший продукт. Другие варианты по мощи вряд ли могут сравниться. В свое время еще до официального объявления мы общались с людьми из ABBYY на тему того, чтобы встроить их семантический поиск Findo в файловый менеджер нашего продукта Parallels Access. Благодаря этому можно было бы осуществлять голосовой поиск внутри удаленного компьютера или в облаке через мобильное устройство с помощью нашего решения.

Как решить проблему голосовых запросов в общественных местах? Будет ли это распознавание голоса хозяина, или же другие технологии?

Проблемы ответа на «чужие» вопросы не было. Говори в микрофон – и все. Эти технологии сейчас уже есть. Системы и алгоритмы отсечения посторонних шумов уже разрабатываются, как и технологии шумоподавления.

Как общество принимает и примет этих виртуальных личностей?

Как показал опыт, сейчас очеловечивает :-) Например, Siri и Cortana пытаются разыгрывать, «провоцируют» их на ревность друг к другу, а лучшие ответы систем становятся предметом активных перепостов. Тема человеческих взаимоотношений с искусственными системами уже раскрывается в современной культуре. Как пример – фильмы «EX Machina», «Она», «Симона», «Превосходство».

Если говорить о применении в бизнесе, а не просто о социально-культурном феномене, то эти технологии будут преобразовываться в личности через роботов – вот у них и будет возможная персоналия.

Есть ли игры, основанные на голосовых помощниках? Если нет, то почему?

Игровые функции по мере развития технологий будут реализованы одними из первых. Просто потому, что сами по себе девайсы еще не сменили главную свою задачу с развлекательной на образовательную, рабочую и так далее. Тем не менее, перспективы игр сейчас очень ограничены. В играх ограниченное количество команд (1000 фраз). Игры, которые есть сейчас, запрограммированны, они имеют конечное количество сценариев. Для игр не нужен полноценный искусственный интеллект, но технологии использоваться будут. Но это будет не break-through-сценарий.

Безопасно ли вообще использование голосовых помощников с точки зрения защиты данных?

Они не увеличивают и не уменьшают риски в отношении данных. Только 10% хакерских атак совершается профессионалами. В 90% случаев безопасность зависит от самого пользователя. Это вопрос защиты данных устройства – компьютера, телефона и так далее.

К сожалению, культура защиты личных данных у пользователей пока еще крайне низкая. До 40% пользователей даже не защищает вход в устройство паролем. Мы с этим сталкиваемся, например, в Parallels Access – шифрование на этапе передачи данных, письма регистрации каждого нового устройства, рекомендуем ставить дополнительные настройки и т.д. Аутентификация по отпечатку пальцев – это далеко не все, что могут предложить технологии.

Почему производители не используют голоса известных личностей для синтезирования голоса помощника?

По сравнению с тем числом людей, которые будут пользоваться, очень мало тех, кто будет со 100% вероятностью знать, с кем они общаются. Второй момент, который нужно учитывать – голос должен быть нейтрально приятным.

Тем не менее, Сьюзан Беннет, голос Siri – известная женщина, которая озвучивает огромное множество реклам, автоответчиков, объявлений в аэропортах, и даже поет. Cortana озвучена американской актрисой Джен Тейлор, которая, помимо озвучки Halo, играет в сериалах.

Выбор из большого набора голосов — это, возможно, как вопрос отчислений реальным владельцам голоса, так и вопрос различия предпочтений у пользователей и даже этический вопрос: технологии рассчитаны на много лет, что случится, если реального обладателя голоса не станет на свете?

Стоит ли нам бояться, что они станут в ближайшее время умнее нас? Когда они начнут полностью предугадывать наши действия?

Это та самая тема, из-за которой бьют в набат. Илон Маск утверждает, что нужно начать думать, как искусственный интеллект будет регулироваться. Его опасения связаны с машинами, способными выполнять работу людей, что может лишить их большого числа рабочих мест. Стивен Хокинг подготовил открытое письмо, прямо выражая свои опасения по части искусственного интеллекта, утверждая, что по своим последствиям оно может быть серьезнее, чем ядерное оружие. Даже Билл Гейтс разделяет их точку зрения.

Но при этом чаще всего подразумеваются роботы, дроны, в основе работы которых алгоритмы, например, прогнозирования военных стратегий исламских экстремистов. Вообще, многое, что относится к искусственному интеллекту, связано с оборонно-промышленным комплексом.

Есть примеры и из области гражданского ПО. Программное обеспечение Cleverbot анализирует твою переписку и предлагает варианты ответов на вопросы в мессенджере, как если бы это был живой человек. В результате большой процент людей, кто принимал участие в тестировании, был в полной уверенности, что говорит со своим знакомым. Это ПО получило высокие оценки при проведении теста Тьюринга. То, о чём писал Азимов и другие фантасты, теоретически может произойти в ближайшие пару декад. Тем не менее, мы еще далеки от той вычислительной мощности или разработок алгоритмов, необходимых для достижения эффекта полного искусственного интеллекта.

Какие новые возможности откроют для себя бизнесы и стартапы с развитием голосовых помощников?

Сейчас все вбивается и печатается. Но это не просто новый способ ввода данных. Это новый способ работы с информацией. Мы уже реализуем поддержку голосовых помощников в приложении Parallels Desktop для Mac. Но я говорю о другом уровне реализации. У большого числа разработчиков появляется возможность переделать существующие продукты, чтобы пользователи общались голосом, чтобы были проинтегрированы возможности с учетом истории поисковых запросов, интересов и т. п. Это новый способ интерактивности, который можно применить к новым задачам.

На рынке переделки существующих приложений будет больше возможностей, чем можно себе представить. Я убежден, что эта та область технологий, которая просто должна быть освоена сторонними разработчиками. Нужно придумывать приложения и создавать интерфейсы таким образом, чтобы управление с помощью голосовых помощников подразумевалось. Недаром только за прошлый год Google подписал соглашение со 110 крупнейшими разработчиками типа Spotify, Lyft, Airbnb c миллионными аудиториями на использования их Google Now внутри приложений.

Когда в голосовые помощники будет встроена реклама?

А разве уже не включена, например, в тот же Google Now? Информация там по-прежнему выдается по принципу рейтинга, где первыми идут оплаченные рекламодателями выдачи запросов. В самом ближайшем будущем Cortana при вопросе «Куда мне сегодня пойти?» будет выдавать рекламу нового ресторана. По крайней мере, я знаю, что рекламодатели уже интересуются, так что спрос есть.

Когда Siri, Cortana, Google Now и другие будут брать друг у друга данные? Будут ли они вообще этим заниматься?

Никогда не будут этим делиться. Одни будут отвечать на определенные вопросы лучше, чем другие.

Как решить проблему приватности? Одно дело незаметно вбивать что-то в телефон, другое — бормотать в часы

Интересный вопрос. Скорее всего, это, как и произошло с телефонными звонками, станет вопросом личной вежливости и правил этикета. А вообще это вопрос хорошего микрофона и шумоизоляции.