Александр Брад отвечает за разработку программно-аппаратных решений для Яндекс.Станции. Гибрид Sonos, ТВ-приставки и умной колонки — в ней живёт Алиса — представили 29 мая на YaC-2018 в лучших традициях Apple. Инженер подробно объяснил dev.by, как работает станция, что с ней будет дальше и почему не надо бояться прослушки.
Яндекс.Станция подключается к телевизору. Вы не думали о маркетплейсе приложений, как в приставках от Apple, Google и Amazon?
На борту колонки — Алиса. А Алиса – это именно голосовой интерфейс. Когда возникал интернет, платформой был браузер, не сам компьютер. Здесь платформа — Алиса, которая в колонке, в смартфоне и т.д. Наша задача — делать голосовые приложения для Алисы. Для этого у нас есть Яндекс.Диалоги.
Но когда люди выбирают фильм, то они листают пультом список.
Мы это делаем голосом. Когда я прошу колонку показать фильм, то она ищет его у всех подключенных партнёров или у того, которого я указал. Могу сделать запрос «Покажи “Человека-паука” на Амедиатеке» или на «ivi». Потом я могу уточнять: «дальше», «вперёд», «назад», «номер пять» или скорректировать название. Голосом, никаких пультов.
То есть можно скролить, монотонно говоря: «дальше, дальше, дальше»?
Да, или сказать «в конец», «в начало». Из того, что можно голосом выжать, мы сделали максимально возможное.
Колонка умеет отображать 4K видео?
Яндекс.Станция поддерживает видео в формате HD. Формат 4K пока слабо распространён, мало у кого есть телевизоры, поддерживающие его, контент тоже ограничен. Поэтому мы сосредоточились на уже массовом HD. Но не исключено, что с ростом популярности 4K мы научим Станцию с ним работать.
Яндекс утверждает, что микрофоны можно физически обесточить нажатием на кнопку и никто не сможет включить их удалённо. Кнопка механическая?
Она физически расположена на устройстве, и она софтверно независимая. Мы не можем контролировать её из софта. Если я её нажал, то никакой софт, загруженный на колонку, не может её отключить. Индикатор — красное кольцо — всегда точно отображает электрическое состояние микрофонов.
Настоящий параноик всё равно будет выдёргивать колонку из розетки во время конфиденциального разговора.
Вопрос технического погружения. Если человек действительно считает, что и это не является финальной точкой, то ему, наверное, проще выключить. Но мы можем технически подписаться, что питание микрофонов физически отключается.
Все верили, что индикатор возле камеры MacBook всегда отображает, включена ли камера. Оказалось, её можно было включить и не зажигая индикатор. И все начали заклеивать камеру изолентой.
Я очень жду обзоров профессиональных технарей-хакеров, которые смогут доказать или опровергнуть возможность обойти эту защиту и софтверно включить микрофоны. Уверен, что это невозможно. Но если есть желающие доказать обратное, мы будем рады их сообщениям. Если они передадут нам информацию о баге, то смогут получить денежное вознаграждение.
Какие следующие сервисы вы собираетесь пустить на колонку? Всех желающих?
Мы рассчитываем, что всё, что умеет Алиса как голосовой ассистент, будет и на Станции. Возможно, с небольшой адаптацией: например, автомобильные сервисы могут быть менее проявлены.
Будет ли поддержка стриминг протоколов вроде Airplay?
Думаем о том, как стримить через Wi-Fi-сеть. Но тут есть ограничения. Когда Яндекс.Станция играет через саму себя, она «вычитает» собственный звук — и микрофоны вас слышат хорошо. Если это сигнал откуда-то извне, то для Станции это помеха, и качество распознавания голоса на расстоянии падает. Когда колонка играет сама, микрофоны хорошо слышат вас на расстоянии 5-7 метров. При стриминге сигнала через Wi-Fi появляются задержки и другие технические ограничения.
Поддержку Airplay можно будет добавить обновлением прошивки?
Всё, что не касается аппаратной части, можно добавлять, а аппаратно мы заложили много возможностей.
Почему вы решили делать своё устройство, а не пригласить в партнеры, например, Sonos?
Многие компании решают свои узкие задачи, и более широкая идея «видео плюс сервисы плюс звук» у них не идёт. Есть и бизнес-аспекты, которые надо учитывать – мы решили, что это достаточно важная тема, которую нужно иметь внутри компании.
Мы привлекали много компетенций извне. Немецкий Институт интегральных схем общества Фраунгофера, который нам помогал в ряде решений (в частности, права на технологию улучшения качества звука — прим. ред), китайские партнёры — по части производства. Дизайнеры Яндекса подключили к совместной работе калифорнийскую дизайн-студию. Кроме того, в создании Станции принимал непосредственное участие и наш офис разработки в Минске.
Мультирум (возможность транслировать звук на несколько устройств в разных комнатах — прим. ред.) тоже можно будет добавить программным обновлением?
Да, исключительно software update решит это задачу в какой-то перспективе. Я не могу говорить, в какой, но думаю, в ближайшей. Мы сможем раскатать мультирум по всем девайсам при помощи обновления.
Планируется ли добавить технологию, калибрующую звук колонки под параметры комнаты, в которой она играет. Вроде TruePlay от Sonos или решение для колонки HomePod от Apple?
Хороший вопрос, насколько эти решения действительно калибруют. Также есть сложности с патентами. Мы будем двигаться в сторону кастомизации звука иными способами. Например, работа эквалайзеров корректируется в зависимости от громкости. Другие производители часто предполагают, что колонка находится в центре комнаты, где у большинства людей все же нет розетки. А розетки чаще всего по краям комнаты, и колонка — пристенное устройство. Мы сразу решили, что будем ориентироваться на направленный звук, а не на всенаправленный, как в Apple HomePod.
Платформа Яндекс.Диалоги открыта для разработчиков? Можно писать свои скилы?
Да, там уже 4000 навыков. Например, партнерство с пиццериями Papa John’s и школой английского языка Skyeng.
Как будете продавать колонку?
Пока Яндекс.Станцию можно будет купить на Яндекс.Маркете.
Представленная платформа появится на других устройствах?
Алису можно встраивать в сторонние устройства. Например, платформа Yandex.IO (программная и аппаратная система, на которой построена Станция — прим. ред) может стать решением для бытовой техники или, например, для систем умных домов.
- Quad-core ARM Cortex-A53 @ 1 GHz (12000 MIPS).
- RAM: 1 GB DDR3 SDRAM.
- Flash storage: 8 GB eMMC.
- WiFi: 802.11 b/g/n/ac, dualband, MIMO 2x2.
- Bluetooth: BLE 4.1 with A2DP support.
- Video: HDMI 1.4 + CEC. FullHD support (1080p).
- Audio input: 16-channel digital audio capturing (I2S with TDM).
- Audio output: 3-channel digital D-class amplifier 30 W + 2x10 W.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.