Три крупнейшие проблемы сегодняшней дополненной реальности и их решения

Статья сотрудника международной IT-компании Brainberry Ананда Диббля (Anand Dibble), опубликованная в корпоративном блоге — это ...

Статья сотрудника международной IT-компании Brainberry Ананда Диббля (Anand Dibble), опубликованная в корпоративном блоге — это одновременно осмысление рыночного поля и крик души. Диббль взял на себя задачу частично структурировать проблематику дополненной реальности и вывести конкретные решения, которые позволят ей, наконец, стать технологией, ведущей за собой мир интерфейсов и миллионы пользователей по всей планете.  

В рамках подготовки к написанию статьи о лучших AR-приложениях я скачал и протестировал их великое множество. Бегая вокруг здания с iPad и сбивая невидимых врагов смартфоном перед своим лицом, я надоел каждому во всём офисе.

Но это не всё, чем я был занят.

Я пришёл к выводу, что большинство AR-приложений, в особенности те, которые стремятся быть всем, чем могли бы быть, крайне отстают в трёх ключевых областях, плотно связанных между собой.

И, естественно, у меня имеются идеи касаемо того, как это исправить.

Первая проблема приложений дополненной реальности: отображение

В мире, где мы можем делать фильмы с почти бесшовной интеграцией анимированных элементов в живое действие, многие AR-приложения кажутся мультяшными. Это не «Аватар», это больше похоже на «Кто подставил кролика Роджера». Причина довольно проста.

В фильме движения объекта или актёра записываются с использованием захвата движения и реконструируются с помощью программного обеспечения для анимации — это значит, что дополнение происходит постфактум и контролируемо. AR-приложения полагаются на регистрацию движения, благодаря которой анимационная картинка создаётся в режиме реального времени. Для ретуширования анимации постфактум нет возможности, а тени и освещение всегда будут одинаковыми, независимо от того, каковы текущие условия среды. Это более чем фактическое качество анимации создаёт ощущение мультипликационности, от которого массово страдает наложение в дополненной реальности. Есть и недостатки в размещении элементов, но это в большей степени связано с третьей проблемой, о которой мы поговорим ниже.

Потенциально решение может быть найдено с помощью освещения на основе изображения (IBL — Image-Based Lighting). Эта техника 3D-рендеринга использует специальную помещённую в среду камеру для съёмки освещения и применяет результат к сгенерированному компьютером изображению. Проблема здесь в том, что смартфоны на текущий момент не имеют достаточную вычислительную мощность для реализации соответствующего программного обеспечения, и в нательные устройства оно будет идти ещё дольше. Кроме того маловероятно, учитывая нынешнее состояние технологии, что к этим устройствам будет добавлено более одной камеры исключительно для лучшей отрисовки объектов.

Другая проблема, связанная с регистрацией перемещения — необходимость ориентиров. Но это ближе к нашему второму пункту.

vlcsnap-7622953

Распознавание объектов буксует и будет буксовать

Google Goggles стало одним из первых опубликованных приложений дополненной реальности. Оно установлено в моём телефоне. Последние три вещи, которые я проанализировал с ним, были такими (по порядку): моя мышь, бутылка воды, очки и чашка. В основном то, что лежало на моём столе.

Результаты, которые я получил, были таковы (по порядку): диван, платья, обувь и сумка. Другие приложения (в частности, Firefly — главное приложение смартфона Amazon Fire Phone), кажется, делают это лучше, но ни одно из них не работает действительно хорошо.

Это важно для AR по двум причинам. Первая очевидна: если ваше устройство не может распознать, что находится перед ним, то оно никак не сможет выдать вам информацию об увиденном. Вторая также относится к регистрации движения.

Для того, чтобы регистрация работала, вам нужна фиксированная точка отсчёта в кадре. До определённого уровня это может быть решено, поскольку смартфоны содержат гироскопы, которые дают им своего рода примитивную проприоцепцию, но наличие фиксированной точки в кадре также необходимо устройству, чтобы понять, где именно движется анимированный объект по отношению к живой сцене.

Это может быть разрешено только за счёт расширения базы данных, с которой работает устройство и программное обеспечение. Распознавание объектов можно понимать как следствие поиска. Входные данные (изображение) получены, просеяны через базу других изображений, а набор алгоритмов использован, чтобы понять, что это. К сожалению, поиск изображений гораздо сложнее, чем простой поиск в интернете, и наши текущие вычисления выполняются с отставанием. Интеллектуальная обработка, необходимая, чтобы понять видеоряд, даётся компьютерам с трудом, и большинство из нас этого не осознаёт.

Распознавание объектов было бы необходимо для уведения технологии от её текущей зависимости от QR-кодов и 2D-маркеров, которые используются почти всеми настоящими приложениями дополненной реальности. Это такжы был бы один из краеугольных камней создания объединённого AR-браузера для реального мира, который включал бы взаимодействие с реальными объектами.

Бинокулярное зрение

Одно из протестированных приложений обещало, что я смогу увидеть то, как мебель будет выглядеть в моей комнате. Я мог выбрать мебель (хотя всё выглядело несколько мультяшно) и поместить её в комнату, но закралась одна серьёзная проблема. Она всегда выглядела так, будто парит в нескольких сантиметрах над полом.

Суть этого в третьей проблеме — глубине восприятия.

У нас есть восприятие глубины, потому что мы имеем бинокулярное зрение. Это то, что позволяет нам понять приблизительные расстояния между вещами. Мой телефон с его единственной камерой на это не способен.

На деле есть несколько способов это обойти. Одним из них является эхолокация. Это не лучший выбор, поскольку она создаёт шумовое загрязнение, и даже если она проводится на частоте, неслышимой человеческому уху, то может вызвать проблемы в окружении животных. Кроме того она не будет создавать видимую 3D-среду только со звуком, поскольку данные эхолокации должны быть объединены с данными о видимом свете. То же самое можно сказать о тепловых данных, хотя эхолокация, естественно, будет более эффективной в условиях слабой освещённости.

Лучшим способом обойти эту проблему, на мой взгляд, является то, что выбрала эволюция — бинокулярное зрение. Оно было реализовано в Kinect, правда уже в тринокулярном режиме, технологию получил всё тот же Fire Phone. Его смотрящие в сторону пользователя камеры (в общей сложности пять) могут увидеть, где вы находитесь по отношению к телефону. Это работает не идеально, но технология имеет передовой характер, и первые экземпляры ожидаемо полны ошибок.

Расскажите в комментариях, какие проблемы в дополненной и, возможно, в виртуальной реальностях видите вы?

Categories
Статьи

RELATED BY