Введение
В этой статье освещается разработка серии интерактивных развивающих игр для детей младшего возраста «Приключения Клифорда»от компании Scholastic Interactive. Разноплановое использование жестов и голоса в этой игре стали возможными благодаря технологии Intel® Perceptual Computing SDK 2013. Здесь обсуждаются новые методы распознавания жестов и голоса с помощью технологий Perceptual Computing (естественные методы взаимодействия с компьютером), методика решения проблем с SDK, а также вопросы поддержки портативных компьютеров-моноблоков (AIO).
Рисунок 1. Пес Клифорд*
Концепция развивающей игры.
Scholastic Interactive — это подразделение Scholastic, международной медиа-, образовательной и издательской компании. Миссия Scholastic Interactive — создание игр, которые не просто были бы развлечением для детей, но и способствовали бы их развитию. Для компании методы естественных взаимодействий с компьютером — это новое направление в развива¬ющих играх для малышей, ведь ребенок осваивает их сам интуитивно, а не через предвари¬тельное обучение. Интеграция платформы Perceptual Computing со средствами распознавания голоса и жестов дает детям от трех лет возможность участвовать в приклю¬чениях вместе с Клифордом и его друзьями.
В этой серии из четырех интерактивных эпизодов про Клифордаигроки просматривают сюжет и взаимодействуют с ним посредством речи и сенсорного экрана своего компьютера. Игра вовлекает детей в сюжет, предлагая различными способами «помогать» Клифорду посредством определенных жестов и высказываний.
Рисунок 2. Приключения Клифорда. Меню.
Интерактивное эмпирическое обучение.
Благодаря интерактивной технологии Scholastic Клифордреагирует на голос и движения детей. В ходе сюжета игры они смотрят анимированные отрывки каждого приключения и активно содействуют героям, прикасаясь к экрану или произнося ответы на вопросы. Сюжет развивается по мере взаимодействия ребенка с игрой. Каждая игра рассчитана на развитие базовых навыков грамотности и может повторяться сколько угодно раз.
Intel Perceptual Computing SDK 2013 включает в себя API, образцы кода, а также руководства по программной интерпретации жестов и речи ребенка, взаимодействующего с игрой. Разработчики могут без труда сочетать возможности SDK по распознаванию речи, жестов руки и пальцев, мимики, технологии дополненной реальности и вычитания фона, создавая ПО для новейших планшетов, компьютеров Intel Ultrabook™ и сенсорных моноблоков. Использование микрофона, камеры, сенсорного экрана, функций определения положения в пространстве и геолокации, широко распространенных на планшетах, ноутбуках трансформерах и компьютерах-моноблоках повышает многомерность восприятия новых приложений.
Рисунок 3. Intel® Perceptual Computing SDK.
Команда разработчиков.
Специалисты Scholastic изучили видение нескольких коллективов разработчиков относительно концепции игры, интерактивного взаимодействия и основных вопросов пригодности программных продуктов для детей. В итоге Scholastic установила партнерские отношения с Symbio, чьи специалисты имеют большой опыт в создании средств распознавания голоса и жестов, игр, образовательных программ для детей, а также в вопросах детской эргономики.
Разработки на основе Intel® Perceptual Computing Platform.
Адаптация технологий Perceptual Computing к анализу движений и голоса детей несет в себе ряд сложностей. Scholastic всесторонне протестировала каждый прототип, чтобы оценить дизайн игры и реальность прохождения ее уровней. Это помогло выявить потенциальные проблемы, с которыми могла столкнуться целевая аудитория, и найти для них решения.
Некоторые аспекты проведенной работы могут представить особый интерес с точки зрения технологии Perceptual computing. Они приводятся ниже.
Калибровка распознавания голоса.
Чтобы обеспечить приемлемое качество распознавания голоса, потребовалось провести ряд проверок. Голос ребенка изменяется по мере взросления, особенно в том возрасте, на который рассчитана серия «Клифорд». Поэтому необходимо было добиться такого уровня калибровки, чтобы детский голос и речевые конструкции распознавались правильно.
Рисунок 4. Эпизод игры, требующий речевого участия игрока.
Распознавание и локализация жестов.
В одной из игр «Приключений Клифорда»от ребенка требуется помочь собаке ловить игрушки, падающие с дерева. Для этого нужно касанием руки «схватить» корзину на экране и двигать ее в разные стороны.
Рисунок 5. Дерево игрушек Клифорда.
Были разработаны специальные алгоритмы, распознающие жесты и сопоставляющие их с координатами касания, чтобы корзина на экране двигалась вслед за рукой ребенка. В тестировании с удовольствием принимали участие маленькие игроки. Ранее разработчики ошибочно полагали, что у ребенка жесты удержания объекта на экране не будут сильно отличаться от жестов взрослого. Но работа с детьми заставила пересмотреть дизайн игры таким образом, чтобы она воспринимала их нечеткие движения. Научить сенсоры понимать размашистые, часто ошибочные и хаотичные жесты ребенка, состоящие из множества касаний, было непросто. Требовалось много работы по определению прототипов жестов и отбору их наиболее общих конфигураций. Область регистрации касаний была расширена, чтобы даже неточный жест распознавался и вызывал нужную реакцию приложения.
К примеру, в другой мини-игре дети помогают Клифорду убрать из сада сорняки. Вместо того, чтобы заставлять игроков брать сорняк и двигать руку вверх, вытягивая его, разработчики выбрали движения захвата и раскрытия ладони, обозначающие выдергивание и выбрасывание. Адаптация к уровню развития детской моторики позволила сделать игровое приложение более успешным.
Рисунок 6. Ребенок помогает Клифорду убирать сорняки.
Ниже приведен фрагмент кода игры, калибрующий жесты игрока в обучающем упражнении, где требуется вращать руками мячик. В эпизоде, изображенном на рисунке 7, для более точного контроля объекта и легкости движений применили экспоненциальное сглаживание (exponential smoothing). Оно вычленяет или, по крайней мере, приблизительно вычисляет случайные движения игрока, которые программа должна игнорировать.
Рисунок 7:Вращение мяча.
Figure 8:Пример кода для вращения мяча.
Решение проблем с Intel® Perceptual Computing SDK
Благодаря многомерному восприятию, которое возможно с SDK от Intel, игроки получают немедленную реакцию программы на их действия. Это создает ощущение физического участия в происходящем. Однако разработчики столкнулись с некоторыми ограничениями в возможностях распознавания сложных движений и голосовых реакций детей.
Жесты
Камера, воспринимающая жесты, сфокусирована на расстоянии около 60–90 см. Поэтому мелкие движения регистрируются лучше, чем размашистые или комплексные, выходящие за пределы данного диапазона.
Оптимальный набор жестов был определен методом проб и ошибок. Специалистам пришлось подумать о различных условиях окружающей среды, освещении и расстоянии до камеры.
С точки зрения SDK, API и других используемых технологий, разработать первоначальные вари-анты жестов несложно, потому что обучающие упражнения, образцы кода и используемые структуры имеются в SDK. После настройки среды разработки можно выполнять обучающее упражнение, например отслеживание пальцев, чтобы изучить взаимодействие сенсоров и кода в SDK.
Рисунок 9. Взаимодействие сенсоров жестов и кода в Intel® Perceptual Computing SDK 2013.
Программисты обнаружили, что в SDK не хватает различных систем координат для жестов. Это пришлось восполнить собственными разработками.
Рисунок 10:Визуальная схема координат жестов.
Изначально команда разработчиков использовала подход node[8].positionImage.x/y, игнорируя данные о глубине, т. к. они не требовались для интерпретации жестов. Но впоследствии был найден более оптимальный подход. Использовалось «глубинное изображение» и отыскивался ближайший пиксель, на основе чего эффективно определялся жест. Затем было добавлено экспоненциальное сглаживание.
Распознавание голоса.
Распознавание голоса в игре сильно зависело от устройств и сюжета. На одних устройствах и в одних ситуациях оно работало хорошо, в других условиях не работало совсем.
Игра должна подсказывать детям команду, которую нужно произнести, чтобы она была записана с помощью микрофона. Функция должна работать даже на фоне посторонних звуков и музыкального сопровождения игры. Распознавание голоса может работать в режиме детектирования речи, когда программа пытается определить, что вы сказали, или в режиме словаря, когда сказанное сопоставляется с вашим словарем, который определяется в случае данной игры пользователем.
Сначала специалисты попробовали первый режим и настроили его на учет любых звуков, основываясь на том, что речь маленьких детей не всегда четко артикулируется. Но результаты оказались неудовлетворительными. Тогда было решено перейти к режиму словаря. Он хорошо работает, если слова произносятся отчетливо. Разработчики попробовали добавить в словарь варианты слов, чтобы увеличить вероятность их распознавания (например, трактор — тлактол — тъяктол). Однако режим словаря не дал ожидаемых результатов, потому что чем больше в словаре единиц, тем выше вероятность ошибки. Пришлось искать компромисс между величиной списка слов и потенциальной долей ошибок. В конечном варианте список допустимых слов был сведен к минимуму, чтобы оставить возможность простого взаимодействия ребенка с игрой.
Влияние размера экрана. Сенсорные компьютеры-моноблоки.
С развитием сенсорных экранов на рынке начинают появляться модели с большой диагональю. «Приключения Клифорда» созданы с учетом этой тенденции. Большие сенсорные экраны применяются, в частности, в компьютерах-моноблоках AIO.
Такие компьютеры состоят из монитора (от 18 до 55 дюймов) и материнской платы, встроенной позади него. У них высокопроизводительные процессоры, высокое разрешение (1080p/720p), они снабжаются беспроводными (Bluetooth*) клавиатурой и мышью и емкой встроенной батареей, что делает устройство портативным и способным к автономной работе. Это одна из самых быстроразвивающихся разновидностей компьютеров. Моноблоки популярны благодаря тому, что на них можно делать все, что возможно на обычном компьютере: играть в игры, просматривать веб-сайты, телепрограммы и фильмы, делать домашнюю работу, вести семейный бюджет, общаться с друзьями и т. д.
Многие из современных моноблоков являются портативными, что еще более расширяет область их применения. Портативные моноблоки имеют огромные преимущества для игр благодаря своему большому экрану, поддерживающему множественные касания, высокопроизводительному сетевому подключению, а также компактному корпусу. Они могут устанавливаться как под наклоном, так и горизонтально. Встроенные батарея и адаптер Wi Fi и позволяют пользоваться компьютером из любой точки квартиры или дома. Большой HD монитор с поддержкой множественных касаний и графический процессор высокого класса превращают работу с таким компьютером в удовольствие. Все эти качества делают моноблок очень привлекательной базой для разработчиков, желающих выйти за рамки мобильных устройств для одного пользователя.
Создателям «Клифорда» очень хотелось видеть свою игру на больших экранах, и поэтому они позаботились о том, чтобы она подходила для разрешения 1920 x 1080.
Заключение
Стадия тестирования прошла весело. Разработчики получили ценный опыт, работая с детьми, конечными пользователями приложения. И еще приятнее было увидеть готовую игру в использовании. Один из наших старших специалистов показал ее своей трехлетней дочери, и все мы были очень рады услышать, что девочка играла в «Приключения Клифорда» с огромным интересом и азартом. Ура!
Рисунок 11.Клифорд и его друзья.
Теперь Scholastic не терпится применить свои технологии в новых проектах. Совместно с Symbio ведется работа над новой игрой на основе Intel® RealSense™ 3D SDK, которую планируется выпустить осенью 2014 года.
Рисунок 12:Игра готова.
Технология Intel® Real-Sense™
Анонсированная на выставке CES 2014, технология Intel® RealSense™ — это новый образ Intel® Perceptual Computing, SDK с интуитивным пользовательским интерфейсом и функциями распознавания речи, жестов, движений руки и мимики. Эти технологии компания Intel представила еще в 2013 г. Intel RealSense предоставляет разработчикам дополнительные возможности, такие как сканирование, редактирование, 3D-печать, распространение, а также технологии дополненной реальности. Благодаря им пользователи могут манипулировать отсканированными 3D объектами с помощью новейшей технологии сенсорного управления.
Ссылки и полезные материалы
- Игра «Приключения Клифорда» в Windows* Store: http://apps.microsoft.com/windows/en-us/app/cliffords-reading-adventures/5e2aa35b-0603-4330-b8ab-97b4db1a4bde
- Scholastic Inc.: http://www.scholastic.com/home
- Scholastic Media: http://www.scholastic.com/aboutscholastic/scholasticmedia.htm
- Symbio: http://symbio.com/
- Технология Intel® RealSense™: http://www.intel.com/content/www/us/en/architecture-and-technology/realsense-overview.html
- Intel® Perceptual Computing SDK 2013: https://software.intel.com/en-us/vcsource/tools/perceptual-computing-sdk
- Дополненная реальность в компьютерном повествовании: книжка — это только начало: https://software.intel.com/en-us/articles/digital-storytelling-with-augmented-reality-the-book-is-just-the-beginning
- Новый уровень игры в разработках Scholastic и Intel: http://kidscreen.com/2014/01/07/scholastic-and-intel-partner-on-new-gaming-experience/
- IdentityMine развивает игры на платформе портативного ПК-моноблока: https://software.intel.com/en-us/articles/case-study-identitymine-tackles-game-development-for-the-portable-all-in-one-platform
- NOMAD Apps оптимизирует AWEsum! для Windows* 8 на платформе Intel® All-in-One: https://software.intel.com/en-us/articles/case-study-nomad-apps-leverages-windows-8-and-the-intel-all-in-one-platform-to-enhance-the
Об авторе
Тим Дункан — один из наших инженеров. Друзья называют его «мистер Гаджет». В настоящее время он помогает разработчикам применять в их продуктах новые технологии Intel. Тим обладает многолетним опытом работы в отрасли и знаком со многими ее сторонами: от производства микросхем до интеграции целых систем. Вы можете найти его на сайте Intel® Developer Zone: Tim Duncan (Intel).
Примечания
Исходный код предоставлен Scholastic Interactive LLC для метода экспоненциального сглаживания для приложений, использующих технологию Intel Perceptual Computing, созданных для платформы Windows 8.
Scholastic Sample Source License Copyright (c) 2014, Scholastic Interactive LLC. Code pertaining to exponential smoothing functionality contained in the Clifford’s Reading Adventures 1.0 game (“Sample Code”). All rights reserved. Redistribution and use in source and binary forms of the Sample Code, with or without modification, are permitted provided that the following conditions are met:
THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. FOR THE AVOIDANCE OF DOUBT, THE ONLY RIGHTS GRANTED UNDER THIS LICENSE ARE LIMITED TO THE SOFTWARE SPECIFICALLY DESCRIBED ABOVE, AND ANY USERS OF THE SAMPLE CODE SHALL HAVE NO LICENSE OR RIGHTS IN OR TO (A) ANY OTHER SOURCE OR BINARY CODE, OR ANY OTHER SOFTWARE OR TOOLS, THAT MAKES UP OR IS EMBEDDED IN THE CLIFFORD’S READING ADVENTURES GAME, OR (B) ANY OTHER INTELLECTUAL PROPERTY OF THE COPYRIGHT HOLDER OR ITS AFFILIATES. |
Clifford Artwork © Scholastic Entertainment Inc. CLIFFORD THE BIG RED DOG and associated logos are trademarks of Norman Bridwell. All rights reserved.
Intel, the Intel logo, and RealSense are trademarks of Intel Corporation in the U.S. and/or other countries.
Copyright © 2014 Intel Corporation. All rights reserved.
*Other names and brands may be claimed as the property of others.