Когда дело доходит до нашего душевного состояния и эмоций, наши лица могут многое сказать. Выражение лица является важным аспектом невербальной коммуникации у людей. Даже если мы не можем объяснить, как мы это делаем, мы обычно можем увидеть на лице другого человека, что он чувствует. Во многих ситуациях чтение выражений лица особенно важно. Например, учитель может сделать это, чтобы проверить, заняты ли их ученики или им скучно, а медсестра может сделать это, чтобы проверить, улучшилось или ухудшилось состояние пациента.
Благодаря достижениям в области технологий компьютеры могут неплохо справляться с распознаванием лиц. Однако распознавание выражений лица — это совсем другая история. Многие исследователи, работающие в области искусственного интеллекта (ИИ), пытались решить эту проблему, используя различные методы моделирования и классификации, включая популярные сверточные нейронные сети (СНС). Однако распознавание выражения лица является сложным и требует сложных нейронных сетей, которые требуют много обучения и требуют больших вычислительных ресурсов.
Пытаясь решить эти проблемы, исследовательская группа под руководством доктора Цзя Тяня из Цзилиньского инженерно-педагогического университета в Китае недавно разработала новую модель CNN для распознавания выражений лица. Как описано в статье, опубликованной в Journal of Electronic Imaging , команда сосредоточилась на достижении хорошего баланса между скоростью обучения, использованием памяти и точностью распознавания модели.
Одним из основных отличий между обычными моделями CNN и моделью, предложенной командой, было использование разделимых по глубине сверток. Этот тип свертки — основная операция, выполняемая на каждом уровне CNN — отличается от стандартной тем, что он обрабатывает разные каналы (например, RGB) входного изображения независимо и объединяет результаты в конце.
Объединив этот тип свертки с методом, называемым «предварительно активированными остаточными блоками», предложенная модель смогла обрабатывать входные выражения лица от грубого к точному. Таким образом, команда значительно сократила вычислительные затраты и необходимое количество параметров, которые система должна изучить для точной классификации. «Нам удалось получить модель с хорошей способностью к обобщению всего с 58 000 параметров», — сказал Тиан.
Исследователи протестировали свою модель, сравнив ее эффективность распознавания выражений лица с другими моделями в классе. Они обучили и протестировали все модели, используя популярный набор данных под названием «Расширенный набор данных Кона-Канаде», который содержит более 35 000 помеченных изображений лиц, выражающих общие эмоции. Результаты были обнадеживающими: модель, разработанная командой Тиана, показала самую высокую точность (72,4%) с наименьшим количеством параметров.
«Разработанная нами модель особенно эффективна для распознавания выражений лица при использовании небольших выборочных наборов данных. Следующим шагом в нашем исследовании является дальнейшая оптимизация архитектуры модели и достижение еще более высокой производительности классификации», — сказал Тиан.
Учитывая, что распознавание выражения лица может широко использоваться в таких областях, как взаимодействие человека с компьютером, безопасное вождение, интеллектуальный мониторинг, наблюдение и медицина, будем надеяться, что команда скоро реализует свое видение!