УДК 004.932

МАТЕМАТИЧЕСКИЕ ФУНКЦИИ И ТЕХНОЛОГИИ В СИСТЕМАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА, РАБОТАЮЩИХ С РАСПОЗНАВАНИЕМ ЭМОЦИЙ

№40,

Технические науки

Гринин Игорь Леонидович
Кравченко Сергей Вячеславович
Чумаков Артем Владимирович


Ключевые слова: ОБНАРУЖЕНИЕ ЛИЦ; РАСПОЗНАВАНИЕ ЛИЦ; СИСТЕМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА; МАТЕМАТИЧЕСКИЕ МОДЕЛИ; FACE DETECTION; FACE RECOGNITION; ARTIFICIAL INTELLIGENCE SYSTEMS; MATHEMATICAL MODELS.


Аннотация: В настоящей статье авторами исследуются структуры и принципы работы математических и технологических принципов работы искусственного интеллекта. Методологиями исследования стали сравнительный анализ популярных методик распознавания эмоций, а также пошаговый разбор анализа на примере таких моделей.

Итогом исследования стал описательный анализ работы математических и психологических моделей распознавания эмоций, а также математических функций для их представления. В процессе исследования был получен ряд теоретических знаний, для работы с изображениями лиц, которые могут стать полезны для различных возможных обработок и других видов работ с таким типом данных.


Введение

Сейчас в мире наблюдается невероятный рост программ, использующих искусственный интеллект. Эти нейронные сети применяются в абсолютно во всех сферах деятельности — медицине, криминалистике, искусстве, науке… Среди этого бесконечного количества, существует одна конкретная категория нейронных сетей, использование которых очень важно в современном мире — это распознавание лиц и эмоций.

В данной статье авторами будут рассмотрены и изучены математические и технологические принципы работы искусственного интеллекта, анализирующего изображения лиц. Система является сложносоставной, однако в этой работе будет рассмотрена лишь теоретическая составляющая.

По данному вопросу в научной литературе имеется множество информации. Анализ литературы показывает, что тема работы с распознаванием лиц исключительно востребована, за последние года опубликовано более 10000 статей. Данная тема очень популярна в современном обществе, именно поэтому авторы и решили ее изучить.

Распознавание эмоций

Эмоции человека — явление изначально психологическое. Составлением моделей эмоций занимались множество именитых психологов. Одним из самых видных принято считать Пола Экмана, предложившего первую дискретную модель — «Атлас эмоций». В последствии, было предложено множество других дискретных моделей, от разных ученых, каждый из который предлагал свою классификацию первичных и вторичных эмоций. Однако именно огромное количество разных мнений и споров и привело к тому, что в будущем пришлось отказаться от дискретных моделей.


Рисунок 1. Атлас эмоций по Экману

На смену им пришли многомерные или непрерывные модели. Самой основной, ставшей главным стандартом для современных систем искусственного интеллекта, является модель Джеймса Рассела, созданная в 1980 году. Рассел вводит двумерный базис, осями которого являются знак эмоции (от отрицательного к положительного) и ее интенсивность (от низкой к высокой). Модель является достаточно простой, потому и приобрела такую популярность.


Рисунок 2. Модель Джеймса Рассела

Однако, в связи с ростом количества работ, использующих ее, модель необратимо развивалась, добавляя в себя все больше и больше данных, и становясь все сложнее и сложнее.


Рисунок 3. Усложненная модель Рассела

Где-то на этом моменте заканчивается работа с распознаванием эмоций у психологов и начинается работа искусственного интеллекта.

Математика распознавания эмоций

Поскольку рассматриваемая нами модель является двумерным графиком, имеющим множество внутрилежащих значений, работа с ней должна происходить как и с любым другим графиком.

Перед системой искусственного интеллекта лежат две важных и ключевых математических задачи — задача дискретного анализа (или же задача классификации) и задача регрессии.

В задаче классификации парами «объект-класс» являются фотографии и эмоции. Поскольку, хоть количество эмоций является конечным, оно больше двух, поэтому классификация не бинарная.

Также для задачи классификации существует входная выборка. Это те самые готовые и размеченные на эмоции фотографии, на основе которых система будет проставлять метки эмоций для изучаемых изображений.

Основной же задачей, стоящей перед нейронной сетью является регрессия. Регрессия происходит с предсказанием двух численных значений — координат точки в указанном на изображении пространстве. Сложностью решения такой задачи является необходимость разметки обучающего датасета с указанием численных значений знака и интенсивности эмоции.

Целью этого является выбор из множества функций одну, минимизирующую функцию потерь. Другими словами — из огромного количества эмоций, описанных моделью, нужно выбрать ту, значение которой максимально приближено и к истине. Истина же выявляется в задаче классификации, при изучении существующих примеров.

Вариантов того, как именно технически реализовать решение этих задач достаточно много, однако в этой статье были рассмотрены лишь теоретические аспекты работы систем искусственного интеллекта.

Выводы

Технологии в современном мире развиваются так стремительно, что сложно понять, что они могут. Однако за каждой из них стоит, пусть и невероятно сложная, но уже существующая и изученная математика, а следовательно, понять как работает то или иное технологическое чудо можно.


Список литературы

  1. Блог компании Центр речевых технологий (ЦРТ). Введение в задачу распознавания эмоций [Электронный ресурс] — url: https://habr.com/ru/company/speechpro/blog/418151/
  2. Ю. А. Александров, Данилова Н. Н., Психофизиология: Учебник для вузов — М.: Аспект Пресс, 2001 — с 212-213
  3. Job van der Schalk, Skyler Hawk — Moving Faces, Looking Places: Validation of the Amsterdam Dynamic Facial Expression Set (ADFES)