Датасет
HaGRID

HaGRID (HAnd Gesture Recognition Image Dataset) – самый разнородный датасет для системы распознавания жестов. Он состоит из 552,992 изображений, разделенных на 18 классов. В разметку входят боксы кистей рук с меткой класса жеста и метка ведущей руки.

Лицензия
Other
Бесплатно
Подключить
Категории
datasetgesturesopen sourcedeep learningcomputer visionimage detectionmage recognitionimage classification
Разработчик
SberDevices
Описание

Изображение

Каждое изображение содержит показывающую жест руку и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.

Разметка: bounding box, leading hand, user id Фреймворк: pytorch Размер файлов: 716GB Количество жестов: 19 Число изображений: 552 992 Формат изображений: FullHD RGB Уникальных пользователей: 34 730

Возможности

В записи датасета участвовало не менее 34,730 уникальных пользователей. Набор данных содержит как минимум столько же сцен и очень разнороден по освещению, расстоянию субъекта до камеры, их возрасту и полу. Все снимки выполнены в RGB формате и более 90% из них - в FullHD (1920х1080).

HaGRID разделен на 18 классов жестов: call, dislike, fist, four, like, mute, ok, one, palm, peace, peace_inverted, rock, stop, stop_inverted, three, three2, two_up, two_up_inverted.

Каждое изображение содержит показывающую жест руку, и в некоторых случаях может содержать вторую руку в естественном положении, размеченную дополнительным классом no gesture.

Преимущества

Все данные и обученные на них модели для задач классификации и детекции жестов абсолютно бесплатны и доступны для скачивания. Кроме того Вы можете скачать мини версию набора данных, содержащую по 100 изображений с разметкой на класс. Демо-версия работы моделей на обученных данных также доступна в репозитории.

Сценарии использования

С помощью HaGRID можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов.

Инструкции по использованию

Вы можете скачать датасет в виде набора архивов размером 716GB. В ML Space доступна также и его мини-версия размером 2.4GB (по 100 изображений на жест). Поскольку датасет занимает много места, мы разбили обучающую выборку на 18 архивов по числу классов в датасете (каждый архив занимает примерно ~40GB). Тестовая выборка представлена единым архивом.

Обучение:

Gesture | Link | Size (GB) ------ | ------ | ------ CALL | https://sc.link/ykEn | 39.1 DISLIKE | https://sc.link/xjDB | 38.7 FIST | https://sc.link/wgB8 | 38.0 FOUR | https://sc.link/vJA5 | 40.5 LIKE | https://sc.link/r7wp | 38.3 MUTE | https://sc.link/q8vp | 39.5 OK | https://sc.link/pV0V | 39.0 ONE | https://sc.link/oJqX | 39.9 PALM | https://sc.link/nJp7 | 39.3 PEACE | https://sc.link/l6nM | 38.6 PEACE_INV. | https://sc.link/mXoG | 38.6 ROCK | https://sc.link/kMm6 | 38.9 STOP | https://sc.link/gXgk | 38.3 STOP_INV. | https://sc.link/jJlv | 40.2 THREE | https://sc.link/wgBr | 39.4 THREE2 | https://sc.link/vJA8 | 38.5 TWO_UP | https://sc.link/q8v7 | 41.2 TWO_UP_INV. | https://sc.link/r7w2 | 39.2

Разметка для обучения: https://sc.link/BE5Y

Тестовая выборка

Модели

Classifier | Link | F1-score (gesture) ------ | ------ | ------ ResNet18 | https://sc.link/KEnx | 98.72 ResNet152 | https://sc.link/O9rr | 99.11 ResNeXt50 | https://sc.link/GKjJ | 98.99 ResNeXt101 | https://sc.link/JXmg | 99.28 MobileNetV3_small | https://sc.link/XVEg | 96.78 MobileNetV3_large | https://sc.link/YXG2 | 97.88 Vitb32 | https://sc.link/XV4g | 98.49

Детектор

SSDLite - https://sc.link/YXg2

Полезные ссылки

Авторы

  • Капитанов Александр
  • Махлярчук Андрей
  • Кванчиани Карина