Deployments
Deployments — модуль для развертывания (деплоя) моделей машинного и глубокого обучения на высокопроизводительных серверах с целью последующего обращения к этим моделям для предсказаний по новым данным. Для обработки каждой задачи выделяются ресурсы в рамках возможностей платформы ML Space и квоты, выделенные для учетной записи пользователя. Ниже представлены схемы взаимодействия с сервисом.
Real time
У пользователя есть обученная сериализованная (pickle, h5, checkpoints и др.) модель.
Пользователь загружает модель и serving-скрипт на S3.
Посредством UI/API/Jupyter Notebook (библиотека client_lib) пользователь вызывает сборку образа и разворачивает его на сервисе.
Автоматизированная система пользователя отправляет HTTP-запросы к модели через REST API и получает прогноз/классификацию и т.д.
Batch
У пользователя есть обученная сериализованная (pickle, h5, checkpoints и др.) модель.
Пользователь загружает модель и serving-скрипт на S3.
Посредством UI/API/Jupyter Notebook (библиотека client_lib) пользователь вызывает сборку образа и разворачивает его на сервисе.
Автоматизированная система пользователя отправляет на S3 данные (изображения, звуковые файлы и т.д.).
Автоматизированная система пользователя / задача по расписанию инициирует обработку всего, что находится в каталоге на бакете S3. Прогноз либо сохраняется на S3, либо повторно передается к АС пользователя.
Отправка предсказания.
Async inference
У пользователя есть обученная сериализованная (pickle, h5, checkpoints и др.) модель.
Пользователь загружает модель и serving-скрипт на S3.
Посредством UI/API/Jupyter Notebook (библиотека client_lib) пользователь вызывает сборку образа и разворачивает его на платформе.
Автоматизированная система пользователя отправляет на S3 данные (изображения, звуковые файлы и т.д.).
Автоматизированная система пользователя / задача по расписанию инициирует обработку всего, что находится в каталоге на бакете S3. Пользователь/автоматизированная система получает идентификатор асинхронного запроса.
По результатам обработки пользователь/автоматизированная система получает статус асинхронного запроса.
После выполнения, пользователь/автоматизированная система получает результат выполнения асинхронного запроса.