Что нового
2024
Апрель
- Отключен полный лог для новых правил переноса
При создании правил переноса доступна единственная схема логирования. В ней события одного типа удобно группируются в одну запись, которая содержит общее количество объектов и путь до последнего из них.
- Опубликованы универсальные образы для задач обучения, совместимые со всеми регионами
В образах py3.10-torch2.1.2:0.0.40 и py3.10-torch2.2.2:0.0.40 нет привязки к установленной версии CUDA. Это позволяет использовать образы для задач обучения в любом регионе.
Март
- Перезапуск задачи из интерфейса
Задачу обучения можно перезапустить вручную через интерфейс. Будет создана новая наследуемая задача с теми же параметрами, что и у родительской.
Подробнее см. Перезапустить задачу.
- Быстрый способ сообщить об ошибке с задачей
Создать заявку в техническую поддержку теперь можно из списка задач.
Подробнее см. Как быстро сообщить о проблеме с задачей обучения в техническую поддержку?
- Публичные коннекторы
Чтобы сделать коннектор доступным всем пользователям воркспейса, необходимо при создании коннектора через интерфейс платформы выбрать Поделиться с командой или создать коннектор при помощи API-метода Connectors Post, указав
workspace_id
.Подробнее см. Поделиться коннектором.
- Обучающие материалы по Distributed Data Parallel (DDP) в PyTorch
Опубликованы теоретические и практические материалы по использованию DDP в обучении моделей.
- Обновлен образ
jupyter-server
-
вернули плагин Tensorboard;
обновили версию Jupyter Notebook до 7;
поправили проблемы использования переменных окружения при использовании SSH подключения к Jupyter Notebook;
обновили версию mlspace-sdk до 0.22.2;
добавили возможность использования SSH в задачах обучения;
поработали над компактностью, теперь образ весит 1,4 ГБ.
Февраль
- Обучающие материалы по большим языковым моделям (LLM)
Опубликованы теоретические и практические материалы по обучению больших языковых моделей.
- Новый регион Cloud.Region.HP
Для запуска задач обучения в этом регионе используйте образы версии 0.0.37 и тип
'pytorch2'
.- Новый образ
jupyter-server:0.0.92
В образе версии 0.0.92 повышены стабильность, скорость работы и удобство использования.
Январь
- Обновления для работы с логами задач обучения
Для задач обучения с заданным количеством запусков теперь можно скачать логи отдельно по каждому запуску.
Сообщения в логах об изменении статусов воркеров стали более читаемыми.
Подробнее см. Проверить логи после запуска обучения.
- Обновление публичных SSH-ключей Jupyter Server для повышения безопасности
Необходимо обновить публичные SSH-ключи на локальных машинах.
Подробнее см. Обновление публичных ключей для SSH.
2023
Декабрь
- Информация о запусках задачи
В разделе Задачи и окружения можно узнать фактическое и максимально возможное количество запусков для каждой задачи обучения.
Подробнее см. Проверить статистику по задачам и Jupyter Server.
- Переход на домен
*.cloud.ru
С 12.12.2023 изменятся URL-адреса для доступа к Jupyter Servers, docker-образам, SSH, GitLab и public API. Переведите на новый домен технические решения, в которых используются эти ресурсы.
Подробнее см. Переход на домен cloud.ru.
- Обновления в форме выбора образа при создании Jupyter Server
В интерфейсе отображается больше информации об образе: доступность в регионах, дата загрузки, версии установленных Python, CUDA, Tensorflow. Появилась возможность выбрать версию образа и найти нужный образ по названию.
Подробнее см. Создать Jupyter Server.
Ноябрь
- Лимит на количество файлов в NFS
Узнать лимит на количество файлов в хранилище NFS теперь можно на главной странице или из раздела Воркспейсы.
Подробнее см. Узнать или изменить квоты NFS.
- Новый параметр legacy в пайплайнах
Через параметр
legacy
вы можете задать схему логирования при создании правила переноса в пайплайнах.Подробнее см. Параметры корневого уровня.
- Опубликованы образы, в которых установлены новая версия CUDA и Python
Образы для задач обучения с тегом 0.0.36, в которых установлены версии CUDA до 12.1, Python до 3.11, Torch до 2.0.
Подробнее см. Библиотеки в базовых образах для задач обучения.
- Опубликован образ jupyter-server, в который можно установить требуемые версии Python и CUDA
В образ
cr.ai.cloud.ru/aicloud-jupyter/jupyter-server
версии 0.0.90 и выше можно установить требуемые версии CUDA и Python.
Октябрь
- Мониторинг зависших задач в client_lib и API
С помощью
health_params
в client_lib и в API можно отслеживать зависшие задачи обучения и задавать, какие действия выполнять в случае зависания.- При указании несуществующего образа задача не запустится через client_lib или API
Если запустить задачу с несуществующим образом через client_lib или API, это вызовет ошибку. Задача не будет отправлена на выполнение в регион и не займет ресурсы.
Вы можете выбрать корректный образ из списка образов для задач обучения, а также создать или загрузить собственный кастомный образ.
- Обновления в логах переносов
Появилась новая схема логирования. В ней события одного типа группируются в одну запись, которая содержит количество объектов и путь до последнего.
Подробнее см. Операции над правилами переноса данных.
Сентябрь
- Новый параметр checkpoints_dir в client_lib
Использование параметра
checkpoints_dir
упрощает сохранение промежуточных результатов обучения модели, если в задаче обучения возникли технические ошибки.Подробнее см. checkpoints_dir.
- Индикация загруженности типа конфигурации при создании Jupyter Server
При создании Jupyter Server рядом с названием конфигурации отображается цветовая индикация, которая показывает загруженность ресурсов.
Подробнее см. Создать Jupyter Server.
Июль
- Расширенный статус подов деплоя
Добавили в карточку деплоя новую вкладку с информацией о последних 200 экземплярах деплоя, включая статус и тарифицируемое время.
Подробнее см. Проверить состояние деплоя.
для Dev & Test