AI-сервис
ruDALL-E XXL 12B

Русская text-to-image модель, генерирующая изображения по тексту

Лицензия
Other
Размер файлов
24 GB
Версия
0.1
Бесплатно
Подключить
Сценарии использования
Запросы к API
Категории
DALL-EruDALL-ePyTorchtext2imageimage generationNLPCV
Разработчик
SberDevices
Контакты
gpt3support@sber.ru
Описание

Zero-Shot Text-to-Image Generation

Русская text-to-image модель, генерирующая изображения по тексту, 12 млрд параметров.

ruDALL-E XXL 12B + ruCLIP + SuperResolution

Новости

Подробнее о модели

Примеры кода с использованием модели: GitHub

Статья OpenAI: ссылка

Галерея ruDALL-E: ссылка

Технические параметры

  • Размер файлов:
    • ruDALL-E XXL 12B - 24 GB
  • Модель GPU: V 100
  • Фреймворк: pytorch
  • Tags: DALL-E, ruDALL-e, pytorch, text2image, image generation, NLP, CV
  • Формат: checkpoint
  • Версия: 0.1

Применение

Генерация изображений решает две важные задачи, которые не может решить поиск:

  1. позволяет учесть точное описание желаемого

  2. создаёт изображение, которое раньше не существовало.

Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.

Код в деплое решает следующие задачи:

  1. генерация изображений по текстовому описанию
  2. выбор (ранжирование) самого релеватного и качественного изображения из сгенерированных с помощью модели ruCLIP
  3. увеличение разрешения изображения в 2, 4, 8 раз - super resolution

Пример: "шикарная гостиная с зелеными креслами у окна"

Untitled

Описание работы с моделью

Шаг 0. Создание деплоя

Шаг 1. Обращение к API

import base64
import requests
from io import BytesIO
from IPython.display import display
from PIL import Image

response = requests.post(
    'http://localhost:8080/v1/models/kfserving-default:predict', 
    json={
        "instances": [
            {
                "text": "пейзаж со снежными горами и озером розового цвета", 
                "top_k": 1500,
                "top_p": 0.99,
                "images_num": 4,
                "rerank_top": 2,
                "hi_res": True
            }
        ]
    })
for imgtext in response.json()['images']:
    msg = base64.b64decode(imgtext.encode('ascii'))
    img = Image.open(BytesIO(msg))
    display(img)

Результат:

Untitled (1).png

Пример минимального вызова:

response = requests.post('http://localhost:8080/v1/models/kfserving-default:predict',  
    json={"instances": [{"text": "рыжий котик"}]})
imgtext = response.json()['images'][0].encode('ascii')
display(Image.open(BytesIO(base64.b64decode(imgtext))))

Галерея примеров:

"шикарная гостиная с зелеными креслами у окна", top_k=1400, top_p=0.97

Untitled

"Рыжик котик" + ruCLIP

Untitled

"современное кресло фиолетового цвета" + ruCLIP

Untitled

"деловой человек, работающий на ноутбуке" + ruCLIP

Untitled

Самая большая вычислительная задача в России

На платформе ML Space и суперкомпьютере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Самая большая обученная модель ruDALL-E XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!

Попробуйте быструю генерацию в приложении Салют. Для активации навыка скажите «Включи художника». Или попробуйте Телеграм бота @sber_rudalle_xl_bot

Дисклеймер

При использовании модели ruDALL-E XXL 12B ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данной модели.