AI-сервис
Demo ruDALL-E

Демо text-to-image модели, 1.3 млрд параметров

Лицензия
Apache 2.0
Размер файлов
2.48 GB
Версия
0.1
Бесплатно
Подключить
Сценарии использования
UI-демо
Категории
DALL-EruDALL-ePyTorchtext2imageimage generationNLPCV
Разработчик
SberDevices
ОписаниеХарактеристики

Zero-Shot Text-to-Image Generation.

Демо русской text-to-image модели, генерирующей изображения по тексту.

ruDALL-E XL 1.3B (1.3 млрд параметров) + ruCLIP

Новости

Подробнее о модели

Примеры кода с использованием модели: GitHub

Статья OpenAI: ссылка

Галлерея ruDALL-E: ссылка

Технические параметры

  • Размер файлов:
    • ruDALL-E XL 1.3B - 2.48 GB
    • VQGAN - 321 MB
    • SuperResolution - 67 MB
  • Модель GPU: V 100
  • Фреймворк: pytorch
  • Tags: DALL-E, ruDALL-e, pytorch, text2image, image generation, NLP, CV
  • Формат: checkpoint
  • Версия: 0.1

Применение

Генерация изображений решает две важные задачи, которые не может решить поиск:

1) позволяет учесть точное описание желаемого

2) создаёт изображение, которое раньше не существовало.

Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.

Код в демо решает следующие задачи:

  1. генерация изображений по текстовому описанию
  2. выбор (ранжирование) самого релеватного и качественного изображения из сгенерированных с помощью модели ruCLIP
  3. увеличение разрешения изображения в 2, 4, 8 раз - super resolution

Пример: "шикарная гостиная с зелеными креслами у окна"

Untitled

Описание работы модели

Шаг 1. Генерация изображения по тексту:

dalle = DalleText2Image('open-ru-dalle/configs/dalle_xl.yml', torch.device('cuda:0'))
dalle._seed_everything(42)

images = dalle.generate_images(
        text='озеро в горах, а рядом красивый олень пьет воду',
        top_k=1024, top_p=0.99,
        images_num=24,
    )
dalle.show(images, 24)

Результат:

Untitled

Шаг 2. Выбираем лучшие изображения:

top_images = dalle.cherry_pick_by_clip(images, text, count=6)
dalle.show(top_images, 3)

Untitled

Шаг 3. SuperResolution

sr_images = dalle.super_resolution(top_images)
dalle.show(sr_images, 3)

Untitled

Готово!

Работа с KF Serving API

Воспользуйтесь кнопкой Подключить и перейдите в swagger сервиса. Ниже пример запроса.

import base64
import requests
from io import BytesIO
from IPython.display import display
from PIL import Image

response = requests.post(
    'http://localhost:8080/v1/models/kfserving-default:predict', 
    json={
        "instances": [
            {
                "text": "пейзаж со снежными горами и озером розового цвета", 
                "top_k": 1500,
                "top_p": 0.99,
                "images_num": 4,
                "rerank_top": 2,
                "hi_res": True
            }
        ]
    })
for imgtext in response.json()['images']:
    msg = base64.b64decode(imgtext.encode('ascii'))
    img = Image.open(BytesIO(msg))
    display(img)

Галерея примеров:

Разные цветы

Untitled

Красивый закат над морем

Untitled

кресло в форме авокадо

Untitled

Деревянная кровать в спальне

Untitled

Фото китайской еды

Untitled

Современное кресло фиолетового цвета

Untitled

Самая большая вычислительная задача в России

На платформе ML Space и суперкомпьютере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Самая большая обученная модель ruDALL-E XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!

Попробуйте быструю генерацию в приложении Салют. Для активации навыка скажите «Включи художника». Или попробуйте Телеграм бота @sber_rudalle_xl_bot

Дисклеймер

При использовании демо модели ruGPT-3 XL ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данного демо.

Лицензирование

Модель ruDALL-E XL 1.3B и ее исходный код поставляются на основе открытой лицензии Apache 2.0

Apache 2.0

Основные
Размер файлов2.48
Версия0.1