AI-сервис
ruGPT-3 13B

Генерация текста на любые темы, 13 млрд параметров

Лицензия
Apache 2.0
Размер файлов
52.1 GB
Версия
0.1
Бесплатно
Подключить
Сценарии использования
Запросы к API
Категории
gpt3rugpt3PyTorchNatural Language GenerationNLP
Разработчик
SberDevices
ОписаниеХарактеристики

Russian Generative Pretrained Transformer-3, 13 млрд параметров

Современная модель генерации текста для русского языка на основе архитектуры GPT-3 от OpenAI.

Модель ruGPT-3 13B содержит 13 миллиардов параметров и способна продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов + используется реализация sparse attention из DeepSpeed.

  • Размер файлов: 52.1 GB
  • Модель GPU: V 100
  • Фреймворк: pytorch
  • Tags: gpt3, rugpt3, pytorch, natural language generation, NLP
  • Формат: checkpoint
  • Версия: 0.1

Продолжение текста (Generation)

Базовое использование модели подразумевает работу с уже обученной моделью в режиме инференса. Модель умеет продолжать переданный текст, дополняя его. В примерах ниже ответ модели при генерации выделен курсивом:

Диалоговые системы

system: Добрый день! Чем могу помочь?

user: Добрый день! С утра не работает интернет. Тариф 500мбит

system: хорошо, сейчас попробуем исправить. Ждите.

Рекомендательные системы с нуля

"Физик Максим, 28 лет, больше всего любит фильмы: «Улица Сезам», «Матрица».

Тематическая классификация текстов

Новость: В России выведен на полную мощность самый быстрый в мире суперкомпьютер «Кристофари»

Категория: Новости науки, техника и технологии.

Пример запуска генерации

#!/bin/bash
script_path=$(realpath $0)
script_dir=$(dirname $script_path)
config_json="$script_dir/path/to/config/gpt3_13b_sparse.json"
mpirun --np 1 python ${script_dir}/../../generate.py         --load-weights-only /path/to/checkpoint/         --tokenizer-path /path/to/tokenizer         --fp16         --make-vocab-size-divisible-by 16         --model-parallel-size 1         --num-layers 40         --hidden-size 5120         --num-attention-heads 40         --batch-size 4         --seq-length 512         --max-position-embeddings 2048         --temperature 0.9         --top_k 0         --top_p 0.95         --sparse-mode alternating         --fix-sparsity-layout 4         --deepspeed         --deepspeed_config ${config_json}

Colab-ноутбук с примером генерации

Возможные примеры работы с затравками

  • zero-shot - подается только начало текста (затравка), которое модели нужно продолжить
  • one-shot - подается пример 1 затравки, спецтокен и корректного продолжения, через новую строку - целевая затравка, которую нужно продолжить
  • few-shot - несколько примеров затравок и ихкорректных продолжений, затем целевая затравка.

Совет: чтобы улучшить качество работы систем one-shot и few-shot, ознакомьтесь со спецтокенами модели в словаре токенизатора. Такие токены, как <pad>,<|endoftext|>,<s>,</s>, вы можете использовать для форматирования своих примеров.

Совет: рассчитывайте количество примеров в few-shot таким образом, чтобы не выйти за максимальную длину последовательности контеката - 2048 токенов.

Подробнее о ruGPT-3

Демо ruGPT-3 XL с UI

GitHub с примерами кода по использованию модели

vc.ru: рассказываем о применимости для бизнеса

Habr (tutorial): Тестируем ruGPT-3 на новых задачах

Habr, статья про обучение модели: Русскоязычная модель GPT-3 Large с 760 миллионами параметров в открытом доступе

Habr, статья про кейсы применения модели: Всё, что нам нужно — это генерация

Вебинар, спикер Татьяна Шаврина: Разбираем кейсы реального применения ruGPT-3

Вебинар, спикер Татьяна Шаврина: Полный цикл дообучения ruGPT-3 на платформе ML Space и примеры рыночных кейсов

Модель ruGPT-3 13B обучена и развёрнута с помощью платформы ML Space и суперкомпьютера «Christofari» от SberCloud.

Архитектура нейросети ruGPT-3 основывается на решении Generative Pretrained Transformer 3 от OpenAI.

Дообучение моделей ruGPT-3 Large и ruGPT-3 XL (Fine-tuning)

Дообучение с использованием GPU осмысленно в 4 случаях:

  1. вы работаете с данными в редком формате, модель не могла их увидеть при предобучении. Пример: вы хотите генерировать скрипты на brainfuck
  2. задача требует высокой степени обобщения, в обучающей выборке таких примеров скорее всего не было. Пример: машинный перевод с русского на маратхи
  3. задача требует очень специфических знаний, мало представленных в интернете. Пример: автосоставление документации для сталилитейного завода
  4. вы опробовали все форматы few-shot, и без дообучения ничего не выходит. Как показывает это исследование, качество few-shot сильно зависит от баланса классов в примерах few-shot, порядке следования примеров.

Скрипт с примером дообучения модели XL

Дисклеймер

При использовании модели ruGPT-3 13B ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данного сервиса.

Основные
Размер файлов52.1
Версия0.1