mGPT-3 XL

Multilingual Generative Pretrained Transformer, 1.3 млрд параметров

Лицензия

MIT

Версия

1.0

Описание

Современная модель генерации текста для 61 языка на основе архитектуры GPT-3 от OpenAI.

Модель mGPT-3 XL содержит 1.3 миллиарда параметров и способна продолжать тексты на 61 языке, включая языки стран СНГ и малых народов России. Длина контекста модели составляет 2048 токенов. Модель была обучена на 600Гб текстов на 61м языке собранным из очищенных и подготовленных датасетов multilingual C4 и Wiki.

Список поддерживаемых языков:

азербайджанский, английский, арабский, армянский, африкаанс, баскский, башкирский, белорусский, бенгальский, бирманский, болгарский, бурятский, венгерский язык, вьетнамский, голландский, греческий (современный), грузинский, датский, иврит (современный), индонезийский, испанский, итальянский, йоруба, казахский, калмыцкий, киргизский, китайский, корейский, латышский, литовский, малайский, малаялам, маратхи, молдавский, монгольский, немецкий, осетинский, персидский, польский, португальский, румынский, русский, суахили, таджикский, тайский, тамильский, татарский, телугу, тувинский, турецкий, туркменский, узбекский, украинский, урду, финский, французский, хинди, чувашский, шведский, якутский, японский.

Использование

Продолжение текста (Generation)

Базовое использование модели подразумевает работу с уже обученной моделью в режиме инференса. Модель умеет продолжать переданный текст, дополняя его. В примерах ниже текст затравки выделен курсивом, далее идёт генерация модели:

Язык	Пример
Русский	В мае мы празднуем Первомай!!! Уважаемые наши студенты и жители города, придём вместе сегодня на площадь!
Английский	In May we celebrate the First Friday Special Mother’s Day (В мае мы отмечаем особенный День матери в первую пятницу.)
Хинди	मई में हम मनाते हैं साल फूल और पुरानी यादों को ताजा करते हैं। कन्या नवरात्र के अंतर्गत नारियल की पूजा का त्यौहार कन्यादान है, इसके कारण नारियल को राजाओं की पूजा के तौर पर भी माना गया है (В мае мы встречаем год цветами и переживаем старые воспоминания. Фестиваль поклонения кокосу под Канья Наваратри называется Каньядан, из-за которого кокос также считается объектом поклонения королей.)
Китайский	五月我们庆祝五一儿童节活动 (В мае мы отмечаем День защиты детей)
Армянский	Մայիսին մենք նշում ենք Արարատի մարզի հայ գրողների և մանկավարժների օր (В мае мы отмечаем день армянских писателей и педагогов Араратской области.)

Возможные примеры работы с затравками

zero-shot - подается только начало текста (затравка), которое модели нужно продолжить
one-shot - подается пример 1 затравки, спецтокен и корректного продолжения, через новую строку - целевая затравка, которую нужно продолжить
few-shot - несколько примеров затравок и их корректных продолжений, затем целевая затравка.

Совет: чтобы улучшить качество работы систем one-shot и few-shot, ознакомьтесь со спецтокенами модели в словаре токенизатора. Такие токены, как <pad>, <|endoftext|>, <s>, </s>, вы можете использовать для форматирования своих примеров.

Совет: рассчитывайте количество примеров в few-shot таким образом, чтобы не выйти за максимальную длину последовательности в 2048 токенов.

Пример запуска генерации

import requests
from tqdm import tqdm
deploy_endpoint =  "http://localhost:8080/v1/models/kfserving-default:predict"
texts = [
    "Александр Сергеевич Пушкин родился в",
    "Alexander Sergeevich Pushkin was born in",
    "Олександр Сергійович Пушкін народився в",
    "Аляксандр Сяргеевіч Пушкін нарадзіўся ў",
    "Александр Сергеевич Пушкин шәһәрендә туган",
    "Александр Сергеевич Пушкин дүниеге келген",
    "亚历山大*谢尔盖耶维奇*普希金出生于",
    "알렉산더 세르게 비치 푸쉬킨은",
    "Alexander Sergeevich Pushkinはで生まれました",
    "Александр Сергеевич Пушкин ҫуралнӑ",
    "Александр Сергеевич Пушкин төрөөбүтэ",
    "Alexander Puschkin wurde in",
    "Alexandre Sergueïevitch Pouchkine est né le à",
]
for txt in texts:
    r = requests.post(deploy_endpoint,
                      json={"instances": [{
                          "text": txt,
#                            "max_tokens": 100,
#                            "top_p": 0.9,
#                            "top_k": 10,
#                            "seed": 1234
                      }]})
    print(r.json()["predictions"])

Дисклеймер

При использовании модели mGPT-3 XL ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данного сервиса.

Обратная связь

Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram