AI-сервис
Рерайтер PRO

Платная версия общедоменного рерайтера

Лицензия
Other
Размер файлов
10 GB
Версия
1.0
Бесплатно
Подключить
Категории
рерайтпарафразNLPruT5pytorchrewriternaturallanguagegeneration
Разработчик
SberDevices
Контакты
gpt3support@sber.ru
Описание

Возможности

Модель Рерайтер переписывает текст другими словами, при этом сохраняет смысл исходного текста. Рерайтер решает задачу перефразирования на уровне текста, а не отдельных предложений и работает с последовательностями разной длины и доменов. Например, мы постоянно расширяем тексты различными данными из таких доменов как: научный, юридический, технический, публицистический, рекламный, художественный, разговорный

Рерайтер был обучен с помощью генеративной модели ruT5-large на текстах разной длины из различных источников. Брались как готовые открытые сеты (отфильтрованные tapaco, ParaphraserPlus), так и semi-supervised методами собранны пары данных из разговорных текстов, отзывов, художественной литературы, научные и тд.

Преимущества новой версии

Генеративные модели склонны к искажению фактов, дегенерации и галлюцинациям, в связи с чем в новой версии мы добавили новые возможности и модули для улучшения генерации:

  • Факт-чеккинг. Дополнительный модуль ранжирования и фильтрации в деплое позволяет находить генерации в которых есть несоответствие фактов.
  • Оценка приемлимости текста. На основе бенчмарка RuCOLA (Roberta-large) и лучшей модели по версии авторов приемлимости текста, мы оценивали данные на этапе пред-обучения, а также проводили оценку сгенерированных текстов на лучшем чекпоинте.
  • Smart ранжирование кандидатов. Дополнительные конфигурации для ранжирования и подбора кандидатов. Используйте лучшую по версии разработчиков модель и получайте на выходе наилучшую генерацию.
  • Style-transfer (негативный/позитивный стиль). С помощью дискриминативной модели GeDi есть возможность менять стиль в позитивный и негативный, распределение вероятностей меняется в зависимости от коэффициента насколько пользователю важно, чтобы был выражен стиль.

Метрики

 

| | bleu | rouge-1 | rouge-2 | rouge-l | bertscore | labse_score | meteor | chrf | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | Чекпоинт best | 13.390550 | 0.364708 | 0.155185 | 0.314224 | 0.795352 | 0.859460 | 0.368903 | 46.538016 | | Чекпоинт raw | 12.9 | 0.354 | 0.15 | 0.312 | 0.78 | 0.83 | 0.34 | 42.7 | | Чекпоинт бесплатный | 11.3 | 0.33 | 0.13 | 0.282 | 0.777 | 0.817 | 0.326 | 41.09 |

Оценки на тестовом сете. Автоматические метрики для оценки смысла и оригинальности текста.

Инструкции по использованию

Вы можете использовать деплой в трех конфигурациях:

  • отправлять данные по батчам (это вернет результата для всех текстов с дефолтными настройками)
  • отправлять данные по одному — задавая параметры
  • можно использовать конфигурацию лучшую по мнению разработчиков, либо использовать сырую модель с параметрами из huggingface.

Входные параметры инференса для основного :

# обязательный параметр
`text` - оригинальный текст для переписывания

# параметры лучшие по версии разработчиков
`range_mode` - выбор режима фильтро/ранжирования кандидатов ("best", "user"). дефолтное значение "best"

## параметры для huggingface (работают в режиме 'user')
`temperature` - параметр температуры текста для генерации. дефолтное значение 0.95
`top_k` - параметр top_k текста для генерации. дефолтное значение 50
`top_p` - параметр top_p текста для генерации. дефолтное значение 0.90
`repetition_penalty` - штраф за повторные реплики. дефолтное значение 1.5
`num_return_sequences` - кол-во примеров, из которых выбирается лучший рерайт. дефолтное значение 5
`num_beams` - кол-во бимов
`do_sample` -- True/False

Входные параметры для инференса стайл-трансфера:

{"instances":
    [{"text": "....", "coefficient": 10, "style": "negative"}]
}

`text` - оригинальный текст для переписывания
`coefficient" - параметр увеличения стиля от 0 (без стиля) до 20 (высокое изменение стиля). Дефолтное значение 15
`style` - параметр для заданного стиля. Доступные стили positive, negative. Дефолтное значение poisitive

Выходные параметры инференса. Возвращается словарь со следующими полями:

`predictions_all` - все удачные перефразированные варианты текста
`origin` - оригинальный текст
`prediction_best` – лучший сгенерированный вариант в режиме `best`

Также, в новой версии мы предоставляем возможность отправки по батчам:

{"instances":
    [{"text": "...."}, {"text": ... }, {"text": ...}]
}
`text` - оригинальный текст для переписывания

при этом вывод будет всех ответов для всех текстов:

`predictions_all` - List[List[str]] массие всех перефразированных текстов
`origin` - List[str] оригинальный текст

Примеры

Примеры основной генерации:

Глава МИД Австралии не видит в России и Китае военной угрозы для страны.
>>>
Глава МИД Австралии заявил, что Россия и Китай не представляют собой военной угрозы для страны.
Иностранный текст студенты должны прорабатывать сами, учите их этому. На опросах требуйте выделить тему прочитанного, разбить текст на кусочки и озаглавить каждый. Диктантами и транскрибированием удобно проверять упражнения «Retenez l’orthographe» на традиционную орфорграфию.
>>>
В университетах инстранный текст студентам необходимо прорабатывать сами, учите их этому. На опросах требуйте выделить тему прочитанного на кусочки и назвать каждый из них в конце слова или фразы. Диктантами удобнее проверять упражнения «Retenez l'orthographique» по традиционной орфорграфии.

Примеры стайл трансфера:

Вещь нормальная, швы крепкие, бусины не отрываются, ткань одна понравилась, другая показалась менее надежной, зато размер точь-в-точь как указан в таблице. 
>>> POSITIVE 
Отличная вещь, швы крепкие, бусинки не отрываются, ткань одна понравилась, а другая — менее крепкая, зато размер точно как указано в таблице.
Произошла не очень хорошая ситуация: мои документы потерялись, и мне пришлось заново подавать их в университет.
>>> NEGATIVE 
Произошла ужаснейшая история, когда мои документы не были приняты в университет.

Ccылки

  • Статья от разработчиков сервиса о практическом применении генеративных моделей и создании "Рерайтера"
  • Статья про тестирование моделей от контент-менеджера "Меня скоро заменит AI. Почему это офигенно?"
  • Видео “Что нового в AI Services для текстовой редактуры?” AIJourney 2022

Лицензирование

Модель ruT5 Large, на основе которой сделан сервис, и её исходный код поставляются на основе открытой лицензии Apache 2.0