

Профессиональная версия мультидоменного суммаризатора
Возможности
Суммаризатор PRO — онлайн-инструмент, который автоматически сокращает объем текста, оставляя ключевые моменты.
Суммаризатор PRO обучен на основе генеративной модели ruT5-large на текстах разной длины, из различных источников: русскоязычные новости (gazeta и другие издания), инструкции wikihow, переводы научных текстов citesum, литературные тексты из ЕГЭ. А также на данных, собранных и размеченных вручную для рекламного и разговорного доменов.
Преимущества профессиональной версии
Качество генерации
Генеративные модели склонны к искажению фактов, дегенерации и галлюцинациям, в связи с чем в новой версии Суммаризатора PRO добавлена многоуровневая логика для улучшения качества итогового текста:
- Генерация вариантов. На первом этапе модель генерирует не один, а сразу несколько возможных вариантов саммари. Мы значительно расширили наборы обучающих данных, включив тексты разной длины и доменов, таких как: научный, юридический, технический, публицистический, рекламный, разговорный, художественный. Качество отбираемых данных мы оценивали с помощью корпуса языковой приемлемости RuCOLA.
- Проверка фактов. Следом модуль фильтрации позволяет находить и исключать генерации, в которых есть несоответствие фактов.
- Ранжирование кандидатов. На третьем этапе отфильтрованный список кандидатов с помощью еще одной модели сортируется по качеству текста и получаем наилучший вариант генерации.
Новые возможности
- Режим экстрактивной суммаризации дополняет существоваший ранее абстрактивный режим. Реализован с помощью BertSum.
- Выбор уровня компрессии. Теперь возможно регулировать длину саммари при помощи параметра
compression
. - Ручное управление параметрами генерации. Доступ ко всем параметрам модели.
- Batch-обработка. Позволяет ускорить преобразование большого количества текстов за счет подачи их в API пакетами по несколько штук и параллельной обработки на GPU.
Статьи и выступления
- Статья от разработчиков сервиса о практическом применении генеративных моделей и создании "Суммаризатора", Habr
- Статья про тестирование моделей от контент-менеджера "Меня скоро заменит AI. Почему это офигенно?", Habr
- Видео “Генеративные NLP инструменты 2022”, Salute AI Day 2022
Примеры работы:
На входе | На выходе |
---|---|
3 вещи, которые стоит знать о Платоне I. Его звали не Платон. Не всем известно, но философ был наследником аристократического семейства и получил от родителей имя Аристокл. Платон — это прозвище. Но под ним он стал популярен. II. Юный Платон баловался стихами. Но однажды, когда он нёс в театр свою новую трагедию, Платону попался Сократ. Разговор с Сократом изменил юного поэта: трагедию тот сжёг и ушёл из поэзии в философию. III. Наследие Платона — идеалистическая философская школа: согласно ей, есть мир идей, и он параллелен материальному миру, который мы все знаем. Прав ли был Платон? Философы до сей поры спорят об этом | Три вещи о Платоне I. Его звали не Платон, а Аристокл. Философ был из аристократического семейства и получил от родителей имя Аристокла. Платон — это прозвище, под которым он прославился. II. Юный Платон писал стихи, но встреча с Сократом изменила его. Платон бросил поэзию и ушёл в философию. III. Наследие Платона — идеалистическая философская школа: согласно ей, есть мир идей, и он параллелен материальному миру вокруг нас. Так ли это, философы спорят и по сей день. |
«Она у нас часто болеет», — сокрушались родители и жалели меня, а эти болезни меня спасали. Организм подбрасывал мне то простуду, то грипп, то воспаления легких, чтобы спасти от школьных насмешек. Это началось классе в пятом — два одноклассника стали вышучивать меня за недорогие наряды, неумение чётко выговаривать букву «р» (да, я картавила) и даже за лишний вес (нет, его у меня никогда не было). Порой на уроках литературы мы читали друг за другом, и когда подходила очередь читать мне, я тянула руку и просилась выйти, чтобы меня не шеймили за мою картавость. Наша учительница была умной. Она всё понимала и всегда отпускала меня. | Родители думали, я часто болею. А организм просто устраивал мне болезни, чтобы я поменьше бывала в школе, где меня травили с пятого класса. Два одноклассника издевались над моей картавостью, бедной одеждой, пухлостью. И когда на уроках литературы был мой черёд читать, я спешно отпрашивалась у учительницы в коридор. Спасибо ей, что отпускала меня. |
Метрики
Автоматические метрики используются для сравнения качества работы разных моделей суммаризации. Такая проверка выполняется на тестовом сете: отдельно собранном “золотом” наборе данных, репрезентативном для разных доменов и длин текстов, который модели не видели в процессе обучения.
Модель метрика | bleu | rouge-1 | rouge-2 | rouge-l | bertscore | labse_score | meteor | chrf |
---|---|---|---|---|---|---|---|---|
Суммаризатор PRO, режим best | 7.124 | 0.245 | 0.077 | 0.229 | 0.731 | 0.778 | 0.289 | 38.871 |
Суммаризатор PRO, сырая модель | 6.625 | 0.235 | 0.07 | 0.218 | 0.726 | 0.759 | 0.269 | 36.937 |
https://sbercloud.ru/ru/datahub/rugpt3family/summarizer | 2.003 | 0.163 | 0.03 | 0.151 | 0.694 | 0.651 | 0.155 | 24.175 |
https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum | 0.188 | 0.069 | 0.007 | 0.064 | 0.622 | 0.415 | 0.039 | 8.508 |
https://huggingface.co/UrukHan/t5-russian-summarization | 0.847 | 0.094 | 0.012 | 0.086 | 0.612 | 0.467 | 0.067 | 11.3 |
https://huggingface.co/cointegrated/rut5-base-absum | 0.399 | 0.102 | 0.022 | 0.093 | 0.669 | 0.526 | 0.068 | 11.128 |
https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta | 2.388 | 0.17 | 0.039 | 0.154 | 0.691 | 0.655 | 0.137 | 21.773 |
https://huggingface.co/IlyaGusev/mbart_ru_sum_gazeta | 2.605 | 0.171 | 0.04 | 0.153 | 0.689 | 0.633 | 0.14 | 21.823 |
Максимальный размер запроса
Суммарное ограничение длины одного запроса в символах 8000 символов. При использовании пакетной обработки (batching), оно делится на все строки в запросе.
Инструкции по использованию
Входные параметры:
`text` - обязательный параметр: исходный текст, который хотите сократить
## режимы работы модели
`range_mode` - режим суммаризации (по умолчанию 'best'):
'best' - результат генерации фильтруется проверкой фактов,
лучший результат выбирается ранжированием кандидатов
при помощи bertscore;
'user' - выдача результатов генерации напрямую от модели,
без дополнительной обработки;
'extractive' - экстрактивная суммаризация, проверка фактов
и ранжирование не используются.
`compression` - желаемая длина результата, в процентах от исходного текста.
(по умолчанию 50)
`genstrategy` - выбор алгоритма генерации (по умолчанию 'sampling'):
'sampling' - соответствует параметру huggingface do_sample=True
'beamsearch' - соответствует параметру huggingface do_sample=False
## параметры генерации huggingface
## [инструкция](https://huggingface.co/blog/how-to-generate)
`temperature` - температура сэмплирования, регулирует разнообразие
(по умолчанию 0.95)
`top_k` - выбор из k наиболее вероятных токенов при сэмплировании
(по умолчанию 90)
`top_p` - порог совокупной вероятности для выбора слов при сэмплировании
(по умолчанию 0.85)
`num_return_sequences` - количество примеров для ранжирования
(по умолчанию: 7 для сэмплинга; 2 для лучевого поиска)
`repetition_penalty` - штраф за повтор реплик
(по умолчанию 2.0)
`no_repeat_ngram_size` - ngrams такого размера допустимы только один раз
(по умолчанию 0)
`num_beams` - количество лучей при генерации лучевым поиском
(по умолчанию 5)
Пример запроса:
{
"instances": [{"text": text, "range_mode": "best"}]
}
В ответе возвращается словарь со следующими полями:
`origin` - оригинальный текст
`predictions_all` - все удачные варианты саммари
`prediction_best` – лучший сгенерированный вариант
`comment` – комментарий к запуску или информация об ошибке
Также, в PRO версии мы предоставляем возможность обработки по батчам:
{"instances":
[{"text": "...."}, {"text": ... }, {"text": ...}]
}
`text` - оригинальный текст для суммаризации
Режимы и параметры генерации указываются в первом элементе {"text": "...."},
для всех последующих элементов используются они же.
Условия лицензирования
Базовая модель ruT5-large, на основе которой сделан сервис, и её исходный код поставляются по открытой лицензии Apache 2.0. Суммаризатор PRO является проприетарной разработкой, для его использования необходимо заключить договор с ML Space / SberCloud.
Контактная информация
По вопросам, связанным с работой и применением модели можно обращаться к менеджеру продукта: Павел Лебедев PIgLebedev@sberbank.ru.