product
iconAI-сервис
Суммаризатор PRO

Профессиональная версия мультидоменного суммаризатора

Лицензия
Apache 2.0
Размер файлов
9 GB
Версия
2.0
Категории
summarizerruT5pytorchsummarizationnaturallanguagegenerationNLP
Разработчик
SberDevices, AGI NLP
Контакты
gpt3support@sber.ru
Описание

Возможности

Суммаризатор PRO — онлайн-инструмент, который автоматически сокращает объем текста, оставляя ключевые моменты.

Суммаризатор PRO обучен на основе генеративной модели ruT5-large на текстах разной длины, из различных источников: русскоязычные новости (gazeta и другие издания), инструкции wikihow, переводы научных текстов citesum, литературные тексты из ЕГЭ. А также на данных, собранных и размеченных вручную для рекламного и разговорного доменов.

Преимущества профессиональной версии

Качество генерации

Генеративные модели склонны к искажению фактов, дегенерации и галлюцинациям, в связи с чем в новой версии Суммаризатора PRO добавлена многоуровневая логика для улучшения качества итогового текста:

  • Генерация вариантов. На первом этапе модель генерирует не один, а сразу несколько возможных вариантов саммари. Мы значительно расширили наборы обучающих данных, включив тексты разной длины и доменов, таких как: научный, юридический, технический, публицистический, рекламный, разговорный, художественный. Качество отбираемых данных мы оценивали с помощью корпуса языковой приемлемости RuCOLA.
  • Проверка фактов. Следом модуль фильтрации позволяет находить и исключать генерации, в которых есть несоответствие фактов.
  • Ранжирование кандидатов. На третьем этапе отфильтрованный список кандидатов с помощью еще одной модели сортируется по качеству текста и получаем наилучший вариант генерации.

Новые возможности

  • Режим экстрактивной суммаризации дополняет существоваший ранее абстрактивный режим. Реализован с помощью BertSum.
  • Выбор уровня компрессии. Теперь возможно регулировать длину саммари при помощи параметра compression.
  • Ручное управление параметрами генерации. Доступ ко всем параметрам модели.
  • Batch-обработка. Позволяет ускорить преобразование большого количества текстов за счет подачи их в API пакетами по несколько штук и параллельной обработки на GPU.

Статьи и выступления

Примеры работы:

На входеНа выходе
3 вещи, которые стоит знать о Платоне
I. Его звали не Платон. Не всем известно, но философ был наследником аристократического семейства и получил от родителей имя Аристокл. Платон — это прозвище. Но под ним он стал популярен.
II. Юный Платон баловался стихами. Но однажды, когда он нёс в театр свою новую трагедию, Платону попался Сократ. Разговор с Сократом изменил юного поэта: трагедию тот сжёг и ушёл из поэзии в философию.
III. Наследие Платона — идеалистическая философская школа: согласно ей, есть мир идей, и он параллелен материальному миру, который мы все знаем. Прав ли был Платон? Философы до сей поры спорят об этом
Три вещи о Платоне
I. Его звали не Платон, а Аристокл. Философ был из аристократического семейства и получил от родителей имя Аристокла. Платон — это прозвище, под которым он прославился.
II. Юный Платон писал стихи, но встреча с Сократом изменила его. Платон бросил поэзию и ушёл в философию.
III. Наследие Платона — идеалистическая философская школа: согласно ей, есть мир идей, и он параллелен материальному миру вокруг нас. Так ли это, философы спорят и по сей день.
«Она у нас часто болеет», — сокрушались родители и жалели меня, а эти болезни меня спасали. Организм подбрасывал мне то простуду, то грипп, то воспаления легких, чтобы спасти от школьных насмешек. Это началось классе в пятом — два одноклассника стали вышучивать меня за недорогие наряды, неумение чётко выговаривать букву «р» (да, я картавила) и даже за лишний вес (нет, его у меня никогда не было). Порой на уроках литературы мы читали друг за другом, и когда подходила очередь читать мне, я тянула руку и просилась выйти, чтобы меня не шеймили за мою картавость. Наша учительница была умной. Она всё понимала и всегда отпускала меня.Родители думали, я часто болею. А организм просто устраивал мне болезни, чтобы я поменьше бывала в школе, где меня травили с пятого класса. Два одноклассника издевались над моей картавостью, бедной одеждой, пухлостью. И когда на уроках литературы был мой черёд читать, я спешно отпрашивалась у учительницы в коридор. Спасибо ей, что отпускала меня.

Метрики

Автоматические метрики используются для сравнения качества работы разных моделей суммаризации. Такая проверка выполняется на тестовом сете: отдельно собранном “золотом” наборе данных, репрезентативном для разных доменов и длин текстов, который модели не видели в процессе обучения.

Модель метрикаbleurouge-1rouge-2rouge-lbertscorelabse_scoremeteorchrf
Суммаризатор PRO, режим best7.1240.2450.0770.2290.7310.7780.28938.871
Суммаризатор PRO, сырая модель6.6250.2350.070.2180.7260.7590.26936.937
https://sbercloud.ru/ru/datahub/rugpt3family/summarizer2.0030.1630.030.1510.6940.6510.15524.175
https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum0.1880.0690.0070.0640.6220.4150.0398.508
https://huggingface.co/UrukHan/t5-russian-summarization0.8470.0940.0120.0860.6120.4670.06711.3
https://huggingface.co/cointegrated/rut5-base-absum0.3990.1020.0220.0930.6690.5260.06811.128
https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta2.3880.170.0390.1540.6910.6550.13721.773
https://huggingface.co/IlyaGusev/mbart_ru_sum_gazeta2.6050.1710.040.1530.6890.6330.1421.823

Максимальный размер запроса

Суммарное ограничение длины одного запроса в символах 8000 символов. При использовании пакетной обработки (batching), оно делится на все строки в запросе.

Инструкции по использованию

Входные параметры:

`text` - обязательный параметр: исходный текст, который хотите сократить

##  режимы работы модели

`range_mode` - режим суммаризации (по умолчанию 'best'):
    'best' - результат генерации фильтруется проверкой фактов,
            лучший результат выбирается ранжированием кандидатов
            при помощи bertscore;
    'user' - выдача результатов генерации напрямую от модели,
            без дополнительной обработки;
    'extractive' - экстрактивная суммаризация, проверка фактов
            и ранжирование не используются.

`compression` - желаемая длина результата, в процентах от исходного текста. 
            (по умолчанию 50)

`genstrategy` - выбор алгоритма генерации (по умолчанию 'sampling'):
    'sampling' - соответствует параметру huggingface do_sample=True
    'beamsearch' - соответствует параметру huggingface do_sample=False

## параметры генерации huggingface
## [инструкция](https://huggingface.co/blog/how-to-generate)

`temperature` - температура сэмплирования, регулирует разнообразие 
                (по умолчанию 0.95)
`top_k` - выбор из k наиболее вероятных токенов при сэмплировании
                (по умолчанию 90)
`top_p` - порог совокупной вероятности для выбора слов при сэмплировании
                (по умолчанию 0.85)
`num_return_sequences` - количество примеров для ранжирования
                (по умолчанию: 7 для сэмплинга; 2 для лучевого поиска)
`repetition_penalty` - штраф за повтор реплик
                (по умолчанию 2.0)
`no_repeat_ngram_size` - ngrams такого размера допустимы только один раз
                (по умолчанию 0)
`num_beams` - количество лучей при генерации лучевым поиском
                (по умолчанию 5)

Пример запроса:

{
  "instances": [{"text": text, "range_mode": "best"}]
}

В ответе возвращается словарь со следующими полями:

`origin` - оригинальный текст
`predictions_all` - все удачные варианты саммари
`prediction_best` – лучший сгенерированный вариант
`comment` – комментарий к запуску или информация об ошибке

Также, в PRO версии мы предоставляем возможность обработки по батчам:

{"instances":
    [{"text": "...."}, {"text": ... }, {"text": ...}]
}

`text` - оригинальный текст для суммаризации

Режимы и параметры генерации указываются в первом элементе {"text": "...."},
для всех последующих элементов используются они же.

Условия лицензирования

Базовая модель ruT5-large, на основе которой сделан сервис, и её исходный код поставляются по открытой лицензии Apache 2.0. Суммаризатор PRO является проприетарной разработкой, для его использования необходимо заключить договор с ML Space / SberCloud.

Контактная информация

По вопросам, связанным с работой и применением модели можно обращаться к менеджеру продукта: Павел Лебедев PIgLebedev@sberbank.ru.