Датасет
nablaDFT molecular electronic structures dataset

Самый полный набор артефактов для задач физической химии

Лицензия
Other
Бесплатно
Подключить
Категории
ДатасетЗадачи регрессииПредсказание скаляров и матрицMean absolute error
Разработчик
AIRI
Описание

Короткое описание

Набор артефактов включает в себя один из крупнейших датасетов молекул и их метаданных. Кроме того, в набор входит 4 модели для предсказания энергии молекулярных конформаций и 2 модели для предсказания DFT-гамильтониана. Комбинация перечисленных артефактов позволяет не только создавать ML-модели для решения задач физической химии, но и оценивать их эффективность.

Возможности

Датасет содержит результаты численного моделирования уравнения Шредингера для большого количества разнообразных молекул и их конформаций. Это позволяет разрабатывать и исследовать модели машинного обучения направленные на решение задач физической химии.

Фокус на медицинской химии позволяет применять предобученные модели в классических пайплайнах разработки новых лекарственных препаратов.

Преимущества

  1. Самый большой объем из открытых датасетов: более 1 млн. драг-лайк молекул и свыше 5 млн. конформаций.
  2. Широкий спектр доступных для предсказания свойств: энергия конформации, гамильтониан теории функционала плотности, матрица электронной плотности, дипольный момент, частичные заряды на атомах, HOMO-LUMO gap и др.
  3. В набор входят современные предобученные модели предсказания энергии конформации и электронных свойств молекул с высокой степенью точности.
  4. Различные типы тестовых подвыборок позволяют оценить генерализацию моделей как между различными конформациями, так и между различными хемотипами молекул.

Сценарии использования

  1. Разработка и тестирование новых моделей машинного обучения для задач физической химии.
  2. Использование предобученных моделей для задач поиска перспективных материалов и разработки новых лекарственных препаратов.

Инструкции по использованию

Скачайте датасет в хранилище платформы и запустите обучение моделей. Примеры работы с датасетом и запуском обучения https://github.com/AIRI-Institute/nablaDFT

Бенчмарк

  1. Предсказание DFT-гамильтониана.
  2. Предсказание энергии молекулярной конформации.

Ccылки

https://github.com/AIRI-Institute/nablaDFT GitHub лицензия