Обновленная база данных BigSolDB 2.0 содержит информацию о растворимости органических соединений

Ученые из Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского университета «Высшая школа экономики», Московского государственного университета им. М.В. Ломоносова и Венского университета разработали и представили самый масштабный базу данных растворимости органических соединений в неводных растворителях «BigSolDB 2.0» на более чем 100 тысяч экспериментальных значений для создания моделей машинного обучения и разработали для нее онлайн-приложение. База данных, которую мы представляем, обладает значительным потенциалом для прогнозирования растворимости химических веществ, используя алгоритмы машинного обучения. Она может послужить основой для создания инструмента, который позволит рационально проектировать, повышать эффективность и снижать стоимость разработки материалов и химических составов нового поколения. Результаты исследования были опубликованы в журнале Scientific Data.

Растворимость играет важную роль в определении областей применения органических соединений в таких дисциплинах, как химия, материаловедение и фармацевтика. Тем не менее, прогнозирование значений растворимости в любых растворителях, отличных от воды, остается непростой задачей для современной хемоинформатики, во многом из-за нехватки обширных и разнообразных наборов данных. Для решения этой проблемы целесообразно применять методы машинного обучения, позволяющие предсказывать характеристики химических соединений без проведения экспериментов. Это существенно ускоряет и удешевляет процесс оценки, например, растворимости. К тому же, использование крупной и качественной базы данных повышает точность прогнозов и обеспечивает большую надежность полученных результатов, что открывает перспективы для масштабного скрининга новых соединений.

Химики разработали обширную базу данных растворимости органических соединений в неводных растворителях, BigSolDB 2.0, для целей создания моделей машинного обучения. Один из авторов публикации, младший научный сотрудник Лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов, отметил: «В рамках исследования мы рассмотрели 1595 научных статей, прошедших рецензирование, и получили из них 103 944 экспериментальных данных о растворимости 1448 органических соединений в 213 различных растворителях. Значения растворимости охватывают температурный диапазон от 243 до 425 K. Мы уделили значительное внимание качеству данных, проведя тщательную проверку, стандартизацию и валидацию источников, а также устранив дубликаты.

Молекулярные структуры растворенных веществ и растворителей были приведены к единому стандарту и представлены в формате SMILES, что обеспечивает возможность прямого анализа с использованием методов машинного обучения. Для удобства применения в задачах машинного обучения данные были переведены в шкалу LogS.

Для удобного поиска и интерактивной визуализации данных мы создали онлайн-приложение, позволяющее находить значения растворимости по химической структуре или тривиальному названию соединения».

Авторы утверждают, что разработанная ими база данных решает важную проблему, связанную с нехваткой всеобъемлющих наборов данных для оценки растворимости органических соединений, что и сдерживало прогресс в применении методов машинного обучения в данной сфере. Предыдущие работы зачастую концентрировались исключительно на водной растворимости, в то время как BigSolDB 2.0 включает в себя информацию о широком спектре органических растворителей.

В представленной базе данных наиболее часто встречающимися растворителями являются низкомолекулярные спирты, вода, этилацетат, ацетон и ацетонитрил. Это обуславливает их значимость при создании множества химических и технологических процессов, поскольку точное знание растворимости необходимо для выбора подходящих растворителей при синтезе, разработке лекарственных средств и создании эффективных методов экстракции и кристаллизации.

Работа была проведена при финансовой поддержке Министерства науки и высшего образования Российской Федерации в рамках государственного задания, предоставленного ИОНХ РАН.

Источник: Лев Красно́в, Дмитрий Маликов, Марина Киселёва, Сергей Татари́н, Сергей Со́снин и Станисла́в Беззубо́в; BigSolDB 2.0 – набор данных, содержащий значения растворимости органических соединений в различных растворителях при разных температурах. Scientific Data, 12, 1236, 2025, 10.1038/s41597-025-05559-8.