Ввиду этого некоторые посты могут выглядеть вырванными из нити обсуждения. Гесс.
Там все не сильно просто.
Вначале были графы молекул с PubChem (86 миллионов различных графов молекул до примерно 120 атомов). Они были кластеризованы довольно хитрым самопально сделанным алгоритмом хеширования радикалов, отголоски этого алгоритма тут на форуме обсуждались. Далее, на маленькую часть наиболее краевых молекул в таких кластерах был набросан MMFF94 с получением нескольких конформеров и была сделана попытка предсказания того, что внутри кластеров. Результат проверялся по тому, на сколько хорошо статистически это все согласуется с PubChemом. Там, где MMFF94 не работает (элементоорганика и органика) где-то как-то к меня стоит поле GAFF, но часто я на такие расчеты вообще забивал, ибо там все криво получается.
Тут было взято честных около 100 тысяч молекул (и миллион конформеров), для которых считалась молекулярная механика, хорошо саппроксимировались еще около 10 миллионов, и на основе этого получены 1.7 миллиардов в виде кластерной аппроксимации. Молмех для 100 тысяч молекул посчитался примерно за пару дней, а все остальное - за месяц на 24ТФлопсном кластере.
Когда эта стадия прошла успешно, была сделана попытка посчитать только эти краевые молекулы самопальной Хартри-Фоковской решалкой, и чуть-чуть уточнить (без упертости и проверки, что сильно далеко от результатов молмеха не уползаем!!!). Это заняло примерно год компьютерного времени на нашем небольшом кластере с 24ТФлоп/с пиковой, который в тот год простаивал.
Далее было повторено как с мол-мехом.
Хочется продолжить, но пока нет достаточно ресурсов на это.
Молмех свой самописный, хз на сколько он оптимальный, по сравнению с современными, но поле взято от MMFF94, а минимизатор - Limited Subspace BFGS с градиентами по Баур-Штрассену - я много это для всяких задач пользовал и предполагаю, что решает он довольно надежно и быстро, хотя исторически так получилось, что эта решалка возникла у меня еще во время моей дипломной работы.
История самопально написанного Хартри-Фока восходит к моему диссеру, который я на днях таки наконец-то по многочисленным просьбам частично перевел на английский и выложил на https://arxiv.org/abs/2306.15468
То есть если я таки найду средства и время для продолжения всего этого, то там есть надежда получить адекватные оценки что надо посчитать гарантированно (назовем это реперами), чтобы потом все остальное можно было бы описывать в виде аппроксимационных моделей. Тогда посчитав реперы на супер-пупер точном решателе можно будет выдавать результат расчета для любой молекулы из этих кластеров практически за так без вычислений, а в виде построений, как это делает LLM с текстами. Вся выборка тогда будет ограничена только тем, на сколько большими будут взяты молекулы для реперов. Сейчас в планах пока примерно 100 атомами ограничиться.