DFT-код Chemigor-a

chemigor · Сообщение **chemigor** » Пт авг 11, 2023 12:15 am

Обсуждение вынесено отдельно из темы viewtopic.php?f=11&t=140227
Ввиду этого некоторые посты могут выглядеть вырванными из нити обсуждения. Гесс.

Vit Nhoc писал(а): ↑
Чт авг 10, 2023 10:21 pm
Поясните, что конкретно вы делали: чем посчитаны эти 100 миллионов конформаций, чем посчитаны 1.7 миллиарда конформаций, и что за молекулы.

Там все не сильно просто.

Вначале были графы молекул с PubChem (86 миллионов различных графов молекул до примерно 120 атомов). Они были кластеризованы довольно хитрым самопально сделанным алгоритмом хеширования радикалов, отголоски этого алгоритма тут на форуме обсуждались. Далее, на маленькую часть наиболее краевых молекул в таких кластерах был набросан MMFF94 с получением нескольких конформеров и была сделана попытка предсказания того, что внутри кластеров. Результат проверялся по тому, на сколько хорошо статистически это все согласуется с PubChemом. Там, где MMFF94 не работает (элементоорганика и органика) где-то как-то к меня стоит поле GAFF, но часто я на такие расчеты вообще забивал, ибо там все криво получается.

Тут было взято честных около 100 тысяч молекул (и миллион конформеров), для которых считалась молекулярная механика, хорошо саппроксимировались еще около 10 миллионов, и на основе этого получены 1.7 миллиардов в виде кластерной аппроксимации. Молмех для 100 тысяч молекул посчитался примерно за пару дней, а все остальное - за месяц на 24ТФлопсном кластере.

Когда эта стадия прошла успешно, была сделана попытка посчитать только эти краевые молекулы самопальной Хартри-Фоковской решалкой, и чуть-чуть уточнить (без упертости и проверки, что сильно далеко от результатов молмеха не уползаем!!!). Это заняло примерно год компьютерного времени на нашем небольшом кластере с 24ТФлоп/с пиковой, который в тот год простаивал.

Далее было повторено как с мол-мехом.

Хочется продолжить, но пока нет достаточно ресурсов на это.

Молмех свой самописный, хз на сколько он оптимальный, по сравнению с современными, но поле взято от MMFF94, а минимизатор - Limited Subspace BFGS с градиентами по Баур-Штрассену - я много это для всяких задач пользовал и предполагаю, что решает он довольно надежно и быстро, хотя исторически так получилось, что эта решалка возникла у меня еще во время моей дипломной работы.

История самопально написанного Хартри-Фока восходит к моему диссеру, который я на днях таки наконец-то по многочисленным просьбам частично перевел на английский и выложил на https://arxiv.org/abs/2306.15468

То есть если я таки найду средства и время для продолжения всего этого, то там есть надежда получить адекватные оценки что надо посчитать гарантированно (назовем это реперами), чтобы потом все остальное можно было бы описывать в виде аппроксимационных моделей. Тогда посчитав реперы на супер-пупер точном решателе можно будет выдавать результат расчета для любой молекулы из этих кластеров практически за так без вычислений, а в виде построений, как это делает LLM с текстами. Вся выборка тогда будет ограничена только тем, на сколько большими будут взяты молекулы для реперов. Сейчас в планах пока примерно 100 атомами ограничиться.

chemigor · Сообщение **chemigor** » Пт авг 11, 2023 7:57 pm

Формулы функций энергий каждого типа взаимодействий в ММ - это всегда эмпирика. Иногда эти формулы выбираются не из физики, а из сходимости, устойчивости сходимостей таких энергий. Будучи студентом химфака у меня была бредовая идея покрыть все эти взаимодействия сплайнами, я даже тогда Эленджера этим озадачил и он даже решил попробовать... Все банально уперлось в сходимость. Когда я на маленькой выборке молекул подбирал коэффициенты таких сплайнов, функции энергии получались красивыми и шелковистыми, а вот когда на этих же функциях я пробовал найти конформации чего-то нового, все шло юзом. К счастью это было 30 лет назад и я с тех пор поумнел и так уже давно не делаю.

Shorku · Сообщение **Shorku** » Чт авг 17, 2023 5:42 pm

chemigor писал(а): ↑
Пт авг 11, 2023 7:57 pm
Формулы функций энергий каждого типа взаимодействий в ММ - это всегда эмпирика. Иногда эти формулы выбираются не из физики, а из сходимости, устойчивости сходимостей таких энергий. Будучи студентом химфака у меня была бредовая идея покрыть все эти взаимодействия сплайнами, я даже тогда Эленджера этим озадачил и он даже решил попробовать... Все банально уперлось в сходимость. Когда я на маленькой выборке молекул подбирал коэффициенты таких сплайнов, функции энергии получались красивыми и шелковистыми, а вот когда на этих же функциях я пробовал найти конформации чего-то нового, все шло юзом. К счастью это было 30 лет назад и я с тех пор поумнел и так уже давно не делаю.

Насколько я понимаю, произойди эта история не 30, а лет 10 назад и с только появившимися графовыми нейросетями вместо сплайнов, вполне бы взлетело. Возможно, зря вы больше так не делали

bigM · Сообщение **bigM** » Чт авг 17, 2023 9:35 pm

почему 10? статистика нейрал нетворк появилась бог знает когда...

Shorku · Сообщение **Shorku** » Чт авг 17, 2023 10:29 pm

bigM писал(а): ↑
Чт авг 17, 2023 9:35 pm
почему 10? статистика нейрал нетворк появилась бог знает когда...

За домашнюю работу незачет.

bigM · Сообщение **bigM** » Пт авг 18, 2023 1:10 am

Shorku писал(а): ↑
Чт авг 17, 2023 10:29 pm

bigM писал(а): ↑
Чт авг 17, 2023 9:35 pm
почему 10? статистика нейрал нетворк появилась бог знает когда...
За домашнюю работу незачет.

ещё раньше?

Shorku · Сообщение **Shorku** » Пт авг 18, 2023 9:46 am

bigM писал(а): ↑
Пт авг 18, 2023 1:10 am
ещё раньше?

Первая публикация по GNN - это вроде бы 2009 год.

bigM · Сообщение **bigM** » Пт авг 18, 2023 10:38 pm

Shorku писал(а): ↑
Пт авг 18, 2023 9:46 am

bigM писал(а): ↑
Пт авг 18, 2023 1:10 am
ещё раньше?
Первая публикация по GNN - это вроде бы 2009 год.

я про это http://statsoft.ru/products/STATISTICA_Neural_Networks/ в 2001 году модуль был интегрирован в программу статистика 6.1, последняя самостоятельная версия SNN 4.0e, где руками можно конструировать сети и назначать веса переменным вышла еще раньше, думается год 98. в журнале хакер за 2004 год была статья по нейросетям https://xakep.ru/2004/05/31/22541/, где говорилось о специальном модуле с нейропроцессором в PCI от НТЦ "Модуль".
ПС если кому интересно, у меня есть статистика 6.1 с модулем нейросетей и кодогенератором, можно попробовать программку состряпать

chemigor · Сообщение **chemigor** » Пт авг 18, 2023 11:10 pm

Shorku писал(а): ↑
Чт авг 17, 2023 5:42 pm
Насколько я понимаю, произойди эта история не 30, а лет 10 назад и с только появившимися графовыми нейросетями вместо сплайнов, вполне бы взлетело. Возможно, зря вы больше так не делали

реально руки дошли только пару лет назад, и собственно из этого и получилась www.multi-d.com которую все-таки есть желание довести до обобщенного состояния, а именно, чтобы для любого графа молекулы меньше чем что-то (скажем до 100 атомов) и не дичи с точки зрения реальной химии получать список конформеров просто без мол-меха, но уже с учетом того, что все это натренировано на каких-то больших выборках с учетом даже полуэмпирики и честных квантов.

А реально не взлетело 30 лет назад, так как Элинджер, Степанов и Пупышев к себе не взяли (у всех по разным причинам), а остальные - не были корифеями в этой области, и я банально поменял направление исследований, оказавшись в скандинавском ЯМР центре и в тот момент мне было не до квантов или мол-меха - там было много интересных задач, на которые я с радостью набросился.

chemigor · Сообщение **chemigor** » Пт авг 18, 2023 11:14 pm

Shorku писал(а): ↑
Пт авг 18, 2023 9:46 am
Первая публикация по GNN - это вроде бы 2009 год.

там достаточно обычных методов кластеризации и метода опорных векторов, а это как раз уже в 90-ые было, и я активно пользовал, так как был в тех лабах, где это как раз хорошо развивалось. Это где-то в 2010 это уже стали сетями называть, или натягивать нейронные сети на глобус классической аппроксимации, хотя как раз с GNN там действительно проще и понятнее. То есть в 90-ые хоть у меня и был весь мат-аппарат под рукой, выкристаллизовать все это в тех реалиях было практически невозможно.

Shorku · Сообщение **Shorku** » Сб авг 19, 2023 12:59 am

bigM писал(а): ↑
Пт авг 18, 2023 10:38 pm
я про это http://statsoft.ru/products/STATISTICA_Neural_Networks/ в 2001 году модуль был интегрирован в программу статистика 6.1, последняя самостоятельная версия SNN 4.0e, где руками можно конструировать сети и назначать веса переменным вышла еще раньше, думается год 98. в журнале хакер за 2004 год была статья по нейросетям https://xakep.ru/2004/05/31/22541/, где говорилось о специальном модуле с нейропроцессором в PCI от НТЦ "Модуль".
ПС если кому интересно, у меня есть статистика 6.1 с модулем нейросетей и кодогенератором, можно попробовать программку состряпать

Да божечки, эта ваша статистика-то тут причем? Зачем вы оффтоп разводите?

P.S. с нейронными сетями люди еще в середине прошлого века начали экспериментировать, а в матлабе соответствующий модуль появился году в 92-ом, кажется. И это не говоря уже о том, что, имея под рукой библиотеки с линейной алгеброй, это все не очень сложно делается и без этих ваших матлабов. А уж с появившимися в первой половине 2000-ых scipy и numpy это вообще если и не тривиальная задача, то уж не rocket science точно. Но речь-то вообще шла про довольно специальный тип нейронных сетей, а вы как обычно, слышали звон...

Shorku · Сообщение **Shorku** » Сб авг 19, 2023 12:57 pm

chemigor писал(а): ↑
Пт авг 18, 2023 11:10 pm
реально руки дошли только пару лет назад, и собственно из этого и получилась www.multi-d.com которую все-таки есть желание довести до обобщенного состояния, а именно, чтобы для любого графа молекулы меньше чем что-то (скажем до 100 атомов) и не дичи с точки зрения реальной химии получать список конформеров просто без мол-меха, но уже с учетом того, что все это натренировано на каких-то больших выборках с учетом даже полуэмпирики и честных квантов.

Крутая будет штука, когда заработает

. Надо будет попробовать вместо RDKit.

Единственное, что меня смущает в таком максимальном упрощении подхода - это работа с относительно большими (ближе к 100 атомам уже) и гибкими (а то и вообще с циклами) системами, у которых ППЭ побогаче и поплавнее из-за разнообразных вкладов от дисперсии, стерики и т.п. По моему (скромному) опыту нередко получается, что у сложных систем там, где алгоритм поиска, а потом и какая-нибудь полуэмпирика видят два минимума, DFT или MP2 увидят только один конформер. Но в этом amge гораздо лучше разбирается.
В этом плане имхо натягивание на граф нейросети не совсем бесполезно, но там уже свои челленджи.

chemigor · Сообщение **chemigor** » Вс авг 20, 2023 2:33 am

Shorku писал(а): ↑
Сб авг 19, 2023 12:57 pm
Крутая будет штука, когда заработает . Надо будет попробовать вместо RDKit.

Спасибо! Стараемся, правда сейчас совсем мало ресурсов на это имеется.

Кстати, о RDKit, на днях у них был анонс о каком-то их междуусобчике и я к ним попросился с докладом, так они мне отказали как, по их мнению, за не интересность. Кстати, лишний раз подтверждается, что или ты сам корифей, или сидишь под корифеем, или ты - никто и тебя никуда не пускают.

Shorku писал(а): ↑
Сб авг 19, 2023 12:57 pm
Единственное, что меня смущает в таком максимальном упрощении подхода - это работа с относительно большими (ближе к 100 атомам уже) и гибкими (а то и вообще с циклами) системами, у которых ППЭ побогаче и поплавнее из-за разнообразных вкладов от дисперсии, стерики и т.п. По моему (скромному) опыту нередко получается, что у сложных систем там, где алгоритм поиска, а потом и какая-нибудь полуэмпирика видят два минимума, DFT или MP2 увидят только один конформер. Но в этом amge гораздо лучше разбирается.
В этом плане имхо натягивание на граф нейросети не совсем бесполезно, но там уже свои челленджи.

Так тут как раз смысл в нескольких конформерах из нейросети. Они легко генерятся и для больших молекул я больше сотни из генерю. А дальше просто для каждого по контрольному выстрелу и отбросу того, что дало плохую энергию.

Конкретно сейчас у нас в базе только 1% посчитано, а остальное на глобус сети натянуто. Но, на всякий случай, потом серьёзно проверено, в том числе сравнениями с PubChem.

Shorku · Сообщение **Shorku** » Вс авг 20, 2023 2:16 pm

chemigor писал(а): ↑
Вс авг 20, 2023 2:33 am
Так тут как раз смысл в нескольких конформерах из нейросети. Они легко генерятся и для больших молекул я больше сотни из генерю. А дальше просто для каждого по контрольному выстрелу и отбросу того, что дало плохую энергию.

Да, как раз в "контрольном выстреле" и проблема. Речь про ситуацию, когда, скажем, два сгенеренных конформера, взятых в качестве начального приближения, дают после честной оптимизации с помощью честной квантовой химии одинаковую и, возможно, неидентичную исходным конформерам геометрию. Сингл-поинт в таком варианте посчитать недостаточно.
Например, когда мне нужно было под машинное обучение много-много конформеров, у меня была цепочка:
генерим 100500 конформеров -> оптимизируем полуэмпирикой -> фильтруем появившиеся дубли -> фильтруем по энергии -> оптимизируем DFT -> фильтруем появившиеся дубли -> фильтруем по энергии -> profit.
То есть с точки зрения некоторых потенциальных юзер кейсов, чем предсказанные моделью конформеры более похожи на результаты квантово-химического расчета, тем больше юзер сэкономит ресурсов на последующуюю дооптимизацию.

chemigor · Сообщение **chemigor** » Вс авг 20, 2023 2:53 pm

Shorku писал(а): ↑
Вс авг 20, 2023 2:16 pm
Да, как раз в "контрольном выстреле" и проблема.

Спасибо за комментарий!

Я немного упростил то, что называю контрольным выстреллом.

Там чуть сложнее, грубо говоря у меня он таков.

Если энергия очень большая, то выбрасываем сразу.
Далее считаем первые и вторые производные по координатам. У меня в обоих решалках это аналитически считается. Если далее квази-Ньютон шустро за несколько операций сошёлся, то все хорошо. Если нет, далее откладываем в сторону эту конформацию. Если отложенная конформация близка по структуре с какой-то другой и матрица вторых производных делает вид, что положительно определена, отбрасываем тоже. А в редких оставшихся случаях, которых реально меньше процента, считаем как есть.

Shorku · Сообщение **Shorku** » Вс авг 20, 2023 3:02 pm

chemigor писал(а): ↑
Вс авг 20, 2023 2:53 pm
Если энергия очень большая, то выбрасываем сразу.
Далее считаем первые и вторые производные по координатам. У меня в обоих решалках это аналитически считается. Если далее квази-Ньютон шустро за несколько операций сошёлся, то все хорошо. Если нет, далее откладываем в сторону эту конформацию. Если отложенная конформация близка по структуре с какой-то другой и матрица вторых производных делает вид, что положительно определена, отбрасываем тоже. А в редких оставшихся случаях, которых реально меньше процента, считаем как есть.

Оймда, куда я полез со своими дилетантскими замечаниями, мне бы столько мозгов, как настоящим квантовым химикам

Впрочем, я продолжу трындеть: а решалок, кроме HF, не планируется? Или хотя бы интерфейс под внешние решалки? Впрочем, если закладываться на максимальную оптимизацию, оно и не очень надо, наверное, юзер потом сам хоть связанными кластерами, хоть DFT уже досчитает то, что понадобится.

chemigor · Сообщение **chemigor** » Вс авг 20, 2023 4:35 pm

Shorku писал(а): ↑
Вс авг 20, 2023 3:02 pm
Оймда, куда я полез со своими дилетантскими замечаниями, мне бы столько мозгов, как настоящим квантовым химикам

замечания классные, я этой темой занимаюсь по волонтерско-остаточному принципу, и мне часто просто не хватает осмотреться действительно ли это важно или нет, а Ваши замечания как раз помогают это подтвердить. Реально спасибо, что эту тему подняли!!!

Shorku писал(а): ↑
Вс авг 20, 2023 3:02 pm
Впрочем, я продолжу трындеть: а решалок, кроме HF, не планируется? Или хотя бы интерфейс под внешние решалки? Впрочем, если закладываться на максимальную оптимизацию, оно и не очень надо, наверное, юзер потом сам хоть связанными кластерами, хоть DFT уже досчитает то, что понадобится.

нету, реально нету. HF - это еще тот, что с моего диссера из 1999, правда довольно хорошо отоптимизированный под современные параллельные платформы и по мелочи улучшена численная часть.

Мол-мех начинался от моего старого решателя еще 95 года, правда совсем подчистую переписан в свете современных коммерческих квазиньютоновских солверов и Баур-Штрассенов, которые разрабатывает наша компания, и, понятно, распараллелен.

Кластеризация и GNN - тоже все свое, на своих современных наработках.

Чтобы что-то добавить, нужны ресурсы, деньги то есть, а их - нет.

Мы - коммерческая компания с немецким налогообложением, я даже недавно заслал пару сотню заявок на гранты в Европе и США, и по всем пришел отказ, типа не универ же, и не свои. Знакомого толстосума, кто задонейтит - нет, поэтому все на остаточном принципе.

В принципе, если кто-то захочет разместь рекламу или ссылки на свой хим-магазин за донейты, мы тоже на это пойдем, и как раз тогда эти деньги пойдут на дальнейшее развитие проекта.

Но, так как мы коммерческая мало кому известная компания, шансы у нас, к сожалению, не велики.

chemigor · Сообщение **chemigor** » Чт авг 24, 2023 10:57 am

Спасибо огромное Shorku, за разъяснения! Кажется немного проясняется!

Shorku писал(а): ↑
Чт авг 24, 2023 10:42 am
Если очень примерно, то это та часть Ван-дер-Ваальса, которая Лондон. И которая почти не ухватывается ни ХФ (пушто нет учета электронной корреляции),
...

Скажите, пожалуйста, это происходит из-за того, что

a) только один детерминант Слейтера используется, или все-таки из-за того, что
b) многие ХФ решатели обрубают четырех индексные интегралы, если они относятся к далеко расположенным электронным парам?

Если дело в обрубке интегралов, то на тензорной сетке, как у меня ХФ, этого нет, там они не обрубаются, а если дело в том, что один Слейтеровский детерминант - да, у меня ХФ с одним Слейтером (набор детерминантов у меня тоже есть и запрограммирован, но считается сказочно долго и я обычно это отключаю) и проблема может существовать.

Shorku · Сообщение **Shorku** » Чт авг 24, 2023 11:03 am

chemigor писал(а): ↑
Чт авг 24, 2023 10:57 am
Скажите, пожалуйста, это происходит из-за того, что

a) только один детерминант Слейтера используется, или все-таки из-за того, что
b) многие ХФ решатели обрубают четырех индексные интегралы, если они относятся к далеко расположенным электронным парам?

Если дело в обрубке интегралов, то на тензорной сетке, как у меня ХФ, этого нет, там они не обрубаются, а если дело в том, что один Слейтеровский детерминант - да, у меня ХФ с одним Слейтером (набор детерминантов у меня тоже есть и запрограммирован, но считается сказочно долго и я обычно это отключаю) и проблема может существовать.

Опять же, если очень грубо, то ни то, ни другое. Дисперсионное взаимодействие зашито в динамической электронной корреляции, с которой по большому счету не помогут и дополнительные детерминанты. Зато немного поможет МР2, но не идеально - просто как пример, откуда ноги растут. Но сейчас набегут теоретики и если что поправят.

P.S. Если менее грубо, то деление на статическую и динамическую электронную корреляцию довольно условно. И много, очень много детерминантов, конечно, решат любую проблему. Но какой ценой.

madschumacher · Сообщение **madschumacher** » Чт авг 24, 2023 11:25 am

chemigor писал(а): ↑
Чт авг 24, 2023 10:22 am
Скажите, пожалуйста, это происходит из-за того, что

a) только один детерминант Слейтера используется, или все-таки из-за того, что

Да, только из-за этого. Это динамическая корреляция, которая не присутствует в ХФ по построению. Собственно, есть оценки, что буквально 90% динамической корреляции -- это и есть тот самый Ван-дер-Ваальс.

В целом уже всё объяснили, но я ещё один классический пример докину: в ХФ (в любом базисе, при поправке на BSSE) два атома инертных газа не притягиваются друг к другу, что вообще не соответствует физике, ибо жидкий гелий -- явление существующее. В этом смысле, ХФ даёт более-менее правильное описание конформационных равновесий (т.е. правильные минимумы на ППЭ в правильном порядке), когда взаимодействия по-большей части электростатические (есть куча заметно заряженных атомов и они притягиваются/отталкиваются друг от друга).

Shorku писал(а): ↑
Чт авг 24, 2023 10:42 am
Самое простое решение проблемы - прикрутить к ХФ эмпирические поправки на дисперсионное взаимодействие. Я специально не интересовался (именно чистым ХФ), но подозреваю, что поправок этих разной степени эмпиричности и вычислительной прожорливости навыводили и напараметризовали уже на любой вкус и цвет.

Да а что далеко ходить, D2 и D3 прикручивались к ХФ, такое в Firefly точно было забито. Из попсового, это метод HF-3c от Гримме.

Форум химиков