Статистическое сравнение решений

обсуждение вопросов физической химии и химической физики
physical chemistry and chemical physics: discussions for professionals
Polychemist
Сообщения: 9661
Зарегистрирован: Вт дек 21, 2004 11:42 am

Статистическое сравнение решений

Сообщение Polychemist » Вс май 23, 2010 5:55 pm

Добрый день! Ударился я тут в некоторые вычисления и как-то завис... :( Помогите, пожалуйста! Задача: есть некие экспериментальные данные (y, x) и функции, их возможно связывающие y = F1 (x, p1, p2) или y = F2 (x, p1, p2, p3). Надо определить параметры pi - это не проблема, минизирую S = сумма[(Yi_выч-Yi_эксп)^2] и нахожу все pi. Но дальше надо принять решение - какая из двух функций наиболее адекватно описывает данные, при том, что все pi вроде как значимы... Можно ли это сделать, сравнивая минимизированные S? Как? В какой книжке прочесть и как ту книжку спросить?

VTur
Сообщения: 7357
Зарегистрирован: Пт авг 31, 2007 1:36 pm

Re: Статистическое сравнение решений

Сообщение VTur » Вс май 23, 2010 6:00 pm

Ну по идее, чем больше параметров, тем точнее аппроксимация. Аппроксимации с одинаковым числом параметров можно сравнивать по невязкам - средним квадратичным отклонениям.
Но это случай, когда данные однородны - нет резких различий, а то МНК есть неустойчивый метод.
После отстоя требуйте долива

Marxist

Re: Статистическое сравнение решений

Сообщение Marxist » Вс май 23, 2010 6:06 pm

А почему бы не сравнить просто R2? собственно, он и является критерием качества описания.

Polychemist
Сообщения: 9661
Зарегистрирован: Вт дек 21, 2004 11:42 am

Re: Статистическое сравнение решений

Сообщение Polychemist » Вс май 23, 2010 6:11 pm

Данные одни и те же, но можно описать их либо с 2, либо с 3-мя параметрами. Во втором случае, да, аппроксимация точнее - остаточная сумма меньше. Но как сравнивая эти две суммы сказать, что 2-я модель действительно достоверно лучше?

Polychemist
Сообщения: 9661
Зарегистрирован: Вт дек 21, 2004 11:42 am

Re: Статистическое сравнение решений

Сообщение Polychemist » Вс май 23, 2010 6:13 pm

Marxist писал(а):А почему бы не сравнить просто R2? собственно, он и является критерием качества описания.
Простите за тупость, а как его считать? Модель не имеет никакого отношения к полиномам...

Marxist

Re: Статистическое сравнение решений

Сообщение Marxist » Вс май 23, 2010 6:17 pm

А неважно, там же функциональная зависимость, как вы говорите. Считать по формуле, это даже эксель умеет. Другое дело, что если Вы хотите предсказательную модель, R2 мало что скажет о предсказательной способности...

VTur
Сообщения: 7357
Зарегистрирован: Пт авг 31, 2007 1:36 pm

Re: Статистическое сравнение решений

Сообщение VTur » Вс май 23, 2010 6:28 pm

Если R - коэф. корреляции, то это применимо только для линейных моделей.

При разном наборе параметров можно сравнить прогностические возможности моделей. Выкинте некоторые точки в разных частях интервала. Проведите аппроксимацию по уменьшенному количеству точек, а потом посмотрите, что показывают модели в неучитываемых точках.
После отстоя требуйте долива

Polychemist
Сообщения: 9661
Зарегистрирован: Вт дек 21, 2004 11:42 am

Re: Статистическое сравнение решений

Сообщение Polychemist » Вс май 23, 2010 6:52 pm

Спасибо, буду думать (читать) о критериях сравнения моделей... На всякий случай еще раз поясню проблему:
Есть наборы данных. В каждом случае можно применить модель 1 (2 параметра, сумма кв. отклонений S1) и 2 (3 параметра, сумма кв. отклонений S2). С точки зрения реальности возможны обе. И тут варианты:
1. S1 <= S2. Все ясно, есть смысл принять первую модель, как наиболее простую.
2. S1 = 10*S2. Тоже понятно, 1-я модель явно не катит.
3. S1 = 1.2*S2. А вот тут проблема. Можно ли считать такую разницу достоверной для отбрасывания 1-й модели? Или можно считать S1 примерно равно S2 и см. п 1? Как это сделать грамотно, с использованием какого-нибудь F-S-ксю-хрю критерия, разного при разном числе параметров?

Marxist

Re: Статистическое сравнение решений

Сообщение Marxist » Вс май 23, 2010 6:58 pm

Данные одни и те же? слово "наборы" почему-то намекает, что нет.

Считаем среднее отклонение. Где оно меньше -- та модель по идее лучше предсказывает. Если при этом ещё и R^2 больше -- всё хорошо. Ещё имеет смысл сравнить экспериментальные и предсказанные значения -- могут быть выбросы в данных.

Параметры в модели одни и те же? То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. Обычно считают, что достаточное число параметров -- когда объясняется 95% вариации или 99%. Это в PCA.

Можно ещё критерием Фишера сравнить, кажется.

В итоге всё упирается в R^2.

VTur
Сообщения: 7357
Зарегистрирован: Пт авг 31, 2007 1:36 pm

Re: Статистическое сравнение решений

Сообщение VTur » Вс май 23, 2010 7:16 pm

Я так понимаю, сам вид уравнения регрессии уже известен. И нужно решить с двумя или тремя параметрами его использовать.

Что тут можно сказать. Вещь эта очень непростая. Потратите уйму времини с неизвестным итогом.

Можно ещё посоветовать найти ошибку косвенных измерений в том и другом случае и их сравнить на предмет резких отличий.
После отстоя требуйте долива

VTur
Сообщения: 7357
Зарегистрирован: Пт авг 31, 2007 1:36 pm

Re: Статистическое сравнение решений

Сообщение VTur » Вс май 23, 2010 7:21 pm

Ещё хотелось напомнить, что аппроксимация многочленом степени равной количеству точек (измерений) даёт погрешность аппроксимации равную нулю. Он просто проходит через все точки. Анализ моделей математически сложен.
Поэтому количество параметров стараются вывести из физических, а не математических соображений.

Посмотрите ещё "Анализ регрессионных моделей " в
http://www.machinelearning.ru/wiki/inde ... E%D0%B2%29

Посмотрел там "Значимость коэффициентов линейной регрессии (проверка равенства коэффициентов нулю)", оказалось, есть только для линейной модели.
После отстоя требуйте долива

Аватара пользователя
Lexx
Сообщения: 1205
Зарегистрирован: Пн фев 28, 2005 12:44 pm
Контактная информация:

Re: Статистическое сравнение решений

Сообщение Lexx » Вс май 23, 2010 9:42 pm

Тут важно знать линейной регрессией вы пользуетесь или какой другой моделью. Для линейной регрессии точно знаю есть тест Фишера на избыточность, считается легко, если нужно, завтра напишу формулы. Сравнение двух уравнений по коэфф. корр. R - не вполне корректно. Также как и по стандартному отклонению. Очень часто R увеличивается, а S - уменьшается при увеличении числа параметров, но трудно сказать, значимы или нет эти измениеия. Плюс ко всему, при увеличении числа параметров можно наткнуться на их коллинеарность - т.е. значения параметров будут коррелировать друг с другом и бороться с последствиями этого - ооочень неприятно.
А какой программой пользуетесь для обработки результатов?
А я вот паровоз поднимал... Но не поднял.

Polychemist
Сообщения: 9661
Зарегистрирован: Вт дек 21, 2004 11:42 am

Re: Статистическое сравнение решений

Сообщение Polychemist » Пн май 24, 2010 2:01 am

Уточняю:
Программа - Borland C++ 5.02. Регрессия нелинейная и даже не полиномиальная... Количество точек - более 100, т.е. заведомо больше числа параметров. Сравнение двух моделей ведется на одних и тех же данных. Просто речь идет о разных экспериментах, в которых надо восстанавливать типа спектр из сложно полученной суммарной кривой.
"То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. " - да это и есть проблема - нужно иметь четкий критерий, считать это улучшение значимым или не значимым... Да, вроде Фишер о чем-то таком, хотя уверенности нет... Коррелированность параметров обычно приводит к проблемам локальных минимумов, это легко заметно и устранимо.

Аватара пользователя
dan14444
Сообщения: 2541
Зарегистрирован: Ср окт 10, 2007 2:14 am

Re: Статистическое сравнение решений

Сообщение dan14444 » Пн май 24, 2010 6:07 am

Что-то мне подсказывает, что дельнейшее увеличение числа параметров даст и улучшение апроксимации... :) Но неплохо бы проверить зависимость "число параметров"-"качество аппроксимации", глядишь какой максимум у производной всплывёт...
Если не всплывёт - задать ошибку и этим аргументировать выбор числа параметров. А ошибка - она всегда от фонаря задаётся... :roll:

Polychemist
Сообщения: 9661
Зарегистрирован: Вт дек 21, 2004 11:42 am

Re: Статистическое сравнение решений

Сообщение Polychemist » Пн май 24, 2010 11:57 am

Пока что склоняюсь к Байесу http://en.wikipedia.org/wiki/Bayesian_i ... _criterion

Аватара пользователя
amge
Сообщения: 2046
Зарегистрирован: Вт июл 31, 2007 11:42 am

Re: Статистическое сравнение решений

Сообщение amge » Пн май 24, 2010 12:46 pm

dan14444 писал(а):что дельнейшее увеличение числа параметров даст и улучшение апроксимации... :)
Кажется, А.С. Днепровский говорил на лекциях: "Дайте мне два параметра, и я вам нарисую слона. Дайте мне три параметра, и я вам нарисую слона с хвостиком." :D

Аватара пользователя
dan14444
Сообщения: 2541
Зарегистрирован: Ср окт 10, 2007 2:14 am

Re: Статистическое сравнение решений

Сообщение dan14444 » Пн май 24, 2010 1:33 pm

склоняюсь к Байесу
Вполне гут. Дёшево, сердито, и некая база есть :).
"Дайте мне два параметра, и я вам нарисую слона. Дайте мне три параметра, и я вам нарисую слона с хвостиком." :D
Вот-вот, хотя приходилось до 8 в полиномиальной тестить... А "оптимум" обнаружился на 4... Это значит с хвостиком, хоботом и ушами... :very_shuffle:

Аватара пользователя
Lexx
Сообщения: 1205
Зарегистрирован: Пн фев 28, 2005 12:44 pm
Контактная информация:

Re: Статистическое сравнение решений

Сообщение Lexx » Пн май 24, 2010 9:28 pm

Критерии Фишера в общем случае к нелинейным регрессиям не применим. Однако если модель можно линеаризовать, то вполне себе можно использовать.

А так да, похоже, что подойдет Байесовский:
http://www.machinelearning.ru/wiki/inde ... й_критерий
Есть еще критерий Акаинке
http://www.machinelearning.ru/wiki/inde ... рий_Акаике

А вот и полезная книжка, даже с примерами вроде.
0387953647.pdf
А я вот паровоз поднимал... Но не поднял.

Polychemist
Сообщения: 9661
Зарегистрирован: Вт дек 21, 2004 11:42 am

Re: Статистическое сравнение решений

Сообщение Polychemist » Вт май 25, 2010 5:07 am

Lexx, спасибо за книжку!

VTur
Сообщения: 7357
Зарегистрирован: Пт авг 31, 2007 1:36 pm

Re: Статистическое сравнение решений

Сообщение VTur » Ср май 26, 2010 6:32 pm

Polychemist, решите задачу, поделитесь соображениями.
После отстоя требуйте долива

Ответить

Вернуться в «физическая химия / physical chemistry»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 13 гостей