Статистическое сравнение решений

Сообщение **Polychemist** » Вс май 23, 2010 5:55 pm

Добрый день! Ударился я тут в некоторые вычисления и как-то завис...

Помогите, пожалуйста! Задача: есть некие экспериментальные данные (y, x) и функции, их возможно связывающие y = F1 (x, p1, p2) или y = F2 (x, p1, p2, p3). Надо определить параметры pi - это не проблема, минизирую S = сумма[(Yi_выч-Yi_эксп)^2] и нахожу все pi. Но дальше надо принять решение - какая из двух функций наиболее адекватно описывает данные, при том, что все pi вроде как значимы... Можно ли это сделать, сравнивая минимизированные S? Как? В какой книжке прочесть и как ту книжку спросить?

VTur · Сообщение **VTur** » Вс май 23, 2010 6:00 pm

Ну по идее, чем больше параметров, тем точнее аппроксимация. Аппроксимации с одинаковым числом параметров можно сравнивать по невязкам - средним квадратичным отклонениям.
Но это случай, когда данные однородны - нет резких различий, а то МНК есть неустойчивый метод.

Marxist · Сообщение **Marxist** » Вс май 23, 2010 6:06 pm

А почему бы не сравнить просто R²? собственно, он и является критерием качества описания.

Сообщение **Polychemist** » Вс май 23, 2010 6:11 pm

Данные одни и те же, но можно описать их либо с 2, либо с 3-мя параметрами. Во втором случае, да, аппроксимация точнее - остаточная сумма меньше. Но как сравнивая эти две суммы сказать, что 2-я модель действительно достоверно лучше?

Сообщение **Polychemist** » Вс май 23, 2010 6:13 pm

Marxist писал(а):А почему бы не сравнить просто R²? собственно, он и является критерием качества описания.

Простите за тупость, а как его считать? Модель не имеет никакого отношения к полиномам...

Marxist · Сообщение **Marxist** » Вс май 23, 2010 6:17 pm

А неважно, там же функциональная зависимость, как вы говорите. Считать по формуле, это даже эксель умеет. Другое дело, что если Вы хотите предсказательную модель, R² мало что скажет о предсказательной способности...

VTur · Сообщение **VTur** » Вс май 23, 2010 6:28 pm

Если R - коэф. корреляции, то это применимо только для линейных моделей.

При разном наборе параметров можно сравнить прогностические возможности моделей. Выкинте некоторые точки в разных частях интервала. Проведите аппроксимацию по уменьшенному количеству точек, а потом посмотрите, что показывают модели в неучитываемых точках.

Сообщение **Polychemist** » Вс май 23, 2010 6:52 pm

Спасибо, буду думать (читать) о критериях сравнения моделей... На всякий случай еще раз поясню проблему:
Есть наборы данных. В каждом случае можно применить модель 1 (2 параметра, сумма кв. отклонений S1) и 2 (3 параметра, сумма кв. отклонений S2). С точки зрения реальности возможны обе. И тут варианты:
1. S1 <= S2. Все ясно, есть смысл принять первую модель, как наиболее простую.
2. S1 = 10*S2. Тоже понятно, 1-я модель явно не катит.
3. S1 = 1.2*S2. А вот тут проблема. Можно ли считать такую разницу достоверной для отбрасывания 1-й модели? Или можно считать S1 примерно равно S2 и см. п 1? Как это сделать грамотно, с использованием какого-нибудь F-S-ксю-хрю критерия, разного при разном числе параметров?

Marxist · Сообщение **Marxist** » Вс май 23, 2010 6:58 pm

Данные одни и те же? слово "наборы" почему-то намекает, что нет.

Считаем среднее отклонение. Где оно меньше -- та модель по идее лучше предсказывает. Если при этом ещё и R^2 больше -- всё хорошо. Ещё имеет смысл сравнить экспериментальные и предсказанные значения -- могут быть выбросы в данных.

Параметры в модели одни и те же? То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. Обычно считают, что достаточное число параметров -- когда объясняется 95% вариации или 99%. Это в PCA.

Можно ещё критерием Фишера сравнить, кажется.

В итоге всё упирается в R^2.

VTur · Сообщение **VTur** » Вс май 23, 2010 7:16 pm

Я так понимаю, сам вид уравнения регрессии уже известен. И нужно решить с двумя или тремя параметрами его использовать.

Что тут можно сказать. Вещь эта очень непростая. Потратите уйму времини с неизвестным итогом.

Можно ещё посоветовать найти ошибку косвенных измерений в том и другом случае и их сравнить на предмет резких отличий.

VTur · Сообщение **VTur** » Вс май 23, 2010 7:21 pm

Ещё хотелось напомнить, что аппроксимация многочленом степени равной количеству точек (измерений) даёт погрешность аппроксимации равную нулю. Он просто проходит через все точки. Анализ моделей математически сложен.
Поэтому количество параметров стараются вывести из физических, а не математических соображений.

Посмотрите ещё "Анализ регрессионных моделей " в
http://www.machinelearning.ru/wiki/inde ... E%D0%B2%29

Посмотрел там "Значимость коэффициентов линейной регрессии (проверка равенства коэффициентов нулю)", оказалось, есть только для линейной модели.

Lexx · Сообщение **Lexx** » Вс май 23, 2010 9:42 pm

Тут важно знать линейной регрессией вы пользуетесь или какой другой моделью. Для линейной регрессии точно знаю есть тест Фишера на избыточность, считается легко, если нужно, завтра напишу формулы. Сравнение двух уравнений по коэфф. корр. R - не вполне корректно. Также как и по стандартному отклонению. Очень часто R увеличивается, а S - уменьшается при увеличении числа параметров, но трудно сказать, значимы или нет эти измениеия. Плюс ко всему, при увеличении числа параметров можно наткнуться на их коллинеарность - т.е. значения параметров будут коррелировать друг с другом и бороться с последствиями этого - ооочень неприятно.
А какой программой пользуетесь для обработки результатов?

Сообщение **Polychemist** » Пн май 24, 2010 2:01 am

Уточняю:
Программа - Borland C++ 5.02. Регрессия нелинейная и даже не полиномиальная... Количество точек - более 100, т.е. заведомо больше числа параметров. Сравнение двух моделей ведется на одних и тех же данных. Просто речь идет о разных экспериментах, в которых надо восстанавливать типа спектр из сложно полученной суммарной кривой.
"То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. " - да это и есть проблема - нужно иметь четкий критерий, считать это улучшение значимым или не значимым... Да, вроде Фишер о чем-то таком, хотя уверенности нет... Коррелированность параметров обычно приводит к проблемам локальных минимумов, это легко заметно и устранимо.

dan14444 · Сообщение **dan14444** » Пн май 24, 2010 6:07 am

Что-то мне подсказывает, что дельнейшее увеличение числа параметров даст и улучшение апроксимации...

Но неплохо бы проверить зависимость "число параметров"-"качество аппроксимации", глядишь какой максимум у производной всплывёт...
Если не всплывёт - задать ошибку и этим аргументировать выбор числа параметров. А ошибка - она всегда от фонаря задаётся...

Сообщение **Polychemist** » Пн май 24, 2010 11:57 am

Пока что склоняюсь к Байесу http://en.wikipedia.org/wiki/Bayesian_i ... _criterion

amge · Сообщение **amge** » Пн май 24, 2010 12:46 pm

dan14444 писал(а):что дельнейшее увеличение числа параметров даст и улучшение апроксимации...

Кажется, А.С. Днепровский говорил на лекциях: "Дайте мне два параметра, и я вам нарисую слона. Дайте мне три параметра, и я вам нарисую слона с хвостиком."

dan14444 · Сообщение **dan14444** » Пн май 24, 2010 1:33 pm

склоняюсь к Байесу

Вполне гут. Дёшево, сердито, и некая база есть

.

"Дайте мне два параметра, и я вам нарисую слона. Дайте мне три параметра, и я вам нарисую слона с хвостиком."

Вот-вот, хотя приходилось до 8 в полиномиальной тестить... А "оптимум" обнаружился на 4... Это значит с хвостиком, хоботом и ушами...

Lexx · Сообщение **Lexx** » Пн май 24, 2010 9:28 pm

Критерии Фишера в общем случае к нелинейным регрессиям не применим. Однако если модель можно линеаризовать, то вполне себе можно использовать.

А так да, похоже, что подойдет Байесовский:
http://www.machinelearning.ru/wiki/inde ... й_критерий
Есть еще критерий Акаинке
http://www.machinelearning.ru/wiki/inde ... рий_Акаике

А вот и полезная книжка, даже с примерами вроде.

0387953647.pdf

Сообщение **Polychemist** » Вт май 25, 2010 5:07 am

Lexx, спасибо за книжку!

VTur · Сообщение **VTur** » Ср май 26, 2010 6:32 pm

Polychemist, решите задачу, поделитесь соображениями.

Форум химиков

Статистическое сравнение решений

Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Re: Статистическое сравнение решений

Кто сейчас на конференции