
Статистическое сравнение решений
-
- Сообщения: 9661
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Статистическое сравнение решений
Добрый день! Ударился я тут в некоторые вычисления и как-то завис...
Помогите, пожалуйста! Задача: есть некие экспериментальные данные (y, x) и функции, их возможно связывающие y = F1 (x, p1, p2) или y = F2 (x, p1, p2, p3). Надо определить параметры pi - это не проблема, минизирую S = сумма[(Yi_выч-Yi_эксп)^2] и нахожу все pi. Но дальше надо принять решение - какая из двух функций наиболее адекватно описывает данные, при том, что все pi вроде как значимы... Можно ли это сделать, сравнивая минимизированные S? Как? В какой книжке прочесть и как ту книжку спросить?

Re: Статистическое сравнение решений
Ну по идее, чем больше параметров, тем точнее аппроксимация. Аппроксимации с одинаковым числом параметров можно сравнивать по невязкам - средним квадратичным отклонениям.
Но это случай, когда данные однородны - нет резких различий, а то МНК есть неустойчивый метод.
Но это случай, когда данные однородны - нет резких различий, а то МНК есть неустойчивый метод.
После отстоя требуйте долива
Re: Статистическое сравнение решений
А почему бы не сравнить просто R2? собственно, он и является критерием качества описания.
-
- Сообщения: 9661
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Re: Статистическое сравнение решений
Данные одни и те же, но можно описать их либо с 2, либо с 3-мя параметрами. Во втором случае, да, аппроксимация точнее - остаточная сумма меньше. Но как сравнивая эти две суммы сказать, что 2-я модель действительно достоверно лучше?
-
- Сообщения: 9661
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Re: Статистическое сравнение решений
Простите за тупость, а как его считать? Модель не имеет никакого отношения к полиномам...Marxist писал(а):А почему бы не сравнить просто R2? собственно, он и является критерием качества описания.
Re: Статистическое сравнение решений
А неважно, там же функциональная зависимость, как вы говорите. Считать по формуле, это даже эксель умеет. Другое дело, что если Вы хотите предсказательную модель, R2 мало что скажет о предсказательной способности...
Re: Статистическое сравнение решений
Если R - коэф. корреляции, то это применимо только для линейных моделей.
При разном наборе параметров можно сравнить прогностические возможности моделей. Выкинте некоторые точки в разных частях интервала. Проведите аппроксимацию по уменьшенному количеству точек, а потом посмотрите, что показывают модели в неучитываемых точках.
При разном наборе параметров можно сравнить прогностические возможности моделей. Выкинте некоторые точки в разных частях интервала. Проведите аппроксимацию по уменьшенному количеству точек, а потом посмотрите, что показывают модели в неучитываемых точках.
После отстоя требуйте долива
-
- Сообщения: 9661
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Re: Статистическое сравнение решений
Спасибо, буду думать (читать) о критериях сравнения моделей... На всякий случай еще раз поясню проблему:
Есть наборы данных. В каждом случае можно применить модель 1 (2 параметра, сумма кв. отклонений S1) и 2 (3 параметра, сумма кв. отклонений S2). С точки зрения реальности возможны обе. И тут варианты:
1. S1 <= S2. Все ясно, есть смысл принять первую модель, как наиболее простую.
2. S1 = 10*S2. Тоже понятно, 1-я модель явно не катит.
3. S1 = 1.2*S2. А вот тут проблема. Можно ли считать такую разницу достоверной для отбрасывания 1-й модели? Или можно считать S1 примерно равно S2 и см. п 1? Как это сделать грамотно, с использованием какого-нибудь F-S-ксю-хрю критерия, разного при разном числе параметров?
Есть наборы данных. В каждом случае можно применить модель 1 (2 параметра, сумма кв. отклонений S1) и 2 (3 параметра, сумма кв. отклонений S2). С точки зрения реальности возможны обе. И тут варианты:
1. S1 <= S2. Все ясно, есть смысл принять первую модель, как наиболее простую.
2. S1 = 10*S2. Тоже понятно, 1-я модель явно не катит.
3. S1 = 1.2*S2. А вот тут проблема. Можно ли считать такую разницу достоверной для отбрасывания 1-й модели? Или можно считать S1 примерно равно S2 и см. п 1? Как это сделать грамотно, с использованием какого-нибудь F-S-ксю-хрю критерия, разного при разном числе параметров?
Re: Статистическое сравнение решений
Данные одни и те же? слово "наборы" почему-то намекает, что нет.
Считаем среднее отклонение. Где оно меньше -- та модель по идее лучше предсказывает. Если при этом ещё и R^2 больше -- всё хорошо. Ещё имеет смысл сравнить экспериментальные и предсказанные значения -- могут быть выбросы в данных.
Параметры в модели одни и те же? То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. Обычно считают, что достаточное число параметров -- когда объясняется 95% вариации или 99%. Это в PCA.
Можно ещё критерием Фишера сравнить, кажется.
В итоге всё упирается в R^2.
Считаем среднее отклонение. Где оно меньше -- та модель по идее лучше предсказывает. Если при этом ещё и R^2 больше -- всё хорошо. Ещё имеет смысл сравнить экспериментальные и предсказанные значения -- могут быть выбросы в данных.
Параметры в модели одни и те же? То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. Обычно считают, что достаточное число параметров -- когда объясняется 95% вариации или 99%. Это в PCA.
Можно ещё критерием Фишера сравнить, кажется.
В итоге всё упирается в R^2.
Re: Статистическое сравнение решений
Я так понимаю, сам вид уравнения регрессии уже известен. И нужно решить с двумя или тремя параметрами его использовать.
Что тут можно сказать. Вещь эта очень непростая. Потратите уйму времини с неизвестным итогом.
Можно ещё посоветовать найти ошибку косвенных измерений в том и другом случае и их сравнить на предмет резких отличий.
Что тут можно сказать. Вещь эта очень непростая. Потратите уйму времини с неизвестным итогом.
Можно ещё посоветовать найти ошибку косвенных измерений в том и другом случае и их сравнить на предмет резких отличий.
После отстоя требуйте долива
Re: Статистическое сравнение решений
Ещё хотелось напомнить, что аппроксимация многочленом степени равной количеству точек (измерений) даёт погрешность аппроксимации равную нулю. Он просто проходит через все точки. Анализ моделей математически сложен.
Поэтому количество параметров стараются вывести из физических, а не математических соображений.
Посмотрите ещё "Анализ регрессионных моделей " в
http://www.machinelearning.ru/wiki/inde ... E%D0%B2%29
Посмотрел там "Значимость коэффициентов линейной регрессии (проверка равенства коэффициентов нулю)", оказалось, есть только для линейной модели.
Поэтому количество параметров стараются вывести из физических, а не математических соображений.
Посмотрите ещё "Анализ регрессионных моделей " в
http://www.machinelearning.ru/wiki/inde ... E%D0%B2%29
Посмотрел там "Значимость коэффициентов линейной регрессии (проверка равенства коэффициентов нулю)", оказалось, есть только для линейной модели.
После отстоя требуйте долива
Re: Статистическое сравнение решений
Тут важно знать линейной регрессией вы пользуетесь или какой другой моделью. Для линейной регрессии точно знаю есть тест Фишера на избыточность, считается легко, если нужно, завтра напишу формулы. Сравнение двух уравнений по коэфф. корр. R - не вполне корректно. Также как и по стандартному отклонению. Очень часто R увеличивается, а S - уменьшается при увеличении числа параметров, но трудно сказать, значимы или нет эти измениеия. Плюс ко всему, при увеличении числа параметров можно наткнуться на их коллинеарность - т.е. значения параметров будут коррелировать друг с другом и бороться с последствиями этого - ооочень неприятно.
А какой программой пользуетесь для обработки результатов?
А какой программой пользуетесь для обработки результатов?
А я вот паровоз поднимал... Но не поднял.
-
- Сообщения: 9661
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Re: Статистическое сравнение решений
Уточняю:
Программа - Borland C++ 5.02. Регрессия нелинейная и даже не полиномиальная... Количество точек - более 100, т.е. заведомо больше числа параметров. Сравнение двух моделей ведется на одних и тех же данных. Просто речь идет о разных экспериментах, в которых надо восстанавливать типа спектр из сложно полученной суммарной кривой.
"То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. " - да это и есть проблема - нужно иметь четкий критерий, считать это улучшение значимым или не значимым... Да, вроде Фишер о чем-то таком, хотя уверенности нет... Коррелированность параметров обычно приводит к проблемам локальных минимумов, это легко заметно и устранимо.
Программа - Borland C++ 5.02. Регрессия нелинейная и даже не полиномиальная... Количество точек - более 100, т.е. заведомо больше числа параметров. Сравнение двух моделей ведется на одних и тех же данных. Просто речь идет о разных экспериментах, в которых надо восстанавливать типа спектр из сложно полученной суммарной кривой.
"То есть модель 2 даёт незначительное улучшение описания при добавлении одного параметра. " - да это и есть проблема - нужно иметь четкий критерий, считать это улучшение значимым или не значимым... Да, вроде Фишер о чем-то таком, хотя уверенности нет... Коррелированность параметров обычно приводит к проблемам локальных минимумов, это легко заметно и устранимо.
Re: Статистическое сравнение решений
Что-то мне подсказывает, что дельнейшее увеличение числа параметров даст и улучшение апроксимации...
Но неплохо бы проверить зависимость "число параметров"-"качество аппроксимации", глядишь какой максимум у производной всплывёт...
Если не всплывёт - задать ошибку и этим аргументировать выбор числа параметров. А ошибка - она всегда от фонаря задаётся...

Если не всплывёт - задать ошибку и этим аргументировать выбор числа параметров. А ошибка - она всегда от фонаря задаётся...

-
- Сообщения: 9661
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Re: Статистическое сравнение решений
Пока что склоняюсь к Байесу http://en.wikipedia.org/wiki/Bayesian_i ... _criterion
Re: Статистическое сравнение решений
Кажется, А.С. Днепровский говорил на лекциях: "Дайте мне два параметра, и я вам нарисую слона. Дайте мне три параметра, и я вам нарисую слона с хвостиком."dan14444 писал(а):что дельнейшее увеличение числа параметров даст и улучшение апроксимации...![]()

Re: Статистическое сравнение решений
Вполне гут. Дёшево, сердито, и некая база естьсклоняюсь к Байесу

Вот-вот, хотя приходилось до 8 в полиномиальной тестить... А "оптимум" обнаружился на 4... Это значит с хвостиком, хоботом и ушами..."Дайте мне два параметра, и я вам нарисую слона. Дайте мне три параметра, и я вам нарисую слона с хвостиком."

Re: Статистическое сравнение решений
Критерии Фишера в общем случае к нелинейным регрессиям не применим. Однако если модель можно линеаризовать, то вполне себе можно использовать.
А так да, похоже, что подойдет Байесовский:
http://www.machinelearning.ru/wiki/inde ... й_критерий
Есть еще критерий Акаинке
http://www.machinelearning.ru/wiki/inde ... рий_Акаике
А вот и полезная книжка, даже с примерами вроде.
А так да, похоже, что подойдет Байесовский:
http://www.machinelearning.ru/wiki/inde ... й_критерий
Есть еще критерий Акаинке
http://www.machinelearning.ru/wiki/inde ... рий_Акаике
А вот и полезная книжка, даже с примерами вроде.
А я вот паровоз поднимал... Но не поднял.
-
- Сообщения: 9661
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Re: Статистическое сравнение решений
Lexx, спасибо за книжку!
Re: Статистическое сравнение решений
Polychemist, решите задачу, поделитесь соображениями.
После отстоя требуйте долива
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 13 гостей