<<
>>

ОПТИМИЗАЦИЯ И ПОДГОНКА ПОД ИСТОРИЧЕСКИЕ ДАННЫЕ

Еще один аспект разработки торговых систем состоит в оптимизации, т.е. улучшении эффективности систем при помощи подбора таких значений параметров, при которых система дает наилучший результат на выборке данных.
Если система не работает при тестировании на данных вне пределов выборки или на реальном рынке, говорят, что при оптимизации имела место подгонка под исторические данные. Впрочем, подгонка бывает полезной и вредной. Полезная подгонка — это случай, когда модель подогнана под всю популяцию (т.е. под достаточно большую и представительную) и при этом отражает все достоверные характеристики реальной популяции в системе. Подгонка вредна, если система соответствует только некоторым случайным характеристикам, не обязательно отражающим свойства всей популяции.

Разработчики недаром боятся вредной подгонки, т.е. ситуации, когда параметры, оптимизированные на данной выборке, не работают на попу

ГЛАВА 4 СТАТИСТИКА

73

ляции в целом. Если выборка была небольшой или не представительной, вероятнее всего, система будет работать хорошо на данной выборке и из рук вон плохо на другой или, что еще опаснее, приведет к потере денег в реальной торговле. Чем больше выборка данных, тем меньше эта опасность: вероятность вредной подгонки снижается, а полезной — возрастает. Все рассматриваемые методы статистики отражают это явление, даже специально предназначенные для оптимизации. Достоверно известно, что чем больше параметров подвергается оптимизации, тем больше вероятность того, что высокие результаты системы будут достигнуты чисто случайным сочетанием. Если же результаты статистического анализа удовлетворительны, и тест основывался на достаточно большой выборке данных, то вероятность случайного результата снижается, и даже полученный при оптимизации множества параметров результат вполне может быть реальным и значимым.

Некоторые возражают, что размер не имеет значения, т.е.

размер выборки и количество проведенных сделок не имеют ничего общего с риском избыточной оптимизации, и что большая выборка не снимает угрозы вредной подгонки под исторические данные. Это неверно и математически, и интуитивно. Никто не стал бы больше доверять системе, которая провела 3 — 4 сделки за десятилетний период, чем системе, которая провела более тысячи достаточно прибыльных сделок. Представьте себе модель линейной регрессии, в которой прямую линию подгоняют к ряду точек. Если точек всего две, то вне зависимости от их положения линию всегда можно «подогнать» идеально. Если точек три, то дело усложняется. Если же точек действительно много, то проблема становится еще сложнее, если только расположение точек не содержит некоего реального линейного распределения.

Пример с линейной регрессией показывает, что вредная подгонка затрудняется с ростом объема данных. Сравните две торговые системы: одна провела 2 сделки с прибылью $100 в каждой и стандартным отклонением $100; другая — 1000 сделок с такими же средним и стандартным отклонениями. При статистической оценке система, проведшая 1000 сделок, будет гораздо «статистически значимее», чем система, проведшая 2 сделки.

В моделях множественной линейной регрессии при увеличении количества параметров регрессии (бета-весов) по отношению к размеру выборки увеличивается степень вредной подгонки и уменьшается достоверность результатов модели. Другими словами, чем выше степень подгонки под исторические данные, тем сложнее добиться статистической значимости. Исключением является случай, когда повышение результативности модели, вызванное подгонкой, компенсирует потерю значимости при добавлении параметров. Оценка степени ожидаемого снижения корреляции при использовании данных вне выборки может производиться напрямую, исходя из объема данных и количества параметров: корреляция снижается с увеличением числа параметров и увеличивается с рос

74

ЧАСТЬ I РАБОЧИЕ ИНСТРУМЕНТЫ

том объема данных. В общем, существуют достоверные математические доказательства того, что вероятность вредной подгонки повышается, если количество оптимизируемых параметров велико по отношению к объему используемой выборки данных. Фактически, когда n (размер выборки) стремится к бесконечности, вероятность того, что подгонка параметров будет непредставительной для данной популяции, стремится к нулю.

Чем больше параметров оптимизируется, тем большая требуется выборка данных. На языке статистики это звучит так: оптимизируемые параметры используют доступные степени свободы.

Все это ведет к заключению, что чем больше выборка, тем более вероятность того, что найденные параметры системы будут представительным отражением характеристик рынка в целом. Маленькая выборка, скорее всего, будет непредставительной: ее кривые вряд ли будут соответствовать долговременным, устойчивым характеристикам рынка. Любая модель, построенная с использованием маленькой выборки, может быть эффективной только по чистой случайности. Будет ли подгонка «полезной» или «вредной», во многом зависит от отражения в ней случайных ценовых движений или реальных рыночных процессов, что, в свою очередь, зависит от представительности выборки. Статистика полезна, поскольку позволяет принять в расчет при оценке системы степень подгонки.

При работе с нейронными сетями опасения относительно излишнего обучения, или генерализации, соответствуют опасениям относительно излишней подгонки под исторические данные. Если выборка достаточно объемиста и представительна, повышается вероятность отражения в найденных оптимальных параметрах реальных характеристик рынка, что полезно для реальной работы системы. Если же выборка мала, модель практически гарантированно будет настроена на особенности выборки, но никак не на особенности рынка в целом. Для нейронных сетей успех генерализации означает то же, что для других систем, — устойчивость в будущем и так же сильно зависит от размеров выборки, использованной для обучения сети. Чем больше выборка или чем меньше количество весов связей (т.е. параметров), тем выше вероятность удачной генерализации. Это также можно доказать математически путем разбора несложных примеров.

Как и в случае с регрессией, при разработке нейронной сети можно произвести оценку коррекции коэффициента корреляции (т.е. показателя, обратного генерализации). Фактически, нейронная сеть представляет собой систему уравнений множественной регрессии, хотя и нелинейных, и корреляция выходных значений сети может рассматриваться как множественный коэффициент корреляции.

Множественная корреляция между выходными и целевыми значениями может быть скорректирована для прогнозирования поведения системы на данных вне выборки. Такая скорректированная множественная корреляция должна постоянно использоваться для определения того, является ли эффективность нейронной сети

ГЛАВА 4 СТАТИСТИКА

75

случайной или она вызвана обнаружением реальной закономерности в ценовом поведении рынка. Формула коррекции коэффициента множественной корреляции приведена ниже:

RC = SQRT (1.0 - ( (N - 1.0) / (N - Р) ) * (1.0 - R*R) )

Формула приведена в стиле языка FORTRAN. Здесь SORT означает квадратный корень; N — количество точек данных или фактов в случае нейронной сети; Р— количество коэффициентов регрессии или (в случае нейронной сети) весов связей; R — некорректированную множественную корреляцию; RC — скорректированную корреляцию. Хотя эта формула строго приложима только к линейной множественной регрессии (для которой, собственно, и разрабатывалась), она неплохо работает с нейронными сетями и может быть использована для того, чтобы оценить, какая часть эффективности системы обусловлена «вредной» подгонкой на данном образце. Эта формула описывает связь между размером выборки, количеством параметров и снижением эффективности результатов. Статистическая коррекция, рассчитываемая по данной формуле, будет использована в главе о входах систем на нейронных сетях.

<< | >>
Источник: Джеффри Оуэн Кац, Донна Л. МакКормик . Энциклопедия торговых стратегий / Пер, с англ. — М.: Альпина Паблишер. — 400 с. . 2002

Еще по теме ОПТИМИЗАЦИЯ И ПОДГОНКА ПОД ИСТОРИЧЕСКИЕ ДАННЫЕ:

  1. Исторические данные, касающиеся системы коллективной ответственности
  2. Мониторинги подгонка вашего территориального плана
  3. Вопр.15.«СТАРАЯ ИСТОРИЧЕСКАЯ» и «НОВАЯ ИСТОРИЧЕСКАЯ» ШКОЛЫ ГЕРМАНИИ.
  4. 2. Метод Исторического Моделирования (историческая волатиль-ность)
  5. 4. Оптимизация налогов организациями в рамках корпоративного налогового менеджмента 4.1. Способы оптимизации налогов
  6. 6. Оптимизация налогов в практике современной России 6.1. Способы оптимизации налога на прибыль организации
  7. Модели оценки и оптимизации параметров налоговой политики. Оптимизация ставок налогов с учетом ошибок измерения налоговой базы
  8. Данные
  9. Данные и информация
  10. 2.1. ИСХОДНЫЕ ДАННЫЕ
  11. Эмпирические данные
  12. 2. Статистические данные
  13. ВЫХОДНЫЕ ДАННЫЕ СИМУЛЯТОРА