<<
>>

КАЧЕСТВО ДАННЫХ

Плохие данные могут привести любой анализ в состояние полного хаоса, дать потенциально убыточные заключения и привести к потере драгоценного времени. Поэтому для проведения тестов требуется применять только лучшие из доступных данных.
Некоторые прогностические системы, например основанные на нейронных сетях, могут быть чрезвычайно чувстви -тельны к нескольким отклонениями, ошибочным данным; в таких случаях необходимость в чистых данных особенно высока. Время, потраченное на поиск и окончательную чистку хороших данных, не будет потеряно.

Ошибки данных принимают много различных форм, и некоторые из них весьма заметны. При торговле в реальном времени порой попадаются тики с откровенно ошибочными, попросту невозможными ценами. В течение секунды индекс S&P 500 может «упасть» с уровня 952,00 до 250,50! Это что — гигантский обвал рынка? Нет: спустя пару секунд в следующем тике индекс опять будет на уровне 952,00 или где-то рядом. Что случилось? Плохой тик — «шумовой выброс» в данных. Такие ошибки, если они не будут обнаружены и исправлены, могут погубить результаты самой лучшей механической торговой модели. Более опасны, хотя чаще встречаются и труднее обнаруживаются, обычные мелкие ошибки в уровнях цен и других показателях, попадающих к трейдеру от поставщиков данных. Лучшие из поставщиков неоднократно проверяют свои данные и сообщают о поправках в случае обнаружения ошибок. Например, почти каждый день Pinnacle Data автоматически сообщает о программных коррекциях ошибок. Многие из этих мелких обычных ошибок не очень опасны для тестирования систем, но заранее этого знать нельзя.

В зависимости от чувствительности испытываемой торговой или прогностической модели и таких факторов, как доступность программ для проверки данных, может иметь смысл проводить различные статистические исследования для поиска подозрительных данных. Для обнаружения этих точек, или выбросов, как их иногда называют статистики, существует ряд методов.

Порой встречаются пропущенные, лишние и несоответ

26

ЧАСТЬ I РАБОЧИЕ ИНСТРУМЕНТЫ

ствующие рыночным реалиям точки данных; их следует находить и корректировать. Как пример проверки данных, в табл. 1-1 и 1-2 приведены случаи обработки данных с помощью программы, ищущей выбросы, пропуски и ошибочные значения.

Табл. 1-1 изображает результат программы, проверявшей данные по непрерывным фьючерсам на индекс S&P 500 (дневные данные от Pinnacle Data Corporation (800-724-4903)). Программа не обнаружила неадекватных цен или объемов в этом наборе данных; не было примеров максимальной цены, меньшей, чем цена закрытия, минимальной, большей, чем цена открытия, отрицательного объема и других ложных данных. Два дня, впрочем, имели подозрительно высокие значения: один — на 10/19/87 (в отчете 871019), а другой — на 10/13/89. Аномальное значение на 10/19/87 не представляет собой ошибки, а связано с волатильностью, вызванной крупным падением рынка; значение на 10/13/89 также не является ошибкой, а связано с так называемым юбилейным эффектом. Поскольку эти два значения не были ошибочными, коррекции не потребовалось. При этом наличие таких значений в данных должно привлечь внимание к тому факту, что на рынке случаются события, когда изменения цены достигают экстремальных пропорций, и система должна быть способна справляться с такими случаями. Все значения в табл. 1-1 стандартизованы, т.е. вычислены путем деления ценового интервала данного дня на усредненный интервал 20 предыдущих дней. Как часто бывает с рыночными данными, распределение таких стандартизованных показателей более «растянуто», чем можно было бы ожидать при нормальном распределении, но, тем не менее, статистически события 10/19/87 и 10/13/89 — исключения. Во всех остальных случаях распределение давало упорядоченную картину: стандартизованные данные изменялись от 0 до 7 и лишь в отдельных случаях превышали 10.

Утилита также пометила 5 дней, как имеющие сильные отклонения цены закрытия. Как и ценовой диапазон дня, отклонение измерялось в виде распределения значений, с использованием стандартизованного соотношения цен закрытия.

В данном случае стандартизованное соотношение вычислялось путем деления абсолютного значения разности цены закрытия и предшествующей цены на среднее от 20 предыдущих таких разностей.

При исключении 5 дней с наибольшими отклонениями наблюдается подобное растянутое распределение изменений цен закрытия от 0 до 7 стандартизованных единиц. Значения, близкие к отклонению, равному 8, отмечались три раза, а значения 10 — только два раза. Рассмотрение данных торговых дней показывает, что в них имела место аномальная активность рынка, а не ошибка. Неудивительно, что два из пяти помеченных дней — те же самые, что выделялись при рассмотрении величины дневного диапазона цен. В конце концов программа не обнаружила пропущенных дней, данных, приходящихся на нерабочие дни, а также дан-

ГЛАВА 1 ДАННЫЕ

27

Таблица 1—1. Результаты программы по проверке данных непрерывных фьючерсов на S&P 500 от Pinnacle

Проверяемый файл данных: /data/sp.lng Число полей :7 Значения данных: от 830103 до 980521 Общее количество дней: 4014

Дни с нелогичными ценами или объемами

Дата Открытие Макс Мин Закрытие Объем ОткрИнтер

Число=0

Дни с исключительными максимальными/минимальными параметрами Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение 871019 424.400 429.400 358.400 361.900 162022 172178 10 891013 496.100 497.550 466.950 466.950 62514 125604 10 Число=2 Распределение значений Значение Количество 1 3838 2 128 3 11 4 6 5 5 6 1 7 0 8 0 9 0 10 2 Дни с отклонениями цены закрытия Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение 860911 413.450 413.450 401.550 402.350 151300 120864 8 871019 424.400 429.400 358.400 361.900 162022 172178 10 891013 496.100 497.550 466.950 466.950 62514 125604 10 911115 507.450 507.450 488.250 492.750 65533 151861 8 971027 960.400 966.300 896.400 896.400 85146 201015 8 Число=5 Распределение отклонений

Относительное отклонение Количество

1 3439

2 352

3 122

4 48

5 16

6 9

7 0

8 3

9 0

10 2

Дни с повторяющимися или перепутанными датами

Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение

Число=0

Пропавшие данные или данные, приходящиеся на выходные

Дата Ошибка

Число=0

28

ЧАСТЬ I РАБОЧИЕ ИНСТРУМЕНТЫ

Таблица 1—2. Результаты программы по проверке данных постоянных контрактов AAPL

Проверяемый файл данных: ../techstks/aapl.dat Число полей:7 Значения данных: от 970102 до 981106 Общее количество дней: 4 68

Дни с нелогичными ценами или объемами

Дата Открытие Макс Мин Закрытие Объем ОткрИнтер

981019 0.000* 38.063 35.875 37.500 4248000 О

981030 36.500 36.500* 36.250 37.125 2836100 О

Число=2

Дни с исключительными максимальными/минимальными параметрами

Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение

980106 15.938 20.000 14.750 18.938 16191000 0 7

Число=1

Распределение значений

Значение Количество

1 407

2 29

3 6

4 1

5 1

6 0

7 1

8 0

9 0

10 0

Дни с отклонениями цены закрытия

Дата 970806 980102 980106

Число=3

Открытие

25.250 13.625 15.938

Макс

27.750 16.250 20.000

Мин

25.000 13.500 14.750

Закрытие

26.313 16.250 18.938

Объем ОткрИнтер Значение

37430000 0 10

6411700 0 10

16191000 0 7

Распределение отклонений

Относительное отклонение 1 2 3 4 5 6

7 8 9

10

Количество

380

40

12

5

2

3

1

0 0

2

Данные с повторяющимися или перепутанными датами

Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение

Число=О

Даты пропавших данных или данных, приходящихся на выходные Дата Ошибка 970217 Пропущен 970328 Пропущен 970526 Пропущен 970704 Пропущен 970901 Пропущен 971127 Пропущен 971225 Пропущен 980101 Пропущен 980119 Пропущен 980116 Пропущен 980410 Пропущен 980525 Пропущен 980703 Пропущен 980907 Пропущен Число=14

ГЛАВА 1 ДАННЫЕ

29

ных с повторными или перепутанными датами.

Единственные проблемные моменты являются следствием аномалии рынка, а не ошибок. В общем набор данных по S&P можно считать чрезвычайно чистым, что и неудивительно, зная о высокой репутации поставщика — Pinnacle Data Corporation.

Как пример низкого качества данных рассмотрим последовательность котировок компании Apple Computer (AAPL), полученных авторами от одного знакомого. Результаты проверки приведены в табл. 1-2.

В отличие от предыдущей выборки, здесь данные за два дня были помечены как имеющие необъяснимые логические ошибки. В одном случае цена открытия равнялась нулю и была ниже минимальной цены. В другом случае обнаружилась аномальная величина дневного диапазона цен (что может быть как ошибкой, так и последствием аномальной торговли). В нескольких случаях отмечалось сильное отклонение цены закрытия, возможно ввиду нескорректированных дроблений акций. Повторяющихся или перепутанных дат не обнаружено, но немало дней было пропущено. В данном случае пропущенные точки соответствуют праздникам и, следовательно, просто указывают на разный подход к работе с данными; мы обычно по ряду причин заполняем праздничные дни данными предыдущего дня. При том что последовательность включает котировки только с 1/2/97 по 11/6/98 (котировки S&P 500 — с 1/3/83 по 5/21/98), обнаружение ряда серьезных ошибок с помощью довольно простой процедуры не может не настораживать.

Суть в том, что на этих примерах показана важность приобретения качественных данных от поставщика, имеющего хорошую репутацию и ведущего серьезную работу. Это сэкономит время, обеспечит надежные, чистые данные для разработки и тестирования систем и для торговли в дальнейшем. Более глубокий обзор проблем качества данных, в том числе и то, как, собственно, создаются рыночные котировки, как их передают и хранят, можно найти у Джурика (Jurik, 1999).

<< | >>
Источник: Джеффри Оуэн Кац, Донна Л. МакКормик . Энциклопедия торговых стратегий / Пер, с англ. — М.: Альпина Паблишер. — 400 с. . 2002

Еще по теме КАЧЕСТВО ДАННЫХ:

  1. 4.12.3. Контроль качества собираемых данных
  2. Сбор данных и отчет о затратах, связанных с качеством
  3. РЕЛЯЦИОННЫЕ БАЗЫ ДАННЫХ. МОДЕЛЬ ДАННЫХ
  4. Понятие и значение качества. Философия качества. История менеджмента качества
  5. Содержание и цели первых шагов отдела управления качеством по предварительному анализу затрат, связанных с качеством
  6. С. В. Пономарев, С. В. Мищенко, Я. Белобрагин, В. А. Самородов, Б. И. Герасимов, А. В. Трофимов, А. Пахомова, О. С. Пономарева.. Управление качеством продукции. Инструменты и методы менеджмента качества: учебное пособие, 2005
  7. Отечественные модели для обеспечения качества (управления качеством) продукции
  8. Организация работ межфункциональных команд по улучшению качества и кружков качества в рамках СМК
  9. Управление качеством продукции: понятие, предмет, политика в области качества, цели и задачи
  10. ПОНЯТИЕ УПРАВЛЕНИЯ КАЧЕСТВОМ. ТРЕБОВАНИЯ И ПРОЦЕДУРЫ СИСТЕМЫУПРАВЛЕНИЯ КАЧЕСТВОМ
  11. Эволюция понятия качества и управления качеством продукции
  12. Качество и значение его повышения, «петля качества»
  13. ТЕМА 2. Стандартизация и сертификация в системе управления качеством. Всеобщий менеджмент качества. (Три)
  14. Методы измерения качества, конкурентоспособность, стратегия качества
  15. 4. СТАТИСТИКА КАЧЕСТВА ПРОДУКЦИИ И КАЧЕСТВА РАБОТЫ
  16. Понятие «качество продукции». Показатели качества
  17. 3.3. Внешний контроль качества. Требования к контролю качества со стороны федерального органа государственного регулирования аудиторской деятельности
  18. 4.13. Анализ данных
  19. 4.13.1. Преобразование данных