<<
>>

Построение скоринговых моделей

Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей (от нескольких тысяч до сотен тысяч - что не проблема для отрасли, обслуживающей десятки миллионов клиентов).

Для каждого заявителя из выборки извлекается полная информация из анкеты-заявления и информация из его кредитной истории за фиксированный период времени (обычно 12, 18 или 24 мес.). Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли клиент "хорошим" или "плохим". Чаще всего "плохим" считается клиент, не выплативший по кредиту 3 месяца подряд. Всегда оказывается некоторое число клиентов, которых нельзя отнести ни к "хорошим", ни к "плохим", поскольку

они либо недостаточно давно получили кредит (прошло слишком мало времени), либо их кредитная история "неясна" (например, были задержки по 3 месяца, но не подряд). Как правило, такие "промежуточные" клиенты исключаются из выборки.

Эмпирические требования к базе данных, используемых для построения скоринговой модели:

размер выборки - не менее 1500 всего, не менее 500 плохих;

четкое определение критерия "плохой"/"хороший". Далеко не всегда ясно, на каком этапе кредитной истории, по какому признаку и на каком уровне разделять "плохих" и "хороших";

четкое определение временного отрезка - периода жизни продукта (зависит от самого продукта и может меняться от месяца - мобильный телефон до десятилетий - ипотека);

стабильность состава клиентской группы - демография, миграции, сохранение привычек потребления;

неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий.

При построении кредитных моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления (выдачей кредита) и классификацией "плохой"/"хороший".

Анализ показывает, что процент дефолта как функция длительности нахождения клиента с организацией поначалу растет и только через 12 месяцев (кредитные карты) и даже более (разовые займы) начинает стабилизироваться. Таким образом, меньший временной горизонт приводит к недооценке и не учитывает полностью всех характеристик, предсказывающих дефолт. С другой стороны, временной горизонт более двух лет оставляет модель подверженной к сдвигам в составе клиентской группы в течение этого времени, т.к. как состав клиентов в выборке в начале временного горизонта может оказаться существенно отличным от состава клиентов, приходящих в настоящее время. Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка). Это и диктует выбор длины временного отрезка - временного горизонта при моделировании.

Другим чрезвычайно важным и дискутируемым вопросом остается соотношение "хороших" и "плохих" в выборке. Должно ли оно отражать реальное соотношение их в составе населения или их должно быть равное число (такое соотношение резко облегчает построение модели с математической точки зрения)?

Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются ответы на вопросы анкеты-заявления и параметры (или данные), получаемые в результате проверок из различных организаций (например, полиции, судов, местных советов, кредитных бюро и т.д.), а выходными характеристиками (ответом) - искомым результатом - является разделение клиентов на "хороших" и плохих" согласно имеющимся кредитным историям, сопоставленным по этим входным характеристикам.

Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) заемщика для получения искомого числового значения, которое отражает, с какой вероятностью у заемщика по отношению к другим заемщикам произойдет некое событие или он совершит определенное действие (аспект "по отношению" в определении очень важен).

Кредитная рейтинговая таблица, например, не показывает, какой уровень риска следует ожидать (скажем, какой процент кредитов данного типа, вероятно, не будет возвращен); вместо этого она показывает, как данный заем, скорее всего, будет вести себя по отношению к другим займам. Например, ожидается ли, что процент невозвратов или дефолтов для кредитов с данным набором атрибутов будет больше или меньше, чем у кредитов с другим набором.

Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров.

Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.

Самый часто используемый метод построения рейтинговых таблиц

Чаще всего для построения рейтинговых таблиц используется статистический метод логистической регрессии. Однако для объяснения этого подхода стоит начать с простой линейной регрессии, а потом перейти к логистической - как особого случая линейной.

В простейшем случае линейная регрессия пытается найти линейную связь между двумя переменными: X и К Переменная Y, которую пытаются спрогнозировать, определяется как зависимая (поскольку она зависит от X). Переменная X является объясняющей, поскольку она "объясняет", почему У меняется от одного индивидуума к другому.

С помощью линейной регрессии пытаются выяснить следующее: если меняется X, то насколько

вероятно, что в результате этого также изменится и К Для того чтобы это сделать, необходим набор данных, в котором можно наблюдать множество пар X и соответствующих ему К Когда они будут отложены на плоскости XY и будет получено некое множество, может оказаться, что оно ложится на некую прямую, т.е.

есть определенная связь между X и Y, которую можно попытаться аппроксимировать с помощью уравнения:

Y = B_0 + B_1 x X_1

где

B0 - это величина Y, когда X = 0;

B1 - наклон прямой линии.

Эти В. являются коэффициентами регрессии. На практике, скорее всего, окажется несколько объясняющих переменных:

Y = B_0 + B_1 x X_1 + B_2 x X_2 + ... + B_n x X_n.

Логистическая регрессия в сравнении с линейной регрессией

При использовании скоринга, как правило, зависимая переменная принимает значения в очень небольшом диапазоне. Чаще всего работают с бинарной переменной, т.е. такой, которая принимает только два целых значения: так, например, по кредиту дефолт или произошел, или нет; клиент, получивший каталог по почте или ответил, или нет. Как правило, в таком случае дефолту приписывают значение "1", а выплаченному кредиту - значение "0".

Модель в итоге должна оценить вероятность дефолта по кредиту (или ответа клиента на каталог).

И хотя линейная модель иногда используется для расчета рейтинговой таблицы, логистическая регрессия оказывается много удобнее, поскольку она специально построена для случаев, когда зависимая переменная - бинарная (т.е. принимает, как мы уже говорили, только два значения).

Линейная регрессия может давать значения вероятности и меньше нуля, и больше единицы, что лишено смысла. Логистическая модель избегает этого, поскольку работает не с самим бинарным значением зависимой переменной, а с вероятностью или шансами (odds), что это значение действительно реализуется. Логарифм отношения вероятности реализации к вероятности нереализации называют логитом (logit), который может принимать любые значения, как отрицательные, так и положительные. Поэтому для логитов вполне можно использовать модель линейной регрессии (отсюда и название "логистическая").

В модели логистической регрессии объясняющие переменные, умноженные на свои коэффициенты, предполагаются линейными по отношению не к Y, как в линейной регрессии, а к логиту - натуральному логарифму отношения шансов:

ln (p/(1 - p)) = B_0 + B_1 x X_1 + B_2 x B_2 + X_2 + ...

+ B_n x X_n, где

р              - вероятность того, что V произойдет;

р/(1 - р)              - отношение шансов.

Шансы и соотношение шансов

Соотношение шансов позволяет сравнивать уровни рисков для разных кредитов. Так, если для одного р1/(1 - p_1) = 0,11, а для другого р2/(1 - р2) = 0,052, то их отношение составит 0,46, т.е. риск невозврата по одному кредиту составляет чуть меньше половины риска невозврата по второму кредиту.

Самые важные выводы из этого следующие: необходимо получать сами шансы и их отношения для разных кредитов из логистических регрессий, т.к. только так удается прямо сопоставить и учесть как влияние отдельных характеристик на уровень риска, так и относительный риск одного кредита по отношению к другому. Попытки обойтись одной рейтинговой таблицей не позволяют оценить рисковость одного кредита относительно другого в силу возможного влияния характеристик, которые были учтены для одного и не учтены для другого.

Вычисление относительных весов отдельных характеристик рейтинговой таблицы

Построив и оценив логистическую модель, можно подставить величины X для любого заявителя или кредита и вычислить счет (score), используя уравнение:

Однако этот счет представлен в шкале натуральных логарифмов, что неудобно для интерпретации. Поэтому счет переводится в линейную шкалу, где определенное число баллов выбирается так, чтобы это число обеспечивало удвоение шансов того, что определенное событие произойдет. Для этого необходимо умножить счет на множитель, равный числу баллов, которое должно представлять удвоение шансов, а затем поделить на 1n(2):

счет по линейной шкале = (В 1 х Х 1 + ... + Вп х Хп) х (20/1п(2)),

если желаемое число баллов, необходимое для удвоения шансов, равно 20.

Иначе, если надо узнать, сколько именно баллов дает каждая характеристика, можно умножить каждое В_1 на (20/(1n(2)), а затем умножить на значение параметра X_1.

Использование КС-статистики для оценки полученной рейтинговой таблицы

Скоринговая таблица конструируется так, чтобы ранжировать различные кредиты в терминах шансов по отношению к определенному событию.

Необходимо, чтобы такая скоринговая таблица приписывала кредитам, с которыми происходит некое событие, и кредитам, с которыми оно не происходит, различные счета.

Например, кредитная скоринговая таблица (скоринговая карта) приписывает меньший счет тем кредитам, которые впоследствии испытают серьезные трудности с возвратом или перейдут в дефолт, так что в целом группа плохих кредитов должна иметь меньшие счета, чем группа хороших кредитов.

Для определения качества полученной таблицы строятся графики - кривые распределения процентов хороших и процентов плохих кредитов (от соответствующего общего числа хороших и плохих) в зависимости от величины счета, и качество скоринговой таблицы (карты) характеризуется тем, насколько эти две кривые разделяются.

Именно для численного определения качества разделения и используется статистика Колмогорова-Смирнова (K-S statistics), которая дает числовую меру этого разделения. Статистика КС вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" и кумулятивным процентом распределения "плохих". Теоретически статистика КС может принимать значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.

Примерная градация выглядит так:

меньше 20 - наверное, скоринговая таблица непригодна к применению;

20-40 - неплохая таблица;

41-50 - хорошая таблица;

51-60 - очень хорошая таблица; />61-75 - поразительно хорошая таблица;

больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то неправильно* (128).

Следует отметить, что качество скоринговых моделей следует постоянно проверять и мониторинг является обязательной процедурой в процессе эксплуатации. Со временем могут меняться как экономические условия, так и поведенческие особенности заемщиков, и только своевременная подстройка или даже замена скоринговых моделей обеспечат эффективное управление кредитными рисками.

<< | >>
Источник:   Быстров Л.В., Воронин А.С. и др. Пластиковые карты (5-е изд., перераб. и доп.).. 2005

Еще по теме Построение скоринговых моделей:

  1. 7.3.3. Построение моделей с условной гетероскедастичностью
  2. Процесс построения имитационной модели
  3. Построение моделей IDEFZ
  4. 7.3. Разработка, построение и исследование моделей
  5. 6.4.3. Построение и тестирование модели APT
  6. Построение моделей
  7. Построение модели Swim-lane
  8. Построение «объясняющих» моделей
  9. Процесс построения ДОЕГЗ-модели
  10. В. ПОСТРОЕНИЕ ЭКОНОМЕТРИЧЕСКОЙ МОДЕЛИ
  11. 5.4.1. Построение однофакторной рыночной модели
  12. 3.2. Построение модели изучаемой системы
  13. 7.1.4. Построение модели авторегрессии и скользящего среднего
  14. 3.10.1. Принципы построения многофакторной модели
  15. Построение /ОЕЯО-модели
  16. Методы построения прикладных моделей
  17. Метод построения факторно-стоимостных математических моделей
  18. ПОСТРОЕНИЕ МОДЕЛЕЙ БИЗНЕС-ПРОЦЕССА
  19. Предпосылки построения перспективной модели экономики