Социальный состав депутатов Бундестага 20-го созыва неоднороден и может быть представлен в виде групп депутатов с близкими характеристиками, такими как пол, возраст и т.д. Для выделения таких групп используется кластерный анализ.
Кластеры депутатов выделялись в пространстве следующих признаков:
- непрерывные переменные: возраст;
- категориальные множественные: происхождение (немец, мигрант первого поколения, мигрант второго и третьего поколения), характер избрания (от земли рождения, места получения образования, совпадения места земли рождения и получения образования), тип супружеских отношений, религиозная принадлежность;
- категориальные бинарные: пол, избирательный округ (Восточная или Западная Германия), наличие учёной степени, молодёжная партийная организация, первый срок в Бундестаге, прямой мандат или мандат по списку, наличие детей, высокий пост в парламенте, наличие образования по различным специальностям (всего 20 видов).
Поскольку данные имеют смешанный характер, кластеризация осуществлялась с помощью методов k-prototypes (с различными подходами к выбору начального положения кластеров) и DBSCAN, дополненного последующим распределением изолятов на основе k-ближайших соседей. Из-за того, что k-prototypes требует изначально задать необходимое число кластеров, это число подбиралось на основе метода локтя, а также из соображений того, насколько кластеризация будет устойчивой и, соответственно, интерпретируемой в различных итерациях.
Сама кластеризация проводилась в многомерном пространстве, но для удобства визуализации наблюдения размещались в пространстве сниженной размерности. Ниже представлена визуализация трёх кластеров с помощью метода k-prototypes (инициализация начальных положений центроидов с помощью метода Cao) без удаления изолятов в пространстве, полученном с использованием метода снижения размерности UMAP (Uniform Manifold Approximation and Projection).
Визуализация результатов работы алгоритма k-prototypes в пространстве сниженной размерности при помощи метода UMAP
Как видно из диаграммы рассеяния, кластеры достаточно сильно перекрывают друг друга, а метрики, а качество кластеризации, оценённое по соответствующим метрикам (коэффициент силуэта кластера, индекс Дэвиса-Болдуина, индекс Калинского-Харабаша), невысоко. Кроме того, не все признаки вносят одинаковый вклад в кластеризацию. Как показано ниже на диаграмме для трёх кластеров, полученной с помощью алгоритма случайного леса, наиболее важными признаками для распределения наблюдений по кластерам оказываются характер избрания, прямой мандат, тип супружеских отношений, религиозная принадлежность, молодёжная партийная организация, наличие детей, первый срок в Бундестаге и – с большим отрывом – возраст депутата.
Важность признаков в кластеризации: результаты работы алгоритма случайного леса
Действительно, при интерпретации получаемых кластеров в глаза бросаются сильные различия только по некоторым характеристикам:
- в первый кластер попадают в среднем более молодые депутаты (средний год рождения – 1987), у которых, как правило нет детей (это может объясняться в том числе различиями в возрасте), которые впервые избрались в парламент, состояли в молодёжной партийной организации, более свободны в выборе вероисповедания и реже сообщают о своей религиозности, как правило не состоят в браке, избрались по списку и от земли взросления и образования;
- во второй кластер попадают более возрастные депутаты (средний год рождения – 1963), у которых есть дети, которые избрались в парламент уже неоднократно, в большинстве своём не состояли в молодёжной партийной организации, либо не сообщают о своей религиозной принадлежности, либо являются протестантами, состоят в браке, избрались по списку и от земли взросления и образования;
- в третий кластер попадают депутаты среднего возраста (средний год рождения – 1974), у которых есть дети, которые уже избрались в парламент (и таких даже больше, чем во втором кластере), состояли в молодёжной партийной организации, значительно реже не сообщают о своей религиозной принадлежности, как правило являются католиками (около 45 %), состоят в браке, избрались по прямому мандату в 64 % случаев и от земли взросления и образования.
Различные способы улучшения качества кластеризации – удаление изолятов, удаление менее важных признаков, удаление возраста из набора признаков, учёт скоррелированности переменных через снижение размерности данных перед кластеризацией, использование DBSCAN – значимо не улучшают качество кластеризации, а иногда (как в случае с DBSCAN) и вовсе снижают это качество.
Таким образом, можно сделать вывод, что чёткой кластерной структуры в социальном составе депутатов не прослеживается. Это означает, что депутатский корпус достаточно разнообразен по своим социальным характеристикам, чтобы выделялись достаточно изолированные группы депутатов с похожими признаками.
Источники:
Хорольская М.В. База данных немецких политических элит. ИМЭМО РАН. URL: https://www.imemo.ru/index. php?page_id=2294
Финансирование: Исследование выполнено за счет гранта Российского научного фонда No 23-78-01022 (https://rscf.ru/project/23-78-01022/).
Funding. The research was supported by the Russian Science Foundation grant No. 23-78-01022 (https://rscf.ru/en/project/23-78-01022/).
Каташевич Егор Дмитриевич, ст. лаб.-исс. ОЕПИ ИМЭМО РАН
Нет комментариев