Могут ли машины научиться предугадывать конфликты?

Могут ли машины научиться предугадывать конфликты?
JayaDigital

Могут ли машины научиться предугадывать конфликты?

За последние несколько десятилетий ООН неоднократно призывала к созданию точной и эффективной системы для раннего обнаружения зарождающихся конфликтов. И даже относительно недавно, в 2011 году, генеральный секретарь  Пан Ги Мун и Совет Безопасности ООН подчеркнули данную необходимость в своем отчете «Превентивная дипломатия: Достижение результатов». Президент Совета Безопасности также заявил «ключевой компонент… функциональной стратегии по предотвращению конфликтов обязательно включает механизмы раннего оповещения».  Т.е., нужда во всесторонней системе раннего оповещения, анализирующей и упорядочивающей данные о динамике социальных и военных конфликтов, давно уже назрела.
Но созданию такой системы препятствует ряд проблем, первая из которых весьма очевидна: необходим метод для сбора и классификации информации, из которой затем можно будет делать соответствующие выводы. Часто ( но не всегда) входящая информация имеет крайне большие объемы, что накладывает дополнительную нагрузку на международные организации (МО) и  международные неправительственные организации (МНО). Также, данные часто собираются таким образом, который исключает простые методы передачи в другую систему. Организации находят процесс очистки, анализа и обработки информации слишком дорогостоящим, тем самым ограничивая доступные объемы данных.
Одним из способов преодоления этих ограничений является создание инструментов для автоматизации обработки и анализа данных. Области машинного обучения и науки о данных могут значительно помочь в разработке таких инструментов. Наука о данных – это мультидисциплинарная область, объединяющая подходы математики, статистики, информатики, моделирования и визуализации данных, графического дизайна и даже хакерства, и их практических применений. Машинное обучение – обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться, т.е. совершать действия помимо тех, на которые они строго запрограммированы. Машинное обучение обширно используется частными организациями для задач наподобие обнаружения подделок и мошенничества, оптимизации рекламных кампаний и анализа отзывов пользователей.
Автоматизированная система раннего оповещения может помочь МО и МНО во многих отношениях. Например, такая система может собрать базу свидетельств, которая позволит укрепить политическую позицию, необходимую для предотвращения или снижения негативных эффектов масштабных конфликтов. В случае с прогнозированием конфликтов, организации смогут использовать полученную и упорядоченную информацию для улучшения планирования и разработки неагрессивного вмешательства, которое поможет снизить напряжение в области, чреватой зарождением конфликта.
Но при всем при этом существует относительно мало попыток разработки инструментов  для раннего оповещения о конфликтах на основе открытого программного обеспечения. Существующие усилия по использованию статистического прогнозирования обычно а) засекречены, б) проприетарны и очень дороги или в) рудиментарны, часто использующие только ограниченный набор данных об уже произошедших конфликтах. Засекреченные системы могут использоваться МО и МНО только при специальном запросе, в котором вполне может быть отказано. А стоимость проприетарных систем часто бывает непосильна для МО и особенно для МНО.
Международный институт по изучению проблем мира в рамках проекта Data Lab рассмотрел различные применения науки о данных в области исследований на темы мира, безопасности и предотвращения конфликтов. Одной из областей данного проекта было применение машинного обучения специально для предотвращения конфликтов и раннего оповещения.

Первый этап исследования фокусировался на двух основных аспектах: осуществимости и преимуществах.
Во-первых: имеются ли необходимые технологии для создания подобной системы? Может ли такая система быть автоматизирована, и как в этом случае будет выглядеть рабочий процесс? Возможно ли интегрировать различные типы данных в систему?
Во-вторых: Улучшит ли машинное обучение имеющийся потенциал прогнозирования, сверх того, что уже возможен благодаря накопленному опыту и данным?
Первые результаты вышли весьма многообещающими. Был разработан фреймворк, который собирал информацию с ряда различных источников на субнациональном уровне, и прогнозировал возможные вспышки насилия. Выбор субнационального масштаба был очень важным шагом. Достаточно просто определить высокую степень вероятности конфликта, скажем, в Демократической Республике Конго или Сомали, так как эти страны совсем недавно продемонстрировали очень высокий уровень насилия. Гораздо сложнее, и, потенциально, гораздо полезней иметь возможность указать конкретные области в стране, от которых следует ожидать неприятностей.

Также было обнаружено, что добавление обучаемых алгоритмов улучшило точность прогнозов. Одной из проблем с прогнозированием вспышек насилия было то, что такие события относительно редки по сопоставлению с основным блоком данных. Из-за этого итоговая точность, как правило, остается неизменной, вне зависимости от выбранного алгоритма или предоставляемых дополнительных данных.
Используя только самые основные данные (информацию о том, были ли вспышки насилия в данном округе в прошлом), представленный алгоритм смог достичь достаточно высокого уровня точности. Практически все ошибки заключались в «излишней осторожности» алгоритма, который прогнозировал конфликты там, где их впоследствии не произошло. Т. е. алгоритм склоняется к ошибкам первого рода, нежели второго рода.
Использования полных данных1 вместо основных предоставило скромный, но очень обещающий прирост точности на 10-30%. Хотя это и не выглядит особым достижением, тут нужно учитывать, что данные выбирались в первую очередь по критерию простоты интеграции в тестовый алгоритм. Машинное обучение – это итерактивный, повторяемый подход, и следующие повторения будут сосредоточены на выборе оптимальных вводных данных.
В качестве финальной проверки в разработанные алгоритмы загрузили данные за 2012 год, которые держали отдельно от остальных тестовых данных. Затем полученный результат был отображен в графической форме и сравнен с актуальными событиями. На полученных изображениях хорошо видна географическая точность алгоритмов. Возможно, самым обещающим фактором является то, что хотя алгоритмы богаты на ошибки первого рода, эти ошибки не делаются произвольно. Все неправильные прогнозы все равно располагаются рядом с областями, где произошла вспышка насилия.
Итого, первый этап исследования прошел успешно, и может стать первым шагом на пути к системе раннего оповещения для МО и МНО. Но, конечно, нужно учитывать, что эта пробная модель еще очень и очень далека от рабочей системы.
1 Полные данные включали: индекс напряженности, частоту затоплений и засух, процент детей возрастом меньше пяти лет и весом меньше стандартного, коэффициент детской смертности, изменения в ВВП и населения за текущий и два предыдущих года, векторные и точечные GIS-данные (природные ресурсы – нефть, алмазы  –  и этнические характеристики населения), а так же национальные и субнациональные правительственные данные.
 
Chris Perry, Senior Policy Analyst at the International Peace Institute
ПереведеноJaya Digital