Сотрудники Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ помогли нидерландской полиции создать компьютерную программу, способную вычислять педофилов в интернете и даже определять степень их потенциальной опасности.

Как сообщает пресс-служба НИУ ВШЭ, сейчас отчеты полицейских, составленные в ходе патрулирования, и другая информация вносится в базы данных и хранится в огромных неструктурированных массивах. Российские математики совместно с экспертами полиции Амстердама и учеными Левенского католического университета (Бельгия) разработали систему анализа больших коллекций текстов и автоматического извлечения из них информации, важной для следствия.

Это один из четырех проектов, реализованных в ходе российско-бельгийско-голландского сотрудничества. Совместная работа началась в 2010 году, когда ученый Левенского университета Йонас Пульманс пригласил Сергея Кузнецова и его коллег поучаствовать в проектах по анализу криминальной обстановки в Амстердаме.

"Мы могли предложить программные и методологические средства обработки данных, основанные на решетках формальных понятий. Йонас Пульманс только начинал заниматься этой темой, а мы уже имели значительный опыт", - говорит Кузнецов, напоминая, что этот метод анализа позволяет визуализировать объектно-признаковые зависимости и широко применяется в информатике, в частности в компьютерной лингвистике.

Эта система, в частности, применяется в разработанных НИУ ВШЭ и Левенским университетом программах борьбы с домашним насилием, торговлей людьми, терроризмом и выявлением педофилов для полиции Амстердама.

Ученым пришлось работать на стыке классической компьютерной лингвистики и машинного обучения, классической задачи построения онтологий и оригинальной задачи выявления знаний в конкретной прикладной области, отмечает участник проекта Алексей Незнанов.

Так, для антипедофильской программы было важно выявить признаки того, что какой-то конкретный разговор в чате происходит между педофилом и его жертвой, и отличить его от всех других разговоров. Ученым пришлось отобрать все возможные подозрительные слова и словосочетания, в том числе варианты сокращенного написания слов, слов с искажениями и ошибками, использованием цифр вместо слогов и букв. Как отмечается, все разработанные программы успешно прошли тестирование и используются амстердамской полицией.