Июл 17

История криминальных событий. 17 июля

17 июля 1793 года убийца известного якобинца Марата 25-летняя Шарлотта Корде д’Армон предстала перед судом. 13 июля Корде, под предлогом передачи важных сведений о контрреволюционном заговоре, проникла в квартиру больного Марата и убила его ударом кинжала в сердце. Затем она добровольно сдалась властям. На суде Шарлотта Корде держала себя с самообладанием и большим достоинством. «Я убила одного злодея, – заявила она, – чтобы спасти сотни тысяч невинных душ». Трибунал приговорил «нераскаявшуюся фанатичку» к смертной казни, и в тот же вечер она была гильотинирована. Когда осуждённая всходила на эшафот, из толпы раздался возглас: «Смотрите, она величием превосходит Брута!» Эти слова произнёс Адам Люкс, депутат города Майнца, – роковые слова, стоившие депутату потери головы на той же гильотине.

Игорь Джохадзде. Криминальная хроника человечества.

17 июля 1947 года – предполагаемая дата смерти Рауля Валленберга в Лубянской тюрьме. Было официально объявлено, что в этот день «заключённый Валленберг умер в своей камере от сердечного приступа». В 1989 году следственное дело передали Швеции, но установить в точности, при каких обстоятельствах погиб Валленберг и почему советская разведка решила его устранить, не удалось. По одной из версий, арестованный в январе 1945 года шведский дипломат, спасший около 20 тысяч евреев от депортации в концентрационные лагеря, был агентом американских спецслужб и готовил в Венгрии прозападный переворот.

Решением Генеральной прокуратуры России Валленберга реабилитировали в 2000 году. Расследование установило, что дипломат был «необоснованно арестован и лишен свободы по политическим мотивам во внесудебном порядке без предъявления обвинения в совершении конкретного преступления». Об обстоятельствах содержания Валленберга в тюрьме и его смерти в заключении прокуратуры не говорится ни слова.

Игорь Джохадзде. Криминальная хроника человечества.

 

17 июля 2014 года в Донецкой области Украины произошла страшная авиационная катастрофа. Пассажирский самолёт «Boeing-777» авиакомпании Malaysia Airlines, который совершал плановый полёт по маршруту Амстердам (Нидерланды) – Куала-Лумпур (Малайзия), потерпел крушение и упал в районе села Грабово, недалеко от города Торез, в районе вооруженного противостояния на востоке Украины. Это произошло вечером – между 17 и 18 часами по московскому времени, когда он исчез с радаров на высоте 10 тысяч метров.

На борту лайнера находилось 298 человек, среди которых было 85 детей и 15 членов экипажа. Все они погибли в результате авиакатастрофы. Большинство пассажиров были гражданами Нидерландов. Согласно данным МЧС РФ, россиян на борту не было.

Обломки самолёта рухнули около села Грабово в Донецкой области, в зоне, находящейся под контролем властей непризнанной Народной Донецкой Республики (ДНР). Поэтому именно ополченцы организовали поиск тел погибших и бортовых самописцев («чёрных ящиков»). В груде искореженного металла лежали десятки тел, которые, как и обломки, были разбросаны на десятки километров. Зона поисковых работ составила более 34 кв. км.

Международное расследование обстоятельств крушения самолёта началось сразу же Национальным бюро по расследованию авиационных происшествий и инцидентов с гражданскими воздушными судами. С 23 июля 2014 года расследование было передано Совету безопасности Нидерландов, содействие расследованию осуществляли эксперты из разных стран, в том числе и из России. В связи с катастрофой воздушное пространство над Украиной было закрыто для полётов гражданской авиации.

Группа специалистов прибыла на место крушения самолета для проведения необходимых экспертиз уже на следующий день, 18 июля. Ополченцы предоставили полный доступ наблюдателям и международным следователям к месту крушения, однако, поскольку украинская сторона не ответила на предложение ДНР о десятикилометровой зоне без открытия огня вокруг места катастрофы, из соображений безопасности следователи и представители ОБСЕ не могли свободно передвигаться по всей территории, где упали обломки.

Тела погибших, вернее тех, кого смогли найти, поездом доставили сначала в Харьков, а затем в Нидерланды, где и проходила процедура опознания (по состоянию на 27 марта 2015 года были опознаны 296 тел погибших). Оба «чёрных ящика» были обнаружены спасателями ДНР и переданы в присутствии наблюдателей ОБСЕ и журналистов представителям Малайзии. Те, в свою очередь, для расшифровки информации с самописцев пригласили британских экспертов лаборатории Фарнборо, где ведутся расследования воздушных происшествий с самолётами НАТО в Европе.

Крушение малазийского лайнера под Донецком сразу же стало вопросом большой политики. Власти в Киеве заявили, что самолёт был сбит ополченцами из зенитно-ракетного комплекса «Бук», всё случившееся – теракт, а украинская армия не совершала действий по поражению воздушных целей в районе происшествия и не имеет к этому никакого отношения. Руководство США и их союзники также придерживаются подобной версии, считая, что самолёт был преднамеренно сбит ополченцами с применением ракеты «земля-воздух», полученной от России. Однако, кроме громких заявлений и голословных обвинений, данная версия ничем не подкреплена.
Власти непризнанной Донецкой Народной Республики в ответ сделали заявление, что не имеют вооружения, способного сбить воздушное судно на такой высоте, и что «Boeing-777» могли сбить как раз украинские военные, ссылаясь на слова очевидцев – местных жителей, которые стали свидетелями трагедии.
Руководство России считает, что ответственность за катастрофу самолёта несёт Украина. Ведь аналогичный случай произошёл в октябре 2001 года, когда самолет Ту-154М авиакомпании «Сибирь», летевший по маршруту Израиль – Новосибирск, был сбит украинской ракетой в ходе учений. Но власть Украины так и не признала свою ошибку, поэтому Министерство обороны России и в этом случае не верит украинским заявлениям о том, что Киев не стрелял по воздушным целям.

Почти сразу после катастрофы Минобороны РФ обнародовало данные радиотехнического контроля, согласно которым рядом с малазийским «Boeing-777» находился самолет ВВС Украины (что подтверждено и реальными свидетелями), и что никакие виды вооружений ВС РФ, включая комплекс «Бук», государственную российско-украинскую границу не пересекали, полетов российских боевых самолётов в этом районе не было, а российские системы ПВО здесь в день авиакатастрофы не работали. В то же время в районе Донецка были развернуты украинские дивизионы с 27 пусковыми установками комплекса «Бук М1», которые способны поразить цели на всем диапазоне высот. И все эти факты подтверждены техническими средствами объективного контроля, которые были предоставлены следователям.
Однако, эта информация не заинтересовала специалистов из Голландии, занимающихся расследованием катастрофы. Вообще избирательность в фактах данного дела типична для западных экспертов. Например, представителей Малайзии, страны, десятки граждан которой погибли на борту самолёта, долгие месяцы отказывались допустить к ведению расследования.
Известно, что самолёт при вылете был полностью технически исправен. Следственными органами рассматривались версии об уничтожении самолёта ракетой «земля-воздух» с земли, а также о возможной атаке с другого самолёта, теракте на борту и аварии по техническим причинам, однако две последних были исключены в результате предварительного расследования. 13 октября 2015 года Совет по безопасности Нидерландов (DSB) опубликовал финальную версию отчёта технического расследования, согласно которому подтвердилась основная версия крушения, что самолёт был сбит ракетой «земля-воздух».

Однако расследование было проведено необъективно, и МИД РФ назвал его предвзятым и исполняющим «политический заказ». Важно также отметить, что крушение пассажирского лайнера стало поводом для усиления международного давления на Россию и введения против неё санкций, а Киевом эта трагедия была использована для оправдания массированного наступления на позиции ополченцев.

Сегодня достоверных данных об ответственности кого-либо за гибель гражданского самолёта нет. США упорно отказываются предоставлять объективные данные контроля своих космических спутников. 

http://www.calend.ru/person/

Posted in 1. Новости | Комментарии к записи История криминальных событий. 17 июля отключены
Июл 16

Искусственный интеллект в области юриспруденции

Статья 2

Первая статья была размещена 15.07.2020. ищите в разделе Научные материалы для использования

 

Введение

Анализ актуальной в настоящее время темы искусственного интеллекта и его применения в области юриспруденции мы начали с обзора инструментов синтаксического и семантического анализа текстов, которые применяются при разработке LegalTech-решений.
В комментариях к предыдущей статье красной нитью проходил очень непростой вопрос: а почему бы не извлекать из текста все имеющиеся в нем смыслы? В чем здесь сложность? Такой вопрос — крайне показателен, поэтому мы решили уделить ему более пристальное внимание и дать максимально развернутый ответ.


Итак, сегодня мы постараемся ответить на ряд, казалось бы, простых вопросов:

  1. Как найти в тексте «все смыслы»? В чем различия в восприятии текста между экспертом в предметной области (юристом) и неспециалистом (разработчиком)?
  2. Как эти различия влияют на разработку соответствующих IT-решений?

В тексте нашей первой статьи мы определили основные задачи, которые необходимо решить на пути к созданию Legal Artificial Intelligence (далее по тексту — «Legal AI»). В качестве одной из ключевых и первостепенных задач мы выделили необходимость обучения машины смысловому понимаю документов на уровне, сравнимым с восприятием профессионального юриста, а равно — создание инструментов процессинга сложных юридических текстов на русском языке.
Мы детально исследовали на практике некоторые из доступных лингвистических инструментов обработки текста, но результаты и выводы, к которым мы пришли, получили неоднозначную оценку и вызвали дискуссию в профессиональном сообществе. Мы получили множество вопросов от специалистов, связанных с практической реализуемостью данных задач и перспектив применения технологий в этом направлении. Среди вопросов и комментариев, на наш взгляд, прослеживается некий пессимизм, отсутствие веры в технологии и их практическую применимость для решения поставленных задач, а также тезис о том, что Legal AI создать невозможно в силу различных причин и наличия трудных «нерешаемых» задач.

Мы не согласны с данной позицией. Текущего уровня развития технологий вполне достаточно, чтобы создать полноценный юридический искусственный интеллект, что и будет сделано в обозримом будущем. Фундаментальные теоретические разработки продвинулись достаточно далеко, чтобы можно было перейти к их практической реализации. Очевидно, что частные проблемы и трудности в данной сфере, тормозящие темпы развития таких продуктов, действительно, существуют. Но данные проблемы решаемы, однако пути решения требуют кропотливой и долгой пошаговой работы, которой многие опасаются.
Многие представители сферы LegalTech, сталкиваясь с трудностями и ограничениями технологий, отказываются от первоначальных концепций и создают довольно успешные пользовательские продукты с ограниченным функционалом. Например, известный сервис DoNotPay, чат-бот, позволяющий обрабатывать однотипные юридические запросы граждан по решению бытовых споров и конфликтов: оспаривать штрафы за неправильную парковку, готовить иски и претензии о компенсации за задержку авиарейсов и поездов, а также требования о страховых выплатах. Данный продукт, безусловно, является в некоторой степени прорывным, но он не решил главную задачу — создание полноценного «автоматизированного юриста», не привязанного к выборке типовых успешных кейсов. Этот недостаток ограничивает в том числе и перспективы развития сервиса. Руководствуясь количественным подходом, разработчики продукта расширяют набор типовых ситуаций, которые могут быть обработаны ботом, но все это упирается в обозначенное ограничение, а значит настанет момент, когда придется либо вернуться к нерешенным проблемам, либо остановить развитие продукта.

Говоря о Legal AI, мы не занимаемся подменой понятий и не пытаемся поставить знак равно между искусственным интеллектом и машинными обучением / нейронными сетями. Для нас принципиально важной является именно автоматизация творческих задач, которые традиционно нельзя решить без участия человека-эксперта.
Поэтому инструменты Legal AI нацелены на замену человека, а не на оптимизацию решения отдельных задач в его деятельности. Глобальная функциональная задача и цель Legal AI — трансформация юридической функции и создание полноценного цифрового эксперта, который способен анализировать данные и генерировать выводы на основе юридической логики, заменив тем самым команду высокоспециализированных юристов. При успешной реализации данных задач общество получит инструмент, способный отвечать на сложные вопросы предметной области, например, «Кто может подписать договор?» или «Какая ответственность может наступить в случае превышения полномочий?».
Помимо этого, Legal AI является инструментом, выходящим за рамки привычного понимания классической юриспруденции, а перспективы его практического применения не ограничиваются анализом рисков и обработкой типичных юридических документов (договоров, исковых заявлений и др.). Любой письменный документ содержит в себе юридически значимые сущности, которые могут быть связаны с теми или иными правовыми последствиями для организации или третьих лиц. Например, с момента поступления и регистрации письма, содержащего обращение гражданина или организации в любой государственный орган, начинает течь срок, предусмотренный законом или иным нормативным актом для его рассмотрения.
Таким образом, область Legal AI охватывается весь документооборот в деятельности любой компании или государственного органа. Один из многочисленных примеров — закупочные процедуры по выбору поставщика товаров/услуг/работ. Каждая из стадий закупочной процедуры (публикация сведений и конкурсной документации, получение заявок, принятие решений, публикация итогов и взаимодействие с участниками конкурсного отбора) предполагает характерные для нее документы, действия и связи между субъектами, которые можно формализовать в виде конечного набора правил, требований и, как следствие, — можно автоматизировать с помощью Legal AI.
Мы считаем, что создание и практическое применение Legal AI в обозначенных областях возможно, но только при полном осознании глубины существующих проблем и правильном подходе к созданию продукта, основанном на необходимости тесного взаимодействия со специалистами предметной области и создания онтологий и графов знаний, воспроизводящих логику юриста-профессионала.

2. Новый подход к созданию продукта

2.1. Построение диалога между экспертами

Взаимодействие команды и правильный подход к созданию конечного продукта является важнейшей составляющей успеха. Мы неоднократно отмечали в качестве оптимального подхода для создания LegalTech-продуктов необходимость тесного взаимодействия:

  • юристов, являющихся носителями глубоких экспертных знаний в предметной области;
  • лингвистов, разрабатывающих методики и инструменты процессинга текста;
  • разработчиков, осуществляющих практическое воплощение продукта.

Однако построение такого взаимодействия сопряжено с рядом сложностей, одной из которых является проблема в коммуникации между разработчиками и юристами, что в результате может привести к несогласованности командной работы и недостижению необходимого результата.
Юрист и разработчик говорят на разных языках и чаще всего не понимают друг друга, поскольку это классическое столкновение противоположных форматов мышления. Мышление разработчика основано на применении дискретной логики, которая проявляется в том числе в подходе, при котором все процессы могут быть алгоритмизированы тем или иным образом. Мышление юриста базируется на противоположных категориях, а именно — высокой степени абстракции, применении неалгоритмизируемых подходов при решении задач. Оба формата мышления заслуживают внимания и являются эффективными в своих областях знаний. Но при столкновении данных форматов в процессе создания LegalTech-решений возникают противоречия еще на первоначальных этапах реализации проекта. Традиционно любой подобный проект начинается с постановки цели, разработки концепции и подготовки ТЗ.
Если цель понимается разработчиком и юристом, как правило, одинаково, то уже при выработке концепции и методологии ее достижения зачастую начинаются существенные противоречия, не позволяющие перейти к написанию ТЗ.
Когда мы говорим о создании продуктов для юридической сферы на основе инновационных технологий, для преодоления таких противоречий необходимо находить баланс и выстраивать эффективную коммуникацию между представителями данных профессий. Для этого необходимо, чтобы и разработчики, и юристы не ограничивались собственными областями знаний, а стремились к пониманию особенностей деятельности друг друга и к поиску оптимальных решений существующих проблем для достижения общей цели. Юристы должны стремиться к пониманию логики разработчиков и принципов работы существующих технологий, а разработчики — к понимаю базовых категорий юриспруденции, ее основ и принципов. При этом, на наш взгляд, большее влияние на сегодняшний день должны оказывать именно юристы, являющиеся носителями экспертных знаний предметной области разрабатываемых продуктов.
Эффективная коммуникация и взаимопонимание будут способствовать осознанию глубины существующих проблем в области LegalTech, которые могут быть решены при помощи метода first principles.

Такой подход — один из лучших способов деконструкции сложных проблем и раскрытия нестандартных возможностей. Его смысл заключается в том, чтобы разбить сложные проблемы на базовые элементы и затем реконструировать их снизу вверх. Это один из лучших способов продвинуться от предсказуемых исходных данных к нелинейным результатам. Такой метод использовался философом Аристотелем, а теперь используется Илоном Маском и Чарльзом Мангером. Он позволяет преодолеть ложные убеждения и неэффективные аналогии, увидев возможности, которые все упускают. «В каждом систематическом изыскании (греч. Methodos), где существуют первые принципы, или причины, или элементы, знание и наука являются результатом познания этих принципов; мы считаем, что познали что-то, только узнав о первичных причинах, первичных первых принципах, вплоть до элементов», — писал Аристотель.
Данный метод отлично подходит и для решения задачи в сфере Legal AI, а именно — необходимо планомерно и пошагово реализовать продукт, продвигаясь от решения простых вопросов к сложным путем тесного взаимодействия между всеми участниками процесса разработки: юристами, разработчиками и лингвистами.

2.2. Структура знаний и восприятие данных

Еще одним аргументом в подтверждение нашего подхода служат различия в восприятии данных специалистом соответствующей предметной области знаний и тем, кто с особенностями данной сферы не знаком. Применительно к юриспруденции данные различия проявляются весьма наглядно.
Например, услышав термин «компания», не погруженный в юриспруденцию человек, вероятно, представит некоторую организацию, которая продает товар, выполняет работы или оказывает услуги.
Юрист, услышав данный термин, подсознательно выстроит для себя следующую картину:

  • есть некоторое юридическое лицо, которое функционирует в определенной области, является коммерческим образованием корпоративного типа;
  • такое юридическое лицо равно имеет акционеров (участников), органы управления (как минимум общее собрание и единоличный исполнительный орган), которые осуществляют собственные полномочия в соответствии с законодательством и уставом;
  • помимо этого компания имеет фирменное наименование, юридический адрес, уставный капитал и др.

Данный список можно продолжать достаточно долго, но и приведенных примеров достаточно для понимания различий в глубине восприятия окружающего мира специалистами различных областей знаний. Применительно к сфере LegalTech, в которой в рамках общего проекта по созданию юридических программных продуктов взаимодействуют юристы и разработчики, различия в понимании предметной области проявляются не только в глубине восприятия, но и во взглядах на одну и ту же проблему. Юристы стремятся понять сложность задачи с точки зрения соответствующей области знаний, а разработчики стремятся понять, каким образом можно описать программный продукт, решающий данную задачу. Такие различия имеют в том числе научное обоснование.
Традиционно в теориях системного анализа информации существующие данные разделяют на иерархию уровней, каждый из которых своими свойствами существенно отличается от предыдущего. Наиболее распространенной моделью является DIKW (англ. data, information, knowledge, wisdom — данные, информация, знания, мудрость), предложенная в 1989 г. Расселом Акоффом (так называемая пирамида Акоффа).

В рамках данной иерархии выделяются:

  1. data (неструктурированные, разрозненные данные);
  2. information (структурированные данные, информация);
  3. knowledge (знания);
  4. wisdom (мудрость).

Перемещение между данными уровнями представляет собой процесс накопления знаний — обрабатывая больший объем данных и информации, субъект получает знания и понимание в рамках соответствующей предметной области. Чем больше знаний, тем на более высокой ступени пирамиды находится субъект. Приведем простой пример перемещения между иерархией знаний внутри профессионального сообщества юристов:

  • стажер и помощник юриста, как правило, работают с информацией на уровнях data и information, обеспечивая ее поиск и первичную обработку;
  • юрист работает на уровне knowledge, обладая устойчивыми и системными знаниями предметной области, сформированным на основе длительной работы с информацией;
  • старший юрист и выше работают на уровне wisdom, обладая накопленным опытом, мудростью и способностью видеть закономерности и взаимосвязи в мельчайших деталях.

Пирамида может быть представлена и в обратной последовательности — от мудрости к неструктурированным данным. Тогда становится очевидной иная закономерность — чем больше опыта и профессиональной мудрости у субъекта, тем меньше данных и информации ему необходимо для анализа ситуации и предоставления вывода. Например, при разработке стратегии защиты интересов клиента в ходе судебного разбирательства старший юрист, как правило, безошибочно определит процессуальную категорию спора и проработает вопросы, которые входят в предмет доказывания по данному делу с учетом процессуального законодательства и сложившейся практики рассмотрения судом аналогичных разбирательств, соберет необходимую доказательную базу, что в совокупности позволит эффективно достичь судебного решения в свою пользу. Менее опытный и квалифицированный специалист, вероятно, либо не выполнит необходимые мероприятия в полном объеме, либо выполнит лишние действия, не влияющие на решение судьи и конечный результат.
Другая не менее важная закономерность взаимосвязанных уровней заключается в том, что не специалист предметной области не сможет подняться выше уровня data (неструктурированные данные). Это вызвано в первую очередь тем, что для классификации данных и выделения из всего массива отдельной, значимой для дела информации требуются специальные познания. Мы уже отмечали ранее, что одна из значимых компетенций юриста — это умение видеть в письменных документах именно существенные юридические факты для поиска возможных решений.
Решить данную задачу лицу, далекому от юриспруденции, с высокой долей вероятности не удастся. Во многом именно в этом и заключается роль юриста. Данные тезисы в том числе ставят под сомнение практическую эффективность существующих на отечественном рынке платформ-агрегаторов общедоступной правовой информации (СпаркКонтр.Фокус и др.), которые позиционируются в качестве инновационных LegalTech-решений. Как мы видим, данные продукты по-прежнему работают только на уровне неструктурированных данных, предоставляя пользователю всю найденную информацию, прямо или косвенно связанную с запросом, и не осуществляют ее обработку под призмой юридических знаний, оставляя задачу интерпретации этих данных человеку.
Приведем в качестве примера историю, основанную на реальных событиях. В нашей практике состоялся диалог с одной уважаемой компанией-разработчиком, представители которой занимаются разработками в сфере LegalTech. В ходе беседы представители компании поделились с нами планами по автоматизации проверки полномочий подписанта сделки. Отметим, что мы также с удивлением для себя обнаружили, что в отделе, который занимается разработками LegalTech, нет юристов, они привлекаются «по необходимости». Логика представителей компании-разработчика была следующей:

  • проверка полномочий не является сложной задачей, чтобы понять ее специфику достаточно однократно обсудить вопросы с юристом (составить алгоритм, список вопросов и др.);
  • суть проверки полномочий руководителя компании сводится по большей части к верификации его ФИО с данными из ЕГРЮЛ.

Однако любой юрист с данной логикой не согласится. На основании записи в ЕГРЮЛ мы не можем с полной уверенностью говорить о безусловном праве лица действовать от имени компании во всех случаях. Проверка полномочий руководителя хоть и не является трудной задачей, но требует, как минимум, комплексной проверки юридической связи между организацией и ее руководителем, а именно:

  • проверки факта избрания руководителя высшим органом управления, срока полномочий и действительности такого решения;
  • проверка факта вступления в должность руководителя юридического лица на основании приказа, совпадение всех идентификационных данных (ФИО, паспортные данные и др.) в каждом из документов;
  • проверка полномочий руководителя на совершение юридически значимых действий (заключение сделок, выдача доверенности и др.) от имени организации на предмет наличия ограничений в уставе (например, для крупных сделок, сделок с заинтересованностью) и др.

Можем ли мы на примере данного сравнения говорить о корректности предложенного алгоритма проверки полномочий руководителя — вопрос риторический. К сожалению, в IT-сообществе распространен подход, когда реализация продукта начинается без привлечения экспертов из предметной области, либо с их привлечением на этапах тестирования.
Этой традиции уже не один десяток лет, и примеры мы можем найти даже в прошлом столетии. Так, в 1986 г. был проведен эксперимент по разбору британского закона о гражданстве (The British Nationality Act) с применением логики языка Prolog. Суть эксперимента заключалась в попытке разложить текст данного закона на структурные единицы (смысловые триплеты), что и было в итоге сделано. Работы проводились без привлечения юристов, но в итоге эксперимент был признан успешным, несмотря на множественные недостатки и ограничения данной системы.
«Our representation of the British Nationality Act was undertaken with no legal expert assistance. Our model of the Act expresses the layman’s reading of the provisions. This in itself renders our British Nationality Act program of limited practical value. We could not use it in its present form for solving problems of British citizenship in actual legal practice».
Вместе с тем практической ценности для юриспруденции данный эксперимент не принес, что было признано самими разработчиками, поскольку без участия специалистов в области права невозможно воспроизвести смысловую структуру нормативного акта. Это во многом обусловлено особенностями юридического языка и терминологии, которая очень часто включает в себя неочевидные с позиции обыденного толкования значения.
В качестве примера можно привести следующий фрагмент из оригинальной статьи:
«A complication that we anticipated was the presence of vagueness. The act contains such vague phrases as “being a good character,” “having reasonable excuse,” and “having sufficient knowledge of English.”»
В данной ситуации авторы с позиции бытовой логики утверждают, что ряд терминов имеют размытое значение, основываясь, в первую очередь, на том, что нет какой-то одной статьи в законе, которая давала бы полную и точную дефиницию. Для практикующего юриста эта ситуация выглядит по-другому: рассматриваемые термины являются обширными, но не размытыми; по каждому из них накоплено несколько сотен лет судебной практики, где на многочисленных кейсах разбираются все возможные детали и нюансы.
В итоге эксперимент трансформации The British Nationality Act на язык Prolog был проведен ради самого процесса: была подтверждена возможность структурирования нормативных актов на языках формальной логики, но практическая значимость результата оказалась нулевой.
Таким образом, мы приходим к выводу, что при разработке решений в области LegalTech без ведущего участия профессиональных юристов обойтись невозможно. В противном случае нивелируется значимость и ценность таких решений для аудитории. Именно поэтому существующий сегодня фокус на работу с data (machine learning / deep learning) не позволяет продвинуться вперед и решать задачи, в которых требуется настоящая экспертиза на основе знаний и опыта конкретной предметной области.
В итоге мы пришли к выводу, что разработка Legal AI может быть выполнена только в результате создания независимого семантического блока, включающего в себя:

  • структурированные модели юридических знаний (графы знаний и онтологии), воспроизводящие юридическую картину мира;
  • набор методов и инструментов лингвистического анализа для процессинга текстов на естественном языке;
  • элементы машинного обучения.

Данные инструменты в совокупности позволят создать качественно новые продукты в области LegalTech и перейти на следующие уровни работы в системе знаний (knowledge и wisdom).

2.2.1. Новый подход к формированию проектных команд

Разработка решений в области Legal AI требует применения нового подхода к формированию бюджета проекта. По нашей практике, что в структуре расходов основной статьей (70-80%) является стоимость работы профессионалов предметной области (высоко специализированных юристов), обладающих глубокими знаниями и опытом на уровнях knowledge и wisdom, а также способных строить юридические онтологии, воспроизводя собственное экспертное видение юриспруденции.
Остальные 20-30% расходов приходятся на оплату услуг разработчиков, обучение нейронных сетей, оборудование и др. Обобщая изложенное, можно отметить, что наиболее дорогостоящими задачами являются строительство графа знаний предметной области и подготовка обучающего дата-сета, поскольку они требуют участия высокоспециализированных представителей предметной области. Задачи по непосредственной разработке программного продукта менее затратны, однако с практической точки зрения разработка Legal AI не может быть осуществлена без решения обозначенных задач.

2.3. Неалгоритмизируемые процессы в LegalTech

Система знаний о какой-либо отдельно взятой предметной области может быть представлена в виде пирамиды из четырех уровней (data>information>knowledge>wisdom), которая отражает как статическую глубину профессиональных познаний конкретного субъекта, так и динамический процесс накопления знаний. Основой и базисом всех знаний служат неструктурированные данные (data), из числа которых может быть выделена существенная информация (information). По мере накопления информации и ее обработки субъект формирует устойчивые знания предметной области, которые в последующем под призмой накопленного опыта трансформируются в мудрость (wisdom) и позволяют эффективнее работать с данными и информацией (knowledge).
Для достижения устойчивых знаний и мудрости требуется обширный опыт и глубокие экспертные познания в соответствующей области, поэтому данные уровни остаются недостижимыми для людей, не являющихся экспертами конкретной сферы. Применительно к сфере LegalTech это объясняет невозможность самостоятельного понимания IT-специалистами всех особенностей и деталей юриспруденции, поскольку они не владеют системными знаниями права и опытом их практического применения.
В юриспруденции (как в любой системе научных знаний) многие элементы взаимосвязаны и имеют между собой причинно-следственную связь. Однако данная предметная область имеет и собственные особенности, благодаря которым такая связь может быть прямой (очевидной), косвенной (неочевидной) или отсутствовать вовсе. В связи с этим с точки зрения возможности алгоритмизации существует множество сложных областей и процессов, которые не поддаются программированию с помощью традиционных методов, применяемых в различных сферах. Подобные особенности существуют не только в юриспруденции.

Наиболее наглядным примером служат эксперименты инженеров по созданию системы автопилота для легковых автомобилей, которая будет пригодна для автоматизированного управления транспортным средством в городской среде без участия человека. Сегодня во всем мире в данном направлении достигнуты большие успехи, однако на первоначальных этапах разработчики столкнулись со следующей проблемой. Изначальным подходом по алгоритмизации порядка управления автомобилем служила идеальная модель вождения, сформированная на основе всех правил дорожного движения. В результате система управляла автомобилем только в строгом в соответствии с правилами. На этапах тестирования такая модель показала свои существенные недостатки, которые связаны с тем, что помимо правил дорожного движения существуют отдельные неформализованные правила и законы вождения, а также общепринятые алгоритмы поведения водителей в нестандартных ситуациях, оцифровать которые было невозможно.
Например, водитель, приближаясь к пешеходному переходу и видя стоящего у него человека, на основе системы невербальной коммуникации способен понять и с точностью предугадать дальнейшие действия пешехода, а именно — намерен ли он переходить улицу или просто стоит у перехода без желания продолжать движение. Система автопилота оказалась неспособна определять действия пешехода, стоящего возле нерегулируемого перехода, и, подчиняясь правилам дорожного движения, останавливалась и ждала пока пешеход не перейдет улицу. Если пешеход не намерен переходить улицу, автопилот не поедет дальше, пока человек не уйдет. Другой пример — сложный нерегулируемый перекресток. В стандартной ситуации водители пользуются жестами, с помощью которых могут разъехаться, не создавая заторы и аварийные ситуации. Для системы автопилота, действующей на основе правил дорожного движения, такие невербальные методы были недоступны. И, наконец, третий пример — слепая зона, расположенная после поворота, которая не видна водителю перед маневром. Человек при управлении автомобилем в таких ситуациях действует на основе интуиции и когнитивного восприятия, предугадывая риск наличия или отсутствия пешехода на дороге после поворота, но у системы автопилота интуиции нет, поэтому такая ситуация на практике несет в себе определенные риски.
Описанные примеры и существующие неформальные правила и законы вождения, включающие в себя невербальную коммуникацию водителей, интуитивные действия и др. служат примером неалгоритмизируемой области, которая вырабатывается на основе длительной практики по управлению транспортным средством и с точки зрения пирамиды знаний находится на верхних уровнях (knowledge и wisdom). Правила дорожного движения, в свою очередь, являются примером алгоритмизируемой области, которая располагается на нижних уровнях пирамиды (data и information). Аналогичные области существуют и в сфере юриспруденции, поэтому принятый у многих LegalTech-разработчиков подход, что все процессы в данной сфере могут быть алгоритмизированы традиционными методами, является заблуждением.
Кроме того, формат пирамиды и представления знаний позволяет наглядно определить место Legal AI в системе программных инструментов автоматизации юридической функции. Критерием разграничения инструментов выступает уровень в системе знаний, на котором функционирует тот или иной продукт, а именно:

  • юридические чат-боты, справочно-правовые системы (Консультант Плюс, Гарант, Кодекс и др.) и системы проверки контрагента (Спарк, Контур.Фокус и др.) функционируют на уровне неструктурированных данных, обеспечивая поиск и аккумуляцию необходимых сведений;
  • конструкторы правовых документов (Freshdoc, Easylaw, Doczilla и др.) функционируют на уровне информации, обеспечивая систематизацию необходимых данных, генерацию документов по шаблону;
  • Legal AI, функционирующий на уровнях wisdom и knowledge, обеспечивает экспертную аналитику данных с точки зрения знаний предметной области.

2.4. Agile в LegalTech

Другой немаловажной проблемой является активная популяризация в IT-среде принципов и подходов Agile, которые в области LegalTech, по нашему мнению, создают очень большие сложности. Гибкая методология разработки (англ. Agile software development) — обобщающий термин для целого ряда подходов и практик, основанных на ценностях Манифеста гибкой разработки программного обеспечения и 12 принципах, лежащих в его основе, а именно:

  • удовлетворение клиента за счёт ранней и бесперебойной поставки программного обеспечения;
  • приветствие изменений требований даже в конце разработки (это может повысить конкурентоспособность полученного продукта);
  • частая поставка рабочего программного обеспечения (каждый месяц или неделю, или ещё чаще);
  • тесное и ежедневное общение заказчика с разработчиками на протяжении всего проекта;
  • проектом занимаются мотивированные личности, которые обеспечены нужными условиями работы, поддержкой и доверием;
  • рекомендуемый метод передачи информации — личный разговор (лицом к лицу);
  • работающее программное обеспечение — лучший измеритель прогресса;
  • спонсоры, разработчики и пользователи должны иметь возможность поддерживать постоянный темп на неопределённый срок;
  • постоянное внимание улучшению технического мастерства и удобному дизайну;
  • простота — искусство не делать лишней работы;
  • лучшие технические требования, дизайн и архитектура получаются у самоорганизованной команды;
  • постоянная адаптация к изменяющимся обстоятельствам: команда должна систематически анализировать возможные способы улучшения эффективности и соответственно корректировать стиль своей работы.

Применяется Agile как эффективная практика организации труда небольших групп (которые делают однородную творческую работу) в объединении с управлением ими комбинированным (либеральным и демократическим) методом.
Суть Agile заключается в том, что применяется итеративный подход при работе над проектом. Команда сконцентрирована на решении отдельных малых пользовательских кейсов в течение всего процесса, требования к конечному продукту формируются в динамике (по сути в процессе разработки). Такой подход в итоге приводит к тому, что на первых этапах создается не сильно функциональный продукт, к которому в последующей перспективе интегрируются новые возможности. Данный подход имеет определенные преимущества, но в то же время имеет и существенные недостатки. К числу преимуществ традиционно относят увеличение скорости реализации проекта при сокращении ресурсов. Критика Agile сводится к тому, что при нем часто пренебрегают созданием плана («дорожной карты») развития продукта, равно как и управлением требованиями, в процессе которого и формируется такая «карта».
Гибкий подход к управлению требованиями не подразумевает далеко идущих планов (по сути, управления требованиями в данной методологии просто не существует), а подразумевает возможность заказчика вдруг и неожиданно в конце каждой итерации выставлять новые требования, часто противоречащие архитектуре уже созданного и поставляемого продукта. Такое иногда приводит к катастрофическим проблемам с массовым рефакторингом и переделками практически на каждой очередной итерации. Кроме того, считается, что работа в Agile мотивирует разработчиков решать все поступившие задачи простейшим и быстрейшим возможным способом, при этом зачастую не обращая внимания на правильность решения с точки зрения требований (подход — «работает, и ладно», при этом не учитывается, что может перестать работать при малейшем изменении или же дать тяжёлые к воспроизводству дефекты после реального внедрения). Это приводит к снижению качества продукта и накоплению дефектов. Принципы Agile применимы при создании продуктов, ориентированных на массовую аудиторию, которые не предполагают глубокое внедрение в какую-либо предметную область, например, различные развлекательные сервисы, социальные сети и др.

 
В случае с LegalTech эта шутка имеет большую долю истины. Как мы говорили ранее, успеха можно добиться только при неуклонном следовании first principles, когда еще до перехода к работе программистов мы от и до понимаем, какие задачи необходимо решить, как их решить, и какой результат должен быть в конце. Только при полном понимании всех деталей и требований к продукту мы можем перейти к его практической реализации. В противном случае велик риск упустить важные детали в алгоритме работы продукта, что в конечном итоге приводит к его невостребованности и неприменимости (пациент не проснется).

3. Графовые системы и онтологии

3.1. Концептуальное понимание картины мира

В юридической сфере помимо описанных факторов большую роль играет глубины понимания отдельных смыслов, концептов. Русский язык, особенно с учетом профессиональной лексики, таит в себе опасную иллюзию, которая заключается в следующем. Мы все говорим на одном языке, и кажется, что мы говорим об одном и том же, но на самом деле мы укладываем наши концепты в слова. В процессе сжатия концепта в слово происходит его критическая деградация, которая становится обратимой только внутри профессионального сообщества. Иными словами, два юриста с легкостью поймут друг друга, но юрист и разработчик — нет. Данные идеи подтверждаются теорией И.А. Мельчука «Смысл — текст».
Теория «Смысл ⇔ Текст» (ТСТ, или теория лингвистических моделей «Смысл ⇔ Текст», как её называют полностью) создана И.А. Мельчуком в середине 1960-х г. при активном участии ряда других лингвистов — прежде всего А.К. Жолковского, а также Ю.Д. Апресяна. По замыслу её создателей, ТСТ является универсальной концепцией, которая может быть применима к любому языку. На практике основным объектом для неё служил русский язык, а в 1980-е годы и в последующем теория разрабатывалась применительно к данным английского и французского языков. Теория «Смысл ⇔ Текст» представляет собой описание естественного языка, понимаемого как устройство («система правил»), обеспечивающее человеку переход от смысла к тексту («говорение», или построение текста) и от текста к смыслу («понимание», или интерпретация текста). При этом приоритет в исследовании языка отдаётся переходу от смысла к тексту: считается, что описание процесса интерпретации текста может быть получено на основе описания процесса построения текста. Теория постулирует многоуровневую модель языка, то есть такую, в которой построение текста на основе заданного смысла происходит не непосредственно, а с помощью серии переходов от одного уровня представления к другому. Помимо двух «крайних» уровней — фонологического (уровня текста) и семантического (уровня смысла), выделяются поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический уровни. Каждый уровень характеризуется набором собственных единиц и правил представления, а также набором правил перехода от данного уровня представления к соседним. На каждом уровне мы имеем дело с особыми представлениями текста — например, глубинно-морфологическим, поверхностно-синтаксическим и т.п.
Основной идеей данной теории является то, что одну и ту же мысль можно выразить с использованием различных синтаксических и лексических конструкций. Поэтому переводить текст в смысл в буквальном толковании невозможно, поскольку при выражении смысла устным и (или) письменным языком автор закладывает в него скрытые, понятные ему и лицам с аналогичными знаниями и мышлением смыслы. Применительно к юридическому языку это демонстрируется на примере, который мы приводили выше (о различном понимании термина «компания» юристом и лицом без соответствующих знаний). Данная теория в полной мере подтверждает вывод о том, что юрист и программист, обсуждая проекты в области LegalTech, говорят на разных языках и очень часто не понимают друг друга, что в итоге порождает конфликты и проблемы. Однако взаимодействие этих специалистов является ключом к успеху при создании Legal AI, поэтому важно стремиться к плодотворному и взаимному сотрудничеству.

3.2. Юридические концепты

По итогам рассмотрения предыдущих вопросов мы пришли к выводу о сложности юридической области знаний и различной глубине понимания окружающего мира юристами и специалистами иных предметных областей. Данная проблема находит свое практическое выражение даже в повседневной работе юриста.

Многие граждане и представители бизнеса нередко считают, что привлекать профессиональных юристов для сопровождения обычных и повседневных процедур, будь то оформление поставки партии товара или подписание очередного типового договора, не имеет смысла. К тому же с развитием LegalTech общественности становится доступно все больше различных электронных сервисов проверки контрагентов (Спарк, Контр.Фокус), онлайн-конструкторов договоров (Freshdoc, типовые формы в справочно-правовых системах «Консультант»«Гарант» и др.), позиционирующихся в качестве инновационных продуктов, способных заменить юриста в несложных, на первый взгляд, операциях (подробнее о существующем рынке LegalTech в России и сущности предлагаемых продуктов мы говорили в предыдущей статье). Однако это очень большое заблуждение, которое нередко приводит к фатальным последствиям.
Для иллюстрации рассмотрим, что представляет собой проверка полномочий руководителя в обыденном понимании и в понимании юриста.
Предположим, что нам необходимо подписать с контрагентом договор о поставке товара. Контрагентом выступает организация, от имени которой действует генеральный директор. В подавляющем большинстве случаев лица без юридических знаний сводят проверку полномочий к поиску контрагента в ЕГРЮЛ и верификации представителя компании со строкой «Лица, действующие от имени организации без доверенности». Если данные совпадают, значит договор можно подписывать. Однако это не всегда так. С точки зрения юриста процедура проверки полномочий включает в себя анализ множества неочевидных и непонятных для обычного человека категорий, имеющих значение не только для подтверждения факта наличия полномочий у лица заключить сделку в данный момент времени, но и для обеспечения исполнения данной сделки и предупреждения оспаривания договора и признания его недействительным в последующем, что способно повлечь неблагоприятные последствия для всех сторон правоотношений. При ответе на вопрос о наличии у лица (руководителя) полномочий подписать договор от имени организации юрист анализирует не только наличие статуса руководителя у лица на момент заключения сделки, но и проверку следующих факторов:

  • право лица заключить сделку с конкретным объектом договора;
  • наличие прав на соответствующий объект (право собственности на вещь, действительность права при заключении сделки с имущественными правами и др.);
  • отсутствие признаков оспоримости сделки (непротиворечие сделки закону и иным нормативным актам, соответствие подписантов критериям полной дееспособности, вопросы аффилированности и взаимосвязанности, отсутствие признаков обмана, заблуждения, кабальности и др.).


Данный список может быть продолжен и далее, однако и приведенного выше достаточно для понимания, что проверка полномочий руководителя на заключение сделки существенно выходит за рамки поиска нужной фамилии в ЕГРЮЛ. Если ретранслировать данную ситуацию на тему Legal AI и автоматизацию проверки полномочий руководителя с помощью программных решений, мы сталкиваемся с необходимостью полного отражения данного концепта и фрагмента юридических знаний в данной области на языке формальной логики. И для начала нам необходимо понять сущность алгоритма проверки полномочий, а именно: сколько шагов и какие действия необходимо выполнить, какие концепты и данные задействованы и др. Только при условии решения данной задачи можно говорить о создании инструмента интеллектуальной проверки полномочий, которая по существу анализирует обстоятельства, не ограничиваясь обращением к ЕГРЮЛ. Если попытаться представить данный процесс в формате графа, он будет включать в себя сотни/тысячи нодов.
Другой пример — процесс подготовки проекта договора (например, договора поставки). Многие исходят из того, что для оформления большинства отношений, в том числе в предпринимательской сфере, не требуется участие юриста и достаточно использовать типовые шаблоны или конструкторы договоров, в которые необходимо внести недостающие сведения: фамилии, наименования, реквизиты, название объекта и др., и договор можно отправлять на подписание.

Однако с точки зрения юриста данный процесс должен выглядеть совершенно иначе. Руководствуясь методом first principles, юрист должен ответить на следующие вопросы:

  • в какой юрисдикции заключается договор и какому праву он подчинен;
  • кем являются стороны договора с точки зрения их правового статуса (граждане, предприниматели, организации или публично-правовые образования, вопросы специальной правоспособности и др.);
  • кем являются подписанты договора (представители по доверенности, законные представители, «органические» представители в виде единоличного исполнительного органа и др.);
  • как подтверждается право собственности продавца на товар (наличие соответствующих документов и др.) и так далее.


Кроме того, юрист стремится индивидуализировать текст договора под обстоятельства клиента, формулируя условия, исходя из интересов и рисков стороны. Именно поэтому один и тот же договор поставки может быть подготовлен и на 5, и на 60 страниц. Безусловно, многие юристы пренебрегают этим и сознательно в ряде случаев не следуют описанному алгоритму.
Поэтому распространенная и в целом приемлемая практика — это, когда многие важные этапы опускаются в целях оптимизации всего процесса (для простых и незначительных сделок, где риски минимальны и ими можно пренебречь). Другой случай — юристы ленятся и либо сознательно пропускают данные проверки, либо осуществляют их поверхностно и сугубо формально. ФНС России неоднократно разъясняла правила должной осмотрительности при выборе контрагента и критерии оценки его добросовестности. Однако далеко не многие юристы руководствуются данными рекомендациями при сопровождении сделок и проверке полномочий ее подписантов, что является неприемлемой, но, к сожалению, распространенной практикой.
Данные примеры наглядно иллюстрируют различное понимание стандартных в деловой практике процедур с точки зрения юридической логики и логики специалистов других областей знаний. Многие, сталкиваясь с необходимостью подготовить проект договора или проверить полномочия подписанта сделки, на подсознательном уровне полагают, что это предельно простые задачи, требующие не более 1-2 часов времени. Однако это далеко не так. Осознание глубины проблемы и отказ от подобных убеждений — первый шаг на пути к созданию Legal AI.
Третий пример, иллюстрирующий глубину и концептуальность понимания юристами внешних обстоятельств (событий и действий как разновидностей юридических фактов), — это вопросы юридической ответственности. Юридическая ответственность представляет собой меры государственного принуждения, применяемые к лицу за совершение противоправного деяния. Наиболее сложным видом ответственности является ответственность лиц, входящих в состав органов управления организации. В зону риска попадают контролирующие лица, которые в силу своего служебного положения (осуществление полномочий члена совета директоров, единоличного исполнительного органа) в ходе хозяйственной деятельности организации принимают решения и заключают сделки, которые имеют определенную степень предпринимательского риска. В силу данного факта такие лица должны действовать добросовестно и разумно, поскольку от их решений зависит будущее финансовое положение компании. За нарушение данных требований они могут быть привлечены как к имущественной ответственности за действия, которые повлекли за собой неплатежеспособность или убытки компании, так и к дисциплинарной (при исполнении обязанностей на основе трудового договора), административной и уголовной ответственности при наличии в их действиях составов административного правонарушения или преступления.
Приведем пример наступления неблагоприятных последствий при недобросовестных действиях контролирующих лиц. Генеральный директор регулярно заключал договоры поставки в пользу компании партий товаров, стоимость которых в 1,5 раза превышала рыночную стоимость аналогичных товаров у других поставщиков. Увеличенные расходы на закупку товаров генеральный директор объяснял бенефициарам компании высокой надежностью поставщика и наличием устойчивых и длительных партнерских отношений с ним, за счет чего условия поставки могли включать в себя и рассрочку оплаты, и доставку товаров на отдаленные производственные объекты и др. Однако фактически генерального директора и учредителя поставщика связывали личные приятельские отношения, благодаря которым поставщик получал необоснованную прибыль за счет превышения цены по сравнению с рыночной на протяжении нескольких лет. Полученная в результате сверхприбыль в последующем была выведена в форме дивидендов и неформально распределена поровну между генеральным директором покупателя и учредителем поставщика, а компания-покупатель на протяжении многих лет несла убытки в связи с переплатой за товар. Как только данные факты стали известны участникам компании-покупателя, генеральный директор был привлечен к дисциплинарной ответственности в виде увольнения на основании п. 9 ст. 81 ТК РФ (принятие необоснованного решения руководителем организации, повлекшего за собой нарушение сохранности имущества, неправомерное его использование или иной ущерб имуществу организации). Однако убытки компании в последующей перспективе повлекли за собой существенное ухудшение платежеспособности, что в результате привело к невозможности исполнения обязательств перед иными контрагентами и работниками предприятия. В результате было инициировано дело о банкротстве, в рамках которого действия бывшего генерального директора привлекли внимание конкурсного управляющего. В отношение генерального директора было возбуждено уголовное дело, по итогам расследования которого виновные лица были привлечены к уголовной ответственности за совершение преступлений, предусмотренных ст. 160 (присвоение вверенного виновному имущества) и ст. 204 (коммерческий подкуп) УК РФ. Помимо этого, в рамках уголовного дела к генеральному директору был предъявлен гражданский иск о возмещении убытков юридическому лицу в размере необоснованной переплаты по поставкам.
С точки зрения генерального директора данная схема выглядела соответствующей закону, поскольку в его понимании закупка товаров по завышенной цене у проверенного поставщика была платой за надежность контрагента, а получаемое скрытое вознаграждение — благодарностью поставщика за долгосрочное сотрудничество. Однако для юриста такие риски являются прогнозируемыми еще задолго до их реализации. Понимая и оценивая риски, юрист подходит к анализу каждого принимаемого решения, будь то заключение сделки или проверка контрагента, с точки зрения возможных неблагоприятных последствий в виде мер юридической ответственности, поскольку понимает механизмы реализации таких рисков и специфику коммерческих взаимоотношений. Закупка товара по завышенной цене сама по себе влечет множество вопросов и несет в себе значительное число рисков в виде ответственности для контролирующих лиц. То есть в юридической парадигме любое действие прямо или опосредованно влечет за собой определенные правовые последствия. Одно действие может стать основанием для привлечения к различным видам ответственности. Благодаря понимаю таких взаимосвязей и закономерностей профессиональный юрист оценивает ситуации и осуществляет собственную экспертизу.

Именно такое понимание функциональных задач мы вкладываем в Legal AI. Настоящим технологическим прорывом в области LegalTech станет создание инструмента, позволяющего оценивать юридические факты с точки зрения профессиональной логики, видеть взаимосвязи и закономерности, очевидные для юриста, но скрытые для обывателя. Это станет большим шагом в сторону автоматизации юридической функции, что при существующих продуктах на рынке LegalTech пока остается невозможным.

3.3. Онтологии и графы знаний

В процессе разработки программных решений для автоматизации юридической деятельности на основе искусственного интеллекта важным этапом, обеспечивающим возможность достижения успешного результата, является создание унифицированной базы знаний, отражающей особенности юридической картины мира.

Вопросы о необходимости структурирования и систематизации знаний в различных предметных областях не являются новыми. Еще в начале 2000-х годов в Европе начались разработки первых онтологий, а также были выработаны единые стандарты их построения. В России единый подход не выработан, поэтому развитие онтологических систем знаний происходит менее активно.
Онтология является унифицированной и структурированной базой знаний необходимой предметной области, представляющей собой объективное семантическое отражение картины мира в структурированном формате. Онтология включает в себя набор связанных между собой терминов, иерархически записанных в формате классов, подклассов различного уровня и связей (Relationships) между ними, что позволяет соотносить имеющиеся данные между собой с точки зрения экспертной логики. Среди способов систематизации знаний онтология является гораздо более продвинутой моделью, чем таксономия. Таксономией является любая структура знаний в виде иерархически соотносящихся сущностей. От онтологии ее отличает наличие связей между структурными единицами только 1 типа — родительский или дочерний элемент («subclass of»). Онтология, в отличие от таксономии, обладает большим количеством связей между всеми структурными единицами, представляя собой способ формализации знаний, абстрактных или специфических, реализованный на основе формального описания объектов, фактов и отношений между ними. Например, если в таксономии класс «Акционерное общество» может иметь только дочернюю связь с классом «Юридическое лицо» (акционерное общество является разновидностью юридического лица), то в онтологии «Акционерное общество» будет иметь сотни и тысячи связей, отражающих взаимосвязь акционерного общества с субъектами, объектами права и др. Данное ключевое отличие говорит о том, что таксономии не позволяют отвечать на юридические вопросы в силу отсутствия в их составе важных элементов в виде связей.
В формате онтологии крайне сложно выражать такие важные для юриспруденции конструкции как время (процессуальные сроки, сроки исполнения обязательств и др.) и модальность. В случае со временем мы вынуждены иметь дело с громоздкими конструкциями (например, как на изображении ниже), с которыми сложно работать на практике. В случаях с модальностью на языке OWL к настоящему времени не решена проблема выражения таких состояний, как отрицание, сомнение, различного рода субъективные факторы и оценочные категории.

Идеальной моделью представления знаний какой-либо предметной области является граф знаний. Граф структурно включает в себя графовые хранилища семантических метаданных и онтологий, которые в данном случае выступают в роли полуструктурированной модели предметной области, являясь ядром графа знаний. В результате такого способа обеспечивается возможность решения интеллектуальных задач с помощью постоянной циркуляции данных за счет применения методов машинного обучения. Говоря о соотношении графа знаний и онтологии, необходимо отметить, что онтология выступает в качестве способа формализации знаний в формате графа. Как верно отмечал Д. Муромцев, для графов знаний онтология — это семантическая основа представления данных, базирующаяся на логике и включающая терминологический словарь и набор утверждений о моделируемых объектах. В результате граф может иметь в себе в качестве семантической основы множество онтологий, обеспечивая комплексную концептуализацию всех знаний предметной области.
Онтологии и графы, создаваемые для Legal AI, должны иметь в совокупности сотни и тысячи классов и связей для решения даже простых юридических задач. При этом решающее значение имеет именно количество связей, отражающих отношения между классами. Для приблизительной оценки необходимого количества связей в нашей практике мы ориентируемся на полный граф (где каждая пара различных вершин смежна) и в результате получаем, что необходимое количество связей на порядок превышает количество необходимых классов:
Оптимальное количество связей ≈ n*(n-1)/2,
где n — количество задействованных классов, вершин.
Обращаясь к зарубежному опыту, нам удалось найти глубоко детализированные онтологии, применяемые в медицине (онтология геномов и др.), финансовой сфере и др. В области права существуют такие онтологии, как FOLaw, FBO, LKIF, Legal Rule ML и др. В России таких примеров найти не удалось, не говоря даже конкретно о юридических онтологиях. Исследование вопросов, связанных с онтологиями, обзор существующих зарубежных наработок в области юридических онтологий и их значение мы отдельно рассмотрим в следующей статье, но некоторые особенности, необходимые для понимания глубины проблемы, будут описаны далее.
Одним из наиболее впечатляющих примеров существующих онтологий является FIBO (Financial Industry Business Ontology), разрабатываемая в настоящее время международным сообществом под управлением консорциума OMG, который занимается объектно-ориентированными технологиями и стандартами. Стандарты FIBO применяются многими налоговыми органами различных государств в том числе в рамках автоматического обмена информацией (сведения о бенефициарах и др.).
Онтология FIBO имеет своей целью воспроизвести структуру отношений между участниками финансового рынка по поводу различных финансовых инструментов. Многими специалистами данной области FIBO рассматривается в качестве бизнес-онтологии, тем самым позиционируется ее широкая и универсальная сфера применения. Среди мнений встречаются также позиции о том, что бизнес-сфера включает в себя (поглощает) и сферу права, а также что унификация знаний в области финансов является основой для построения общих юридических концептов. Мы считаем, что обе позиции являются заблуждением, в подтверждение чего далее данная онтология FIBO будет рассмотрена более подробно.
В онтологии FIBO содержится семантически связанные понятия финансовой отрасли с описанием их смысла и практики использования специалистами. В частности, в FIBO описаны такие базовые понятия, как юридические лица, рыночные данные и финансовые процессы, структура и договорные обязательства, различные финансовых инструментов и др. Классы и подклассы онтологии FIBO представлены двумя способами: формальным описанием понятий и их взаимосвязей на языке OWL, а также их описанием на естественном языке с использованием толковых словарей финансовой отрасли. Предполагается, что онтология FIBO должна стать общим языком для финансовой индустрии, поддерживающим автоматизацию бизнес-процессов. Она предназначена для использования разработчиками, бизнес-аналитиками и другими участниками сферы финансов. Бизнес-термины и определения, описанные в FIBO, могут быть использованы в качестве эталонной модели, с которой финансовые организации могут связывать свои собственные (локальные) модели. Появляется возможность создавать логические модели данных, которые получают из FIBO свою формальную семантику.

В действительности FIBO является не одной онтологией, а набором большого количества онтологий, которые разделены по модулям и подмодулям. Модули (подмодули) включают наборы совместно используемых онтологий. Между собой онтологии FIBO связаны отношением «использует» – одна онтология может использовать, расширять и уточнять понятия, описанные в другой онтологии (или наборе онтологий). FIBO на очень глубоком уровне детализирует финансовые инструменты и термины, актуальные для финансовой отрасли. Но финансовая отрасль во многом пересекается с юриспруденцией: финансовые сделки являются разновидностями частно-правовых договоров (обязательств), а финансовые инструменты — объектами гражданского оборота (ценные бумаги и др.). Поэтому данная онтология содержит в том числе правовые категории, необходимые в той или иной мере для финансовой экспертизы, однако уровень их детализации является невысоким, что не позволяет применять FIBO для целей юриспруденции.

Для понимания различного уровня детализации сферы финансов и права приведем несколько фрагментов онтологии FIBO.

На данном фрагменте отражены документы, используемые в сфере финансов (порядка 57 категорий).

На данном — известные FIBO источники права (порядка 6 категорий).
Вследствие различия глубины проработки вопросов финансов и права онтология FIBO малоприменима для решения задач в сфере Legal AI. Кроме того, существуют и другие объективные причины, ограничивающие возможность применения онтологии FIBO для целей отечественного юридического искусственного интеллекта.

3.3.1. Успешный опыт построения индустриальных графов знаний

Ранее мы приводили в качестве примера успешной и глубоко детализированной онтологии разработку онтологии генов в рамках исследований в области молекулярной биологии. Для ее создания были вложены значительные финансовые ресурсы, и в результате научное сообщество получило функциональный инструмент для дальнейших исследований.
Данная онтология воспроизводит концепцию генома, включающую в себя как функциональное описание генов (функция и роль того или иного гена), так и их структурное описание (химический состав гена). Такая структурированная модель знаний позволяет, во-первых, интегрировать знания из различных баз данных в едином формате, во-вторых, генерировать выводы о функциональности вновь открытых генов и получать представление о сохранении и дивергенции биологических подсистем. Онтология генов имеет свойство универсальности. Существующие в молекулярной биологии элементы одинаковы и равным образом признаются учеными вне зависимости от территории, страны и др. Отличается лишь их индивидуальный набор у каждого представителя того или иного вида организмов. Данные особенности предметной области позволяют практически применять подобную базу знаний во всем мире.
В области юриспруденции создать общеприменимую модель знаний невозможно.
Первая причина — фундаментальное различие правовых систем. В теории права принято выделять 5 правовых систем: континентальную (например, Германия, Франция, Россия и др.), англо-американскую (США, Великобритания, Канада, Австралия), социалистическую (Китай, КНДР, Куба и др.), а также религиозную (основана на имплементации в право религиозных канонов и их законодательное развитие) и традиционную (основана на обычаях и общинных правилах поведения). Каждая из правовых систем имеет фундаментальные отличия в принципах построения права и законодательном регулировании общественных отношений. Крупнейшими в мире по числу представителей являются континентальная (романо-германская система) и англо-американская (система общего права) правовые семьи.

Однако даже внутри одной правовой системы существуют множественные ветви, характеризующиеся наличием индивидуальных особенностей, поскольку право в каждом государстве формируется под воздействием множества факторов (экономических, исторических, социальных, географических и др.). Например, Россия и Германия относятся к одной правовой семье, однако их законодательство разительно отличается, хотя и существуют отдельные схожие институты.
Так, в гражданском праве и России, и ФРГ в качестве отдельного вида договора о передаче имущества в собственность является договор купли-продажи недвижимости как соглашение продавца и покупателя, по которому продавец обязуется передать в собственность покупателя недвижимую вещь, а покупатель — принять и оплатить ее стоимость. Однако есть существенное отличие в понимании сущности данных отношений и в правовых последствиях их реализации. В России договор купли-продажи недвижимости является обязательственной сделкой, которая создает взаимные обязательства между двумя сторонами. Право собственности на недвижимость переходит к покупателю после государственной регистрации такого перехода. Если договор купли-продажи признается недействительным, то в качестве последствий применяется двусторонняя реституция (взаимный возврат всего полученного каждой из сторон). В ФРГ договор купли-продажи включает в себя две сделки: обязательственную и вещную. По обязательственной сделке создаются взаимные обязательства, а по вещной — переходит право собственности на вещь. В результате право собственности переходит к покупателю с момента заключения вещной (распорядительной) сделки. При этом в силу принципа абстракции если обязательственная сделка признается недействительной, то это не влияет на действительность сделки вещной, и право собственности за покупателем сохраняется.
Вторая причина — фундаментальные различия в языках. Всего в мире насчитывается более 7 тыс. языков, из которых только 40 являются самыми распространенными для 2/3 населения Земли. Безусловно, английский язык является наиболее распространенным в том числе как государственный язык, на котором составляются источники права в различных странах. Практически любой текст можно перевести с одного языка на другой. Однако не любой текст в результате такого перевода сохранит 100% своего смыслового содержания и будет тождественным. Данная особенность крайне актуальна и для юридических текстов, которые имеют собственную специфику в виде терминологии, уникальных значений и др.
Приведенные причины позволяют прийти к выводу о невозможности создания общеприменимой структурированной базы знаний в области права и необходимости ее самостоятельной разработки в отдельной стране с учетом ее государственного языка и права. Право государств отличается настолько фундаментально (даже внутри одной правовой семьи), что применение зарубежных разработок для решения задач LegalTech в России становится невозможным. Равным образом невозможно использование существующей онтологии FIBO, поскольку она создана на английском языке представителями англо-американской правовой семьи. Это требует выработки самостоятельного подхода и создания уникальной онтологии, воспроизводящей право РФ.

3.3.2. Количество классов и связей в практических онтологиях

Онтология представляет собой структурированную модель представления системы знаний какой-либо предметной области на основе описания объектов (классов), их свойств и взаимосвязей с другими объектами. Построение такой модели позволяет систематизировать знания в едином формате и использовать их в том числе для генерации выводов. Однако функциональное назначение онтологий существенно шире.
В мировой практике существует множество примеров онтологий, которые создаются для различных целей (например, упомянутые нами FIBO в финансовой области, онтология геномов в молекулярной биологии и др.). Существующие на текущий момент онтологии преимущественно создаются и применяются для обмена данными между различными субъектами, используя такую модель представления данных в качестве мета-языка, упрощающего и ускоряющего взаимообмен информацией. Однако для обеспечения такого функционала онтологии создаются с упором на универсальность и возможность многократного применения (свойство «reusable»). Это влечет за собой необходимость построения онтологий с высокой степенью абстракции, которая проявляется в максимальном обобщении и сокращении количества классов. В результате такие онтологии обеспечивают возможность обмена данными, но становятся непригодными для использования в качестве базы знаний в виду неглубокой детализации.
Другая проблема в сфере существующих онтологий заключается в том, что во многом представленные экземпляры являются не онтологиями, а таксономиями. Многим покажется, что создание юридической онтологии превратится в длительную и трудоемкую задачу, выполнить которую вручную не представляется возможным. Сторонники такого подхода предлагают воспользоваться альтернативным методом — автогенерацией онтологий. Автогенерация онтологий представляет собой процесс автоматического формирования онтологии предметной области на основе обучающей выборки документов. Этот процесс состоит из нескольких этапов, на каждом из которых происходит извлечение из текста фактов или их пост-обработка для формирования какой-то части онтологии, будь то термины или объекты, концепты или же отношения между ними. Однако данный метод для юридической онтологии не применим. Основными его недостатками являются крайне скудный набор извлекаемых связей (is-a, subclass of), которых для полноценного описания юридической картины мира в формате структурированной базы знаний явно недостаточно.
Другой проблемой является отсутствие достаточной обучающей выборки документов. В результате мы получаем разрозненные и бессистемные классы, объединенные связями одного порядка, что на практике не позволит решить поставленные задачи.
В качестве примера можно привести фрагмент из разработанной нами онтологии:

  • данный фрагмент описывает процедуры подачи и принятия искового заявления к производству, описанные в статьях 125-129 Арбитражного процессуального кодекса РФ, всего ~4 страницы текста;
  • функциональное предназначение — подготовка ответов на 2 вопроса: «Соответствует ли поданное исковое заявление установленным требованиям?» и «К какой категории спора относится данное исковое заявление?»;
  • суммарно этот фрагмент онтологии содержит ~645 классов (без учета связей), меньшее количество классов не позволяет отвечать на поставленные вопросы.

При создании онтологий для целей Legal AI мы исходим из необходимости включения такого количества классов, которого будет достаточно для отражения системы юридических знаний в полной мере. При таком подходе свойство «reusable» применительно к онтологии не имеет значения, поскольку она направлена на решение иных задач. Необходимое количество классов зависит от глубины детализации вопросов, ответы на которые могут быть получены с помощью онтологии, а также от уровня представления знаний.
Другой пример, иллюстрирующий необходимость наличия большого количества связей и классов, — due diligence.

 
Due diligence — процедура составления объективного представления об объекте и субъектах правоотношений, включающая в себя оценку правовых и финансовых рисков, независимую оценку объекта (вещи, имущественные права и др.), всестороннее исследование деятельности компании, комплексную проверку её финансового состояния и положения на рынке.
Такая услуга оказывается опытными юристами-консультантами перед покупкой бизнеса, осуществлением сделок слияния и поглощения (M&A), подписанием сложных контрактов, соглашений о сотрудничестве и включает в себя полномасштабное и всестороннее исследование компании.
Обращаясь к рассмотренной ранее модели представления знаний в форме пирамиды, необходимое количество классов онтологии может быть выражено следующим образом:

  • для ответа на вопрос: «Кто является директором компании?» — требуется в среднем до 30 классов (уровень data);
  • для ответа на вопрос: «Какие полномочия есть у директора согласно уставу?» — требуется в среднем до 100-150 классов (уровень information);
  • для ответа на вопрос: «Имеются ли у директора полномочия на подписание конкретной сделки?» — требуются в среднем сотни — тысячи классов (уровень knowledge);
  • для проведения полномасштабного due diligence требуются десятки тысяч классов (уровень wisdom).

Такое количество необходимых классов для проведения due diligence обусловлено сложностью процедуры. Например, для классической услуги по проведению due diligence в отношение компании перед ее приобретением юристу необходимо:

  • определить схему владения и систему управления компанией;
  • проанализировать хозяйственную деятельность организации и оценить ее эффективность с точки зрения прибыли и наличия или отсутствия признаков банкротства;
  • проанализировать структуру активов компании и права на них (недвижимое имущество, движимое имущество, объекты интеллектуальной собственности, иные имущественные права);
  • оценить соответствие деятельности компании трудовому, антимонопольному, налоговому, административному законодательству;
  • проанализировать судебные разбирательства, в которых компания принимала участие или участвует в настоящий момент и др.

Это лишь часть направлений, которые необходимо проанализировать юристу при выявлении рисков и подготовке заключения.
В зависимости от сложности и глубины практических вопросов, ответы на которые должны быть получены с помощью онтологии, зависит необходимая глубина ее детализации. Чем выше сложность вопросов, тем больше требуется классов для ответа на них. При этом необходимо учитывать, что рост количества связей между классами экспоненциален росту количества классов онтологии.
Для сравнения в настоящий момент онтология FIBO, охватывающая только область финансовых взаимоотношений, включает в себя 3099 классов.

4. Заключительные положения

Изложенные в настоящей статье рассуждения и выводы относительно возможности практической реализации и методологии разработки решений Legal AI были выработаны нами в течение нескольких лет исследований и практической деятельности. Не остается сомнений в том, что развитие искусственного интеллекта в настоящий момент является одним из приоритетных направлений деятельности мировых технологических лидеров в том числе на государственном уровне.
6 июля 2020 года Президент РФ утвердил Поручение Правительству РФ с учетом ранее данных поручений принять исчерпывающие меры по утверждению отдельного федерального проекта «Искусственный интеллект», обеспечив необходимое финансирование, в том числе из предусмотренных на реализацию национальной программы «Цифровая экономика Российской Федерации» средств федерального бюджета. Данный факт свидетельствует о выделении технологий искусственного интеллекта в самостоятельную ветвь национального проекта.
Мы, являясь компанией, которая занимается развитием технологий искусственного интеллекта в области юриспруденции, считаем, что такое решение является стратегически правильным. В долгосрочной перспективе оно будет способствовать комплексному развитию всего направления в том числе при помощи государственной поддержки различных проектов, а не только отдельных субтехнологий. Поскольку изучению вопросов развития Legal AI мы уделяем большое количество времени, у нас сформировано представление о том, какие меры будут способствовать наиболее эффективному и быстрому развитию рынка технологий искусственного интеллекта.
Важно отметить, что в общественном сознании устойчиво мнение о том, что отечественные достижения в области цифровых технологий и, в частности, в сфере искусственного интеллекта, отстают от результатов зарубежных стран (США, Китая и др.).
Однако это не так, и существующий разрыв может быть сокращен в краткосрочной перспективе. На российском рынке сложилась уникальная ситуация, при которой созданы все необходимые условия для появления в самом ближайшем будущем прорывных отечественных решений.
Во-первых, в России существует прочная научная и практическая основа в области искусственного интеллекта. При этом многие материалы и публикации по теме находятся в открытом доступе, а в профессиональном сообществе активно осуществляется обмен опытом, достижениями и концептами. Это позволяет наглядно видеть существующие тренды (в том числе зарубежные) в области искусственного интеллекта, понимать вектор развития и оценивать практические достижения в данной сфере.
Во-вторых, в последние годы активно развивается рынок труда и появляются специалисты в области искусственного интеллекта, машинного обучения и нейронных сетей, что позволяет создавать сильные и профессиональные команды разработчиков. Кроме того, благодаря процессам глобализации существует возможность привлекать в команды зарубежных специалистов, обладающих богатым практическим опытом и необходимыми теоретическими знаниями.

В-третьих, весомым преимуществом для отечественного рынка программных решений на основе технологий искусственного интеллекта является уникальность русского языка. Это не позволяет зарубежным IT-компаниям, являющимся лидерами в области цифровых технологий, создавать решения для отечественного рынка и конкурировать с российскими разработчиками, уступающим им по масштабам и финансовым возможностям. В совокупности данные факторы создают все условия для самостоятельного развития технологий искусственного интеллекта в России силами отечественных разработчиков, которые при правильном подходе имеют все шансы на успех.

https://habr.com/ru/post/511004/

Posted in 1. Новости, 3. Научные материалы для использования | Комментарии к записи Искусственный интеллект в области юриспруденции отключены
Июл 16

Что происходит в сфере российского IT? (криминальная подоплёка)

В российских ИТ-структурах идут масштабные аресты по делу многолетней давности

 23328

Бизнес Законодательство Кадры Тендеры Интеграция ИТ в госсекторе Маркет

В отношении ряда известных российских ИТ-компаний начались масштабные следственные мероприятия. Задержаны ИТ-директор «Почты России» и президент НКК. Предположительно, у правоохранительных органов накопились дополнительные материалы о неправомерной деятельности организаций — по следам старого разбирательства ФАС о картельном сговоре.

Следователи пришли в ИТ-компании

Как стало известно CNews, правоохранительные органы России 14 июля 2020 г. начали активные действия в отношении ряда ИТ-структур (как частных, так и государственных) и их топ-менеджеров. В частности были задержаны ИТ-директор «Почты России» Сергей Емельченков и президент «Национальной компьютерной корпорации» (НКК) Александр Калинин, а с его сына Алексея Калинина — экс-президента дистрибутора OCS (входит в НКК) взяли подписку о невыезде.

Об этом CNews рассказал источник на рынке, хорошо знакомый с развитием ситуации. По его данным, правоохранительные органы сейчас отрабатывают версию о неком картельном сговоре.

Следственные мероприятия помимо вышеупомянутых организаций уже могли затронуть компании «Мерлион», «Софтлайн», «Сервионика» («дочка» «Ай-теко») и «Мэйкор» (Maykor). По информации собственных источников издания Tadviser, следователи также посетили «Инфосистемы джет» и «Техносерв».

nnnn600.jpg

В отношении множества ИТ-организаций и их руководства развернуты активные следственные мероприятия

Утром 15 июля 2020 г. издание РБК получило у «Почты России» подтверждение возбуждения уголовного дела в отношении Емельченкова. По информации госкомпании, дело возбудило Следственное управление ГСУ СК по Москве. В то же время, по данным источника CNews, базовой разработкой данной темы занималась ФСБ.

Представители «Инфосистем джет» подтвердили CNews проведение в компании обысков, но заверили, что их причина им не известна. Кто именно осуществлял обыски, собеседники CNews уточнить не смогли.

В НКК и «Мерлионе» темы арестов и обысков прокомментировать CNews отказались.

В «Софтлайне» редакцию заверили в том, что о задержании Сергея Емельченкова им стало известно из сообщений в СМИ. «В нашей компании не проводились следственные мероприятия по делу в отношении ИТ-директора “Почты России”», — резюмировали в организации. При этом на уточняющий вопрос CNews, не проводились ли в компании другие следственные действия, не связанные с Емельченковым, в «Софтлайне» ответить не смогли.

«В «Техносерве» никаких следственных действий, связанных с данными событиями, не проводилось, и никаких запросов от правоохранительных органов на эту тему к нам не поступало», — сообщили CNews представители интегратора.

Возможная подоплека

Источник CNews полагает, что корни нынешней истории берут начало в 2017 г., и связаны с громким разбирательством по линии ФАС. Тогда антимонопольный орган признал поставщиков компьютеров для ГАС «Выборы» виновными в картельном сговоре на касающихся этой информсистемы торгах.

emelchenkov600.jpg

ИТ-директор «Почты России» Сергей Емельченков

В частности, НКК, сборщик компьютерной техники «Аквариус» (входит в НКК), «Бизнес компьютерс групп» и «АМИ-нетворк» договорились не вести конкурентную борьбу при участии в открытом аукционе на поставку компьютеров для нужд ГАС «Выборы». В результате сговора цены оказались завышены. Действия компаний, по версии ФАС, координировала компания «Хьюлетт Паккард А. О.». Все организации были признаны надзорным органом виновными в нарушении положений закона «О защите конкуренции».

Помимо этого, как посчитали в ФАС, «Аквариус» заключил с «Супервэйв групп» соглашение, которое привело к поддержанию цены на редукционе (торги со снижением цены) на поставку офисного и сетевого оборудования Hewlett Packard, а также услуг по установке и настройке такого оборудования для «дочки» «Норникеля».

Президент НКК Александр Калинин

В 2018 г. Арбитражный суд Московского округа подтвердил законность выводов ФАС. В заключении служителей Фемиды о картельном сговоре также фигурировала компания «Крок», но в ходе расследования ФАС ее участие в картельном сговоре не подтвердилось.

Как полагает источник CNews, в ходе отработки данного дела у правоохранительных органов накопились некие дополнительные материалы о деятельности ИТ-компаний, которые сейчас и было решено использовать.

https://www.cnews.ru/news/top/2020-07-15_ves_tsvet_rossijskih_it_pod

Posted in 1. Новости | Комментарии к записи Что происходит в сфере российского IT? (криминальная подоплёка) отключены
Июл 16

Партизанский парад в Минске

16 июля 1944 года в освобождённом Минске прошёл Партизанский парад. В параде приняло участие 30 партизанских бригад

Президент Союза криминалистов и криминологов

Игорь Михайлович Мацкевич

Posted in 1. Новости | Комментарии к записи Партизанский парад в Минске отключены
Июл 16

Великий христианский раскол

16 июля 1054 года в соборе Святой Софии в Константинополе официальные представители Папы Римского объявили о низложении Патриарха Константинопольского Михаила Керулария и его отлучения от церкви. Начало раскола между христианами.

Президент Союза криминалистов и криминологов

Игорь Михайлович Мацкевич

Posted in 1. Новости | Комментарии к записи Великий христианский раскол отключены
Июл 16

Новинки издательства Проспект

«75 лет Великой Победы: общая ответственность перед историей и будущим» и другие новинки Издательства «Проспект»

75 лет Великой Победы: общая ответственность перед историей и будущим

Путин В.В.
2020 г., 48 страниц

Купить книгу:
litgid.com

Код книги: 237 532
Подробнее о книге

Актуальные проблемы финансового права в условиях цифровизации экономики. Монография

Под ред. Грачевой Е.Ю.
2020 г., 256 страниц

Купить книгу:
litgid.com

Код книги: 237 558
Подробнее о книге

Криминалистика. Учебник в 3 ч. Часть 2

Под общ. ред. Багмета А.М., Бычкова В.В., Антонова О.Ю.
2020 г., 240 страниц

Купить книгу:
litgid.com

Код книги: 237 494
Подробнее о книге

Картели и иные антиконкурентные соглашения. Комментарии к самым актуальным антимонопольным делам 2013–2019 гг. (книга первая). Сборник

Отв. ред. Москвитин О.А.
2020 г., 288 страниц

Купить книгу:
litgid.com

Код книги: 237 465
Подробнее о книге

Posted in 1. Новости | Комментарии к записи Новинки издательства Проспект отключены
Июл 16

Хроника покушений на русских царей

16 июля 1764 года убит император Иван VI.

Иван VI Антонович (Иоанн Антонович) родился (12) 23 августа 1740 года в Санкт-Петербурге. Он – сын Анны Леопольдовны (племянницы русской императрицы Анны Иоанновны) и герцога Антона Ульриха Брауншвейгского, правнук Ивана V. Сначала в источниках Иван упоминался как Иоанн III (отсчет идет от первого русского царя Иоанна Грозного), а в поздней историографии установилась традиция именовать его Иваном (Иоанном) VI, считая его от Ивана I Калиты.

Бездетная императрица Анна Иоанновна перед смертью долго не могла решить, кому оставить российский престол. Иван родился уже в самом конце ее царствования. Она хотела оставить трон за потомками своего отца Ивана V и очень боялась, что он может перейти к потомкам Петра I. Поэтому в завещании указала, что наследником является малолетний Иван Антонович, а в случае его смерти – другие дети Анны Леопольдовны в порядке старшинства в случае их рождения.

После смерти императрицы двухмесячный Иван Антонович, был провозглашен императором всероссийским при регентстве герцога Курляндского Э.И. Бирона. Но уже через две недели после воцарения младенца в стране произошел государственный переворот, в результате которого гвардейцы, возглавляемые фельдмаршалом Минихом, арестовали Бирона и отстранили его от власти.

В ноябре 1740 года новым регентом малолетнего императора стала его мать – Анна Леопольдовна. В политическом отношении она не играла никакой роли, к тому же неспособная управлять страной и живущая в иллюзиях Анна вскоре передала всю власть Миниху, а после ею завладел Остерман, отправивший фельдмаршала в отставку. Но и это правительство просуществовало недолго.

Уже год спустя – (25 ноября) 6 декабря 1741 года – в результате государственного переворота на российский престол взошла Елизавета Петровна. Остерман, император, его родители и все их окружение были арестованы. Царствование Ивана VI кончилось прежде, чем он начал осознавать себя – формально он царствовал первый год своей жизни.

Сначала Елизавета хотела выслать «Брауншвейгскую семью» из России, но, испугавшись, что и за границей они будут опасны, передумала и отправила их в ссылку. К тому же по указу новой императрицы все монеты с именем Ивана VI были изъяты из обращения для последующей переплавки, ценные и деловые бумаги подлежали замене на новые, а все его портреты – уничтожению.
Место заключения бывшего императора постоянно менялось и содержалось в глубокой тайне. Сначала Брауншвейгскую семью перевезли в предместье Риги Динамюнде, а затем, подальше от границы, на север страны – в Холмогоры. Хотя он находился в том же доме, что и родители, но жил за глухой стеной. Четырехлетний мальчик был изолирован от родителей и отдан под надзор майора Миллера. Долгие северные походы сильно отразились на здоровье Анны Леопольдовны, и в 1746 году она умерла.

Но распространившиеся слухи о месте нахождении Ивана заставили Елизавету вновь перевести его – в 1756 году его заключили в одиночную камеру Шлиссельбургской крепости, где он (официально именовавшийся как «известный арестант») содержался в полной изоляции от людей, ему не разрешалось видеть даже крепостных служителей. Но документы свидетельствуют, что узник знал о своем царском происхождении, умел читать и писать. В 1759 году у него обнаружились признаки нарушения психики, однако тюремщики сочли их симуляцией.

С восшествием на российский престол в 1762 году Петра III положение Ивана Антоновича не улучшилось. Более того, было дано указание убить его при попытке освобождения. Затем Екатерина II также подтвердила эту «инструкцию», к тому же ужесточила режим содержания «известного арестанта». И для Елизаветы, и для сменивших ее Петра III и Екатерины II, он продолжал оставаться постоянной угрозой. Хотя Иван VI стал к тому времени уже практически легендой, но его не забыли.

За время заточения предпринималось несколько попыток освободить свергнутого императора и вновь возвести на престол. Последняя попытка обернулась для него гибелью.

(5) 16 июля 1764 года Иван VI Антонович в 23-летнем возрасте был убит охраной при попытке мятежника его освободить. Тогда офицер В.Я. Мирович, несший караульную службу в Шлиссельбургской крепости, склонил на свою сторону часть гарнизона, чтобы освободить Ивана и провозгласить императором вместо Екатерины II. Но при узнике (согласно «инструкции») безотлучно находились два сторожа, которые и закололи его.
Мирович был арестован и казнен в Петербурге как государственный преступник, а Иван Антонович похоронен, как считается, в Шлиссельбургской крепости; но на самом деле он единственный из российских императоров, чье место захоронения на сегодняшнее время точно неизвестно.

http://www.calend.ru/person/

Posted in 1. Новости | Комментарии к записи Хроника покушений на русских царей отключены
Июл 16

История криминальных событий. 16 июля

16 июля 1439 года состоялся финал чемпионата мира по футболу в Бразилии, на стадионе «Маракана» на котором присутствовало рекордное число зрителей – 199 854 человека. Сборная Уругвая к величайшему разочарованию болельщиков нанесла поражение сборной Бразилии со счётом 2:1. Стадион рыдал. После окончания матча и вручения золотых медалей уругвайцам, в полицию и больницы стали поступать сообщения о самоубийствах. В общей сложности свели счётф с жизнью более 300 бразильцев.

По материалам интернет-ресурсов

Президент Союза криминалистов и криминологов

Игорь Михайлович Мацкевич

 

16 июля 1957 года произошло загадочное происшествие в провансальском городке Арль. 54-летняя медсестра Мирей Жене взяла новорождённого малыша в семействе Котильон и отправилась на прогулку в парк. Стояла прекрасная солнечная погода. Затем по словам медсестры свет внезапно померк и стало очень холодно. Она взяла на руки проснувшегося малыша и крепко прижала к себе. Всё стихло, исчезли улицы, наступила тишина и темнота. Потом темнота исчезла также внезапно, как наступила. Медсестре показалось, что всё это продолжалось не более 15 минут. Вместе с тем на улице был уже вечер и горели уличные фонари.  Медсестра поспешила вернуться с ребёнком домой. В доме Котильонов её встретили не только родители малыша, но и полицейские. Оказалось, что они безуспешно искали её и ребёнка в течение трёх суток. Данное происшествие задокументировано полицейскими и не является выдумкой.

По материалам интернет-ресурсов

Президент Союза криминалистов и криминологов

Игорь Михайлович Мацкевич

Posted in 1. Новости | Комментарии к записи История криминальных событий. 16 июля отключены
Июл 15

Die große Eröffnung der Ausstellung „Nürnberger Notglocke“ fand am 10. Juli statt

Am 10. Juli 2020 eröffnete Sergei Je. Naryschkin (auf Englisch weiterlesen) die Museumsausstellung „Nürnberger Notglocke“.

Projektleiter, Vizepräsident des Verbandes der Kriminalisten und Kriminologen Aleksandr G. Zvyagintsev.

PHOTO-2020-07-10-16-19-13

Die erste Ausstellungtour führte A.G. Zvyagintsev durch. Einer der ersten Besucher war S.Je. Naryschkin.

PHOTO-2020-07-10-16-20-04

S.Je. Naryschkin trug sich ins Gästebuch ein.

PHOTO-2020-07-10-16-22-08

PHOTO-2020-07-10-16-24-37

Nach der Ausstellungtour überreichte S.Je. Naryschkin dem Projektleiter A.G. Zvyagintsev die Ehrenurkunde: „…für viele Jahre Arbeit zur Studie der Geschichte und einen bedeutenden persönlichen Beitrag zur Erhaltung der Erinnerung an die Nürnberger Prozesse“.

PHOTO-2020-07-11-09-15-41


Übersetzt von Jelisaweta Owtschinnikowa 

Posted in Nachrichten auf Deutsch | Комментарии к записи Die große Eröffnung der Ausstellung „Nürnberger Notglocke“ fand am 10. Juli statt отключены
Июл 15

Explosion of the grave of Alexander Pushkin

On 13 July 1944, a platoon of Senior Lieutenant S.E. Popov from the 157th Engineer-Sapper battalion was killed during the demining of the grave of Aleksandr Pushkin in the Pushkin Mountains near Pskov. The soldiers found mines on the road near the monastery wall. Close to the monument to the poet. Mine clearance has begun. It turned out that new model anti-tank mines were used. The sappers had not previously dealt with them. One mine was equipped with an anti-handling device. While trying to disarm the mine, it exploded. As a result, were killed:

— the natives of Tambov Oblast Senior Lieutenant S.E. Pokidov, Sergeant I.A. Kombarov, Private I.V. Yartsov;

— the Muscovites Senior Sergeant M.A. Kazakov and Sergeant N.O. Akulov;

— the native of Arkhangelsk Lieutenant V.P. Kononov;

— the resident of Chelyabinsk Oblast Private E.O. Kozlov;

— the resident of Ivanovo Oblast Private I. F. Travin;

— Private V.S. Trenov, whose origin has not been established.

https://vakin.livejournal.com/1643722.html

President of the Union of Criminalists and Criminologists

Igor M. Matskevich

Translated by Elizaveta Ovchinnikova 

 

Posted in News in English | Комментарии к записи Explosion of the grave of Alexander Pushkin отключены
Июл 15

Сборник конференции «Технологии XXI века в юриспруденции»

Вышел в бумажном и электронном вариантах сборник Второй международной научно-практической конференции «Технологии XXI века в юриспруденции», прошедшей в режиме ВКС 22 мая 2020 года.

Материалы, опубликованные в сборнике, посвящены следующим темам:

  • Общие вопросы изучения и использования технологий в юриспруденции. Технологии в образовании.
  • Искусственный интеллект, интеллектуальные системы, робототехника.
  • Распределённый реестр, смарт-контракты, криптовалюты и иные цифровые продукты.
  • Геномные исследования.
  • Репродуктивные технологии. Суррогатное материнство.
  • Электронное правосудие. Электронный документооборот.
  • Электронные (цифровые) доказательства.
  • Интернет. Социальные сети.
  • Киберпреступность. Технологии в правоохранительной деятельности.

Ознакомиться со сборником и скачать статьи можно с сайта elibrary.ru или файлом по прямой ссылке.

Обложка для ТЕХНОЛОГИИ XXI века в юр

Posted in 1. Новости, 3. Научные материалы для использования, Екатеринбург, Материалы конференций | Комментарии к записи Сборник конференции «Технологии XXI века в юриспруденции» отключены
Июл 15

Eine einzigartige Ausstellung über die Nürnberger Prozesse im Staatlichen zentralen Museum für zeitgenössische Geschichte Russlands

Im Staatlichen zentralen Museum für zeitgenössische Geschichte Russlands (Moskau, Twerskaja-Straße 21) findet eine Ausstellung statt, die den Nürnberger Prozessen (Volksprozess gegen den Nationalsozialismus) gewidmet ist. Diese große Ausstellung über die Nürnberger Prozesse findet zum ersten Mal statt!

Der Projektleiter und Ausstellungskurator ist Alexandr G. Zvyagintsev – Vizepräsident der Internationalen Vereinigung der Staatsanwälte, Vizepräsident des Verbandes der Kriminalisten und Kriminologen.

PHOTO-2020-07-02-11-21-17

In der Ausstellung sind mehr als 1000 einzigartige Exponate ausgestellt. Die Mehrheit von ihnen wird zum ersten Mal gezeigt. Viele Ausstellungsstücke gehören zur persönlichen Sammlung von A.G. Zvyagintsev.

PHOTO-2020-07-02-11-17-02PHOTO-2020-07-02-11-17-03PHOTO-2020-07-02-11-17-04

Im Museum sind viele authentische Dokumente und persönliche Gegenstände von Prozessbeteiligten ausgestellt. Die Besucher können die Roben von Andrei Ja. Wyschinski, Iona T. Nikitchenko und anderen Teilnehmern an den Nürnberger Prozessen betrachten.

PHOTO-2020-07-02-11-17-05

PHOTO-2020-07-02-11-17-06PHOTO-2020-07-02-11-17-08PHOTO-2020-07-02-11-18-19

PHOTO-2020-07-02-11-17-05

Es gibt mehr als 20 Videomonitore. Sie ermöglichen den Besuchern, sich mit einer umfassenden Auswahl an Multimedia-Programmen über die Nürnberger Prozesse zu informieren.

PHOTO-2020-07-02-11-20-43

PHOTO-2020-07-01-15-48-59

Über die Ausstellung wurde in verschiedenen TV-Reportagen (Kanal 1, Russland-1 und Russland-24 (VGTRK), NTV) berichtet. Speziell für den Fernsehkanal NTV (auf dem Foto) wurde eine separate Sendung gemacht – «Dokumentarische Reportage». Für den Dokumentarfilm wurden speziell folgende Teilnehmer gefilmt:

1) Der Hauptmilitärstaatsanwalt Italiens Marco de Paolis;

PHOTO-2020-07-02-11-20-46

 

2) Benjamin B. Ferencz – der letzte noch lebende Staatsanwalt, der an den Nürnberger Nachfolgeprozessen beteiligt war. Er feierte vor kurzem seinen 100. Geburtstag!!!

PHOTO-2020-07-02-11-20-44

Sein Interesse an der Ausstellung zeigte der berühmte amerikanische Regisseur Oliver Stone (dreifacher Oscars-Gewinner). Er hat zu A.G Zvyagintsev gute enge Beziehungen und half dem russischen Kollegen.

 

In einem separateren Saal kann man dem Projekt „Requiem“ sehen. Es gibt den dramatischen Ton der ganzen Exposition an. Diesen Effekt verstärken zahlreiche Gemälde und Zeichnungen, die an den Wänden des Museums platziert sind. Prominente sowjetische Künstler schufen sie während der Arbeit des Hauptprozesses der Menschheit. Hier, an mehreren Ständen, gibt es speziell ausgewählte Sammlungen von seltenen Büchern, die von dem Volksprozess erzählen.

 

Das neue Buch von A.G. Zvyagintsev wird auch im Museum vorgestellt.

PHOTO-2020-07-02-11-18-21

PHOTO-2020-07-02-11-17-07

Ab dem 22. Juni kann man sich auf der Website des Museums eine virtuelle Tour anschauen und sich mit der gesamten Ausstellung vertraut machen. Hier finden Sie den Link zu der Webseite (auf Russisch): https://sovrhistory.ru/events/excursion/5ef07aef3d03ce6fbefaf9b6

Allein in den ersten Tagen der Eröffnung der virtuellen Tour haben mehr als eine halbe Millionen Menschen die Ausstellung besucht.

Präsident des Verbandes der Kriminalisten und Kriminologen

Igor M. Matskevich

Übersetzt von Jelisaweta Owtschinnikowa 

 

 

 

Posted in 6. Без рубрики, Nachrichten auf Deutsch | Комментарии к записи Eine einzigartige Ausstellung über die Nürnberger Prozesse im Staatlichen zentralen Museum für zeitgenössische Geschichte Russlands отключены
Июл 15

Искусственный интеллект в области юриспруденции

  • Введение
Тема искусственного интеллекта сегодня — одна из самых обсуждаемых. Перспектива «обеспечить монополию в сфере искусственного интеллекта и стать властелином мира» заставила всех соревноваться в данной области. IT-гиганты, финансовые компании, бизнес-аналитики, университеты и научное сообщество предлагают собственное видение инструментов и методологии решения основных задач при их создании. Однако результаты удручают, особенно в сфере LegalTech.

Что такое настоящий LegalTech, а что скрывается под громкими рекламными слоганами? Почему никому из IT-разработчиков не удалось создать действительно прорывной и функциональный продукт, близкий к цифровому юристу? Какой подход позволил нам решить данные задачи и существенно приблизиться к созданию настоящего юридического искусственного интеллекта?


Какова роль практикующих юристов в процессе разработки инструментов автоматизации?
В данной статье мы хотим поделиться с Вами результатами многолетних исследований в области искусственного интеллекта и предоставить ответы на эти вопросы.
Disclaimer: мы не критикуем существующие инструменты, а говорим о том, что для решения обозначенного круга задач требуется качественно новый подход к разработке.

1. LegalTech в России

Наша компания более 15 лет успешно работает на рынке консалтинговых и юридических услуг. Обладая значительным юридическим опытом решения самых нестандартных кейсов и сложных проектов в России и за рубежом, мы посвятили не один год научному исследованию и практическим разработкам в области цифровых технологий и перспектив их применения в профессии. Несколько лет назад мы задались вопросом: почему юридический рынок обделен инструментами автоматизации? Анализ предлагаемых продуктов позволил прийти к следующим результатам.
Мы, как профессиональные юристы, активно следим за развитием сферы LegalTech и за решениями, которые предлагаются на рынке в качестве прорывных продуктов, способных, по заявлениям создателей, изменить традиционное представление о работе юриста. Но на самом деле в качестве LegalTech на отечественном рынке распространяются решения, которые очень далеки от содержательной автоматизации юридической функции и позволяют решать локальные задачи, не связанные с творческой и экспертной юриспруденцией. В то время, как инженеры активно применяют в повседневной работе решения, выполняющие сложные расчеты и рутинные операции, а сотрудники финансового сектора используют цифровые платформы для построения финансовых моделей и оценки рисков, все, что есть у юристов — чуть более продвинутые поисковые сервисы и шаблоны документов.

Весь доступный инструментарий для юриста сегодня это:

  • конструкторы документов, работающие на основе типовых и унифицированных шаблонов, в которых любое отклонение от формы требует ручной правки;
  • сервисы проверки контрагента, осуществляющие агрегацию общедоступной информации из публичных реестров (ЕГРЮЛ/ЕГРИП, Федресурс, КАД и др.), которые редко позволяют найти ценную информацию;
  • системы подбора судебной практики и справочно-правовые системы, осуществляющие базовый поиск по ключевым словам, фразам, тегам в открытой базе судебных решений и НПА, которые предоставляют все документы, содержащие искомое слово без учета контекста и др.;
  • системы управления проектами, задачами и документами (различные BPM/ERP/ECM-системы, заточенные на автоматизацию биллинга, учет времени и контроль за ресурсами).

Данные инструменты ни на шаг не приближают нас к автоматизации творческой и экспертной юриспруденции. Они, безусловно, облегчают работу юриста, но только в вопросах поиска информации, а не в ее интеллектуальной обработке с точки зрения юридической логики. Практикующие юристы высокой квалификации согласятся с нами, что если бы можно было предлагать клиентам шаблонные договоры, в которые встроены актуальные даты, суммы и наименования объектов, то профессии юриста уже бы не было. Ценность юриста заключается в его способности предвидеть ситуацию на несколько шагов вперед и предлагать нестандартные решения в пользу клиента с минимальными рисками и издержками с точки зрения права.
Мы однозначно можем сказать, что при существующем уровне развития технологий юридический рынок в России (и, скорее всего, в мире) не имеет полноценных решений, способных заменить юриста даже начальной квалификации и автоматизировать хоть в сколько-нибудь значимой части юридическую функцию.

2. Особенности предметной области

Прежде чем перейти к анализу технологической стороны вопроса необходимо понять особенности предметной области. Работа любого юриста-эксперта связана с документами. Данные и документы разнородны и имеют собственные отличительные особенности. Задача профессионального юриста при работе с документами заключается в том числе в правовой оценке их содержания, квалификации отношений между субъектами, выявлении правовых и финансовых рисков для представляемой стороны и выработке предложений по их минимизации или в регламентации существующих отношений между хозяйствующими субъектами.
Например, к юристу обратился клиент, который столкнулся с недобросовестным поведением контрагента и требует защитить его интересы. Задачами юриста являются:

  • запросить и (или) собрать необходимые документы (договоры, акты, письма и все иные материалы, имеющие отношение к делу) и установить значимые юридические факты;
  • оценить их под призмой действующего законодательства и практики его применения (понять правовую природу отношений и определить круг правовых норм, подлежащих применению);
  • предложить варианты решения проблемы и собственные рекомендации, после — реализовать выбранный вариант.

Это только один из примеров, с которыми сталкивается юрист ежедневно. При последовательном решении каждой отдельно взятой задачи проявляется профессионализм и экспертные навыки, которые формируются по мере работы юриста и накопления опыта. Одна из значимых компетенций юриста — это умение видеть в письменных документах все юридические факты, выделять наиболее значимые и соотносить их с нормами права для поиска возможных решений. Именно поэтому одной из ключевых и первостепенных задач, которую необходимо решить для создания действительно функционирующих инструментов автоматизации юридической работы, является обучение машины смысловому понимаю текста на уровне юриста-профессионала. Речь идет о полноценном семантическом анализе юридических текстов.
При обращении к вопросам автоматизации юридической функции и создания полноценного юридического искусственного интеллекта мы считаем, что без применения глубоких лингвистических технологий эти задачи решить не получится. Это, прежде всего, связано с необходимостью научить программные инструменты понимать не только отдельные сущности (категории) в тексте, но и анализировать текст, выделять все возможные смыслы и проводить логические взаимосвязи в его содержании. В качестве подтверждения данного тезиса приведем следующие аргументы.
В первую очередь, при анализе документа юрист оценивает его содержание с точки зрения смыслов, которые в нем содержатся. Например, в тексте большинства уставов обществ с ограниченной ответственностью имеется следующий пункт, дублирующий п. 3 ст. 21 Федерального закона № 14-ФЗ от 08.02.1998 г.: «Доля участника Общества может быть отчуждена до полной ее оплаты только в той части, в которой она уже оплачена». Применяя экспертные юридические знания мы можем извлечь следующие смысловые блоки из данного предложения:

  • У участника Общества есть доля.
  • Доля участника общества может быть отчуждена.
  • Доля участника общества может разделяться на части.
  • Часть доли может быть отчуждена.
  • Участник Общества вправе осуществить отчуждение доли или части доли участника Общества.
  • Доля участника Общества оплачивается участником.
  • Доля участника Общества может быть оплачена не полностью.
  • Часть доли участника Общества может быть оплачена.
  • Часть доли участника Общества может быть не оплачена.
  • Отчуждение неоплаченной части доли участника Общества запрещено.
  • Отчуждение оплаченной части доли участника Общества разрешено и др.

Подобный уровень детализации смыслового содержания документов с помощью машинных инструментов невозможно добиться без воссоздания юридической «картины мира» путем разработки экспертных семантических концептов, созданных в тесном взаимодействии с погруженными в предметную область (как в теорию, так и в практику) специалистами.
Кроме того, с точки зрения внутренней структуры, документы, используемые в юриспруденции, могут быть классифицированы следующим образом:

  1. высокоструктурированные документы, имеющие установленную законом строгую форму и упорядоченное содержание (выписки и справки из публичных реестров, документы на бланках строгой отчетности, управленческая документация по ОКУД и др.);
  2. слабоструктурированные документы, имеющие, как правило, шаблонную форму, но содержащие некоторые творческие элементы (банковские выписки и др.);
  3. неструктурированные документы, не имеющие однородной формы и содержания и характеризующиеся высоким уровнем уникальности содержания (договоры, корпоративные акты, процессуальные документы, юридические заключения, меморандумы и др.).

И если для машинной обработки высокоструктурированных документов сложные лингвистические решения не требуются, то для слабоструктурированных и неструктурированных документов, которых в области права большинство, технологии NLP (Natural Language Processing) являются единственным инструментом, способным справиться с данной задачей.
Итак, определив приоритетные задачи для создания юридического искусственного интеллекта, мы приступили к анализу рынка и тестированию существующих инструментов NLP. Результаты исследования представлены в Главе 2 настоящей статьи.

2.1. Чат-боты и цифровые ассистенты

 
Пару слов также нужно сказать про ставших недавно популярными цифровых помощников, чат-ботов, ассистентов и т. п. Безусловно, с приходом Alexa, Siri и Алисы множество аспектов бизнеса и нашей повседневной жизни кардинально поменялись:

  • подавляющее большинство задач планирования («поставь встречу в календарь») и поиска информации («найди год выпуска фильма») решается без участия человека;
  • наверное, самый большой эффект на себе пока ощутила сфера поддержки клиентов, где личное общение со специалистом все чаще становится доступным только для премиального сектора.

В свете такого взрывного роста возникает большой соблазн создать робота-юриста (как end-to-end решение):

  • записать ответы юриста на ТОП-100/1000 самых частых вопросов, составить подробный FAQ, описать все возможные жизненные ситуации и т. п.;
  • «загрузить» в нейронную сеть всю имеющуюся судебную практику, судебные решения;
  • как результат — получить робота, который сможет (например, при помощи deep learning) соотнести запрос пользователя с ответом юриста (судебным прецедентом, решением), который был дан ранее в похожей ситуации.

Такая идея далеко не нова, но все попытки ее реализации за всю мировую историю права неизменно заканчивались неудачей. Причина в следующем: практикующий юрист почти каждый день сталкивается с новой уникальной задачей, которая требует творческого подхода. В связи с этим технологии чат-ботов и ассистентов мы не расцениваем как элемент LegalTech/Legal AI, поскольку они имеют сугубо опосредованное отношение к автоматизации юридической функции.
Наше субъективное мнение: применение технологий цифровых ассистентов, чат-ботов в сферах экспертной деятельности — крайне рисковое мероприятие:

  • ущерб от некорректных действий традиционного чат-бота, например, в сфере поддержки клиентов является номинальным: в случае некорректной работы можно получить недовольного клиента, плохой отзыв и т. п.;
  • если ошибается чат-бот в сфере, где необходимы экспертные знания (например, юриспруденция, медицина, строительство) — ущерб может быть непредсказуемым и фатальным.

При этом не составляет особого труда предугадать логику законодательного регулирования. Если цифровые ассистенты и чат-боты будут допущены до экспертной сферы, то, скорее всего, на уровне закона будет установлено, что за все рекомендации и действия ассистентов и чат-ботов их разработчики несут полную ответственность.

3. Анализ существующих подходов и инструментов

Исследованиям вопросов в области лингвистики и технологий NLP мы посвятили большое количество времени в том числе в рамках рабочих встреч и обсуждений подходов с представителями научного сообщества. Нельзя не оценить их вклад в развитие инструментов обработки текста, которые в настоящее время показывают хорошие практические результаты. Мы благодарны представителям научного сообщества за бесценный опыт, которым они поделились с нами и внимание, проявленное к нашим разработкам. Прежде всего мы имеем в виду следующие коллективы:

  • ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики) и, в частности, Руководителя международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии», доцента факультета программной инженерии и компьютерной техники Дмитрия Муромцева, а также его коллег — Любовь Ковригину и Ивана Шилина: под руководством Д. Муромцева был адаптирован для русского языка синтаксический парсер, созданный в Стэндфордском университете для применения на англоязычных текстах (подробнее о тестировании парсера Stanford — в разделе 3.2.3.3.);

  • Лабораторию компьютерной лингвистики ИППИ РАН им. А.А.Харкевича (Институт проблем передачи информации Российской академии наук) и, в частности, научных сотрудников Леонида Иомдина и Ивана Рыгаева, под руководством которых был создан синтаксический парсер ЭТАП (и версия ЭТАП-4), применяемый для русского языка (подробнее о тестировании ЭТАП — в разделе 3.2.3.2.).


В России направление NLP развивается во многом благодаря энтузиазму и многолетней работе ученых, осуществляющих разработки в области процессинга русскоязычного текста в условиях ограниченного бюджета, а также отсутствия частных и государственных инвестиций, способных финансировать масштабные исследовательские проекты. Несмотря на эти обстоятельства, данными научными коллективами были достигнуты огромные практические результаты в области процессинга текста на русском языке, которые заслуживают уважения.
По нашему мнению, обозначенная проблема отсутствия финансовой поддержки и инвестиций в научные разработки технологий NLP в России является одним из факторов, сдерживающих развитие данной области. Государственная поддержка таких проектов позволила бы совершить существенный прорыв в области семантики и синтаксического парсинга, а также достигнуть огромных результатов.
Далее мы предлагаем рассмотреть существующие подходы и инструменты в области обработки текста на русском языке с практической стороны.

3.1. Существующие подходы и коммерческие продукты

В области NLP на отечественном рынке присутствует ряд коммерческих решений, которые предлагают универсальный функционал по процессингу русскоязычных текстов. Однако среди данных продуктов отсутствуют профильные решения, ориентированные на юристов и способные удовлетворить потребности предметной области в полном объеме.
Совокупно данные продукты могут быть разделены на две группы. Первая группа представляет собой решения, функционал которых обеспечивается за счет многочисленного набора правил, которые формулируются лингвистами и специалистами из предметной области. Наиболее известными системами являются решения от ABBYYPullentiMegaputer и ряда других др. Разработчиками данных решений предлагается проведение лингвистического анализа неструктурированных текстов посредством выделения именованных сущностей (Named Entity Recognition), применения правил морфологии, синтаксиса, семантики и иных процедур обработки (как правило, такие правила описываются в проприетарном закрытом формате). Стоит оговориться, что в таких системах могут применяться элементы машинного обучения, но они играют второстепенную роль.
Принципиальный недостаток таких решений кроется в подходе — реализация функционала путем создания отдельных правил приводит к необходимости вырабатывать десятки/сотни тысяч правил для отдельно взятой области, что неизбежно приводит к возникновению противоречий. Классический пример:

  • для фразы: «студент проходил обучение в МГУ имени М.В.Ломоносова»;
  • правила поиска организаций дадут результат — «МГУ имени М.В.Ломоносова»;
  • правила поиска имен (ФИО) дадут результат — «М.В.Ломоносов»;
  • для разрешения данной (и каждой похожей) ситуации нужно вручную создавать специальное правило-исключение.

Кроме того, одно изменение или ошибка может потребовать пересмотра значительной части правил.
Вторая группа — решения, основанные на применении нейронных сетей, обученных на корпусе текстов. Наиболее яркими представителями являются DeepPavlov, FRED и др. В отличие от первой группы продуктов использование машинного обучения позволяет уйти от необходимости разработки правил анализа текста и их правки при изменениях в предметной области, однако для подготовки обучающего датасета требуется профессиональная разметка сотен тысяч образцов документов каждой используемой категории. В настоящее время существующие модели предобучены на корпусе текстов из общедоступных источников: художественной литературы, текстов в сети (wikipedia) и др., что не позволяет полноценно использовать их при обработке юридических текстов, обладающих собственной спецификой. Обучение же на корпусе юридических документов осложнено отсутствием в открытом доступе достаточного количества уникальных образцов в связи с конфиденциальным характером содержания реальных правовых документов.
Именно поэтому в настоящее время нет коммерческих проектов, созданных на основе ML/DL, где в качестве обучающего датасета присутствует достаточное количество юридических текстов. Тем не менее многие крупные компании, обладающие собственной обширной базой документов, предпринимают попытки создания инструментов для внутреннего пользования.

3.2. Тестирование отдельных инструментов NLP

Общеизвестен факт, что русский язык во многих аспектах — один из самых сложных языков, особенно когда дело касается профессиональной лексики. Юридические тексты объединяют в себе не только специфическую терминологию, но и формализм, сложную синтаксическую структуру, характеризующуюся наличием множества оборотов (сложносочиненных и сложноподчиненных предложений, причастных и деепричастных оборотов и др.).
Исследуя и подбирая инструменты для решения задачи процессинга юридических текстов на русском языке, мы столкнулись с рядом проблем. Для понимания сложности задачи приведем два примера предложений:

  1. Стоимость товара составляет десять тысяч рублей.
  2. Согласно пункту 4 Правил безвозмездные целевые взносы предоставляются субъектом оптового рынка на цели выделения из соответствующих бюджетов субъектов Российской Федерации субсидий на возмещение гарантирующим поставщикам, реализующим электрическую энергию (мощность) покупателям на розничных рынках, расположенных в территориально изолированных технологических системах и (или) на территориях, технологически не связанных с Единой энергетической системой России и технологически изолированными территориальными электроэнергетическими системами, а также гарантирующим поставщикам (энергосбытовым (энергоснабжающим) организациям), реализующим электрическую энергию (мощность) покупателям на розничных рынках, расположенных на территориях неценовых зон оптового рынка, недополученных доходов в связи с доведением цен (тарифов) на электрическую энергию (мощность) до базовых уровней цен (тарифов) на электрическую энергию (мощность) в соответствующем периоде регулирования в соответствующем субъекте Российской Федерации. (Решение Верховного Суда РФ от 22 марта 2019 г. № АКПИ18-1182)

Очевидно, что предложения по типу второго примера чаще используются в юридических текстах, чем по типу первого, что и порождает проблемы в реализации процессинга.
Кроме того, для русского языка неприменимы инструменты, созданные для англоязычных текстов. Причина тому кроется в критических различиях в данных языках. Тогда как английский язык является аналитическим, русский язык обладает главным образом свойствами синтетического языка. Из этого следует ряд принципиальных отличий между ними. Английский язык имеет фиксированный порядок слов, обеспечивающий структурную связность текста, тогда как в русском языке структура формируется при помощи множества грамматических морфем (приставок, суффиксов, флексий).
Для понимания приведем следующий пример: «В 2019 году совершена притворная сделка, в соответствии с которой имущество было отчуждено в пользу аффилированного лица мужа члена Совета директоров, фиктивный развод с которым состоялся годом ранее». В данном предложении придаточная часть может относится к нескольким сущностям: «аффилированному лицу», «мужу», «члену Совета». В английском языке этот вопрос разрешился бы за счёт близости главной и зависимой частей.
Английскому языку присуще также обязательное наличие в предложении подлежащего и сказуемого, тогда как русский язык характеризуется возможностью пропуска не только одного из главных членов предложения, но и зачастую слов, смысл которых предполагается, применяя такие фигуры речи, как эллипсис (пропуск слов с возможностью контекстуального восстановления). Например: «На собрании председательствующий представил аудиторское заключение, ревизор – решение суда», в котором повторяющийся глагол «представил» опускается во второй части и реализуется с помощью пунктуации.
Все это свидетельствует о сложности и уникальности русского языка, особенно с учетом особенностей профессиональной терминологии юристов. Текущий уровень развития NLP, к сожалению, не позволяет нам сформировать лингвистические универсалии, позволяющие совершать сложные логические операции (анализ, синтез, генерация и вывод) над текстами всех областей человеческих знаний. Более того в настоящее время нет готовых программных решений по процессингу русского языка даже для крайне узких предметных областей по отдельности, не говоря даже о юридических текстах, которые сочетают в себе как профессиональную лексику, так и общеупотребительные конструкции и терминологию из других сфер.
Технологии NLP строятся на трёх основных направлениях лингвистики: морфологии, синтаксисе и семантике. Поиск решений в области морфологического анализа для русского языка уже не вызывает острых вопросов: есть несколько готовых качественных инструментов в области морфологии, а также открытых библиотек (например, natasha/yargy). С синтаксисом дела обстоят несколько иначе. Мы исследовали множество парсеров, созданных для русского языка и адаптированных к нему. У всех есть свои преимущества и недостатки. Решение задачи семантического анализа юридических текстов также осложнено рядом проблем. Подробнее об этом расскажем ниже.

3.2.1. Семантический анализ

3.2.1.1. DeepPavlov

Исследования и разработки с применением семантики направлены на решение многих задач NLP: от глубинного машинного перевода до диалоговых систем и программных решений по генерации готовых текстов. Изучая научные наработки и готовые open-source модели, мы пришли к выводу, что интенсивнее всего семантическая область NLP на русском языке развивается в сфере систем с естественно-языковым интерфейсом, способным принимать вопросы и отвечать на них на естественном языке (Question-answering system, QA-системы). Однако и в сфере QA-систем отсутствуют профильные решения для юристов.
Одна из наиболее эффективных существующих моделей — DeepPavlov. Данная модель основана на Google BERT (и ряде других моделей) и является открытой программной библиотекой разговорного AI для создания виртуальных диалоговых ассистентов и универсального анализа текста.
Для первого теста мы выбрали предложение осложненное сочинительной, подчинительной связями, перечислениями, уточнениями, аббревиатурами, сокращениями, числами, производными союзами и предлогами: «В соответствии со ст. 46 Конституции РФ и гл. 24 АПК РФ граждане и организации вправе обратиться в суд за защитой своих прав и свобод с заявлением об оспаривании решений, действий органов государственной власти, органов местного самоуправления, должностных лиц, государственных или муниципальных служащих, в результате которых, по мнению указанных лиц, были нарушены их права и свободы или созданы препятствия к осуществлению ими прав и свобод либо на них незаконно возложена какая-либо обязанность или они незаконно привлечены к ответственности».
Тест проводился путем поочередных вопросов системе:

  1. «Чьи действия можно оспорить?»;
  2. «Чьи решения можно оспорить?»;
  3. «Какие действия можно оспорить?»;
  4. «Какие решения можно оспорить?».



Наглядно видно, что вопрос «Чьи действия/решения можно оспорить?» не вызывает трудностей у системы: придаточная часть «органов государственной власти…» относится к однородным членам предложения одинаково, вне зависимости от последовательности этих слов в предложении. Очевидно, вопрос предполагает синтаксическую связь «действий», «решений» со словом/словами в форме родительного (притяжательного) падежа и, вероятно, множественного числа.


Однако, перефразируя тот же вопрос, мы получаем другой результат. Когда вопрос формулируется более абстрактно, последовательность слов в предложении начинает иметь гораздо большее значение, чем его синтаксическая структура, что не соответствует смыслу предложения.
В рамках второго теста мы попытались определить субъектный состав и объект договора из более простого предложения: «Между ООО «Кротвест и ООО «МедКо» заключен договор аренды в отношение нежилого помещения».

Как видно из результатов, система DeepPavlov успешно определила объект и субъектный состав договора из простого предложения. Усложнение задачи и изменение последовательности слов в предложении на входе снова демонстрирует жёсткую привязку семантического анализа к синтаксису и последовательности слов.

Субъект определяется корректно только том случае, когда стороны записаны подряд и напрямую связаны синтаксически (в данном случае предлогом «между» и соединительным союзом «и»). Стоит отметить, что с точки зрения юридической логики оба предложения содержат абсолютно идентичные смыслы: субъектами являются обе компании. Однако в зависимости от формулировки вопроса ответ определяется неустойчиво.


Для третьего теста мы проверили возможность вычленять факты, используя конверсивы (слова, выражающие отношения к одну и тому же событию с разных углов зрения). За основу было взято предложение с именованными сущностями (организация и лицо) и глаголом «продать». Модель хорошо идентифицировала вопросы, лексически дублирующие текст предложения.


Когда же в вопросе применялся конверсив «купить», ответ снова привязывался к синтаксической зависимости вопроса и предложения, а не к семантическому концепту в целом.

Аналогичные операции были проделаны на более простом предложении: «Зоя продала Лене коляску».



В данном тесте модель успешно идентифицировала как объект, так и субъектный состав отношений.
Помимо приведенных примеров мы провели множество других тестов QA-модели DeepPavlov, в том числе на предложениях, не связанных с юриспруденцией. В результате можно сказать, что модель показывает хорошие результаты при постановке вопросов, синтаксически и лексически близких к предложению на входе и, потенциально, может быть использована в качестве поисковой системы для документов большого объёма. Однако для качественного контекстуального анализа и, как следствие, выделения точных данных и значимых смыслов из текста с помощью данной модели видится невозможным. А ведь именно эти задачи представляют особую важность для инструментов, применяемых в юриспруденции.

3.2.1.2. FRED machine reader for the Semantic Web

Ещё одним инструментом семантической обработки текста, привлёкшим наше внимание, является семантический парсер FRED. Архитектура FRED построена на применении нейронных сетей, принципов фреймовой семантики и онтологического подхода, в результате чего анализируемый текст систематизируется путем выстраивания семантических связей между элементами и множеством существующих онтологий.

Система успешно выделяет семантические группы и предоставляет ссылки на используемые онтологии, что позволяет продолжить процессинг текста через онтологические отношения. Предлагаем более детально рассмотреть достоинства и недостатки данного подхода на примерах.
В качестве исходных данных для первого теста мы выбрали следующие простые предложения:
«ООО «Лесник» продало Друнову В.С. партию деревянных слэбов».

«Зоя продала Лене коляску».

Оба примера связаны с отношениями купли-продажи объекта. С точки зрения гражданского права РФ договор купли-продажи включает в себя сторон (продавец и покупатель), объект (объект гражданского оборота, отчуждаемый продавцом в собственность покупателя) и предмет (действия, совершаемые сторонами для достижения желаемого правового результата, а именно — продавец обязуется передать имущество в собственность покупателя, а покупатель — принять объект и оплатить его стоимость).
Рассмотрим, как факты, связанные с продажей, структурируются с помощью FRED:

  • выявлено событие «Продажа» (в графе оно не предполагает обратного события — «Покупка», однако такая возможность должна подразумеваться отношениями в онтологиях);
  • событие имеет Агента (продавца) и Реципиента (покупателя);
  • событие имеет «Тему» продажи (продукт) с его атрибутами, иными словами — материальный объект отношений.

Стоит отметить, что имена физических лиц и наименований организаций во FRED определяются так же неустойчиво (сравните связи агента и реципиента в первом и втором предложении): если во втором предложении «Зоя» и «Лена» соотнеслись с соответствующими именами в онтологии (иначе говоря, были распознаны в качестве имён), то в первом предложении Агент «ООО Лесник» и Реципиент «Друнов В.С.» не соотносятся с классами онтологии вовсе, что говорит о неидентификации наименований организаций в качестве таковых.
Далее рассмотрим пример с синтаксической близостью сторон в предложениях о заключении договора на следующих примерах:
«ЗАО «СадыОгороды» заключило договор аренды нежилого помещения с И.С. Ивановым».

«ЗАО «СадыОгороды» и И.С. Иванов заключили договор аренды нежилого помещения».

В первом примере на графе событие имеет только одну сторону (в качестве Агента идентифицировано «ЗАО СадыОгороды»). Второй же фактический Агент данного предложения «И.С. Иванов» ошибочно ассоциирован с событием через «Продукт» (договор) связью ‘с’ – «Договор ‘с’ И.С. Ивановым». С точки зрения семантики и юридической логики эта связь уместнее в случае «Договор ‘c’ правками (приложением; доп. соглашением и т.д.)». Во втором же примере на графе верно выделяются обе стороны договора («ЗАО СадыОгороды» «И.С. Иванов» имеют роль Агента).
Данные тесты наглядно демонстрируют наличие общей проблемы у FRED и DeepPavlov при семантическом анализе, связанной с сильной привязкой к синтаксису и последовательности слов в предложениях. FRED в сравнении с DeepPavlov, на первый взгляд, видится инструментом, позволяющим выделять факты и семантические связи между ними более конкретно. Однако, при детальном рассмотрении у данного подхода обнаруживаются те же проблемы, что и у DeepPavlov.

3.2.2. Named Entity Recognition (NER)

Еще один инструмент, который широко применяется в компьютерной лингвистике, — Named Entity Recognition (NER). Инструменты NER позволяют распознавать в тексте устойчивые именные сущности по типу таких структурированных данных: дата и время, суммы и числовые величины, адреса, наименования географических объектов, регистрационные и идентификационные номера, ФИО и наименования компаний и др., а также определять их принадлежность к той или иной группе или категории.
На тему подбора оптимальных для русского языка инструментов NER и библиотек уже написано некоторое количество статей. Вкратце стоит отметить, что на сегодняшний день существует множество хороших моделей, пока дело не доходит до русского языка… Здесь мы сталкиваемся с двумя основными проблемами: как правило, ограниченным количеством классов и/или rule-based системами, имеющими в перспективе некоторые ограничения в развитии и, как следствие, риски в их применении. Но готовых решений нет и, в сущности, не может быть без адаптации инструмента к предметной области и решаемым задачам.
Для применения NER в юридической сфере требуется высокая степень детализации и точности разметки ФИО и наименований организаций, классов документов, чисел, торговых марок, наименования объектов гражданского оборота и других сущностей. По своей сути классификация именованных сущностей должна быть построена юристами с учетом действующего правового режима. С точки зрения профессиональной логики такой классификатор должен включать в себя исчерпывающий и закрытый перечень участников оборота (физическое лицо, индивидуальный предприниматель, юридическое лицо с учетом всех организационно-правовых форм), объектов (недвижимое и движимое имущество с учетом всех разновидностей и др.) и должен быть сформирован по принципу — совокупность дочерних сущностей образует родительскую. Например, помещение, здание, земельный участок, морское судно и др. в совокупности образует категорию «недвижимое имущество», а недвижимое имущество в совокупности с движимым есть «вещь».
На практике же, существующие инструменты распознавания именованных сущностей содержат в себе классификаторы, адаптированные под универсальное применение без привязки к конкретной области знаний. Например, библиотека DeepPavlov предлагает следующие типы распознаваемых сущностей.

На первый взгляд, такая классификация представляется вполне разумной, так как во многом совпадает с логикой/форматом восприятия обычного человека. Однако если посмотреть на такую структуру глазами юриста-профессионала, то обнаруживается ряд существенных проблем:

  • предлагается одноуровневая структура, которая не укладывается в рамки российского законодательства: в одну категорию «Facility» объединены все объекты материального мира, являющиеся по своей сути недвижимостью (здания, мосты и др.), а в «Product» — движимое имущество, не учитывая, что все эти объекты являются вещами;
  • самостоятельной группой выступает «Work of art», включающая в себя произведения искусства (с точки зрения права — результаты интеллектуальной деятельности) и др.

Используемая в DeepPavlov классификация хорошо подходит для общих целей и воспроизводит некоторую верхнеуровневую группировку объектов и субъектов материального мира. Но такой подход полностью игнорирует фундаментальные основы российского права: особенности объектов гражданского оборота, субъекты правоотношений, их правовой статус и др. Книга в материальном понимании — это вещь, аналогично велосипеду, но которая одновременно является и произведением искусства, охраняемым как результат интеллектуальной деятельности.
По большому счёту, этот факт говорит о необходимости участия экспертов предметной области в построении классификатора «с нуля» в соответствии юридической базой знаний. При этом юристы имеют возможность фактически создать профессиональную таксономию (экспертное видение предметной области) под актуальные задачи.
Важность корректного распознавания именованных сущностей заключается в том, что именованные сущности являются фундаментом для семантического анализа текстов. При этом верно и обратное: семантический анализ способствует более точной разметке именованных сущностей, когда только из контекста возможно вычленить искомые атрибуты. Достаточно распространённый пример, иллюстрирующий необходимость использования глубокого контекстуального анализа, — эллипсис (пропуск элемента высказывания, легко восстанавливаемого в данном контексте), появляющийся в текстах ближе к середине-концу изложения. Например, тот случай, когда в первом абзаце говорится об «ИП Иванов И.С.», который должен быть идентифицирован в качестве индивидуального предпринимателя, а далее повествование содержит различные вариации той же сущности, в том числе «Иванов», который без контекстуального анализа будет размечен в качестве физического лица).

3.2.3. Синтаксический парсинг

Третьим важным инструментом процессинга текста выступает синтаксический анализ, выполняемый с помощью различных синтаксических парсеров. Синтаксический парсер представляет собой инструмент анализа предложений на основе его синтаксической структуры и представления данных в виде дерева зависимостей, выстроенного между словами. Выбор синтаксического парсера, очевидно, определяет работоспособность семантического анализатора, поскольку синтаксические связи (в т.ч. их тип и место) напрямую определяют результат семантической обработки.
Для исследования работоспособности синтаксических анализаторов на текстах юридического характера, имеющих структурную специфику (юридический стиль характеризуется инкорпорированием в сжатое повествование формальной информации типа наименования документов, паспортных данных и пр., аббревиатур, насыщенностью оборотами, приложениями, подчинительными и сочинительными связями, пояснениями и др.), нами был создана тестовая коллекция предложений разной степени сложности, взятых из реальных юридических документов. Предложения коллекции были дифференцированы и разбиты на три группы: простые предложения, предложения средней и высокой степени сложности. Для понимания сложности задачи приведем примеры каждой из группы предложений из тестовой выборки:

  1. Простое предложение: «Между Истцом и Ответчиком заключен Договор аренды от 01.08.2012 г. в отношении нежилого помещения».
  2. Предложение средней степени сложности: «Принимая во внимание вышеизложенное, Договор купли-продажи доли является ничтожным в силу статьи, поэтому не влечет юридических последствий за исключением тех, которые связаны с его недействительностью и недействителен с момента его совершения».
  3. Предложение высокой степени сложности: «Принимая во внимание вышеизложенное, Договор купли-продажи доли в размере 75% уставного капитала Общества от 26.10.2006 г., заключенный между Компанией Марс Систем и Закрытым акционерным обществом «Консалтинговая фирма «СТН МРТ», является ничтожным в силу ст. 168 ГК РФ, поскольку заключен с нарушением п.3 ст. 154 ГК РФ, поэтому не влечет юридических последствий за исключением тех, которые связаны с его недействительностью и недействителен с момента его совершения».

Мы проанализировали большинство доступных парсеров (ниже приведена основная их часть) на данной коллекции юридических предложений разной степени сложности и пришли к выводу, что качественный синтаксический парсинг на основе существующих инструментов возможен только для простых предложений и предложений средней степени сложности (с рядом оговорок). Парсинг предложений высокой степени сложности пока недоступен и требует существенных доработок
При тестировании парсинга предложений средней степени сложности был выбран следующий фрагмент: «В разъяснениях, данных в п. 16 Постановления пленума ВС РФ и Пленума ВАС РФ «О некоторых вопросах применения Федерального закона», указано на то, что выход участника из общества осуществляется на основании его заявления».
Подробности тестов различных синтаксических парсеров приведены ниже.

3.2.3.1. АОТ

Проект «Автоматическая обработка текстов» (АОТ) приостановил своё развитие несколько лет назад. Как заявляли его создатели, подход, используемый в АОТ, скорее можно назвать консервативным, чем революционным, поскольку общая идея, объясняющая сущность естественного языка, отсутствует. Максимально приблизить человеческий язык к современному компьютеру возможно только при помощи грамотной декомпиляции языковых механизмов. Тем не менее для нас было важно апробировать данную систему для сравнения её с грамматикой зависимостей, поскольку АОТ применяет грамматику непосредственно составляющих.

На скриншоте с результатами теста заметно, что не все слова и сокращения («ВАС РФ», «указано») в предложении имеют связи со словами и группами слов. «ВАС» и «РФ» должны быть связаны по типу «генит_иг», а «указано» должно объединиться с предложной группой «на то…» связью «кр_прч». Помимо этого большое количество именных, предложных и прочих групп не связаны друг с другом. К примеру, группа «выход участника» синтаксически связана с группой «из общества», что не следует из выведенного системой разбора.
Дело в том, что грамматика непосредственно составляющих с трудом перекладывается на структуру русского языка с его нефиксированной последовательностью слов в предложении, и, соответственно, предложение теряет значительное количество синтаксических связей, в том числе влияющих на смысл.
Отсюда следует, что главным минусом данного подхода является неполнота связей. Иначе говоря, некоторые токены остаются «в воздухе», что недопустимо при создании графа и дальнейшем семантическом анализе.

3.2.3.2. ЭТАП

ЭТАП – лингвистический процессор, разработанный сотрудниками ИППИ РАН. В его основе лежит теория «Смысл <=> Текст» И.А.Мельчука. Это система, главное предназначение которой – анализировать и синтезировать тексты, то есть преобразовывать тексты из их исходного вида в некоторое абстрактное представление, приближенное к представлению смысла, и обратно. Помимо этого главного предназначения, направленного на решение фундаментальной задачи моделирования естественного языка, имеется и прикладной аспект. Поскольку система умеет понимать и строить тексты, разумно попытаться использовать эту способность в каких-либо конкретных приложениях, способных принести конкретную пользу, например, для генерации юридических документов на основе входных данных.
Система является rule-based решением как в области синтаксиса, так и в области семантики.

На результатах теста видно, что процессор ЭТАП с трудом усваивает длинные, осложнённые предложения: последовательно расположенные существительные в больших предложениях соотносятся друг с другом так же последовательно. Например, это распространяется на следующую часть предложения: «Постановления Пленума ВС РФ и Пленума ВАС РФ».
Сочинительная связь ‘conj’ должна связывать слова «Пленума» и «Пленума», а по результату процессинга соединяет подряд стоящие слова «РФ» и «Пленум». Подобные ошибки в дальнейшем могут сказаться на семантической логике связей. Также система дробит числовые показатели и, следовательно, находит новые несуществующие с точки зрения смысла связи.
К преимуществам ЭТАП можно отнести присутствие дополнительных лексических функций/связей, позволяющих более глубоко работать с семантикой на следующих этапах

3.2.3.3. Stanford

Синтаксический парсер Stanford – парсер, разработанный в Стендфордском университете. Данный парсер использует модель arc-standard system, где выбор действия осуществляется с помощью нейронной сети. Особенностью данного парсера является то, что он изначально был создан и обучен для применения на англоязычных текстах, при этом грамматика английского языка предполагает только 15 типов связей. При адаптации парсера для русского языка типы связей были сохранены. Однако русский язык содержит порядка 30 типов связей, что порождает значительные трудности в использовании данного парсера на русскоязычных текстах.
В процессе тестирования Stanford выдаёт минимальное количество разнородных, но зачастую несущественных ошибок, верно выявляя структуры сложносочинённых и сложноподчинённых предложений.

Здесь сочинительной связью «сonj» система объединила категории «пункте» и «Пленума», хотя из предыдущего разбора нам уже известно, что эта связь закреплена за словами «Пленума» и «Пленума».
Стоит также обратить внимание на следующую особенность: при том что словосочетание «Пленума ВС РФ» с его аббревиатурами разобрано верно (последовательная зависимость «nmod»: от «Пленума» к «ВС», от «ВС» к «РФ»), аналогичное словосочетание «Пленума ВАС РФ» уже требует корректив (вместо последовательности от «Пленума» как к «ВАС», так и к «РФ», необходима последовательная связь, аналогичная предыдущему словосочетанию), что говорит о нестабильном результате вывода. При этом относительно качественно разобраны структурные части предложения (причастные обороты, подчинительная часть).
В итоге к преимущества Stanford мы можем отнести устойчивую работу при анализе структуры предложения (что является существенным аргументом в пользу парсера) и полный разбор предложения без пропусков. К недостаткам — скорость обработки, некоторая хаотичность выделения связей между токенами (от глагола к прилагательному, а уже после через него к существительному).

3.2.3.4. UDPipe 2.4

Модель Universal Dependencies предобучена на нескольких русских размеченных корпусах, среди которых к сравнительному анализу были взяты следующие: GSD, taiga и SynTagRus. Безусловно, самой качественной среди них оказалась модель на SynTagRus – крупнейшем русском размеченном корпусе на сегодня.
UDP GSD

UDPipe, обученный на GSD, выдаёт частые ошибки внутри структуры предложений. В данном дереве имеющие прямую синтаксическую связь слова «разъяснениях» и «указано», разделены друг от друга 4 уровнями связей. Кроме того за root принимаются не только глаголы, но и существительные (не всегда подлежащие). На примере видно ошибочное определение «root» (разъяснениях), что значительно исказит дальнейший семантический анализ.
Также часто и бессистемно дроблению подвергаются длинные предложения. Насыщенность однородными членами также способна сломать структуру дерева. Зачастую, эти особенности обнаруживается на предложениях средней и высокой степени сложности.
UDP taiga


На аналогичном примере UDP 2.4 taiga продемонстрировала огромное количество искажений, но главной принципиальной ошибкой стало деление одного предложения на два дерева.
UDPipe, обученный на Taiga даёт аналогичные предыдущему корпусу ошибки, однако дробление предложения на несколько деревьев возникает зачастую уже на предложениях средней сложности.
UDP SynTagRus

Иначе обстоят дела с UDP 2.4 SynTagRus. Он вывел качественно проанализированное дерево, недочётами которого стала последовательность связей (в словосочетании «выход участника из общества» «выход» должен быть напрямую связан с «обществом», а не через связь с «участником») и обработка числовых показателей (очевидно, «16»-ым является «пункт», а отнюдь не «Постановление»).
UDPipe на SynTagRus имеет более стойкие, отслеживаемые ошибки в предложениях высокой степени сложности. Однако структура остаётся сохранна, за исключением случаев особо нагромождённых предложений, которые парсер имеет свойство дробить.
В целом к явным плюсам UDPipe можно отнести скорость и обновляемость.

3.2.3.5. DeepPavlov

Последней была протестирована модель DeepPavlov, предобученая на корпусе SynTagRus с помощью BERT.

Модель показала очень достойные результаты, в целом приближенные к UDPipe 2.4 на SynTagRus. Наблюдаются проблемы на сложных многоуровневых предложениях, ошибки в месте связи или в её типе. На данном примере видим, пожалуй, единственный неочевидный нюанс с «Постановлением… «О вопросах…», где «Постановление» и «вопросах» должны иметь не опосредованную, а прямую связь (в контексте предложения наименование «О вопросах…» присвоено не Пленуму, а Постановлению).

3.2.3.6. Итоговые результаты тестирования синтаксических парсеров

Результаты тестирования существующих синтаксических парсеров можно представить в следующей таблице (инструменты ранжированы в зависимости от результатов — от наиболее успешного к наименее).

Наименование Преимущества Недостатки
1 DeepPavlov скорость, обновляемость и сохранение структуры предложения нарушение последовательности связей в сложных предложениях
2 UDPipe 2.4 SynTagRus скорость, обновляемость и сохранение структуры предложения нарушение последовательности связей в сложных предложениях и числовых значениях
3 Stanford устойчивая работа при анализе структуры предложения и полный разбор предложения без пропусков низкая скорость обработки и хаотичность выделения связей между токенами
4 ЭТАП присутствие дополнительных лексических функций/связей, позволяющих более глубоко работать с семантикой на следующих этапах нарушение семантической логики связей, дробление числовых показателей и нахождение несуществующих связей
5 UDPipe 2.4 GSD дробление предложений на два и более деревьев, ошибки в последовательности и типах связей
6 UDPipe 2.4 Taiga дробление предложений на два и более деревьев
7 АОТ неполнота связей (некоторые токены остаются «в воздухе», что недопустимо при создании графа и дальнейшем семантическом анализе)

Исследованные инструменты показали различные результаты. Некоторые парсеры, например DeepPavlov, UDPipe 2.4 SinTagRus и Stanford, продемонстрировали относительно хороший уровень разбора простых предложений и предложений средней степени сложности, однако общим для них является неэффективность на юридических текстах. Для достижения приемлемого уровня разбора текстов правовых документов данные модели подлежат значительной доработке.

4. Заключение

4.1. Выводы по итогам тестирования

Результаты исследования существующих решений в области процессинга русскоязычного текста привели нас к выводу, что представленные на рынке инструменты имеют универсальный характер и неприменимы в существующем виде для достижения практических результатов в анализе слабоструктурированных и неструктурированных правовых документов. Причин тому несколько.
Основная проблема, присущая всем представленным решениям, заключается в том, что продукт создан не экспертами предметной области, в которой он применяется. Идея создания инструментов автоматизации юридической работы без участия юристов высокой квалификации изначально обречена на неудачу, поскольку без понимая терминологии, ее значений и классификаций, а также самых глубинных взаимосвязей невозможно воссоздать «юридическую картину мира». Во многом данная ситуация связана с тем, что на рынке доминируют подход, при котором идеологами проектов по созданию решений автоматизации выступают IT-разработчики и специалисты в области data science, которые не знакомы на должном уровне с особенностями юридического мышления и не погружены в реальную практику, в которой может применяться то или иное решение.
Кроме того, при создании программных продуктов многими разработчиками преследуется логичная цель — максимально широкая интеграция ПО в различные сферы. Наиболее простой подход для этого — создание универсальной платформы, внедрение которой в новую предметную область потребует незначительных доработок. Данный подход имеет свои преимущества и недостатки, но в случае создания инструментов автоматизации работы юриста он неприменим. Для использования таких продуктов конечные пользователи (практикующие юристы) вынуждены подстраиваться и адаптироваться под их условия и особенности, а в данной сфере должно быть наоборот — продукт изначально должен создаваться исходя из потребностей и задач пользователей. Только такой подход позволит добиться качественных результатов.
Третьим фактором, который до настоящего времени не позволил реализовать в полном объеме процессинг русскоязычных текстов на достаточном уровне, является недостаточность финансирования научных разработок и отсутствие государственных и частных инвестиций в данную область знаний. Существующие научные группы и институты благодаря собственной воле и энтузиазму достигли хороших практических результатов в создании инструментов обработки текста, однако ограниченность бюджета не позволяет им продвинуться дальше. Их зарубежные коллеги достигли гораздо больших результатов благодаря активному участию государства, финансирующего подобные проекты. По нашему мнению, государственная поддержка исследователей и проектов в области NLP и искусственного интеллекта позволит совершить настоящий прорыв в краткосрочной перспективе.

4.2. Дальнейшее развитие

Как показывает практика, создать высокоэффективное программное решение, которое может быть интегрировано в конкретную предметную область, невозможно без участия экспертов из данной области, профессиональный опыт и логика которых ложатся в основу машинных алгоритмов. Именно поэтому мы считаем, что создание «цифрового юриста» (юридического ИИ) и содержательная автоматизация юридической функции:

  • возможны только в результате глубинного погружения в предметную область;
  • находятся на пересечении 3 различных областей знаний: юриспруденция, лингвистика и IT.

В результате тесного взаимодействия специалистов из этих областей будут созданы новые уникальные для рынка компетенции. Данные компетенции находятся на стыке нескольких областей — юриспруденции, лингвистики, программирования и инженерии знаний, что приведет к формированию принципиально новых профессий, отсутствие которых сегодня является одним из наиболее существенных факторов, сдерживающих развитие рынка технологий искусственного интеллекта в России.
Решение задачи процессинга неструктурированного русскоязычного текста в области юриспруденции требует иного подхода к использованию инструментов NLP: они должны учитывать на фундаментальном уровне юридические концепты и базироваться на графах знаний, которые изначально созданы для решения узкопрофильных юридических задач. Это позволит воссоздать юридическую «картину мира» в цифровом формате и трансформировать юридическую логику в машинные алгоритмы. Безусловно, большое значение в данном вопросе имеет достаточный уровень финансирования и поддержки подобных проектов, которое возможно только при активном участии государства.

https://habr.com/ru/post/506086/

Posted in 1. Новости, 3. Научные материалы для использования | Комментарии к записи Искусственный интеллект в области юриспруденции отключены
Июл 15

Хроника политических преступлений

15 июля 1904 года в Петербурге совершено покушение на министра внутренних дел, статс-секретаря Вячеслава Плеве. Министр ехал к государю с докладом по обыкновению в карете, окружённой велосипедистами-охранниками. Эсер Сазонов бросил под карету бомбу – взрывом министр был убит.

«Когда я подбежал к месту взрыва, – вспоминал участник заговора Борис Савинков, – дым уже рассеялся. Пахло гарью. На мостовой я увидел лежащего Сазонова… Лицо было бледно, кое-где по лбу и щекам текли струйки крови… Сзади послышался чей-то голос: «А министр? Министр, говорят, проехал». Тогда я решил, что Плеве жив, а Сазонов убит. Ко мне подошёл полицейский офицер, растерянно и быстро заговорил: «Уходите… Господин, уходите…» К месту происшествия сбежались люди. Уходя, я не заметил, что в нескольких шагах от Сазонова лежал изуродованный труп Плеве и валялись обломки кареты…» Сазонов был тяжело ранен, но его удалось спасти. «Вы дали мне возможность испытать нравственное удовлетворение, с которым ничто в мире не сравнимо», – писал он из тюрьмы своим «братьям-товарищам», благодаря их за то, что они позволили ему участвовать в деле. Сосланный на каторгу в Акатуй, Сазонов в 1910 году покончил с собой, протестуя против нарушения прав осуждённых.

Игорь Джохадзде. Криминальная хроника человечества.

Posted in 1. Новости | Комментарии к записи Хроника политических преступлений отключены
Июл 14

The grand opening of the exposition «Nuremberg tocsin» took place on 10 July

On 10 July 2020, Sergey Ye. Naryshkin opened the museum exposition «Nuremberg tocsin».

Head of the project, Vice-President of the Union of Criminalists and Criminologists Alexander G. Zvyagintsev.

PHOTO-2020-07-10-16-19-13

A.G. Zvyagintsev conducted the first tour of the exposition. One of the first visitors was S.Ye. Naryshkin.

PHOTO-2020-07-10-16-20-04

S.Ye. Naryshkin left a memorable entry in the visitors’ book.

PHOTO-2020-07-10-16-22-08

PHOTO-2020-07-10-16-24-37

After viewing the exposition, S.Ye. Naryshkin presented  A.G. Zvyagintsev with an honorary diploma: «…for many years of work on the study of history and a significant personal contribution to preserving the memory of the Nuremberg trials».

PHOTO-2020-07-11-09-15-41

 

Translated by Elizaveta Ovchinnikova 

 

Posted in News in English | Комментарии к записи The grand opening of the exposition «Nuremberg tocsin» took place on 10 July отключены
Июл 14

Анализ данных об убийствах в России

Где в России убивают больше всего? Анализ данных

Меня зовут Алексей Кнорре, и я криминолог, аспирант в UPenn и аффилированный научный сотрудник в ЕУСПб. Подумал, что сейчас, после месяцев карантина, самое время рассказать о преступности. Неясная экономическая ситуация, рост безработицы, ухудшение общественного здоровья — все это вызывает опасения в завтрашнем дне. Что будет с преступностью в России? Как криминолог, я использую статистические методы и программирование для того, чтобы эмпирически исследовать преступность, поэтому я постоянно работаю с данными, о которых сегодня и хотел бы рассказать доступным языком. На Хабре было всего два поста по тегу «криминология», поэтому надеюсь, мой рассказ будет интересным.

Кто-то из вас мог видеть в прошлом году рейтинг безопасности городов России. Как собирали данные о безопасности: вроде бы был опрос жителей, но сколько человек опросили? Не было ли в выборке систематических смещений, как если бы опрашивали только жителей больших многоквартирных домов? Насколько вообще люди могут точно сказать, что в их городе в целом безопасно? Безопасно по сравнению с чем, и как эту безопасность измерить? А вдруг анкетный опрос отражает больше общественные настроения, нежели реальную преступность — вероятность случайного нападения на улице, грабежа или кражи?

В науке преступность измеряют разными способами. Два года назад мы с коллегами, например, провели первый в России репрезентативный виктимизационный опрос, обзвонив 16 тыс. человек. Данные мы открыли для общего пользования. Основной вывод — уровень реальной преступности где-то в 8 раз выше регистрируемой правоохранительными органами. Вот визуализация процесса от Марии Бублик и Натальи Тогановой, вошедшая в шорт-лист премии Information is Beautiful — 2019.



Опрос дает картину в целом по стране, но не позволяет судить об опасности отдельных мест. С этими мыслями я попробовал сделать рейтинг безопасности городов, который использовал бы более надёжные данные. Что лучше всего может отражать безопасность города? Хороший показатель безопасности — это риск насильственной смерти. С одной стороны, убийства — одно из «лучших» преступлений с точки зрения регистрируемости. О краже кошелька можно забыть или просто не сообщать полиции. За обнаружением «криминального» трупа всегда следует возбуждение уголовного дела. С другой стороны, обычное российское убийство — это бытовой конфликт, зашедший слишком далеко, часто в состоянии алкогольного опьянения. Так что количество убийств — хорошая метрика безопасности среды.

Управление ООН по наркотикам и преступности (UNODC) ежегодно выпускает аналитический отчёт по убийствам в странах мира. Стандартная метрика — количество убийств на 100 000 человек населения, или homicide rate. По состоянию на 2017 г., меньше всего убийств в Японии и Сингапуре (0,2 убийства на 100 000), Гонконге (0,3), Индонезии (0,4) и Норвегии (0,5). Больше всего — в Сальвадоре (61 убийств на 100 000 человек), Ямайке (57), Гондурасе (41,7) и Бразилии (30,5). Россия сильно внизу этого международного рейтинга, с 9 убийствами на 100 000 человек, в компании с Угандой (11), Уругваем (8,2), Перу (7,7) и Афганистаном (7,1).

Интересно посмотреть на гетерогенность: где в России убивают больше или меньше, чем в среднем? С этими мыслями я открыл RStudio и начал писать код.

Чтобы получить рейтинг, нужно получить удельное количество убийств, для которого, в свою очередь, нужно для каждого города России знать количество убийств и его население.

С сайта Росстата я взял файл с населением России с разбивкой по населённым пунктам за 2016 г. Год был выбран не случайно: это единственный год, где для каждой единицы, будь то субъект РФ, городской округ или муниципальный район, был идентификатор ТЕРСОН-МО, копирующий ОКТМО. ОК, население есть.

С убийствами оказалось сложнее. Открытой статистики по убийствам на уровне городов в России нет. В нашей научной работе мы используем данные обо всех возбужденных уголовных делах в России в 2013–2014 гг. Это огромный деперсонифицированный массив из примерно 5,5 млн. оцифрованных статистических карточек, которые в обязательном порядке заполняют следователи или дознаватели в момент возбуждения уголовного дела. Вот так выглядит первая страница карточки на выявленное преступление:

Любые административные данные немного грязные. В нашем случае в этих данных целиком отсутствовало несколько регионов, а у некоторых был пустой ОКТМО. Кроме того, иногда проблемой было то, что в некоторых городах единственный отдел полиции отвечал и за город, и за прилегающий муниципальный район, а его идентификатор ОКТМО был районный. Иными словами, это проблема «муниципальный округ-административный центр»: в зоне ответственности многих отделов, например, МВД находятся и город, в котором они расположены, и муниципальный район, который подчинён этому городу. Сличение по 5 знаку ОКТМО завысило бы удельное количество убийств, поскольку для города N в числителе будут убийства и в городе N, и в N-ском муниципальном районе, а в знаменателе — население только города N. Поэтому я агрегировал все данные об убийствах на уровне первых 6 цифр ОКТМО отделов правоохранительных органов.

Получилось два набора данных — убийства и численность — с общим ключом — ОКТМО. Сличив их, я оставил города с населением больше 100 000 человек, таких городов получилось 176. Нижняя граница в 100 тыс. выбрана по трём соображениям: во-первых, спорадический характер преступности делает оценку на меньших населенных пунктах нестабильной. Во-вторых, точность сличения уменьшается с размером населённого пункта. В-третьих, сама логика удельного количества убийств на 100 000 человек подсказывает нам отсечку.

Из 176 городов я нахожу данные по убийствам для 140 городов. В наших данных полностью отсутствуют сведения для Чечни и отсутствует маппинг между отделом полиции и ОКТМО для Башкортостана, Кемеровской области, Хакасии, Сахалина, Ярославской области, Костромской области, Камчатского края. Кроме того, из-за проблемы «муниципальный район-административный центр» я также теряю большинство городов Московской области. Тем не менее, 140 городов — это уже что-то. Получаем homicide rate: делим количество убийств на 2 (потому что данные за два года), а потом на население города. И всё бы хорошо, да только данные по убийствам за 2013–2014 гг.

С 1990-х гг. по всём мире происходит «великое падение преступности», в англоязычном мире известное как the great crime drop. Грубо говоря, люди перестают красть, бить и убивать. Криминологи выделяют ряд возможных причин, таких, как развитие систем безопасности (видеокамеры, охранные системы и т.п.), рост уровня жизни, прекращение использования свинцовых красок, которые отрицательно влияют на когнитивное развитие детей и снижают способность к самоконтролю. Теорий много. Это падение характерно и для России.

К счастью, у Генеральной прокуратуры РФ есть сайт с открытыми данными о преступности на региональном уровне. Путём несложных манипуляций я выгрузил данные об убийствах (учитывая и статью 105 УК РФ, и статью 111 ч. 4 УК РФ — обе на самом деле квалифицируют умышленное насилие, которое привело к смерти) за последние 10 лет по регионам и рассчитал динамику удельной убийственности по регионам:

Мы видим почти двухкратное падение количества убийств за 10 лет. Используя эти данные, я предсказал, как изменится убийственность каждого региона в России с 2014 к 2020 г. Для каждого региона получается множитель-мультипликатор, который мы умножаем на удельную убийственность по данным 5,5 млн. карточек, и получаем спрогнозированную удельную убийственность в 2020 г. Важное предположение здесь в том, что тренд снижения преступности в городах следует тренду на уровне региона. Кроме того, прогнозы всегда неточны, поэтому мы рассчитали доверительные интервалы.

Получился рейтинг безопасности городов России на основе данных об убийствах. Данные по убийствам в этих городах, населению, мультипликаторам и финальной оценке удельной убийственности в 2020 г. я выложил на GitHub.

Следующим шагом мог бы стать пересчёт рейтинга на данных посвежее (при условии, что кто-нибудь получит к ним доступ), а также проверка научных гипотез о том, что является причиной большого количества убийств в российских городах. Например, если сравнить, с одной стороны, удельное количество убийств, и, с другой, то, насколько часто физическое насилие приводит к смерти, то видно, что одной только удельной убийственностью гетерогенность российских городов не исчерпывается:

Можно посмотреть на Индекс самоизоляции Яндекса и убийственность по городам. На первый взгляд кажется, что в городах, где живут более законопослушные в плане карантина люди, реже убивают, а линия регрессии, показанная синим, может убедить в том, что такая связь есть. Но это не так: для доказательства такого предположения недостаточно двух переменных с парой десятков точек данных. Сам график скорее похож на график связи между количеством пиратов и средней температурой поверхности Земли, на котором кажется, что связь между двумя переменными есть, но без надёжного исследовательского дизайна, который мог бы претендовать на причинность, это всего лишь ложная корреляция. На самом деле, это просто иллюстрация того, что данные криминальной статистики можно сцеплять с другими наборами данных и смотреть, что получается.

Наконец, можно сделать еще одну интересную вещь. Я сматчил данные Мирового банка о среднем удельном количестве убийств на 100 тыс. человек населения по странам мира за 2017 г. (или ближайший доступный) и получил страны, которые ближе всего находятся к российским городам по уровню убийств. Это не совсем корректное сравнение, поскольку, во-первых, разные годы, и мы знаем, что со временем убийств становится меньше, во-вторых, удельные количества в микрогосударствах, таких, как Багамы, не всегда годятся для сравнений. Здесь может быть экологическая ошибка, связанная с агрегацией данных на уровне стран. Тем не менее, это забавное сравнение. В таблице ниже подобранные страны для 14 городов-миллионников России. Мой родной город — Красноярск, и теперь я могу говорить, что с точки зрения статистики убийств я родом из Королевства Свазиленд.

Город Убийств на 100К населения Ближайшая страна по уровню убийств
Москва 2.26 Albania
Санкт-Петербург 2.73 Hungary
Новосибирск 9.65 Panama
Екатеринбург 12.01 Costa Rica
Нижний Новгород 8.34 Philippines
Казань 11.75 Dominican Republic
Челябинск 12.94 Costa Rica
Омск 10.39 Barbados
Самара 7.49 Peru
Ростов-на-Дону 5.88 Ecuador
Красноярск 9.38 Eswatini
Пермь 6.87 Afghanistan
Воронеж 5.73 Ecuador
Волгоград 7.70 Peru
Краснодар 6.74 Afghanistan

Приглашаю вас брать эти данные для своих изысканий. Мой университет недавно запустил совместно с Яндексом программу «Пандан», на которой мы будем совмещать знания из общественных наук с навыками исследователей данных. Как раз в криминологии добавленная стоимость такого альянса очевидна.

https://habr.com/ru/company/eusp/blog/508366/

Post Scriptum.

Я бы относился к представленным данным и тем более результатам с большой осторожностью.

Меня смущают результаты, полученные на основании телефонных опросов, интернет-опросов и прочих неадресных и потому крайне сомнительных опросов. Помимо прочего остаётся сомнение в том, знают ли авторы подобных исследований как собираются статистические данные, как говорится, «на земле»? При чём не только в России, но в и других странах. Профессор Г.В. Дашков, который ещё в советские времена работал в ООН в Office on Drugs and Crime, рассказывал мне, как официальные представители разных государств ловко манипулировали с цифрами о преступности в зависимости от криминологической и политической конъюнктуры (если какие-либо государства рапортовали о снижении преступности, то начиналась цепная реакция снижения данных о преступности повсеместно во всём мире).

В то же время приведённые данные наверное кому-то пригодятся. За проведённую работу автору следует сказать — СПАСИБО!

Я лично эти данные (впрочем, как и многие другие) буду воспринимать критически.

Президент Союза криминалистов и криминологов

Игорь Михайлович Мацкевич  

 

 

Posted in 1. Новости, 3. Научные материалы для использования | Комментарии к записи Анализ данных об убийствах в России отключены