RegTech по-русски: как поменялся рынок распознавания документов за последние недели и какие решения нужны отрасли?

23 марта 2022 г.

Статья «импортозамещение» была довольно важной в расходной части крупного бизнеса и госведомств. Закупки по ней проводили с легким сердцем даже в тех случаях, когда приобретаемые решения не окупались. Расходы можно было оправдать развитием рынка отечественного ПО.

С недавнего времени список ИТ-решений, бюджет на которые допускается связать с импортозамещением, сократился. О том, как это коснулось российского рынка оцифровки и интеллектуальной обработки документов, рассказывает Георгий Зуев, основатель компании «Биорг».

Содержание:

А упала, Б — пропала
Что такое оцифровка?
Роль ABBYY
Кейс без обновлений
Как действовать?
Где импортозамещение необходимо?
Как найти системы импортозамещения?
Оцифровка документов в цифровизации государства и бизнеса

Основатель компании Биорг Георгий Зуев на конференции Skolkovo AI. Фото: Sk.ru

А упала, Б — пропала

В январе 2022 года российский пионер разработки и крупный поставщик программного обеспечения для интеллектуальной обработки документов — компания ABBYY — отозвала свой софт из реестра отечественного ПО, курируемого Минцифрой.

Права на свои программы компания передала американским юридическим лицам. Таким образом разработчик решил сконцентрироваться на продажах за рубежом. Что это значит для отечественного рынка оцифровки документов?

Что такое оцифровка?

Оцифровка бумажного документа — это его сканирование с одновременным автоматическим переносом данных в информационную систему, базу данных. Простое сканирование не равно оцифровке. Скан для машины — всего лишь картинка.

Чтобы определить информацию на ней, нужно специальное ПО, благодаря которому машинный интеллект «считывает» текст, распознает картинку, переносит данные в систему, «поняв», какие данные и в каком поле документа соответствуют полям базы данных и т.д.

Роль ABBYY

Такое ПО для распознавания документов с прицелом на частных и корпоративных заказчиков разрабатывает ABBYY и ряд других российских и зарубежных компаний. Вендор занимал заметную долю рынка, связанного с оцифровкой стандартизированных документов — бухгалтерской первички, счетов-фактур, актов, накладных и т.д.

Компания продавала лицензии на модули для распознавания определённого количества таких документов. Это было удобно при расчетах, особенно в рамках госзакупок (ФЗ-44), хоть и стоило не дёшево.

Если для частного бизнеса перепрописка разработчика из России в США может не играть роли, то госведомствам и бизнесу с госучастием, среди которых много клиентов компании, есть о чем поразмыслить.

Кейс без обновлений

Одна из структур очень крупной государственной компании, которая связана с большим оборотом первички, в 2015-2016 годах приобрела сервера и лицензии вендора на шаблоны обработки документов. К 2021 году стало понятно, что система распознаёт и обрабатывает 80% документопотока, а 20% — только частично.

Возник вопрос: как автоматизировать обработку этого остатка? Обновить лицензии может стоить около 30 млн. рублей, не считая доработок шаблонов на оставшиеся 20%, которые могут вылиться ещё в 15-20 млн. Итоговая сумма существенна.

Такая автоматическая обработка, безусловно, удобна и современна, но редко может окупиться. Если раньше компания или ведомство могли хотя бы продемонстрировать, что направляют расходы на импортозамещение, поддерживают отечественного производителя, сейчас так не получится.

Как действовать?

Хорошая новость для корпоративных заказчиков-представителей среднего и малого бизнеса — совсем не обязательно раздувать штат сотрудников для механической обработки типовых документов.

На рынке есть много точечных российских разработок и сервисов, направленных на типовое распознавание первички, транспортных накладных и т.д. Ту же систему документооборота 1С внедряет у себя — модуль для распознавания бухгалтерских документов.

Есть компании, профиль которых полностью связан с распознаванием и обработкой разных видов документов. Они предлагают и SDK-софт, и облачное распознавание по сервисной модели — Smart Engines, «Дибрейн» (Dbrain), «Биорг».

Компании ориентируются на корпоративных заказчиков, для которых автоматизируют обработку документов, заявляя интеллектуальное распознавание документов в связке с последующей верификацией данных силами операторов, подключенных удаленно.

Такой симбиоз технологий и человеческого труда дает высокое качество оцифрованных данных и всё больше применяется на рынке.

Безусловно, готовых «коробочных» продуктов уровня, который предлагал «вышедший» с рынка вендор, пока нет. Однако отечественные разработчики быстро смогут довести до высокого качество своих систем распознавания и скоро закрыть потребность рынка в работе с шаблонными документами.

Дополнительный позитив в том, что «коробочные» предложения альтернативных компаний в среднем могут оказаться в 1,5 раза дешевле, чем у раскрученного поставщика. Крупные интеграторы могут по OEM-лицензии встраивать движки таких разработчиков в свой более масштабный продукт.

Где импортозамещение необходимо?

Проблема возникает, когда в компании очень большой объём документов или они крайне разнообразны.

Так, в банке может быть до 850 видов документов в потоке. Тут на лицензиях можно разориться. Расчет должен быть другим — проще нанять специалистов для доработки приобретенного «движка».

Силами отечественных ИТ-компаний придется закрывать область разработки систем распознавания и анализа комплектов документов для государства.

Они актуальны в контексте автоматизации госуслуг. Здесь и до выхода ABBYY из реестра отечественного ПО не было готовых систем, потому что в отношениях «государство-гражданин» сравнительно мало структурированных документов, к которым можно применить шаблонное распознавание. Большинство данных не структурированы.

Может стоять задача оцифровать и проанализировать комплект «договор + доверенность».

Программой надо не только выделить в этих документах информацию о сторонах сделки, но и сопоставить эти данные в документах, проверить актуальность. Другая задача — распознать многостраничную табличную бухгалтерскую документацию.

Сложность для машины состоит в длинной таблице, когда необходимо определить вид документа и нужные поля для распознавания, а она «видит» внутренние листы таблицы, где нет заголовка, а есть только строки с данными.

Для таких задач нужны гораздо более сложные системы распознавания и анализа, так называемые «цифровые помощники» на базе ИИ. Это нейросетевые комплексы, которые умеют ориентироваться без шаблонов, их обучают под конкретный бизнес-процесс, постепенно наращивая функционал «помощника». Они способны «понимать» смысловые сущности в тексте, анализировать их.

Для обучения таких нейросетей требуется ручная разметка реальных наборов данных. В итоге цифровой помощник способен взять на себя до 95% рутинных проверок по документам.

Как найти системы для импортозамещения?

На рынке много игроков, которые занимаются ИИ-системами и цифровыми помощниками, но они сфокусированы на разных задачах.

Одна цифровая «личность» умеет проверять 60% типовых договоров. Другая — анализировать и разбирать товарные позиции, автоматически определять стратегию закупок.

Кадровые помощники всесторонне анализируют кандидатов. Другие системы — кастомные, под нестандартные задачи для государства.

Компании, занимающиеся вопросами ИИ-распознавания и оцифровки, есть в числе резидентов фонда «Сколково», который сегодня становится одним из форпостов технологического суверенитета России: «Энтера», Soica, «Дибрейн», мы — «Биорг».

Разработчики платформ на базе ИИ предлагают как аутсорсинг услуг, так и создают системы в контуре заказчика. В последнем случае взаимоотношения разворачиваются по знакомой в госзакупках схеме — приобретают лицензии на ПО.

Поставщики также берут на себя задачу разметки данных, обучения нейросетевых комплексов с последующим анализом качества их работы и дообучением.

Оцифровка документов в цифровизации государства и бизнеса

Автоматическая обработка бумажных документов и аккуратный перенос данных из них в информационную систему — значительная точка для оптимизации различных процессов в бизнесе и государстве.

Большие компании и ведомства сталкиваются с грандиозными потоками документов. Это бухгалтерская первичка, трудовые документы, паспорта, договоры, комплекты кредитных документов (ипотечный конвейер), акты, обращения граждан и т.д.

Даже если часть этих взаимоотношений уже перевели в электронный вид, другая часть всё равно остаётся в бумаге. А где-то (госведомства, обращения граждан, регистрация сделок с недвижимостью и т.д.) уйти от бумаги пока не представляется возможным.

Кроме того, и у бизнеса, и у государства накоплены колоссальные объёмы архивных единиц, которые они обязаны хранить и следить за их сохранностью. Тут можно вспомнить недавнее поручение президента, которое он дал Росархиву, РАН и Минцифре — подумать об оцифровке архивных фондов РФ с применением технологий искусственного интеллекта.

Автоматическая оцифровка и анализ документов — это не только способ порезать «косты» на обработку данных вручную, но и принципиальный момент в автоматизации госуслуг, где весомую роль отводят концепции автоматического межведомственного взаимодействия на основе реестров данных.

Согласно задумке, обмен информацией между государственными ведомствами должен происходить автоматически, на основе взаимодействия баз данных, реестров. Роль людей в процессе значительно снизится. Как следствие, время оказания госуслуг гражданам должно существенно сократиться. Появятся проактивные госуслуги.

Источник: rb.ru

Поисковые теги