Российская компания GoodsForecast разработала эффективный алгоритм сопоставления наименований товаров

1 апреля 2020 г.

Алгоритм позволяет повысить точность сопоставления наименований товарных позиций в ритейле до 90–95%.  


Российская компания GoodsForecast, разработчик решений для прогнозирования спроса и оптимизации товарных запасов, резидент «Сколково», разработала новую технологию «матчинга» чековых данных. Система, основанная на искусственном интеллекте, позволяет решать проблему сопоставления и распознавания различных товарных позиций (SKU) в торговых точках. 
 «В среднем ассортимент российского магазина продуктов питания (FMCG) сегодня составляет около 5–10 тыс. SKU, а названия одних и тех же позиций в одном магазине могут сильно отличаться от их наименований в другом, — рассказывает Андрей Лисица, генеральный директор компании GoodsForecast. — Из-за невозможности точной идентификации товарных позиций компании сталкиваются с большими сложностями при обработке такой информации. Наиболее яркий пример — это аналитика на основе данных ОФД (операторов фискальных данных). Не обладая технологиями “матчинга” товарных позиций, практически невозможно на основе этих данных оценивать продажи того или иного товара в рамках региона, проводить конкурентный анализ, мониторинг пересечения ассортимента в разных магазинах, создавать прогноз спроса на тот или иной товар, а также оценивать и планировать эффект от промоакций». 
Сегодня существуют два способа решения проблемы разного описания товарных позиций в различных торговых точках: 
1) аналитики в розничных и аналитических компаниях вручную обрабатывают огромные массивы данных, что очень долго и трудозатратно; 
2) используются системы на основе machine learning, однако на 100% автоматизированная система не в состоянии дать точный результат как раз из-за проблемы разрозненности данных при сопоставлении различных товарных позиций. Во всех подобных примерах мы видим точность сопоставления, не превышающую 60–70%. Технология, разработанная GoodsForecast, позволяет выделять у товарных позиций в различных магазинах общие признаки и с учетом этого создавать их категоризацию.  
Анализируемая информация обогащается за счет следующего:
 • словаря брендов;  
• алгоритма определения и конвертации единиц измерения; 
• словаря русского языка с определением частей речи;  
• словаря синонимов-алиасов (gold = золото = голд) и т.п.  
«На основе больших данных наша компания строит статистическую модель, которая постоянно развивается. Она хорошо работает с данными ОФД (информация с чеков покупателей в торговых точках) и на их основе вычисляет принципы, по которым сотрудники магазина могут назвать товар, — поясняет Андрей Лисица. — Алгоритм не пытается найти похожие строчки с названием товара, а, исходя из массива данных, формирует правила, согласно которым SKU получают наименование. Это очень похоже на то, как работает человек, и, помимо хорошей точности, позволяет легко интерпретировать результаты, а также улучшать полученные правила за счет экспертных корректировок». Точность сопоставления данных при использовании новой технологии возрастает до 90–95%. Алгоритм знает несколько языков, правила написания слов на них, способен отличать формы слов и части речи. Он может анализировать правильность выстраивания предложения, исправлять допущенные ошибки и восстанавливать смысл. К примеру, найдя название груша «Форель», алгоритм понимает, что речь идет о товаре из категории «фрукты», а не «рыба». При этом алгоритм может с высокой долей вероятности определить и вес данного SKU, и динамику цены этого товара.  
Разработка технологии началась два года назад, после того как в 2018 году GoodsForecast выиграла грант Фонда содействия инновациям. На сегодняшний день система внедрена в одной из крупнейших российских ритейловых компаний, активно идут пилоты применения алгоритма в области прогнозирования промоакций, также обсуждается его внедрение в ряде производственных компаний.
 «В данный момент мы готовы тиражировать разработанную технологию. Основным рынком для нас пока является ритейл, однако наша разработка вполне применима и в других отраслях, включая банковскую сферу, где она может быть использована, к примеру, для повышения точности кредитного скоринга (определения платежеспособности клиентов кредитной организации), — говорит Андрей Лисица. — Также мы видим востребованность продукта на рынке маркетинга и таргетированной рекламы, где для использования данных ОФД также важно решить задачу правильного сопоставления текстовых данных».
    
   
Источник: retail-loyalty.org
Поделиться