Необходимо построить модель классификатора текстовых описаний товара по категориям.
К примеру у нас есть:
Банан: код категории 33432
Спички: 35224
Спучки: 35224
Спички коробок: 35224
Связка бананов: 33432
Коробок спичек: 35224
Блок спичек: 35224
Блк спчк: 35224
Пример классифицированных данных
Размер датасета: 290,736,920 строк из них уникальных описаний товара: 13,839,662.
И у нас есть другой датасет, где есть названия, но нет кодов классификатора.
спички
спички длинные
коробок спичек
спучки "огонек"
бананы 1.25кг
банан пакет 2ш
банан связка 1шт
блок спички
БананКг
пакет банан маленький(шт)
Банан 1гат
Банани(кг)
20205# БАНАН 1кг
Какао 250 (Банан молоко)
МАСАЖНАЯ СВЕЧА FRENCH (Банан)
Банан свіжий ваговий
ЖУВГORBITПОЛУНБАНАН
8405 Банан
71094 Сирок дитячий 3,9% банан 90г ст/н /Агуня/
Нап400MullerМолБанан
Млинець Банан та Шоколад
Пюpе 90 г Чудо-Чадо яблу ко-банан з 6 міс д/пак
БананКг2С
Банан Еквадор (В) (К)
3700 ЦУКЕРКИ БАНАНИ з зеленим кiнчиком, кг Park Lane
кг.-БананВаг
Банан свіжий ваговий
БананКг
Банан сушений чiпси ваговий
Банан 10 кг. ССК
СирокБананЯблукоВiд8мiс3.9%90гСтакАгуня
Банан Еквадор (В) (К)
Банан вага (Центральна Америк
Банан bebi
Банан преміум
Жув. гумка Orbit Полуниця-банан
БАНАНИ-ЯЩ/:ВЕС
АКЦ Банан
АКЦ Банан
ПакетЄвабанан
Банан(кг)
Пилочка для ногтей "Банан", 180/240, черная с сердцами - Inter-Vion (1шт)
Банан, кг /Еквадор/
Банани, ваговий(кг) # #
Банан уцінка
Банан Еквадор (В) (К)
ЯМЗ ЙОГУРТ 2,5% БАНАН-ПОЛУНИЦ
Смузi BOB SNAIL 120 г Банан-Полуниця
ДонатЗСмакомБанану65гПлiвкаРум"янець
ЛАТТЕ БАНАНОВОЕ (L)
19799 Банани 1кг уцiнка
4739-Банан,кг
спички "жар птица"
Сiрники простi
Сiрники 1/10
СiрникиРiвненськаФабрика
Сiрники 10 шт Cricket к/уп
3605000000#Сiрники побутовi
55229-Сiрники Козачок
Сiрники формату четвертого 2/3
Сiрники господарськi, короб 10шт
Сiрники Зебра Iндiя
Сiрники Cricket безпечнi (шт)
Сiрники госп. Плам 38 шт. 5Н И017 (Болгарiя)
Пример данных которые необходимо классифицировать
Размер датасета: 64,802,502 строк из них уникальных описаний товара: 5,718,749.
Этот датасет может быть легко расширен по запросу.
Мы бы хотели сделать модель которая на основании названия выдает код классификатора, чтобы мы автоматически классифицировали товары из второго списка.
Все кода классификатора - 10730 штук В пример есть только два кода, но на самом деле к одному коду может относиться много видов продукции.
Размеченный датасет у нас есть где-то на 65гб (1месяц) но можем ещё добавить данные в BQ.
Примеры подходов к реализации задачи: