WildHack_Tags 👗

Данные проект был разработан с целью решения задачи Поисковые теги для WildHack.

Здесь вы можете найти нашу презентацию.

Поисковые теги должны были выполнять следующие функции:

уточнение (кофта → тёплая кофта)
похожи товары (кофта → кардиган)
дополняющая (айфон → чехол для айфона)

Для каждой из данных проблем был разработан отдельный пайплайн.

Уточняющие теги

Для данного типа тегов была разработана следующая формула:

[название товара] [аттрибут 1] [аттрибут 2] ... [аттрибут n]

Алгоритм генерации тегов:

После предобработки запроса идентифицировать, какой товар из каталога Wildberries пользователь хочет найти

Товаром считается последнее звено в цепочке из категорий: например, Женщинам / Одежда / Брюки / Капри

Сгенерировать подмножество корректных тегов, содержащий название товара и/или его аттрибуты
Выбрать 3-7 уточняющих тегов

В рамках данной задачи предстояло также решить, что будет источником данных для генерации тегов. Поэтому для уточняющих тегов было предложено два решения:

naive_clustering -> кластеризация запросов из датасета с историей поиска и генерация тегов из смежных кластеров
attribute_clustering -> кластеризация значений каждого из аттрибутов отдельно и генерация с помощью предложенной выше формулы

Тег похожие товары

Для того, чтобы подробнее ознакомиться с кодом программы - необходимо запустить последнюю ячейку Final whole tag creation process.:

WildHack_similar_tags.ipynb

Данное решение базируется на следующей идее:

В качетсве датасета использутеся датасет с поисковыми запросами.
Поисковые запросы проходили стандартную предобработку.
С помощью модели fasttext cоздавались эмбеддинги для каждого слова датасета.
Слова объединялись в кластеры.

Далее каждое новое слово (словосочетание) проходило аналогичную предобработку и с помощью алгоритмов машинного обучения адресуется в нужный кластер. Из нужного кластера выбирались самые близкие по косинусному расстоянию слова.

Дополняющие теги

Идея решения:

Необходимо сформировать кластеры из "комлектов" (примеры элементов, которые могли бы входить в состав одного комплекта: юбка белая летняя, туфли на шпильке, шарф-платок белый, ... или элементы комплекта: айфон 10, чехол на айфон 10, беспроводные наушники, ...)
В качестве датасета использовать уже сформированные пользовательские корзины, в которых названия товаров закодированы некоторыми тегами.
Далее для формирования кластера тегов по некоторому запросу необходимо выбрать все корзины, содержащие теги с данным товаром и просуммировать позиции. Большая часть позиций будет распределена равномерно, однако дополняющие товары сформируют пики, которые можно определить используя статистическую гипотезу для критерия выброса. Теги соответствующие этим пикам можно считать дополняющими тегами для исходных.

Веб-сервис :computer:

Также был разработан веб-сервис для возможности продемонстрировать результаты

Результаты

Дополнительно

data - данные, использовавшиеся для решения задачи поиска похожих товаров

Команда

👩 Эльвира Плyмите

👧 Асель Ермекова

👩‍🦱 Альбина Клепач

👩‍🦰 Нина Коновалова

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
data		data
pictures		pictures
web		web
README.md		README.md
WildHack_similar_tags.ipynb		WildHack_similar_tags.ipynb
specifying_tag_generation_attribute_clustering.ipynb		specifying_tag_generation_attribute_clustering.ipynb
specifying_tag_generation_naive_clustering.ipynb		specifying_tag_generation_naive_clustering.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WildHack_Tags 👗

Уточняющие теги

Тег похожие товары

Дополняющие теги

Веб-сервис :computer:

Результаты

Дополнительно

Команда

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

WildHack_Tags 👗

Уточняющие теги

Тег похожие товары

Дополняющие теги

Веб-сервис :computer:

Результаты

Дополнительно

Команда

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages