# Цель
Разработать рекмендательную систему манги на основе данных полученных с сайта MyAnimeList.
# Задачи
- анализ существующих решений;
- сбор данных и их обновление;
- обучение и оценка моделей на исходном датасете;
- выбор двух моделей с наибольшим значением точности;
- оценка качества и скорости работы модели на новых комментариях путем A / B тестирования;
- выбор и развертывание наилучшей модели;
- оптимизация выбранной модели путем квантизации и дистилляции;
- развертывание оптимизированной модели, количественная оценка эффекта оптимизации.
# Датасет
Аниме, выпускавшееся до 25 июля 2022 года (opens new window)
Датасет содержит 24165 записей аниме, о которых была информация до 25 июля 2022 года. Сбор данных был произведён с использованием официального API сайта MyAnimeList, а также дополнен данными, полученными с помощью неофициального Jinkan API. Всего в датасете 39 колонка, включая даты выхода аниме, жанр, пердполагаемая аудитория, поднимаемые темы в произведении, информация об авторе, синопсис и многое другое. Для составления алгоритма рекомендаций нам лишь не хватает списка вкусов/просмотров у пользователей, который в дальнейшем будет получен с помощью парсинга сайта представленными средствами API.
Целесообразность использования датасета для решения поставленной задачи: датасет собран на основе данных популярного сайта по аниме и манге. Данный сайт можно назвать централизованным хранилищем информации на английском языке по рассматриваемой теме. Произведя первичную оценку датасета уже можно увидеть ряд интересных моментов, как зависимость пользовательской оценки от числа томов. Есть и более очевидные корреляции, как взаимосвязь количества оценивших пользователей и тех, кто отметил произведение как любимое. При дальнейшем анализе и очистке данных появится возможность заново проанализировать корреляцию признаков, их распределение и значимость для модели.