# 1. Определение границ проекта

Цель: Выполнить оценку эмоциональной окраски комментариев на Youtube. (повысить “точность” оценки эмоциональной окраски комментариев на Youtube).

Задачи:

  1. анализ существующих решений;
  2. сбор данных и их обновление;
  3. обучение и оценка моделей на исходном датасете;
  4. выбор двух моделей с наибольшим значением точности;
  5. оценка качества и скорости работы модели на новых комментариях путем A / B тестирования;
  6. выбор и развертывание наилучшей модели;
  7. оптимизация выбранной модели путем квантизации и дистилляции;
  8. развертывание оптимизированной модели, количественная оценка эффекта оптимизации.

Датасет: текст и эмоциональная окраска 1000 комментариев на youtube (opens new window)
Проект: soy (opens new window)
Целесообразность использования датасета для решения поставленной задачи: по результатам векторизации отдельных слов текста комментариев и применения метода сокращения размерности на диаграмме отчетливо видны кластеры, задача разделения состоит в поиске оптимальной гиперплоскости (см. рис 2).

Рис 1. Диаграмма, демонстрирующая целесообразность решения задачи анализа данных на выбранном датасете методами машинного обучения