Аннотация и ключевые слова
Аннотация:
В работе исследуется проблема дисбаланса классов при построении моделей машинного обучения для автоматической классификации полезности пользовательских отзывов на платформе Steam. Анализ более 6 миллионов рецензий показал, что доля полезных отзывов составляет около 15%, что приводит к «парадоксу точности» при обучении стандартных классификаторов. Проведено сравнительное исследование методов балансировки выборки: взвешивания классов и прореживания мажоритарного класса.

Ключевые слова:
дисбаланс классов, машинное обучение, анализ отзывов, Undersampling, Steam, TF-IDF, классификация текстов
Список литературы

1. Мудамби С.М. Что делает онлайн-отзыв полезным? Исследование отзывов покупателей на Amazon.com. / Мудамби С.М., Шуфф Д. // MIS Quarterly. - 2010 - Т. 34, № .1. DOI: https://doi.org/10.2307/20721420

2. Воронцов К.В. Математические методы обучения по прецедентам (теория обучения машин). - URL: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf (Дата обращения: 15.02.2026).

3. Хе Х. Обучение на основе несбалансированных данных / Хе Х., Гарсия Э.А. // IEEE Transactions on Knowledge and Data Engineering. - 2009. - Т. 21, № 9. - С. 1263-1284. DOI: https://doi.org/10.1109/TKDE.2008.239

4. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. - М.: ДМК Пресс, 2015.

5. Фернандес А. Обучение на несбалансированных наборах данных. / Фернандес А., Гарсия С., Галар М., Прати Р.К., Кравчик Б., Эррера Ф. - Springer, 2018. – 377 с.

6. Чавла Н.В., Бойер К.В., Холл Л.О., Кегельмейер В.П. SMOTE: Методика синтетического пересэмплирования меньшинства / Чавла Н.В., Бойер К.В., Холл Л.О., Кегельмейер В.П. // Journal of Artificial Intelligence Research. - 2002. - Т. 16. - С. 321-357. DOI: https://doi.org/10.1613/jair.953

7. Педрегоса Ф. Scikit-learn: Машинное обучение на Python / Педрегоса Ф., Вароку Г., Грамфорт А. // Journal of Machine Learning Research. - 2011. - Т. 12. - P. 2825-2830.

8. Благус Р. SMOTE для высокоразмерных классово-несбалансированных данных / Благус Р., Луса Л. // IEEE 11th International Conference on Machine Learning and Applications. - 2012. - Т. 2. – C. 89 - 94. DOI: https://doi.org/10.1109/ICMLA.2012.183

9. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. / Маннинг К., Рагхаван П., Шютце Х. - М.: Вильямс, 2011. - 528 с.

10. Чен Т. XGBoost: Масштабируемая система бустинга деревьев/ Чен Т., Гестрин К. // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. - 2016. - P. 785-794. DOI: https://doi.org/10.1145/2939672.2939785

11. Новикова Т.П. Разработка алгоритма количественного инвестирования на базе Random Forest / Т.П. Новикова, C.А. Евдокимова, У Гоцуй // Моделирование систем и процессов. - 2022. - Т. 15, № 1. - С. 53-60. DOI: https://doi.org/10.12737/2219-0767-2022-15-4-53-60

Войти или Создать
* Забыли пароль?