Всё ещё пользуетесь GridSearchCV? Тогда мы идём к вам!

November 30, 2021 in python

В последнее время замечаю, что народ соскакивает с проверенного временем метода подбора параметров моделей при помощи GridSearchCV из модуля model_selection библиотеки scikit-learn на библиотеку optuna. Судя по Google Trends эта волна началась около трёх лет назад, но я узнал про библиотеку лишь несколько месяцев назад и успел применить только в паре соревнований. В optuna есть три основных понятия: trial — один запуск функции, качество которой оптимизируем, study — сессия оптимизации.

Расширяем существующий scikit-learn классификатор

April 18, 2020 in development

Я участвую в разработке продукта, одна из фич которго – классификация текстов документов по их содержимому. Например, входящий поток требуется разделить на разные папки: отедилить мух от котлет договоры от счетов-фактур. Кратко одну из последних задач можно описать следующим образом: мы поставляем “в коробке” классификатор с пятью стандартными классами документов, а клиент хочет иметь возможность разделять поток документов на шесть классов: пять наших и один свой. В этой статье я покажу один из возможных вариантов решения этой задачи на примере классического набора данных 20 newsgroup dataset:

Разработка рекомендательной системы на Python.

September 8, 2018 in development

Думаю, никого сегодня не удивить рекомендательными системами. Их можно встретить повсюду: на сайте с книгами (ozon.ru), блогах (habr.ru), интернет-магазинах (практически любой), стриминговых музыкальных (spotify, Яндекс.Музыка) и видео сервисах (kinopoisk, ivi, amediateka). Самый продуктивный способ разобраться как работают подобные алгоритмы — написать самому с самого начала. Этому и будет посвящена текущая статья. В рекомендательных системах есть два основных подхода: Content-based рекомендации основанные на описании объектов, которые требуется рекомендовать (рекомендуем фильмы, похожие на те, которые понравились пользователю); Коллаборативная фильтрация основанная на оценках пользователя и похожести его на других пользователей.

Сколько страниц книги необходимо прочитать, чтобы узнать 90% всех слов?

November 21, 2017 in NLP

Вдохновившись статьёй для английских книг, решил проверсти аналогичный анализ для русских произведений. Преподаватель английского языка автора оригинальной статьи утверждал, что прочитав 20 страниц любой книги можно узнать 90% всех слов произведения и далее читать книгу будет значительно проще. В этой статье я хочу проверить аналогичное утверждение для русского языка: сколько страниц необходимо прочитать, чтобы узнать 90% книги. Спойлер: прочитав 20 страниц книги вы практически наверняка не узнаете 90% всех слов.

Всё ещё пользуетесь GridSearchCV? Тогда мы идём к вам!

Расширяем существующий scikit-learn классификатор

Разработка рекомендательной системы на Python.

Сколько страниц книги необходимо прочитать, чтобы узнать 90% всех слов?

feeeper