Специалисты
Образование:
1. Московский физико-технический институт (Государственный университет), Долгопрудный
ЛФИ, Прикладная теоретическая физика
2. Skolkovo Institute of Science and Technology
Advanced Manufacturing Technologies, Information Systems and Technologies
3. Московский физико-технический институт (Государственный университет), Москва
Факультет проблем физики и энергетики, Прикладная математика и физика
Навыки и компетенции:
Apache Kafka ML flow
Python BigQuery
SQL OpenCV
pandas Atlassian Jira
Машинное обучение Docker
PyTorch DVC
Natural Language Processing Git
Computer Vision ClickHouse
Mentoring ANotionirFlow
Technical leading
Numpy
GitLab CI
Google Cloud Platform (GCP)
FastAPI
Матчинг товаров конкурентов
Команда: Команда разработки ML Фудтех, на данный момент 3 человека: Тимлид и 2 мидл ML, каждый на своем проекте Роль на проекте: ML разработчик Обязанности: Разработка и дообучение Transformer?энкодера (contrastive learning) для текстовых описаний товаров. Создание пайплайна расчёта эмбеддингов и NN?поиска. Проектирование Airflow DAG, выгрузка результатов в S3 / Greenplum. Поддержка ETL из ClickHouse и интеграция данных в pricing?dashboard. Настройка мониторинга качества (Hit?Rate, MRR) и алертов. Достижения: Достигнуты метрики: MRR?0.71, Hit?Rate@10?0.92 на 18?k SKU. Время ежедневного обновления маппинга сокращено до 12?мин (?4 быстрее старта). Снижена доля ручного матчинга до <30?% через confident?threshold и semi?auto review. Настроена CI?автосинхронизация DAG ? zero?downtime релизы. Пайплайн масштабирован под рост до 500?k?SKU без изменения SLA.
Python • PyTorch • Transformers • Pandas • DVC • MLFlow • Airflow • ClickHouse • Greenplum • Yandex Cloud S3 • Docker • GitLab CI • Regex • Data Validation • Metric Tracking •
01.2025 наст. вр месяцев
e-commerce компания по производству и ритейлу очков
Команда: Data department Роль на проекте: Senior Data Scientist Обязанности: Поиск визуального сходства — сбор набора данных, обучение модели, извлечение вложений, реализация поиска, разработка и развертывание микросервисов, регистрация и мониторинг; Visual similarity search — поиск визуально похожих очков среди ассортимента компании, ResNet (дообученный) кодирование изображений присланных пользователем и поиск максимально похожих очков в каталоге Сокращение PII — подпроцесс для удаления защищенных данных HIPA в дополнение к основному конвейеру OCR; Оценка отзывов — регулярный конвейер CI для ранжирования обзоров продуктов; Reviews ranking — ранжирование отзывов пользователей на основе сентимента и информативности ревью Наставничество и техническое руководство в небольшой команде специалистов по данным: Quiz-based hybrid RS — рекомендации очков на основе ответов пользователя на опросник (Quiz) CatBoost Рекомендации визуально похожих очков Достижения: Достигнут HitRate@1 в районе 60% для визуального поиска Рекомендации визуально похожих товаров увеличили конверсию на 3%
Python • PyTorch • Pandas • BigQuery • OpenCV • MediaPipe • GCP • Docker+ K8s • GitLab CI • Sklearn • DVC • CatBoot • Airflow 2.*.* • Yandex Cloud
01.2024 12.2024 месяца
e-commerce компания по производству и ритейлу очков
Команда: Data department Роль на проекте: Middle data scientist Обязанности: Экспорт данных из BigQuery(SQL)4 Подготовка датасетов (feature engineering, feature selection, imputing); Обучение моделей, hyperparameter tuning (optima, grid-search); Деплой моделей в продакшн. Основные проекты: Предсказание купит ли пользователь премиальный или обычный продукт Прогнозирование спроса на очки Рекомендация очков по фото лица Facial-&-behaviour hybrid RS - рекомендации очков на основе фотографии лица пользователя Ранжирование отзывов на основе сентимента и информативности Достижения: В задаче предсказания премиума ROC-AUC > 95% Прогнозирование спроса MAPE 27 -> 17 % В задаче рекомендаций CTR +4%, CR +2%
Python • SQL • BigQuery • Pandas • NumPy • CatBoost • Scikit?Learn • Optuna • MLflow • Docker • DVC • GitLab?CI • OpenCV • PyTorch • Recommender?Systems • Demand?Forecasting • Classification • Sentiment?Analysis • Feature?Engineering • A/B?Testing • Data?Visualization
01.2023 01.2024 месяца
Исследовательский проект в области разведки нефтяных месторождений
Команда: 5 человек + руководитель, 2 джуна, 2 мидла и один сеньор + руководитель уровня сеньор Роль на проекте: Middle data scientist Обязанности: Super?resolution томограмм (Pix2Pix) Surface?correlation?NN MLOps (MLflow) Достижения: Получены модели повышения разрешения 2Д и 3Д изображений пористых структур Достигнуто очень низкое MAPE < 1% для суррогатной модели предсказания корреляционных функций на 2Д и 3Д изображениях пористых структур
Python • PyTorch • U-Nets • 3D CNN • MLflow • Docker • NumPy • Scikit?Image • Albumentations • OpenCV • Surrogate Modeling • Super?resolution • Volumetric Data • Data Visualization
05.2021 12.2022 месяца
Исследования в области спектроскопии белков-маркеров заболеваний
Роль на проекте: Data scientist Обязанности: Сбор и предобработка Рамановских / флуоресцентных спектров белков?маркеров: baseline?correction, нормализация, denoising. Скрипты Python (NumPy, SciPy, pandas) для извлечения признаков: PCA, t-SNE Классификация «болезнь?/?контроль» моделями SVM, Random?Forest, CNN; протокол k?fold CV. Кластеризация (K?means, DBSCAN) для поиска новых групп спектров Характеризация поверхностей подложек с помощью CNN-автокодировщика Достижения: Получена высокая точность классификации ГКР-спектров низких концентраций белков-маркеров Показана корреляция между признаками усиления спектра и параметрами напыления подложек Опубликована Q1 статья по результатам исследований
Python • NumPy • SciPy • Pandas • Scikit?Learn • PyTorch • Spectroscopy • PCA • t?SNE • Clustering (K?means, DBSCAN) • Matplotlib • Seaborn • Git
10.2016 12.2020 месяцев