Специалисты
Образование: УрФУ, ИЕНиМ (Мат-Мех), Математика
ML стек
• PyTorch
• Numpy
• Pandas
• LangChain
• TensorFlow, Keras
MLOps
• DVC
• MLFlow
• Weights & Biases
Архитектуры DL
• Transformer
(encoder-only,
encoder-decoder)
• RNN, LSTM
• CNN, ResNet
• YOLO
Другое
• Flask
• Docker & Docker
Compose
• Git
Протоколирование встреч
Для сервиса, занимающегося созданием транскрибации и протоколов встреч, требовалось разработать систему оценки качества протоколирования локальных моделей, разворачиваемых в контуре клиента. Также требовалось протестировать разные локальные модели и выбрать оптимальную. Разработал систему оценивания моделей на основе метрик из библиотеки RAGAS (summarization метрика), а также самостоятельно разработанных метрик для оценки полноты и точности протоколов. Тестировал и выбирал различные локальные модели.
Ragas, Transformers, vLLM
январь 2025 - март 2025 месяцев
Закупки
Сервис подбора подрядчиков для выполнения работ / предоставления услуг. Выполняет проверку документов, предоставленных компаниями-участниками отбора, на предмет соответствия критериям отбора. На основе LLM построил классификатор документов, ставящий в соответствие паре (критерий, документ) ответ, соответствует ли документ заданному критерию. Для критериев, требующих для подтверждения нескольких документов, реализовал сверку документов участника между собой.
LangChain, Transformers
март 2024 - ноябрь 2024 месяца
Сервис автоматической проверки технических заданий на соответствие требованиям информационной безопасности.
Реализовал гибридный поиск BM25 + FAISS для нахождения частей документа, требующих проверки. Дообучил модель E5 для последующей проверки на соответствие.
PyTorch, FastAPI, Docker, FAISS
декабрь 2023 - февраль 2024 месяца
Подбор кандидатов на вакансии по текстовому описанию опыта работы, выполненных проектов, квалификаций и т.д.
Реализовал матчинг кандидатов с помощью векторных представлений их описаний и поиска по ним в векторной базе данных ChromaDB. Используя prompt engineering с GPT-3.5 добавил последующее ранжирование результатов поиска и получение развёрнутых комментариев по соответствию кандидатов требованиям вакансии.
ChromaDB, LangChain, Pandas.
август 2023 - ноябрь 2023 месяца
Сервис распознавания записей рабочих встреч с разделением говорящих и функцией автоматического создания кратких заметок по содержанию звонка.
Реализовал диаризацию аудио, алгоритмы постобработки, деплой диаризации через сервис Replicate. Реализовал распознавание речи через Whisper. Для составления заметок по встречи использован GPT 4.0
OpenAI Whisper, pyAnnote, LangChain, Replicate, GPT 4.0.
март 2023 - июль 2023 месяца
Приложение для оценки состояния коллекционных карточек по фотографии (обнаружение дефектов печати, потёртостей, заломов и т.д.)
Задача ML состояла в классификации изображений на 19 классов (оценки состояния от 1 до 10 с шагом 0.5). Решалась обучением модифицированной модели ResNet50 c 19 выходами. В качестве вспомогательной задачи решалась задача сегментации карточки для отделения ее от фона. Собрал обучающие данные с помощью парсинга eBay. Настроил версионирование данных и трекинг экспериментов для воспроизводимости результатов и облегчения их анализа. Адаптировал модель под условия задачи и обучил её. Проводил эксперименты с последующим анализом результатов и корректировкой модели и данных (балансировка классов, аугментации, изменения в архитектуре модели, различные алгоритмы оптимизации), что в итоге позволило получить качество, соответствующее ожиданиям заказчика. Развернул сервис с моделью в production среде
PyTorch, Keras, BeautifulSoup4, Docker & Docker Compose, Weights & Biases, DVC, opencv, Flask.
сентябрь 2022 - март 2023 месяца
Приложение для поиска товаров по фотографии. Использовались модели детекции для определения товаров на снимках, и vector search для матчинга товаров с имеющимися в базе.
Обучил модели YOLOv5 для детекции товаров на фотографиях полки целиком и снимков крупным планом. Сделал API для моделей с помощью TorchServe. Добавил дополнительное ранжирование результатов поиска, задействовав OCR для распознавания текста на упаковках товара, что привело к росту релевантности результатов
PyTorch, TorchServe, Docker & Docker Compose, FAISS, YOLOv5.
июнь 2022 - сентябрь 2022 месяца
приложение с подкастами
Использовал подход Transfer Learning для адаптации предобученной модели BERT под задачу разбиения текста. Предложил unsupervised способ разбиения, основанный на вычислении семантической близости между предложениями, что избавило от необходимости разметки дополнительных данных для обучения. Решил задачу построения коротких заголовков к абзацам, дообучив T5, предобученный для суммаризации текста. Развернул демо, используя веб-фреймворк, инструменты контейнеризации и оркестрации контейнеров.
PyTorch, MLFlow, DVC, Flask, Docker & Docker Compose.
июль 2021 - июнь 2022 месяца