Специалисты

Описание

Образование:
- Очная форма, срок 2026. Российская академия народного хозяйства и государственной службы при Президенте РФ, Прикладная информатика, Анализ данных
- Очная форма, срок 2022. University of Pardubice, Electrical engineering and informatics, Information technology

Data Engineer/ DWH-разработчик

1. Навыки

Языки программирования
Основные Python
Побочные SQL

Фреймворки
Основные Airflow


Опыт
Проект

Мобильные ТелеСистемы

Описание

Роль в проекте Data Engineer/ DWH-разработчик Команда проекта 3 Data Engineer, 1 Data Steward, 1 Системный архитектор, 2 SRE, 8 DevOps Описание проекта Разработка DWH, интеграция новых источников данных, проектирование ETL-процессов Обязанности на проекте • Добавляю новые источники данных в DWH - SQL, API, Kafka, Excel. • Проектирую новые и занимаюсь оптимизацией существующих ETL-процессов в Airflow • Интегрирую dbt и astronomer-cosmos в проект, перевожу витрины в dbt модели. • Создаю с нуля Prod DWH на ClickHouse и переношу данные из Dev DWH. • Формирую новые и аналитические витрины совместно с дата-аналитиками. • Занимаюсь рефакторингом кода проекта - интеграцией линтеров и форматтеров (ruff, black, isort, sqlfluff), CI. Личные результаты В одиночку интегрировал в работу dagster и dbt и поддерживал более 50 ETL-процессов. Развил общий уровень BI в отделе и унифицировал стиль BI отчетности.

Технологии

Python, SQL, Airflow, dbt, ClickHouse, Postgres, Kafka, S3 MinIO

Длительность

Октябрь 2024 – по настоящее время (10 месяцев) месяцев

Проект

Банк

Описание

Роль в проекте Data Engineer/ DWH-разработчик Команда проекта Разработчики, аналитики данных, продуктовые менеджеры, UX/UI-дизайнеры, DevOps, QAинженеры Описание проекта Создание аналитической отчетности, выстраивание data lineage и каталогов данных Обязанности на проекте Создавал аналитическую отчетность с использованием процессов data governance – 3 выстраивал data lineage от источников до BI отчетов, формировал каталог данных, интегрировал дата-тесты, организовывал сбор метаданных, обеспечивая целостность и актуальность данных, сокращая время на подготовку и обработку данных, и упрощая интеграцию новых источников данных. • Проектировал ETL-процессы с интервалами запуска от месячных до 5-минутных с использованием dagster и dbt. • Загружал данные из внешних систем (API, web, SQL, файлы) в DWH, очищал и нормализировал для дальнейшего использования. • Формировал витрины данных, сокращая время обновления BI отчетов и снижая нагрузку на DWH и BI. • Создавал и оптимизировал BI отчеты: собирал требования у бизнес-заказчиков, создавал новые отчеты, дорабатывал и поддерживад существующие, переносил отчеты из Excel и приводил их к единому визуальному стандарту. • Формировал автоматические email-рассылки с данными для внутренних подразделений и руководителей. Периодичность рассылок от месячных до 15-минутных. • Выполнял ad-hoc выгрузки и визуализацию данных. • Обучал команду визуализации данных, использованию dagster и Power BI. Личные результаты Улучшил процессы BI в отделе, увеличил качество и скорость отчетности, обучил команду использованию BI инструментов.

Технологии

Python, SQL, Dagster, dbt, Power BI, Oracle, PostgreSQL, GraphQL, DAX, Pandas, NumPy, Jinja, SQLAlchemy, Selenium, Pydantic

Длительность

Сентябрь 2022 – Октябрь 2024 (2 года 2 месяца) месяцев

Проект

Разработчик компьютерных игр

Описание

Wargaming Роль в проекте MLOps Engineer Команда проекта 3 MLOps, 1 DevOps, 4 Data Scientist Описание проекта Разработка фреймворка для оценки качества ML моделей и автоматизации мониторинга Обязанности на проекте : • Разработал фреймворк для оценивания качества ML моделей, что позволило успешно отслеживать и оценивать модели разных типов – регрессии, классификации и кластеризации – в проде, с возможностью выбирать разные метрики, гибко настроить разные пороговые значения для различных категорий пользователей и регионов. • Настроил автоматическую отправку отчетов о критических показателях ML моделей. • Разработал автоматизированную систему мониторинга и оповещений, устранив необходимость ручного отслеживания качества моделей Личные результаты: Улучшил процесс отслеживания качества ML моделей, повысил эффективность работы команды.

Технологии

Python, SQL, CNVRG, NumPy, Pandas, Scikitlearn, Bash, Impala, Snowflake

Длительность

Март 2022 – Август 2022 (6 месяцев) месяцев

Проект

Машинное обучение

Описание

Роль в проекте Data Scientist Команда проекта 5 Data Scientist Проект - разработка алгоритмов для моделей компьютерного зрения и аннотация изображений Обязанности на проекте - Проводил аннотацию изображений для моделей компьютерного зрения в CVAT. - Создал алгоритм для подсчета количества этажей по фотографиям строительного процесса с точностью 95% и разработал модели с использованием OpenCV и PyTorch для идентификации объектов внутренней отделки с точностью 90% на фотографиях и 78% на видео, что автоматизировало процесс оценки прогресса строительства. - Разрабатывал Auto ML open-source библиотеки Insolver, предназначенной для решения задач в сфере страхования. Личные результаты Автоматизировал оценку прогресса строительства, повысил точность моделирования.

Технологии

Python, PyTorch, OpenCV, NumPy, Scikit-learn, Albumentations

Длительность

Август 2021 – Февраль 2022 (7 месяцев) месяцев