Специалисты

Описание

Навыки:
- Python
- Pytest
- Cassandra, SQL, Elasticsearch
- ClickHouse
- Scala
- Docker
- Apache Hive, Apache Spark, Apache Hadoop, Apache Airflow
- Gitlab
- Apache Kafka
- ETL
- NoSQL
- Golang
- Milvus

Образование:

Уфимский государственный авиационный технический университет, факультет информатики и робототехники, специальность: моделирование и исследование операций в организационно-технических системах.

Опыт
Проект

Банковский проект

Описание

Data Engineer Обязанности: - Разработка для внешних заказчиков: - Построение хранилища данных на основе модели hNhM на инфре ytsaurs - Построение конвейра поставки данных (таких было 9) через Oozie в/из хадуп из/в кафки - Интеграция пайплайнов работы с Kafka с помощью Airflow. Написано порядка 20 дагов. - Расширение библиотеки для нужд DS/DE которое включает в себя работу со Spark. - Инкрементальная загрузка данных из 3х баз(firebird, postgresql, mssql) в один единый (PostgreSQL) -построение дата-архитектуры (DWH, OLAP,ELT/ETL/Data Lake/LakeHouse) - Реализовал логику загрузки через Airflow

Технологии

Python, DBT, CI/CD, Airflow, Spark, Hadoop, S3, Hive, Postgres, Greenplum, Kubernetes, Gitlab, Pyspark, Docker, Clickhouse, Postgresql, k8s, Java, Golang

Длительность

Ноябрь 2023 — настоящее время месяцев

Проект

Социальная сеть

Описание

Data Engineer Обязанности: - Поддержание актуальной аналитической базы на основе Clickhouse. Написание дагов для наполнения данными из внутренних источников (prod mysql, hadoop) и внешних (парсинг сайтов и заливка xml). - Оптимизация аналитических скриптов после аналитиков. - Разработка новых функций для внутренней библиотеки. - Рефакторинг легаси кода

Технологии

Python, Java, Scala, Golang, Clikchouse, MySQL, Hadoop, Apache Hive, Docker, k8s

Длительность

Декабрь 2021 — Ноябрь 2023 месяца

Проект

Оператор связи

Описание

Data Engineer Обязанности: - Переписывал SQL запросы на scala spark + оптимизация данных запросов)

Технологии

Scala, Python, Spark, Hadoop, Hive, MySQL, Docker, K8s

Длительность

Март 2022 — Июнь 2022 месяца

Проект

Автоматизация отчетности

Описание

Data Engineer Обязанности: - Формирование отчетов и их автоматизация на основе данных из Cassandra, ES, PostgreSQL с помощью Python/Pandas - Создание и внедрение модели классификации текста с помощью классических алгоритмов ML. Для векторизации текста был использован метод TF-IDF, для классификации лог. рег. В дальнейшем остановился на CatBoost. После этого модель была перенесена на ВМ, где обработка, входящих запросов через API, происходит с помощью Flask.

Технологии

Python, Pandas, Cassandra, ES, PostgreSQL, CatBoost, Flask, REST API

Длительность

Август 2020 — Февраль 2022 месяца