Специалисты
Навыки:
- Python
- Pytest
- Cassandra, SQL, Elasticsearch
- ClickHouse
- Scala
- Docker
- Apache Hive, Apache Spark, Apache Hadoop, Apache Airflow
- Gitlab
- Apache Kafka
- ETL
- NoSQL
- Golang
- Milvus
Образование:
Уфимский государственный авиационный технический университет, факультет информатики и робототехники, специальность: моделирование и исследование операций в организационно-технических системах.
Банковский проект
Data Engineer Обязанности: - Разработка для внешних заказчиков: - Построение хранилища данных на основе модели hNhM на инфре ytsaurs - Построение конвейра поставки данных (таких было 9) через Oozie в/из хадуп из/в кафки - Интеграция пайплайнов работы с Kafka с помощью Airflow. Написано порядка 20 дагов. - Расширение библиотеки для нужд DS/DE которое включает в себя работу со Spark. - Инкрементальная загрузка данных из 3х баз(firebird, postgresql, mssql) в один единый (PostgreSQL) -построение дата-архитектуры (DWH, OLAP,ELT/ETL/Data Lake/LakeHouse) - Реализовал логику загрузки через Airflow
Python, DBT, CI/CD, Airflow, Spark, Hadoop, S3, Hive, Postgres, Greenplum, Kubernetes, Gitlab, Pyspark, Docker, Clickhouse, Postgresql, k8s, Java, Golang
Ноябрь 2023 — настоящее время месяцев
Социальная сеть
Data Engineer Обязанности: - Поддержание актуальной аналитической базы на основе Clickhouse. Написание дагов для наполнения данными из внутренних источников (prod mysql, hadoop) и внешних (парсинг сайтов и заливка xml). - Оптимизация аналитических скриптов после аналитиков. - Разработка новых функций для внутренней библиотеки. - Рефакторинг легаси кода
Python, Java, Scala, Golang, Clikchouse, MySQL, Hadoop, Apache Hive, Docker, k8s
Декабрь 2021 — Ноябрь 2023 месяца
Оператор связи
Data Engineer Обязанности: - Переписывал SQL запросы на scala spark + оптимизация данных запросов)
Scala, Python, Spark, Hadoop, Hive, MySQL, Docker, K8s
Март 2022 — Июнь 2022 месяца
Автоматизация отчетности
Data Engineer Обязанности: - Формирование отчетов и их автоматизация на основе данных из Cassandra, ES, PostgreSQL с помощью Python/Pandas - Создание и внедрение модели классификации текста с помощью классических алгоритмов ML. Для векторизации текста был использован метод TF-IDF, для классификации лог. рег. В дальнейшем остановился на CatBoost. После этого модель была перенесена на ВМ, где обработка, входящих запросов через API, происходит с помощью Flask.
Python, Pandas, Cassandra, ES, PostgreSQL, CatBoost, Flask, REST API
Август 2020 — Февраль 2022 месяца