Специалисты
CV/NLP/ML инженер
автоматическое извлечение и обработка информации из документов (классификация, NER, вопросно-ответные системы, распознавание структуры),
OCR системы,
LLM и интеграция решений на их основе (RAG, агенты, function tools),
оптимизация и ускорение нейросетей,
генеративные нейросети и чатботы.
Образование
Тульский Государственный Университет
Автоматизация и управление, 2000 год
Дополнительное образование
Сертификаты:
DeepSchool
Ускорение нейросетей
stepik:
Нейронные сети и обработка текста, Samsung Research Russia Open Education
Нейронные сети и компьютерное зрение, Samsung Research Russia Open Education
Введение в Data Science, Bioinformatic Institute
Основы статистики, Bioinformatic Institute
Теория вероятностей, Computer Science Center
Введение в матанализ, Computer Science Center
Линейная алгебра, Computer Science Center
Программирование на Python, Bioinformatic Institute
Система автоматизированной обработки входящего потока документов
Распознавание и обработка входного потока документов (сканы, фото, текст) - классификация, сегментация, извлечение информации. Роль: CV/NLP разработчик Задачи: OCR печатных и рукописных текстов Классификация (оптическая и по тексту) входных документов Детекция угла поворота документа Модули поиска (детекции) штрих-кодов, печатей, подписей на документе Распознавание структуры документов, удостоверяющих личность (паспорта, СНИЛС, ВУ и т.п.) и извлечение информации из них Модуль NER для поиска и извлечения сложных адресов из текста документа (различная вариативность написания) Модуль проверки правильности распознавания структуры паспорта через MRZ (machine-readable zone) Детекция и распознавание табличных данных в документах Оптимизация и ускорение нейросетей, задействованных в проекте Вопросно-ответная система для работы с текстом юридических документов (приказы, договоры и т.п.) Модуль коррекции ошибок распознавания OCR, для улучшения качества сканирования документов Реализация возможности подключения больших языковых моделей (LLM) к процессу обработки документов, и настройка соответствующего пайплайна. Достижения и результаты: Значительное расширение функционала системы, поддержка новых типов документов и решаемых задач. Повышение скорости обработки документации (местами в 10-20 раз) и снижение требований к вычислительным ресурсам (поддержка CPU вместо GPU). Команда: 3 ML-разработчика, 2 сотрудника команды разметки, 1 PM.
Python Transformers (+ accelerate, peft, datasets, metrics, setfit и т.п.) PyTorch ONNX, torch-pruning LLM (llama-cpp, openai API, transformers, bitsandbytes, unsloth, peft и т.п.) OCR (tesseract, PaddleOCR) GIT ClearML
январь 2021 - октябрь 2024 месяца
Внутренний портал
Создание бота-помощника для работы с информацией на портале с внутренней документацией для сотрудников. Помощь в поиске информации по описанию внутренних бизнес-процессов, документации по проектам. Роль: NLP/ML разработчик Задачи: Настройка RAG системы по работе с внутренним порталом Выбор, подключение и тестирование LLM Выбор и подключение embedding моделей Настройка function call для вызова различных инструментов Помощь в подключении системы к корпоративному боту в discord, настройка personality. Достижения и результаты: Команда получила возможность быстро находить нужную информацию в справочно-информационной системе. Команда: 1 ML-разработчик, 1 frontend разработчик, 1 backend разработчик, 1 PM.
Python Transformers ChromaDB, Quadrant LLM (llama-cpp, openai API) RAG GIT
декабрь 2023 - октябрь 2024 месяца