Специалисты

Владимир Г.

Middle +

Санкт-Петербург, Россия Стаж с 2021 года

Оставить заявку

Вы можете заказать собеседование со специалистом, оставив заявку на сайте

Описание

CV/NLP/ML инженер

автоматическое извлечение и обработка информации из документов (классификация, NER, вопросно-ответные системы, распознавание структуры),
OCR системы,
LLM и интеграция решений на их основе (RAG, агенты, function tools),
оптимизация и ускорение нейросетей,
генеративные нейросети и чатботы.
Образование
Тульский Государственный Университет
Автоматизация и управление, 2000 год

Дополнительное образование
Сертификаты:

DeepSchool
Ускорение нейросетей
stepik:
Нейронные сети и обработка текста, Samsung Research Russia Open Education
Нейронные сети и компьютерное зрение, Samsung Research Russia Open Education
Введение в Data Science, Bioinformatic Institute
Основы статистики, Bioinformatic Institute
Теория вероятностей, Computer Science Center
Введение в матанализ, Computer Science Center
Линейная алгебра, Computer Science Center
Программирование на Python, Bioinformatic Institute

Опыт

Проект

Система автоматизированной обработки входящего потока документов

Описание

Распознавание и обработка входного потока документов (сканы, фото, текст) - классификация, сегментация, извлечение информации. Роль: CV/NLP разработчик Задачи: OCR печатных и рукописных текстов Классификация (оптическая и по тексту) входных документов Детекция угла поворота документа Модули поиска (детекции) штрих-кодов, печатей, подписей на документе Распознавание структуры документов, удостоверяющих личность (паспорта, СНИЛС, ВУ и т.п.) и извлечение информации из них Модуль NER для поиска и извлечения сложных адресов из текста документа (различная вариативность написания) Модуль проверки правильности распознавания структуры паспорта через MRZ (machine-readable zone) Детекция и распознавание табличных данных в документах Оптимизация и ускорение нейросетей, задействованных в проекте Вопросно-ответная система для работы с текстом юридических документов (приказы, договоры и т.п.) Модуль коррекции ошибок распознавания OCR, для улучшения качества сканирования документов Реализация возможности подключения больших языковых моделей (LLM) к процессу обработки документов, и настройка соответствующего пайплайна. Достижения и результаты: Значительное расширение функционала системы, поддержка новых типов документов и решаемых задач. Повышение скорости обработки документации (местами в 10-20 раз) и снижение требований к вычислительным ресурсам (поддержка CPU вместо GPU). Команда: 3 ML-разработчика, 2 сотрудника команды разметки, 1 PM.

Технологии

Python Transformers (+ accelerate, peft, datasets, metrics, setfit и т.п.) PyTorch ONNX, torch-pruning LLM (llama-cpp, openai API, transformers, bitsandbytes, unsloth, peft и т.п.) OCR (tesseract, PaddleOCR) GIT ClearML

Длительность

январь 2021 - октябрь 2024 месяца

Проект

Внутренний портал

Описание

Создание бота-помощника для работы с информацией на портале с внутренней документацией для сотрудников. Помощь в поиске информации по описанию внутренних бизнес-процессов, документации по проектам. Роль: NLP/ML разработчик Задачи: Настройка RAG системы по работе с внутренним порталом Выбор, подключение и тестирование LLM Выбор и подключение embedding моделей Настройка function call для вызова различных инструментов Помощь в подключении системы к корпоративному боту в discord, настройка personality. Достижения и результаты: Команда получила возможность быстро находить нужную информацию в справочно-информационной системе. Команда: 1 ML-разработчик, 1 frontend разработчик, 1 backend разработчик, 1 PM.

Технологии

Python Transformers ChromaDB, Quadrant LLM (llama-cpp, openai API) RAG GIT

Длительность

декабрь 2023 - октябрь 2024 месяца

К списку специалистов

Togo
Абхазия
Австралия
Австрия
Азербайджан
Албания
Алжир
Ангола
Ангуилья
Андорра
Антигуа и Барбуда
Антильские о-ва
Аргентина
Армения
Арулько
Афганистан
Багамские о-ва
Бангладеш
Барбадос
Бахрейн
Беларусь
Белиз
Бельгия
Бенин
Бермуды
Болгария
Боливия
Босния/Герцеговина
Ботсвана
Бразилия
Британские Виргинские о-ва
Бруней
Буркина Фасо
Бурунди
Бутан
Валлис и Футуна о-ва
Вануату
Великобритания
Венгрия
Венесуэла
Восточный Тимор
Вьетнам
Габон
Гаити
Гайана
Гамбия
Гана
Гваделупа
Гватемала
Гвинея
Гвинея-Бисау
Германия
Гернси о-в
Гибралтар
Гондурас
Гонконг
Гренада
Гренландия
Греция
Грузия
Дания
Джерси о-в
Джибути
Доминиканская республика
Египет
Замбия
Западная Сахара
Зимбабве
Израиль
Индия
Индонезия
Иордания
Ирак
Иран
Ирландия
Исландия
Испания
Италия
Йемен
Кабо-Верде
Казахстан
Камбоджа
Камерун
Канада
Катар
Кения
Кипр
Кирибати
Китай
Колумбия
Коморские о-ва
Конго (Brazzaville)
Конго (Kinshasa)
Коста-Рика
Кот-д’Ивуар
Куба
Кувейт
Кука о-ва
Кыргызстан
Лаос
Латвия
Лесото
Либерия
Ливан
Ливия
Литва
Лихтенштейн
Люксембург
Маврикий
Мавритания
Мадагаскар
Македония
Малави
Малайзия
Мали
Мальдивские о-ва
Мальта
Марокко
Мартиника о-в
Мексика
Мозамбик
Молдова
Монако
Монголия
Мьянма (Бирма)
Мэн о-в
Намибия
Науру
Непал
Нигер
Нигерия
Нидерланды (Голландия)
Никарагуа
Новая Зеландия
Новая Каледония о-в
Норвегия
Норфолк о-в
О.А.Э.
Оман
Пакистан
Панама
Папуа Новая Гвинея
Парагвай
Перу
Питкэрн о-в
Польша
Португалия
Пуэрто Рико
Реюньон
Россия
Руанда
Румыния
Сальвадор
Самоа
Сан-Марино
Сан-Томе и Принсипи
Саудовская Аравия
Свазиленд
Святая Люсия
Святой Елены о-в
Северная Корея
Сейшеллы
Сен-Пьер и Микелон
Сенегал
Сент Китс и Невис
Сент-Винсент и Гренадины
Сербия
Сингапур
Сирия
Словакия
Словения
Соломоновы о-ва
Сомали
Судан
Суринам
США
Сьерра-Леоне
Таджикистан
Таиланд
Тайвань
Танзания
Токелау о-ва
Тонга
Тринидад и Тобаго
Тувалу
Тунис
Туркменистан
Туркс и Кейкос
Турция
Уганда
Узбекистан
Украина
Уругвай
Фарерские о-ва
Фиджи
Филиппины
Финляндия
Франция
Французская Гвинея
Французская Полинезия
Хорватия
Чад
Черногория
Чехия
Чили
Швейцария
Швеция
Шри-Ланка
Эквадор
Экваториальная Гвинея
Эритрея
Эстония
Эфиопия
ЮАР
Южная Корея
Южная Осетия
Ямайка
Япония