cv engineer
генерация резюме под вакансию
сопроводительное письмо
описание
Команда GigaChat Pretrain Data занимается подготовкой данных для обучения моделей GigaChat и GigaChat Vision. Работа включает обработку более 40 Пб сырых данных для создания качественных датасетов, на которых обучаются современные большие языковые модели.
задачи
- Поддерживать данные для обучения VLM на кластере YTSaurus;
- Строить платформу для анализа и обработки данных, включая фильтрацию и дедупликацию;
- Автоматизировать процессы с помощью Airflow;
- Искать и синтезировать данные для обучения VLM в различных областях;
- Исследовать пайплайны создания чистых и разнообразных датасетов;
- Обучать VLM на подготовленных данных;
- Проводить исследования релевантных метрик и бенчмарков для замера качества.
требования
- Опыт построения дата пайплайнов и процессов контроля качества данных;
- Понимание задач компьютерного зрения и современных подходов в больших языковых моделях;
- Опыт решения задач, связанных с влиянием данных на качество VLM;
- Практический опыт работы с VLM;
- Будет плюсом опыт работы в продакшн ML команде, особенно с большими нагрузками.
условия
- Комфортный современный офис рядом с м. Кутузовская;
- Годовая премия;
- Корпоративный спортзал и зоны отдыха;
- Более 400 образовательных программ СберУниверситета;
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
- Ипотека для сотрудников по дисконтной программе;
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду Сбера.
навыки
Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.