Sistemas Distribuídos
Descrição da Oportunidade
Responsabilidades no âmbito da bolsa: - Desenho de técnicas e mecanismos para melhorar o desempenho e consumo energético de GPUs no contexto de aprendizagem profunda sobre ambientes distribuídos. - Integração e avaliação em ambientes experimentais de larga escala e elevado desempenho (i.e., supercomputadores). - Avaliação experimental das técnicas desenvolvidas recorrendo a diferentes modelos de aprendizagem profunda e diferentes tipos de hardware (p.ex., diferentes dispositivos de processamento e armazenamento). - Produção de relatórios técnicos e de artigos científicos.
Habilitações Académicas
- Frequência em programa doutoral em Informática ou Engenharia Informática.
Requisitos Mínimos
- Conhecimento sólido e experiência no desenho de modelos de machine learning, deep learning, e large-language models (i.e., ResNet18, ResNet50, AlexNet, VGG19, LLama, Qwen, GPT).- Conhecimento sólido sobre a pipeline de treino e respetivos gargalos de desempenho.- Conhecimento e experiência em HPC (scripts, experiências, coleção e análise de métricas).
Fatores de Preferência
- Experiência com motores de aprendizagem profunda, incluindo PyTorch, TensorFlow, e DeepSpeed. - Conhecimento sobre otimizações de desempenho e consumo energético em aprendizagem profunda. - Conhecimento de sistemas distribuídos e sistemas operativos. - Experiência com as linguagens de programação Python e C++.
Período de candidatura
Desde 26 Jun 2025 a 09 Jul 2025
Centro
Laboratório de Software Confiável