NVIDIA: Building AI Agents with Multimodal Models (English)
1 day
- Online thuis studie
- Duur 1 dag
In het kort
In this training, you will learn how to develop neural networks that combine different data types (from LiDAR scans to text extracted from documents) to enable better predictions and analyses.
In this training, you will learn how to develop neural networks that combine different data types (from LiDAR scans to text extracted from documents) to enable better predictions and analyses.
Certificate
Upon completion of this training, you will receive the certificate of participation ‘NVIDIA: Building AI Agents with Multimodal Models (English)’ van Computrain.
Your result
When completing this training, you will be able to:
- Prepare data types for processing by neural networks
- Apply various fusion techniques (early, intermediate, late fusion)
- Extract text from PDF files using OCR
- Build and orchestrate simple multimodal models
- Independently adapt AI blueprints for practical applications such as video analysis
Target audience
This training is intended for:
- Data Scientists
- AI Engineers
- Deep Learning Specialists
- Robotics Engineers
- Software developers working with neural networks
- Professionals working with sensor or imaging data who want to use AI for analysis and prediction
Prerequisites
- Basic knowledge of deep learning concepts
- Experience with a deep learning framework such as TensorFlow, PyTorch, or Keras (this training uses PyTorch)
Study material
- Video labs and practical assignments (e-learning)
- No physical books
- Access to the NVIDIA DLI online learning environment
Approach
- Practical, project-oriented approach
- Combination of theory, video labs, and hands-on assignments
- Use of PyTorch, OCR tools, vector databases, and multimodal AI frameworks
- Step-by-step guidance for building and orchestrating multimodal models
Wat ga je leren?
Content
- Early and late fusion: combining camera and LiDAR data
- Intermediate fusion: designing architectures for multimodal networks
- Cross-modal projection: adapting language models for visual data (Vision Language Models, VLMs)
- Model orchestration: combining models to answer complex questions (e.g., video analysis with Cosmos Nemotron)
- Assessment: adapting a model to handle different input data
Alle kosten in één overzicht
Weet precies waarvoor je betaalt, zodat je zonder zorgen aan je opleiding kunt beginnen.
Bovengenoemde kosten zijn voor de gehele opleiding bij betaling in 1 termijn. Je kunt bij langere opleidingen ook per jaar of per maand betalen.
Studie- en lesmateriaal
Je ontvangt alles wat je nodig hebt om succesvol te studeren, waaronder:
- Boeken, readers en werkboeken
- Toegang tot het online leerplatform
*Arrangement- & locatiekosten
Volg je de opleiding op locatie? Dan zorgen wij voor een inspirerende leeromgeving met koffie, thee en een uitgebreid lunchbuffet. De kosten hiervoor hangen af of je voor de dag- of avondvariant kiest. Vraag hiervoor het kostenoverzicht aan. Kies je voor de online variant? Dan betaal je uiteraard geen arrangementskosten.
Bekijk beschikbare startdata!
Bekijk hieronder onze actuele lesplanning en schrijf je in voor een startdatum naar keuze.
Eerstvolgende startdatum
Wil je eerder starten met deze opleiding?
Dan kun je je nog inschrijven voor de versie die start vóór februari 2026

Hulp nodig bij je opleidingskeuze?
Heb je na het lezen van alle informatie vragen of twijfel je nog ergens over? Onze opleidingsadviseurs geven je graag gratis en vrijblijvend persoonlijk studieadvies, op basis van jouw leerdoelen en behoeften. Laat je gegevens achter en wij nemen zo spoedig mogelijk contact met je op om het advies te bespreken. Heb je specifieke vereisten voor je deelname aan de training? Laat het ons vooraf weten, dan zorgen we samen voor een passende oplossing. We helpen je graag!