IBM InfoSphere DataStage Essentials
Fördjupa din kompetens i IBM InfoSphere DataStage och lär dig utnyttja paralleliseringsramverket fullt ut. Du får en djupare förståelse för arkitektur, utvecklings- och körtidsmiljöer så att dina jobb blir robusta, återanvändbara och optimerade för prestanda.
På denna kurs bygger du avancerade parallella jobb och arbetar metodiskt med partitionering, pipeline-parallellism, sortering och buffring. Du får verktyg för att läsa och tolka Score/OSH, trimma konfigurationer och använda återanvändbara komponenter. Kursen avslutas med Balanced Optimization för att pusha logik till källor/mål och Hadoop.
Målgrupp och förkunskaper
Kursen är framtagen för erfarna DataStage-utvecklare som vill ta nästa steg mot avancerad jobbutveckling och få en solid förståelse för det parallella ramverkets arkitektur. Den passar dig som vill bygga snabbare, mer stabila och lättförvaltade flöden i storskaliga dataplattformar.
För att hänga med i kursens tempo och tillgodogöra dig dess innehåll förutsätts du ha motsvarande IBM InfoSphere DataStage Essentials eller likvärdig erfarenhet samt minst ett års praktisk erfarenhet av att utveckla parallella jobb i DataStage. Grundläggande kunskap om ETL, SQL och Linux/Unix underlättar.
För att alltid hålla en hög kvalitet på våra kurser använder vi både engelsk- och svensktalande experter som kursledare.
Detaljerad information
Kursmaterialet är på engelska, med detta innehåll:
Introduction to the parallel framework architecture
Deep dive into the DataStage parallel processing model, pipeline and partition parallelism, and the role of the configuration file. Design strategies for building robust test data to validate performance and correctness.
Compiling and executing jobs
Understand configuration file structure, the compile process and generated OSH, how the Score is formed, and end-to-end job execution flow for troubleshooting and optimization.
Partitioning and collecting data
Explore how partitioning works in the Framework, read partitioners in the Score, select appropriate algorithms, and generate surrogate keys efficiently in a distributed environment.
Sorting data
Master sorting in the parallel framework: identify inserted sorts in the Score, reduce unnecessary sorts, optimize fork-join patterns, detect last row in group, and align sort keys with partitioning logic.
Buffering in parallel jobs
Learn how buffering operates, how to tune buffers to balance throughput and memory, and how to avoid contentions that can throttle parallel performance.
Parallel framework data types
Work with virtual data sets and schemas, handle type mappings and conversions, process external data formats, manage null semantics, and model complex data structures.
Reusable components
Create and use schema files and shared containers, read sequential files via schemas, and apply Runtime Column Propagation (RCP)—including when to enable or disable it safely.
Balanced Optimization
Enable Balanced Optimization in Designer, follow the optimization workflow and options, push processing into sources/targets, optimize jobs against Hadoop HDFS, and understand current limitations.
Kursen hålls på begäran - Kontakta oss för mer information.
Telefon: 08-562 557 50 E-post: kursbokning@cornerstone.se
Relaterat innehåll


