Talend Open Studio
Le guide complet pour l'intégration de données
Ce livre est un véritable guide pratique sur Talend Open Studio (en version 8) qui s’adresse aux professionnels désireux de maîtriser l’intégration de données avec cet ETL. 37 jobs Talend allant des plus simples à des jobs de niveau expert sont étudiés dans le but de donner au lecteur les clés pour comprendre la création de flux de données [...]
[lire le résumé du livre]
Auteur : Hani ZITOUT
Editeur : Eni
Collection : Epsilon
Date parution : 07/2023CB Google/Apple Pay, Chèque, Virement
Quel est le sujet du livre "Talend Open Studio"
Ce livre est un véritable guide pratique sur Talend Open Studio (en version 8) qui s’adresse aux professionnels désireux de maîtriser l’intégration de données avec cet ETL. 37 jobs Talend allant des plus simples à des jobs de niveau expert sont étudiés dans le but de donner au lecteur les clés pour comprendre la création de flux de données efficaces et l’intégration de données dans différentes sources pour une aide à la décision. Avant de commencer la lecture, il est important de maîtriser les concepts de base de la gestion de données.
L’auteur commence par donner une vue d’ensemble de l’installation de Talend et définir les termes clés, avant de permettre au lecteur de découvrir Talend par la pratique à travers plusieurs exemples concrets de jobs expliqués de manière détaillée. Le composant incontournable tMap et les fonctions Java les plus souvent utilisées sont présentés avant d’explorer l’intégration de Talend aux bases de données SQL. La suite des chapitres présente le travail collaboratif avec Talend, les nouveaux composants de la version 8, ainsi que l’utilisation de PLSQL. Les scripts SQL et PLSQL ainsi que les commandes GIT et PowerShell sont également explicités.
Pour renforcer l’apprentissage de Talend, l’auteur propose quelques chapitres à visée plus pédagogique. Une évaluation pratique sur un projet d’entreprise (avec sa correction) ainsi qu’un jeu de 100 questions/réponses permettent au lecteur de se préparer efficacement à la certification Talend et de valoriser ses compétences dans le cadre d’entretien. Un chapitre expose également les bonnes pratiques pour une utilisation de Talend efficace.Téléchargements
Titulaire de deux diplômes d’ingénieur en Intelligence Artificielle de l’université de Béjaïa et de l’Ecole Nationale Supérieure d’Ingénieurs de Caen, Hani ZITOUT exerce aujourd’hui à l’université de Paris Cité en tant que Data Analyst. Passionné du domaine de l’analyse de données et de l’intelligence artificielle, il a également réalisé des missions en tant que Data Scientist chez ROAV7 et Assystem. Expert Talend, il propose aujourd’hui un véritable guide pratique sur l’utilisation Talend Open Studio 8.
Sommaire et contenu du livre "Talend Open Studio - Le guide complet pour l'intégration de données"
Présentation, installation et définitions
- 1. Introduction
- 2. Que sont les outils ETL ?
- 3. Types d’outils ETL
- 3.1 Outils ETL des logiciels d’entreprise
- 3.2 Outils ETL open source
- 3.3 Outils ETL basés sur le cloud
- 3.4 Outils ETL personnalisés
- 4. Étude de marché ETL
- 4.1 Integrate.io
- 4.2 IBM DataStage
- 4.3 Oracle Data Integrator
- 4.4 Fivetran
- 4.5 SAS Data Management
- 4.6 Talend Open Studio
- 4.7 Dataddo
- 4.8 AWS Glue
- 4.9 Azure Data Factory
- 4.10 Google Cloud Dataflow
- 4.11 Stitch
- 4.12 Informatica PowerCenter
- 4.13 Skyvia
- 4.14 Hadoop
- 4.15 Singer
- 5. Présentation de Talend
- 6. Les avantages de Talend
- 7. Les produits Talend
- 7.1 Data Integration
- 7.2 Application Integration
- 7.3 Data Preparation
- 7.4 Big Data Integration
- 7.5 Master Data Management
- 7.6 Cloud Integration
- 8. Pourquoi un ETL ?
- 9. Pour quels besoins utilise-t-on Talend for Data Integration ?
- 10. Téléchargement et installation de Talend Open Studio 8
- 10.1 Installer Java
- 10.2 Configuration de la variable d'environnement Java
- 10.3 Démarrer Talend Open Studio
- 11. Définitions
- 12. Qu’est-ce qu’un Data Warehouse ?
- 13. Qu’est-ce qu’un datamart ?
- 14. Qu’est-ce qu’un ERP ?
- 15. Qu’est-ce que GIT ?
- 16. Qu’est-ce que SSH ?
- 17. Comment générer une clé SSH pour GIT ?
- 18. Qu’est-ce que FileZilla ?
- 19. Métiers nécessitant la maîtrise de Talend
Talend par la pratique
- 1. Introduction
- 2. Premiers pas avec Talend Open Studio 8
- 3. Job 0 : création d’un job
- 4. Job 1 : générer un fichier XML à partir d’un fichier CSV
- 5. Création d’un schéma de données
- 6. Job 2 : utilisation des liens déclencheurs
- 7. Création et utilisation des groupes et variables de contexte
- 7.1 Pourquoi ?
- 7.2 Méthode
- 8. Job 3 : utilisation du composant tConvertType
- 9. Job 4 : échantillonnage de données
- 10. Job 5 : agréger et trier des données
- 11. Job 6 : filtrer les colonnes d’un fichier CSV
- 12. Job 7 : filtrer les données des lignes d’un fichier
- 13. Job 8 : les variables globales
- 14. Job 9 : les variables globales avec tSetGlobalVar
- 15. Job 10 : manipulation de dossiers et copie de fichiers
- 16. Contexte implicite
- 17. Job 11 : génération de lignes avec tRowGenerator
- 18. Job 12 : le contexte implicite avec tContextLoad
- 19. Job 13 : générer des avertissements et capturer les erreurs
- 20. Job 14 : orchestration des jobs
- 21. Job 15 : chronométrer le temps d’exécution d’un job
- 22. Job 16 : tLibraryLoad pour vérifier la validité d’adresses e-mail
- 23. Job 17 : calculer la distance de Levenshtein entre des mots
- 24. Job 18 : utilisation du composant tJavaFlex
- 25. Job 19 : utilisation du composant tIntervalMatch
- 26. Job 20 : utilisation du composant tFileInputPositional
- 27. Job 21 : apprendre à utiliser une regex avec tFileRegex
- 28. Job 22 : générer facilement un fichier XML
tMap et les fonctions Java dans Talend
- 1. Introduction
- 2. Quelques notions sur Java dans Talend
- 3. Comment utiliser les routines système de Talend ?
- 3.1 Routines numériques
- 3.2 Routines relationnelles
- 3.3 Routines sur les chaînes de caractères
- 3.4 Routines pour la génération de données
- 3.5 Routines pour les dates
- 3.6 Routines pour les caractères
- 4. Les conversions dans Talend
- 5. Talend et les tests ternaires
- 6. Job 23 : mon premier job avec les jointures
- 6.1 Étape 1
- 6.2 Étape 2
- 6.3 Étape 3 (éditer le tMap)
- 7. Job 24 : trier les données avec tMap
- 8. Job 25 : les fonctions Java dans tMap
- 9. Job 26 : jointure Left Outer Join (jointure à gauche) et Right Outer Join (jointure à droite)
- 10. Job 27 : jointure Inner Join (premier job)
- 11. Job 28 : jointure Inner Join (deuxième job)
- 12. Job 29 : jointure Inner Join avec tJoin
- 13. Job 30 : jointure Full Outer Join
- 14. Job 31 : job avec routines
- 15. Les messages d'erreurs fréquents dans Talend
- 16. Exemples de code Java à utiliser quotidiennement
- 16.1 Compter le nombre de lignes d'un fichier CSV
- 16.2 Remplacer les codes ISO 3166-1 alpha-3 des pays par des codes ISO 3166-1 alpha-2 en Java
- 16.3 Changer le format de date sur une colonne de type date
- 16.4 Remplacer tous les libellés Madame par Mme dans la colonne d'un fichier
- 16.5 Supprimer les sauts de ligne dans un fichier avec tReplace
- 16.6 Routine Java pour supprimer les sauts de ligne dans un fichier
Talend et les bases de données SQL
- 1. Introduction
- 2. Généralités sur le langage SQL
- 2.1 Algèbre relationnelle syntaxe
- 2.2 Projection syntaxe
- 2.3 Commentaire
- 2.4 Commentaire multiligne (/* et */)
- 2.5 Filtrer avec les opérateurs
- 2.5.1 L’opérateur AND
- 2.5.2 L'opérateur OR
- 2.5.3 Combiner AND et OR
- 2.5.4 L’opérateur IN
- 2.5.5 L’opérateur LIKE
- 2.5.6 L’opérateur IS
- 2.5.7 L’opérateur BETWEEN
- 2.5.8 Instruction CASE
- 2.5.9 Les jointures
- 2.6 Les fonctions d'agrégation
- 2.7 ORDER BY
- 2.8 La différence entre UNION et UNION ALL
- 2.9 L'opérateur ANY
- 2.10 L'opérateur ALL
- 3.1 DeltaLake
- 3.2 Generic
- 3.3 Hive
- 3.4 MySQL
- 3.5 Netezza
- 3.6 Oracle
- 3.7 ParAccel
- 3.8 Snowflake
- 3.9 Teradata
- 3.10 Vertica
- 10.1 Chargement Bulk indirect
- 10.2 Chargement Bulk direct
Examen pratique et correction
- 1. Introduction
- 2. Spécifications
- 3. Sources
- 3.1 Données de référence Client
- 3.2 Données de référence Offre
- 3.3 Données de référence Direction
- 3.4 Données de référence Distance
- 3.5 Données de référence Produit
- 3.6 Données de fait Appels
- 4. Chargements
- 4.1 Description des actions à effectuer
- 4.2 Structure de l’espace de travail
- 4.3 Liste des chargements de l’espace de travail (Staging Area)
- 5. Structure du Data Warehouse
- 6. Correction de l'examen
- 6.1 Chargement SRC vers STG
- 6.1.1 JOB_DIRECTION_SRC_STG
- 6.1.2 JOB_DISTANCE_SRC_STG
- 6.1.3 JOB_PRODUIT_SRC_STG
- 6.1 Chargement SRC vers STG
- 6.2 Mapping FILE VERS STG
- 6.2.1 JOB_OFFRE_FILE_STG
- 6.2.2 JOB_CLIENT_FILE_STG
- 6.2.3 JOB_FAITAPPELS_FILE_STG
- 6.3 Mapping STG VERS DWH
- 6.3.1 JOB_DIRECTION_STG_DWH
- 6.3.2 JOB_PRODUIT_STG_DWH
- 6.3.3 JOB_DISTANCE_STG_DWH
Entretien et certification Talend
- 1. Introduction
- 2. Talend Data Integration Certified Developer Exam
- 3. Détails de l'examen de certification
- 4. Expérience recommandée
- 5. Préparation
- 6. Les questions
Travail collaboratif
- 1. Introduction
- 2. Connexion SSH sous Windows
- 3. Se connecter au serveur via SSH
- 4. Commandes Linux à connaître
- 4.1 Commandes SSH
- 4.2 Commandes pour les fichiers
- 4.3 Autorisations sur les fichiers
- 4.4 Recherches
- 4.5 Raccourcis
- 4.6 Réseau
- 4.7 Commandes système
- 4.8 Gestion des processus
- 4.9 Compression
- 5. Commandes Git à connaître
- 6. PowerShell
- 6.1 Les opérateurs dans PowerShell
- 6.1.1 Les opérateurs de comparaison
- 6.1.2 Les opérateurs de remplacement
- 6.1.3 Les opérateurs logiques
- 6.1 Les opérateurs dans PowerShell
- 6.2 Les variables dans PowerShell
- 6.3 Verbes et alias
- 6.4 Utilisation de structures de contrôle de flux en PowerShell
Bonnes pratiques
- 1. Introduction
- 2. Structure générale des jobs
- 3. Optimisation des traitements sous Talend
- 4. Bonnes pratiques générales
- 5. Contrôle qualité
- 6. Normes de développement
- 6.1 Règles générales
- 6.2 Règles liées au SQL
- 6.3 Règles liées aux fichiers délimités
- 6.4 Règles pour l’ordonnancement des répertoires Folder
- 6.5 Règles pour le nommage des répertoires et des jobs
- 6.6 Règles concernant les liens
- 6.6.1 Règles pour le nommage des composants
- 6.6.2 Règles pour le nommage des contextes
- 6.6.3 Règles pour la gestion des rejets
Introduction à PL/SQL
- 1. Introduction
- 2. Définitions
- 3. Exemples pratiques d'utilisation
- 3.1 Déclaration de variables et de constantes
- 3.1.1 Exemples de déclarations
- 3.1.2 Autres exemples de déclarations
- 3.1.3 Déclaration de tableau
- 3.1 Déclaration de variables et de constantes
- 3.2 Fonction EXCEPTION
- 3.3 La fonction COUNT
- 3.4 Fonction DATE
- 3.5 La fonction BULK COLLECT
- 3.6 La variable SQL%FOUND
- 3.7 La variable SQL%NOTFOUND
- 3.8 La fonction SQL%ROWCOUNT
- 3.9 La fonction WHILE
- 3.10 Les variables dérivées
- 3.11 Les méthodes de tableau associatif
- 3.11.1 La différence entre un tableau et un tableau associatif
- 3.11.2 Exemples d'utilisation
- 3.12 La fonction UPDATE
- 3.13 La fonction OPEN
- 3.13.1 Exemple sans OPEN ... FOR
- 3.13.2 Exemple avec OPEN ... FOR
- 3.14 Déclaration CURSOR_DECLARE
- 3.15 IF-THEN-ELSE
- 3.16 Utilisation de CURSOR et %FOUND
- 3.17 Utilisation de CURSOR et %NOTFOUND
- 3.18 Exception CURSOR
- 3.19 Cursor Update
- 3.20 CURSOR avec %FETCH
- 3.21 CURSOR avec %ISOPEN
- 3.22 CURSOR avec %ROWCOUNT
- 3.23 Cursor FOR Loop
Composants Talend et leurs utilisations
- 1. Introduction
- 2. Les composants Talend
- 2.1 Big Data
- 2.2 Business
- 2.3 Business Intelligence
- 2.4 Custom_Code
- 2.5 Data Quality
- 2.6 DotNET
- 2.7 ELT
- 2.8 ESB (Enterprise Service Bus)
- 2.9 Fichiers
- 2.10 Internet
- 2.11 Logs_Errors
- 2.12 Messagerie
- 2.13 Divers
- 2.14 Orchestration
- 2.15 Traitement (processing)
- 2.16 Système
- 2.17 Technique
- 2.18 Non structurées
- 2.19 XML
- Index