Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Revue Semalt - Exécution d'un script de grattage

Airflow est une bibliothèque de planificateurs pour Python utilisée pour configurer des flux de travail multi-systèmes exécutés en parallèle à travers un nombre quelconque d'utilisateurs. Un seul pipeline Airflow comprend des opérations SQL, bash et Python. L'outil fonctionne en spécifiant les dépendances entre les tâches, un élément critique qui permet de déterminer les tâches à exécuter en parallèle et celles qui doivent être exécutées une fois les autres fonctions terminées.

Pourquoi Airflow?

L'outil Airflow est écrit en Python, ce qui vous donne l'avantage d'ajouter vos opérateurs aux fonctionnalités personnalisées déjà définies. Cet outil vous permet de  gratter des données  à travers des transformations d'un site web en une feuille de données bien structurée. Airflow utilise des graphes acycliques dirigés (DAG) pour représenter un flux de travail spécifique. Dans ce cas, un workflow fait référence à une collection de tâches comprenant des dépendances directionnelles.

Fonctionnement d'Apache Airflow

Airflow est un système de gestion d'entrepôt qui définit les tâches comme leurs dépendances ultimes, car le code exécute les fonctions selon un calendrier et distribue la tâche. exécution à travers tous les processus de travail. Cet outil propose une interface utilisateur qui affiche l'état des tâches en cours et passées.

Airflow affiche des informations de diagnostic aux utilisateurs concernant le processus d'exécution des tâches et permet à l'utilisateur final de gérer l'exécution des tâches manuellement. Notez qu'un graphe orienté acyclique n'est utilisé que pour définir le contexte d'exécution et organiser les tâches. Dans Airflow, les tâches sont les éléments cruciaux qui exécutent un script de grattage. En grattage, les tâches comprennent deux saveurs qui comprennent:

  • Opérateur
  • Capteur

Les tâches sont également développées pour fonctionner comme des capteurs, dans ce cas l'exécution de tâches dépendantes les unes des autres peut être mise en pause jusqu'à un critère de bon fonctionnement.

Airflow est utilisé dans différents champs pour exécuter un script de grattage Voici un guide sur l'utilisation de Airflow.

  • Ouvrez votre navigateur et vérifiez votre interface utilisateur.
  • Vérifiez le workflow qui a échoué et cliquez dessus pour voir les tâches qui n'ont pas fonctionné.
  • Cliquez sur "Voir le journal" pour vérifier la cause de l'échec. 
  • Allez dans la section admin et cliquez sur "Connections". Modifiez la connexion Postgres pour récupérer le nouveau mot de passe et cliquez sur k "Enregistrer".
  • Revisitez votre navigateur et cliquez sur la tâche qui a échoué. Cliquez sur la tâche et appuyez sur "Effacer" pour que la tâche s'exécute avec succès la prochaine fois.

Autres ordonnanceurs Python à considérer

 Cron 

Cron est un système d'exploitation Unix utilisé pour exécuter des scripts de grattage périodiquement à intervalles fixes, dates et heures. Cette bibliothèque est principalement utilisée pour maintenir et configurer des environnements logiciels.

 Luigi 

Luigi est un module Python qui vous permettra de gérer la visualisation et la résolution des dépendances. Luigi est utilisé pour créer des pipelines complexes de collecte d'emplois.

Airflow est une bibliothèque de planificateur pour Python utilisée pour gérer les projets de gestion des dépendances. Dans Airflow, l'exécution des tâches dépend l'une de l'autre. Pour obtenir des résultats cohérents, vous pouvez configurer votre script Airflow pour qu'il s'exécute automatiquement toutes les heures ou deux.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport