Ce tutorial est une démonstration en laboratoire pour le plaisir, à but non lucratif, pour montrer que le concept est possible, ou pour un cours dans le cadre scolaire. Ne testez pas dans un environnement réel de production
POC Google Cloud Platform : Collecte de données, analyse et visualisation, avec tous les outils disponibles en Software As A Service dans le Cloud
Dans ce Poc, Proof of concept, de projet data, on utilise Pub/Sub pour collecter des messages de données en flux continu provenant d’un dataset public, puis on les transmets à BigQuery via un ETL, la pipeline Dataflow. Et on visualise avec Looker Studio Reporting
Objectifs:
Créer une tâche Dataflow à partir d'un modèle
Créer une tâche Dataflow à partir d'un modèle
S'abonner à un sujet Pub/Sub
Diffuser un pipeline Dataflow dans BigQuery
Surveiller un pipeline Dataflow dans BigQuery
Visualiser les métriques clés dans Looker Studio
Une question? Posez-la ici
Besoin d'aide?
POC Google Cloud Platform : activation de la Cloud Shell
POC Google Cloud Platform : accès à Gcloud
Une question? Posez-la ici
Besoin d'aide?
POC Google Cloud Platform : création du bucket cloud storage
POC Google Cloud Platform : configuration de la pipeline Dataflow
POC Google Cloud Platform : activation de l'API Dataflow
POC Google Cloud Platform : création d'une tâche à partir d'un modèle
POC Google Cloud Platform : modèle Pub/Sub topic vers BigQuery
Pub/Sub est un service de messagerie asynchrone à l'échelle mondiale. En dissociant les expéditeurs et les destinataires, ce service permet une communication sécurisée à disponibilité élevée entre des applications développées indépendamment. Pub/Sub fournit une messagerie durable et à faible latence.
Dans Pub/Sub, les applications d'éditeurs et d'abonnés se connectent ensemble grâce à l'utilisation d'une chaîne partagée appelée un sujet. Une application d'éditeur crée et envoie des messages dans un sujet. Les applications d'abonnés créent un abonnement associé à un sujet pour recevoir les messages correspondants.
POC Google Cloud Platform : tâche ETL Dataflow
POC Google Cloud Platform : analyse avec Big Query
POC Google Cloud Platform : agrégation de flux
Grace aux requêtes avec le langage SQL, on affiche les données nécéssaires
WITH streaming_data AS (
SELECT
timestamp,
TIMESTAMP_TRUNC(timestamp, HOUR, 'UTC') AS hour,
TIMESTAMP_TRUNC(timestamp, MINUTE, 'UTC') AS minute,
TIMESTAMP_TRUNC(timestamp, SECOND, 'UTC') AS second,
ride_id,
latitude,
longitude,
meter_reading,
ride_status,
passenger_count
FROM
taxirides.realtime
ORDER BY timestamp DESC
LIMIT 1000
)
# calculate aggregations on stream for reporting:
SELECT
ROW_NUMBER() OVER() AS dashboard_sort,
minute,
COUNT(DISTINCT ride_id) AS total_rides,
SUM(meter_reading) AS total_revenue,
SUM(passenger_count) AS total_passengers
FROM streaming_data
GROUP BY minute, timestamp
POC Google Cloud Platform : arrêt de la tache Dataflow
POC Google Cloud Platform : création du tableau de bord avec Looker Studio
POC Google Cloud Platform : premier graphique à barre avec Looker Studio
POC Google Cloud Platform : visualisation données et graphique
Le résultat des requêtes SQL est affiché
POC Google Cloud Platform : graphique combiné sur looker studio
POC Google Cloud Platform : ajout des dimensions sur looker studio
Une question? Posez-la ici
Besoin d'aide ?
POC Google Cloud Platform : tri sur nouveau critère
POC Google Cloud Platform : visualisation données en séries temporelles
POC Google Cloud Platform : série date, heure et minute
Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Cet article reflète exclusivement l'opinion de ses auteurs et n’engage en aucune façon Consultingit. J'espère que ça vous a plu. Vos commentaires/remarques sont les bienvenus: