Science des données spatiales avec Snowflake

Tensing

Chez Tensing, nous avons créé une intégration entre FME et la plateforme Snowflake. Cela permet aux équipes de science des données d'inclure des données géospatiales dans leurs projets en plus de toutes les fonctionnalités que Snowflake offre nativement. Dans cet article de blog, nous allons vous expliquer ce qu'est Snowflake, ce que l'intégration avec FME peut faire pour vous et comment vous pouvez accéder à tout cela à partir de votre notebook ou environnement IDE préféré.

FLOCON DE NEIGE ET SCIENCE DES DONNÉES

Snowflake est une plateforme d'informatique en nuage qui permet aux organisations de se débarrasser des silos de données. Elle offre une plateforme qui gère tous les formats de données, peut effectuer des analyses à une échelle quasi illimitée et permet aux utilisateurs de partager facilement et en toute sécurité des données sans les copier ni même les déplacer. Snowflake s'intègre aux plateformes ETL pour l'ingestion et la synchronisation des données, et peut traiter les données en continu. Les utilisateurs peuvent interagir avec les données à l'aide de tableaux de bord interactifs construits au-dessus, ou via une multitude d'environnements de science des données et de ML.

FLOCON DE NEIGE ET DONNÉES GÉOSPATIALES

La possibilité d'intégrer et d'analyser des données spatiales est encore relativement nouvelle dans Snowflake. Bien qu'il contienne le support essentiel pour les coordonnées en WGS84, il manque un support complet pour les données géométriques et géographiques. Pour résoudre ce problème, Snowflake a fait appel à Safe Software et Tensing pour trouver une solution. Chez Tensing, nous avons construit une solution PoC qui intègre FME Server dans Snowflake, afin de fournir une expérience exclusivement Snowflake qui exploite toute la puissance analytique (géospatiale) de FME.

CAPACITÉS DE SCIENCE DES DONNÉES DE SNOWFLAKE

Snowflake est un outil incroyablement utile pour travailler sur des projets de science des données, car il vous fournit un point d'accès unique à toutes les données dont vous avez besoin. Cela inclut les données de votre propre organisation ainsi que des sources de données externes via le réseau mondial de données de confiance. Ces données peuvent être traitées sur l'architecture de calcul multi-clusters, ce qui permet un prétraitement et une préparation des données hautement évolutifs. En tant que data scientist, vous pouvez construire vos pipelines en utilisant le langage de votre choix ainsi que n'importe quel outil ou framework d'apprentissage automatique à l'aide des connecteurs natifs.

CARNETS DE NOTES JUPYTER, CARNETS DE NOTES ARCGIS ET IDES

L'analyse des données et la création de modèles d'apprentissage automatique est un processus itératif d'exploration, de test et de validation des méthodes et des résultats correspondants. Il commence et se termine toujours par une discussion de votre travail avec des experts du domaine et des utilisateurs finaux, qui présenteront de nouvelles idées ou souligneront les failles de l'approche actuelle. Vos interlocuteurs ne seront pas toujours en mesure de lire votre code. D'ailleurs, même les programmeurs avancés peuvent avoir du mal à lire le code de leurs collègues. Il est donc extrêmement important de créer des carnets de notes bien structurés et documentés lorsque vous travaillez sur des projets de science des données. Cela vous permet de partager ce que vous avez fait, quels sont les résultats et quelles sont les nouvelles idées ou les nouvelles questions que cela soulève.  

La connexion à Snowflake à partir de votre environnement notebook peut se faire en utilisant le package Snowflake connector en Python. Cela vous permet d'exécuter des requêtes SQL et de récupérer les résultats, ou même de créer un moteur SQL alchimique qui vous permet de lire directement les données de Snowflake dans des cadres de données Pandas. La combinaison de cette intégration avec l'API ArcGIS pour Python ou même des alternatives open source telles que Geopandas crée une plateforme incroyablement puissante pour des projets de science des données (géographiques) évolutifs. 

Grâce à l'intégration de FME dans Snowflake, vous pouvez désormais effectuer des traitements spatiaux à grande échelle à partir de votre environnement notebook. Cela vous permet d'exploiter tout le potentiel des données spatiales dans vos projets et de créer de meilleures solutions de science des données. 

Vous voulez en savoir plus sur le contexte et les capacités de Snowflake ? Regardez le webinaire "Empowering spatial insights with FME in Snowflake", où nous vous emmenons dans une exploration initiale de cette plateforme révolutionnaire et montrons comment nous lions Snowflake à d'autres plateformes de données telles qu'Esri ArcGIS. 

Vous voulez en savoir plus sur ce sujet ?

Dans ce cas, prenez immédiatement un rendez-vous sans engagement avec notre spécialiste !