Connexions simples Snowflake-Python aux données BAG et à Snowpark

Michael Tuijp

Geospatial Data Scientist

Le jeu de données Snowflake Marketplace BAG est un jeu de données gratuit auquel il est possible d'accéder à l'aide d'une simple requête. Dans notre précédent article sur Snowflake, nous avons montré comment utiliser Tableau pour se connecter au jeu de données. Cette fois, nous montrons comment utiliser Python et le package Snowpark pour accéder aux données de Snowflake, directement dans un Notebook Jupyter Python local.

QU'EST-CE QUE LE SNOWPARK ?

Snowpark fait partie de Snowflake. À la base, Snowpark fournit une API que les développeurs peuvent utiliser pour construire des DataFrames qui sont exécutées sur la plateforme de Snowflake. Il permet de coder dans des langages autres que SQL, tels que Scala, Java et Python, pour tirer parti de la puissante plateforme de Snowflake, sans avoir à quitter Snowflake. Les développeurs d'applications de données peuvent ainsi effectuer des transformations complexes au sein de Snowflake tout en bénéficiant de fonctions intégrées et illimitées d'évolutivité, de performance, de gouvernance et de sécurité.

Snowflake

COMMENCER L'ANALYSE DES DONNÉES

Bien sûr, vous aurez d'abord besoin d'un compte Snowflake (gratuit). Le rôle par défaut est "Public". Tout ce que vous devez faire pour traiter vos requêtes est de créer un entrepôt pour votre compte. Si vous allez dans l'onglet 'Worksheets' et cliquez sur le bouton '+Worksheet', vous pouvez créer un nouvel entrepôt avec les commandes suivantes :

CRÉER OU REMPLACER L'ENTREPÔT MY_WH AVEC WAREHOUSE_SIZE='X-SMALL' ;
ACCORDER L'UTILISATION DE L'ENTREPÔT MY_WH AU RÔLE PUBLIC

Vous créez ainsi un nouvel entrepôt (la plus petite version) et attribuez des droits d'utilisateur à votre rôle public. Après cette étape, nous sommes prêts à installer Jupyter Notebook. Les instructions se trouvent ici. L'étape suivante consiste à installer le paquet Snowpark. Vous pouvez facilement le faire avec la commande pip dans l'environnement dans lequel vous travaillez.

pip install snowflake-snowpark-python

Assurez-vous d'installer le paquetage pandas standard, car nous voulons transformer notre tableau interrogé en un cadre de données pandas.

pip install pandas

Une fois installé, nous pouvons commencer à établir notre connexion.

IMPORTER LA BIBLIOTHÈQUE

Pour commencer, nous importons les bibliothèques Snowflake correspondantes. C'est ce que nous faisons avec ce code :

### Import Snowpark for Python
from snowflake.snowpark import Session
from snowflake.snowpark.functions import col
import pandas as pd

CRÉER UN OBJET DE SESSION

Après avoir importé le paquet Snowpark, nous créons un objet de session. Ici, vous pouvez entrer vos comptes, vos informations d'identification, votre rôle et votre entrepôt pour vous connecter à l'ensemble de données BAG au sein de la place de marché. Vous pouvez le faire avec cette fonction.

SE CONNECTER À L'ENSEMBLE DE DONNÉES SUR LES SACS DANS LA PLACE DE MARCHÉ DU FLOCON DE NEIGE

Une fois l'objet session créé, nous pouvons nous connecter à l'ensemble de données BAG. Vous pouvez consulter l'ensemble du jeu de données ou écrire une requête spécifique selon vos besoins (comme dans ces exemples). Ensuite, vous convertissez les tables consultées en cadres de données Pandas, sur lesquels vous pouvez effectuer des transformations de données ordinaires. 

Après avoir exécuté le code, vous devriez voir un cadre de données Pandas, comme dans l'image ci-dessous.

Pandas dataframe

Félicitations, vous venez de récupérer le jeu de données BAG de Snowflake en utilisant uniquement Jupyter Notebook ! Vous êtes maintenant prêt à utiliser des outils d'analyse de données Python complexes pour vos données interrogées. 

Vous avez des questions ou des commentaires sur ce sujet ? Contactez-nous et nous serons heureux de vous aider.

Vous voulez en savoir plus sur ce sujet ?

Dans ce cas, prenez immédiatement un rendez-vous sans engagement avec notre spécialiste !