Ruimtelijke data science met Snowflake
Michael Tuijp
Geospatial Data ScientistSnowflake biedt mogelijkheden voor het analyseren van ruimtelijke data op big data-niveau. Veel data science projecten zijn complex en daarom wordt er heel veel data gebruikt. Dit maakt snowflake tot een gewilde oplossing. Vanuit Tensing krijgen we regelmatig vragen over de mogelijkheden van combineren van FME en snowflake. In deze blog leggen we uit hoe krachtig deze combinatie is.
Wat is Snowflake?
Snowflake is een cloud computing platform dat organisaties in staat stelt zich te ontdoen van datasilo’s. Het biedt een platform dat elk dataformaat aankan, analyses kan uitvoeren op vrijwel onbeperkte schaal en gebruikers in staat stelt gegevens gemakkelijk en veilig te delen zonder ze te kopiëren of te verplaatsen.
Snowflake integreert met ETL-platforms voor gegevensinvoer, gegevenssynchronisatie en kan streaming gegevens verwerken. Gebruikers kunnen interactief met de data werken met behulp van interactieve dashboards die er bovenop zijn gebouwd of via een groot aantal data science en ML-omgevingen.
Hoe gebruik je Snowflake met ruimtelijke data?
Het enige dat nog relatief nieuw is in Snowflake is de mogelijkheid om ruimtelijke data te integreren en te analyseren. Hoewel het de essentiële ondersteuning voor coördinaten in WGS84 bevat, ontbreekt het out of the box aan volledige ondersteuning voor geometrie en geografische data. Om dit probleem op te lossen heeft Snowflake contact gezocht met Safe Software en Tensing. Bij Tensing hebben we een PoC-oplossing gebouwd die FME Server in Snowflake integreert om een Snowflake-only ervaring te bieden die gebruik maakt van alle (ruimtelijke) analytische kracht van FME.
Welke Data science mogelijkheden biedt Snowflake?
Snowflake is een ongelooflijk handige tool voor het werken aan data science-projecten, omdat je het één enkel toegangspunt biedt tot alle gegevens die je nodig hebt. Dit omvat data van je eigen organisatie, maar ook externe gegevensbronnen via het wereldwijde netwerk van vertrouwde data. Deze data kunnen worden verwerkt op de multi-cluster compute architectuur, waardoor zeer schaalbare preprocessing en datavoorbereiding mogelijk is. Als Data Scientist kun je met elk learning machine of framework je processen bouwen met de taal naar keuze. Dit kan met behulp van native connectors.
Hoe verbind je snowflake aan notebookapps?
Het analyseren van gegevens en het maken van modellen voor machine learning is een iteratief proces van verkennen, testen en valideren van methoden en de bijbehorende resultaten. Het begint en eindigt altijd met het bespreken van je werk met domeinexperts en eindgebruikers, die nieuwe ideeën zullen aandragen of zullen wijzen op gebreken in de huidige aanpak. Je tegenhangers in deze discussie zullen niet altijd in staat zijn je code te lezen. Sterker nog, zelfs gevorderde programmeurs kunnen het moeilijk hebben om elkaars code te lezen. Het maken van goed gestructureerde en gedocumenteerde notebooks tijdens het werken aan data science projecten is daarom uiterst belangrijk. Het stelt je in staat om te delen wat je hebt gedaan, wat de uitkomsten zijn en welke nieuwe inzichten of nieuwe vragen dit oproept.
Verbinding maken met Snowflake vanuit je notebookomgeving kan met behulp van het Snowflake-Connector package in Python. Hiermee kun je SQL-query’s uitvoeren en de resultaten ophalen, of zelfs een SQL-alchemy-engine maken waarmee je gegevens uit Snowflake rechtstreeks in Pandas dataframes kunt inlezen. Door deze integratie te combineren met een ArcGIS API voor Python of zelfs open source alternatieven zoals Geopandas ontstaat een ongelooflijk krachtig platform voor schaalbare (geo)data science projecten.
Met behulp van de FME-integratie in Snowflake kun je nu grootschalige ruimtelijke verwerking uitvoeren vanuit je notebookomgeving. Dit stelt je in staat om het volledige potentieel van ruimtelijke gegevens in je projecten te benutten en betere data science oplossingen te creëren.
Wil je meer weten over de achtergrond en mogelijkheden van Snowflake? Bekijk het webinar 'Empowering spatial insights with FME in Snowflake', waarin we je meenemen op een eerste verkenningstocht door dit revolutionaire platform en laten zien hoe we Snowflake koppelen aan andere dataplatforms zoals Esri ArcGIS.