Die diesjährige Ausgabe fand in New Orleans statt. Und wie bei den vergangenen Ausgaben haben wir eine Menge über die Landschaft der Analysetechnik gelernt.
Die vom dbt organisierte Veranstaltung fand dieses Jahr wieder statt. Sie konnten vor Ort in New Orleans teilnehmen oder die Vorträge online verfolgen.
Da sich dbt immer mehr durchsetzt, haben wir uns von dieser Konferenz viel versprochen. Es wurden Sitzungen zu verschiedenen Themen angeboten, die sich nicht auf den Einsatz von dbt beschränkten. Zum Beispiel gab es Sitzungen über Karrierewege für data Teams.
Ohne lange zu zögern, hier die wichtigsten Erkenntnisse aus dieser Ausgabe, wie ich finde:
Kommen wir zu den Einzelheiten.
Python models, finally!
Das war sicherlich die am meisten erwartete Funktion. Sie können jetzt Python-Modelle ausführen. Das Verhalten ist dem von SQL-Modellen sehr ähnlich.
Diese Funktion ist bahnbrechend. Ich glaube, wir haben oft das gleiche Problem mit einem Workflow, den wir nicht durchgängig ausführen können, weil ein oder zwei Operationen in SQL sehr schwierig sind. Das ist schmerzhaft, weil wir eine zusätzliche Schicht benötigen. Wir wollen das nicht zwischen dbt und einer anderen Komponente hin und her schieben.
Dies gilt insbesondere für fortgeschrittene Statistik, Textmanipulation und alles, was mit ML zu tun hat (Feature Engineering, data enrichment ...). Diese Randfälle sind die Zielanwendungsfälle von Python-Modellen. Die Produktmanager haben während der Keynote sehr deutlich gemacht, dass es sich um grundlegende Anwendungsfälle handeln wird , die data Transformationen implizieren. Es wird nicht empfohlen, externe APIs aufzurufen.
Wie funktioniert das also?
Zunächst wird der Code, ähnlich wie bei SQL-Modellen, auf Ihrer Cloud-Plattform data ausgeführt.
Zweitens müssen Sie, genau wie bei SQL-Modellen, Ihre Syntax an die zugrunde liegende Cloud-Plattform anpassen. Bei SQL müssen Sie den entsprechenden SQL-Dialekt verwenden. In Python haben Sie eine andere Reihe von Bibliotheken zur Verfügung.
Die Funktion ist ab heute auf drei Plattformen data verfügbar:
Wenn Sie zum Beispiel Snowflake verwenden, können Sie Snowpark für Ihre Transformationen nutzen. Beachten Sie, dass die Funktion noch in den Kinderschuhen steckt, wie Eda Johnson und Venkatesh Sekar in ihrem Vortrag "Empowering pythonistas with dbt and snowpark" erwähnen. snowpark befindet sich noch in der öffentlichen Vorschau.
Wie während der Keynote gesagt wurde, gibt es Raum für Verbesserungen, um der Erfahrung eines Python-Software-Ingenieurs näher zu kommen (Erleichterung der Wiederverwendung von Code über Modelle hinweg, Bereitstellung von Testfunktionen und Verwendung von Docstrings für die Dokumentation ...).
A lot of improvements for dbt cloud
Vor einigen Monaten schlug ein Blogbeitrag von Petram Navid mit dem Titel "Wir müssen über dbt reden" hohe Wellen. Tristan Handy, der CEO von dbt labs, antwortete auf Pedrams Bedenken, vor allem in Bezug auf die dbt cloud. In dem ursprünglichen Blogbeitrag wies der langjährige dbt-Praktiker auf die schlechten Erfahrungen hin, die er mit dbt cloud gemacht hatte. Tristan stimmte zu, dass sie hart daran arbeiten sollten, die Erfahrungen der Entwickler zu verbessern.
Und das haben sie! Diese Woche kündigte dbt Labs eine komplette Überarbeitung der Cloud-IDE, Verbesserungen der Benutzeroberfläche und eine Verringerung der Latenzzeit für gängige Operationen wie das Speichern einer Datei an.
Das sind gute Nachrichten für dbt-Cloud-Anwender!
The semantic layer is a structural shift in the way you manage your data
Das ist ein heißes Thema!
Während der Keynote definierten die Redner die semantische Schicht als "die Plattform für die Zusammenstellung von und den Zugriff auf dbt-Assets in nachgelagerten Tools".
Die semantische Ebene zielt darauf ab, gemeinsame Herausforderungen der data zu lösen:
Das Ziel ist es, den Anwendungsbereich von dbt zu erweitern. Im Moment ist der Anwendungsbereich auf die Transformationsschicht beschränkt. Wir könnten diese semantische Schicht auf die Transformationsschicht aufsetzen.
Das macht Sinn. In Version 1.0 waren Metriken eingeführt worden. Dies war der erste Schritt in Richtung der Vision einer semantischen Schicht.
dbt at the heart of the modern data stack ecosystem
Was mir bei dieser Konferenz aufgefallen ist, ist die Anzahl der angekündigten Partnerschaften. Außerdem wurde ein Großteil der Vorträge von Partnern gehalten.
Software-Anbieter wie Atlan, Collibra oder MonteCarlo müssen sich in dbt integrieren, weil ihre Kunden sie darum gebeten haben. dbt wird langsam zum Standard für die Transformation von data . Sie möchten Ihre Transformationen in Ihrer globalen data Lineage sehen, die mit einem externen Tool wie Collibra verwaltet werden könnte. Sie möchten auch die Ergebnisse Ihrer dbt-Tests mit Ihrem bevorzugten Werkzeug überwachen usw. Sie benötigen eine Integration zwischen Ihren Werkzeugen.
Im Gegensatz zu dataform, dem derzeit einzigen Konkurrenten von dbt, habe ich das Gefühl, dass dbt labs Cloud-neutral bleiben möchte. Sie bieten viele Integrationen mit Nischenlösungen an, um zum Beispiel die Qualität von data oder die Metadaten besser zu verwalten.
Schlussfolgerung
Das war's dann wohl! Diese Ausgabe war sehr reichhaltig. Und wir beenden diese Woche mit vielen Diskussionen über die Ankündigungen. Das ist es, was diesen Job so spannend macht!
Apropos, wir stellen ein unter Artefact! Ich bin sicher, Sie haben es nicht kommen sehen 😉