Wat doet een data engineer?

30 / 12 / 2019 | Leestijd: 5 min | Auteur: Jurgen van Gils

Wat is data engineering?

Als we over data hebben is het niet altijd duidelijk wat de rol van een Data Engineer inhoud en hoe deze verschilt van data science en data- analyse. Voor velen zijn functietitels met het woord ‘data’ erin altijd nog raadselachtig. Goed om daar wat licht op te schijnen. Het helpt je wellicht als je meer wilt weten over de bouwstenen waar data omgevingen uit bestaan.

Hoe ziet in het kort het werk van een data engineer eruit?

Wat doet een data engineer Wat doet een data engineer niet
Data verzamelen van verschillende interne en externe bronnen Data analyse om business teams van data gedreven inzichten te voorzien
Transformeren van data in een bruikbaar formaat Creëren of leren van Machine learning modellen
Data laden op handige en betrouwbare locaties die door anderen gebruiksvriendelijk bruikbaar zijn Ontwikkelen van visualisaties en dashboards
Bouw en onderhoud van infrastructurele oplossingen Neemt geen besluit over wat er qua data nodig is.

Hoe verhoudt een data engineer zich tot de andere datateams?

Een Data Platform Engineer ondersteunt de andere datateams, waaronder Data- analisten en Data Scientists. Als die toegang tot gegevens nodig hebben, zorgt de data engineer dat dit beschikbaar in een bruikbaar formaat is. Als ze een server nodig hebben om data te crunchen, dan regelt en beheert de data engineer die server. Als ze een analyse tool, extern of zelf ontwikkeld, nodig hebben om data interactief te verkennen is dat ook een kolfje naar de hand van de data engineer. Die zorgen er voor dat zijn er mee aan de slag kunnen.

Een data engineer ondersteunt key users van diverse disciplines. Zo ondersteunen zij de behoeften van de gehele onderneming op data en analyse gebied.

Waarom doet een data engineer dit met data?

Als er alleen gegevens nodig zijn van één database, dan lijkt het verzamelen en transformeren van data misschien niet nodig. Zelfs dan is het waarschijnlijk dat de database van de applicatie niet zo gestructureerd is op een manier die voor de toepassing door het data team erg handig is om te analyseren.

Als gebruikers (dwz data analisten en business teams) informatie van meer dan één database willen gebruiken of gegevens van derden willen toepassen, dan moet een manier bedacht worden waarmee alle gegevens bij elkaar gebracht wordt (bijv. een data warehouse). Of als een applicatie geen records bijhouden van iedere wijziging dan is ook een andere oplossing nodig om gebruikers een historisch inzicht te bieden.

Zo zijn er meerdere voorbeelden te geven, maar dit geeft een beeld. Gegevens zijn over het algemeen niet in het meest ideale format voor zoekopdrachten die snel inzichten moet opleveren. Dat is de reden waarom gegevens meestal moeten worden overgezet en geherstructureerd.

Dus een data engineer krijgt gegevens van meer dan één bron? Wat zijn voorbeelden van gegevensbronnen?

Data wordt verzameld uit interne en cloud databases die de gegevens bevatten die met applicaties  zijn verzameld. Voorbeelden zijn de financiële administratie, ERP of EPD applicaties, WMS systemen en ook spreadsheets. Denk aan Exact, Afas, Medicore, Quarant, Microsoft Dynamics, Salesforce, Excel en anderen. Dit wordt gedaan met rechtstreekse verbindingen en voor externe omgevingen met API’s.

Wat is een voorbeeld van een product dat een data engineer maakt?

In het geval dat een data voor Data Analytics en Data Science teams beschikbaar moet zijn kan een data lake een oplossing. Echt een product waarmee geanalyseerd en ontdekt kan worden, omdat de gegevens in rauw format zijn opgenomen.

Een ander voorbeeld is het blootleggen van gegevens in een data platform of data warehouse. Hierin worden gegevens in tabellen gestructureerd opgeslagen, zodat deze snel en overzichtelijk beschikbaar zijn. Een data platform of data warehouse bevatten een subset van alle gegevens. Alleen gegevens die nuttig en de moeite waard zijn hier een plaats.. De tabellen zijn bedoeld om gemakkelijker te begrijpen en toegang geven tot data die voor gebruikers relevant en toegestaan zijn.

Data lake, data warehouse….Wat is het verschil?

Het verschil tussen beiden kunnen we het best vergelijken met het verschil tussen een meer en kraanwater. Water uit een meer is soms veilig om te drinken, maar meestal is het dat niet en in de meeste gevallen is het gebruikern van het water een stuk minder handig dan drinken uit de kraan. Kraanwater aan de andere kant wordt ontdaan van vervuiling en bacteriën , en is binnen handbereik wanneer dat gewenst is.

Wat zijn tools waar een data engineer mee werkt?

Er is niet precies aan te geven wat een data engineer moet kennen, maar er zijn wel wat richtlijnen aan te geven. Allereerst is het belangrijk vertrouwd te raken met een aantal tools. SQL als taal is daar één van. Er zal veel en complex met SQL worden gewerkt. Doe ook kennis van infrastructuur op. Voorbeelden van andere tools zijn Docker, buildkite, SQL server en SSIS.

Hopelijk heeft dit artikel je een beeld gegeven van de werkzaamheden die een data engineer uitvoerd. Natuurlijk zijn er nog veel meer aspecten belangrijk zoals domein kennis en persoonlijke vaardigheden. Wil je meer weten over de mogelijkheden van de inzet van een data engineer voor jouw organisatie of ben je geïnteresseerd geraakt om als data engineer aan de slag te gaan? Neem dan svp contact met ons op of kijk op www.visionbi.nl

Tot slot hebben we nog 1 advies. Blijf leergierig en nieuwsgierig om meer te leren en te ontdekken, een levenlang leren is voorwaarde om plezier te houden in je werk.

Dit artikel kwam tot stand na het lezen van een artikel op www.medium.com

Meer informatie?

Neem vrijblijvend contact met ons op


Meer nieuws, ontwikkelingen & innovaties