Smart Talk Aflevering 8:Realtime inzichten in Data Lakehouses ontsluiten

Het data lakehouse is uitgegroeid tot een flexibele, multifunctionele opslagplaats. In deze Smart Talk-aflevering bespreken Dinesh Chandrasekhar, CEO van Stratola, en zijn gast, Justin Borgman, CEO en voorzitter van Starburst, hoe de mogelijkheden van een data lakehouse kunnen worden uitgebreid met realtime data en hoogwaardige queries die bijna realtime inzichten kunnen opleveren – een steeds vaker voorkomende use case. Er zijn twee belangrijke technologieën vereist:Kafka-streams en een krachtige query-engine.

Vooral interessant zijn hun perspectieven op het belang van open-sourcesoftware en open formaten die zijn gevalideerd door Snowflake en Databricks die de ondersteuning van Apache Iceberg aankondigen. Justin deelt zijn advies voor het benchmarken van oplossingen:gebruik uw bedrijfsgegevens, voer uw daadwerkelijke zoekopdrachten uit, simuleer schaalgrootte en bereken ten slotte de kosten.

Onderwerpen die aan bod komen zijn onder meer:

Kafka voor het streamen van realtime gegevens naar data lakehouses (4:22)
Voordelen van open formaten (5:56)
De ondersteunende rol van SQL voor GenAI (8:53)
Sneeuwvlok, Databricks en ijsberg (11:56)
Flexibele strategie voor gegevensopslag (17:21)

Gast

Justin Borgman, CEO en voorzitter, Starburst

Justin Borgman is een materiedeskundige op het gebied van big data en analytics. Voordat hij Starburst oprichtte, was hij Vice President &GM bij Teradata (NYSE:TDC), waar hij verantwoordelijk was voor de Hadoop-productenportfolio van het bedrijf. Justin kwam in 2014 bij Teradata werken via de overname van zijn bedrijf Hadapt, waar hij medeoprichter en CEO was. Hadapt creëerde “SQL on Hadoop” en veranderde Hadoop van een bestandssysteem in een analytische database die toegankelijk is via elke BI-tool. Hij richtte Starburst op in 2017 en wilde analisten de vrijheid geven om diverse datasets te analyseren, waar ze zich ook bevinden, zonder concessies te doen aan de prestaties.

Host

Dinesh Chandrasekhar is een technologie-evangelist, een thought leader en een doorgewinterde IT-industrieanalist. Met bijna 30 jaar ervaring heeft Dinesh gewerkt aan B2B-bedrijfssoftware en SaaS-producten, waarbij geavanceerde oplossingen worden geleverd en op de markt gebracht voor klanten met complexe architecturen. Hij heeft ook zeer succesvolle GTM-strategieën gedefinieerd en uitgevoerd om verschillende snelgroeiende producten op de markt te brengen bij verschillende bedrijven zoals LogicMonitor, Cloudera, Hortonworks, CA Technologies, Software AG, IBM enz. Hij is een productief spreker, blogger en weekendcodeur. Dinesh heeft een MBA-diploma van de Santa Clara Universiteit en een masterdiploma in computertoepassingen van de Universiteit van Madras. Momenteel runt Dinesh zijn eigen bedrijf, Stratola, een klantgericht advies- en full-stack marketingbureau voor bedrijfsstrategieën.

Bronnen

Smart Talk Aflevering 7:Kardinaliteit, controle en kosten bij waarneembaarheid

Smart Talk Aflevering 6:AIOps en de toekomst van IT-monitoring

Smart Talk, aflevering 5:Disaggregatie van de observatiestapel

Smart Talk aflevering 4:realtime gegevens- en vectordatabases

Smart Talk Aflevering 3:Moderne datapijplijnen en LLM's

Smart Talk aflevering 2:De opkomst van GenAI-applicaties met Data-in-Motion

Smart Talk, aflevering 1:Het data-in-motion-ecosysteemlandschap

Bekijk hier de data-in-motion ecosysteemkaart

Lees hier meer over data-in-motion op RTInsights

Transcriptie

Dinesh Chandrasekhar:

Hallo en welkom bij deze aflevering van de serie Smart Talk at Data and Motion Leadership. Ik ben uw gastheer, Dinesh Chandrasekhar, hoofdanalist en oprichter van Stratola. Onze gast vandaag is Justin Borgman, CEO en voorzitter van Starburst. Justin heeft een geweldige carrière achter de rug bij beveiligings- en data-analysebedrijven, en voordat hij in 2017 Starburst oprichtte, had hij een bedrijf opgericht met de naam Had Adapt, dat later werd overgenomen door Teradata, waar hij een groot aantal jaren als VP en GM fungeerde. Welkom Justin. En laten we beginnen met Starburst, toch? Ik denk dat veel mensen Starburst als merk kennen, maar er zijn ook best veel mensen die graag wat meer willen weten over Starburst. Vertel ons over Starburst, in het bijzonder de oorsprong ervan en jouw drive om het bedrijf te starten.

Justin Borgman:

Ja, graag. Zoals je in de inleiding al zei, ben ik nu ongeveer vijftien jaar actief in de data-analysewereld, helemaal teruggaand tot de eerste startup, die werd overgenomen door Teradata. Natuurlijk, zoals uw publiek ongetwijfeld weet, was Teradata decennia lang de leider op het gebied van datawarehousing-analyse. En dat model maakte het echt noodzakelijk om al uw gegevens naar een eigen database te verplaatsen, namelijk uw bedrijfsdatawarehouse. En van daaruit kunt u snelle analyses uitvoeren en uw bedrijf begrijpen. Ik denk dat wat we zagen een kans was om dat model feitelijk op zijn kop te zetten, vooral op twee manieren. Ten eerste:de mogelijkheid om open tabelformaten in een datameer te gebruiken, waardoor u datawarehousingprestaties krijgt. Maar in een datameer noemen mensen dit tegenwoordig soms een lakehouse-architectuur, evenals de mogelijkheid om andere gegevensbronnen te bereiken en tabellen uit een andere database samen te voegen met tabellen in dat datameer.

U hebt bijvoorbeeld mogelijk een Oracle-database of SQL Server-database en u wilt een tabel in een van die systemen samenvoegen met een tabel in een Iceberg-bestandsindeling in een datameer. En dat is in wezen wat onze technologie doet. Het is de onderliggende technologie genaamd Trino. Het is een open source-project. Het is oorspronkelijk ontstaan uit Facebook, en het is de manier waarop veel van de grootste internetbedrijven, LinkedIn, Airbnb, Netflix, Apple, etc. hun eigen datawarehousing-analyses uitvoeren. Nogmaals, in dat model waarin het datameer de centrale opslagplaats is, waar ze zeer lage eigendomskosten kunnen krijgen, gegevens in deze datameren kunnen opslaan en ook aan andere tabellen kunnen deelnemen. En dus is Starburst eigenlijk slechts de commercialisering van dat open source-project. We bieden een zakelijke versie van Trino met extra beveiligingsfuncties, extra connectoren, extra prestatievoordelen en een hele reeks andere functies en functionaliteit.

Dinesh Chandrasekhar:

Dank je. En ik wil zeker wat dieper duiken in Trino en Iceberg en zo. Ik denk dat dit allemaal geweldige onderwerpen zijn voor vandaag, maar mag ik een stapje terug doen en je vragen of je naar de evolutie van data-architecturen zou kijken:we hadden de traditionele databases en daarna datawarehouses, en met de explosie van data en de behoefte aan het verwerken van meer realtime data, ontstonden lakehouse-architecturen en andere. Dus in jouw wereld, als je kijkt naar de evolutie van data-architecturen, data lakehouse, en in jouw geval denk ik dat je ook een concept hebt dat de Icehouse heet, welke invloed heeft dat gehad op het vermogen van organisaties om effectief met realtime data om te gaan?

Justin Borgman:

Ja, goede vraag. En om het voor uw luisteraars duidelijk te maken:het ijshuisconcept is eigenlijk gewoon een op een ijsberg gebaseerd meerhuis. De gegevens worden dus opgeslagen in een ijsbergtabelformaat en u kunt daarbovenop analyses in datawarehousing-stijl uitvoeren. Het nettoresultaat biedt zeer lage totale eigendomskosten en de mogelijkheid om vrijwel realtime gegevens te verwerken, zoals u hebt beschreven. En de manier waarop we daarover nadenken, is dat we een enorme toename zien in het aantal streaming-datatechnologieën op de markt zoals Kafka bijvoorbeeld, waar klanten deze steeds vaker gebruiken om data bijna in realtime naar een datameer te streamen.

En vanuit ons standpunt willen we dat oppakken. We hebben iets gebouwd dat we streaming ingest noemen, waarbij je verbinding kunt maken met een Kafka-stream en we zullen dat automatisch omzetten in Iceberg-tabellen en deze vrijwel onmiddellijk beschikbaar maken voor bevraging. Dankzij deze architectuur kan een bedrijf nu dus veel sneller en frissere inzichten krijgen in zijn gegevens.

Dinesh Chandrasekhar:

Dank je. Het Lakehouse belooft dus zeker een zeer uniforme architectuurbenadering voor batch- en realtime analyses. Kunnen we zeggen:hoe zie jij deze architecturale verschuiving vandaag de dag BI en de traditionele besluitvorming in alle sectoren transformeren? Hoe is dat veranderd?

Justin Borgman:

Ja, ik zie dat het de zaken behoorlijk dramatisch verandert. Ik denk dat een van de drijfveren en een van de voordelen van deze architectuur net zo eenvoudig is als de economie. Uiteindelijk zouden die traditionele datawarehouses erg duur kunnen worden. Dat was waarschijnlijk een van de grootste klachten tijdens mijn tijd bij Teradata. Niemand heeft ooit gezegd dat Teradata een slechte database is. Het is eigenlijk een geweldig databasesysteem. Het is gewoon extreem duur en als je eenmaal binnen bent, doe je mee en ben je een beetje toegewijd.

En dus biedt dit datameer u meer flexibiliteit omdat u open formaten gebruikt, waardoor de klant kan kiezen wat de juiste engine is om toegang te krijgen tot mijn gegevens. Het geeft je veel flexibiliteit, vermindert de lock-in, maar stelt je ook in staat om je data op te slaan in echt goedkope commodity-opslag, wat in de cloudcontext steeds vaker S3- of Google GCS- of Azure Data Lake-opslag is. En zelfs in de lokale wereld zien we S3-compatibele objectopslag van bedrijven als Dell of IBM of wat dan ook, waar je in principe S3 kunt krijgen. Dat wordt dus het soort gemeenschappelijke basislaag voor het zeer, zeer kosteneffectief opslaan van gegevens, en dat is onderdeel van wat deze transformatie aandrijft.

Dinesh Chandrasekhar:

Oké, laten we er nu misschien op ingaan. Omdat ik denk dat dit ongeveer de hele drijfveer achter uw aanbod is, is het in de loop der jaren populair geworden als een zeer krachtige query-engine in de realtime dataruimte. Hoe zie jij de rol ervan evolueren in het moderne data-ecosysteem? Zoals je al zei, zijn er, zoals je al zei, andere open source-technologieën zoals Apache Iceberg, die ook veel interoperabiliteit bieden tussen verschillende datasystemen, enzovoort. Dus hoe heeft dit, gecombineerd met de combinatie van enkele van deze andere open source-technologieën, het moderne data-ecosysteem veranderd?

Justin Borgman:

Ik denk dat het echt het soort Postgres van datawarehousing aan het worden is. Postgres is uiteraard een wijdverspreide, extreem populaire open source-database. Het is een traditioneel R-D-B-M-S-enkel knooppunt. Trino lijkt een beetje op het MPP-equivalent voor massale parallelle verwerking van datawarehousing-analyse. En dus voor uw big data, voor uw activiteiten in datawarehousing-stijl, wordt dit nu de defacto open source-keuze.

Soms vragen mensen zich af:hoe zit het met Spark in vergelijking? Spark is een geweldige verwerkingsengine voor algemene doeleinden, maar niet echt geoptimaliseerd voor SQL-analyse. En ik denk dat, wat je eerder zei over business intelligence en besluitvorming, SQL nog steeds de taal is voor dit soort gebruiksscenario's. Of het nu gaat om het verbinden van een BI-tool, het uitvoeren van rapportages of zelfs het bouwen van datagestuurde applicaties, SQL blijft een heel belangrijke taal om te communiceren, en Trino is daarvoor de nummer één motor op de huidige markt.

Wanneer je het combineert met zoiets als Iceberg, zoals je zei, heb je nu in wezen een compleet datawarehouse. Je hebt het gedeelte voor de query-engine, je hebt het opslaggedeelte en nu heb je een volledig open datawarehouse. Ze kunnen ook overal draaien, het kan op locatie draaien, het kan in de cloud draaien. Je hebt dus veel flexibiliteit met die stapel.

Dinesh Chandrasekhar:

Mag ik u een klein vraagje stellen? Omdat je tegenwoordig SQL noemde als de basis voor veel van deze datastores, en ik geloof dat in de afgelopen 30, 40 jaar niets dat met zekerheid heeft kunnen veranderen, maar met de komst van gen-AI-technologieën en natuurlijke taalverwerking overal, kunnen mensen nu praten over data-democratisering, waarbij je het nu distribueert naar zelfs bedrijfsanalisten die waarschijnlijk niet over dezelfde kennis beschikken, maar die natuurlijke taal kunnen gebruiken om te zeggen:bezorg me de laatste drie maanden aan verkopen in deze specifieke regio, enzovoort.

En vertaalt dat uiteraard intern naar SQL en ondervraagt vervolgens de engine of wat dan ook, toch? Zie jij daarin ook een verschuiving? Zal SQL floreren en overleven, of zal er in de toekomst een verschuiving plaatsvinden in de manier waarop we naar querygegevens kijken?

Justin Borgman:

Dat is echt een geweldige vraag en ik denk dat je daar iets op het spoor bent. Ik denk dat generatieve AI als interface geleidelijk aan super populair zal worden, omdat het voor iedereen eerlijk gezegd een beetje dom wordt om te gebruiken. Dus nu is het meer een Google-ervaring met alle gegevens in een onderneming, en dat is erg spannend. In feite hebben we een vroege versie daarvan in ons eigen product verwerkt en ik denk dat iedereen dat zal doen:het zullen tafelinzetten worden.

Ik denk echter dat deze technologieën achter de schermen eigenlijk alleen maar die natuurlijke taal zullen omzetten in een SQL-syntaxis, zodat de engine daadwerkelijk kan worden uitgevoerd. Ik denk dus dat de taal nog steeds belangrijk zal zijn, maar het kan meer een implementatiedetail worden achter een generatieve AI-interface in natuurlijke taalstijl. Ik denk dat je het goed hebt. Het doet me een beetje denken aan de tijd dat rekenmachines of zelfs grafische rekenmachines werden uitgevonden, we plotseling niet meer alle formules hoefden te kennen en niet precies hoefden te weten hoe we staartdelingen moesten uitvoeren, omdat onze rekenmachine daarvoor zorgde. Ik denk dat dit ongeveer is wat generatieve AI hier voor ons gaat doen.

Dinesh Chandrasekhar:

Gemakkelijkere toegang tot gegevens, absoluut zeker. Ik denk dat dat is waar we naartoe gaan. Absoluut een spannende ruimte dus. Dus we spraken over Trino. Kan ik schakelen en je nog een keer over Iceberg vragen? Dat wordt heel erg populair. Ik zie dat de grotere reuzen in de industrie ijsberg beginnen te adopteren als een heel natuurlijke manier om te zeggen dat we interoperabel zijn, dat we het ondersteunen, enzovoort. Dus nu organisaties steeds meer gebruikmaken van real-time analyses, wat is dan de rol van de ijsberg bij het mogelijk maken van een efficiënter en schaalbaarder databeheer? Wat is jouw mening daarover?

Justin Borgman:

Ja, ik denk dat het een groot probleem is. Ik denk dat dit het grootste verhaal is, afgezien van AI, van 2024. En de reden dat ik dat zeg, is dat het format al een paar jaar bestaat, maar dit jaar heeft de markt het debat min of meer beslecht over welk format gaat winnen. Er was een korte periode waarin er drie populaire concurrerende formats waren, en het was de vraag wie er gaat winnen?

Onze gok was altijd Iceberg, ik denk dat ik zou zeggen dat we hadden voorspeld dat het deze kant op zou gaan, maar ik denk dat de markt het deze zomer min of meer eens is geworden, toen zowel Snowflake als Databricks hun eigen intenties aankondigden om het te ondersteunen, en dat heeft gewoon het debat gedood, zoals Iceberg de defacto-standaard is en wat dat voor klanten doet, klanten zijn hierin verreweg de echte winnaars. En dat komt omdat ze de gegevens nu kunnen opslaan in een formaat waarvan ze de eigenaar zijn, dat ze zelf kunnen beheren en dat voor hen overdraagbaar is, dat niet in handen is van een of andere databaseleverancier die ze de komende tientallen jaren zal gijzelen.

Dat is hun eigendom en dat betekent dat ze de motoren van elkaar kunnen uitspelen. Ze kunnen zeggen:oké, Starburst gaat deze werklast doen die mij daarvoor de beste kostenprestaties zal opleveren. Misschien is Snowflake beter voor deze werklast. Misschien is Databricks beter voor die werklast en heeft de klant de keuze tussen deze motoren, wat verbazingwekkend is. Als motoren concurreren, win je als klant en ik denk dat dit echt is wat Iceberg beschikbaar stelt.

Dinesh Chandrasekhar:

Maar dat was een mooie samenvatting. Ik denk dat dit duidelijk heeft gemaakt hoe belangrijk de ijsberg in de toekomst is, aangezien bedrijven standaardiseren op een model waarin ik denk dat iedereen interoperabeler is en waarvan ik denk dat het de klant ten goede komt, zoals je zei, zonder gebonden te zijn aan een bepaalde leverancier, maar het hen wel mogelijk maakt een beetje opener en flexibeler te zijn. Dat is zeker een goed punt.

Justin Borgman:

Precies.

Dinesh Chandrasekhar:

Justin, waarom praten we hier niet over een voorbeeld van een klant, omdat Trino en Iceberg vandaag de dag centraal staan in het gesprek. Vertel ons misschien over een casestudy van een klant waarin je dit praktisch in de praktijk hebt zien brengen en wat voor voordelen ze hebben gezien door Trino en Iceberg te adopteren?

Justin Borgman:

Graag. Er zijn een aantal voorbeelden, van toonaangevende internetbedrijven zoals DoorDash tot meer traditionele bedrijven zoals Comcast, die al heel lang bestaan, en die in beide gevallen afstappen van wat ik traditionele datawarehouse-platforms zou noemen, waarbij de werklast wordt verplaatst naar traditionele datawarehouse-platforms.

In het geval van Comcast:een zeer traditioneel on-premise datawarehouse. In het geval van DoorDash zou ik het een zeer traditioneel clouddatawarehouse noemen. En hoe dan ook, wat ze uiteindelijk proberen te doen is een betere TCO op hun SQL-analyses krijgen en de flexibiliteit bieden om te werken met de nieuwste geavanceerde technologieën die kunnen worden gekoppeld aan dit ene gemeenschappelijke formaat.

Nogmaals, wat betreft ons vorige punt denk ik dat wat ze ook proberen te doen, en dit heeft betrekking op het AI-onderwerp, is dat ze de basis leggen om hun data-architectuur op zijn plek te krijgen, zodat ze nu gemakkelijk toegang kunnen hebben tot de data die ze nodig hebben om hun eigen modellen te trainen of RAG-workflows uit te voeren, uiteindelijk om hun eigen AI-ambities te ondersteunen. En ik denk dat veel bedrijven zich in die begindagen bezig zijn met het uitzoeken wat AI voor mij kan doen? Hoe kan dit mij een concurrentievoordeel opleveren?

En terwijl ze dat aan het uitzoeken zijn, denk ik dat ze allemaal heel duidelijk zijn over één ding:hun eigen bedrijfseigen gegevens zullen van cruciaal belang zijn om hen concurrentievoordeel te geven. En dus is het opzetten van een data-infrastructuur die u tegen lage kosten en met hoge prestaties toegang geeft tot wat u nodig heeft, een kernstap in dat proces.

Dinesh Chandrasekhar:

Dus als een manier om voordeel te halen uit:kan ik daarop dubbelklikken en zeggen of vragen met name met realtime gegevens, het introduceert vaak uitdagingen zoals veranderingen in de schema-evolutie in het schema naarmate de bronnen veranderen, het doel moet zich aanpassen enzovoort, en ook het versiebeheer van gegevens. Hoe helpt Apache Iceberg een aantal van deze uitdagingen op moderne dataplatforms als deze aan te pakken?

Justin Borgman:

Er is dus het concept van versiebeheer en tijdreizen en het kunnen zien hoe gegevens binnen ons platform zijn geëvolueerd. We hebben ook data-afkomst en datakwaliteitsstatistieken toegevoegd die we kunnen vastleggen en aan onze gebruikers kunnen presenteren, zodat u echt kunt begrijpen waar de data vandaan komen, hoe ze zijn geëvolueerd en hoe ze zich hebben herhaald, zodat u die zichtbaarheid uiteindelijk weer aan de eindgebruiker kunt bieden.

Dinesh Chandrasekhar:

Oké. Vervolgens sprak u met Trino over hoe u diverse gegevensbronnen kunt combineren en gezamenlijke zoekopdrachten kunt uitvoeren, enzovoort. Beweegt de architectuur zich meer in de richting van een gecentraliseerde databron of dataopslag, of houdt ze deze waar ze zijn, maar biedt ze de mogelijkheid om ze te combineren en de zichtbaarheid voor consumenten te vergroten? Wat is de in-state architectuur waar we hier naar kijken?

Justin Borgman:

Ja, goede vraag. Er zijn elementen van beide, en ik denk dat dat het voor ons altijd een uitdaging heeft gemaakt om zelfs maar onze eigen waardepropositie te formuleren, omdat mensen gewend zijn aan één model en één gemoedstoestand, namelijk het centraliseren van alles in een traditioneel datawarehouse, anders heb je er gewoon geen toegang toe. En ik denk dat de manier waarop we de wereld zien evolueren, is dat er een centrale opslagplaats zal zijn die ongetwijfeld een datameer zal zijn, dat het merendeel van de gegevens of zoveel mogelijk gegevens zal opslaan, omdat je economische voordelen gaat behalen, je prestatievoordelen krijgt door zoveel mogelijk in ijsbergformaten in je meer op te slaan. We denken dus dat dit een geweldige strategie is voor veel van uw gegevens, maar we denken ook dat er altijd gebruiksscenario's zullen zijn waarin u een andere gegevensbron wilt bereiken.

Misschien zijn het verkennende analyses. Ik heb alleen maar een hypothese die ik wil testen en die volgens mij heel groot zou kunnen zijn voor ons bedrijf, maar ik wil niet alle ETL-pijplijnen ontwikkelen en dat hele proces doorlopen alleen voor een idee, alleen maar voor een vermoeden dat ik heb. Nou, dat is een geweldig gebruiksscenario waarbij het een game changer is om met wat je hebt aan een tafel te kunnen zitten die ergens anders woont. Het zou u zelfs in staat kunnen stellen om die hypothese binnen enkele minuten in plaats van weken te bevestigen, zodat de teams de gegevens kunnen verplaatsen op de manier die u nodig heeft. En dus denk ik dat beide waardevol zijn, maar we beschouwen het als de meerderheid in het meer en dan verder reiken dan dat meer is de manier waarop we erover nadenken.

Dinesh Chandrasekhar:

Dus als ik een derde partij ben die, laten we zeggen, op zoek is naar een modern dataplatform, wat zijn dan enkele van de kritische prestatieoverwegingen die ik in mijn checklist zou willen hebben als ik naar Trino kijk versus een heleboel andere alternatieven? Dan is mijn prioriteit bijvoorbeeld het afhandelen van realtime dataquery's, ervoor zorgen dat er een lage latentie is en dat soort dingen. Dat zijn dus mijn eisen. Wat zijn enkele van de overwegingen die ik in mijn checklist zou willen hebben?

Justin Borgman:

Ja. Welnu, de twee beste adviezen die ik zou willen geven zijn:ten eerste:gebruik echte zoekopdrachten die u ook daadwerkelijk gebruikt. Ik denk dat het heel gebruikelijk is dat mensen branchebenchmarks gebruiken, en dat is prima, het is misschien een heel vluchtige stap, maar het zal geen weerspiegeling zijn van je werklast. Dat is het gewoon nooit. Elk bedrijf heeft zijn eigen dingen die ze proberen te doen. Het is dus altijd het beste om te proberen uw eindtoestand zo goed mogelijk te simuleren.

En dat betekent dat u gebruik moet maken van uw eigen zoekopdrachten en uw eigen gegevens terwijl u uw eigen proof of concept samenstelt en benchmarking uitvoert. U mag nooit uitsluitend de benchmarks van andere leveranciers vertrouwen. Zelfs die van ons. Wij hebben ze, je kunt ze bekijken, maar je moet dit toch echt zelf testen met je eigen queries en je eigen data.

Het tweede dat ik wil zeggen is dat je ervoor moet zorgen dat je schaal simuleert. Schaal is belangrijk, want hier vinden we in ieder geval enkele van onze eigen kansen bij klanten, bijvoorbeeld om een leverancier te vervangen die ze hebben gekocht. In het POC-proces dachten ze dat die leverancier aan hun behoeften voldeed, maar toen ze de echte productieschaal bereikten, kon deze het gewoon niet aan.

En dit is waar ik denk dat er ook een groot voordeel schuilt in het benutten van open source-technologieën zoals Trino, die zich op de grootst denkbare schaal hebben bewezen, zoals Apple het op krankzinnige schaal uitvoert, uiteraard op krankzinnige schaal op Facebook. Dit spul kan dus werken. Op die schaal werkt het. Dat zou je enige gemoedsrust moeten geven. Maar toch zou ik zeggen:simuleer het zelf in je eigen benchmarkingproces om er echt zeker van te zijn dat deze verschillende technologieën gaan voldoen aan de behoeften die je in de productie hebt. Koel.

En dan is het derde stuk dat ik misschien zal toevoegen de kosten. Kosten zijn ook zo belangrijk, toch? Kosten en prestaties zijn eigenlijk slechts twee kanten van dezelfde medaille. En dat moet je ook meenemen in je benchmarking, toch? Je kiest niet zomaar de snelste. U wilt de beste kosten-prestaties kiezen. En dus is het ook een belangrijk onderdeel van het onderdeel.

Dinesh Chandrasekhar:

Ik ben het ermee eens. Ik denk dat dit een belangrijk checklist-item is voor veel mensen die zeker oplossingen evalueren. Laten we dit misschien afsluiten vanuit een trendsperspectief. Ik wil je alleen maar vragen:er gebeurt tegenwoordig veel op het gebied van data, toch? Er zijn dus datawarehouse-leveranciers, lakehouse-leveranciers, data lake-leveranciers en verschillende alternatieven, realtime analysedatabases en dergelijke.

De keuzes zijn absoluut breed en verwarrend voor de koper. Dus vanuit het perspectief van opkomende trends:zie je een vorm van convergentie plaatsvinden als het gaat om realtime gegevensverwerking, de data lakehouse-architecturen waar we het zojuist over hadden, en het open source-ecosysteem in het algemeen? Is er enige vorm van convergentie die u ziet gebeuren waardoor het in de nabije toekomst duidelijker zal worden voor de koper?

Justin Borgman:

Ik wel. Ik denk dat we heel vaak zeer populaire patronen beginnen te zien ontstaan. Deze patronen vinden hun oorsprong op internet en hyperscalers en vertalen zich vervolgens in de loop van de tijd naar de onderneming. En ik denk dat we nu op het punt zijn aangekomen waarop het zijn weg vindt naar de onderneming. En de patronen die ik zie maken gebruik van technologieën zoals Kafka voor het streaminggedeelte. En daar heb je natuurlijk meerdere keuzes. Je kunt Confluent doen, je kunt de Amazon-versie doen. Je hebt keuze uit al deze open source-platforms, wat geweldig is. Ik denk zeker dat Iceberg, wat betreft het formaat om je gegevens op te slaan, mij de veiligste gok lijkt die je maar kunt maken. En dan aan de motorzijde:het vinden van de juiste motor voor de juiste klus. Ik denk dat als het om SQL Analytics gaat, we zouden zeggen dat Trino en Starburst de beste keuze zijn, maar dat moet je jezelf bewijzen.

Als je een machine learning-model traint, zou je daar waarschijnlijk Spark voor gebruiken. En dat zijn de patronen die we zien. Ik denk dat alle vier deze technologieën de komende jaren ongelooflijk populair zullen zijn in op open source gebaseerde data-architecturen. En nogmaals, open source geeft je de flexibiliteit om componenten in de loop van de tijd te kunnen mixen en matchen, waardoor je architectuur de tand des tijds zal doorstaan. En ik denk dat dat echt is wat je wilt doen:geen technische schulden creëren die je over tien jaar heel moeilijk zult kunnen vervangen. En open source geeft je die flexibiliteit.

Dinesh Chandrasekhar:

Ik hou van dat punt. Bedankt. Ik denk dat we dit moeten afsluiten met dat geweldige briefje. Justin, heel erg bedankt dat je vandaag bij ons bent gekomen. Ik denk dat het een geweldig gesprek was om meer te leren over Trino en Iceberg en hoe Starbust dit fantastische platform aanbiedt dat het beste van beide werelden op jouw platform combineert. Hartelijk dank en wij stellen het op prijs dat u zich bij ons aansluit.

Justin Borgman:

Bedankt, Dinesh. Het was mij een genoegen.

Het benutten van AI en kennisgrafieken om de bouwsector te transformeren Een revolutie teweegbrengen in de industrie:de toekomst van IT/OT-integratie in de productie

Internet of Things-technologie

Ingebed

Sensor

Cloud computing

Internet of Things-technologie