Nexus of Legacy and Innovation: En vändpunkt för data

Innehåll

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Ner till affärer
Hur Kafka kommer att ändra datahantering

Hämtmat:

Kafka kommer att göra för informationssystem vad LinkedIn gör för affärsmän: hålla dem anslutna över många olika områden.

Genom att tro passionerat på något som fortfarande inte existerar skapar vi det. Det icke-existerande är vad vi inte har tillräckligt önskat.

~ Franz Kafka

Nödvändighet är fortfarande modern till uppfinningen. Som en skarp konsult en gång sa till mig: "Om det finns något som måste hända i en organisation, händer det." Hans poäng var tvåfaldig: 1) vissa människor kommer alltid att hitta ett sätt att göra saker; och 2) högsta ledningen, eller till och med mellanledningen, kan mycket väl inte vara medveten om exakt hur saker och ting görs inom sin egen anläggning.

Om vi utvidgar denna metafor till hela datahanteringsuniversumet, kan vi se en transformation som sker just nu. Det råa trycket från stordata, i kombination med strömningsdataens axel, skapar så mycket tryck att äldre system försvinner vid kanterna, om inte kollapsar helt. Ändå finns det otaliga yrkesverksamma som jobbar just nu, som i stort sett inte är medvetna om denna verklighet.

De datastyrda, datadrivna företagen har en framsäte och driver på många sätt denna förändring. Tänk på hur kraftverk som Yahoo !, och LinkedIn har vänt företagets mjukvaruindustri i sidled med sina stora donationer till öppen källkod: Hadoop, Cassandra och nu Kafka, som alla har blivit hyrda av Apache Foundation, själv en central aktör i denna metamorfos .

Vad är resultatet av all denna förändring? Det som bevittnade idag är den kategoriska omklassificeringen och omstruktureringen av själva datahantering. Detta betyder inte att äldre system nu kommer att rippas ut och ersättas. Varje branschveteran berättar för dig att grossistupplösning av äldre system händer ungefär lika ofta som Chicago Cubs vinner World Series. Det är sällan en sällsynt händelse.

Vad som verkligen händer är att en superstruktur byggs runt de gamla världssystemen. Tänk på analogin mellan motorvägar, som ofta stiger över de städer och städer som de betjänar, utformade för att leverera människor och last till dessa befolkningscentra och ge utrymme till vem som helst och allt inom dem. De ersätter inte befintliga vägar så mycket som förstärker dem med höghastighetsalternativ.

Det är exakt vad Apache Kafka gör: det ger snabbvägar för datarörelse mellan och bland informationssystem. För att följa motorvägsanalogin finns det fortfarande många företag som använder linjära köer, eller den gamla standarden för ETL (extrakt-transform-belastning); men dessa vägar har låga hastighetsgränser, och det finns många jättegrytor; dessutom är underhållskostnader ofta orimliga; skyltar är dålig.

Kafka erbjuder en alternativ metod för att leverera data, en som är definitivt realtid, skalbar och hållbar. Detta innebär att Kafka inte bara är ett datoröringsfordon utan också en datareplikator; och till viss del en distribuerad databasteknologi. Vi bör vara försiktiga med att ta analogien för långt, eftersom det finns egenskaper hos ACID-kompatibla databaser som Kafka ännu inte spelar. Ändringen är ändå verklig.

Detta är bra nyheter för informationslandskapet, eftersom data nu är fria att flytta runt landet - och världen, för den delen. Det som en gång var en smärtsam begränsning, nämligen att slå batchfönster för ETL-processer, försvinner nu mycket eftersom dimman ger plats för klar himmel under bländningen av en het sol. När man flyttar data från ett system till ett annat blir gränsfritt, uppstår en era med nya möjligheter.

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Människor kommer troligen att representera den mest friktion på vägen till datas nya framtid. Tiden går men gamla vanor består. Nary a CIO blir för upphetsad för att göra grossiständringar i företagssystem. Sade en kunnig chef för rollen: "Gör dig redo att vara ensam." Inom ett år efter den kommentaren var han konsult. Det är inte en lätt väg att försöka hantera den anmärkningsvärt besvärliga världen med företagsdata.

Den goda nyheten är att Kafka tillhandahåller en ramp för framtiden. Eftersom den fungerar som en kraftfull, mångfacetterad buss, skapar den broar mellan äldre system och deras framåtriktade motsvarigheter. Således kan organisationer som omfamnar denna nya möjlighet med öppet sinne och tillräcklig budget kunna kliva in i den nya världen utan att lämna den gamla. Det är en allvarlig stor affär.

Ner till affärer

Medan Apache Kafka är en öppen källkodsteknologi, gratis för alla att ladda ner och använda, har de som skapade denna programvara för LinkedIn spunnat bort en separat enhet som heter Confluent, som fokuserar på att förhärda erbjudandet för företagsbruk. Ungefär som Cloudera, Hortonworks och MapR har byggt sina företag runt Apache Hadoops öppen källkodsprojekt, så Confluent försöker tjäna pengar på Kafka.

I en nyligen intervjuad InsideAnalysis förklarade Confluent VD och medgrundare Jay Kreps sitt ursprung på LinkedIn:

"Vi försökte lösa ett par olika problem där. Ett var att vi hade alla dessa olika datasystem med olika typer av data. Vi hade databaser och vi hade loggfiler och vi hade mätningar om servrar och vi hade användare att klicka på saker. Att få all den informationen - eftersom den blev stor - var väldigt svår. Kraften hos data var bara där om du kunde få dem till applikationerna, behandlingen eller systemen som behövde det. Det var ett stort problem.

"Det andra problemet vi hade var att vi hade antagit Hadoop, och det var något jag var inblandad i. Vi hade denna fantastiska offlinebehandlingsplattform som vi kunde skala och vi kunde lägga in alla våra uppgifter. För LinkedIn skedde alla våra uppgifter på riktigt tid. Det fanns kontinuerlig generering av data. Det fanns alltid denna felaktighet när vi försökte faktiskt bygga viktiga delar av verksamheten utifrån våra data; mellan något som gick en gång om dagen, kanske på natten, och genererade resultat nästa dag, och den här typen av kontinuerliga data - korta interaktionstider - som du var tvungen att komma ikapp med. Vi ville kunna göra något som funnits i akademin ett tag, men var egentligen inte en mainstream-sak, som är att kunna utnyttja och bearbeta dataströmmar när de genererades, snarare än när de satt. "

Väl. Det är exakt vad Confluent nu försöker göra med företagsdata i alla former och storlekar. Möjligheten att spela? Grönt fält. Ärligt talat kan man i hela företagsprogramvarans historia hävda att den adresserbara marknaden för denna teknik absolut tar kakan. Det finns inte en enda stor organisation, eller ens datatungt litet företag, som inte kan dra nytta av denna teknik.

Detta är särskilt sant på grund av den neurologiska aspekten av denna teknik; inte bara de inblandade sinnena, utan arten av vad Kafka gör för informationssystem. Eftersom Kafka kan användas för att hantera rörelser av data i en organisation kan det ses som mer än bara en trafikledare, utan snarare hjärnorna i själva operationen. Var i de tidiga stadierna av den visionen, men kan vara säker på att det är verkligt.

Hur Kafka kommer att ändra datahantering

För att förstå hur Kafka kommer att förändra datahanteringens karaktär, tänk bara på de sätt på vilka LinkedIn har förändrat nätverk. Att hitta kollegor blev så mycket lättare; att hålla kontakten med människor är nu ett ögonblick. Kafka kommer att göra för informationssystem vad LinkedIn gör för affärsfolk: hålla dem kopplade över de största jordens områden.

Spinoff av Confluent är symboliskt för något vi kan kalla New Innovation, en rörelse som drivs av frikoppling av mjukvaruutveckling och mentalitet med sluten källa, styrd av skaparna av open source-teknik, drivs av stora mängder riskkapital, monetiserat av för vinstdrivande företag som försöker revolutionera hur organisationer och människor skapar, samlar in, analyserar och utnyttjar data.

För att citera Franz Kafka, "Från en viss punkt och framåt finns det inte längre någon återvändning. Det är den punkt som måste nås."

Vi har passerat Rubicon. Det vänder sig inte tillbaka nu.