Datakataloger och mognad på marknaden för maskininlärning

Innehåll

Infonomics imperativ
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Vad datakataloger kan göra för företag
Lägga till i maskininlärning
Hur man väljer

Källa: Nmedia / Dreamstime.com

Hämtmat:

MLDC-marknaden växer, och företag som söker effektivt utnyttja big data med maskininlärning bör vara medvetna om toppnamnen på fältet och deras individuella rangordningar.

Det här är big data. Vi översvämmas med information, och företag tycker att det är en utmaning att hantera och utvinna värdet från det.

Dagens flöde av stor data innebär inte bara volym, variation och hastighet utan också komplexitet. Som identifierats av SAS i Big Data Historia och aktuella överväganden, det är en faktor i strömmarna "från flera källor, vilket gör det svårt att länka, matcha, rensa och transformera data över system." (Vill du lära dig mer om big data? Kolla in (Big) Datas Big Future.)

Att hitta värdefull insikt är inte en fråga om att bara samla in så mycket data som möjligt, utan att hitta rätt data. Det är omöjligt att arbeta igenom allt med manuella processer. Detta är anledningen till att fler och fler företag "vänder sig till datakataloger för att demokratisera tillgången till data, möjliggöra stamdata-kunskap att sammanställa information, tillämpa datapolicyer och aktivera all information för affärsvärde snabbt."

Det är här datakataloger (ibland även kända som informationskataloger) kommer in i bilden. Såsom de definieras här, ger de "användare möjlighet att utforska sina nödvändiga datakällor och förstå de utforskade datakällorna och samtidigt hjälpa organisationer att uppnå mer värde från sina nuvarande investeringar." Ett av de sätt det gör det är genom att möjliggöra mycket större tillgång till data, bland olika typer av användare som kan använda sig av eller bidra till den.

Infonomics imperativ

Gartner noterade den dramatiskt ökade efterfrågan på datakataloger i slutet av 2017 och kallade dem "den nya svarta". De blev erkända som en snabb och ekonomisk lösning "att inventera och klassificera organisationerna i allt högre grad distribuerade och disorganiserade datatillgångar och kartlägga deras informationskedjor." Nödvändigheten för detta har uppstått på grund av ökningen av "infonomics", som kräver att man använder samma noggrannhet för att spåra information som man gör för att hantera andra affärstillgångar. (Mer information om leveranskedjor finns i Hur maskininlärning kan förbättra effektiviteten i leveranskedjan.)

Gartners tar jibes med The Forrester Wave ™: Machine Learning Data Catalogs, Q2 2018. Över hälften av undersökningens deltagare i den rapporten sa att de planerar att bygga upp sin datakatalogimplementering. De var sannolikt till stor del motiverade av det faktum att var och en hade minst sju dataljöer i sin organisation. Som Gartner tar på sig datakataloger förklarar, är datakataloger särskilt användbara för att dra ut "con, meaning and value of data" som vanligtvis lämnas i en oklassificerad form i en datasjö.

Forrester rapporterar att mer än en tredjedel av beslutsfattarna inom data och analys handlade med 1 000 TB eller mer data 2017, ett belopp som rapporterades endast mellan 10 och 14 procent året innan. Att hantera data i den skalan är en växande utmaning, eller specifikt två utmaningar:

"1) slå samman befintliga affärsprocesser till källdata för att analysera den och implementera insikter och 2) köpa, samla in, hantera och styra uppgifterna när de växer."

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Vad datakataloger kan göra för företag

Gartner identifierar specifika sätt på vilka datakataloger kan förbättra ett organisations flöde av information och produktivitet:

Samla och kommunicera den aktuella informationen om tillgångsinformation som är tillgänglig för organisationen.
Skapa en gemensam ordlista över affärsuttryck som definierar den semantiska tolkningen och betydelsen av organisationsdata och därmed tillhandahåller medel för att förmedla och lösa definitiva inkonsekvenser.
Aktivera en dynamisk och smidig samverkansmiljö för att göra det möjligt för företag och IT-kollegor att kommentera, dokumentera och dela data.
Tillhandahåller dataanvändningens transparens med släkt och konsekvensanalys.
Övervakning, revision och spårning av data till stöd för informationsstyrningsprocesser.
Fånga in metadata för att förbättra den interna analysen av dataanvändning och återanvändning, frågaoptimering och datacertifiering.
Att samla information inom sin affärsanvändning genom att fånga, kommunicera och analysera vilka data som finns, varifrån de kommer, vilka nackdelar den används i, varför den behövs, hur den flyter mellan processer och system, vem som är ansvarig för det, vad det betyder och vilket värde det har.

Att få informationen korrekt identifierade och tillgängliga för nyckelpersonerna i organisationen är viktigt, säger Gartner-rapporten, inte bara för att hitta vägen "att tjäna pengar på datatillgångar för digitala affärsresultat", utan att följa bestämmelser, oavsett om de är bransch- specifika som lagen om sjukförsäkringens bärbarhet och ansvar (HIPAA) eller av en mer allmän karaktär som den allmänna dataskyddsförordningen (GDPR).

Lägga till i maskininlärning

Men ingenting är utan dess nackdelar. För datakataloger har problemet varit den långsamma och tråkiga processen med att manuellt bygga upp dem med alla metadata som måste sättas på plats. Det är här maskininlärningskomponenten kommer in.

Datakatalogerna som Forrester bedömde kallas MLDC eftersom de utnyttjar kraften i maskininlärning, en av komponenterna i AI. Som en Podium Data-blogg förklarade gör det möjligt att "bygga ett ihållande arkiv av metadata och sedan tillämpa ML / AI för att fresta ut och avslöja potentiellt användbar insikt om underliggande datatillgångar."

Hur man väljer

För att hjälpa organisationer att bedöma vilka företag som bör välja, använde Forrester 29 utvärderingspoäng till de 12 bästa MLDC: erna. Den identifierade ledarna på denna marknad som: IBM, Relito, Unifi-programvara, Alation och Collibra. De starka artisterna som den hittade är Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics och Cloudera. Hortonworks står ensam i rang som "utmanare".

Man bör dock inte gå ensam efter den totala rankningen. Rapporten bryter ned de enskilda styrkorna och svagheterna. Följaktligen, om en viss funktion, som forskning och utveckling, är av största vikt för en organisation, kan den betrakta Hortonworks som lika med IBM och Colilbra för den aspekten eftersom dessa tre delar toppresultatet på fem för den kvaliteten, som var två poäng bättre än Alation och Coloudera och fyra poäng bättre än Cambridge Semantics.

Följaktligen råder Forrester-rapporten de som använder sin rapport som vägledning att inte anta det högst rankade företaget som det bästa valet för alla. De bör vara noga med uppdelningen av bedömningen för att hitta vad som uppfyller deras specifika krav.