Hur strukturerad är dina data? Granska strukturerade, ostrukturerade och halvstrukturerade data

Innehåll

Vad är strukturerade data?
Vad är ostrukturerade data?
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Falling in Between: Semi-Structured Data
Kan ostrukturerade data omvandlas till strukturerade data?

Källa: monsitj / iStockphoto

Hämtmat:

Lär dig mer om strukturerade, ostrukturerade och semistrukturerade data.

Historiskt sett kunde dataanalytiker dekryptera och extrahera information från endast en typ av data: strukturerad data. Denna typ av data var lätt sökbar på grund av dess tydliga mönster, men representerade en mindre procentandel av den totala tillgängliga informationen.

Ostrukturerade data inkluderade också video, ljud, s och data från sociala medier och mobila enheter. Det var, nedåt, den största reserven med rå information som finns, men ingen kunde ändå utnyttja denna resurs pålitligt.

Saker har emellertid förändrats eftersom den ökade tillgängligheten för lagring och överlägsen bearbetningsmöjligheter gav upphov till ostrukturerad dataanalys - en ny och därmed omogen form av teknik. Bättre affärsintelligens utnyttjar denna möjlighet till fullo och betydande investeringar görs för att samla strukturerad och ostrukturerad dataanalys för att få tillgång till denna till synes oändliga guldgruva av information.

Låt oss titta på dessa två dataformat för att förstå deras skillnader och vad framtiden har för alla dataanalytiker.

Vad är strukturerade data?

Strukturerad data är mänsklig eller maskingenererad och mycket organiserad information som enkelt kan lagras i raddatabasstrukturer, så kallade relationella databaser (RDB). Det är allt som finns i ett format som enkelt kan fångas, lagras och organiseras i en RDB-struktur för att senare analyseras. (Läs mer om databaser genom att läsa vår Introduktion till databaser.)

Exempel inkluderar postnummer, telefonnummer och användardemografi som ålder eller kön. Data som finns i dessa databaser kan ifrågasättas med Structured Query Language (SQL) eller VLOOKUP-funktioner i Excel-kalkylblad. Algoritmer kan också göras för att snabbt söka efter data som finns i de olika fälten med deras index eller deras numeriska och alfabetiska data. All data är emellertid strikt definierad med avseende på fälttyp och namn, och förmågan att lagra, fråga och analysera dem är således begränsad till viss del.

Typiska applikationer som använder strukturerad data inkluderar sjukhushanteringsprogramvara, CRM-applikationer och kundreservationssystem. På grund av sin snygga organisation och enkla tillgänglighet är strukturerad data användbar och effektiv när man hanterar stora mängder information. När man borrar efter den svarta oljan dold i den oändliga mängden data som produceras varje dag av mänskligheten, är det dock att leta efter strukturerade data ingenting annat än att skrapa ytan.

Vad är ostrukturerade data?

De allra flesta data som finns i en organisation är ostrukturerade, och vissa uppskattar det som upp till 80 procent av den totala tillgängliga informationen. Per definition är ostrukturerad data allt som inte har någon identifierbar intern struktur. Vissa typer av data som faller i denna kategori är dock har någon form av vag intern struktur, men den överensstämmer inte med en databas eller ett kalkylblad.

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

De flesta affärsdata är ostrukturerade, allt från kundtjänstinteraktioner, filer, webbloggar, videor och annat multimediainnehåll, försäljningsautomation, s och sociala medier. Det finns ingen anledning att förklara hur värdefull denna information kan vara om den kunde brytas, organiseras och analyseras.

De flesta ostrukturerade data genereras av människor och görs så att de förstås av andra människor. Detta innebär att den snyggare datainformationen inte förstår denna typ av information eftersom den är för långt ifrån linjäriteten i maskinspråket och strukturerade databaser.

Falling in Between: Semi-Structured Data

Semistrukturerade data är en tredje typ av data som representerar en mycket mindre bit av hela kakan (5-10 procent). Halvstrukturerad information innehåller bokstavligen mellan båda världarna och innehåller interna semantiska taggar och markeringar som identifierar separata element, men saknar strukturen som krävs för att passa in i en relationsdatabas.

Till exempel kan s verka som strukturerade data eftersom de kan kategoriseras efter datum, filstorlek eller tid. Men det är de inte, eftersom den mest värdefulla informationen finns i dem snarare än dess relativt enkla etiketter. kan inte ordnas ordentligt med innehåll och ämne, eftersom människor inte talar i så stränga mönster för att låta en maskin förstå dem otvetydigt. Andra exempel på semistrukturerade data inkluderar NoSQL-databaser, den öppna standarden JSON och markeringsspråket XML.

Semistrukturerade data fråges vanligtvis och katalogiseras för analys med metadata-analys. Till exempel består en röntgenundersökning av ett stort antal pixlar som bildar bilden - som i sig är ostrukturerade data som inte kan nås. Skanningsfilen kommer emellertid fortfarande att innehålla en metadatadel som ger information om den, till exempel anteckningar och användar-ID.

Kan ostrukturerade data omvandlas till strukturerade data?

Den grundläggande utmaningen som varje dataanalytiker måste möta är att organisera informationen till hands på ett snyggt, ordnat sätt så att den kan nås och förstås. Data mining-verktyg är vanligtvis inte utrustade för att analysera information som per definition är för besläktad med mänskligt språk, vilket innebär att bara en annan människa kan samla in och kategorisera den.

Den stora mängden ostrukturerad data gör emellertid alla försök att lagra eller organisera den extremt besvärande och dyr. Poolen med information som kommer från, till exempel, en webbaserad sökmotor är så massiv att de flesta element kräver en enorm investering i fråga om arbete och resurser bara för att extrahera de mest grundläggande. Till och med de mest effektiva teknikerna för data mining saknar fortfarande en betydande mängd information som finns på webben och ännu värre på den djupa webben.

Men tekniker finns. Och de utvecklas med en fantastisk hastighet. Till exempel kan metadata användas för att ansluta strukturerad och ostrukturerad data tillsammans. Uppskörd information kan filtreras och indexeras av både användare och algoritmer för att bara analysera relevant data. Andra lösningar inkluderar "data wrangling", som är en process genom vilken komplexa data successivt organiseras steg för steg av icke-tekniska användare. (Mer information om vanliga användare som hanterar data, se Hur Big Data kan hjälpa till med självbetjäningsanalys.)

Vid någon tidpunkt kommer vi att kunna omvandla dessa massivt oorganiserade mängder information till ett mer organiserat och omstrukturerat format. Kanske inte idag, kanske inte imorgon, men snart kommer vi att kunna attackera det största valvet som mänskligheten någonsin har sett: big data.