Hur kan företag använda slumpmässiga skogsmodeller för förutsägelser?

Innehåll

F:

A:

Företag använder ofta slumpmässiga skogsmodeller för att göra förutsägelser med maskininlärningsprocesser. Den slumpmässiga skogen använder flera beslutsträd för att göra en mer holistisk analys av en given datamängd.

Ett enda beslutsträd fungerar på grund av att separera en viss variabel eller variabler enligt en binär process. Till exempel, vid utvärdering av datauppsättningar relaterade till en uppsättning bilar eller fordon, kan ett enda beslutsträd sortera och klassificera varje enskilt fordon efter vikt och separera dem i tunga eller lätta fordon.

Den slumpmässiga skogen bygger på beslutsträdmodellen och gör den mer sofistikerad. Experter talar om slumpmässiga skogar som representerar ”stokastisk diskriminering” eller ”stokastisk gissning” -metod för data som används på flerdimensionella utrymmen. Stokastisk diskriminering tenderar att vara ett sätt att förbättra analysen av datamodeller utöver vad ett enda beslutsträd kan göra.

I grund och botten skapar en slumpmässig skog många enskilda beslutsträd som arbetar med viktiga variabler med en viss datauppsättning tillämpad. En nyckelfaktor är att i en slumpmässig skog kommer datauppsättningen och variabelanalysen för varje beslutsträd vanligtvis att överlappa varandra. Det är viktigt för modellen eftersom den slumpmässiga skogsmodellen tar det genomsnittliga resultatet för varje beslutsträd och faktorerar dem till ett viktat beslut. I huvudsak tar analysen alla röster från olika beslutsträd och bygger en konsensus för att ge produktiva och logiska resultat.

Ett exempel på att använda en slumpmässig skogalgoritm produktivt finns på R-bloggarsidan, där författaren Teja Kodali tar exemplet med att bestämma vinkvaliteten genom faktorer som surhet, socker, svaveldioxidnivåer, pH-värde och alkoholhalt. Kodali förklarar hur en slumpmässig skogalgoritm använder en liten slumpmässig delmängd av funktioner för varje enskilt träd och sedan använder resulterande medelvärden.

Med detta i åtanke kommer företag som vill använda slumpmässiga skogsmaskininlärningsalgoritmer för prediktiv modellering först att isolera de prediktiva data som måste kokas ner i en uppsättning produktioner och sedan tillämpa den på den slumpmässiga skogsmodellen med en viss uppsättning utbildning data. Maskininlärningsalgoritmer tar den utbildningsdata och arbetar med den för att utvecklas utöver begränsningarna för deras ursprungliga programmering. När det gäller slumpmässiga skogsmodeller, lär sig tekniken att bilda mer sofistikerade prediktiva resultat med hjälp av de enskilda beslutsträden för att bygga sin slumpmässiga skogskonsensus.

Ett sätt att detta kan tillämpas på företag är att ta olika produktegenskapvariabler och använda en slumpmässig skog för att indikera potentiellt kundintresse. Till exempel, om det finns kända kundintressefaktorer som färg, storlek, hållbarhet, portabilitet eller något annat som kunder har angett intresse för, kan dessa attribut matas in i datauppsättningarna och analyseras utifrån sin egen unika inverkan för multifaktor analys.