Förstärkningslärande Vs. Deep Armering Learning: Vad är skillnaden?

Innehåll

Vad är förstärkningslärande?
Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv
Vad är djupförstärkningslärande?

Hämtmat:

Vi gick till experterna och bad dem svara på de viktiga skillnaderna mellan förstärkningslärande och djup förstärkningsinlärning

Maskininlärningsalgoritmer kan göra livet och arbetet lättare och frigöra oss från överflödiga uppgifter medan vi arbetar snabbare - och smartare - än hela team av människor. Det finns dock olika typer av maskininlärning. Till exempel finns det förstärkningslärande och djupförstärkningslärande.

"Även om förstärkningslärande och djup förstärkningslärande är båda maskininlärningstekniker som lär sig autonomt, finns det vissa skillnader," säger Dr. Kiho Lim, biträdande professor i datavetenskap vid William Paterson University i Wayne, New Jersey. "Förstärkningslärande är dynamiskt lärande med en test- och felmetod för att maximera resultatet, medan djup förstärkningsinlärning är att lära av befintlig kunskap och tillämpa den på en ny datamängd."

Men vad betyder det egentligen? Vi gick till experterna - och bad dem att ge många exempel!

Vad är förstärkningslärande?

Som Lim säger är förstärkningslärande praktiken av lärande genom prövning och fel - och övning. "I den här disciplinen lär en modell utplacering genom att inkrementellt belönas för en korrekt förutsägelse och straffas för felaktiga förutsägelser," enligt Hunaid Hameed, en datavetenskaplig praktikant vid Data Science Dojo i Redmond, WA. (Läs förstärkningslärande kan ge ett trevligt dynamiskt snurr till marknadsföring.)

"Förstärkningsinlärning ses ofta i AI-spel och förbättras när du spelar spelet över tid."

De tre väsentliga komponenterna i förstärkningslärande är en agent, handling och belöning. "Förstärkningsinlärning följer en specifik metod och bestämmer de bästa medlen för att uppnå bästa resultat," säger Dr. Ankur Taly, chef för datavetenskap vid Fiddler Labs i Mountain View, Kalifornien. "Det liknar strukturen för hur vi spelar ett videospel där karaktären (agenten) deltar i en serie försök (åtgärder) för att få högsta poäng (belöning)."

Det är emellertid ett autonomt självlärningssystem. Med hjälp av videospeleksemplet säger Taly att positiva belöningar kan komma från att öka poängen eller poäng, och negativa belöningar kan vara resultatet av att stöta på hinder eller göra ogynnsamma drag.

Chris Nicholson, VD för San Francisco, CA-baserade Skymind bygger på exemplet på hur algoritmer lär sig genom försök och misstag. ”Tänk dig att spela Super Mario Brothers för första gången och försöka ta reda på hur du vinner: du utforskar rymden, du andar, hoppar, slår ett mynt, landar på en sköldpadda och sedan ser du vad som händer. ”

Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Genom att lära dig de goda handlingarna och de dåliga handlingarna lär spelet dig hur du ska uppträda. ”Förstärkningsinlärning gör det i alla situationer: videospel, brädspel, simuleringar av verkliga användningsfall.” Faktum är att Nicholson säger att hans organisation använder förstärkningslärande och simuleringar för att hjälpa företag att hitta den bästa beslutsvägen genom en komplex situation.

I förstärkningslärande fattar en agent flera mindre beslut för att uppnå ett större mål. Ytterligare ett exempel är att lära en robot att gå. ”I stället för hårdkodande vägbeskrivningar för att lyfta en fot, böja knäet, lägga ner det, och så vidare, kan en förstärkningsinlärningsmetod ha robotexperimentet med olika rörelsekvenser och ta reda på vilka kombinationer som är de mest framgångsrika i att göra det gå framåt, säger Stephen Bailey, datavetare och expertverktyg för analysverktyg vid Immuta i College Park, MD.

Förutom videospel och robotik finns det andra exempel som kan hjälpa till att förklara hur förstärkningslärande fungerar. Brandon Haynie, chefsdataforskare vid Babel Street i Washington, DC, jämför det med en mänsklig lärande att cykla. "Om du är stillastående och lyfter fötterna utan att trampa, är ett fall - eller straff - överhängande."

Men om du börjar trampa, kommer du att stanna kvar på cykeln - belöning - och gå vidare till nästa tillstånd.

"Förstärkningslärande har applikationer som sträcker sig över flera sektorer, inklusive ekonomiska beslut, kemi, tillverkning och naturligtvis robotik," säger Haynie.

Vad är djupförstärkningslärande?

Det är dock möjligt för besluten att bli för komplicerade för den förstärkta inlärningsmetoden. Haynie säger att det kan vara överväldigande för algoritmen att lära sig från alla tillstånd och bestämma belöningsvägen. "Det är här djup förstärkningsinlärning kan hjälpa: den" djupa "delen hänvisar till tillämpningen av ett neuralt nätverk för att uppskatta staterna istället för att behöva kartlägga varje lösning och skapa ett mer hanterbart lösningsutrymme i beslutsprocessen."

Det är inte ett nytt koncept. Haynie säger att det har funnits sedan 1970-talet. "Men med tillkomsten av billig och kraftfull datoranvändning kan de extra fördelarna med neurala nätverk nu hjälpa till att hantera områden för att minska komplexiteten i en lösning," förklarar han. (Läs Vad är skillnaden mellan konstgjord intelligens och neurala nätverk?)

Så, hur fungerar det här? Enligt Peter MacKenzie, AI-teamledare, Americas at Teradata, är det för mycket information att lagra i tabeller, och tabellformade metoder skulle kräva att agenten besöker varje stat och åtgärdskombination.

Emellertid ersätter djup förstärkningsinlärning tabellformade metoder för att uppskatta tillståndsvärden med funktions approximation. "Funktionsinriktning eliminerar inte bara behovet av att lagra alla tillstånds- och värdepar i en tabell, det gör det möjligt för agenten att generalisera värdet på tillstånd som det aldrig har sett förut, eller har delvis information om, genom att använda värdena i liknande tillstånd," MacKenzie säger.

"Mycket av de spännande framstegen inom djup förstärkningsinlärning har skett på grund av den neurala nätverkens starka förmåga att generalisera över enorma statliga utrymmen." Och MacKenzie konstaterar att djup förstärkningslärande har använts i program som har slagit några av de bästa mänskliga konkurrenterna. i spel som Schack och Go, och är också ansvariga för många av framstegen inom robotik. (Läs 7 kvinnliga ledare inom AI, maskininlärning och robotik.)

Bailey håller med och lägger till, "Tidigare i år slog en AI-agent med namnet AlphaStar världens bästa StarCraft II-spelare - och det är särskilt intressant eftersom till skillnad från spel som Chess och Go vet spelare i StarCraft inte vad deras motståndare gör." Istället säger han att de var tvungna att göra en initial strategi och sedan anpassa sig när de fick reda på vad deras motståndare planerade.

Men hur är det till och med möjligt? Om en modell har ett neuralt nätverk på mer än fem lager, säger Hameed att den har förmågan att tillgodose högdimensionell data. "På grund av detta kan modellen lära sig att identifiera mönster på egen hand utan att ha en mänsklig ingenjör att räkna och välja de variabler som ska matas in i modellen för att lära sig," förklarar han.

I öppna scenarier kan du verkligen se skönheten i inlärning av djup förstärkning. Taly använder exemplet med att boka bord på en restaurang eller göra en beställning för en artikel - situationer där agenten måste svara på alla inmatningar från andra änden.

"Djupt förstärkningsinlärning kan användas för att utbilda en konversationsagent direkt från ljudsignalen från den andra änden," säger han. "Vid användning av en ljudsignal kan agenten också lära sig att plocka upp subtila signaler i ljudet som pauser, intonation, et cetera - detta är kraften i djup förstärkningslärande."

Och nya tillämpningar av djup förstärkningsinlärning fortsätter att dyka upp. När MacKenzie bestämmer den näst bästa åtgärden för att samverka med en kund, säger "staten och åtgärderna kan inkludera alla kombinationer av produkter, erbjudanden och meddelanden över alla olika kanaler, var och en är personifierad - formulering, bilder, färger, teckensnitt."

Ett annat exempel är optimering av leveranskedjan, till exempel leverans av förgängliga produkter över hela USA. ”De möjliga tillstånden inkluderar den aktuella platsen för alla olika typer av transporter, inventeringen i alla anläggningar, lager och butiker och efterfrågan på prognos för alla butikerna, säger MacKenzie.

"Att använda djup inlärning för att representera tillstånd och handlingsutrymme gör det möjligt för agenten att fatta bättre logistiska beslut som resulterar i snabbare transporter till en lägre kostnad."