Vilka är några viktiga sätt att automatisera och optimera datavetenskapliga processer? googletag.cmd.push (funktion () {googletag.display (div-gpt-ad-1562928221186-0);}); F:

Innehåll

F:

Vilka är några viktiga sätt att automatisera och optimera datavetenskapliga processer?

A:

Datavetenskapliga processer i fråga om maskininlärning och AI kan delas in i fyra distinkta faser:

datainsamling och utforskning,
modellbyggnad,
modellutplacering och
online utvärdering och förfining.

Utifrån min erfarenhet är de mest hindrande faserna datainsamling och modellinstallationsfaser i alla maskininlärningsbaserade datavetenskapsprocesser, och här är två sätt att optimera dem:

1. Upprätta en mycket tillgänglig datastore.

I de flesta organisationer lagras inte data på en central plats. Låt oss bara ta information relaterad till kunder. Du har kundkontaktinformation, kundsupport, kundåterkoppling och kundhistorik om ditt företag är en webbapplikation. All denna information är naturligt spridd, eftersom de tjänar olika syften. De kan finnas i olika databaser och vissa kan vara helt strukturerade och vissa ostrukturerade och kan till och med lagras som vanliga filer.

Tyvärr är spridningen i dessa datasätt starkt begränsande till datavetenskapligt arbete som grunden för alla NLP-, maskininlärnings- och AI-problem är data. Så att ha all denna information på ett ställe - datastore - är av största vikt för att påskynda modellutveckling och implementering. Med tanke på att detta är en avgörande del för alla datavetenskapliga processer, bör organisationer anställa kvalificerade dataingenjörer för att hjälpa dem att bygga sina datastores. Detta kan lätt börja som enkla datadumpar till en plats och långsamt växa till ett väl genomtänkt datalagringssätt, helt dokumenterat och ifrågasättande med verktyg för att exportera delmängder av data till olika format för olika ändamål.

2. Exponera dina modeller som en tjänst för sömlös integration.

Förutom att möjliggöra åtkomst till data är det också viktigt att kunna integrera de modeller som har utvecklats av datavetare i produkten. Det kan vara extremt svårt att integrera modeller utvecklade i Python med en webbapplikation som körs på Ruby. Dessutom kan modellerna ha en hel del databeroende som din produkt kanske inte kan tillhandahålla.

Ett sätt att hantera detta är att skapa en stark infrastruktur kring din modell och exponera precis tillräckligt med funktionalitet som din produkt behöver för att använda modellen som en "webbtjänst." , allt det borde behöva göra är att åberopa webbtjänsten, tillhandahålla relevant och tjänsten skulle ge tillbaka den lämpliga känsloklassificeringen som produkten direkt kan använda. På detta sätt är integrationen helt enkelt i form av ett API-samtal. Frikoppling av modellen och produkten som använder den gör det väldigt enkelt för nya produkter som du kommer med att också använda dessa modeller med lite krångel.

Nu är det en helt annan historia att installera infrastrukturen kring din modell och kräver en tung initial investering från dina ingenjörsteam. När infrastrukturen väl är där handlar det bara om att bygga modeller på ett sätt som passar in i infrastrukturen.