7 steg för att lära sig datainrinning och datavetenskap

Författare: Eugene Taylor
Skapelsedatum: 12 Augusti 2021
Uppdatera Datum: 22 Juni 2024
Anonim
7 steg för att lära sig datainrinning och datavetenskap - Teknologi
7 steg för att lära sig datainrinning och datavetenskap - Teknologi

Innehåll


Källa: Paul Fleet / Dreamstime.com

Hämtmat:

Datavetenskap lärs bäst genom att göra, men också en bra grund för statistik och maskininlärning.

Jag blir ofta frågad om hur jag kan lära mig datavävling och datavetenskap. Här är min sammanfattning.

Du kan bäst lära dig data mining och data science genom att göra det, så börja analysera data så fort du kan! Glöm dock inte att lära dig teorin, eftersom du behöver en bra statistik och maskininlärningsgrund för att förstå vad du gör och för att hitta riktiga nuggets av värde i bullret från big data.

Här är sju steg för att lära sig data mining och data science. Även om de är numrerade kan du göra dem parallellt eller i en annan ordning.

  1. Språk: Lär dig R, Python och SQL
  2. Verktyg: Lär dig hur du använder data mining och visualiseringsverktyg
  3. böcker: Läs introduktionsböcker för att förstå grundläggande
  4. Utbildning: Titta på webbseminarier, ta kurser och överväga ett certifikat eller en examen i datavetenskap (Läs mer i Ben Loricas How To Nurture a Data Scientist.)
  5. Data: Kontrollera tillgängliga datakällor och hitta något där
  6. Tävlingar: Delta i data mining-tävlingar
  7. Interagera med andra datavetare via sociala nätverk, grupper och möten

I den här artikeln använder jag data mining och data science omväxlande. Se min presentation, Analytics Branschöversikt, där jag tittar på utvecklingen och populariteten för olika termer som statistik, kunskapsupptäckt, data mining, prediktiv analys, data science och big data.


1. Lära sig språk

En nyligen genomförd undersökning av KDnuggets fann att de mest populära språken för datalagring är R, Python och SQL. Det finns många resurser för varje, till exempel:

  • Gratis e-bok om datavetenskap med R
  • Komma igång med Python för datavetenskap
  • Python för dataanalys: smidiga verktyg för verkliga data
  • En oumbärlig Python: Datasourcing till datavetenskap
  • W3-skolor som lär sig SQL

2. Verktyg: Data Mining, Data Science och Visualization Software

Det finns många data mining-verktyg för olika uppgifter, men det är bäst att lära sig hur man använder en data mining-svit som stöder hela processen för dataanalys. Du kan börja med öppen källkod (gratis) verktyg som KNIME, RapidMiner och Weka.

Men för många analysjobb behöver du känna till SAS, som är det ledande kommersiella verktyget och används ofta. Andra populära mjukvaror för analys- och data mining inkluderar MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler och Rattle.


Inga buggar, ingen stress - din steg-för-steg-guide för att skapa livsförändrad programvara utan att förstöra ditt liv

Du kan inte förbättra dina programmeringsfärdigheter när ingen bryr sig om mjukvarukvalitet.

Visualisering är en väsentlig del av all dataanalys. Lär dig hur du använder Microsoft Excel (bra för många enklare uppgifter), R-grafik, (särskilt ggplot2), och även Tableau - ett utmärkt paket för visualisering. Andra bra visualiseringsverktyg inkluderar TIBCO Spotfire och Miner3D.

3. böcker

Det finns många data mining och data science-böcker, men du kan kontrollera dessa:

  • Databehandling och analys: Grundläggande koncept och algoritmer, gratis nedladdning av PDF (utkast), av Mohammed Zaki och Wagner Meira Jr.
  • Data Mining: Practical Machine Learning Tools and Techniques, av Ian Witten, Eibe Frank och Mark Hall, från författarna till Weka, och använder Weka i stor utsträckning i exempel
  • Elements of Statistical Learning, Data Mining, Inference and Prediction, av Trevor Hastie, Robert Tibshirani, Jerome Friedman. En bra introduktion för matematisk orienterade
  • LIONbook: Learning and Intelligent Optimization, av Roberto Battiti och Mauro Brunato, fritt tillgängliga på webben, kapitel för kapitel
  • Mining of Massive Datasets Book, av A. Rajaraman, J. Ullman
  • StatSoft elektronisk statistikbok (gratis), inkluderar många ämnen för datakommunikation

4. Utbildning: webbseminarier, kurser, certifikat och examina

Du kan börja med att titta på några av de många gratis webbseminarier och webbsändningar om senaste ämnen inom analys, big data, data mining och data science.

Det finns också många onlinekurser, korta och långa, många av dem gratis. (Se KDnuggets online-utbildningskatalog.)

Kontrollera särskilt dessa kurser:

  • Machine Learning, på Coursera, undervisat av Andrew Ng
  • Lärande av data vid edX, undervisat av Caltech-professorn Yaser Abu-Mostafa
  • Öppen onlinekurs i tillämpad datavetenskap, från Syracuse iSchool
  • Data Mining med Weka, gratis onlinekurs
  • Kolla också gratis online-bilder från min Data Mining Course, en semesters lång introduktionskurs i data mining

Slutligen kan du överväga att få certifikat inom data mining och datavetenskap eller avancerade grader, till exempel en magisterexamen i datavetenskap.

5. Data

Du behöver data för att analysera - se KDnuggets-katalogen med databaser för dataanläggning, inklusive:

  • Regerings-, federala, statliga, stads-, lokala och offentliga datasidor och portaler
  • Data API: er, nav, marknadsplatser, plattformar, portaler och sökmotorer
  • Gratis offentliga datasätt

6. Tävlingar

Återigen kommer du bäst att lära dig genom att göra, så delta i Kaggle-tävlingar. Börja med nybörjartävlingar, som att förutsäga Titanic Survival med maskininlärning.

7. Interagera: Möten, grupper och sociala nätverk

Du kan gå med i många gruppgrupper. Se de 30 bästa LinkedIn-grupperna för Analytics, Big Data, Data Mining och Data Science.

AnalyticBridge är en aktiv gemenskap för analys och datavetenskap.

Du kan delta i några av de många möten och konferenser om Analytics, Big Data, Data Mining, Data Science och Knowledge Discovery.

Överväg också att gå med i ACM SIGKDD, som organiserar den årliga KDD-konferensen - den ledande forskningskonferensen på området.

Den här artikeln är vass från KDNuggets.com. Det har använts med tillstånd från författaren.