När ska man normalisera eller standardisera data?

När ska man normalisera eller standardisera data?
När ska man normalisera eller standardisera data?
Anonim

Normalisering är användbart när dina data har olika skalor och algoritmen du använder inte gör antaganden om distributionen av dina data, såsom k-närmaste grannar och artificiell neural nätverk. Standardisering förutsätter att din data har en Gaussisk (klockkurva) fördelning.

När ska vi normalisera data?

Datan bör normaliseras eller standardiseras för att få alla variabler i proportion till varandra. Till exempel, om en variabel är 100 gånger större än en annan (i genomsnitt), kan din modell fungera bättre om du normaliserar/standardiserar de två variablerna till att vara ungefär likvärdiga.

Vad är skillnaden mellan normalisering och standardisering?

Normalisering innebär vanligtvis omskalning av värdena till ett intervall på [0, 1]. Standardisering innebär vanligtvis omskalning av data till att ha ett medelvärde på 0 och en standardavvikelse på 1 (enhetsvarians).

När och varför behöver vi datanormalisering?

I enklare termer ser normalization till att all din data ser ut och läser på samma sätt i alla poster. Normalisering kommer att standardisera fält inklusive företagsnamn, kontaktnamn, webbadresser, adressinformation (gator, delstater och städer), telefonnummer och jobbtitlar.

Hur väljer du normalisering och standardisering?

I affärsvärlden betyder "normalisering" vanligtvis att värdeintervallet är"normaliserad till att vara från 0,0 till 1,0". "Standardisering" betyder vanligtvis att värdeintervallet är "standardiserat" för att mäta hur många standardavvikelser värdet är från dess medelvärde.