Normalisering används för att eliminera redundant data och säkerställer att kluster av god kvalitet genereras som kan förbättra effektiviteten hos klustringsalgoritmer. Så det blir ett viktigt steg innan klustring som euklidiskt avstånd är mycket känslig för förändringarna i skillnaderna[3].
Behöver vi normalisera data för K-means-klustring?
Som i k-NN-metoden måste de egenskaper som används för klustring mätas i jämförbara enheter. I det här fallet är enheter inte ett problem eftersom alla 6 egenskaperna uttrycks på en 5-gradig skala. Normalisering eller standardisering är inte nödvändig.
Hur förbereder du data innan klustring?
Dataförberedelse
För att utföra en klusteranalys i R bör data i allmänhet förberedas enligt följande: Rader är observationer (individer) och kolumner är variabler. Eventuella saknade värden i data måste tas bort eller uppskattas. Datan måste standardiseras (dvs. skalas) för att göra variabler jämförbara.
Ska data skalas för klustring?
I klustring beräknar du likheten mellan två exempel genom att kombinera all funktionsdata för dessa exempel till ett numeriskt värde. Att kombinera funktionsdata kräver att data har samma skala.
Varför är det viktigt att normalisera funktioner före klustring?
Standardisering är ett viktigt steg för dataförbearbetning.
Som förklarat i detta dokument, minimerar k-medel felfunktionen med hjälp av Newton-algoritmen, dvs. en gradientbaserad optimeringsalgoritm. Normalisering av data förbättrar konvergensen av sådana algoritmer.