Feature Scaling (Chuẩn
hóa dữ liệu)
chuc1803@gmail.com,
bis.net.vn
Trong khi triển khai các
mô hình phân tích, dự báo, có một vấn đề là các đặc trưng của dữ liệu được thu
thập khác nhau về đơn vị đo (ví dụ như m và feet) hoặc sử dụng các thang đo
khác nhau (ví dụ như điểm toán trong thang đo 10, điểm Anh trong thang đo 100)
hoặc thậm chí khoảng biến thiên (range= max-min) của các cột dữ liệu rất khác
nhau (như tuổi với lương)… đó là các lý do chúng ta phải chuẩn hóa dữ liệu trước
khi triển khai các mô hình dự báo.
Feature Scaling là một bước
quan trọng trong quá trình tiền xử lý dữ liệu, nhằm chuyển các đặc trưng định
lượng (number) về cùng một thang đo chung, giúp cho việc biểu diễn dữ liệu dễ
dàng và các mô hình phân tích nhất là các mô hình học máy (machine learning) hoạt
động hiệu quả hơn.
Có lại loại chuẩn hóa dữ
liệu thường dùng đó là Standardization và Normalization
Thực
hiện trong Python