Feature Selection là gì? A-Z về lựa chọn đặc trưng trong ML

Feature Selection, hay lựa chọn đặc trưng, là một kỹ thuật nền tảng trong quy trình xây dựng mô hình Học máy hiệu quả. Nó tập trung vào việc giảm thiểu số lượng biến đầu vào, đảm bảo chỉ những biến có ý nghĩa nhất được giữ lại. Việc loại bỏ các đặc trưng không cần thiết giúp cải thiện hiệu năng tính toán, tăng độ chính xác và làm cho mô hình dễ hiểu hơn. Hãy cùng tìm hiểu bản chất của Feature Selection, các cách tiếp cận có giám sát và không giám sát, cũng như những lợi ích thiết thực mà nó đem lại.

Feature Selection trong Học máy

Feature Selection (còn gọi là Lựa chọn đặc trưng hay Chọn lọc đặc trưng) được định nghĩa là quy trình lựa chọn ra một tập hợp con tối ưu gồm các đặc trưng (features) thiết yếu và liên quan nhất từ bộ dữ liệu ban đầu. Quá trình này có thể được thực hiện tự động hoặc thủ công, với mục tiêu cốt lõi là xây dựng nên những mô hình Machine Learning (Học máy) hoạt động hiệu quả hơn.

Một điểm quan trọng cần nhấn mạnh là Feature Selection không tạo ra các đặc trưng mới hay thay đổi cấu trúc của những đặc trưng đang tồn tại. Thay vào đó, trọng tâm của kỹ thuật này là giảm số lượng đặc trưng đầu vào. Điều này đạt được thông qua việc nhận diện và loại trừ các đặc trưng được xem là không liên quan (irrelevant) hoặc cung cấp thông tin trùng lặp (redundant), từ đó chỉ giữ lại những thông tin thực sự cốt lõi và giá trị cho mô hình.

Để dễ hình dung, hãy xem xét việc bạn sở hữu một thùng đồ nghề rất lớn với đủ loại dụng cụ. Feature Selection tương tự như hành động bạn lựa chọn cẩn thận chỉ những dụng cụ thiết yếu và phù hợp nhất cho công việc cụ thể mà bạn sắp thực hiện. Việc này giúp quá trình làm việc của bạn trở nên hiệu quả và tập trung hơn.

Tổng quan về các Phương pháp Feature Selection Có Giám Sát

Trong các bài toán học có giám sát (supervised learning), việc lựa chọn đặc trưng (Feature Selection) tận dụng thông tin từ biến mục tiêu (target variable) để xác định đâu là những đặc trưng quan trọng nhất. Bởi vì các đặc trưng của dữ liệu đã được định nghĩa sẵn, nhiệm vụ chính là xác định xem biến đầu vào nào có ảnh hưởng trực tiếp và mạnh mẽ nhất đến biến mục tiêu. Mối tương quan (correlation) giữa đặc trưng đầu vào và biến mục tiêu là tiêu chí hàng đầu được sử dụng để đánh giá tầm quan trọng của các đặc trưng.

Các phương pháp lựa chọn đặc trưng có giám sát thường được phân thành các nhóm chính sau:

Phương pháp Lọc (Filter Methods)
Phương pháp Bao bọc (Wrapper Methods)
Phương pháp Nhúng (Embedded Methods)
Phương pháp Kết hợp (Hybrid Methods): Là sự phối hợp của hai hay nhiều phương pháp lựa chọn đặc trưng có giám sát khác nhau.

Kỹ thuật Lọc (Filter Methods): Đánh giá Đặc trưng dựa trên Thống kê

Phương pháp Lọc (Filter Methods) bao gồm một nhóm các kỹ thuật lựa chọn đặc trưng hoạt động chỉ dựa trên các đặc tính nội tại của dữ liệu và không trực tiếp xem xét đến việc tối ưu hóa hiệu suất của một mô hình học máy cụ thể. Các biến đầu vào được đánh giá một cách độc lập so với biến mục tiêu, nhằm mục đích xác định những biến nào thể hiện mối tương quan cao nhất với biến mục tiêu đó. Những phương pháp kiểm tra từng đặc trưng riêng lẻ như thế này được gọi là các phương pháp lựa chọn đặc trưng đơn biến (univariate).

Thường được áp dụng như một bước tiền xử lý dữ liệu (data preprocessing), các phương pháp lọc là những thuật toán lựa chọn đặc trưng nhanh chóng và hiệu quả về mặt tính toán. Chúng tỏ ra đặc biệt mạnh mẽ trong việc giảm thiểu sự dư thừa thông tin và loại bỏ các đặc trưng không liên quan ra khỏi bộ dữ liệu. Nhiều phép kiểm tra thống kê khác nhau được sử dụng để "chấm điểm" cho từng biến đầu vào dựa trên mức độ tương quan của nó với biến mục tiêu. Tuy nhiên, cần lưu ý rằng các phương pháp khác (như Bao bọc hay Nhúng) thường dự đoán tốt hơn về hiệu suất cuối cùng của mô hình.

Dưới đây là một số phương pháp lọc phổ biến, thường có sẵn trong các thư viện học máy như Scikit-Learn (Sklearn):

Độ tăng thông tin (Information Gain): Đo lường mức độ giảm của entropy (mức độ hỗn loạn) trong biến mục tiêu khi biết giá trị của một đặc trưng. Nó cho thấy tầm quan trọng của việc có hay không có đặc trưng đó trong việc xác định biến mục tiêu.
Thông tin tương hỗ (Mutual Information): Đánh giá mức độ phụ thuộc thống kê giữa hai biến, đo lường lượng thông tin mà biến này cung cấp về biến kia.
Kiểm định Chi-bình phương (Chi-square Test): Ước lượng mối quan hệ giữa hai biến phân loại (categorical) bằng cách so sánh tần suất quan sát thực tế với tần suất kỳ vọng nếu hai biến độc lập.
Điểm Fisher (Fisher's Score): Sử dụng đạo hàm để tính toán tầm quan trọng tương đối của từng đặc trưng trong việc phân tách các lớp dữ liệu. Điểm số cao hơn biểu thị mức độ ảnh hưởng lớn hơn.
Hệ số tương quan Pearson (Pearson's Correlation Coefficient): Đo lường mối quan hệ tuyến tính giữa hai biến liên tục (continuous), cho ra điểm số trong khoảng từ -1 (tương quan nghịch hoàn hảo) đến 1 (tương quan thuận hoàn hảo).
Ngưỡng phương sai (Variance Threshold): Loại bỏ tất cả các đặc trưng có phương sai (variance) thấp hơn một ngưỡng tối thiểu đã định. Ý tưởng là các đặc trưng có phương sai lớn hơn thường chứa nhiều thông tin hữu ích hơn.
Tỷ lệ giá trị thiếu (Missing Value Ratio): Tính toán phần trăm số lượng mẫu trong bộ dữ liệu mà một đặc trưng cụ thể bị thiếu giá trị (missing) hoặc có giá trị rỗng (null). Đặc trưng có tỷ lệ thiếu quá cao có thể bị loại bỏ.
Tỷ lệ phân tán (Dispersion Ratio): Là tỷ số giữa phương sai và giá trị trung bình của một đặc trưng. Mức độ phân tán cao hơn thường cho thấy đặc trưng đó chứa nhiều thông tin hơn.
Phân tích phương sai (ANOVA - Analysis of Variance): Xác định xem liệu các giá trị khác nhau (các nhóm) của một đặc trưng (thường là biến phân loại) có ảnh hưởng đáng kể đến giá trị trung bình của biến mục tiêu (thường là biến liên tục) hay không.

Kỹ thuật Feature Selection dạng Bao bọc (Wrapper Methods)

Các phương pháp bao bọc (Wrapper methods) hoạt động bằng cách huấn luyện mô hình học máy nhiều lần với các tập hợp con đặc trưng khác nhau. Trong mỗi vòng lặp, thuật toán sẽ thử thêm vào hoặc loại bỏ đi một số đặc trưng và đánh giá hiệu suất mô hình dựa trên sự thay đổi đó. Mục tiêu cuối cùng của mọi phương pháp bao bọc là xác định được bộ đặc trưng mang lại hiệu suất tốt nhất cho mô hình.

Những phương pháp bao bọc mà thử nghiệm mọi tổ hợp đặc trưng khả thi thường được gọi là các thuật toán tham lam (greedy algorithms). Cách tiếp cận này đòi hỏi tài nguyên tính toán lớn và tốn nhiều thời gian do phải tìm kiếm toàn diện bộ đặc trưng tối ưu nhất. Vì vậy, chúng phù hợp hơn với các tập dữ liệu có không gian đặc trưng (số lượng đặc trưng) không quá lớn.

Các nhà khoa học dữ liệu có thể thiết lập điều kiện dừng cho thuật toán, ví dụ như khi hiệu suất mô hình không còn cải thiện hoặc khi đã đạt được số lượng đặc trưng mục tiêu mong muốn.

Các kỹ thuật bao bọc phổ biến bao gồm:

Lựa chọn tiến (Forward Selection): Quy trình bắt đầu với một tập đặc trưng trống, sau đó lần lượt thêm từng đặc trưng mới vào cho đến khi tìm thấy bộ đặc trưng tối ưu. Việc lựa chọn dừng lại khi hiệu suất thuật toán không tăng thêm sau một vòng lặp nào đó.
Lựa chọn lùi (Backward Selection): Ngược lại với lựa chọn tiến, phương pháp này bắt đầu bằng việc huấn luyện mô hình với tất cả các đặc trưng ban đầu, rồi dần dần loại bỏ những đặc trưng ít quan trọng nhất.
Lựa chọn đặc trưng toàn diện (Exhaustive Feature Selection): Kỹ thuật này kiểm tra tất cả các tổ hợp đặc trưng có thể có để tìm ra bộ tối ưu nhất, dựa trên việc tối ưu hóa một chỉ số hiệu suất đã được xác định trước.
Loại bỏ đặc trưng đệ quy (Recursive Feature Elimination – RFE): Đây là một dạng của lựa chọn lùi, bắt đầu với toàn bộ không gian đặc trưng và ở mỗi vòng lặp, nó loại bỏ hoặc thêm đặc trưng dựa trên mức độ quan trọng tương đối của chúng đối với mô hình.
Loại bỏ đặc trưng đệ quy với kiểm tra chéo (Recursive Feature Elimination with Cross-Validation – RFE-CV): Là một biến thể của RFE, phương pháp này kết hợp thêm kiểm tra chéo (cross-validation) - thử nghiệm mô hình trên dữ liệu chưa từng thấy - để chọn ra bộ đặc trưng mang lại hiệu suất tốt nhất trên dữ liệu mới.

Kỹ thuật Feature Selection dạng Nhúng (Embedded Methods)

Các phương pháp nhúng (Embedded methods) thực hiện việc lựa chọn đặc trưng như một phần không thể tách rời của quá trình huấn luyện mô hình. Trong quá trình huấn luyện, mô hình sẽ tự động áp dụng các cơ chế khác nhau để nhận diện những đặc trưng có hiệu suất kém và loại bỏ chúng khỏi các vòng lặp huấn luyện tiếp theo.

Nhiều phương pháp nhúng dựa trên kỹ thuật điều chuẩn (regularization), áp dụng một hình phạt (penalty) lên các đặc trưng dựa vào một ngưỡng hệ số (coefficient threshold) được định trước. Các mô hình này thường đánh đổi một phần nhỏ độ chính xác trong quá trình huấn luyện để đạt được khả năng tổng quát hóa tốt hơn trên dữ liệu mới. Kết quả là mô hình có thể hoạt động kém hơn một chút trên tập huấn luyện, nhưng lại giảm thiểu được hiện tượng quá khớp (overfitting).

Các kỹ thuật nhúng phổ biến bao gồm:

Hồi quy LASSO (L1 Regression): Phương pháp này thêm một thành phần phạt vào hàm mất mát (loss function) đối với các hệ số tương quan có giá trị lớn, "ép" chúng tiến về giá trị 0. Những đặc trưng có hệ số bằng 0 sẽ bị loại bỏ khỏi mô hình.
Độ quan trọng của Rừng ngẫu nhiên (Random Forest Importance): Kỹ thuật này xây dựng hàng trăm cây quyết định (decision trees), mỗi cây sử dụng một tập hợp con ngẫu nhiên các điểm dữ liệu và đặc trưng. Độ quan trọng của mỗi đặc trưng được đánh giá dựa trên đóng góp của nó vào hiệu suất chung của toàn bộ rừng.
Tăng cường Gradient (Gradient Boosting): Phương pháp này xây dựng mô hình theo kiểu tuần tự, thêm các trình dự đoán (predictors) vào một bộ hợp nhất (ensemble). Ở mỗi vòng lặp, trình dự đoán mới sẽ tập trung sửa chữa những lỗi mà các trình dự đoán trước đó đã mắc phải, đồng thời có thể đánh giá và lựa chọn đặc trưng.

Feature Selection trong Học không giám sát: Các phương pháp chính

Trong bối cảnh học không giám sát (unsupervised learning), các mô hình phải tự mình khám phá các đặc trưng, khuôn mẫu và mối liên hệ tiềm ẩn trong dữ liệu mà không có biến mục tiêu (target variable) định trước. Do đó, không thể điều chỉnh các biến đầu vào dựa trên một đầu ra đã biết. Các phương pháp lựa chọn đặc trưng không giám sát sử dụng những kỹ thuật khác biệt để đơn giản hóa và tinh chỉnh không gian đặc trưng.

Một phương pháp lựa chọn đặc trưng không giám sát tiêu biểu là Phân tích thành phần chính (Principal Component Analysis - PCA). PCA giúp giảm độ phức tạp của các tập dữ liệu lớn bằng cách biến đổi tập hợp các biến ban đầu (có thể có tương quan với nhau) thành một tập hợp các biến mới, nhỏ hơn, gọi là các thành phần chính. Những thành phần chính này được thiết kế để giữ lại phần lớn thông tin quan trọng có trong bộ dữ liệu gốc. PCA rất hữu ích trong việc chống lại "lời nguyền chiều không gian" (curse of dimensionality) và giảm thiểu overfitting.

Các phương pháp không giám sát khác cũng được sử dụng bao gồm Phân tích thành phần độc lập (Independent Component Analysis - ICA) và Bộ mã hóa tự động (Autoencoders).

Tại sao Feature Selection lại quan trọng trong Học máy?

Việc áp dụng Feature Selection (Lựa chọn đặc trưng) vào quy trình học máy mang đến nhiều giá trị thực tiễn đáng kể. Những ưu điểm nổi bật nhất bao gồm việc làm cho mô hình đơn giản hơn, dễ diễn giải hơn, nâng cao hiệu suất dự đoán, rút ngắn đáng kể thời gian huấn luyện và hạn chế nguy cơ mô hình bị quá khớp (overfitting).

Mô hình đơn giản và dễ diễn giải hơn

Khi loại bỏ các đặc trưng không cần thiết hoặc dư thừa, cấu trúc của mô hình trở nên gọn gàng và ít phức tạp hơn. Một mô hình đơn giản thường dễ dàng hơn trong việc triển khai vào thực tế, cập nhật khi cần và gỡ lỗi nếu có sự cố, qua đó giúp giảm chi phí bảo trì hệ thống.

Với số lượng đặc trưng ít hơn, đặc biệt là khi những đặc trưng còn lại có ý nghĩa rõ ràng về mặt nghiệp vụ, việc hiểu cách mô hình đưa ra dự đoán trở nên dễ dàng hơn rất nhiều. Khả năng diễn giải (interpretability) này là yếu tố then chốt để xây dựng lòng tin của người dùng và các bên liên quan vào mô hình.

Nâng cao hiệu suất dự đoán của mô hình

Việc loại bỏ những đặc trưng gây nhiễu hoặc không có mối liên hệ thực sự với biến mục tiêu cho phép mô hình tập trung học hỏi từ các tín hiệu quan trọng và đáng tin cậy hơn trong dữ liệu. Điều này thường dẫn đến sự cải thiện về độ chính xác (accuracy) cũng như các chỉ số đánh giá hiệu suất khác.

Các đặc trưng dư thừa – những đặc trưng cung cấp thông tin tương tự nhau – cũng có thể được nhận diện và loại bỏ. Việc này giúp mô hình hoạt động ổn định hơn, tránh tình trạng phụ thuộc quá mức vào một nhóm thông tin cụ thể nào đó.

Rút ngắn thời gian huấn luyện và tiết kiệm chi phí tính toán

Huấn luyện một mô hình Machine Learning với số lượng đặc trưng ít hơn đồng nghĩa với việc cần thực hiện ít phép tính toán hơn. Kết quả là thời gian cần thiết cho quá trình huấn luyện được giảm đi đáng kể, tạo điều kiện thuận lợi để đẩy nhanh chu kỳ thử nghiệm và phát triển sản phẩm.

Bên cạnh đó, việc giảm số chiều dữ liệu còn giúp tiết kiệm tài nguyên phần cứng như bộ nhớ (RAM) và không gian lưu trữ. Lợi ích này càng trở nên rõ rệt khi làm việc với các tập dữ liệu có quy mô cực lớn (Big Data).

Hạn chế nguy cơ quá khớp (Overfitting)

Hiện tượng quá khớp (Overfitting) xảy ra khi mô hình trở nên quá phức tạp, đến mức nó học thuộc lòng cả những yếu tố nhiễu trong dữ liệu huấn luyện. Điều này khiến mô hình hoạt động kém hiệu quả khi gặp dữ liệu mới chưa từng thấy. Feature Selection giúp giảm độ phức tạp của mô hình thông qua việc giảm số lượng tham số cần học.

Một mô hình đơn giản hơn với ít đặc trưng hơn thường có khả năng khái quát hóa tốt hơn. Nghĩa là, nó có khả năng học được các quy luật tổng quát từ dữ liệu thay vì chỉ ghi nhớ các điểm dữ liệu cụ thể. Đây là một cách hiệu quả để giảm thiểu rủi ro overfitting.

Ưu điểm này đặc biệt quan trọng khi xử lý dữ liệu có số chiều cao (high-dimensional data), nơi mà "lời nguyền chiều không gian" (Curse of Dimensionality) làm tăng đáng kể nguy cơ overfitting. Feature Selection là một công cụ mạnh mẽ để giải quyết thách thức này.

Việc hiểu được phương pháp Feature Selection là gì và lựa chọn phương pháp phù hợp sẽ phụ thuộc vào đặc điểm của dữ liệu và mục tiêu của bài toán. Nếu biết cách áp dụng đúng các phương pháp lựa chọn đặc trưng, bạn sẽ có thể cải thiện đáng kể hiệu quả của mô hình Machine Learning, đặc biệt khi làm việc với các bộ dữ liệu phức tạp hoặc có chiều cao.

Xem chi tiết bài viết tại: Feature Selection là gì? A-Z về lựa chọn đặc trưng trong ML