Phân loại dựa trên biên (margin) đã phổ biến trong cả học máy và thống kê cho các bài toán phân loại. Trong số rất nhiều bộ phân loại, một số là hard classifier trong khi một số là soft classifier. Soft classifier ước tính một cách rõ ràng xác suất điều kiện của lớp và sau đó thực hiện phân loại dựa trên xác suất ước tính. Ngược lại, hard classifier nhắm trực tiếp vào ranh giới quyết định phân loại mà không tạo ra ước tính xác suất. Hai loại bộ phân loại này dựa trên các triết lý khác nhau và mỗi loại đều có ưu điểm riêng.
Phân loại là một công cụ thống kê rất hữu ích để trích xuất thông tin từ dữ liệu. Là một kỹ thuật học có giám sát, mục tiêu của phân loại là xây dựng một quy tắc phân loại dựa trên một tập huấn luyện, nơi cung cấp cả biến giải thích và nhãn lớp. Sau khi thu được, quy tắc phân loại có thể được sử dụng để dự đoán lớp của các đối tượng mới có sẵn biến giải thích.
Có một lượng lớn tài liệu về các phương pháp phân loại khác nhau, từ các phương pháp rất cổ điển như phân tích phân biệt tuyến tính Fisher (LDA) và hồi quy logistic, đến các phương pháp dựa trên học máy gần đây như Máy vectơ hỗ trợ (SVM) và Boosting. Trong số các phương pháp phân loại khác nhau, có hai nhóm phương pháp chính: phân loại soft và hard. Khái niệm về phân loại soft và hard giống như định nghĩa trong Wahba (1998) và Wahba (2002). Cụ thể, một quy tắc phân loại soft thường ước tính rõ ràng xác suất điều kiện của lớp và sau đó đưa ra dự đoán lớp dựa trên xác suất ước tính lớn nhất. Ngược lại, phân loại hard bỏ qua yêu cầu ước tính xác suất lớp và trực tiếp ước tính ranh giới phân loại. Các soft classifier điển hình bao gồm một số phương pháp dựa trên khả năng phân phối truyền thống như LDA và hồi quy logistic. Mặt khác, một số phương pháp dựa trên biên như SVM, nói chung không có giả định phân phối, thuộc nhóm các phương pháp phân loại hard.
Đối với một nhiệm vụ phân loại cụ thể, một câu hỏi tự nhiên được đặt ra là nên sử dụng loại bộ phân loại nào? Mặc dù có sẵn một số lượng lớn các bộ phân loại, nhưng thông thường, không có phương pháp nào hoạt động tốt nhất cho tất cả các vấn đề. Việc lựa chọn bộ phân loại thực sự phụ thuộc vào bản chất của tập dữ liệu và mục tiêu học tập chính. Wahba (2002) đã cung cấp một số hiểu biết về phân loại soft so với hard. Đặc biệt, bà đã chứng minh rằng hồi quy logistic bị phạt (PLR) và SVM đều có thể được đưa vào các bài toán tối ưu hóa trong Không gian Hilbert nhân tái tạo (RKHS). Tuy nhiên, sự lựa chọn giữa PLR và SVM cho nhiều vấn đề thực tế là không rõ ràng. Những tiến bộ nhanh chóng gần đây trong phân tích dữ liệu thống kê chiều cao cũng làm sáng tỏ vấn đề này. Với lượng lớn dữ liệu có chiều cao và kích thước mẫu thấp (HDLSS) có sẵn, các kỹ thuật thống kê hiệu quả để phân tích dữ liệu HDLSS trở nên cấp bách hơn. Các kỹ thuật truyền thống như LDA thậm chí không thể được tính toán trực tiếp khi chiều lớn hơn kích thước mẫu. Cần phải có một số phép biến đổi hoặc giảm chiều để áp dụng LDA. Các phương pháp dựa trên biên như SVM cung cấp một cái nhìn hoàn toàn khác so với các phương pháp dựa trên khả năng. Ví dụ, SVM không có bất kỳ giả định phân phối nào và chỉ tập trung vào ranh giới quyết định. Nó có thể được triển khai hiệu quả cho dữ liệu HDLSS và đã đạt được thành công lớn trong nhiều ứng dụng. Gần đây, Marron et al. (2007) đã chỉ ra rằng SVM có hiện tượng “chồng chất dữ liệu” trong cài đặt HDLSS do mất bản lề không thể phân biệt của nó. Cụ thể, khi chúng ta chiếu dữ liệu huấn luyện lên vectơ chuẩn của siêu phẳng phân tách cho SVM tuyến tính trong các bài toán có chiều cao, nhiều phép chiếu là giống nhau. Họ đã đề xuất một biến thể SVM, cụ thể là phân tích phân biệt khoảng cách (DWD), không có vấn đề chồng chất dữ liệu.
Giữa hai loại bộ phân loại, phân loại soft cung cấp nhiều thông tin hơn phân loại hard và do đó, nó là mong muốn trong một số tình huống nhất định, nơi thông tin xác suất hữu ích. Tuy nhiên, nếu hàm xác suất lớp khó ước tính trong một số bài toán phức tạp, thì phân loại hard có thể tạo ra các bộ phân loại chính xác hơn bằng cách chỉ nhắm vào ranh giới phân loại. Trong thực tế, rất khó để lựa chọn giữa hard classifier và soft classifier, và do đó, sẽ rất lý tưởng để kết nối chúng vì mỗi loại đều có điểm mạnh riêng.
Các soft classifier có xu hướng hoạt động tốt hơn khi hàm xác suất lớp điều kiện cơ bản tương đối trơn tru; hoặc khi mức tín hiệu lớp tương đối yếu. Ngược lại, hard classifier có xu hướng hoạt động tốt hơn khi hàm xác suất lớp điều kiện cơ bản tương đối không trơn tru; hoặc khi hai lớp gần có thể phân tách, tức là mức tín hiệu lớp tương đối mạnh; hoặc khi chiều tương đối lớn so với kích thước mẫu.