- HM5: Mô hình giả thuyết không nhất quán và định lý hội tụ đều Vapnik-Chervonenkis
- HM7: AdaBoost
Trong bài HM 5, ta đã giới thiệu mô hình giả thuyết không nhất quán và chứng minh định lý hội tụ đều của Vapnik và Chervonenkis. Đây là một trong những định lý cơ bản nhất của lý thuyết học máy thống kê. Ta gọi tắt nó là định lý VC. Định lý VC chặn trên lỗi tổng quát hóa bằng lỗi thực nghiệm và độ phức tạp VC (hay VC dimension) của lớp giả thuyết. Trong bài này, ta chứng minh một kết quả tổng quát hơn định lý VC. Ta sẽ chặn trên lỗi tổng quát hóa bằng lỗi thực nghiệm và cái gọi là độ phức tạp Rademacher. Định lý VC là một hệ quả trực tiếp của chặn trên dùng độ phức tạp Rademacher này. Chứng minh kết quả này cũng trực quan hơn rất nhiều so với chứng minh định lý VC trong bài trước. Bạn có thể quên luôn chứng minh của bài trước đi. Ngoài ra, ta sẽ dùng kết quả của bài này để phân tích thuật toán AdaBoost thảo luận trong bài tới. Phần lớn bài này viết theo bài giảng số 3 của Mehryar Mohri ở NYU.
1. Độ phức tạp Rademacher
Gọi là một họ các hàm từ một miền
nào đó vào đoạn
. Trong các ứng dụng thì
hay
. Gọi
là một phân bố xác suất trên miền
. Phân bố này sẽ được hiểu ngầm trong các phát biểu xác suất dưới đây, để tránh ký hiệu lằng nhằng quá.
Gọi là một tập
phần tử bất kỳ của
. Độ phức tạp Rademacher thực nghiệm (của
, tính tương đối theo
) được định nghĩa là
Trong đó, là một vector của các biến Rademacher:
với xác suất
.
Nếu là họ các hàm phân loại (classifiers), mỗi hàm lấy giá trị
, thì độ phức tạp Rademacher thực nghiệm có thể hiểu nôm na như sau. Ta gán giá trị
ngẫu nhiên vào
điểm của
. Rồi tính trung bình xem cái hàm phân loại tốt nhất của
phân loại đúng được bao nhiêu. Ví dụ, nếu
là một tập các hàm rất hùng mạnh, với bất kỳ cách gán
nào vào
cũng tồn tại hàm
gán nhãn chính xác, thì độ phức tạp Rademacher bằng
. Ta chia độ phức tạp cho
là để “bình thường hóa” số đo này cho nó không phụ thuộc vào số mẫu.
Độ phức tạp Rademacher của là trị kỳ vọng của độ phức tạp Rademacher thực nghiệm:
Quan sát đầu tiên của ta liên hệ độ phức tạp Rademacher của một bộ hàm phân loại và bộ hàm mất mát (loss functions) tương ứng. Cụ thể hơn, gọi là một bộ các hàm
. Mỗi hàm của
là một hàm phân loại nhị phân. Từ giờ trở đi ta dùng các nhãn
thay vì nhãn
cho tiện về mặt toán học. Đặt
. Như vậy các phần tử
có dạng
với
và
. Xét một phân bố
trên
tùy hỉ. Định nghĩa một họ hàm
từ
vào
như sau. Với mỗi
, định nghĩa
.
Bổ đề 1 Ta có
Chứng minh: Hai đẳng thức đầu tiên là định nghĩa. Đẳng thức thứ tư là hệ quả trực tiếp của đẳng thức thứ ba. Ta chứng minh đẳng thức thứ ba.
Đẳng thức thứ tư ta dùng quan sát đơn giản là có phân bố giống hệt
và các
độc lập nhau.
Độ phức tạp Rademacher liên quan đến VC-dimension như thế nào? Massart hồi 2000 cho ta câu trả lời. Ta sẽ chứng minh bổ đề sau ở cuối bài, sau khi đã làm quen hơn với độ phức tạp Rademacher.
Bổ đề 2 Gọi
là một bộ các hàm số vào
. Với
là một tập
mẫu bất kỳ, ta có
Và do đó,
Trong đó
là VC-dimension của
.
Dùng cái gọi là độ phức tạp Gaussian, Bartlett và Mendelson chứng minh một chặn khác chặt hơn nữa: , và vì thế
. Ta sẽ quay lại với Gaussian complexity vào dịp khác.
2. Các chặn cho độ phức tạp Rademacher
Kết quả chính của đề mục này là từ một bài báo của Koltchinskii và Panchenko hồi năm 2002. Các bác cựu Liên Xô ngố rất giỏi mấy trò này. Dùng Liên Xô ngố chứ không phải Nga ngố là vì bác Vladimir Koltchinskii tốt nghiệp đại học Kiev. Còn Dmitry Panchenko là học trò của Koltchinskii.
Để chứng minh kết quả chính này ta cần bất đẳng thức McDiarmid của Colin McDiarmid. BĐT này khá dễ nhớ và dễ dùng.
Định lý 3 (BĐT McDiarmid) Xét
biến ngẫu nhiên độc lập
trên một miền
nào đó, và một hàm số
. Hàm số
thỏa điều kiện là thay đổi tọa độ thứ
thì chỉ thay đổi giá trị của
nhiều nhất là
. Cụ thể hơn, với mọi
,
ta có
Thì với mọi
ta có
và
Định lý 4 (Koltchinskii-Panchenko) Gọi
là một bộ các hàm từ miền
vào
. Với mọi
, với xác suất ít nhất là
bất đẳng thức sau đây đúng với mọi
,
Với mọi
, với xác suất ít nhất là
bất đẳng thức sau đây đúng với mọi
,
Chứng minh: Để đơn giản hóa ký hiệu, ta định nghĩa
Để chứng minh (1), ta cần chứng minh rằng với xác suất cao. Để chứng minh điều này thì ta chứng minh
, sau đó áp dụng bất đẳng thức McDiarmid vào hàm số
. Nói chung, chìa khóa của toàn bộ định lý là chứng minh quan hệ
bằng kỹ thuật “đối xứng hóa”.
Lưu ý rằng Ta có
Đẳng thức ở dòng thứ là một dạng “đối xứng hóa” (symmetrization) đơn giản: sau khi lấy các mẫu
ta có thể hoán chuyển
và
từ
sang
và ngược lại. Do
và
là các mẫu độc lập, sự hoán chuyển này không thay đổi phân bố của chúng.
Bây giờ ta áp dụng bất đẳng thức McDiarmid vào hàm . Khi thay một điểm
bằng
nào đó, giá trị của hàm
thay đổi nhiều nhất là
. Do đó, từ bất đẳng thức McDiarmid ta có
với xác suất ít nhất là . Đó là chứng minh (1).
Để chứng minh (2) thì ta lại áp dụng McDiarmid một lần nữa. Lần này là với hàm số . Trước hết, McDiarmid như lần 1 cho ta
. Rồi từ bất đẳng thức vừa chứng minh, ta có
. Khi thay
chỉ một mẫu thì
thay đổi nhiều nhất là
. Do đó, với xác suất ít nhất
ta có
3. Một số hệ quả của chặn độ phức tạp Rademacher
Từ Bổ đề 1 và Định lý 4, ta có hệ quả sau đây.
Hệ quả 5 Gọi
là một họ các hàm phân lớp từ
vào
. Thì với mọi
, với xác suất ít nhất
ta có
Chặn thứ 2 chỉ phụ thuộc vào dữ liệu, do đó có khả năng hữu dụng trong việc chọn mô hình phân lớp, giúp giải quyết vấn đề model selection. Vấn đề là làm thế nào để tính độ phức tạp Rademacher một cách hiệu quả, chưa nói đến việc chọn một hàm với
lớn nhất. Bài này khó tương đương với bài toán tối thiểu hóa lỗi thực nghiệm (ERM), và nói chung là
-khó. Câu hỏi tự nhiên là, có một “độ phức tạp” nào hữu dụng và dễ tính hơn không?
Từ hệ quả trên và Bổ đề 2 ta có định lý VC. Vậy ta chứnh minh bổ đề 2. Nhưng ta sẽ chứng minh một bổ đề còn tổng quát hơn Bổ đề 2, gọi là Bổ đề Massart. Mấy cái mẹo dùng trong chứng minh bổ đề Massart rất phổ dụng trong các chứng minh hiện tượng tập trung (concentration inequalities).
Bổ đề 6 (Bổ đề Massart) Xét một tập con hữu hạn
, với
. Ta có
Chứng minh: Ta dùng cái mẹo Bernstein, còn gọi là phương pháp mô-măng mũ (exponential moment method). Do hàm mũ là hàm lồi, bất đẳng thức Jensen suy ra, với ta có
Đến đây, ta dùng một bất đẳng thức tạm gọi là bất đẳng thức Hoeffding nhỏ, thường dùng làm bước chính trong chứng minh BĐT Hoeffding (lớn). BĐT Hoeffding nhỏ phát biểu như sau: nếu là một biến ngẫu nhiên với
và
thì, với mọi
ta có
. Chứng minh BĐT này rất đơn giản. (Xem ở đây chẳng hạn.) Từ BĐT Hoeffding nhỏ ta có
Như vậy,
Lấy hai vế, với mọi
ta có
Chọn để giảm thiểu vế phải là hoàn tất toàn bộ chứng minh.
Bài tập: chứng minh Bổ đề 2 từ Bổ đề Massart.
