Các bài trước:
Bayes chọi tần suất (3): vai trò của mô hình
Bayes chọi tần suất (2): suy diễn và thuật toán
Bayes chọi tần suất (1): một chút lịch sử
4. Hiệp 1: Ngẫu nhiên hay không ngẫu nhiên
Chúng ta đã dọn xong sàn đấu để cho Bayes và tần suất có thể tranh đo.
Ta đã đồng ý với nhau được điều này: Để có thể suy diễn ra được một cơ chế chân lý
từ dữ liệu
thì cần phải có chất kết dính giữa dữ liệu
và tham số
. Chất dính này được mô tả bằng một mô hình toán học thông qua ngôn ngữ xác suất. Mô hình dùng cho ta biết cơ chế sinh dữ liệu X nếu ta đã biết quy luật \theta. Mô hình được biểu diễn dưới dạng phân bố xác suất
. Chú ý rằng với cách nhìn này, biến
được coi là ngẫu nhiên; dữ liệu thu thập được trong thực tế được coi là realizations (hiện sinh) của
.
Như vậy, suy diễn thống kê là một dạng bài toán ngược (inverse problem). Nếu biết
rồi, làm sao truy ra được
. Dẫu đã đồng ý với nhau về vai trò của mô hình xác suất
, ta vẫn có thể bất đồng về bản chất của
. Sự bất đồng căn bản nhất giữa hai trường phái là thế này:
Với trường phái Bayes, tham số
là một biến ngẫu nhiên lấy giá trị trong tập hợp
nào đấy. Với trường phái tần suất, tham số
nằm trong tập hợp
, mà ta có thể không biết giá trị chính xác của nó, nhưng dứt khoát rằng
không phải là biến ngẫu nhiên.
Suy diễn tần suất, do đó, đòi hỏi xác định giá trị đúng của
trên cơ sở những dữ liệu quan sát được (mẫu của
). Với suy diễn Bayes, vì
là ngẫu nhiên, câu hỏi xác định giá trị của
là vô nghĩa. Thay vào đó, ta cần phải tìm được hàm phân bố của
trên cơ sở dữ liệu quan sát được
.
Từ sự khác biệt căn bản này dẫn đến những cách biệt bất ngờ, đôi khi rất đáng kể, về cách chúng ta suy diễn từ dữ liệu, trong ứng dụng cụ thể và cả trong triết lý khái quát. Ta sẽ nói dần về những cách biệt này ở các bài sau.
Nếu chỉ tạm dừng ở mức độ khác nhau về mặt định nghĩa, liệu ta đã có thể kết luận được điều gì chưa? Ai đúng, ai sai? Giữa ông Bayes và ông tần suất, ai sẽ là người tôi thích, ai là người bạn sẽ khăn gói theo đuổi trong hành trình tìm ra chân lý này?
Đây cũng là một thời điểm thích hợp để phân biệt sự khác nhau căn bản giữa một vấn đề suy diễn/ học thống kê (cụ thể như bài toán phân cụm, bài toán chia lớp, hay bài toán bà lão hàng xén tung đồng xu ở đường Kim Mã mà ta đã nêu ra ở loạt bài trước), với một vấn đề toán học thuần túy.
Nói nôm na, suy diễn = suy luận + diễn giải. Phần suy luận chính là phần toán học thuần túy, chắc chắn như 1+1 = 2 vậy. Nhưng phần diễn giải là cái mà người ta cãi nhau cả ngày không hết. Bởi vì, cứ cho rằng có một phân bố sinh dữ liệu
thực sự, thì chỉ có Trời mới biết chân lý
là ngẫu nhiên hay không ngẫu nhiên. Nêu ta đồng ý với nhau là
là không ngẫu nhiên, thì ta sẽ có một lý thuyết suy diễn tần suất nhất quán về mặt toán học. Nếu
được cho là ngẫu nhiên, thì ta lại có một lý thuyết suy diễn khác, lý thuyết suy diễn Bayes, cũng hoàn toàn nhất quán về mặt toán học. Nhưng rõ ràng là hai kết quả suy diễn của hai lý thuyết này là khác nhau:
Bà hàng xén ở đường Kim Mã, dùng lý thuyết tần suất, sau một thời gian quan sát sẽ cho bạn biết rằng: Sáng thứ hai lúc 7 giờ sáng ở trước cửa hàng tôi xác suất bị tắc đường khoảng
= 89%. Ngoài ra bà còn quả quyết rằng nếu quan sát thêm một thời gian nữa thì con số của bà sẽ càng chính xác. Ông bơm xe đạp cạnh đó, dùng lý thuyết Bayes, sau một thời gian quan sát sẽ cho bạn biết rằng: “Cái xác suất bị tắc đường
mà anh hỏi ấy, tôi cho là nó vẫn còn ngẫu nhiên lắm. Tin tôi đi, tôi ngồi chữa xe đạp ở đường này 2 năm rồi. Nhưng về mặt trung bình thì tôi tính rồi, khoảng 90%, phương sai trong khoảng 12%. Nếu anh muốn biết thêm các thông số khác về phân bố thì tôi cũng tính ra được…”
Tuy khác nhau, kết quả của hai trường phái nhiều khi vẫn có thể liên hệ được với nhau về mặt lý thuyết (toán học). Đôi khi dung hoà được với nhau, nhưng đôi khi thì lại không. Trên thực tế, kết quả suy diễn Bayes và tần suất thường đưa ra các kết quả không khác nhau là bao (khi ta cần so sánh những khái niệm có thể so sánh được, như giá trị
của bà hàng xén làm tần suất với giá trị trung bình của
của bác bơm xe làm Bayes.
Nhưng sự khác biệt của Bayes và tần suất lại dẫn đến những chú trọng khác nhau của người làm thống kê trong việc phát triển các kỹ năng suy diễn. Dân Bayes và dân theo tần suất thường có cái nhìn rất khác nhau về vai trò của dữ liệu và vai trò của tiên nghiệm, về tính chủ quan và khách quan, về vai trò mô hình và thuật toán, v.v.
Chúng ta sẽ thong thả nói về những liên hệ và những cách biệt này ở các bài tới.
Bài sau: 5. Hiệp 2: Khách quan và chủ quan