Mục lục.
1. Hội xu ngửa
2. Từ ngữ dùng để phỉ báng, xưa và nay
3. Đập đầu vào tường mãi, một trong hai thứ sẽ vỡ
4. Đồng hồ nguyên tử ở bệnh viện phụ sản
5. Bọn cướp biển và hiện tượng ấm toàn cầu
6. Shakespeare và một triệu con khỉ
7. Từ công ty đoán giá chứng khoán đến hợp tác xã đánh đề
8. Khi những con giun đất hiển linh
9. Vượt định kiến bằng Lăng Ba Vi Bộ
10. Được làm vua, thua làm … chú thích
- Hội xu ngửa.
Tương truyền rằng, nhà vua ở một vương quốc vĩ đại nọ rất yêu khoa học. Tên miền của vương quốc này là NN. Ông ta muốn tìm hiểu cơ động học của tiền xu vào những đêm nguyệt thực, vì đây là những đêm thiên địa dung hòa, vũ trụ tiết lộ bí mật của nó. Cứ mỗi lần nguyệt thực, ông yêu cầu mỗi người dân thảy một đồng xu xem nó sấp hay ngửa. Sau một thời gian, dân chúng cũng nhiễm tinh thần yêu chân lý của nhà vua, và họ đưa ra những mô hình dự đoán sấp ngửa. Ngưu tầm ngưu, mã tầm mã, mô hình tầm mô hình.
Hiệp hội mười đồng xu ngửa ra đời trong hoàn cảnh ấy. Mô hình dự đoán của hiệp hội này rất đơn giản: các đồng xu thảy trong một đêm nguyệt thực luôn ra mặt ngửa. Vương quốc nọ có khoảng 100 triệu dân. Hiệp hội mười đồng xu ngửa có trên dưới 100 nghìn thành viên. Họ có cả một website tên là “xungửa.còm” rất đông khách vãng lai. Tất cả các đồng xu thảy bởi 100 nghìn thành viên này trong 10 lần nguyệt thực gần đây nhất đều cho ra mặt ngửa, vị chi là 1 triệu đồng xu ngửa. Các trải nghiệm của họ hoàn toàn nhất quán với mô hình. Họ lý luận rằng xác suất mà cả một triệu đồng xu đều ngửa là một phần 2 lũy thừa một triệu. Mà 2 mũ 130 thôi đã nhiều hơn tổng số nguyên tử trên toàn vũ trụ rồi. Do đó lý thuyết của họ không thể nào sai!
Trời sinh cả Du lẫn Lượng. Song song với họ, còn có hiệp hội mười đồng xu úp, rồi điều tra census thường niên của nhà vua cho thấy còn có cả hiệp hội hiệp hội năm ngửa, năm sấp, hiệp hội sấp ngửa năm lần, hiệp hội sấp sấp ngửa ngửa sấp hai lần, và cỡ chừng 1019 hiệp hội khác. Các hiệp hội này tranh cãi nhau chí tử, sắp sửa bạo loạn đến nơi.
Ông vua nọ rất buồn, cố gắng đứng ra hòa giải. Phụng thiên thừa mệnh, hoàng đế chiếu rằng: đến 7 đêm nguyệt thực kế tiếp, tự thân vua sẽ thảy đồng xu, và hiệp hội nào đoán đúng cả 7 đồng xu sẽ là kẻ chiến thắng, hội trưởng sẽ được phong chức quốc sư, tiền tài quyền lực không bút nào tả xiết, kể cả các tay bút sừng sỏ nhất của Minh Biện (nghĩa là không sừng sỏ gì lắm). Nguyệt thực thì mỗi năm có từ 0 đến 3 lần, phải chờ đến 5 năm sau kết quả mới được công bố. Kết quả là: còn đến cả chục hiệp hội đoán đúng cả 7 đồng xu! Ông vua thấy thế buồn quá ngã vật ra chết lăn quay cù quày, ôm xuống tuyền tài cái mộng giải thích cơ động học đồng xu. Mặc dù chẳng hội nào chiếm được chức thái sư, kể từ ngày đó, các hiệp hội này danh tiếng nổi như cồn, trở thành các trường phái nghiên cứu môn cơ động học đồng xu đêm nguyệt thực mà hiện nay có rất nhiều môn đệ tử trên toàn thế giới.
- Từ ngữ dùng để phỉ báng, xưa và nay.
Đó là chuyện xưa. Ngày nay, ở một quốc gia khác với tên miền VN, cũng có nhiều môn phái lớn. Chỉ hơi khác là các mặt đồng xu ở quốc gia này được in nhiều thứ hơn là sấp/ngửa:
Đồng xu Ngửa Sấp 1 Mũi tẹt Mũi tẹt hơn 2 Làm cho Tuổi Trẻ Làm cho Thanh Niên 3 Thi Đại Học được ≥ 13.5 điểm (vừa đậu!) Thi Đại Học được < 13.5 điểm 4 Sinh ra trong gia đình khá giả Sinh ra trong gia đình nghèo 5 Bố mẹ cho genes tốt Bố mẹ không cho genes tốt 6 Sinh bên này vĩ tuyến 17 Sinh bên kia vĩ tuyến 17 7 Cao trên 1 mét 45 Cao dưới 1 mét 45 8 Vòng ngực trên 72cm Vòng ngực dưới 72cm 9 Cha mẹ đặt tên là Lê Văn Kiểm Cha mẹ đặt tên là Tăng Minh Phụng 10 … … Và hiệp hội mười xu ngửa trong quốc gia này có tên rất lạ là hiệp hội èo lít. Những người còn nhớ văn hóa vương quốc NN cổ xưa không thể hiểu được tại sao mười xu ngửa trong quốc gia VN lại được gọi là èo lít, chắc là cần thương hiệu mới vì sợ vi phạm tác quyền. Nhưng khác nhau chỉ về tên gọi, còn hiện tượng thì vẫn như ở NN: các hiệp hội vào In Tờ Lét phỉ nhau chí tử. Thậm chí thành viên các hiệp hội còn dùng những từ như “ngu”, “dốt”, “cộng sản”, “chống cộng Bolsa”, “hèn”, “đểu”, vân vân, để gọi nhau.
Hồi xưa ở vương quốc NN người ta hay chửi nhau: “mày là cái đồ sấp ngửa ngửa sấp sấp”.
- Đập đầu vào tường mãi, một trong hai thứ sẽ vỡ.
Trong vương quốc VH, xu ngửa = nhà xuất bản nhận in bản thảo, xu sấp = nhà xuất bản từ chối in bản thảo.
Năm 1995, một phụ nữ người Anh nộp bản thảo của mình và nhận được 12 đồng xu sấp liên tục. Thay vì gia nhập hội một tá xu sấp, bà ta thử thêm xu mười ba và lần này là xu ngửa từ nhà xuất bản Bloomsbury. Đồng xu ngửa này cũng xém nữa là sấp nếu không nhờ một cô bé 8 tuổi tên Alice Newton, con gái của giám đốc Bloomsbury, đã đọc chương một và đòi bố cho xem chương hai. Tuy nhận in, một biên tập viên của Bloomsbury gợi ý rằng phụ nữ nọ nên đi tìm việc khác vì viết sách trẻ em rất ít tiền. Người phụ nữ đó tên là Joanne Rowling. Bản thảo đánh trên máy đánh chữ có tựa đề “Harry Potter và hòn đá của Triết Gia”. Đồng xu ngửa số 13 biến Rowling thành người đầu tiên trong lịch sử thế giới trở thành tỉ phú tiền đô nhờ viết sách, và là người giàu thứ 1062 trên thế giới, theo tạp chí Forbes.
Chỉ trong phạm vi sách trẻ em, bản thảo quyển And To Think That I Saw It On Mulberry Street nhận được khoảng 27, 28 đồng xu sấp. Đó là bản thảo đầu tay của Theodor Seuss Geisel, được biết nhiều hơn qua cái tên Dr. Seuss. Phần còn lại là lịch sử. Trong top 100 các sách thiếu nhi bán chạy nhất mọi thời đại, 16 quyển là của Dr. Seuss. Ông viết khoảng 60 sách thiếu nhi, bán được cỡ 220 triệu bản.
Thế nhỡ những người như Rowling và Dr. Seuss gia nhập hội mười xu sấp hơi sớm một chút thì sao?
Một tác giả Mỹ đã nhận toàn xu sấp, và tự tử chết. Mẹ ông ta đem một bản thảo đến nhà văn Walker Percy và Percy giúp đem in. Bản thảo nọ là quyển A Confederacy of Dunces
. Tác giả đã chết tên là John Kennedy Toole. Năm 1981, tiểu thuyết này được có mỗi … giải Pulitzer.
Trong thế giới điện ảnh (ĐA), xu ngửa = phim có lời nhiều, xu sấp = phim lời ít. Các hội sấp ngửa tương tự như thế giới VH nhiều không kể xiết. Xem thêm The Drunkard’s Walk: How Randomness Rules Our Lives
có nhiều ví dụ.
- Các bệnh viện phụ sản có đồng hồ nguyên tử
Chiêm tinh học là một giáo phái xu ngửa có truyền thống vài nghìn năm. Các tín đồ tin rằng giờ/ngày/tháng/năm sinh và vị trí trăng sao có thể dùng để đoán vận mệnh, tính cách cá nhân và các sự kiện xã hội. Không ít nghiên cứu khoa học đã cho thấy chiêm tinh học đoán chính xác bằng với … đoán bừa, ví dụ xem mấy bài này trên tờ Nature và các tham khảo từ đó:
Shawn Carlson. “A double-blind test of astrology“. Nature, 318, 419 – 425 (05 December 1985).
John Maddox, Defending Science Against Anti-Science, Nature, 368:185, 1994.Hoặc gần đây hơn, các nhà khoa học đã ghi lại hành trình cá nhân của 2000 người sinh trong khoảng vài phút của nhau, hồi đầu tháng 3 năm 1958, mà theo chiêm tinh học thì họ sẽ có “số phận” tương tự. Họ đánh giá khoảng 100 đặc điểm, bao gồm chỉ số IQ, nghề nghiệp, sức khỏe tinh thần, khả năng nghệ thuật, toán học, khoa học, thể thao, khả năng đọc, viết, vân vân. Đây là tất cả các đặc điểm mà chiêm tinh học khẳng định có thể “đoán” dùng hồ sơ khai sinh. Kết quả là Chiêm Tinh Học hoàn toàn sai (uniformly negative).
Tín đồ chiêm tinh học cãi: “cách nhau vài phút là làm số phận khác nhau lắm rồi“. Thế nhưng nếu bạn đi xem chiêm tinh gia đoán số phận thì họ sẽ vui lòng lấy dữ liệu ngày giờ sinh rất không chính xác mà bạn đưa ra. Bạn có bao giờ đi một cái bệnh viện phụ sản mà ở đó có đồng hồ nguyên tử, hay đồng hồ caesium chưa? Mà đồng hồ nguyên tử cũng chỉ đúng đến 1 phần 10 mũ 10 giây thôi.
Vả lại, kể cả khi có đồng hồ nguyên tử thì tính giờ sinh từ lúc nào nhỉ? Ông bố đứng bên cạnh cầm đồng hồ (nguyên tử) quả lắc, nhăm nhăm thấy bà mụ vừa lấy con mình ra là … bấm ngay à? Nếu thò cái đầu ra thì có gọi là “ra đời” chưa? Nếu phải ra ngoài hẳn thì mới tính vào giờ sinh thì những đứa bé chết trong các ca sinh khó khăn là không có “số mệnh” à? Còn những đứa bé phải mổ thì tính giờ sinh thế nào?
Lý luận như trên của tín đồ chiêm tinh thuộc về vương quốc tất cả các đồng xu hai mặt đều ngửa. Đoán kiểu nào cũng đúng, bằng chứng ngược kiểu gì cũng sai. Trong vương quốc này, hiệu ứng Forer được thấy ở khắp nơi. Năm 1948, nhà tâm lý học Bertram R. Forer đưa cho sinh viên của ông một bộ câu hỏi xác định cá tính (personality test). Sau khi các sinh viên trả lời bộ câu hỏi xong, thì mỗi sinh viên nhận được một bản “đánh giá cá tính” dựa trên các câu trả lời của bản thân sinh viên họ. Mỗi sinh viên sẽ chấm điểm bản đánh giá cá tính của bản thân mình xem đúng hay sai, điểm từ 0 (hoàn toàn sai) đến 5 (hoàn toàn đúng). Các bản đánh giá cá tinh này được các sinh viên cho điểm trung bình 4.26: rất ấn tượng!
Chỉ có một vấn đề nhỏ: Ferer đã phát cho tất cả các sinh viên cùng một bản đánh giá cá tính mà ông chép lại từ các horoscopes. Bản đánh giá cá tính này có nội dung như sau:
You have a need for other people to like and admire you, and yet you tend to be critical of yourself. While you have some personality weaknesses you are generally able to compensate for them. You have considerable unused capacity that you have not turned to your advantage. Disciplined and self-controlled on the outside, you tend to be worrisome and insecure on the inside. At times you have serious doubts as to whether you have made the right decision or done the right thing. You prefer a certain amount of change and variety and become dissatisfied when hemmed in by restrictions and limitations. You also pride yourself as an independent thinker; and do not accept others’ statements without satisfactory proof. But you have found it unwise to be too frank in revealing yourself to others. At times you are extroverted, affable, and sociable, while at other times you are introverted, wary, and reserved. Some of your aspirations tend to be rather unrealistic.
Các chiêm tinh gia là các nhà tâm lý đại tài, nhưng khả năng dự đoán tương lai của họ thì bằng với khả năng bệnh viên phụ sản Từ Dũ có đồng hồ nguyên tử trên từng giường đẻ.
Vài chục năm trước, một người Tây Ban Nha trúng sổ số độc đắc. Chuỗi số độc đắc kết thúc bằng con số 48. Rất tự hào về “thành tựu” của mình, ông ta tiết lộ bí mật: “tôi nằm mơ thấy số 7 trong 7 đêm liền, mà 7 lần 7 là 48, do đó tôi tìm mua các số kết thúc bằng 48, nhờ đó trúng độc đắc”. Ông này có thể bầu làm vua của vương quốc các đồng xu 2 mặt ngửa. Xem
Stanley Meisler, Spain lottery — Not even war stops it. Los Angeles Times, Dec 30, 1977.
- Bọn cướp biển và hiện tượng ấm toàn cầu

Năm 2005, ban giáo dục tiểu ban Kansas đòi dạy Intelligent Design — một thông điệp tôn giáo giả danh khoa học — trong các trường phổ thông. Để minh họa cho tính nhố nhăng của lý luận của ban giáo dục, Bobby Henderson đã làm một cái chart so sánh tổng số cướp biển và nhiệt độ toàn cầu (xem ảnh), và sau đó thành lập đại giáo phái Quỷ Mì Ý Bay có đến vài chục triệu tín đồ (để chế diễu ban giáo dục nọ). Chúng ta sẽ bàn về giáo phái Quỷ Mì Ý Bay trong một dịp khác, điều ta cần là cái chart giảm cướp biển thì tăng nhiệt độ toàn cầu ở trên.
Một giáo phái xu ngửa có rất nhiều tín đồ có tên là Objectivism. Giáo chủ là Ayn Rand, với Alan Greenspan là một (cựu) giáo dân. Sau vụ khủng hoảng tài chính lần này, Greenspan thừa nhận:
“I made a mistake in presuming that the self-interests of organizations, specifically banks and others, were such as that they were best capable of protecting their own shareholders and their equity in the firms.”
Greenspan, 82, who relinquished leadership of the Fed just two years ago, said the collapse of the sub-prime mortgage industry — and the vast, mostly hidden trade in derivative financial instruments it spawned — exposed a “flaw” in his categorical reliance on free markets.
Khoan xét đến việc Objectivism là đúng hay sai (tín đồ của họ bảo vệ tới cùng, cho rằng Greeenspan không phải là free marketeer thật sự), trong riêng thế giới của Greenspan thì năm nay cướp biển không giảm mà quả đất vẫn ấm lên.
- Shakespeare và một triệu con khỉ
Định lý vô hạn các con khỉ đại khái nói rằng, cho thật nhiều các con khỉ gõ lung tung vào các bàn phím, thì với xác suất cực gần với 1, chúng sẽ gõ được Hamlet của Shakespeare. Ta có thể chứng minh điều này bằng lý thuyết xác suất không khó khăn gì.
Trong một hội nghị năm 1996, Robert Wilensky nói:
Chúng ta từng nghe bảo rằng một triệu con khỉ ngồi ở một triệu bàn phím có thể gõ toàn bộ các tuyệt tác của Shakespeare. Bây giờ, may nhờ có Internet, ta biết rằng điều này không đúng sự thật.
Con khỉ đang gõ bài này thấy rất nhột.
Các nhà nghiên cứu tại trường đại học Plymouth ở Anh đã thí nghiệm hồi năm 2003: bỏ một máy tính vào chuồng khỉ ở vườn thú Paignton ở Tây Nam nước Anh. Bọn khỉ lấy đá đập tán loạn vào máy tính; sau đó thì tiểu tiện, đại tiện vào bàn phím, cuối cùng mới gõ một đống chữ S, và vài chữ A, J, L, M, cho ra 5 trang sản phẩm. Mike Phillips, một trong số các nhà nghiên cứu này, nói: “rõ ràng tiếng Anh không phải tiếng mẹ đẻ của khỉ“.
Gạt đùa bỡn sang một bên. Định lý khỉ thật sự nói rằng, bất kỳ cái gì — nếu tồn tại — thì dù hiếm hoi đến mấy mà có đủ người tìm thì tìm vẫn ra. Thậm chí không cần một “chiến lược” tìm kiếm gì cả. Các con khỉ chỉ gõ loạn cào cào lên thôi. Bỏ một cây kim lên bãi cát. Một người vốc 10 nắm cát bất kỳ thì khả năng tìm ra kim trong đó là không tưởng. Nhưng nếu có một triệu người, mỗi người vốc 10 nắm cát bất kỳ, thì nhiều khả năng là tìm được kim. Khi độ hiếm hoi giảm xuống (đến không hiếm hoi) thì tổng số khỉ cần thiết sẽ giảm xuống. Nếu một nửa bãi cát có kim thì chỉ cần một gã vốc một nắm cát là đủ.
Nếu một gã nào đó trong một triệu gã tìm kim bãi cát ở trên mà tìm được kim thì không phải hắn có công năng đặc dị gì. Con khỉ gõ được Hamlet thì vẫn là con khỉ. Điểm này được Taleb lập đi lập lại trong hai quyển Fooled by Randomness
và The Black Swan
. Chỉ cần sự ngẫu nhiên, một vài mutual funds sẽ có những thời điểm lời khủng khiếp, một vài cá nhân sẽ có những thành công vượt bực (Bill Miller của Legg Mason Capital Management chẳng hạn).
Những hội sấp ngửa “sống sót” trong vương quốc NN là hoàn toàn ngẫu nhiên, có thể chứng minh được bằng lý thuyết xác suất.
- Từ công ty đoán giá chứng khoán đến hợp tác xã đánh đề
- Khi những con giun đất hiển linh
- Vượt định kiến bằng Lăng Ba Vi Bộ
Hội viên hội xu ngửa đã có mô hình sai vì họ khái quát hóa từ một vài “mẫu” địa phương. Nhiều định kiến xuất phát từ cùng một lỗi như thế. Ai đó gặp vài anh Việt Kiều rồi kết luận Việt Kiều ở Mỹ làm nails đánh bài. Người khác gặp vài anh du học sinh rồi kết luận du học sinh Việt Nam ở bẩn và không biết xem bóng bầu dục. Thử tưởng tượng Rowling kết luận, sau 12 lần bị từ chối, rằng Harry Potter sẽ không bao giờ được nhận xuất bản.
Những đồng xu trong vương quốc NN được ném độc lập với nhau. Trong cuộc sống chúng ta thường gặp các đồng xu xâu lại với nhau thành chuỗi bằng một sợi dây vô hình nào đó. Người Bắc có nhiều bạn bè người Bắc, Người Nam có nhiều bạn bè người Nam, họ giúp nhau thắt chặt những định kiến vùng miền. Kết quả của đồng xu kế tiếp “correlate” chặt chẽ với đồng xu trước. Gia đình ba mẹ tin vào chiêm tinh học sẽ tiêm nhiễm cho con niềm tin này. Đồng xu của em bé vừa ra đời đã có mặt nặng mặt nhẹ.
Giả sử ta có một ly nước chanh, có đường ở dưới nhưng chưa khuấy lên, thì không thể nếm nước trên bề mặt (cho dù nếm cả ngụm) để kết luận là ly nước không có đường. Đầu tiên phải khuấy nó lên. Tiếc rằng, trên thực tế thì không thể “khuấy” Việt Kiều không làm nail và Việt Kiều làm nail rồi mới làm bạn ngẫu nhiên với họ. Nhưng điều có thể làm là nếm ly nước ở nhiều chỗ: bên phải một cái, dưới đáy một cái, bên trái một cái, v.v. Phương pháp này trong lý thuyết xác suất gọi là phương pháp Monte Carlo. Nhưng làm bạn với Việt Kiều Cali, New York, Chicago, Ithaca, v.v. một cách ngẫu nhiên như thế cũng rất khó vì giới hạn Vật Lý. Có thể phần nào giải quyết tình trạng này bằng Markov Chain Monte Carlo, gọi nôm na là Lăng Ba Vi Bộ.
- Được làm vua, thua làm … chú thích
Một phần không nhỏ những gì diễn ra trong cuộc sống và xã hội là kết quả của sự ngẫu nhiên (NN). Trong một miền hỗn mang to lớn, nếu nhìn vào một góc nhỏ nào đó ta có thể tìm được một trật tự nhất định. Trật tự đó chẳng có ý nghĩa gì ghê gớm.
Không thể đánh giá con người hay sự vật/việc chỉ dùng kết quả thành bại được. Sẽ là một lỗi logic cơ bản nếu bài này kết luận rằng tất cả thành bại đều do ngẫu nhiên (vì các loại ví dụ kể trên chỉ là một số đồng tiền ngửa ủng hộ luận điểm này!!!). Dĩ nhiên tài năng có ảnh hưởng đến kết quả, nhưng con người có xu hướng đánh giá thấp vai trò của sự ngẫu nhiên.
Sẽ có ít định kiến hơn nếu chúng ta hiểu ý nghĩa của xác suất, không bước trên lối mòn định sẵn mà cần “Lăng Ba Vi Bộ” tìm Thiên Nga Đen.
Nếu thi thoảng có gặp nhiều xu sấp, thì không nên gia nhập hội xu sấp ngay. Đây là lý do tại sao những người kiên trì thường thành công, thiên tài có thể “tu luyện” được. Ngược lại, Einstein cảnh báo rằng: “định nghĩa của sự điên rồ là làm một thứ lập đi lập lại mà mong đợi kết quả khác nhau“.
Cuối cùng: thế nhỡ đâu tất cả những gì nhân loại chứng kiến/đo đạc được cho đến nay đều là xu ngửa thì sao? Nhỡ đâu ba định luật Newton và sự tiến hóa sinh vật cũng là xu ngửa. Đây là vấn đề qui nạp (induction) của David Hume, vượt quá khuôn khổ bài viết. Rất hy vọng có thể quay lại đề tài này trong một bài viết tới.
Mỗi sáng chủ nhật, bạn nhận được một email từ công ty Đoán Giá Xì Tốc Inc. dự đoán giá chứng khoán của AT&T tuần tới sẽ tăng hay giảm. Email này để minh chứng là họ nói đúng, và nói với bạn rằng nếu bạn trả cho họ 100USD, họ sẽ gửi dự đoán tuần kế tiếp cho. Hơn thế nữa, công ty Đoán Giá Xì Tốc Inc. sẽ bồi hoàn toàn bộ 100USD nếu họ đoán sai. Hấp dẫn chưa?
Bạn chưa tin tưởng lắm, vì sợ họ lừa đảo gì đó. Tuần sau, bạn thấy họ đã đoán đúng tuần trước, và lại nhận được một email y chang như thế. Họ đoán đúng liên tục 7 tuần liền! À ha. Chắc công ty này (CEO tên là NQH) phải sở hữu thiên tài đoán giá xì tốc. Đến đây thì bạn tin sái cổ. Xác suất đoán ngẫu nhiên mà trúng 7 lần liên tục là 1/128, rất thấp!
Công ty đó có “thiên tài” thế này. Tuần đầu tiên họ gửi email đến 128 người, một nửa số đó đoán stock tăng, một nửa đoán stock giảm. Tuần sau họ chỉ gửi email đến 64 người mà lượt email đầu đã đoán trúng! Cứ thế 7 tuần liền. Dĩ nhiên, họ không chỉ gửi ra 128 emails mà sẽ gửi 128 triệu email. Nếu chỉ 1/100 số người nhận “7 lần đoán trúng” này bị lừa, cho họ 100USD, thì họ đã kiếm được 10 triệu USD trong 7 tuần. Chẳng qua, bạn tin “thiên tài” của họ vì bạn chỉ có bằng chứng “khẳng định” cái thiên tài đó mà không biết về các bằng chứng phủ định. Tất cả các thành viên hội xu ngửa trong vương quốc NN đều mắc phải lỗi này, gọi là lỗi “thiên kiến khẳng định” (confirmation bias).
Báo Tuổi Trẻ ngày 30/8/2008 đưa tin sau đây:
TT (TP.HCM) – Chiều 30-8, Cục Cảnh sát điều tra tội phạm về trật tự xã hội (C14) – Bộ Công an đã tống đạt quyết định khởi tố bị can và đồng loạt thực hiện lệnh khám xét nhà riêng, bắt tạm giam sáu người về hành vi lừa đảo chiếm đoạt tài sản. Các đối tượng này là những mắt xích quan trọng trong đường dây lừa đảo kết quả xổ số kiến thiết (XSKT) có qui mô trên toàn quốc vừa bị lực lượng C14 phối hợp với Công an tỉnh Quảng Bình triệt phá vào tháng tám vừa qua. Trước đó đã có bốn người khác liên quan trong đường dây này bị khởi tố, bắt tạm giam cùng hành vi lừa đảo. Theo điều tra, những người trong đường dây này đã mạo danh người của công ty XSKT các địa phương, khu vực trên toàn quốc, hằng ngày gọi điện thoại cho hàng ngàn người ở khắp các tỉnh thành và cho mỗi người một con số. Chúng quả quyết đó là số “trúng” do công ty XSKT “làm” và yêu cầu người được cho nên mua (vé số) hoặc đánh đề lô số đó. Cứ mỗi tên trong đường dây có nhiệm vụ điện thoại hơn 100 người/ngày và cho mỗi người một số theo thứ tự từ số 00 đến số 99.

Năm 1986, phi thuyền Viking I bay quanh sao Hỏa chụp ảnh. Qua vùng Cydonia phi thuyền này đã chụp được một vùng đồi núi mà dưới bóng sáng tối trong giống mặt người (giống một Pharaoh Ai Cập). Ảnh này lại được các conspiracy theorists vẽ ra đủ thứ lý thuyết lăng nhăng cộng với cả phim ảnh và talk shows. Dưới đây lả ảnh chụp hồi 2001:

Các nhà khoa học ở NASA thấy thích thú về bức ảnh … rồi thôi, vì họ có nhiều việc quan trọng để làm.
Trong một mớ hỗn mang rộng lớn, bao giờ cũng có các góc nhỏ có một trật tự nào đó. Hiện tượng này xuất hiện rất nhiều trong phương pháp xác suất, theo nghĩa của Paul Erdos, khi ta chứng minh rằng trong một không gian mẫu đủ lớn thì các local patterns sẽ tồn tại. Nhìn mãi lên mây sẽ thấy một số đám mây trông giống con rồng, con chó, con … giun đất. Không hiểu tại sao đến bây giờ người ta không viết truyền thuyết về con giun đất hiển linh.
Trong mớ hỗn mang nhân quả của hiện tượng ấm toàn cầu, cái “trật tự” cướp biển giảm làm tăng nhiệt độ quả đất không dùng để kết luận ra cái gì được hết!

63 Comments
Hi bác Nkd,
Đúng là nhiều lĩnh vực việc thu thập dữ liệu không đơn giản. Nhưng điều này sẽ được cải thiện với công nghệ và thời gian. Mẫu nhỏ mà nhiều features thực ra vẫn có thể giải quyết được. Ví dụ các nghiên cứu về gene expression hiện nay thường thì mẫu ít, mà features thì rất lớn. Lớp vấn đề này hiện nay đang nóng, gọi là “small n, large p” trong thống kê, “compressed sensing” trong signal processing, hay “sparse learning” trong khmt. Vấn đề là phải giới hạn vào lớp mô hình đơn giản thôi, với nhiều assumptions, thì mới có thể học được.
Nói về một việc tương tự như lập mô hình TV, tụi tôi cũng đã có nộp một nsf research proposal cùng một số đồng nghiệp, một dự án liên quan đến xây dựng mô hình và dự báo về thảm thực vật ở Đông bắc Mỹ. Dân Ecology cũng mô hình sự sinh nở và phát triển của từng cây một, tùy vào giống gì (60 loại), đang ở giai đoạn phát triển nào (hạt, cây nhỏ, cây trưởng thành, giống đực/cái), có features của cả môi trường như độ ẩm, nhiệt độ, ánh sáng. Mô hình cả sự cạnh tranh và tương tác giữa các species khác nhau, và các cây ở gần nhau (cạnh tranh không gian, ánh sáng). Dân bên Ecology họ có dữ liệu từ hàng thập kỷ trước, có measurements về môi trường cũng như về sự phát triển của từng khu rừng họ khoanh lại.
Có thể thấy ngay mục đích của mô hình này không khác gì mục đích của tử vi là bao, phức tạp vì liên quan có thể đến hàng trăm triệu cây trên một diện tích rất lớn, và trong một khoảng thời gian dài (100 năm). Mặc dù sự phát triển của cây cối và tương tác với môi trường và với nhau r’ât chậm, nhưng để dự báo các thứ trong tương lai vẫn rất phức tạp, cho cả cộng đồng đã khó rồi, chưa nói đến cá nhân. Và tụi tôi cũng không dám dự báo cụ thể từng cá nhân (tất nhiên ở đây cũng không hữu ích lắm), chỉ tập trung ở mức ảnh hưởng của climate change với populations, rồi sự diệt chủng và sự migration của species theo thời gian mà thôi. Mặc dù scale và complexity và mục đích đơn giản hơn mô hình TV nhiều, nhưng dự án như vậy vẫn được coi là hết sức tham vọng, đòi hỏi nhiều công cụ và kỹ thuật mới về thống kê và giải thuật cần được phát triển thêm.
Đây cũng là một ví dụ làm cho tôi thích thú với nghiên cứu ngành thống kê, giống như một số bác thích nghiên cứu tử vi vậy
Tôi có đọc quyển sách của GS Hoàng Phương, vì người nhà cứ ấn vào tay. Thấy không serious gì cả, nếu tôi không muốn nói negative hơn.
Các bác cho em hóng hớt phát nhể.
1. Anh Long:
“Một mô hình cần 100–300 biến (features) thì nói chung phải cần exp(100) mẫu dữ liệu mới có thể học được dự báo được nếu mô hình đủ độ phức tạp.”
đọc đoạn này hôm trước em thấy gợn gợn, hôm nay anh viết thêm “Mẫu nhỏ mà nhiều features thực ra vẫn có thể giải quyết được.”
Tại sao thấy ko comfortable? Cái “exp(100) mẫu” với lại “học được dự báo được nếu mô hình đủ độ phức tạp” là thế nào? Em lơ mơ đoán là anh dùng exponential model để jointly model 100 features. Trong lĩnh vực em biết là NLP (natural language processing), việc đối mặt với số lượng features lớn là chuyện khá thường xuyên, em thấy vẫn học parameters ok
, giữa trên mấy cái online learning algorithms kiểu (weighted/averaged) perceptron, mira, … Đoạn này em thấy hay nhưng chưa hiểu anh “tích phân” hộ em với.
2. Chị NKD:
“khá thắc mắc bởi vì có vẻ như nhiều trí thức trẻ được đào tạo ở nước ngoài không thích tin vào các thể loại tử vi, bói toán”
Em mượn một scene trong Angels & Demon. Khi mà bối cảnh là Prof. Langdon gặp Patrick McKenna, chánh văn phòng của giáo hoàng. Prof. Langdon đang phải xin giấy phép để tiếp cận vào Tàng Kinh Các của Vatican, và giấy phép cần được phê chuẩn bởi Patrick McKenna. Trước khi Patrick McKenna quyết định, có đoạn hội thoại sau
———
McKenna: Do you believe in God, sir?
Langdon: Father, I simply believe that religion…
McKenna: I did not ask if you believe what man says about God, I asked if you believe in God.
Langdon: I’m an academic. My mind tells me I will never understand God.
McKenna: And your heart?
Langdon: Tells me I’m not meant to. Faith is a gift that I have yet to receive.
———
Youtube
http://www.youtube.com/watch?v=Kx0OKiW8GrQ
Đoạn trích liên quan đến tôn giáo, nhưng có thể hiểu rộng sang bên TV theo em nghĩa là làm scientist cái gì không lập luận được thì tốt nhất là nên nghi ngờ tính đúng của nó. Nhân anh Long xem TV dưới dạng probablistic models, em nghĩ mô hình TV thời điểm hiện giờ (giả sử có) giống kiểu knowledge-based machine learning hồi xa xưa 30 năm trước. Tức là các ông thầy TV học 1 loạt các cases, encoded features vào KB network, xong gặp case mới bắt đầu dùng cái KB network để infer.
3. Anh Hưng:
Em đề nghị anh Hưng đổi LBVB thành LBLB nghĩa là Lăng Ba Linh Bộ cho nó đối với MCMC
.
Hi Nguyên,
Nguyên cắt mất câu và paragraph ngay sau đó, đọc sẽ đầy đủ ngữ cảnh hơn. Đại loại mẫu nhỏ mà nhiều features (dimensionality lớn) thì mô hình phải đơn giản, hoặc có rất nhiều assumptions mới học được. (Mô hình đơn giản ở đây là đo bởi sự phức tạp của tính toán (computational complexity) của các thống kê liên quan đến mô hình, hoặc sự phức tạp về thông tin (information complexity) kiểu như entropy hay VC dimension). Tất nhiên để implement những mô hình như Nguyên nói với scale lớn như vậy thì có nhiều vấn đề rắc rối về giải thuật khác.
Các mô hình NLP với features lớn thì theo mình hiểu kết hợp cả hai, dùng prior rất ngặt nghèo, ngoài ra thì cũng là dạng linear (exponential of linear combinations of features). Đặc biệt ở đây Markov property của 1-d lattice làm cho nó đơn giản.
Bây giờ thử xem các mô hình tương tự như Ising cho spin glass trong statistical physics, hoặc random fields trong computer vision chẳng hạn, cũng tương tự mô hình cho NLP nhưng lại được định nghĩa trên 2-d lattice, thì sẽ thấy tình huống khác hẳn. Mô hình này để học được là NP-hard. Nếu interactions phức tạp thì chỉ 20×20 lattice là máy tính đã tắc tị rồi, không thể ra kết quả chính xác cho dù dùng LBLB
(vì Mixing time của MCMC cũng trở nên exponential). Trong comment đầu tiên của bài viết của bác Hưng tôi có nói đến cái này, và liên hệ với hiện tượng phase transition. Với 1d thì không có hiện tượng này.
Đúng rồi, mình cũng có cảm tưởng như các mô hình TV của các thầy bây giờ giống như expert systems vậy.
BTW các phát biểu của tôi về tính phức tạp và khả năng học của mô hình mang tính khái quát cho một họ các mô hình rộng lớn chứ không phải ràng buộc vào một lớp mô hình cụ thể nào, nếu ta dùng nền tảng của lý thuyết xác suất để nói chuyện về dự báo và uncertainty.
Bác NKD,
Tử Vi đúng không phải do ông viện trưởng viện Vật Lý tin nó, và sai không phải do tôi hay bác Long không tin. Tôi nghĩ chúng ta có đủ trình độ để tránh argumentum ad verecundiam.
Tôi hoàn toàn không nghi ngờ gì việc ngày giờ sinh có một ảnh hưởng nào đó đến cuộc sống. Ví dụ như một nghiên cứu gần đây (Mandel, Y. et al. Ophthalmology 115, 686-692 (2008)) cho thấy có khả năng những người sinh vào mùa hè dễ bị cận thị hơn những người sinh vào mùa đông. Tuy nhiên từ đó đến “Chiêm Tinh đúng” hay “Tử Vi đúng” thì là một khoảng cách vô hạn. Như đã nói, trong Khoa Học bao giờ chúng ta cũng cần một mechanism chứ không chỉ cần statistical significance. Trong một time-scale nào đó, có thể dùng tổng số cướp biển để đoán nhiệt độ toàn cầu, nhưng chắc bác cũng đồng ý điều này là nực cười? Nhưng tại sao nực cười? Đó là do chúng ta nghĩ rằng không thể tồn tại một cơ chế nào cho bọn cướp biển có thể làm ảnh hưởng đến nhiệt độ toàn cầu. Tương tự như thế, tôi không biết có một cơ chế nào làm cho “ngày giờ sinh” ảnh hưởng đến việc ngày mai tôi có bị đâm xe hay không.
Khi đã nói đến mechanism thì khi có thể giải thích, thường là sẽ có những cách giải thích cơ bản hơn, rõ ràng hơn (kiểu đi bộ trên than nhanh thì không bị nóng do than đá dẫn nhiệt kém) là kiểu giải thích tù mù “Mộc khắc Thổ, Thổ khắc khắc”.
Có thể tôi sai. Có thể tồn tại một cơ chế kiểu butterfly effect làm bọn cướp biển gây nóng toàn cầu thật. Có thể ngày giờ sinh đoán được ngày mai tôi lái xe hay đi bộ. Nhưng khi có người nào khẳng định như thế thì burden of proof nằm toàn bộ trên vai người đó. Extraordinary claims require extra ordinary evidence. Đó là chưa kể một số khó khăn cực kỳ về mặt logic của việc đoán được tương lai.
Nếu tôi cam đoan là “có một con bò, còn sống, đang bay trên orbit của sao Kim” thì tôi phải chứng minh điều đó một cách thuyết phục, chứ chẳng nhẽ lại đi thách mọi người chứng minh tôi sai đi.
Riêng về Chiêm Tinh (tôi không nói Tử Vi nhé), thì đã có rất nhiều nghiên cứu invalidate các hypotheses của nó.
Xin lấy ví dụ các bài sau đây ở tạp chí Nature:
Shawn Carlson, “A double-blinded test for astrology”, Nature 318, 419 – 425 (1985) | doi:10.1038/318419a0.
Defending science against anti-science, John Maddox, Nature 368, 185 (1994) | doi:10.1038/368185a0.
Steven K. Lower, Treating astrology’s claims with all due gravity, Nature 447, 528 (31 May 2007) | doi:10.1038/447528a; Published online 30 May 2007
Cộng với hai bài khác tôi đọc được và thấy cách trình bày hợp lý, tiếc rằng tôi không có bản online, chỉ đọc trong thư viện:
“Astrology And Science: An Examination Of The Evidence,” I. Kelly in Cosmic Perspectives, S. Biswas, et al, (eds.)
M. J. Startup and R. J. H. Russell, Lunar effects on personality test scores: a failure to replicate, Personality and Individual Differences, Volume 6, Issue 2, 1985, Pages 267-269
Còn sau đây là một nghiên cứu gần đây mà “mẫu” có hơn 4000 cựu binh Việt Nam. Bài này tôi có bản pdf, bác nào cần tôi gửi cho:
Cuối cùng, một nghiên cứu rất thú vị bao gồm một mẫu rất lớn, minh họa cho thấy tính tinh tế và khó khăn của các phép thử thống kê (bài này tôi cũng có pdf):
Blog này hay thật đấy. Toàn các prof có sừng có mỏ có khác. Nhưng tôi cũng đang bận rộn quá, vẫn là sinh viên Phd thôi các bác ạ.
Tôi chưa kịp xem ý kiến của tất cả các bác. Để từ từ tôi sẽ nghiên cứu và hỏi các bác.
Nhưng trước tiên tôi muốn trả lời bác Hưng:
- Dao động của cổ phiếu trên sàn chứng khoán giống như chuyển động của xoáy nước khi ta khuấy ly cà phê, nghĩa là theo 1 quy luật toán học.
- Các nguyên tố hóa học được xắp xếp trong bảng tuần hoàn, nghĩa là có một quy luật toán học.
- Các hành tinh của hệ mặt trời nằm cách mặt trời theo một quy luật hàm bậc hai.
Vấn đề là ở chỗ các hiện tượng ấy sắp xếp theo một quy luật của toán học/của tự nhiên nào đó.
Số mệnh của con người cũng được sắp xếp theo một quy luật toán học nào đó phụ thuộc vào thời điểm sinh, và vì vậy có thể được xếp thành bảng 2 chiều. Tên các sao này nọ chỉ mang ý nghĩa tượng trưng để gọi tên các vị trí trong ma trận toán học, mà thôi. Bởi ai mà chẳng biết trên trời làm gì có 108 ngôi sao nào như thế.
Ngoài ra, bác có đảm bảo rằng, trong tự nhiên không còn hiện tượng nào khác được sắp xếp theo quy luật sắp xếp theo khoảng cách 10 hành tinh của hệ mặt trời không? Nếu có, việc gán ghép 2 hiện tượng đó chỉ là ngẫu nhiên, giống như nói rằng việc khuấy ly nước khiến cổ phiếu thị trường chứng khoán bị quay theo.
Những người khác tin rằng TV đúng vì các sao tác động vào con người. Tôi không tin chuyện ấy mà tin rằng giờ sinh của con người khiến cho có thể phân loại họ vào 1 ma trận gọi là tử vi. Tên gọi , tính chất cát hung của các sao chỉ để dễ nhớ mà thôi. Cũng như tôi không tin chuyện khuấy ly cà phê khiến thị trường chứng khoán bị đảo lộn theo. Tuy nhiên tôi có thể dùng quy luật chuyển động của đáy ly cà phê để suy ra quy luật của cổ phiếu.
Chiêm tinh phương tây thì tôi không rõ. Tôi cho cũng là sự ngẫu nhiên giống nhau của chuyển động của vài hành tinh với số mệnh con người theo giờ sinh, bởi chúng cùng tuân theo 1 quy luật toán học nào đó, mà thôi.
Bác có thể lý luận rằng trên đời làm gì có thứ gì tuân theo quy luật phức tạp như vậy. Mấy thứ kia đều là các quy luật đơn giản. Đúng vậy, chính vì thế, độ chính xác của tử vi không cao lắm.
Tử vi cũng chỉ có 12 thế chính và 1 số vòng phụ. Nhưng những cái này tôi còn phải nghiên cứu thêm.
Hoá ra bác Long cũng lập mô hình cho các bài toán xã hội??? Thế thì hay đấy, chắc là sắp tới tôi có thể hỏi bác một số thứ.
Tôi nghĩ mô hình TV có nhiều cấp độ lắm. Nếu đặt vấn đề đơn giản, chỉ so sánh correlation của vài biến thì nó thành đơn giản. Mà nếu đặt vấn đề phức tạp thì thành phức tạp thôi. Quan trọng là năng lực của người làm research có thể mô hình hoá phức tạp đến đâu.
Thực ra bên Economics hiện giờ làm các paper thống kê có thể thuộc bất kỳ lĩnh vực nào của khoa học xã hội, ngoài ra cả tài nguyên, môi trường, sinh thái. Chính vì thế nên tôi chưa hiểu sự khác biệt trong cái project của bác với bên kinh tế làm. Có lẽ là bên kinh tế chỉ giải quyết vấn đề đơn giản, ít biến số, không cần nhiều thuật toán phức tạp? Chẳng hạn như cái project về Ecology bác nói, ngoài kiến thức về thống kê và sinh thái, bác cần thêm những kiến thức về math hay CS nào nữa không?
Tôi thấy 1 số người tốt nghiệp Phd Econ/finance thậm chí Philosophy, Sociology sau một thời gian cũng chuyển sang khoa statistics. Thậm chí có người xin được assistant prof ngay. Bác có biết những người đấy làm những gì bên khoa TK không? Hay đã vào khoa rồi thích research về cái gì cũng được.
Tôi nói ông Trần Phương chứ không phải ông Hoàng Phương. Sách xuất bản ở nhà mình thì không tính làm gì.
Bác Hưng và Nguyên ạ,
Những gì không lập luận được nhưng có facts thì vẫn đáng tin chứ. Có thể là một cơ chế đặc biệt nào đấy chưa biết hoặc ngoài khả năng nhận thức của con người. Không bao giờ có thể biết được. Ví dụ như hồi năm 1996, Bộ khoa học công nghệ kiểm tra khả năng ngoại cảm tìm mộ của ông Nguyễn Văn Liên. Ông ấy chỉ ngồi từ xa mà vẽ đường chỉ dẫn tìm được mộ 60% bộ đội mất tích. Nghĩa là một tỷ lệ rất cao. Thế thì mặc dù mình không giải thích được cơ chế, mình vẫn nên tin chứ???
Có một số người khác tu luyện Thiền lâu năm có thể mở được huệ nhãn ở trán. Có nghĩa nhìn được bằng mắt ở sau gáy. Cái đấy kiểm tra không khó lắm, mặc dù không giải thích được cơ chế rõ ràng. Vậy nhưng chẳng lẽ lại phủ nhận không thể có hiện tượng đó hay sao.
Nguyên ạ, còn phụ thuộc vào định nghĩa God là gì. Đa số những người có tín ngưỡng thì tin vào God có nhân tính. Nhưng nhiều nhà khoa học kiểu như Einstein vẫn tin vào 1 God phi nhân tính, nghĩa là không hiểu được tư duy của con người, mà vận hành thế giới theo cách riêng của ông ta.
Bác NKD, tôi không hiểu bác nói gì. Vả lại, tôi nghĩ không nên speculate wildly vì sẽ không bao giờ kết thúc được cuộc thảo luận.
Tôi nghĩ nếu bác thử học/làm về statistics hoặc (statistical) machine learning một thời gian bác chắc chắn sẽ thay đổi hẳn cách tư duy về “model” và cách đánh giá các “model” như Tử Vi hay bất kỳ model nào khác. (Học và làm statistics một cách nghiêm túc, đừng đọc sách pop-science hoặc là “statistics for social scientists” nhan nhản trong các khoa liên quan đến XH học.)
Tôi sẽ nghe lời khuyên của bác và chấm dứt tranh luận ở đây. Nhưng bên Econ của chúng tôi cũng phải lập các mô hình xã hội, có lẽ khác với mô hình của các bác.
Nhưng tôi hỏi bác, mô hình đơn giản kiểu như tôi nói về các bộ sao thì bác thấy có khả thi không? Cũng là 1 cách để kiểm tra tính chính xác của tử vi chứ???
Tôi cũng biết là CS phức tạp hơn Econ nhiều. Nhưng nếu không chắc có lập được mô hình phức tạp hay không thì lập cái đơn giản, phần nào cho lời giải cũng tốt chứ.
Ngay cả trong cái đống paper bác trích dẫn cũng, nhiều paper của các khoa xã hội, vd các khoa public health như paper này, thì cũng có gì ghê gớm đâu.
Testing multiple statistical hypotheses resulted in spurious associations:
a study of astrological signs and health
Hơn nữa, tôi khẳng định với bác là phần toán và thống kê của riêng ngành kinh tế hơn tất cả các ngành xã hội khác.
Bác NKD,
Tôi không có ý nói ngành nào “khó” hơn ngành nào, tôi chỉ nói rằng các sách statistics kiểu cook-book cho KHXH mà tôi đã duyệt qua, theo quan điểm của tôi, không truyền tải được thế nào là “model” và cách đánh giá statistical models.
Đấy là đánh giá về sách, còn về người thì tôi chắc chắn nhiều nhà khoa học XH và economists rất giỏi statistics.
Bác Hưng ạ, thực ra vì đến bây giờ tôi mới quay lại đọc về econometrics nên chả nhớ gì mấy.
Các trường Econ ranking khá khá khoảng trong Top 50 trở lên, học tài statistics nghiêm túc. Không phải cookbook đâu. Sinh viên thi toàn C+, B- với B thôi, mặc dù chất lượng sinh viên đầu vào cũng chẳng kém đâu. Tôi sẽ forward cho bác xem giáo trình Statistics của học kỳ đầu tiên năm thứ nhất ở 1 trường như vậy. Có lẽ tôi vẫn còn giữ tài liệu đấy.
Bác Nkd,
Tôi chưa có kinh nghiệm gì về các mô hình xã hội cả. Nhưng tôi cũng thích thú về các vấn đề XH. Các câu hỏi có thể đặt ra thì nhiều, nhưng kiếm được dữ liệu không dễ. Tôi cũng không biết gì về ecology cả, chủ yếu biết qua nói chuyện với dân ecology thôi. Nhưng làm với họ rồi cũng học được một số kiến thức thú vị.
Tôi không nghĩ các vấn đề bên kinh tế thì đơn giản hơn ecology hay một ngành cụ thể nào khác có liên quan đến dữ liệu. Thưc ra ngược lại thì đúng hơn. Đơn giản có thể là do công cụ thống kê của người sử dụng còn sơ sài. Nhiều khi, thế cũng là tạm đủ. Nhiều khi, vì người ta không có cơ hội học thêm các công cụ mới.
Bên Economics có nhiều vị làm thống kê cự phách đấy. Bài báo của Kenneth Arrow với David Blackwell và Girsick (hồi các vị còn ở Rand) về sequential analysis là bài báo đầu tiên nói về dynamic programming. Richard Bellman nói ở đâu đó là ông ấy pickup idea về DP từ đây và khái quát nó lên. Nhưng cũng có thể hồi thế chiến hai khi đẻ ra nhiều ngành mới thì có nhiều vị là Renaissance man, cái gì cũng thông tường.
Re: Ngoài kiến thức thống kê cần gì? Cái này tùy bác hỏi ai. Với tôi thì XSTK là cơ sở để mô hình thế giới, và với tôi TK hiện đại không có ranh giới với toán học hay khmt. Như tôi đã viết khá nhiều lần trên blog KHMT, Thống kê hiện đại cần cả hai rất nhiều, có thể nói ngày càng nhiều hơn. Cần học toán để sử dụng các cấu trúc toán học mạnh thì mới lập ra mô hình mạnh. Cần biết khmt để giải quyết các vấn đề phức tạp về scale, complexity và thiết kể giải thuật để học mô hình. v.v.
Nhưng cái khác với tư duy người làm toán và người làm khmt ở chỗ là phải biết kéo mô hình toán học về cho phù hợp với thế giới thực tế. Creative process của người làm thống kê do đó hơi khác người làm toán hay người làm khmt một chút. Với cá nhân tôi thì đây là một phát hiện thích thú làm thay đổi outlook của tôi về nhiều thứ.
Có bài blog này giới thiệu các sách về khmt và đặc biệt là thống kê, các bác có thể tham khảo:
http://www.procul.org/blog/2007/10/01/sach-khmt/
>> Tôi nghĩ nếu bác thử học/làm về statistics hoặc (statistical) machine learning một thời gian bác chắc chắn sẽ thay đổi hẳn cách tư duy về “model” và cách đánh giá các “model” như Tử Vi hay bất kỳ model nào khác. (Học và làm statistics một cách nghiêm túc, đừng đọc sách pop-science hoặc là “statistics for social scientists” nhan nhản trong các khoa liên quan đến XH học.)
<<<
Bác Hưng,
Bà chị họ nhà tôi chuyên đọc mấy cái sách này đấy ạ, và nói chung không tin là tôi cũng biết một chút về statistics
Nhưng thỉnh thoảng tôi cũng làm cho bà chị họ ngạc nhiên vì giải thích một số khái niệm hình như rõ ràng hơn advisor của bà í.
Thực ra một số comment của bác Nkd cũng đáng nói (ví dụ như bác ấy hỏi là làm TK bên TK thì khác với làm TK bên economics hay social sciences thế nào). Hôm tôi đi phỏng vấn một vị hỏi: bây giờ nhiều người sử dụng thống kê, vậy cần khoa thống kê làm gì. Tôi trả lời, vấn đề này tương tự như khoa toán và khoa cs. Ai cũng biết tính đạo hàm và tích phân, ai cũng sử dụng computer software, vậy cần mấy khoa này làm gì. Somehow CS departments seem to do better than the rest. Rồi sau đó blah blah về "modern statistics". Ông hỏi là một theoretician.
Ha ha, bác Long nghĩ xem tại sao tôi lại bỏ thời gian duyệt qua một số sách “statistics for social scientists”?
Bên Econ chắc chắn là sách tốt hơn, nên tôi không giám tổng quát hóa. Nhưng quả thật là đọc statistical cookbooks thấy rất bực dọc.
Thực ra trước tôi cũng học under về math-informatics chứ không phải là hoàn toàn không biết 1 chút gì về CS. Nhưng tôi thuộc dạng blacksheep, chứ không được sáng láng như các bác ở đây.
Tôi nghĩ chương trình bắt buộc về thống kê ở các khoa kha khá trở lên về Econ không hề tồi. Chưa nói đến ở các trường hàng đầu.
Tôi biết các bác ở đây làm về AI, stat, machine learning là những hướng khó. Tuy nhiên, KHMT cũng có nhiều ngành khác. Một số ngành cũng giống engineering thôi.
Về độ khó, thì các prof của chúng tôi nói rằng độ khó của Econ kém CS, nhưng không hề thua kém bất kỳ ngành Engineering nào, bao gồm cả EE.
Nhưng thôi, tốt nhất tôi sẽ không hỏi các bác những câu hỏi có vẻ stupid nữa.
Tôi vừa gửi cho bác Hưng các giáo trình vào e-mail buffalo giáo trình để bác xem qua rồi đấy.
Bác NKD có vẻ quan tâm đến “độ khó” nhiều nhỉ. Tôi sẽ viết một bài khác về điều này, vì tôi cho rằng câu hỏi “cái gì khó hơn” là câu hỏi không quan trọng, và mis-leading.
>>>
Tôi thấy 1 số người tốt nghiệp Phd Econ/finance thậm chí Philosophy, Sociology sau một thời gian cũng chuyển sang khoa statistics. Thậm chí có người xin được assistant prof ngay. Bác có biết những người đấy làm những gì bên khoa TK không? Hay đã vào khoa rồi thích research về cái gì cũng được.
<<<
Theo tôi biết thì phần lớn các vị này giữ vị trí affiliate hoặc joint by courtesy nhưng không phải là regular faculty (tức là không có voting power, không có teaching responsibility, hoặc có rất ít, trong khoa). Họ chủ yếu vẫn là ở khoa kia. Ví dụ, khi đi phỏng vấn tôi không phải gặp họ.
Những vị này làm về nghiên cứu gì trong TK? Một số sử dụng nhiều các công cụ thống kê trong lĩnh vực của mình, nhưng ít khi xây dựng phương pháp và mô hình mới. Một số cộng tác chặt chẽ với các statisticians khác. Có tên họ trong khoa để tăng visibility và tính interdisciplinary cũng là một buzzword quan trọng.
Cũng có một số vị vốn xuất thân từ một ngành khác nhưng đúng là statistician thứ thiệt. Một ví dụ là GS Andrew Barron ở Yale, lấy Phd bên EE, là một chuyên gia lý thuyết tôi rất thích. Nhưng những người như vậy không phải nhiều. Vài năm gần đây một số có Phd từ KHMT. Thực ra trong các ĐH ở Mỹ có thể kể tên trên một bàn tay. Nhưng điều này có thể nói về một sự chuyển dịch về chất của ngành TK mà tôi có nhắc đến trong một bài blog gần đây.
Tôi nghe nói cô Lee yoonjung là 1 trường hợp khá nổi tiếng, cô ấy học finance ở wisconsin, là trường vừa vừa về finance thôi, khoảng rank 2x, Phd xong, xin được ngay vào assistant prof statistics của Harvard.
Thực ra, tôi muốn tìm hiểu sự khác nhau giữa nghiên cứu Empirical Economics và Statistics+CS. Nếu cái đầu chỉ là tập con của cái sau thì có lẽ đã chẳng cần nghiên cứu Econ làm gì cho mệt, và cũng sẽ không có các giải thưởng cho empirical econ. Nhưng trên thực tế thì không phải như vậy.
Các mô hình empirical economics đều tương đối đơn giản, không đòi hỏi những thuật toán cầu kỳ. Tuy nhiên, đòi hỏi khả năng trực giác về kinh tế, xã hội. Chính vì vậy, mặc dù đại đa số những người đoạt giải Nobel là các nhà toán học, một người giỏi toán không nhất thiết sẽ thành công trong lĩnh vực kinh tế.
Các giáo sư kinh tế ở các trường đại học hàng đầu đều là những người rất giỏi toán. Nếu như có ngành toán nào có thể áp dụng trong nghiên cứu kinh tế thì họ đã áp dụng rồi. Tuy nhiên những thứ cao cấp kiểu combinatorics không sài được ở đâu cả cho nên kinh tế vẫn chỉ dừng lại ở mấy thứ linear algerbra, PDE, real analysis, convex analysis, stat& probability, …thôi.
Thế nhưng lại nảy sinh vấn đề là hiện nay nghiên cứu kinh tế tràn sang mọi lĩnh vực xã hội, bao gồm cả tài nguyên, môi trường. Người ta gọi là “dùng các phương pháp nghiên cứu kinh tế để nghiên cứu các vấn đề xã hội”. Đôi khi gặp phải những vấn đề đòi hỏi các kiến thức toán học cao cấp hơn để giải quyết thì các nhà kinh tế lại thiếu.
Tuy nhiên, tôi tin rằng mấy người Phd Econ/finance chuyển sang khoa statistics đều có mảng riêng để cho họ nghiên cứu, không phải chỉ đóng vai trò hỗ trợ hoặc interdisciplinary đâu. Có rất nhiều thứ trên đời không cần những thuật toán phức tạp. Ví dụ cân bằng Nash, rất dễ hiểu đối với các nhà nghiên cứu, nhưng phạm vi ứng dụng của nó rất lớn. Và các nhà toán học khác trước ông không nghĩ ra, nên ông ấy được giải Nobel.
Bác Nkd, Tôi không hiểu rõ lắm ý của bác; mỗi paragraph đều có nhiều ý debateable, nhưng không rõ ý chính của bác là gì.
Về vai trò của thuật toán “cầu kỳ”, cần hay không cần thuật toán phức tạp: Bác hiểu ý nghĩa của thuật toán thế nào?
Có hai ý tôi muốn nói: Một là, những lý thuyết, định lý có thể gói gọn trong một câu đẹp đẽ, kiểu như của Newton, Einstein, Mendel’s law, Watson-Crick’s, Turing’s, Shannon’s, Nash’s v.v. ngày nay còn rất ít. Nhiều người cho rằng khoa học ngày nay không còn gì mới nữa, theo nghĩa, mọi phát kiến mới thường là messy hơn. Messy ở đây có thể hiểu theo nghĩa thế nào?
Ý thứ hai, có nhiều định lý, lý thuyết đẹp đẽ ngắn gọn, nhưng đó là bề nổi. Để hiểu nó thì cũng rất messy, đòi hỏi tầng tầng lớp lớp các cấu trúc khái niệm, các giải thuật phức tạp. Có rất nhiều ví dụ tôi có thể nêu ra, nhưng sẽ technical và dân ngoại đạo khó mà appreciate được. Khoa học của thế kỷ 21 khác với thế kỷ 20 ở chỗ này. Không loại trừ ngoại lệ, nhưng không nên ảo tưởng vào một Einstein thứ hai, hay John Nash thứ hai.
Ngoài ra, tôi thấy bác hơi bị ám ảnh về khái niệm “giỏi toán”. Người làm toán như hòa thượng THT cũng chỉ nhận là thích học toán mà thôi. Với những người không làm toán, nhưng cần học để sử dụng nó, toán học tất nhiên không phải là xuất phát điểm. Quá trình nghiên cứu nghĩa là tìm tòi cái gì mình thích, sử dụng vốn mình có, khi thấy vốn chưa đủ thì mở rộng thêm kiến thức và học thêm công cụ khi cần. Khả năng nhận diện và áp dụng công cụ toán học mới chỉ là một trong nhiều khả năng cần khác. Theo tôi thì không nên để toán hù dọa mình, hoặc (vô tình?) để toán dọa người khác.
@NKD,
Combinatorics không phải toán “cao cấp” nếu so với “linear algerbra, PDE, real analysis, convex analysis, stat& probability”. Tôi nghĩ phân loại toán “cao cấp/thấp cấp” cũng là không quan trọng và mis-leading. Như bác Long viết, cái quan trọng là ta đang muốn trả lời câu hỏi gì, và công cụ gì hữu dụng nhất trong việc tìm câu trả lời. Công cụ càng đơn giản và hiệu quả thì càng tốt!
Khi toán học càng phát triển thì càng khó phân biệt “ngành này”, “nhánh” kia, vì các ý tưởng có xu hướng “hội tụ” về Rome (ví dụ: algebraic combinatorics, combinatorial topology).
Và, không phải combinatorics/algorithmic/complexity không tồn tại trong kinh tế, có lẽ người ta chưa đủ thời gian để “đánh vần” nó ra thôi. Tôi chỉ biết chút chút mà thấy rất nhiều ý tưởng của kinh tế học mang tính tổ hợp. Định lý Arrow chẳng hạn. Bác đọc quyển này xem:
http://www.cambridge.org/journals/nisan/downloads/nisan_non-printable.pdf
Sớm hay muộn cũng có “combinatorial economics”
Tôi không hiểu gì mấy về combinatorics nên không dám lạm bàn. Tuy nhiên tôi nghĩ rằng ứng dụng một lý thuyết toán vào một ngành nào đó chỉ thực sự có ý nghĩa khi có một nhóm problem đáng kể và quan trọng của ngành ấy bắt buộc phải sử dụng lý thuyết ấy mới giải quyết được. Đến giờ phút này, giới kinh tế vẫn chưa đưa combinatorics vào chương trình giảng dạy cho sinh viên Phd, và chưa có nhiều paper đề cập đến combinatorics, bởi vì chưa tìm thấy nhóm problem nào như thế.
Theo tôi, một tinh thần trong bài viết trên và cũng là một tinh thần chung của người làm khoa học là chỉ claim những gì mình biết. Bác Nkd có lẽ vẫn còn lẩn quẩn trong một ma trận nào đó nên vẫn chưa hiểu ý mà 2 bác Hưng và Long đã cố gắng giải thích.
Tôi chả claim cái gì tôi không biết cả. Điều hiển nhiên là hiện nay Econ hầu như không có combinatorics, hoặc có thì không đáng kể. Cái đấy tôi biết chắc chắn.
Bác Khoa cứ phát biểu kiểu vuốt đuôi thế tôi không phục chút nào.
Quyển Cambridge mà bác Hưng trích nói về Game Theory. Nhưng Game Theory, Mechanism design không phải là môn học riêng của Econ. Các bác cứ vào site học liệu mở của MIT thì sẽ thấy, khoa CS/EE cũng học game theory và mechanism design.
http://ocw.mit.edu/OcwWeb/Electrical-Engineering-and-Computer-Science/index.htm
Game theory thực ra rất rộng. Và được phát triển bởi nhiều nhà toán học. Kinh tế áp dụng phần nọ, CS áp dụng góc kia.
Lấy ví dụ, trong lĩnh vực Bargaining của game theory, cả hai khoa đều nghiên cứu. Nhưng bargaining có deadline là đặc thù của các agent trong CS, cho nên các paper của CS đề cập nhiều đến deadline, trong khi paper của Econ hầu như không đề cập.
Bác cứ google những bargaining có deadline đều thấy của khoa CS hết. Mặc dù paper liên quan đến Bargaining thì bên Econ làm khá nhiều.
Ví dụ paper của ông Sandholm, khoa CS của CMU này:
http://www.cs.cmu.edu/~sandholm/deadline_bargaining.pdf
Chính vì vậy, cái phần combinatorial algorithm, combinatorial aution đến bây giờ tôi nghĩ vẫn chỉ phục vụ cho CS/EE thôi. Tôi chưa thấy paper nào của Econ đề cập đáng kể đến lĩnh vực toán này.
Arow-Debreu viết định lý tổng quát. Nhưng trong quyển Cambridge chỉ đề cập đến linear case, dùng cho các ứng dụng của CS thôi.
Bác cứ cố label mọi thứ ra một hai ngành cụ thể làm cái gì nhỉ. Tại sao nói lý thuyết X được phát triển bởi các nhà toán học, mà không hiểu kỳ thực họ là các nhà X-học? Tại sao lại áp dụng cho kinh tế, rồi lại áp dụng cho CS? Nghe kỳ quá, như là chống đầu xuống đất vậy.
Không thấy curriculum của ngành X học Y không có nghĩa là X không liên quan đến Y. Đến khi cirriculum nó bắt sinh viên học Y thì cái connection ấy trở nên lạc hậu quá rôi bác a.
Theo tôi thì ai cũng cần chịu khó thực hiện lăng ba vi bộ cho tốt để du lịch từ ngành này sang thăm ngành kia, để thấy rằng mọi biên giới được đặt ra là do sự thiếu hiểu biết của mình tạo nên thôi.
Dân academic thì có khi người ta cố tình tạo ra ranh giới để bảo vệ cái nồi cơm của họ, giống hệt như cách bác nói chuyện đấy. Nhưng đấy là họ biết thế mà cố nói vậy.