Thư viện bài tháng 06 năm 2005

Các bài báo kinh điển của KHMT (2): Wald’s sequential analysis theory

Nguyễn Xuân Long | 29 tháng 06, 2005 | Bản để in Bản để in

Nối tiếp bài viết về bài báo nổi tiếng của Shannon, tôi muốn nói về một bài báo kinh điển trong thống kê cùng giai đoạn những năm 40, có vai trò đặc biệt đến KHMT, kinh tế, và operations research, và đẻ ra cả một lĩnh vực mới trong thống kê gọi là sequential analysis. Đó là bài báo sau đây của Abraham Wald, vốn là giáo sư đại học Columbia:

Wald, A. (1945). Sequential tests of statistical hypotheses. Annal of Mathematical Statistics. 16, 117-186.

Bài báo này giới thiệu một vấn đề mới mẻ trong một trong những lĩnh vực quan trọng nhất của ngành thống kê, đó là hypothesis testing, và giới thiệu một hướng giải quyết trọn vẹn. Được thai nghén trong thời kỳ chiến tranh thế giới lần thứ 2, có lẽ Wald đã quan tâm đến những vấn đề rất cụ thể trong lĩnh vực signal processing, như radar signal detection, missile detection, và system failure detection. Chẳng hạn chúng ta có một dãy dữ liệu mà radar có thể bắt được. Chúng ta muốn biết đó là một máy bay địch hay ta, để báo động cho quân đội và dân chúng. Ta muốn ra quyết định sớm nhất có thể được, nhưng cũng hạn chế tình huống báo động giả (false alarm, nói là máy bay kẻ thù trong khi đó là máy bay của ta), cũng như hạn chế tối thiểu tình trạng detection failure (không phát hiện được đây là máy bay địch). False alarm còn được gọi là type 1 error, còn detection failure probability được gọi là type 2 error trong ngôn ngữ ngành thống kê.

Ở dạng đơn giản nhất, bài toán của Wald có thể tóm tắt như sau: Giả sử có một dãy biến ngẫu nhiên độc lập và có cùng hàm phân phối (probability distribution) là P_0 hoặc P_1: X_1, X_2,…,X_n,… Làm thế nào để biết những biến ngẫu nhiên này có hàm phân phối P_0 hay P_1 với sai số nhỏ nhất (cả có thể được mà lại tốn ít mẫu dữ liệu (data sample) nhất? Nếu bạn chỉ cho tôi m mẫu dữ liệu là X_1, X_2,…, X_m, thì vấn đề này đã hoàn toàn đã được giải quyết bằng Neyman-Pearson lemma, và qua đó ta có thể tính được số mẫu dữ liệu tối ưu m là bao nhiêu. Như vậy, lời giải của bài toán radar detection trên là, tùy thuộc vào đòi hỏi tối đa về xác suất báo động giả và xác suất không báo động kịp (type 1 and type 2 probability errors), ta có thể tính được giá trị m tối ưu, và sau khi đã có đủ m mẫu dữ liệu thì sẽ đưa ra quyết định cuối cùng. Phương pháp này gọi là fixed-sample-size test. Tuy nhiên, trên thực tế, nếu bạn là người quan sát radar signal, có lẽ bạn sẽ không chịu làm như vậỵ Nhiều khi bằng cách quan sát chuỗi dữ liệu và theo dõi cách chúng thay đổi, chúng ta có thể đưa ra quyết định chính xác và sớm hơn nhiều.

Những cảm nhận tự nhiên và đơn giản thường là đúng, nhưng phải đợi đến Wald thì mọi việc mới sáng tỏ. Quả thật quan sát này của Wald gây chấn động trong giới thống kê. Hơn nữa, Wald còn đưa ra giải pháp tối ưu cho bài toán trên, sau này đươc gọi là Wald’s sequential likelihood ratio test:

Tại từng thời điểm, sau khi nhận được tín hiệu X_i, chúng ta tính likelihood ratio u_n = P_1(X_n)/P_0(X_n). Quan sát sự biến chuyển của tổng S_n = u_1 +…+u_n, và chúng ta sẽ dừng lại khi S_n vượt ra ngoài một khoảng [A,B] thích hợp. Nếu S_n <>P_0, còn nếu S_n > B thì ta kết luận ngược lại. S_n còn gọi là random walk, và thời điểm n mà chúng ta dừng lại chính là một dạng biến ngẫu nhiên, gọi là hitting time của random walk S_n.

Phải hai năm sau, Wald và học trò của mình là Paul Wolfowitz chứng minh một cách chặt chẽ rằng phương pháp trên là tối ưu nhất. Trên thực tế, Wald’s test có thể tiết kiệm được từ một nửa đến 1/3 số mẫu dữ liệu nếu ta dùng fixed-sample-size test. Điều đáng nói là cùng thời gian đó Arrow, Blackwell và Girshick cũng xuất bản một bài báo chứng minh về tính tối ưu của Wald’s test. Đặc biệt bài báo này lần đầu tiên giới thiệu phương pháp dynamic programming, với khái niệm “cost to go” nổi tiếng, mà 8 năm sau đó được Richard Bellman tổng quát hóa lên cho Markov Decision Processes. Rất tiếc là sau này người ta thường chỉ nhắc đến Bellman với danh nghĩa là người đã sáng tạo ra thuật toán dynamic programming. Bài báo của Wald châm ngòi cho cả lĩnh vực sequential decision-making theory, được áp dụng và phát triển dưới các màu sắc và thuật ngôn khác nhau trong thống kê(sequential analysis), trong operations research (markov decision processes), và trí tuệ nhân tạo ( reinforcement learning)…

Những nhân vật liên quan đến những ngày đầu của sequential analysis đều là những tên tuổi lớn trên bầu trời khoa học. Abraham Wald được coi là một trong những nhà thống kê học lỗi lạc và có ảnh hưỏng nhất của thế kỷ 20, sánh ngang hàng với Fisher và Neyman, những người được coi là ông tổ của thống kê. Kennet Arrow, hiện vẫn là giáo sư ở Stanford, vốn là một học trò của Wald, về sau này được nhận giải Nobel vì những cống hiến trong game-theory. Còn David Blackwell, giáo sư ở Berkeley, được coi là nhà toán học vĩ đại nhất người da đen, có rất nhiều cống hiến về game theory, kinh tế và thống kê học.

Một số tham khảo khác:

Arrow, K. J., Blackwell, D. and Girshick, M. Ạ (1949). Bayes and minimax solutions of sequential decision problems. Econometrica 17, 213-244.

Wald, A and Wolfowitz, J (1948). Optimum character of the sequential probability ratio test. Annal of Math. Statistics 19, 326-339.

Bellman, R (1957). Dynamic programming. Princeton University Press.

Chủ đề: Toán tối ưu & Xác suất & thống kê | Bình luận (3) »

Bug me not

Ngô Quang Hưng | 28 tháng 06, 2005 | Bản để in Bản để in

BugMeNot.com là một website cho bạn username/password để truy cập đến các websites khác đòi đăng ký mới cho đọc (ví dụ các báo NYTimes, LATimes, vân vân). Đại thể ý tưởng là người dùng dùng chung một username/password cho mỗi website như vậy. Ai đó đã đăng ký vào NYTimes rồi thì bỏ username/password vào BugMeNot, người khác cứ thế mà dùng.

Dĩ nhiên BugMeNot tránh cho bạn khỏi đăng ký phiền hà, đôi khi phải tạo một email account miễn phí linh tinh nào đó cho việc đăng ký (để khỏi bị spam cho email bạn thường dùng, và khỏi tiết lộ thông tin cá nhân). Thế còn về mặt đạo đức thì sao? Có một thảo luận về vụ này.

Điểm thú vị là tờ NY Times có các bài báo nói về website này (bài 1, bài 2).

Chủ đề: Trang web hay | Bình luận »

Kinh Dịch và Data Mining

Ngô Quang Hưng | 26 tháng 06, 2005 | Bản để in Bản để in

Trong bài phỏng vấn ở báo NLĐ, ông Linh phát biểu rằng “Kinh Dịch là khởi nguồn của khoa học thông tin”. Thiết nghĩ Kinh Dịch chắc hẳn là một tài liệu văn hóa quan trọng, nhưng phát biểu trên quả thật là phóng đại quá đáng.

Để bảo vệ “khoa học tính” của Kinh Dịch, ông Linh so sánh khả năng dự đoán của Kinh Dịch với kiểu “dự đoán” của môn xác suất thống kê, và nói “ở toán xác suất, người ta đã chứng minh được tính chính xác và đúng đắn dựa trên các hàm toán cụ thể“. Tôi biết chút chút về xác suất thống kê, nhưng tôi không hiểu câu trên nói gì.

Chắc ông ấy muốn nói trong Kinh Dịch có ngầm chứa một thuật toán Data Mining. Kể ra một bài báo kiểu “A new clustering algorithm based on Dịch Kinh” mà xuất hiện ở KDD 2050 thì thú vị thật.

Vụ này làm tôi nhớ đến các tranh luận về “Intelligent Design vs. Evolution” gần đây ở Mỹ.

Bạn có tin rằng xoay đầu giường ngủ về hướng khác sẽ mang lại hạnh phúc không? Tôi thì tin vào sáng tạo và lao động chân chính.

Chủ đề: KHMT và triết học | Bình luận (11) »

Các câu hỏi phỏng vấn [2]

Ngô Quang Hưng | 24 tháng 06, 2005 | Bản để in Bản để in

  1. Chỉ với các phép tính cộng, trừ, nhân, chia, các hàm lượng giác, phép lũy thừa, và phép lấy căn, cùng với ba số 2, làm thế nào để viết một biểu thức định trị ra 2005? (Gợi ý: 2005 không có gì đặc biệt, số nguyên dương nào cũng được.) [Câu này tôi biết qua chị Hà Dương, lúc giải ra rất thích! Đơn giản và độc đáo]
  2. Bụt, diêm vương, và Tèo đứng trước mặt bạn. Bụt và diêm vương cái gì cũng biết. Tèo thì cái biết cái không. Bụt luôn nói thật, diêm vương luôn nói dối. Với 3 câu hỏi có/không, mỗi câu chỉ hỏi một trong ba đối tượng, xác định ai là ai.
  3. Cho ab là các số nguyên dương, nguyên tố cùng nhau. Tìm công thức tính số nguyên lớn nhất không thể viết dưới dạng ax+by, trong đó xy là các số nguyên không âm.

Chủ đề: Dành cho du học sinh & Vui - Giải Trí | Bình luận (3) »

Luật Newton cho sinh viên sau đại học

Ngô Quang Hưng | 24 tháng 06, 2005 | Bản để in Bản để in

PhD Comics có nhiều tranh truyện vui về cuộc sống sinh viên sau đại học (grad students). Người quản lý website là Jorge Cham, cựu sinh viên tiến sĩ ở Stanford, và vài người khác. Các hình ảnh dưới đây đều link trực tiếp từ www.phdcomics.com.

  • Định luật tốt nghiệp của Newton:
  • Các câu hỏi tế nhị:

Chủ đề: Dành cho du học sinh & Vui - Giải Trí | Bình luận »

Các câu hỏi phỏng vấn [1]

Ngô Quang Hưng | 23 tháng 06, 2005 | Bản để in Bản để in

Microsoft nổi tiếng là có các câu hỏi phỏng vấn nhân viên mới mang tính kỹ thuật theo dạng đố “mẹo” (đa số là về thuật toán hoặc lập trình C/C++). Có nhiều bộ sưu tập các câu hỏi dạng này đã từng được hỏi ở các cuộc phỏng vấn ở Microsoft. Gần đây Google cũng phỏng vấn theo kiểu tương tự. Mỗi câu trả lời chỉ được cho khoảng 5-10 phút suy nghĩ. Đôi khi người ta quan tâm đến quá trình suy nghĩ của bạn hơn là bản thân câu trả lời.

Trong chuỗi bài này tôi sẽ nêu chọn lọc một số câu hỏi tôi thích nhất. Các câu hỏi được chọn không nhất thiết là khó nhất, tiêu chuẩn là gọn gàng và đẹp.

  1. Cho một danh sách liên kết đơn (simple linked list) hữu hạn. Có hai trường hợp: một là cuối danh sách trỏ về NULL, hai là trỏ về một phần tử đã gặp - tạo nên một vòng tròn trong danh sách.
    Ví dụ trường hợp 1: A –> B –> C –> D –> NULL.
    Ví dụ trường hợp 2: A –> B –> C –> D –> E –> F –> C.
    Cho trước một con trỏ vào một danh sách liên kết đơn L nào đó, hữu hạn nhưng có thể có độ dài tùy ý. Làm thế nào để kiểm tra nhanh nhất nếu danh sách L thuộc trường hợp 1 hay trường hợp 2, với điều kiện là ta chỉ được dùng vài chục bytes bộ nhớ.
  2. Cho một chuỗi ký tự s bao gồm nhiều từ. Viết một đoạn chương trình C đảo thứ tự các từ.
    Ví dụ: với input là “this is a nice blog” thì output là “blog nice a is this“.
  3. Cho hai dãy số đã xếp thứ tự tăng dần AB, mỗi dãy có n phần tử. Xét tập hợp sau:
    S = { A[i] + B[j] | 1 < = i, j <= n }.
    Chú ý rằng S có thể có đến n2 phần tử. Viết một chương trình in ra n số lớn nhất trong S. Chương trình phải chạy trong thời gian O(n).

Chủ đề: Dành cho du học sinh & Vui - Giải Trí | Bình luận »

Thủ tướng Khải thăm Microsoft

Ngô Quang Hưng | 22 tháng 06, 2005 | Bản để in Bản để in

Một blog KHMT tiếng Việt không thể không bình luận gì về chuyến viếng thăm Microsoft của thủ tướng Khải. Nhờ Microsoft tăng cường giáo dục, giảm giá phần mềm cho giáo dục, tăng đầu tư công nghệ vào Việt Nam, hỗ trợ doanh nghiệp, hợp tác giảm thiểu việc dùng phần mềm lậu tràn lan (92%) là các mục tiêu dễ đoán. Hai bản ghi nhớ được ký sau chuyến thăm là thành công bước đầu.

Tuy nhiên, trong bài phát biểu của thủ tướng ở Microsoft có hai điểm lấn cấn.

Thứ nhất, trong tinh thần “salesmanship” thủ tướng bảo người Việt Nam rất giỏi về khoa học với bằng chứng là các giải thưởng ở các kỳ thi học sinh giỏi quốc tế kỳ nào cũng đạt được. Quan hệ nhân quả ở đây thiếu logic. Đó là chưa nói đến chuyện ngầm khích lệ “luyện gà chọi”, lấy thành tích ở các kỳ thi ngắn ngày làm thước đo độ thông minh.

Thứ hai, ở cuối bài thủ tướng “yêu cầu” Bill Gates đến Việt Nam làm từ thiện. Phát biểu kiểu này chỉ nên nói trong buổi họp riêng giữa hai người vì nghe có vẻ hơi mất thể diện. Ngược lại, phát biểu này cho thấy thủ tướng rất thành thật, và một “yêu cầu” công cộng như thế có lẽ là sẽ khó bị khước từ hơn.

Chủ đề: CNTT các nước và VN & Nhân vật và sự kiện | Bình luận (1) »

Chuyện của Steve Jobs

Ngô Quang Hưng | 20 tháng 06, 2005 | Bản để in Bản để in

Anh Lê Cao Hải Trí gửi cho cái link vào bài nói chuyện của Steve Jobs (CEO của hãng Apple) ở Stanford. Rất truyền cảm!

Chủ đề: Nhân vật và sự kiện | Bình luận »

Nợ cà fê

Ngô Quang Hưng | 20 tháng 06, 2005 | Bản để in Bản để in

Blaine Harden của tờ Washington Post viết (ngày 18/6) rằng uống cà fê Starbucks làm sinh viên Mỹ nợ nhiều hơn cần thiết. Ba đô la một ngày trong 5 năm so với số nợ hơn một trăm nghìn của một sinh viên Luật thật ra chẳng thấm vào đâu. Đó là chưa tính đến việc sinh viên ngồi học bài trong môi trường êm dịu của Starbucks hoàn toàn có khả năng tăng chất lượng làm việc. Giáo sư Dan Drezner blog về đề tài này.

Dĩ nhiên cà fê Starbucks nói chung rất đắt so với túi tiền sinh viên, nhưng lý luận kiểu Blaine không hợp lý. Còn quần áo, các chuyến đi xa, bánh pizza, thuốc lá, apartments hơi đắt, … thì thế nào?

Tuy nhiên, con số 3USD làm tôi nhớ đến 200 đồng một đĩa cơm thêm trong căn tin đại học bách khoa. Nước mắm không phải trả tiền. Canh thì toàn quốc, và thức ăn chỉ có một quả trứng ốp la. Phải làm hơi sông sống để có cái chan vào cơm.

Chủ đề: Dành cho du học sinh | Bình luận (1) »

Các chiến lược sống còn cho xuất bản hàn lâm

Ngô Quang Hưng | 14 tháng 06, 2005 | Bản để in Bản để in

Đó là tựa đề bài viết của giáo sư John B. Thompson (đại học Cambridge) trên số mới nhất của tờ Chronicle. Ngoài các điểm trùng lập với các bài đã viết trên blog này (bài 1, bài 2, bài 3, bài 4), giáo sư Thompson nêu một thực tế thú vị: sách giáo khoa mới bán được càng lúc càng ít vì dịch vụ mua sách cũ với giá rẻ trên mạng hiện nay rất phổ biến.

Thủa “hàn vi” (còn là sinh viên), tôi hầu như không bao giờ mua sách cũ. Tôi ghét cảm giác đọc một quyển sách đã có người khác viết lách, đánh dấu vào rồi. Nếu ai cũng “chơi sang” như vậy thì các nhà xuất bản đã không có vấn đề. Dân Sài Gòn có câu: “ky ky cóp cóp cho cọp nó xơi”, quả là đúng.

Chủ đề: Xuất bản | Bình luận »

Bình chọn triết gia vĩ đại nhất

Ngô Quang Hưng | 12 tháng 06, 2005 | Bản để in Bản để in

BBC Radio 4 có chương trình bầu chọn triết gia vĩ đại nhất mọi thời đại. Danh sách các triết gia vào “chung kết” gồm có:

  1. (Thánh) Thomas Aquinas (Ý, 1225 - 1274)
  2. Aristotle (Hy Lạp, 384 BC - 322 BC)
  3. Rene Descartes (Pháp, 1596 - 1650)
  4. Epicurus (Hy Lạp, 341 BC - 270 BC)
  5. Martin Heidegger (Đức, 1889 - 1976)
  6. Thomas Hobbes (Anh, 1588 - 1679)
  7. David Hume (Scotland, 1711 - 1776)
  8. Immanuel Kant (Đức, 1724 - 1804)
  9. Søren Kierkegaard (Đan Mạch, 1813 - 1855)
  10. Karl Marx (Đức, 1818 - 1883)
  11. John Stuart Mill (Anh, 1806 - 1873)
  12. Friedrich Nietzsche (Đức, 1844 - 1900)
  13. Plato (Hy Lạp, 427 BC - 347 BC)
  14. Karl Popper (Áo/Hung, 1902 - 1994)
  15. Bertrand Russell (Anh, 1872 - 1970)
  16. Jean-Paul Sartre (Pháp, 1905 - 1980)
  17. Arthur Schopenhauer (Đức, 1788 - 1860)
  18. Socrates (Hy Lạp, 470 BC - 399 BC)
  19. Baruch Spinoza (Hà Lan, 1632 - 1677)
  20. Ludwig Wittgenstein (Áo, 1889 - 1951)

Đáng tiếc là trong danh sách “chung kết” này không có Phật Thích Ca, Khổng Tử, Lão Tử, Trang Tử, và cũng không có cả Georg Hegel hay Gottfried Leibniz.

Dĩ nhiên cái trò bầu bán kiểu này rất vô nghĩa, nhưng tôi cũng tò mò muốn biết kết quả. Bản thân tôi không biết chọn ai giữa Aristotle, Descartes, và Kant, thậm chí cả Russell.

Chủ đề: KHMT và triết học & Nhân vật và sự kiện | Bình luận (3) »

Báo chí viết về thuật toán

Ngô Quang Hưng | 11 tháng 06, 2005 | Bản để in Bản để in

Một bài báo của tờ Financial Times nói về việc dân buôn bán stock chuyên nghiệp hiện nay, ngoài trực quan/kinh nghiệm của trader, còn dùng thêm các thuật toán để giúp (quyết định) mua bán stock. Nếu thật sự hiểu nghĩa của hai chữ thuật toán, chuyện này không có gì mới. Có mới chăng là các máy tính ngày nay chạy các thuật toán này thay vì phải tính toán bằng tay trên giấy hay (kể cả là) bằng trực giác.

Bài báo hiểu sai khái niệm thuật toán, cho rằng thuật toán được sáng tạo bởi al-Khwarizmi, một nhà toán học Ba Tư hồi thế kỷ thứ chín. Xem đoạn cuối bài là rõ nhất.

Phương pháp Euclid để tìm ước số chung lớn nhất hoặc phương pháp sàng Eratosthene để liệt kê các số nguyên tố đều là các thuật toán có từ hơn hai nghìn năm trước. Chữ thuật toán, hay giải thuật (algorithm) là chuyển dịch của cái tên al-Khawarizmi. Đây là nguồn gốc sự nhầm lẫn đáng tiếc của bài báo, vì những bài báo như vậy góp phần phổ cập hóa các khái niệm trong KHMT.

Chủ đề: Thuật ngữ chuyên ngành | Bình luận »

Tin thêm về oursourcing ở Việt Nam

Ngô Quang Hưng | 08 tháng 06, 2005 | Bản để in Bản để in

Bài báo này trên Tuổi Trẻ khẳng định các dữ kiện đã nêu về Việt Nam và outsourcing: thị trường outsourcing thì nóng, nhưng chất lượng kỹ sư thì không đủ đáp ứng nhu cầu.

Chủ đề: CNTT các nước và VN | Bình luận »

Đồng hồ báo thức rồi … trốn

Ngô Quang Hưng | 08 tháng 06, 2005 | Bản để in Bản để in

Nếu bạn là chuyên gia “nướng” (như tôi), thì bạn sẽ thấy dự án nghiên cứu Clocky của nhóm Object-based Media thuộc Media Lab của MIT thật là … hay. Cái đồng hồ này (tôi link từ website của họ) sẽ báo thức rồi tìm cách trốn chui trốn nhủi vào đâu đó:

Bạn muốn tắt đồng hồ thì phải dậy đi tìm nó.

Chủ đề: Nghiên cứu nghiên kiếc | Bình luận »

Outsourcing và Việt Nam

Ngô Quang Hưng | 07 tháng 06, 2005 | Bản để in Bản để in

Một nghiên cứu đăng tuần trước cho biết nhân công làm help-desk và lập trình viên cơ bản ở Việt Nam là rẻ nhất thế giới, khoảng 3000USD một năm. Trong khi đó con số Ấn Độ vào khoảng 4500USD một năm, Trung Quốc thì cao hơn một chút. Thực tế này đáng lẽ phải cho Việt Nam một ít lợi thế cạnh tranh thị trường outsource, nhưng tiếc rằng chất lượng kỹ sư Việt Nam lại không cạnh tranh được.

Đáng mừng là, giá cả này gây được sự chú ý, trong khi Ấn Độ lại thiếu đến 250 nghìn nhân công có trình độ trong vòng 4 năm tới. Với chênh lệch giá cả như vậy, có khi Ấn Độ hay Trung Quốc lại outsource một lượng không nhỏ các hợp đồng về Việt Nam.

Chủ đề: CNTT các nước và VN | Bình luận »

Các bài kế »