Thư viện bài tháng 09 năm 2005

Nói chuyện với dân ngoại đạo

Ngô Quang Hưng | 30 tháng 09, 2005 | Bản để in Bản để in

Giáo sư Lance Fortnow có một post về việc giải thích cho dân ngoại đạo biết mình làm gì. Các thảo luận ở đó rất thú vị.

Quả đúng vậy. Nói chuyện với dân ngoại đạo dễ gây hiểu lầm, hoặc không truyền tải được thông tin gì cả. “Thuật toán xấp xỉ” và “độ phức tạp của các thuật toán xấp xỉ” là các khái niệm rất khó giải thích cho người không chuyên. Đó là chưa kể khoảng cách về thuật ngữ khi giải thích cho người Việt. Có nhiều thứ tôi không biết dịch tiếng Việt là gì, mà dịch xong rồi thì có khi nói tiếng Anh còn dễ hiểu hơn. “Expanding graphs” dịch thế nào?

Về VN, câu chuyện có thể diễn biến thế này (đây là tôi chắp vá và thêm thắt từ các đối thoại có thật):

  • Người thân/bạn bè (NTBB): “anh đang làm gì bên đó?”
  • Tôi: “tôi giảng dạy và làm nghiên cứu trong trường đại học”.
  • NTBB: “thế là giảng viên à?”
  • Tôi: “tôi làm assistant professor, khác với lecturer”.
  • NTBB: “Trẻ thế đã làm trợ giảng rồi à”, “có được nhiều tiền không?”
  • Tôi (cười méo mó): “tôi không còn trẻ lắm nữa, mà assistant professor không có nghĩa là assistant cho một professor, cho nên không phải trợ giảng, …, nhưng mà thôi, …”
  • NTBB: “thế anh làm nghiên cứu về cái gì?”
  • Tôi [rút kinh nghiệm, lần này chỉ nói vắn tắt]: “mạng máy tính và thuật toán”
  • NTBB: “thuật toán là gì?”
  • Tôi: “một thuật toán là một phương pháp chi tiết cho máy tính thực hiện một tác vụ nào đó, ví dụ như thuật toán chỉnh sửa ảnh trong PhotoShop, …”
  • NTBB: “cái PhotoShop tôi đang dùng bị lỗi thế này, anh có thể nào giúp được không?”

Đến đây thì tôi chịu bí.

Chủ đề: Thuật ngữ chuyên ngành & Vui - Giải Trí | Bình luận (3) »

Cộng điểm thi đại học. Soạn giáo án bằng máy tính.

Ngô Quang Hưng | 29 tháng 09, 2005 | Bản để in Bản để in

Diễn đàn giáo dục đang có một thảo luận sôi nổi về vấn đề cộng điểm thi đại học, dạy thêm và học thêm ở bậc phổ thông.

Tuổi Trẻ có một bài về một trường phổ thông ở Sóc Trăng không cho giáo viên soạn giáo án bằng máy tính. Duh!

Chủ đề: CNTT các nước và VN & Giáo dục & Nhân vật và sự kiện | Bình luận (1) »

Sách miễn phí trên Net [1]

Ngô Quang Hưng | 28 tháng 09, 2005 | Bản để in Bản để in

Tôi có khá nhiều links đến các sách toán và KHMT miễn phí trên Net, nhưng chưa bao giờ có dịp soạn lại để vào một chỗ. Chú ý là các sách này đều không vi phạm bản quyền, thường là do các tác giả cho không hoặc sách đã in nhưng sau một thời gian tác giả lấy lại được bản quyền và bây giờ cho không. Cũng có trường hợp các tác giả đang viết sách và để một bản nháp gần hoàn tất cho mọi người xem và sửa lỗi.

Các sách hôm nay có đề tài về thuật toán, lý thuyết độ phức tạp, lý thuyết đồ thị, và lý thuyết tổ hợp.

nhiều liên kết đến sách KHMT và Toán miễn phí trên Internet, nhưng tôi không đảm bảo được nội dung và bản quyền. Các sách ở trên tôi đều ít nhất đã đọc qua và thấy được.

Một ngày không xa, sẽ có sách miễn phí tiếng Việt.

Chủ đề: Giới thiệu sách | Bình luận »

Bằng tiến sĩ: bình một lời bình

Ngô Quang Hưng | 27 tháng 09, 2005 | Bản để in Bản để in

Bạn đọc Trân Ngân có một bình luận sau bài “Bão Katrina và KHMT“. Bình luận này rất thú vị, nhưng vì nó nằm ở phần lời bình của một bài viết cũ, nên không hiện ra trên menu bên trái trong mục “lời bình gần đây”. Tôi mạn phép copy lại lời bình này dưới đây.

Cứ theo bài viết của Linton Weeks trên tờ Washington Post thì tình trạng loạn tiến sĩ ở Mỹ đã đến hồi báo động khẩn. Một nghiên cứu sinh đệ trình luận án tiến sĩ về sáng tác văn học tại ĐH Georgia có thể gửi vài bài thơ chứ không phải tiểu luận. Một nghiên cứu sinh làm luận án tiến sĩ văn chương không nhất thiết phải đọc Shakespeare…

Có người giễu cợt rằng MS (thạc sĩ) thật ra là viết tắt của “More of the Same” (cũng y chang) và PhD (tiến sĩ) là viết tắt của “Piled Higher and Deeper” (xếp tầng tầng lớp lớp)…

Hiện tượng lạm phát tiến sĩ tại Mỹ thể hiện ở việc chuyên ngành nào cũng có tiến sĩ, từ gia đình học (family studies) đến kinh doanh thời trang (fashion merchandising). Riêng năm nay, có khoảng 42.000 người sẽ được cấp bằng tiến sĩ tại Mỹ - theo Trung tâm Nghiên cứu công luận thuộc ĐH Chicago.

Tình trạng hỗn loạn tiến sĩ khiến nảy sinh hiện tượng có những tiến sĩ văn chương hay sử học làm việc trong các hãng luật hay công ty kiểm toán.

Một trong những nguyên nhân làm “cộng đồng” tiến sĩ tăng nhanh là các tiêu chuẩn nghiên cứu bắt buộc ngày càng giảm bớt. Tại ĐH Chicago chẳng hạn, trước kia muốn lấy bằng tiến sĩ các ngành khoa học xã hội - trong đó có nhân chủng học, kinh tế học hay khoa học chính trị…. nghiên cứu sinh buộc phải thông thạo vài ngoại ngữ. Tiêu chuẩn này bây giờ đã bỏ. Tại ĐH Princeton, nghiên cứu sinh nhiều ngành khoa học không đòi hỏi phải biết tiếng Pháp hoặc tiếng Đức, chỉ cần rành làm toán.

Cách đây vài thập niên, muốn có tấm bằng tiến sĩ văn chương Anh tại Princeton, nghiên cứu sinh không những buộc phải biết tiếng La-tinh mà còn phải quen thuộc vài ngôn ngữ cổ.

Hiện tại, nhiều vị tiến sĩ văn chương ở khắp nước Mỹ chưa từng đọc các tác phẩm cổ điển của Đức, Anh và thế giới.

Ngoài ra, việc hình thành các phân khoa mà trước kia chỉ là một môn học hay sự hình thành nhiều ngành mới cũng là một trong những yếu tố góp phần kích phát làn sóng tiến sĩ. Cách đây vài thập niên, không hề có tiến sĩ vi sinh học, sinh thái học, thần kinh học, máy tính học…

Suốt gần 30 năm, từ 1875 đến năm 1903, nước Mỹ chỉ có khoảng 4.500 tiến sĩ. Cũng trong thời gian này, nước Mỹ xuất hiện nhiều tài hoa không có bằng tiến sĩ, trong đó có các văn sĩ thiết lập nền móng cho văn học Mỹ như Langston Hughes, Eudora Welty, Arthur Schlesinger Jr… Đó là chưa kể vài trường hợp cá biệt của các bậc kỳ tài chưa từng kinh qua ĐH, Ernest Hemingway chẳng hạn.

Từ đầu đến giữa thế kỷ 20, số tiến sĩ tại Mỹ tăng dần, theo tốc độ của cuộc chạy đua trên nhiều phương diện giữa Mỹ và Liên Xô. Năm 1957, Mỹ có 8.600 tiến sĩ nhưng tăng lên gần 34.000 vào năm 1973…

Theo tác giả Linton Weeks, vấn đề ở chỗ người ta bắt đầu có những quan niệm khác biệt so với trước kia. Tiến sĩ không hàm nghĩa học giả mà chỉ là chuyên gia.

Nói đúng hơn, tình hình bắt đầu “loạn” không phải mới đây mà từ nhiều năm trước. Trước năm 1984, một cuộc thăm dò cho thấy có đến 1/200 người trưởng thành ở Mỹ có bằng tiến sĩ! Trong bài viết trên tờ American Spectator hồi năm 1990, Hiệu trưởng ĐH Princeton Theodore Ziolkowski (đã quá cố) than rằng: “Ngày nay các ĐH Mỹ, trong đó có những trường tốt nhất, trao bằng tiến sĩ cho nghiên cứu sinh nước ngoài chỉ biết mỗi tiếng Anh, cho nghiên cứu sinh Mỹ mù tịt tiếng nước ngoài, cho nhà khoa học nhân văn hoàn toàn không biết toán học, thống kê hay phép suy luận và cho khoa học gia hay kỹ sư gần như không viết nổi một đoạn văn xuôi tiếng Anh mạch lạc”.

Không thể phủ nhận rằng hệ thống giáo dục Mỹ là một trong những hệ thống giáo dục hàng đầu thế giới. Mỹ có số nhà khoa học đoạt giải Nobel nhiều nhất. Mỹ cũng có chính sách thu hút nhân tài hợp lý…

Tình trạng “tiến sĩ giấy” chỉ nói lên thực trạng, rằng quan niệm xã hội phổ biến và hào quang tiến sĩ là đều tầm phào. Khi quan niệm này trở nên đúng đắn, danh hiệu tiến sĩ sẽ trở về với ý nghĩa đích thực của nó và người giành được tấm bằng cao quý này cũng xứng đáng tự hào mình là tiến sĩ.

Tôi đã viết về ý nghĩa của mảnh bằng Ph.D vài năm trước, cho nên về mặt kỹ thuật có lẽ không có gì để thêm vào nữa, chỉ xin bình luận một chi tiết nhỏ. Tôi không hiểu tại sao bạn Trân Ngân lại có lời bình này sau bài “Bão Katrina và KHMT”. Có lẽ là vì trong bài này tôi nêu ra một phác thảo ý tưởng cho một luận văn tiến sĩ chăng?

Chủ đề: Giáo dục | Bình luận (4) »

Các bài báo kinh điển KHMT (8): Graphical models

Nguyễn Xuân Long | 24 tháng 09, 2005 | Bản để in Bản để in

Thực ra trong bài này tôi sẽ không chỉ nói về một bài báo kinh điển mà sẽ nói về cả một chùm bài về graphical models, một phương pháp biểu diễn và suy luận thống kê tổng quát và hữu hiệu đã, đang và sẽ được ứng dụng rộng khắp trong các ngành khoa học liên quan đến dữ liệu,

Graphical models là một loại ngôn ngữ để biểu diễn mô hình về dữ liệu bằng graph và lý thuyết xác suất. Khó có thể giới thiệu súc tích hơn về graphical models bằng đoạn trích sau đây:

“Graphical models are a marriage between probability theory and graph theory. They provide a natural tool for dealing with two problems that occur throughout applied mathematics and engineering — uncertainty and complexity — and in particular they are playing an increasingly important role in the design and analysis of machine learning algorithms. Fundamental to the idea of a graphical model is the notion of modularity — a complex system is built by combining simpler parts. Probability theory provides the glue whereby the parts are combined, ensuring that the system as a whole is consistent, and providing ways to interface models to data. The graph theoretic side of graphical models provides both an intuitively appealing interface by which humans can model highly-interacting sets of variables as well as a data structure that lends itself naturally to the design of efficient general-purpose algorithms.

Many of the classical multivariate probabalistic systems studied in fields such as statistics, systems engineering, information theory, pattern recognition and statistical mechanics are special cases of the general graphical model formalism — examples include mixture models, factor analysis, hidden Markov models, Kalman filters and Ising models. The graphical model framework provides a way to view all of these systems as instances of a common underlying formalism. This view has many advantages — in particular, specialized techniques that have been developed in one field can be transferred between research communities and exploited more widely. Moreover, the graphical model formalism provides a natural framework for the design of new systems.” — Michael Jordan, 1998.

Graphical models ở những trường hợp đặc biệt nhất đã được sử dụng trong suốt thế kỷ trước: Mô hình dùng directed graphs đã được các nhà genetics sử du.ng trong pedegree analysis từ những thập niên 70 và trước đó. Mô hình Ising (cho undirected graphs) đuợc sử dụng từ đầu thế kỷ 20 để nghiên cứu về hiện tượng phase transition. Nhưng phải đến khi quyển sách kinh điển của Judea Pearl , giáo sư UCLA, ra đời thì graphical models mới được áp dụng rộng rãi.

Pearl, J. (1988). Probabilistic Inference in Intelligent Systems.
Morgan kaufmann, CA.

Công lớn của Judea Pearl là tổng quát hóa graphical models cho bất kỳ graphs và bất kỳ hàm xác suất nào. Ông còn phát kiến ra thuật toán belief propagation nổi tiếng để thực hiện inference trong graph, hiện được sử dụng rộng rãi trong machine learning, computer vision và coding theory. Pearl còn cho rằng graphical models mới là ngôn ngữ thích hợp cho knowledge representation trong ngành trí tuệ nhân tạo, chứ không phải là logic và những biến thể logic. Điều này gây ra một sự thay đổi lớn trong ngày TTNT, vốn bị thống trị bởi trường phái về logic của John McCarthy từ những ngày đầu cho đến hết thập niên 80.

Những thập niên 90 trở đi chứng kiến rất nhiều ứng dụng rực rỡ của graphical models trong các lĩnh vực xử lý dữ liệu, trong signal processing (speech recognition, vision), trong computational biology (DNA and protein analysis, phylogenetic analysis, …), trong ngôn ngữ và text data. Một bài blog gần đây một ví dụ.

Xin liệt kê vài GMs tiêu biểu mà chúng ta hay được nghe thấy:

  • Hidden Markov Models (HMM) (cho sequential analysis trong speech recognition, trong ngôn ngữ và văn bản, trong DNA và protein sequences)
  • Các biến thể của HMM trong lĩnh vực activity recognition (bác Bùi Hải Hưng ở SRI là một chuyên gia về vấn đề này)
  • Phylogenetic tree models (để nghiên cứu về tiến hóa)
  • Ising models (để nghiên cứu phase transition cho spin glass magnetic models, cũng được dùng trong computer vision để mô hình hình ảnh)
  • Probabilistic latent semantic indexing models (để mô hình văn bản, ảnh)
  • v.v.

Ngành trí tuệ nhân tạo nói riêng và KHMT nói chung có nhiều sáng kiến có tính nhất thời, thường là mất giá trị rất nhanh sau một thời gian nóng sốt giả tạo. Tôi nghĩ rằng graphical models sẽ có giá trị vững chắc hơn và lâu dài hơn nhiều, vì nó được xây dựng trên nền tảng là những viên gạch của ngành thống kê cổ điển, nhưng lại có sự đóng góp của nghiên cứu về thuật toán và computational complexity.

Quả thật, mỗi graphical model thường đươ.c định nghĩa trên cơ sở hàm xác suất (hoặc potential function) trong từng clique của graph, mà mỗi clique đó lại được mô hình hóa bằng những mô hình kinh điển của ngành xác suất thống kê). Khả năng, sự định hướng và sự tham vọng về những vấn đề về tính toán của những người làm về KHMT cho phép họ nghiên cứu những mô hình đồ sộ và thực tế hơn mà những người làm về thống kê cổ điển không thể dám mơ tới.

GMs là một cơ sở hạ tầng tự nhiên cho nhiều ý tưởng hay, và có ảnh hưởng sâu và rộng, về thuật toán, xác suất thống kê, và vật lý thống kê trong suốt thời gian qua:

  • Các thuật toán sampling Markov Chain Monte Carlo (MCMC) và biến thể (Gibbs sampling, Metropolis-Hasting)
  • Thuật toán EM (Expectation-Minimization)
  • Thuật toán deterministic theo kiểu message-passing, như belief propagation, mean -field theory
  • Liên hệ giữa phase transition của Ising models trong vật lý thống kê, và computation complexity của thuật toán MCMC
  • Liên hệ giữa statistical inference và optimization trong graphical models

Những nghiên cứu hiện nay còn tập trung vào việc phát triển và ứng dụng những mô hình vô hạn chiều. Nếu bạn nghiên cứu về graphical models, bạn sẽ nhận ra là mình có thể nói chuyện được với dân làm về xác suất thống kê, dân làm về vật lý lý thuyết, dân làm về signal processing, dân làm về lý thuyết thuật toán, dân làm về sinh học phân tử. Nghiên cứu về GMs là một sự giao thoa thú vị của khá nhiều ngành khác nhau, cho cả những người có thiên hướng về lý thuyết và những người thích những ứng dụng cụ thể.

Sau đây là một vài bài báo (hoặc là kinh điển hoặc là khá gần đây, mang tính chất giới thiệu và survey) đáng tham khảo:

David Spiegelhalter, Philip Dawid, Steffen Lauritzen and Robert Cowell.
Bayesian Analysis in Expert Systems. Statistical Science, Vol 8, No 3, 1993.

Michael I. Jordan. Graphical Models. Statistical Science, Vol 19, 140-155, 2004.

Chủ đề: Trí tuệ nhân tạo | Bình luận (3) »

Danh sách các tạp chí khoa học miễn phí

Ngô Quang Hưng | 24 tháng 09, 2005 | Bản để in Bản để in

Thự viện của đại học Lund của Thụy Điển bảo trì một thư mục các tạp chí khoa học “mở”. Trong thư mục này có danh sách này có 59 tạp chí KHMT, 65 tạp chí toán học, và 14 tạp chí thống kê. Có một danh sách khác của các tạp chí toán học trực tuyến, và các tạp chí khoa học trực tuyến nói chung.

Thư viện mở là hướng đi tất yếu.

Chủ đề: Trang web hay & Xuất bản | Bình luận »

Khoa học, báo chí, và dân ngoại đạo

Ngô Quang Hưng | 23 tháng 09, 2005 | Bản để in Bản để in

Một bài báo của tờ Guardian viết về các tin tức khoa học viết trên báo chí phổ thông. Rất thú vị!

Tuần trước, tờ NY Times có bài op-ed của giáo sư Vật Lý Lisa Randall của Harvard về các từ chuyên môn của khoa học hay bị hiểu sai theo nghĩa phổ thông, và có thể bị lạm dụng cho các mục tiêu phi khoa học khác. Các từ hay bị hiểu sai bao gồm: tính tương đối (trong lý thuyết tương đối), nguyên lý bất định (của Heisenberg), lý thuyết (khoa học), quan sát (khoa học), global warming, vân vân.

KHMT có những từ chuyên môn nào mà dân ngoại đạo hay hiểu sai nhỉ? Lần trước tôi có một ví dụ về hiểu sai chữ thuật toán.

Bài học của chúng ta: các nhà khoa học cần chủ động hơn trong việc quảng bá các kết quả khoa học chân chính cho dân ngoại đạo.

Chủ đề: Giáo dục & Thuật ngữ chuyên ngành | Bình luận »

Thiết kế lại Internet (1)

Ngô Quang Hưng | 22 tháng 09, 2005 | Bản để in Bản để in

1. Các vấn đề căn bản của Internet hiện nay

Từ khi Vint Cerf và Bob Kahn phác thảo bản thiết kế Internet đến nay, sự bùng phát của Internet và các ứng dụng của nó là bằng chứng sống rằng thiết kế này rất tốt. Họ được giải Turing rất xứng đáng. Tuy nhiên, hiện nay tồn đọng vài vấn đề mà Internet về bản chất không đáp ứng được:

  • Sau nhiều năm nghiên cứu về truyền dữ liệu thời gian thực (real-time data) như video, audio trên Internet, nhất là từ đầu thập niên 90 đến nay, vẫn chưa có giải pháp tốt cho vấn đề này. Các đề nghị về IntServ, DiffServ, RSVP, … được IETF bàn ra tán vào bao nhiêu lâu mà ta vẫn không có video on demand. Đây không phải là do thiếu băng thông, mà do nguyên tắc thiết kế cố hết sức (best effort) và các nhân tố khác. Ở trung tâm (backbone) của Internet, ta chỉ dùng khoảng 15% khả năng của nó, còn ở ngoài rìa thì còn ít hơn - từ 1% đến 3% (xem bài báo của Odlyzko).
  • Các vấn đề về bảo mật không được coi trọng trong thiết kế ban đầu của Internet, gây ra nhiều vấn đề rất phức tạp:
  • Năm nào cũng nổi đình nổi đám vài con worms và viruses gây thiệt hại rất lớn.
  • 70-80% emails là spam - làm tốn bao nhiêu băng thông và thời gian, tiền bạc. Đó là chưa kể đến các vụ tấn công kiểu social engineering như vụ chuyển tiền từ Nigeria mà chúng ta ai cũng từng nhận được emails.
  • Các tấn công từ chối dịch vụ (DoS và DDos) cực kỳ khó chống, vẫn là vấn đề đau đầu cho các nhà quản trị mạng.
  • Hackers tràn lan, thỉnh thoảng hack vào website của CIA hay của Microsoft cho vui, nói chi đến các công ty và máy tư nhân.
  • Routing protocol ở tầng toàn cục (BGP4) chịu ảnh hưởng lớn của từng router và sự chính xác của người đặt cấu hình router. Chỉ cần một (vài) BGP router bị lỗi là có thể làm mất tính liên thông của Internet rất lâu. (Xem vụ AS7007 năm 1997 và vụ AS3561 năm 2001.) Đó là chưa kể đến các vấn đề bảo mật liên quan đến routers có thể làm ảnh hưởng đến toàn mạng, bao gồm vụ Micheal Lynn vừa qua. Thời gian hồi phục sau lỗi của Internet rất lâu, trung bình là 3 phút, nhưng đa phần là trên 15 phút.
  • Việc các đối tác thứ 3 (third party) thò mũi vào càng làm cho vấn đề phức tạp. Khi xưa thì chỉ có Internet và người dùng. Nay thì các quan chức của các tổ chức lớn hay của các nhà nước, cùng với các quan tâm xã hội về tôn giáo, văn hóa, thuần phong mỹ tục, chính trị hoàn toàn làm quá tải thiết kế ban đầu. Internet hiện nay là gương phản chiếu thu nhỏ của xã hội loài người, với nhiều không gian mâu thuẫn của các loại đối trọng khác nhau mà bản thân thiết kế cũ không đáp ứng hết được.
  • Cho đến khoảng cuối những năm 90, thiết kế cũ của Internet vẫn còn đủ “nhuyễn” để đáp ứng được các công nghệ truyền thông mới (cáp quang, Ethernet tốc độ cao, …). Tuy nhiên, xu hướng phát triển mạng không dây (wireless networks), mạng cảm biến (sensor networks), và mạng của các thiết bị tí hin khác (PDA, đồng hồ đeo tay, đồ dùng trong nhà, …) đang đẩy TCP/IP đến hết ngưỡng chịu đựng của nó. Các mạng mới này có tần suất lỗi đường truyền cao, làm cho các ước lượng thời gian của TCP bị hổng cẳng. Các thiết bị con con mới ra đời là các thiết bị ngu ngốc, không phải cái nào cũng chạy được cả một TCP/IP stack, nhưng lại vẫn muốn nối mạng toàn cầu. Đây là chưa kể đến các kiểu mạng mà ta chưa hình dung được như mạng liên hành tinh.
  • Người sử dụng Internet bây giờ cũng “lơ tơ mơ” hơn trước nhiều. Thời gian mới ra đời thì Internet chủ yếu được dùng bởi dân máy tính hoặc các khoa học gia khác để trao đổi thông tin kỹ thuật và nghiên cứu. Hiện nay thì các dịch vụ cung cấp bởi Internet không đáp ứng được sự khác biệt quá lớn của người dùng: từ chuyên gia đến dân ngoại đạo.
  • Internet2 có khả năng giải quyết vài vấn đề nho nhỏ (mở không gian địa chỉ, multicast), nhưng về căn bản triết lý thiết kế chẳng khác gì hiện nay.

    Các thách thức lớn này là một trong những mối quan tâm hàng đầu của các khoa học gia máy tính nói riêng và các tổ chức tài trợ nghiên cứu nói chung. NSF bắt đầu khởi xướng một chương trình mới về thiết kế lại Internet lấy tên là GENI (Global Environment for Networking Investigation). Ước tính sẽ cần khoảng hơn 300 triệu USD cho giai đoạn đầu.

    Để hiểu rõ các thuận lợi, khó khăn, và yêu cầu của một Internet mới, ta sẽ xem lại thiết kế cũ và các nguyên tắc của nó.

    Chủ đề: Mạng máy tính | Bình luận (2) »

    Nghiên cứu tin … vịt

    Ngô Quang Hưng | 21 tháng 09, 2005 | Bản để in Bản để in

    Các tin đồn thiệt và thất thiệt có khả năng gây hiệu ứng xã hội mạnh (cả tốt lẫn xấu). Ví dụ như tin đồn đầu tháng 9 là giá xăng sắp tăng, bà con đổ đi mua xăng. Tin đồn ở một buổi hành lễ ở Iraq là sắp có đánh bom tự sát làm cả nghìn người dẫm đạp lên nhau mà chết.

    Có lẽ ai cũng đồng ý là tin vịt ảnh hưởng xấu đến tương tác xã hội, và đến các cá thể liên quan nói riêng. Ngược lại, các đối trọng thiếu quyền lực trong một xã hội hay một nhóm người có thể lợi dụng tin đồn để tuyên truyền một thông tin chính xác nào đó mà họ không thể truyền qua các phương tiện công khai.

    Thế nhưng, tầm quan trọng của tin đồn trong các tương tác xã hội và cơ học của sự lan truyền tin đồn vẫn chưa được nghiên cứu cẩn thận. Hầu như không có dữ liệu khoa học nào về tin đồn. Gần đây, một nhóm các nhà nghiên cứu khoa tâm lý học ở viện công nghệ Rochester (RIT) đã xin được tài trợ của NSF làm nghiên cứu về đề tài này.

    Một trường hợp đơn giản của sự lan truyền các tin đồn và mô hình hóa chúng đã được nghiên cứu trong KHMT dưới cái tên bài toán gossiping. Đại khái, cho nhiều cá thể nối với nhau bởi một mạng thông tin liên lạc nào đó, mỗi cá thể có một mẩu tin muốn truyền cho tất cả các cá thể khác trên mạng lưới này. Cụ thể hơn, cho một đồ thị, trong đó mỗi đỉnh có một gói dữ liệu phải gửi đến tất cả các đỉnh khác.

    Có rất nhiều biến thể của bài toán này, tôi liệt kê ra đây vài biến thể chính:

    • Cho trước đồ thị, thiết kế một thuật toán để các tin đồn lan truyền nhanh nhất, để tổng số gói dữ liệu gửi thừa là ít nhất (ví dụ anh A nghe tin đồn 2, 3 lần thì phí băng thông). Có thể có các giới hạn khác như: mỗi đỉnh chỉ được gửi/chuyển tiếp vài gói dữ liệu (tránh tình trạng overload). Vài ví dụ bài báo dạng này: một, hai, ba.
    • Tìm xem ít nhất cần bao nhiêu thời gian (cận dưới, cận trên) để các tin đồn hoàn tất, với nhiều dạng đồ thị khác nhau. Ví dụ một, hai.
    • Với một thuật toán lan truyền tốt nào đó, thiết kế đồ thị cho thuật toán này chạy tốt nhất. Ví dụ một, hai.

    Bài toán này có khá nhiều ứng dụng, từ giải các hệ thống tuyến tính trong xử lý song song, FFT, đến bài toán sắp xếp. Xem thêm một survey cũ. Bài này cũng có liên quan đến bài toán tôi đã đề cập nhân vụ bão Katrina.

    Chủ đề: Lý thuyết tính toán & Mạng máy tính & Nhân vật và sự kiện | Bình luận »

    Hội Khoa Học Trung Quốc chống “đạo khoa học”

    Ngô Quang Hưng | 19 tháng 09, 2005 | Bản để in Bản để in

    Như trong “đạo văn”, “đạo nhạc”, làm khoa học có thể “đạo kết quả”, “đạo dữ liệu”, … Hội khoa học Trung Quốc điều tra và công bố tên các “đạo gia” làm gương. Các trường hợp chôm kết quả, dịch luận án nước ngoài làm luận án của mình, vân vân, đều có.

    Sự minh bạch là điều kiện tiên quyết của một xã hội văn minh.

    Chủ đề: CNTT các nước và VN & Chính trị trong ngành & Nhân vật và sự kiện | Bình luận »

    Tẩy chay Elsevier

    Ngô Quang Hưng | 18 tháng 09, 2005 | Bản để in Bản để in

    [Từ Ernie 3D PancakesIdiolect]

    Reed Elsevier là một trong những nhà xuất bản hàn lâm lớn nhất thế giới. Mấy năm gần đây, đã có rất nhiều vụ các khoa học gia tẩy chay Elsevier vì giá cả cắt cổ. (Xem thêm một bài trước tôi đã viết về vấn đề này, và vài liên kết khác từ blog của Jeff Erickson.)

    Gần đây, Tom Stafford ở Idiolect chỉ ra rằng một công ty con của Reed Elsevier, công ty Spearhead Exhibitions, đã tổ chức DSEi - hội chợ vũ khí lớn nhất thế giới. Xem thêm các trao đổi (một, hai, ba, bốn) của Tom với Reed Elsevier.

    Ngẫu nhiên là hôm qua tôi vừa xem phim Lord of War, một phim truyện chính trị (diễn viên chính Nick Cage) nói về buôn bán vũ khí trên thế giới, các tác hại, các ngầm định đạo đức [giả] của nó. Phim có nhiều thông tin, hài hước, và chát (dark humor).

    Tẩy chay Elsevier là điều thiết thực nhất tôi có thể làm được bây giờ. Tôi sẽ không nộp bài báo và review cho các journals của Elsevier nữa! Đằng nào thì IEEE và ACM cũng có rất nhiều journals trong KHMT có giá trị hơn hẳn các journal KHMT của Elsevier, đó là chưa kể các online-journals có uy tín đang xuất hiện khá nhiều.

    Chủ đề: Chính trị trong ngành & Xuất bản | Bình luận »

    Sinh nhật 30 tuổi của Microsoft

    Ngô Quang Hưng | 18 tháng 09, 2005 | Bản để in Bản để in

    Tờ Times/SunTimes online của Anh có báo cáo đặc biệt về Microsoft nhân sinh nhật 30 tuổi. Tác giả tóm tắt quá khứ, hiện tại, các thuận lợi và các vấn đề tương lai mà Microsoft phải đối chọi. Đối thủ cạnh tranh lớn nhất chính là Google.

    Tờ Fotune có bài rất hay về Microsoft vs Google hồi tháng 5 vừa qua.

    Chủ đề: CNTT các nước và VN & Nhân vật và sự kiện | Bình luận »

    Tìm thiên thể mới bằng … Google?

    Ngô Quang Hưng | 14 tháng 09, 2005 | Bản để in Bản để in

    Tháng trước có một sự kiện xôn xao giới thiên văn. Tờ NY Times vừa có bài về vụ này. Đại loại là ngày 27 tháng 7 vừa rồi một nhóm các nhà thiên văn Tây Ban Nha ra thông cáo rằng họ khám phá ra một thiên thể rất lớn trong hệ mặt trời, to gần bằng Pluto, với tên kỹ thuật là 2003 EL61, còn có tên khác là K40506A.

    Oái oăm là, nhóm của giáo sư Michael Brown ở đại học Caltech đã theo dõi thiên thể này nhiều tháng liền trước đó, nhưng chưa thông báo ra vì muốn thu thập dữ liệu nghiên cứu trước. Không còn cách nào khác, ông Brown gửi thư chúc mừng các đồng nghiệp xứ bò tót, và thậm chí còn ghi rõ trên homepage rằng “các nhà khoa học kia xứng đáng hưởng kết quả tìm kiếm của họ” (xem tin ngày 10 tháng 8). Chưa hết, nhóm Caltech báo thêm 2 thiên thể nữa còn lớn hơn mà nhóm vẫn đang … giấu diếm đã 6 tháng để nghiên cứu trước, trong đó có 2003 UB313, hành tinh thứ 10 của hệ mặt trời!

    Sự kiện rẽ sang ngã mới khi Brown khám phá ra rằng cái log của kính thiên văn dùng để quan sát 2003 EL61 đã có thể truy cập được trên Internet vài ngày trước khi nhóm Tây Ban Nha thông báo kết quả của họ. Brown nói: “chỉ cần google K40506A 2 giây là ra”.

    Tôi vừa thử google thì ra cái log này, chắc không phải là log duy nhất. Dùng các dữ liệu này, ai có kính thiên văn là có thể hướng đến các tọa độ đó và quan sát thiên thể mới.

    Sau khi truy cập weblog của các websites chứa dữ liệu về kính thiên văn, Brown thấy rằng có ai đó ở IP 61.111.165.49 (IP của viện thiên văn Tây Ban Nha - chỗ của nhóm kia) đã truy cập các logs này vào ngày … 26 tháng 7, một ngày trước thông báo của nhóm kia.

    Brown gửi email đến giám đốc trung tâm quốc tế về các hành tinh nhỏ yêu cầu tước bỏ “danh hiệu” người khám phá ra 2003 EL61 đầu tiên. Brown cũng bỏ lời chúc mừng nhóm kia ra khỏi homepage của mình.

    Thời biểu chi tiết và các sự kiện liên quan được nhóm của Brown để lên website của họ. Theo trang này thì Brown đã gửi email đến nhóm Tây Ban Nha về vụ truy cập weblog, không nhân được trả lời, nên vài ngày sau Brown mới càm ràm ra ngoài. Nhóm Tây Ban Nha thì nói: đây không phải lần đầu nhóm của Brown giấu diếm kết quả để nghiên cứu trước. Các thiên thể Quaoar và Sedna đã ở tình trạng tương tự.

    Về nguyên tắc thì các khám phá khoa học nên được chia sẻ với toàn bộ cộng đồng nghiên cứu để đẩy nhanh tiến trình khám phá các chân lý mới. Thế nhưng, khi một nhà toán học khám phá ra một bổ đề quan trọng cho một định lý đang tìm cách chứng minh thì có phải “chia sẻ” kết quả này ngay với đồng nghiệp không? Hay là dành vài tháng, vài năm, suy nghĩ tiếp đến khi ra thì thôi?

    Tôi không biết các qui chuẩn trong giới thiên văn thế nào, chứ nhà toán học giả dụ kia thì không vi phạm đạo đức nghề nghiệp gì sất! Andrew Wiles gần như ở ẩn 7 năm trời để chứng minh định lý Fermat lớn … một mình ông.

    Chủ đề: Nghiên cứu nghiên kiếc & Nhân vật và sự kiện | Bình luận (1) »

    Khoa KHMT cần dạy gì cho thị trường việc?

    Ngô Quang Hưng | 14 tháng 09, 2005 | Bản để in Bản để in

    [Thông tin biết qua blog của Daniel Lemier]

    Một bài viết của Dan Zambonini càm ràm rằng sinh viên mới ra trường ở các khoa KHMT học rất nhiều thứ “kêu” như mạng neural, computer vision, AI, complexity theory, machine learning, quantum computing, bio-computing, … mà thiếu kiến thức căn bản cho đa phần thị trường việc. Đại ý Dan nói rằng: “các khoa KHMT chú trọng quá nhiều vào phần science mà bỏ qua phần engineering” của máy tính.

    Một danh sách sơ bộ các topics cần cho thị trường mà Dan nêu ra bao gồm:

    • The basics of Programming (variables, data types, references, pointers, scope, error handling, iteration, core algorithms - searching, sorting, etc.)
    • Basic mathematics, basic statistics
    • Patterns and Anti-Patterns (With real world examples, not just theory)
    • Real world Databases (Normalisation and De-normalisation, SQL, Indexing)
    • Basics of good code architecture: Loose Coupling, etc.
    • OO Design, Interfaces, etc.
    • The importance and tools of Planning: Spec’ing,, UML etc.
    • Architectures: client/server, SOA, P2P, etc.
    • A ‘Big’ language or two (Java, C#, C/C++)
    • A scripting/’agile’ language or two (PHP, Perl, Python, Ruby)
    • XML (DOM/SAX, XSLT/XPath, etc.)
    • Economics, Business Studies, Costing Projects, Commercial pressures
    • Copyright, Privacy, Data Protection
    • Project/Time Management
    • Internationalisation, Localisation, Encoding, Unicode
    • Grammar, punctuation, concise and clear writing
    • Interface Design, Usability, Accessibility, HCI
    • Security
    • Code Reading
    • Common Protocols (TCP/IP, HTTP, SMTP, FTP)
    • Testing, Debugging, Performance, Re-factoring
    • Problem analysis
    • Source control, change management
    • The typical Software lifecycle
    • Metadata, Information Architecture, etc.
    • The basics of GIS
    • Touch typing
    • Health and safety (nutrition?)

    Danh sách các topics này khá là thú vị. Tôi sẽ viết về một chương trình tôi cho là lý tưởng cho một khoa KHMT vào dịp khác.

    Chủ đề: CNTT các nước và VN & Giáo dục | Bình luận (9) »

    Nghe gõ bàn phím, đoán passwords

    Ngô Quang Hưng | 12 tháng 09, 2005 | Bản để in Bản để in

    Một bài báo mới đây của Li Zhuang, Feng Zhou, và Doug Tygar (Berkeley) cho thấy có thể viết chương trình nghe và đoán ta đang gõ gì trên bàn phím, và đoán cả passwords, nếu chương trình có một đoạn ghi âm sẵn của khoảng 10 phút gõ.

    Đại ý là âm thanh của các phím khác nhau (nhất là do một người gõ), do đó ta có thể dùng thống kê các ký tự tiếng Anh để đoán phím, với sự trợ giúp của các kỹ thuật căn bản của machine learning và speech recognition.

    Nói túm lại chit-chat với Skype không khéo sẽ bị mất passwords hồi nào không hay.

    Còn giao tiếp nào của người/máy có thể dùng cảm biến đo được nữa nhỉ? Sóng não?

    Chủ đề: Bảo mật và mật mã học & Trí tuệ nhân tạo & Xác suất & thống kê | Bình luận (4) »

    Các bài kế »