Giới thiệu một số sách KHMT [2]: machine learning

Nguyễn Xuân Long | 07 tháng 10, 2007 | Bản để in Bản để in

Nhân đây xin nhắc thêm là về non-combinatorial optimization thì tôi có điểm một danh sách cách đây vài năm . Còn về combinatorial optimization thì anh Hưng đã điểm qua ở bài blog trước.

Chuyển qua machine learning và statistics… Có lần một người bạn tôi hỏi David Blackwell, khi cậu ta mới chập chững vào PhD program. Rằng, có cái gì hay ho tôi nên theo đuổi trong statistics? Blackwell trả lời, nên học machine learning và nonparametric statistics. Tôi gộp cả ML và Stats vì tôi coi hai ngành này là một, dẫu về truyền thống và định hướng hiện tại thì có những sự khác biệt nhất định. Có rất nhiều sách hay trong ngành, nhưng chỉ giới thiệu một số mà tôi quen thuộc hơn cả. Như vậy còn một số sách hay mà chưa được list, xin bạn đọc bổ sung qua comments. Những quyển đánh dấu sao (*) có thể dùng làm sách nhập môn tốt. Ngoài ra, (+) cũng là những quyển sách tôi ưa thích.

5. Machine learning và statistics

5.1. Sách giới thiệu với hương vị machine learning

Đặc điểm chung của các sách giới thiệu về ML là sau khi ta đọc xong thì thấy đó là một cái túi của các toolboxes, một đống lùng nhùng hỗn độn các mô hình (machines, networks, concepts) và các loại thuật toán học (learning algorithms). Người mới học, nhất là khi đang ở undergraduate thường hoặc bị choáng ngợp bởi sự phong phú đa dạng và lộn xộn của cái rừng bách thú bách thảo giàu có ấy, hoặc có phần thất vọng vì bị lạc lối mà không tìm đâu ra được một bức tranh thống nhất hoặc một dạng kim chỉ nam xuyên suốt kiểu như lý thuyết Darwin trong sinh học, hoặc các định luật Newton trong cơ học. Tôi đã đến với machine learning với một ấn tượng như vậy. Không chỉ ngành machine learning mà nói chung cả ngành trí tuệ nhân tạo là như vậy. Như thế có nghĩa là chúng ta đã gặp may, có thể còn rất nhiều ý tưởng hay hớm nằm chờ đâu đó trong ngành TTNT hay machine learning. Có nhiều quan điểm khác nhau về hướng đi của TTNT, nhưng tôi có một niềm tin chủ quan rất vững chắc là chìa khóa để mở cửa lâu đài TTNT nằm đâu đó trong khu rừng bách thảo machine learning (bách thú trong tương lai ?) rất sinh động này. Lý thuyết thống kê cổ điển cho chúng ta một số hình dung sơ lược về hình hài của một bản đồ có thể dẫn tới chiếc chìa khóa ấy, nhưng chắc chắn còn cần rất các công cụ tính toán và toán học cũng như các ý tưởng và techniques mang tính cách mạng sẽ được phát triển trong tương lai.

  • T. Michell, Machine Learning, Tom Mitchell, McGraw Hill, 1997.
    Quyển này từng là quyển sách đầu tay cho dân ML, nhưng nay nó đã lạc hậu về nội dung.

  • R. Duda, P. Hart and D. Stork. Pattern Classification. Wiley, 2000.
  • K. Fukunaga. Statistical pattern recognition. AP, 1990.
  • (*) J. Friedman, T. Hastie and R. Tibshirani. The elements of statistical learning. Springer, 2001.
  • (*) C. Bishop, Pattern recognition and machine learning. Springer, 2006.

5.2. Sách tập trung vào các dạng mô hình học thống kê

A. Các mô hình tương đối khái quát

  • (*) C. Bishop, Neural networks for pattern recognition. Clarendon Press, 1995.
  • S. Haykin, Neural networks: A comprehensive foundation. Prentice Hall, 2nd Edition, 1998.
  • (*) B. Scholkopf and A. Smola, Learning with kernels. MIT Press, 2002.
  • J. Shawe-Taylor and N. Cristianini, Kernel methods for pattern analysis. Cambridge Univ Press, 2004.
  • J. Shawe-Taylor and N. Cristianini, Support vector machines and other kernel-based learning methods. Cambridge Univ Press, 2000.
  • (+) S. Mallat, A wavelet tour of signal processing, Academic Press, 2nd Edition, 1999.
  • (*) M. Jordan, An introducition to probabilistic graphical models. Quyển sách này tuy chưa xuất bản nhưng rất nhiều trường sử dụng làm tài liệu cho graduate course. Nếu bạn ở VN và định dạy một lớp về graphical models, có thể email tác giả để xin phép sử dụng cho lớp.

B. Các mô hình chuyên sâu và/hoặc hẹp hơn:

  • T. Anderson, An Introduction to Multivariate Statistical Analysis (Wiley Series in Probability and Statistics), 3rd Edition, 2003. Kinh điển và hữu ích về (parametric) multivariate data, đặc biệt về gaussian (tốt cho việc tham khảo kết quả).
  • (+) L Devroye, L. Gyorfi and G. Lugosi, A Probabilistic Theory of Pattern Recognition.
    Tập trung nhiều vào lý thuyết về classification.

  • (+) L. Gyorfi, M. Kohler, A. Kryzak and H. Walk, A Distribution-Free Theory of Nonparametric Regression, 2002.
  • Anthony and P. Bartlett. Neural Network Learning: Theoretical Foundations, 1999.
  • V. Vapnik, Statistical learning theory, 1998. Tác giả là một trong những người có đóng góp nền móng cho phát triển cả lý thuyết và thuật toán machine learning.
  • M. Kearns and U. Varizani, An Introduction to Computational Learning Theory, MIT Press, 1994. Quyển sách serious đầu tiên của dân machine learning về machine learning theory.

C. Các mô hình cho spatial data:

  • (+) G. Wahba, Spline models for observational data, SIAM, 1990.
    Giới thiệu cách sử dụng RKHS trong regression.

  • S. Banerjee, B. Carlin and A. Gelfand, Hierarchical Modeling and Analysis for Spatial Data.
    (Các mô hình hierrchical Bayesian models).

  • M. Stein, Interpolation of spatial data. Springer-Verlag, 1999. Lý thuyết hơn.
  • N. Cressie, Statistics for spatial data, Wiley and Sons, 1993.

D. Các mô hình về sequential decision-making (such as reinforcement learning, online learning, etc…):

  • (*) A. Barto & R. Sutton, Reinforcement learning: An introduction, MIT Press, 1998.
    Giới thiệu về RL một cách nhẹ nhàng.

  • D. Bersekas & J. Tsitsiklis, Neurodynamic programming, Athena Scientific, 1996.
    Xây dựng lý thuyết RL một cách chặt chẽ hơn.

  • D. Bertsekas, Dynamic programming and Stochastic control, Athena Scientific, 1995.
  • Cesa-Bianchi and Lugosi, Prediction, Learning, and Games, Cambridge Univ Press, 2006.
  • (*) A. Wald, Sequential analysis, 1947. Quyển sách đã khởi đầu cho cả một branch (Bellman tổng quát lên thành dynamic programming and control).
  • Shiryaev, Optimal stopping rules, 1978. Điển hình sách kiểu Nga, lý thuyết hơn. Đi sâu vào Bayesian formulations của những v/đ liên quan đến stopping rules, trong đó sequential analysis (sequential hypothesis testing, sequential change-point problems) chỉ là những trường hợp đặc biệt.
  • (*)D. Siegmund, Sequential analysis, 1985. Đi sâu hơn vào frequentist formulations.
  • A. Sen, Sequential nonparametrics. Khá sâu.

E. Các dạng mô hình/topics khác

Ngoài ra, một số dạng mô hình cụ thể cũng có rất nhiều sách tham khảo, như mô hình về time series, mô hình về finance (stochastic calculus), mô hình linear/generalized linear/mixed linear các kiểu, mô hình state-space. Một số topics thú vị, như về active learning/ experiment design, concentration of measures,….Tuy nhiên scope hoặc hơi xa hoặc hơi sâu so với danh sách trên.

5.3. Phương pháp thống kê khái quát

Phần lớn dân làm machine learning/statistics sẽ đi vào các dạng mô hình cụ thể, mỗi loại thích hợp cho một ứng dụng nào đó. Các mô hình đó giải quyết câu hỏi “how” khi cần học một mô hình (hay khái niệm). Để biết “why” thì cần đọc một số quyển sách về general statistical methodogy. Thực ra, một số quyển sách mang tính lý thuyết trong machine learning, như Vapnik, Devroye-Gyorfi-Lugosi, hoặc Anthony-Bartlett cũng có thể được xếp vào đây, nhưng focus của chúng còn hẹp so với các tác phẩm của các nhà thông kế.

Quay lại với sự so sánh với sinh học. Nếu như sinh học nghiên cứu sự sống, một cách cụ thể hơn, cơ chế sinh sản, phát triển và diệt vong của các sinh linh trên trái đất, thì có thể kỳ vọng machine learning như một ngành khoa học kỹ thuật nghiên cứu cơ chế hoạt động của các “machines” dựa trên nhu cầu của dữ liệu thu thập được qua các loại thiết bị sensors (theo nghĩa đen và bóng).
Đâu là những quy tắc căn bản cho các cơ chế đó? Đây là những câu hỏi có tính chất nền móng cho machine learning (và cả trí tuệ nhân tạo). Thật thú vị là những bộ óc thống kê vĩ đại nhất của thế kỹ trước đã tiến những bước dài trong việc tìm kiếm các quy tắc nói trên. Điều hạn chế với dân học thống kê cổ điển trước kia là họ lại không có những “machines” đủ phức tạp và sức mạnh về computation để thử nghiệm các quy tắc thống kê khái quát vào đó. Dân machine learning đã đóng góp rất nhiều các “machines” thú vị vào vườn bách thảo của các loài machines. Do đó khi đọc các sách nhập môn về ML nên đọc song song các quyển sách nhập môn về các phương pháp thống kê khái quát dưới đây.

Trường phái frequentist:

  • (*) P. Bickel and K. Doksum, Mathematical statistics: basic ideas and selected topics, Prentice Hall, 2nd Edition, 2000.
  • (*) R. Keener, Statistical theory: A Medley of Core Topics. Hình như sắp xuất bản. Viết rât rõ ràng, không sâu nhưng giới thiệu khá nhiều topics.
  • (+) E. Lehmann & J. Romano, Testing statistical hypotheses, Springer, 3rd Edition, 2005.
  • (+) E. Lehmann & G. Casella, Theory of Point Estimation, Springer, 2nd Edition, 1998.
    Hai quyển sách trên của Lehmann (và các đồng tác giả ở các editions sau) được coi là bible của classical (frequentist) statistics.

Trường phái Bayesian:

  • (+) J. Berger, Statistical decision theory and Bayesian analysis, Springer-Verlag, 2nd Edition, 1985. Được coi là một bible của Bayesian statistics. Tác giả có một cái nhìn rất cân bằng giữa frequentist và bayesian methodologies.
  • (*) C. Roberts, The Bayesian choice, Springer, 2nd Edition, 2007. Có lẽ sẽ là một bible trong tương lai, hiện đại hơn quyển sách của Berger.
  • (+) J. Bernardo and A. Smith, Bayesian theory, Wiley, 1994. Đi sâu vào nhiều vấn đề foundational của statistical inference.

5.4. Các phương pháp tính toán và sampling cho statistical inference
Bao gồm các phương pháp resampling như bootstrap, và approximation methods như Laplace hay Edgeworth,… Gần đây còn có variational approximation methods như message-passing algorithms kiểu belief propagation và mean-field inference nhưng tôi chưa tìm được sách nào thích hợp (ngoài quyển của M. Jordan). Đáng kể nhất là phương pháp sampling Markov chain Monte Carlo không thể thiếu cho người thực hành statistics và machine learning. Ai đó có nói rằng MCMC là một trong 10 thuật toán của thế kỷ 20. Rất có thể đây chính là thuật toán của bộ não con người chúng ta, rất có thể đây cũng là thuật toán của Mother Nature. Không chỉ đơn giản, elegant, hiệu quả, đa năng, thuật toán MCMC còn gắn liền một cách bất ngờ và ngoạn mục giữa hiện tượng phase transition trong computational complexity của ngành KHMT với hiện tượng phase transition trong các mô hình vật lý.

  • B. Efron and R. Tibshirani, An Introduction to the Bootstrap, Chapman and Hall, 1994.
    Efron là một trong những nhà thống kê original nhất trong vài thập niên lại đây.

  • A. Davison and D. Hinkley, Bootstrap Methods and Their Application, Cambridge Univ Press.
  • J. Liu, Monte Carlo Strategies in Scientific Computing, Springer, 2001.
  • A. Gelman, J. Carlin, H. Stern and D. Rubin, Bayesian data analysis, Chapman and Hall, 2nd Edition, 2003.

5.5 Sách về information and communication theory
Thực ra tất cả các sách về information theory có thể xếp vào mục “asymptotic theory”. Tất nhiên xuất phát điểm thì hoàn toàn khác: đó là từ các vấn đề trong communication và data compression.

  • (*) T. Cover & J. Thomas, Elements in information theory, Wiley, 2nd Edition, 2006.
    Viết rất rõ ràng.

  • R. Gallager, Information theory and reliable communication. Kinh điển!
  • D. McKay, Information theory, inference and learning algorithms, 2003.
    Free on-line!

5.6 Asymptotic theory
Mọi lý thuyết sâu sắc trong xác suất và thống kê đều phải đi về asymptotics (khi lượng data càng lớn)! Tại sao? vì asymptotics là cách duy nhất (?) chúng ta có thể nói được một cách chắc chắn về tính chất của các hiện tượng không chắc chắn (uncertain phenomena).

  • (*) van der Vaart, Asymptotic statistics, Cambridge Univ Press.
  • (*) D. Pollard, Convergence of stochastic processes. Free on-line!
  • (*) P. Billingsley, Convergence of probability measures, Wiley, 1968. Kinh điển.
  • (+) A. van der Vaart & J. Wellner, Weak convergence and empirical processes, 1998.
  • (+) S. van de Geer, Empirical processes in M-estimation, Cambridge Univ Press, 2000.
  • L. Le Cam, Asymptotic Methods in Statistical Decision Theory, 1986.
    Le Cam là một trong những nhà thống kê lý thuyết sâu sắc nhất của thế kỷ vừa rồi, nhưng quyển này khá khó nhằn.

  • I. Johnstone. Theory of function estimation. Free on-line.
  • P. Bickel, C Klassen, Y. Ritov & J. Wellner, Efficient and adaptive estimation for semiparametric models, Springer 1993. Nhiều bài báo trên Annals of Statistics hóa ra chỉ giải quyết một khía cạnh nào đó của một vấn đề tổng quát hơn trong quyển sách này. Tuy nhiên ngay cả các tác giả cũng khiêm tốn nói là họ chỉ phát triển những ý tưởng căn bản của Le Cam mà thôi.

Sẽ còn bổ sung thêm …

Chủ đề: Giới thiệu sách & Trí tuệ nhân tạo & Xác suất & thống kê |

3 lời bình cho bài “Giới thiệu một số sách KHMT [2]: machine learning”

  1. 1
    hntuyen viết:

    Cuốn “Pattern Recognition and Machine Learning” của C. Bishop (https://research.microsoft.com/~cmbishop/PRML/index.htm) mới ra năm ngoái cũng là một cuốn nhập môn tốt (cover gan het cac chu de chinh cua ML hien thoi). Theo dự kiến thì “A Matlab Companion” của cuốn này sẽ phát hành vào năm tới.

  2. 2
    Nguyễn Xuân Long viết:

    Cảm ơn Tuyên, đây cũng là một quyển sách nhập môn tốt.

  3. 3
    nguyengiangson viết:

    Bổ ích quá cám ơn anh!

Ghi lời bình của bạn: