Giới thiệu một số sách KHMT [2]: machine learning

Nhân đây xin nhắc thêm là về non-combinatorial optimization thì tôi có điểm một danh sách cách đây vài năm . Còn về combinatorial optimization thì anh Hưng đã điểm qua ở bài blog trước.

Chuyển qua machine learning và statistics… Có lần một người bạn tôi hỏi David Blackwell, khi cậu ta mới chập chững vào PhD program. Rằng, có cái gì hay ho tôi nên theo đuổi trong statistics? Blackwell trả lời, nên học machine learning và nonparametric statistics. Tôi gộp cả ML và Stats vì tôi coi hai ngành này là một, dẫu về truyền thống và định hướng hiện tại thì có những sự khác biệt nhất định. Có rất nhiều sách hay trong ngành, nhưng chỉ giới thiệu một số mà tôi quen thuộc hơn cả. Như vậy còn một số sách hay mà chưa được list, xin bạn đọc bổ sung qua comments. Những quyển đánh dấu sao (*) có thể dùng làm sách nhập môn tốt. Ngoài ra, (+) cũng là những quyển sách tôi ưa thích.

5. Machine learning và statistics

5.1. Sách giới thiệu với hương vị machine learning

Đặc điểm chung của các sách giới thiệu về ML là sau khi ta đọc xong thì thấy đó là một cái túi của các toolboxes, một đống lùng nhùng hỗn độn các mô hình (machines, networks, concepts) và các loại thuật toán học (learning algorithms). Người mới học, nhất là khi đang ở undergraduate thường hoặc bị choáng ngợp bởi sự phong phú đa dạng và lộn xộn của cái rừng bách thú bách thảo giàu có ấy, hoặc có phần thất vọng vì bị lạc lối mà không tìm đâu ra được một bức tranh thống nhất hoặc một dạng kim chỉ nam xuyên suốt kiểu như lý thuyết Darwin trong sinh học, hoặc các định luật Newton trong cơ học. Tôi đã đến với machine learning với một ấn tượng như vậy. Không chỉ ngành machine learning mà nói chung cả ngành trí tuệ nhân tạo là như vậy. Như thế có nghĩa là chúng ta đã gặp may, có thể còn rất nhiều ý tưởng hay hớm nằm chờ đâu đó trong ngành TTNT hay machine learning. Có nhiều quan điểm khác nhau về hướng đi của TTNT, nhưng tôi có một niềm tin chủ quan rất vững chắc là chìa khóa để mở cửa lâu đài TTNT nằm đâu đó trong khu rừng bách thảo machine learning (bách thú trong tương lai ?) rất sinh động này. Lý thuyết thống kê cổ điển cho chúng ta một số hình dung sơ lược về hình hài của một bản đồ có thể dẫn tới chiếc chìa khóa ấy, nhưng chắc chắn còn cần rất các công cụ tính toán và toán học cũng như các ý tưởng và techniques mang tính cách mạng sẽ được phát triển trong tương lai.

  • T. Michell, Machine Learning, Tom Mitchell, McGraw Hill, 1997.
    Quyển này từng là quyển sách đầu tay cho dân ML, nhưng nay nó đã lạc hậu về nội dung.

  • R. Duda, P. Hart and D. Stork. Pattern Classification. Wiley, 2000.
  • K. Fukunaga. Statistical pattern recognition. AP, 1990.
  • (*) J. Friedman, T. Hastie and R. Tibshirani. The elements of statistical learning. Springer, 2001.
  • (*) C. Bishop, Pattern recognition and machine learning. Springer, 2006.

5.2. Sách tập trung vào các dạng mô hình học thống kê

A. Các mô hình tương đối khái quát

  • (*) C. Bishop, Neural networks for pattern recognition. Clarendon Press, 1995.
  • S. Haykin, Neural networks: A comprehensive foundation. Prentice Hall, 2nd Edition, 1998.
  • (*) B. Scholkopf and A. Smola, Learning with kernels. MIT Press, 2002.
  • J. Shawe-Taylor and N. Cristianini, Kernel methods for pattern analysis. Cambridge Univ Press, 2004.
  • J. Shawe-Taylor and N. Cristianini, Support vector machines and other kernel-based learning methods. Cambridge Univ Press, 2000.
  • (+) S. Mallat, A wavelet tour of signal processing, Academic Press, 2nd Edition, 1999.
  • (*) M. Jordan, An introducition to probabilistic graphical models. Quyển sách này tuy chưa xuất bản nhưng rất nhiều trường sử dụng làm tài liệu cho graduate course. Nếu bạn ở VN và định dạy một lớp về graphical models, có thể email tác giả để xin phép sử dụng cho lớp.

B. Các mô hình chuyên sâu và/hoặc hẹp hơn:

  • T. Anderson, An Introduction to Multivariate Statistical Analysis (Wiley Series in Probability and Statistics), 3rd Edition, 2003. Kinh điển và hữu ích về (parametric) multivariate data, đặc biệt về gaussian (tốt cho việc tham khảo kết quả).
  • (+) L Devroye, L. Gyorfi and G. Lugosi, A Probabilistic Theory of Pattern Recognition.
    Tập trung nhiều vào lý thuyết về classification.

  • (+) L. Gyorfi, M. Kohler, A. Kryzak and H. Walk, A Distribution-Free Theory of Nonparametric Regression, 2002.
  • Anthony and P. Bartlett. Neural Network Learning: Theoretical Foundations, 1999.
  • V. Vapnik, Statistical learning theory, 1998. Tác giả là một trong những người có đóng góp nền móng cho phát triển cả lý thuyết và thuật toán machine learning.
  • M. Kearns and U. Varizani, An Introduction to Computational Learning Theory, MIT Press, 1994. Quyển sách serious đầu tiên của dân machine learning về machine learning theory.

C. Các mô hình cho spatial data:

  • (+) G. Wahba, Spline models for observational data, SIAM, 1990.
    Giới thiệu cách sử dụng RKHS trong regression.

  • S. Banerjee, B. Carlin and A. Gelfand, Hierarchical Modeling and Analysis for Spatial Data.
    (Các mô hình hierrchical Bayesian models).

  • M. Stein, Interpolation of spatial data. Springer-Verlag, 1999. Lý thuyết hơn.
  • N. Cressie, Statistics for spatial data, Wiley and Sons, 1993.

D. Các mô hình về sequential decision-making (such as reinforcement learning, online learning, etc…):

  • (*) A. Barto & R. Sutton, Reinforcement learning: An introduction, MIT Press, 1998.
    Giới thiệu về RL một cách nhẹ nhàng.

  • D. Bersekas & J. Tsitsiklis, Neurodynamic programming, Athena Scientific, 1996.
    Xây dựng lý thuyết RL một cách chặt chẽ hơn.

  • D. Bertsekas, Dynamic programming and Stochastic control, Athena Scientific, 1995.
  • Cesa-Bianchi and Lugosi, Prediction, Learning, and Games, Cambridge Univ Press, 2006.
  • (*) A. Wald, Sequential analysis, 1947. Quyển sách đã khởi đầu cho cả một branch (Bellman tổng quát lên thành dynamic programming and control).
  • Shiryaev, Optimal stopping rules, 1978. Điển hình sách kiểu Nga, lý thuyết hơn. Đi sâu vào Bayesian formulations của những v/đ liên quan đến stopping rules, trong đó sequential analysis (sequential hypothesis testing, sequential change-point problems) chỉ là những trường hợp đặc biệt.
  • (*)D. Siegmund, Sequential analysis, 1985. Đi sâu hơn vào frequentist formulations.
  • A. Sen, Sequential nonparametrics. Khá sâu.

E. Các dạng mô hình/topics khác

Ngoài ra, một số dạng mô hình cụ thể cũng có rất nhiều sách tham khảo, như mô hình về time series, mô hình về finance (stochastic calculus), mô hình linear/generalized linear/mixed linear các kiểu, mô hình state-space. Một số topics thú vị, như về active learning/ experiment design, concentration of measures,….Tuy nhiên scope hoặc hơi xa hoặc hơi sâu so với danh sách trên.

5.3. Phương pháp thống kê khái quát

Phần lớn dân làm machine learning/statistics sẽ đi vào các dạng mô hình cụ thể, mỗi loại thích hợp cho một ứng dụng nào đó. Các mô hình đó giải quyết câu hỏi “how” khi cần học một mô hình (hay khái niệm). Để biết “why” thì cần đọc một số quyển sách về general statistical methodogy. Thực ra, một số quyển sách mang tính lý thuyết trong machine learning, như Vapnik, Devroye-Gyorfi-Lugosi, hoặc Anthony-Bartlett cũng có thể được xếp vào đây, nhưng focus của chúng còn hẹp so với các tác phẩm của các nhà thông kế.

Quay lại với sự so sánh với sinh học. Nếu như sinh học nghiên cứu sự sống, một cách cụ thể hơn, cơ chế sinh sản, phát triển và diệt vong của các sinh linh trên trái đất, thì có thể kỳ vọng machine learning như một ngành khoa học kỹ thuật nghiên cứu cơ chế hoạt động của các “machines” dựa trên nhu cầu của dữ liệu thu thập được qua các loại thiết bị sensors (theo nghĩa đen và bóng).
Đâu là những quy tắc căn bản cho các cơ chế đó? Đây là những câu hỏi có tính chất nền móng cho machine learning (và cả trí tuệ nhân tạo). Thật thú vị là những bộ óc thống kê vĩ đại nhất của thế kỹ trước đã tiến những bước dài trong việc tìm kiếm các quy tắc nói trên. Điều hạn chế với dân học thống kê cổ điển trước kia là họ lại không có những “machines” đủ phức tạp và sức mạnh về computation để thử nghiệm các quy tắc thống kê khái quát vào đó. Dân machine learning đã đóng góp rất nhiều các “machines” thú vị vào vườn bách thảo của các loài machines. Do đó khi đọc các sách nhập môn về ML nên đọc song song các quyển sách nhập môn về các phương pháp thống kê khái quát dưới đây.

Trường phái frequentist:

  • (*) P. Bickel and K. Doksum, Mathematical statistics: basic ideas and selected topics, Prentice Hall, 2nd Edition, 2000.
  • (*) R. Keener, Statistical theory: A Medley of Core Topics. Hình như sắp xuất bản. Viết rât rõ ràng, không sâu nhưng giới thiệu khá nhiều topics.
  • (+) E. Lehmann & J. Romano, Testing statistical hypotheses, Springer, 3rd Edition, 2005.
  • (+) E. Lehmann & G. Casella, Theory of Point Estimation, Springer, 2nd Edition, 1998.
    Hai quyển sách trên của Lehmann (và các đồng tác giả ở các editions sau) được coi là bible của classical (frequentist) statistics.

Trường phái Bayesian:

  • (+) J. Berger, Statistical decision theory and Bayesian analysis, Springer-Verlag, 2nd Edition, 1985. Được coi là một bible của Bayesian statistics. Tác giả có một cái nhìn rất cân bằng giữa frequentist và bayesian methodologies.
  • (*) C. Roberts, The Bayesian choice, Springer, 2nd Edition, 2007. Có lẽ sẽ là một bible trong tương lai, hiện đại hơn quyển sách của Berger.
  • (+) J. Bernardo and A. Smith, Bayesian theory, Wiley, 1994. Đi sâu vào nhiều vấn đề foundational của statistical inference.

5.4. Các phương pháp tính toán và sampling cho statistical inference
Bao gồm các phương pháp resampling như bootstrap, và approximation methods như Laplace hay Edgeworth,… Gần đây còn có variational approximation methods như message-passing algorithms kiểu belief propagation và mean-field inference nhưng tôi chưa tìm được sách nào thích hợp (ngoài quyển của M. Jordan). Đáng kể nhất là phương pháp sampling Markov chain Monte Carlo không thể thiếu cho người thực hành statistics và machine learning. Ai đó có nói rằng MCMC là một trong 10 thuật toán của thế kỷ 20. Rất có thể đây chính là thuật toán của bộ não con người chúng ta, rất có thể đây cũng là thuật toán của Mother Nature. Không chỉ đơn giản, elegant, hiệu quả, đa năng, thuật toán MCMC còn gắn liền một cách bất ngờ và ngoạn mục giữa hiện tượng phase transition trong computational complexity của ngành KHMT với hiện tượng phase transition trong các mô hình vật lý.

  • B. Efron and R. Tibshirani, An Introduction to the Bootstrap, Chapman and Hall, 1994.
    Efron là một trong những nhà thống kê original nhất trong vài thập niên lại đây.

  • A. Davison and D. Hinkley, Bootstrap Methods and Their Application, Cambridge Univ Press.
  • J. Liu, Monte Carlo Strategies in Scientific Computing, Springer, 2001.
  • A. Gelman, J. Carlin, H. Stern and D. Rubin, Bayesian data analysis, Chapman and Hall, 2nd Edition, 2003.

5.5 Sách về information and communication theory
Thực ra tất cả các sách về information theory có thể xếp vào mục “asymptotic theory”. Tất nhiên xuất phát điểm thì hoàn toàn khác: đó là từ các vấn đề trong communication và data compression.

  • (*) T. Cover & J. Thomas, Elements in information theory, Wiley, 2nd Edition, 2006.
    Viết rất rõ ràng.

  • R. Gallager, Information theory and reliable communication. Kinh điển!
  • D. McKay, Information theory, inference and learning algorithms, 2003.
    Free on-line!

5.6 Asymptotic theory
Mọi lý thuyết sâu sắc trong xác suất và thống kê đều phải đi về asymptotics (khi lượng data càng lớn)! Tại sao? vì asymptotics là cách duy nhất (?) chúng ta có thể nói được một cách chắc chắn về tính chất của các hiện tượng không chắc chắn (uncertain phenomena).

  • (*) van der Vaart, Asymptotic statistics, Cambridge Univ Press.
  • (*) D. Pollard, Convergence of stochastic processes. Free on-line!
  • (*) P. Billingsley, Convergence of probability measures, Wiley, 1968. Kinh điển.
  • (+) A. van der Vaart & J. Wellner, Weak convergence and empirical processes, 1998.
  • (+) S. van de Geer, Empirical processes in M-estimation, Cambridge Univ Press, 2000.
  • L. Le Cam, Asymptotic Methods in Statistical Decision Theory, 1986.
    Le Cam là một trong những nhà thống kê lý thuyết sâu sắc nhất của thế kỷ vừa rồi, nhưng quyển này khá khó nhằn.

  • I. Johnstone. Theory of function estimation. Free on-line.
  • P. Bickel, C Klassen, Y. Ritov & J. Wellner, Efficient and adaptive estimation for semiparametric models, Springer 1993. Nhiều bài báo trên Annals of Statistics hóa ra chỉ giải quyết một khía cạnh nào đó của một vấn đề tổng quát hơn trong quyển sách này. Tuy nhiên ngay cả các tác giả cũng khiêm tốn nói là họ chỉ phát triển những ý tưởng căn bản của Le Cam mà thôi.

Sẽ còn bổ sung thêm …

Chủ đề : Giới thiệu sách, Trí tuệ nhân tạo, Xác suất & thống kê. Bookmark the permalink. Trackbacks are closed, but you can post a comment.

28 Comments

  1. lena
    Posted 10/12/2009 at 5:11 am | Permalink

    Tôi đang tìm hiểu về probabilistic graphical models. Như tôi hiểu thì nếu cho trước hàm joint probability distribution thì ta sẽ biết hết thông tin của mô hình (tín được xác suất của tất cả các tổ hợp, xác định được các independencies). Tương ứng với joint probability distribution này thì có thể có nhiều bayesian networks tương ứng. Như vây có cái gì đó không được nhất quán. Nếu dùng các BNs khác nhau này để inference hoạc parameter learning thì các kết quả có khác nhau không?

  2. XuanLong Nguyen
    Posted 10/12/2009 at 8:39 am | Permalink

    @lena: Một BN hay graphical model tương ứng với một family of joint probability distributions, chứ không phải ngược lại, cho nen tôi không thấy có vấn đề gì.

  3. lena
    Posted 10/12/2009 at 10:54 am | Permalink

    Cảm ơn anh Xuân Long đã trả lời.

    Như tôi hiểu thì với một joint probability distribution bất kỳ đều có thề biểu diễn một cách “đơn sơ” bằng một BN với node i là con của của tất cả các nodes có chỉ số nhỏ hơn i. Tất nhiên cách biểu diễn này không có lợi gì về mặt tính toán so với việc tính toán trực tiếp trên joint probability distribution.

    Nếu như thế nếu cho trước joint probability distributions làm thế nào để xây dựng được BN “đủ tốt”, tức là thể hiện được các thông tin independencies ẩn trọng joint probability distribution.

  4. XuanLong Nguyen
    Posted 10/12/2009 at 2:11 pm | Permalink

    @lena: Theo tôi thì bạn hiểu ngược. Nên nghĩ về mục đích của ta thường là học/estimate một joint distribution từ dữ liệu. Để có thể làm được điều đó thì ta phải nhet them cac constraints dde han che khong gian cac joint distribution ung cu vien. Graphical models/BN la mot cach dde nhet cac constraints ddo’, thong qua conditional independence relations. GM chi mang cac thong tin so luoc thoi, vi no la tap hop cac distributions.

  5. lena
    Posted 11/12/2009 at 2:25 am | Permalink

    @Anh Xuân Long: có thể tôi hiểu ngược vấn đề nên thành phức tạp.

    Như vậy nghĩa là cấu trúc (topology) của GM hoàn toàn do các conditional independence relations quyết định. Mà các constrains này xác định từ trực quan hoạc kinh nghiệm?
    Ngoài ra các constraints này thường mang các thông tin địa phưưong (local conditional independencies). Sau khi có topology của GM thì lại có những conditional independencies mới. Điều này có thể giải thích như thế nào?

    Tôi biết cũng có một hướng ngược lại, nếu không biết thông tin về các contraints, chỉ từ dữ liệu người ta cũng cố gắng xây dựng cấu trúc của GM (Structure Learning). Bài toán này có vẻ chưa có lời giải tốt?

    Cảm ơn anh đã dành thời gian trả lời.

  6. XuanLong Nguyen
    Posted 11/12/2009 at 6:50 am | Permalink

    Trong phan lon cac truong hop ung dung cua GM, conditional independence relation dduoc dua ra do kinh nghiem cua nguoi su dung. Ban noi dung, do truc quan, kinh nghiem, va doi khi chi don gian la do ly do ve computational efficiency ma thoi.

    Khi da co GM structure roi, thi ta co the liet ke tat ca cac conditional independence trong do. Nhu da noi, mot GM mo ta mot tap hop cac ham phan bo. Tat nhien, rat co the ham phan bo ma ta muon tim con co cac conditional independence khac trong do. Ddieu nay khong co gi la mau thuan ca.

    Van de ban neu ra, tim cac conditional independence relation giua cac bien, chi dua vao du lieu, la mot van dde kho. Lam the nao dde mo ta quan he independence, khi ta khong biet ham phan bo thuc su cua data la gi? Day la van de kho, nhung co the giai quyet dduoc. Co nhieu bien phap uoc luong entropy, mutual information chang han; nhung thu nay co the dung de mot ta quan he independence.

    Trong ngu canh GM, structure learning tu du lieu la mot van de kho, thu vi. Ve mat thuc dung, nhu noi o tren, nguoi ta it khi doi dau voi no, ma thuong dua ra structure bang truc quan cua nguoi su dung. Nhung ve ly thuyet, thi co nhieu cach dde giai quyet. Mot cach goi la structure EM. Mot cach khac, dung lasso penalty. Noi chung, van de structure learning
    khong bao gio co loi gian tot, chi tru mot so truong hop rat dac biet.

    Hom qua toi vua co bai giang ve model selection xong. Co noi cac van de nay. Ban co the tham khao mot so bai bao vi du ve sparse graphical model structure learning qua homepage cua lop toi day (vao link projects)

    http://www.stat.lsa.umich.edu/~xuanlong/courses/stat700-f09/

  7. lena
    Posted 11/12/2009 at 8:04 am | Permalink

    Cảm ơn anh Long về nhưng thông tin mới. Đối với tôi cả nhưng thông tin được confirmed lại từ những người hiểu rõ vấn đề cũng rất có ích.
    Have a nice weekend.

  8. lena
    Posted 22/01/2010 at 9:33 am | Permalink

    Thêm một vài bình loạn về sách:
    Về classical (frequentist) statistics đúng là quyển của Bickel & Doksum viết rất hay, và không cần kiến thức về measure theory vẫn có thể hiểu được (Tôi chưa đọc sách của Lehmann nên không so sánh được). Các định nghĩa và chứng minh đều rất chặt chẽ. Nhưng mà hình như không có tập 2 ?

    Tuy nhiên phải thú thực là để tự học (không phải/được theo lớp) thì khá mệt. Tôi đọc gần 3 tháng nay chưa hết được 2 chương đầu và nhiều lúc cũng thấy nản. Ngoài ra để giữ được nồi cơm cần thời gian làm các thứ khác nữa.

    Cho các bạn nào cần nhanh chóng hiểu ý tưởng của statistics (models, point estimation, confidence and hypothesis testing) và ứng dụng thì quyển sách \All of statistics\ của Larry Wasserman (CMU) tôi thấy khá tốt.
    http://www.amazon.de/All-Statistics-Statistical-Inference-Springer/dp/0387402721

    Sau khi nắm được ý tưởng thì có thể tìm hiểu chặt chẽ khi có thời gian.
    Chúc mọi người cuối tuần vui vẻ
    lena

Post a Comment

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>