Giới thiệu một số sách KHMT [2]: machine learning
Nhân đây xin nhắc thêm là về non-combinatorial optimization thì tôi có điểm một danh sách cách đây vài năm . Còn về combinatorial optimization thì anh Hưng đã điểm qua ở bài blog trước.
Chuyển qua machine learning và statistics… Có lần một người bạn tôi hỏi David Blackwell, khi cậu ta mới chập chững vào PhD program. Rằng, có cái gì hay ho tôi nên theo đuổi trong statistics? Blackwell trả lời, nên học machine learning và nonparametric statistics. Tôi gộp cả ML và Stats vì tôi coi hai ngành này là một, dẫu về truyền thống và định hướng hiện tại thì có những sự khác biệt nhất định. Có rất nhiều sách hay trong ngành, nhưng chỉ giới thiệu một số mà tôi quen thuộc hơn cả. Như vậy còn một số sách hay mà chưa được list, xin bạn đọc bổ sung qua comments. Những quyển đánh dấu sao (*) có thể dùng làm sách nhập môn tốt. Ngoài ra, (+) cũng là những quyển sách tôi ưa thích.
5. Machine learning và statistics
5.1. Sách giới thiệu với hương vị machine learning
Đặc điểm chung của các sách giới thiệu về ML là sau khi ta đọc xong thì thấy đó là một cái túi của các toolboxes, một đống lùng nhùng hỗn độn các mô hình (machines, networks, concepts) và các loại thuật toán học (learning algorithms). Người mới học, nhất là khi đang ở undergraduate thường hoặc bị choáng ngợp bởi sự phong phú đa dạng và lộn xộn của cái rừng bách thú bách thảo giàu có ấy, hoặc có phần thất vọng vì bị lạc lối mà không tìm đâu ra được một bức tranh thống nhất hoặc một dạng kim chỉ nam xuyên suốt kiểu như lý thuyết Darwin trong sinh học, hoặc các định luật Newton trong cơ học. Tôi đã đến với machine learning với một ấn tượng như vậy. Không chỉ ngành machine learning mà nói chung cả ngành trí tuệ nhân tạo là như vậy. Như thế có nghĩa là chúng ta đã gặp may, có thể còn rất nhiều ý tưởng hay hớm nằm chờ đâu đó trong ngành TTNT hay machine learning. Có nhiều quan điểm khác nhau về hướng đi của TTNT, nhưng tôi có một niềm tin chủ quan rất vững chắc là chìa khóa để mở cửa lâu đài TTNT nằm đâu đó trong khu rừng bách thảo machine learning (bách thú trong tương lai ?) rất sinh động này. Lý thuyết thống kê cổ điển cho chúng ta một số hình dung sơ lược về hình hài của một bản đồ có thể dẫn tới chiếc chìa khóa ấy, nhưng chắc chắn còn cần rất các công cụ tính toán và toán học cũng như các ý tưởng và techniques mang tính cách mạng sẽ được phát triển trong tương lai.
- T. Michell, Machine Learning, Tom Mitchell, McGraw Hill, 1997.
Quyển này từng là quyển sách đầu tay cho dân ML, nhưng nay nó đã lạc hậu về nội dung. - R. Duda, P. Hart and D. Stork. Pattern Classification. Wiley, 2000.
- K. Fukunaga. Statistical pattern recognition. AP, 1990.
- (*) J. Friedman, T. Hastie and R. Tibshirani. The elements of statistical learning. Springer, 2001.
- (*) C. Bishop, Pattern recognition and machine learning. Springer, 2006.
5.2. Sách tập trung vào các dạng mô hình học thống kê
A. Các mô hình tương đối khái quát
- (*) C. Bishop, Neural networks for pattern recognition. Clarendon Press, 1995.
- S. Haykin, Neural networks: A comprehensive foundation. Prentice Hall, 2nd Edition, 1998.
- (*) B. Scholkopf and A. Smola, Learning with kernels. MIT Press, 2002.
- J. Shawe-Taylor and N. Cristianini, Kernel methods for pattern analysis. Cambridge Univ Press, 2004.
- J. Shawe-Taylor and N. Cristianini, Support vector machines and other kernel-based learning methods. Cambridge Univ Press, 2000.
- (+) S. Mallat, A wavelet tour of signal processing, Academic Press, 2nd Edition, 1999.
- (*) M. Jordan, An introducition to probabilistic graphical models. Quyển sách này tuy chưa xuất bản nhưng rất nhiều trường sử dụng làm tài liệu cho graduate course. Nếu bạn ở VN và định dạy một lớp về graphical models, có thể email tác giả để xin phép sử dụng cho lớp.
B. Các mô hình chuyên sâu và/hoặc hẹp hơn:
- T. Anderson, An Introduction to Multivariate Statistical Analysis (Wiley Series in Probability and Statistics), 3rd Edition, 2003. Kinh điển và hữu ích về (parametric) multivariate data, đặc biệt về gaussian (tốt cho việc tham khảo kết quả).
- (+) L Devroye, L. Gyorfi and G. Lugosi, A Probabilistic Theory of Pattern Recognition.
Tập trung nhiều vào lý thuyết về classification. - (+) L. Gyorfi, M. Kohler, A. Kryzak and H. Walk, A Distribution-Free Theory of Nonparametric Regression, 2002.
- Anthony and P. Bartlett. Neural Network Learning: Theoretical Foundations, 1999.
- V. Vapnik, Statistical learning theory, 1998. Tác giả là một trong những người có đóng góp nền móng cho phát triển cả lý thuyết và thuật toán machine learning.
- M. Kearns and U. Varizani, An Introduction to Computational Learning Theory, MIT Press, 1994. Quyển sách serious đầu tiên của dân machine learning về machine learning theory.
C. Các mô hình cho spatial data:
- (+) G. Wahba, Spline models for observational data, SIAM, 1990.
Giới thiệu cách sử dụng RKHS trong regression. - S. Banerjee, B. Carlin and A. Gelfand, Hierarchical Modeling and Analysis for Spatial Data.
(Các mô hình hierrchical Bayesian models). - M. Stein, Interpolation of spatial data. Springer-Verlag, 1999. Lý thuyết hơn.
- N. Cressie, Statistics for spatial data, Wiley and Sons, 1993.
D. Các mô hình về sequential decision-making (such as reinforcement learning, online learning, etc…):
- (*) A. Barto & R. Sutton, Reinforcement learning: An introduction, MIT Press, 1998.
Giới thiệu về RL một cách nhẹ nhàng. - D. Bersekas & J. Tsitsiklis, Neurodynamic programming, Athena Scientific, 1996.
Xây dựng lý thuyết RL một cách chặt chẽ hơn. - D. Bertsekas, Dynamic programming and Stochastic control, Athena Scientific, 1995.
- Cesa-Bianchi and Lugosi, Prediction, Learning, and Games, Cambridge Univ Press, 2006.
- (*) A. Wald, Sequential analysis, 1947. Quyển sách đã khởi đầu cho cả một branch (Bellman tổng quát lên thành dynamic programming and control).
- Shiryaev, Optimal stopping rules, 1978. Điển hình sách kiểu Nga, lý thuyết hơn. Đi sâu vào Bayesian formulations của những v/đ liên quan đến stopping rules, trong đó sequential analysis (sequential hypothesis testing, sequential change-point problems) chỉ là những trường hợp đặc biệt.
- (*)D. Siegmund, Sequential analysis, 1985. Đi sâu hơn vào frequentist formulations.
- A. Sen, Sequential nonparametrics. Khá sâu.
E. Các dạng mô hình/topics khác
Ngoài ra, một số dạng mô hình cụ thể cũng có rất nhiều sách tham khảo, như mô hình về time series, mô hình về finance (stochastic calculus), mô hình linear/generalized linear/mixed linear các kiểu, mô hình state-space. Một số topics thú vị, như về active learning/ experiment design, concentration of measures,….Tuy nhiên scope hoặc hơi xa hoặc hơi sâu so với danh sách trên.
5.3. Phương pháp thống kê khái quát
Phần lớn dân làm machine learning/statistics sẽ đi vào các dạng mô hình cụ thể, mỗi loại thích hợp cho một ứng dụng nào đó. Các mô hình đó giải quyết câu hỏi “how” khi cần học một mô hình (hay khái niệm). Để biết “why” thì cần đọc một số quyển sách về general statistical methodogy. Thực ra, một số quyển sách mang tính lý thuyết trong machine learning, như Vapnik, Devroye-Gyorfi-Lugosi, hoặc Anthony-Bartlett cũng có thể được xếp vào đây, nhưng focus của chúng còn hẹp so với các tác phẩm của các nhà thông kế.
Quay lại với sự so sánh với sinh học. Nếu như sinh học nghiên cứu sự sống, một cách cụ thể hơn, cơ chế sinh sản, phát triển và diệt vong của các sinh linh trên trái đất, thì có thể kỳ vọng machine learning như một ngành khoa học kỹ thuật nghiên cứu cơ chế hoạt động của các “machines” dựa trên nhu cầu của dữ liệu thu thập được qua các loại thiết bị sensors (theo nghĩa đen và bóng).
Đâu là những quy tắc căn bản cho các cơ chế đó? Đây là những câu hỏi có tính chất nền móng cho machine learning (và cả trí tuệ nhân tạo). Thật thú vị là những bộ óc thống kê vĩ đại nhất của thế kỹ trước đã tiến những bước dài trong việc tìm kiếm các quy tắc nói trên. Điều hạn chế với dân học thống kê cổ điển trước kia là họ lại không có những “machines” đủ phức tạp và sức mạnh về computation để thử nghiệm các quy tắc thống kê khái quát vào đó. Dân machine learning đã đóng góp rất nhiều các “machines” thú vị vào vườn bách thảo của các loài machines. Do đó khi đọc các sách nhập môn về ML nên đọc song song các quyển sách nhập môn về các phương pháp thống kê khái quát dưới đây.
Trường phái frequentist:
- (*) P. Bickel and K. Doksum, Mathematical statistics: basic ideas and selected topics, Prentice Hall, 2nd Edition, 2000.
- (*) R. Keener, Statistical theory: A Medley of Core Topics. Hình như sắp xuất bản. Viết rât rõ ràng, không sâu nhưng giới thiệu khá nhiều topics.
- (+) E. Lehmann & J. Romano, Testing statistical hypotheses, Springer, 3rd Edition, 2005.
- (+) E. Lehmann & G. Casella, Theory of Point Estimation, Springer, 2nd Edition, 1998.
Hai quyển sách trên của Lehmann (và các đồng tác giả ở các editions sau) được coi là bible của classical (frequentist) statistics.
Trường phái Bayesian:
- (+) J. Berger, Statistical decision theory and Bayesian analysis, Springer-Verlag, 2nd Edition, 1985. Được coi là một bible của Bayesian statistics. Tác giả có một cái nhìn rất cân bằng giữa frequentist và bayesian methodologies.
- (*) C. Roberts, The Bayesian choice, Springer, 2nd Edition, 2007. Có lẽ sẽ là một bible trong tương lai, hiện đại hơn quyển sách của Berger.
- (+) J. Bernardo and A. Smith, Bayesian theory, Wiley, 1994. Đi sâu vào nhiều vấn đề foundational của statistical inference.
5.4. Các phương pháp tính toán và sampling cho statistical inference
Bao gồm các phương pháp resampling như bootstrap, và approximation methods như Laplace hay Edgeworth,… Gần đây còn có variational approximation methods như message-passing algorithms kiểu belief propagation và mean-field inference nhưng tôi chưa tìm được sách nào thích hợp (ngoài quyển của M. Jordan). Đáng kể nhất là phương pháp sampling Markov chain Monte Carlo không thể thiếu cho người thực hành statistics và machine learning. Ai đó có nói rằng MCMC là một trong 10 thuật toán của thế kỷ 20. Rất có thể đây chính là thuật toán của bộ não con người chúng ta, rất có thể đây cũng là thuật toán của Mother Nature. Không chỉ đơn giản, elegant, hiệu quả, đa năng, thuật toán MCMC còn gắn liền một cách bất ngờ và ngoạn mục giữa hiện tượng phase transition trong computational complexity của ngành KHMT với hiện tượng phase transition trong các mô hình vật lý.
- B. Efron and R. Tibshirani, An Introduction to the Bootstrap, Chapman and Hall, 1994.
Efron là một trong những nhà thống kê original nhất trong vài thập niên lại đây. - A. Davison and D. Hinkley, Bootstrap Methods and Their Application, Cambridge Univ Press.
- J. Liu, Monte Carlo Strategies in Scientific Computing, Springer, 2001.
- A. Gelman, J. Carlin, H. Stern and D. Rubin, Bayesian data analysis, Chapman and Hall, 2nd Edition, 2003.
5.5 Sách về information and communication theory
Thực ra tất cả các sách về information theory có thể xếp vào mục “asymptotic theory”. Tất nhiên xuất phát điểm thì hoàn toàn khác: đó là từ các vấn đề trong communication và data compression.
- (*) T. Cover & J. Thomas, Elements in information theory, Wiley, 2nd Edition, 2006.
Viết rất rõ ràng. - R. Gallager, Information theory and reliable communication. Kinh điển!
- D. McKay, Information theory, inference and learning algorithms, 2003.
Free on-line!
5.6 Asymptotic theory
Mọi lý thuyết sâu sắc trong xác suất và thống kê đều phải đi về asymptotics (khi lượng data càng lớn)! Tại sao? vì asymptotics là cách duy nhất (?) chúng ta có thể nói được một cách chắc chắn về tính chất của các hiện tượng không chắc chắn (uncertain phenomena).
- (*) van der Vaart, Asymptotic statistics, Cambridge Univ Press.
- (*) D. Pollard, Convergence of stochastic processes. Free on-line!
- (*) P. Billingsley, Convergence of probability measures, Wiley, 1968. Kinh điển.
- (+) A. van der Vaart & J. Wellner, Weak convergence and empirical processes, 1998.
- (+) S. van de Geer, Empirical processes in M-estimation, Cambridge Univ Press, 2000.
- L. Le Cam, Asymptotic Methods in Statistical Decision Theory, 1986.
Le Cam là một trong những nhà thống kê lý thuyết sâu sắc nhất của thế kỷ vừa rồi, nhưng quyển này khá khó nhằn. - I. Johnstone. Theory of function estimation. Free on-line.
- P. Bickel, C Klassen, Y. Ritov & J. Wellner, Efficient and adaptive estimation for semiparametric models, Springer 1993. Nhiều bài báo trên Annals of Statistics hóa ra chỉ giải quyết một khía cạnh nào đó của một vấn đề tổng quát hơn trong quyển sách này. Tuy nhiên ngay cả các tác giả cũng khiêm tốn nói là họ chỉ phát triển những ý tưởng căn bản của Le Cam mà thôi.
Sẽ còn bổ sung thêm …

Cuốn “Pattern Recognition and Machine Learning” của C. Bishop (https://research.microsoft.com/~cmbishop/PRML/index.htm) mới ra năm ngoái cũng là một cuốn nhập môn tốt (cover gan het cac chu de chinh cua ML hien thoi). Theo dự kiến thì “A Matlab Companion” của cuốn này sẽ phát hành vào năm tới.
Cảm ơn Tuyên, đây cũng là một quyển sách nhập môn tốt.
Bổ ích quá cám ơn anh!
Bài này cũng được đăng trên báo Người lao động.
http://acong.nld.com.vn/index.php?option=com_content&task=view&cid=23&id=317&Itemid=53
Không biết VLOS có phải là 1 ai tham gia trong Blog KHMT không vậy?
Xin chào anh Long, hiện nay em đang làm NCS ở Việt Nam, ở trong nước thiếu thốn tài liệu lắm anh ạ. Em muốn nhờ anh giúp em kiếm giúp em bản pdf cuốn sách “Weak Convergence And Empirical Processes: With Applications To Statistics” của A. van der Vaart & J. Wellner được không ạ. Em xin cảm ơn.
Chao Dung: Minh khong co pdf cua quyen van der Vaart – Wellner. Nhung Dung co the bat dau bang quyen cua Pollard rat tot. Quyen nay co’ online trong homepage cua David Pollard (Yale).
Chao ban Dung,
Toi dang lo. mo. doc quyen cua Jordan va Wright ve graphical model, co online tren NOW publisher. Rat thu vi, du toi la dan ngoai dao. Ban quan tam thi doc cho vui
Son
Em mới take class ML mà đọc quyển (Bishop, Pattern recognition and machine learning. Springer, 2006. ) thấy khoai ghê. Không biết bạn nào có kinh nghiệm chia sẻ để học tốt môn này. Thanks
em moi bat dau hoc ve machine learning.voi nguoi moi nhu em nen doc nhung sach gi la tot nhat ?mong cac bac giup do.
Tôi mới bắt đầu học (làm việc) với ML với background của EE.
Khi đọc sách về mathematical statistics thì bị vướng khái niệm về Lebesgue measure.
Tôi muốn hỏi anh Long hoạc các bạn đã có kinh nghiệm có con đường nào để hiểu được mathematical statistics mà không nhất thiết phải học lý thuyết độ đo. Nếu cần phải học thì nên học đến mức naof.
Cảm ơn nhiều
@lena: Các khái niệm về độ đo rất trừu tượng, thường mất rất nhiều thời gian để “ngộ” ra. Ban đầu, bạn có thể bắt đầu từ các biến nhẫu nhiêu rồi đi tiếp lên các tầng trên như lý thuyết ước lượng, giả thuyết thống kê, v.v…… rồi quay trở về lý thuyết độ đo sau cũng được.
Thật ra xác suất và thống kê bắt nguồn từ 2 hướng khác nhau, sau này “xích lại” gần nhau. Tuy biên giới giữa 2 nhánh không còn rõ nét, nhưng nhìn chung, chúng tương đối độc lập.
@ Tuanmap: Cảm ơn bạn Tuấn đã trả lời.
Trước đây tôi cũng chỉ dùng (hiểu) Probability ở mức độ Engineering thôi.
Tôi biết để hiểu được lý thuyết độ đo cũng không đơn giản. Nếu có thể hiểu được (không phải kiểu cookbook) Statistics mà không cần (ngay lập tức) lý thuyết độ đo thì tốt nhất.
@lena: bạn có thể đọc qua 2 quyển của Lehmann, theory of point estimation và testing statistical hypotheses (lên gigapedia có thể có).
Thường thì mathematical statistics giúp giải thích câu hỏi tại sao. Vi’ dụ như tại sao có t-test. Thế t-test có tốt nhất không? Tốt nhất theo nghĩa nào ? v.v….
Mình thấy trong ứng dụng thì người ta chẳng quan tâm mấy. Tất nhiên là khi mình hiểu 1 cách cụ thể về 1 công cụ nào đó, thì mình có thể sử dụng nó 1 cách tự tin hơn. Mình nghĩ, có thể bạn cũng giống như mình, ban đầu thì thường đặt câu hỏi tại sao nó lại thế. Cookbook style giống như kiểu mọi thứ từ trên trời rơi xuống. Khi muốn áp dụng trong trường hợp mới, thì mình thường băng khoăn, không biết có đúng không.
P.S: Lúc đầu mình “cảm nhận” được statistics trước khi mình “cảm nhận” được Lebesgue measure
Tôi cũng học sơ sơ về lý thuyết độ đo. Bác Tuấn nói thêm 1 chút xem, ngoài ý nghĩa của test như vậy math stat còn cái gì hấp dẫn nữa không, mà sao tôi chưa thấy cái gì hay cả. Hay tôi không có khiếu về môn này nên không thích.
Nghe cái ML bác XL giới thiệu có vẻ vẫn thú vị hơn nhiều, nhỉ. Tôi đọc qua giới thiệu về ML từ cái thời xa xưa lắm rồi, chắc giờ chẳng ai nhắc đến kỹ thuật kiểu đó nữa.
Theo toi thi` nen hoc ly thuyet ddo^. ddo ca^?n tha^.n. Mo^.t quye^?n sa’ch co’ ti’nh su+ pha.m to^’t la` quye^?n cu?a Patrick Billingsley (Probability and measure). Ba.n se~ mu+`ng vi` khi ddo’ ca’i nhi`n ve^` xstk se~ dda^`y ddu? ho+n (kho^ng chi? sa^u ho+n). Kai Lai Chung thi` pha?i, co’ ca^u no’i ve^` 2 views cu?a prob. theory, mo^.t ca’i tay pha?i dde.p dde~, mo^.t ca’i tay tra’i (xa^’u ho+n). Mo^.t la` ca’i nhi`n probabilistic cu?a ngu+o+`i tung ddo^`ng xu, mo^.t la` ca’i nhi`n cu?a ly’ thuye^’t ddo^. ddo. Ca’i na`o la` tay tra’i, la` tay pha?i thi` tu`y va`o tu+`ng ngu+o+`i, nhu+ng ne^n du`ng ca? hai tay.
Quye^?n sa’ch cu?a Kolmogorov & Fomin (Real analysis) cu~ng co’ ma^’y chapters ve^` LTDD, vie^’t co’ ti’nh tru+.c quan cao, de^~ hie^?u. Sa’ch paperback cu?a NXB Dover –> ra^’t re?, chi? 5$. Tuy nhie^n ne^n ddo.c sa’ch cu?a probabilists trong ngu+~ ca’ch cu?a ly’ thuye^’t xa’c sua^’t, thi` se~ thu’ vi. ho+n.
Ly’ thuye^’t ddo^. ddo kho^ng chi? ca^`n thie^’t dde^? hie^?u ca^u ho?i “why” (nhu+ trong hypothesis test va` trong asymptotic theory) — ca’ nha^n to^i kho^ng thi’ch hypothesis test mo^.t chu’t na`o — ma` co`n dde^? hie^?u ca^u ho?i “how”. Kho^ng ho.c ly’ thuye^’t DD thi` kho^ng the^? hie^?u ha`m pha^n bo^’ ddu+o+.c ddi/nh nghi~a tre^n ca’c va^.t the^? nhie^`u chie^`u (nhu+ ta^.p ca’c ha`m so^’, hoa(.c ta^.p ca’c ha`m pha^n bo^’). Hay co`n go.i la` stochastic processes. Bie^’t nhie^`u stochastic processes thi` se~ the^m nhie^`u modeling tools cho ngu+o+`i la`m tho^’ng ke^.
Re comment: “ML thu’ vi. ho+n nhie^`u”. Thu+.c ra to^i kho^ng co’ y’ ddi.nh no’i va^’y, cha(?ng qua vi` dda^y la` blog “KHMT”, ne^n no’i nhie^`u dde^’n ML ho+n. Theo to^i ML chi? la` subset cu?a Statistics, va` to^i thi’ch su+. gia`u co’ va` sa^u sa(‘c cu?a ca? Statistics chu+’ kho^ng rie^ng gi` ML.
Quá trình ngẫu nhiên thì bên Phd finance phải học rất nhiều. Nhưng tôi không chuyên về cái đấy và cũng chưa có thời gian. Sẽ cố gắng tìm hiểu thêm, chứ probability đối với tôi bây giờ vẫn chỉ là tung đồng xu thôi.
Cám ơn bác XL.
Về lý thuyết độ đo, mình thấy có rất nhiều cách học. Cách nhiều bạn cũng như mình, bị vướng vô mấy cái chi tiết mà không thấy được 1 bức tranh toàn bộ.
)
Chẳng như ai bắt đầu cũng đều học về sigma đại số (nào là định nghĩa, mấy tính chất, và vài cái định lý + vài trang chứng minh). Vừa xem qua, thì toát hết mồ hôi, quá nhiều thứ cao siêu, nhưng hỏng biết để làm gì. Trước đó, thì chỉ học xstk qua mấy bài toán tổ hợp, mà hỏng thấy ăn nhập gì với sigma đại số cả. Nghĩ đi nghĩ lại, chắc hẳn nhiều bạn đành chấp nhập, rồi học phần tiếp theo. (Toán mà, định nghĩa rõ ràng, định lý đầy đủ, từng dòng từ chữ chứng minh đều hiểu cả, chẳng còn gì hơn. Hỏng học tiếp cái khác thì làm gì bây giờ
Thế nhưng bạn nào bỏ thêm 1 chút diễn giải thực tế vào cấu trúc đại số sigma, chắc sẽ dễ hiểu hơn nhiều. (Như không gian mẫu thì để làm gì, đại số sigma để làm gì? Cụ thể hơn, mình muốn mô hình hóa vị trí của mình tại SG, vậy không gian mẫu trong trường hợp này là gì? Cấu trúc đại số sigma để mô tả cái gì? v.v…..)
Ngày xưa, mình chẳng biết làm thế, nên “đường tu đạo” lắm gập ghềnh treo leo, mất tận 3-4 năm, mới nhìn một phần trăm của LTDD ứng dụng trong LTXS.
Về tích phân Lebesgue, em đọc trong cuốn ” A friendly guide to wavelets” của Kaiser thì nó có một ví dụ như thế này.Ta muốn tính tổng thu nhập của 100 người, theo cách tính tích phân Rieman thì cứ cộng dồn thu nhập của 100 người lại, còn theo Lebesgue thì nó xem số người có thu nhập từ 0-100 ngàn là bao nhiêu người, từ 100-200 là bao nhiêu người, cứ tiếp tục như thế, nhân vô rồi cộng lại, thấy có vẻ hiệu quả hơn.Độ đo Lebesgue là độ đo tập hợp, còn mấy điểm lẻ tẻ hay tổng một số đếm được các điểm lẻ tẻ đều có độ đo bằng không hết.Em chỉ mới hiểu ở mức thô sơ rứa thôi.Nhân đây em thanks bác Long với anh Hưng, nhờ blog này mà em đã học ML và bắt đầu đọc wavelet.:)
Cảm ơn mọi người đã trả lời. Qua thì thấy đây các bạn khác cũng đã từng có vấn đề tương tự.
Vậy lời khuyên là nên học cẩn thận xác suất và thống kê toán học. Nhưng vẫn là câu hỏi câu hỏi là trình tự học như thế nào là hợp lý nhất.
1. Bỏ thời gian học cẩn thận Probability theory (with measure theory) trước. Tôi nghĩ sẽ mất thời gian không ít hơn 1 năm để “ngộ” ra. Sau đó mới học sang thống kê
2. Với kiến thức Probability của non math student (EE/CS) cứ học statistics, sau đó sẽ học lại probability measure sau.
Với kiến thức hiện tại và yêu cầu công việc (hàng kỳ vẫn phải làm project with oriented applications) tôi có xu hướng theo lựa chọn thứ 2 hơn, nếu cách này khả thi.
Rất vui được tiếp tục nghe kinh nghiệm của mọi người.
Sẽ rất bổ ích nếu anh Long hoạc bạn nào khác có thời gian giới thiệu về measure theory/ Probability space cho non mathematical students.
Tôi thấy cách của bạn Lena cu~ng ra^’t khả thi. Chi? ca^`n bie^’t discrete probability dda~ la`m ddu+o+.c vo^ va`n vie^.c ro^`i.
Tuy va^.y discrete space kho^ng co’ nghi~a la` kho^ng ca^`n LTDD. Ba.n se~ ca^`n no’ khi kho^ng gian la` vo^ ha.n. (vi’ du., the^’ na`o la` ha`m pha^n bo^’ cho ca’c so^’ tu+. nhie^n, hoa(.c ha`m pha^n bo^’ cho ta^.p ha`m so^’). Hai vi’ du. na`y tu+o+?ng nhu+ kho^ng lie^n quan dde^’n nhau, mo^.t ca’i la` kho^ng gian discrete, mo^.t ca’i la` kho^ng gian co’ le~ la` lie^n tu.c, nhu+ng dde^? hie^?u tha^’u dda’o thi` dde^`u ca^`n LTDD, va` ddie^`u kha’ kinh nga.c vo+’i to^i, la` ddo^. ddo cu?a ca’i thu+’ hai co’ the^? du`ng dde^? ddi.nh nghi~a ddo^. ddo cu?a ca’i dda^`u tie^n, va` ngu+o+.c la.i. Khi to^i ho.c LTDD, dda(.c bie^.t la` probability measure, thi` tha^’y mo^.t y’ tu+o+?ng chi’nh cu?a LTDD la` kha’i nie^.m countable additivity dde^? gia?i quye^’t va^’n dde^` vo^ ha.n. Mo.i thu+’ kha’c chi? la` chi tie^’t ky~ thua^.t ve^` ma(.t toa’n ho.c. Ne^’u kho^ng bi. vu+o+’ng ba^.n ve^` tho+`i gian, ba.n cu~ng co’ the^? ne^n ho.c song song (vu+`a measure-theoretic probability, vu+`a ho.c tho^’ng ke^).
Ca’ch tu+o+?ng tu+o+.ng ve^` prob. space nhu+ ba.n Tua^’n go+.i y’ cu~ng hay, dda(.c biet cho point processes. To^i thu+o+`ng nghi~ prob space la` mo^.t vu~ tru. bao la ma` mo.i chuye^.n dde^`u co’ the^? xa?y ra. Chu’ng ta quan sa’t vu~ tru. qua ca’c la(ng ki’nh va` ga’n cho nhu+~ng gi` tha^’y ddu+o+.c ba(`ng ca’c bie^’n. Ca’c la(ng ki’nh kha’c nhau thi` se~ pha?i du`ng ca’c bie^’n kha’c nhau, nhu+ng ky` thu+.c chu’ng ta quan sa’t cu`ng mo^.t vu~ tru.. Kha’i nie^/m sigma dda/i so^’ chi? la` mo^.t co^ng cu. toa’n ho.c dde^? ba?o dda?m ca’c la(ng ki’nh na`y quan sa’t cu`ng mo^.t vu~ tru., dde^? tra’nh o^ng no’i ga`, ba` no’i vi.t., dde^? ba?o dda?m ca’i gi` ba/n ddong ddo ddu+o+.c la` hu+~u ha.n, ma(.c du` kho^ng gian ca’c kha? na(ng la` vo^ ha.n. Ngoa`i ra, no’ cho phe’p nhie^`u ti’nh cha^’t quan tro.ng. Vi’ du.: Ca’c la(ng ki’nh ca`ng tinh tu’y thi` ca’i nhi`n vu. tru. cu?a ba.n ca`ng tinh te^’, ro~ ne’t ho+n, nhu+ng kho^ng the^? nhi`n he^’t ddu+o+.c. Ca’c la(ng ki’nh dda(.t ga^`n nhau thi` ca’i nhi`n se~ gio^’ng nhau (continuity/consistency). Ca’c la(ng ki’nh ca`ng xa nhau thi` co’ le~ ca’i nhi`n ca`ng kha’c nhau (independent). etc.
Ddo’ la` mo^.t ca’ch nhi`n ve^` LTXS va` stochastic processes. Co`n ba`i toa’n tho^’ng ke^ la` gi`? Ba`i toa’n tho^’ng ke^ la` du+.a va`o nhu+~ng gi` chu’ng ta thu lu+o+.m tu+` ca’c la(ng ki’nh ddo’, dde^? no’i ve^` vu~ tru., dde^? no’i ve^` bigbang, dde^? no’i ve^` tu+o+ng lai, nhu+ng pha^`n nhie^`u la` dde^? no’i ve^` nhu+~ng gi` chu’ng ta co’ the^? tha^’y tu+` ca’c la(ng ki’nh kha’c ma` ngu+o+`i ta se~ du`ng. Vi’ du., qua ca’c la(ng ki’nh Hubble, ta co’ the^? hie^?u bie^’t ho+n ve^` vu~ tru., va` du`ng kie^’n thu+’c ddo’ die^~n gia?i ca’c hie^/n tu+o+.ng co’ the^? quan sa’t, ca?m nha^.t ba(`ng ma(‘t ba(`ng tai cha(?ng ha.n. Ta^’t nhie^n dda^y chi? la` mo^.t ca’ch tu+o+?ng tu+o+.ng cho vui, co`n nhie^`u ca’ch kha’c.
Tôi đang tìm hiểu về probabilistic graphical models. Như tôi hiểu thì nếu cho trước hàm joint probability distribution thì ta sẽ biết hết thông tin của mô hình (tín được xác suất của tất cả các tổ hợp, xác định được các independencies). Tương ứng với joint probability distribution này thì có thể có nhiều bayesian networks tương ứng. Như vây có cái gì đó không được nhất quán. Nếu dùng các BNs khác nhau này để inference hoạc parameter learning thì các kết quả có khác nhau không?
@lena: Một BN hay graphical model tương ứng với một family of joint probability distributions, chứ không phải ngược lại, cho nen tôi không thấy có vấn đề gì.
Cảm ơn anh Xuân Long đã trả lời.
Như tôi hiểu thì với một joint probability distribution bất kỳ đều có thề biểu diễn một cách “đơn sơ” bằng một BN với node i là con của của tất cả các nodes có chỉ số nhỏ hơn i. Tất nhiên cách biểu diễn này không có lợi gì về mặt tính toán so với việc tính toán trực tiếp trên joint probability distribution.
Nếu như thế nếu cho trước joint probability distributions làm thế nào để xây dựng được BN “đủ tốt”, tức là thể hiện được các thông tin independencies ẩn trọng joint probability distribution.
@lena: Theo tôi thì bạn hiểu ngược. Nên nghĩ về mục đích của ta thường là học/estimate một joint distribution từ dữ liệu. Để có thể làm được điều đó thì ta phải nhet them cac constraints dde han che khong gian cac joint distribution ung cu vien. Graphical models/BN la mot cach dde nhet cac constraints ddo’, thong qua conditional independence relations. GM chi mang cac thong tin so luoc thoi, vi no la tap hop cac distributions.
@Anh Xuân Long: có thể tôi hiểu ngược vấn đề nên thành phức tạp.
Như vậy nghĩa là cấu trúc (topology) của GM hoàn toàn do các conditional independence relations quyết định. Mà các constrains này xác định từ trực quan hoạc kinh nghiệm?
Ngoài ra các constraints này thường mang các thông tin địa phưưong (local conditional independencies). Sau khi có topology của GM thì lại có những conditional independencies mới. Điều này có thể giải thích như thế nào?
Tôi biết cũng có một hướng ngược lại, nếu không biết thông tin về các contraints, chỉ từ dữ liệu người ta cũng cố gắng xây dựng cấu trúc của GM (Structure Learning). Bài toán này có vẻ chưa có lời giải tốt?
Cảm ơn anh đã dành thời gian trả lời.
Trong phan lon cac truong hop ung dung cua GM, conditional independence relation dduoc dua ra do kinh nghiem cua nguoi su dung. Ban noi dung, do truc quan, kinh nghiem, va doi khi chi don gian la do ly do ve computational efficiency ma thoi.
Khi da co GM structure roi, thi ta co the liet ke tat ca cac conditional independence trong do. Nhu da noi, mot GM mo ta mot tap hop cac ham phan bo. Tat nhien, rat co the ham phan bo ma ta muon tim con co cac conditional independence khac trong do. Ddieu nay khong co gi la mau thuan ca.
Van de ban neu ra, tim cac conditional independence relation giua cac bien, chi dua vao du lieu, la mot van dde kho. Lam the nao dde mo ta quan he independence, khi ta khong biet ham phan bo thuc su cua data la gi? Day la van de kho, nhung co the giai quyet dduoc. Co nhieu bien phap uoc luong entropy, mutual information chang han; nhung thu nay co the dung de mot ta quan he independence.
Trong ngu canh GM, structure learning tu du lieu la mot van de kho, thu vi. Ve mat thuc dung, nhu noi o tren, nguoi ta it khi doi dau voi no, ma thuong dua ra structure bang truc quan cua nguoi su dung. Nhung ve ly thuyet, thi co nhieu cach dde giai quyet. Mot cach goi la structure EM. Mot cach khac, dung lasso penalty. Noi chung, van de structure learning
khong bao gio co loi gian tot, chi tru mot so truong hop rat dac biet.
Hom qua toi vua co bai giang ve model selection xong. Co noi cac van de nay. Ban co the tham khao mot so bai bao vi du ve sparse graphical model structure learning qua homepage cua lop toi day (vao link projects)
http://www.stat.lsa.umich.edu/~xuanlong/courses/stat700-f09/
Cảm ơn anh Long về nhưng thông tin mới. Đối với tôi cả nhưng thông tin được confirmed lại từ những người hiểu rõ vấn đề cũng rất có ích.
Have a nice weekend.
Thêm một vài bình loạn về sách:
Về classical (frequentist) statistics đúng là quyển của Bickel & Doksum viết rất hay, và không cần kiến thức về measure theory vẫn có thể hiểu được (Tôi chưa đọc sách của Lehmann nên không so sánh được). Các định nghĩa và chứng minh đều rất chặt chẽ. Nhưng mà hình như không có tập 2 ?
Tuy nhiên phải thú thực là để tự học (không phải/được theo lớp) thì khá mệt. Tôi đọc gần 3 tháng nay chưa hết được 2 chương đầu và nhiều lúc cũng thấy nản. Ngoài ra để giữ được nồi cơm cần thời gian làm các thứ khác nữa.
Cho các bạn nào cần nhanh chóng hiểu ý tưởng của statistics (models, point estimation, confidence and hypothesis testing) và ứng dụng thì quyển sách \All of statistics\ của Larry Wasserman (CMU) tôi thấy khá tốt.
http://www.amazon.de/All-Statistics-Statistical-Inference-Springer/dp/0387402721
Sau khi nắm được ý tưởng thì có thể tìm hiểu chặt chẽ khi có thời gian.
Chúc mọi người cuối tuần vui vẻ
lena