Lexicon — xác suất thống kê và học máy

Last Updated: 18/11/2010

Trang này lấy cảm hứng từ trang lexicon của chùa THT bắt đầu từ gợi ý của địa chủ blog này.

Chủ đề trung tâm là suy diễn thống kê. Với nhãn quan này tôi bắt đầu từ lý thuyết xác suất, sau đó chuyển sang lexicon bên thống kê học và đảo qua học máy (machine learning) bên khmt rồi đến các giải thuật quy hoạch tối ưu.

Số lượng lexicon tôi biết còn rất cám cảnh, mục tiêu chính (ích kỷ) ở đây sẽ là cơ hội (cho tôi) để học thêm. Có một số từ chuyên ngành sẽ khá là mới mẻ, đây sẽ là cơ hội để ta tự do sáng tác. Sẽ cố gắng thống nhất với các lexicon đã được xem là chuẩn, nhưng vẫn có thể xem lại một số chưa được sát nghĩa. Rất mong được sự góp ý của mọi người.

Khởi động với lý thuyết xác suất (có vẻ dễ dàng hơn cả, càng đi tiếp hình như càng cam go). Tôi sẽ tiếp tục cập nhật khi có thêm đóng góp.

Mục lục.

1. Lý thuyết xác suất

1.1 Căn bản
1.2 Độc lập và hội tụ
1.3 Quá trình ngẫu nhiên

2. Mô hình thống kê

2.1 Căn bản
2.2 Tham số
2.3 Đầy đủ và thông tin
2.4 Nhãn quan Bayes và Tần suất
2.5 Phân lớp các mô hình và cách tham số hóa
2.6 Dao cạo của Occam

3. Suy diễn thống kê

3.1 Tổng quan
3.2 Lý thuyết quyết định
3.3 Các cách ước lượng/ học thống kê
3.4 Các suy diễn thống kê cụ thể
3.5 Thống kê vô hạn, lý thuyết học và lý thuyết thông tin
3.6 Lựa chọn mô hình
3.7 Thiết kế thí nghiệm

4. Giải thuật thống kê/ học giả

4.1 Tổng quan

….

1. Lý thuyết xác suất:

1.1 Căn bản: Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự ngẫu nhiên (randomness). Đối tượng cơ bản nhất của LTXS là các biến ngẫu nhiên (random variables).  Để định nghĩa một biến ngẫu nhiên thì cần một hàm phân bố (distribution function), qua đó có thể định nghĩa được các khái niệm như trung bình (mean) và phương sai (variance). Standard deviation gọi là độ lệch chuẩn. Mean và variance là các phiếm hàm (functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu diễn bởi hàm mật độ (density), theo định lý Radon-Nikodym.

Cơ sở toán học của lý thuyết xác suất là thuyết độ đo (measure theory), nhưng việc chính của các xác suất gia (?) (probablist) là xây dựng phát triển cáng nhiều loại đo đo xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa một đại số sigma (sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm độc lập (independence), và mạnh mẽ hơn là độc lập có điều kiện (conditional independence). Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát hơn.

1.2 Độc lập và hội tụ: Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh hiện tượng tập trung của độ đo (concentration of measure). Bắt đầu là luật các số lớn (có phiên bản luật mạnh (strong law) và luật yếu). Luật giới hạn trung tâm (Central limit theorem) nhắc rằng sample mean (mẫu trung bình)  có quy luật bình thường (normal/Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm hội tụ (convergence) trong giải tích. Hội tụ gần chắc (almost sure), hội tụ về phân bố hoặc về luật (convergence in distribution/ in law).  Ngoài luật số lớn còn có luật các số nhỏ (hay luật các hiện tượng hiếm có — law of rare events), cho ta biết khi nào thì mẫu trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất — là những viên gạch cho toàn bộ lâu đài XS.

Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là tính hoán chuyển được (exchangeability).  Nếu tính độc lập là nền tảng cho các phương pháp suy diễn tần số (frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp suy diễn Bayesian. Tính hoán chuyển được đang được mở rộng ra thành hoán chuyển từng phần (partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các vật thể tổ hợp (combinatorial object) rời rạc và phức tạp.

1.3 Quá trình ngẫu nhiên: LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp, nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những tập các hàm số đo được (measurable functions), và hàm phân bố cho các độ đo ngẫu nhiên (random measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các quá trình ngẫu nhiên (stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ các điều kiện nhất quán (consistency) của độ đo cho các cylinder sets. Đây là cách để chúng ta xây dựng được các hàm phân bố cho quá trình Gauss (Gaussian processes), quá trình Dirichlet (Dirichlet process), v.v.

Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào phép biến đổi Fourier (Fourier transform) của các hàm phân bố.  Theo ngôn ngữ XS thì khái niệm này gọi là hàm tính cách (characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần khái niệm các hàm phân bố khả phân vô hạn (infinitely divisible). Khái niệm tiếp theo là các hàm phân bố ổn định (stable distribution). Gauss và Poisson chính là hai hàm phân bố ổn định — không phải là “ngẫu nhiên” nếu chúng ta quay về các luật số lớn và số nhỏ nhắc ở trên. Max-stable là một họ phân bố cực đại ổn định.

Các quá trình ngẫu nhiên có tính chất gia tăng độc lập (independent increment) gọi là quá trình Lévy. Tổng quát hơn một chút là các độ đo hoàn toàn độc lập (completely random measures). Định lý biểu diễn Lévy-Khintchine cho chúng ta biết rõ hàm tính cách của các quá trính stochastic này là gì, thông qua độ đo Lévy (Levy measure). Chọn độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tương ứng. Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ của các lâu đài xác suất đồ sộ:  Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả các quá trính Lévy đều có thể được decompose (phân rã) (phân tách) thành tổng của ba quá trình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quá trình phức hợp (compound) Poisson, và một là quá trình martingale.

Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫu nhiên. Thay vì hình dung sigma đại số (recipe làm bánh) thì ta có thể mô tả những cái bánh. Nếu quá trình được liệt kê bởi tham số thởi gian, thì một cái bánh ở đây có thể hiểu là một lối mẫu (sample path). Với một số quá trình ngẫu nhiên thì có thể mô tả cách tạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp nhặt mẫu từ giỏ Pólya (Pólya’s urn).  Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng biểu diễn bẻ gậy (stick-breaking representation). Theo biểu diễn này thì cần các nguyên tử (atom) và các mẩu gậy (stick-breaking weight). Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở của độc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằng các nguyên liệu giản đơn hơn.

Được quan tâm hàng đầu là biểu hiện của giá trị kỳ vọng (expectation) của một vật thể xác suất. Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bản thân nó cũng là một biến ngẫu nhiên. Một công cụ quan trọng là khái niệm martingale. Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là quá trình đánh bạc(?). Cần khái niệm filtration (hệ thống lọc). Ngoải ra ta còn có submartingale, supermartingale và semimartingale (?). Nhờ các công cụ này mà ta có thể tìm hiểu các khái niệm xác suất hữu ích như thời điểm dừng (stopping time), thời điểm chạm (hitting time), thời gian/thởi điểm vượt biên (boundary crossing time).

Một họ quá trình NN rất thông dụng là quá trình Markov (Markov process). Định nghĩa trên cơ sở hạch xác suất chuyển dịch (transition probability kernel), và khái niệm hệ thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local time được dịch là thời gian địa phương. Quá trình Markov cho thời gian rời rạc còn gọi là chuỗi Markov (hoặc xích Markov). Liên qua đến chuỗi Markov là lý thuyết ergodic (?). Irreducibility dịch là bất khả quy.  Một vấn đề được quan tâm là thời gian hòa tan (mixing time) của chuỗi Markov.  Điều kiện cần cho chuỗi Markov được hòa tan về một trạng thái phân bố bất dịch (phân bố dừng) (stationary distribution)  là ergodicity, thỏa mãn phương trính cân bằng chi tiết (detailed balance). Chuỗi Markov định nghĩa cho không gian rởi rạc (dàn lattice chẳng hạn) thì sẽ trở thành quá trình đi bộ ngẫu nhiên (random walk).  Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự cặp đôi. Coupling from the past? Quá đơn giản, cặp nhau từ quá khứ! Time-homogeneous Markov process gọi là quá trình Markov đồng biến.

Nói đến quá trình ta thường nghĩ đến thời gian — cụ thể là các quá trình NN thường được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là trường ngẫu nhiên Markov. Gaussian random field là trường ngẫu nhiên Gauss. Poisson point process gọi là quá trình điểm Poisson (lại quá trình, nhưng kỳ thực phải gọi là trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là hiện tượng chuyển pha.

Một dạng quá trình NN khá hay ho gọi là empirical process (quá trình thực nghiệm). Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói  ở mục sau.

Các khái niệm quan trọng khác: percolation, excursion, optional stopping

2. Mô hình thống kê

2.1 Căn bản. Mô hình thống kê (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyên liệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS. Cái khác ở đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là dữ liệu (data), những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằng thực nghiệm và các thiết bị công nghệ. Cho nên trọng tâm của việc xây dựng mô hình thống kê là làm sao ước lượng (estimate) /học (learn) được mô hình này từ dữ liệu, làm sao có thể đánh giá được tính hiệu quả (efficiency) hoặc tính phổ quát (generalization) của mô hình, làm sao có thể chọn ra được mô hình hữu ích (model selection/model choice).

2.2 Tham số. Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải tham số hóa (parameterization) mô hình. Các tham số (parameter) là phần còn lại của mô hình xác suất mà chúng ta phải ước lượng, học. Đến đây có một vấn đề nho nhỏ, các tham số là một giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên. Có hai cách tiếp cận vấn đề này, trường phái tần suất giả dụ cách đẩu, còn trường phái Bayes thì giả dụ cách sau. Nếu các tham số là có số chiều hữu hạn, ta có một mô hình tham số (parametric model), nếu số chiều là vô hạn thì ta có mô hình phi tham số (nonparametric model). Như vậy, gọi là phi tham số không có nghĩa là không có tham số. Nếu tham số là ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là mô hình phi tham số Bayes (Bayesian nonparametric model). Điều này không có nghĩa làm việc với các mô hình dạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người phát triến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãn quan Bayes. Song không nhất thiết phải vậy.

2.3 Đầy đủ và thông tin. Một công cụ quan trọng trong việc tham số hóa là khái niệm thống kê đầy đủ (sufficient statistics). Để hiểu khái niệm này phải hiểu khái niệm thống kê là gì. Một thống kê là một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên hệ với khmt thì thống kê chính là đầu ra (output) của một giải thuật sử dụng dữ liệu như là đầu vào.  Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý biểu diễn phân tích Fisher-Neyman (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm thống kê đầy đủ là một khái niệm có tính lý thuyết thông tin (information-theoretic), có thể phát biểu bằng tính độc lập có điều kiện và các khái niệm entropy.

Một loạt các mô hình đẹp có thể được động viên từ khái niệm cần và đủ kiểu này. Mô hình họ mũ (exponential family) là mô hình tạo ra dữ liệu ngẫu nhiên nhất có thể được, nếu các thống kê đầy đủ đã được cho. Mô hình xác suất đồ thị (probabilistic graphical model) là mô hình duy nhất thỏa mãn các ràng buộc về độc lập có điều kiện cho các biến ngẫu nhiên, theo định lý Hammersley-Clifford. Nếu các biến ngẫu nhiên được giả dụ là hoán chuyển được, thì chúng bắt buộc phải được mô tả bởi một mô hình trộn/ mô hình hỗn hợp (mixture model), theo định lý nổi tiếng của de Finetti. Nếu các biến ngẫu nhiên có hàm phân bố không thay đổi kể cả khi bị biến đổi trực chuẩn (orthornomal transformation) thì chúng bắt buộc phải được mô tả bởi một elliptically contoured distribution (phân bố có đường cong ê líp), kiểu như Gauss đa biến vậy.

2.4 Nhãn quan Bayes và tần suất. Các mô hình thống kê cho ta keo dính để gắn kết các dữ liệu với nhau, và là đối tượng trung tâm của ngành thống kê. Nhưng trong lịch sử và đến tận bây giờ, các mô hình vẫn được trường phái Bayes chào đón nồng nhiệt hơn là trường phái tần suất, bởi vì sự lệ thuộc vào một mô hình thống kê làm cho người ta liên tưởng đến sự lệ thuộc vào tiên nghiệm (prior knowledge) quá nhiều, và do đó thiếu đi sự “khách quan”. Đặc biệt trong trường phái Bayes có một nhánh gọi là Bayes chủ quan (subjective Bayes) và Bayes khách quan. Những người theo Bayes chủ quan cho rằng, nếu ta có những niềm tin chủ quan (subjective belief) nhất định về dữ liệu, thì ta sẽ sử dụng một mô hình xác suất tương ứng, do các định lý kiểu như của de Finetti và Hammersley-Clifford kể trên. Một mảng không nhỏ của ngành thống kê học, thuộc trường phái tấn suất, tập trung vào các phương pháp mô hình tự do (distribution free), qua đó không sử dụng một mô hình xác suất cụ thể nào, mặc dù họ có giả sử là tộn tại một hàm phân bố để tạo ra các mẫu dữ liệu một cách độc lập.  Chú ý rằng điều này không có nghĩa là các nhà tần suất là khách quan hơn các nhà Bayes chủ quan, vì sự giả dụ tính độc lập nói chung là mạnh hơn sự giả dụ tính độc lập điều kiện, hay tính hoán chuyển được. Cả hai cách nhìn Bayes và tần suất đều hữu ích trong các ngữ cảnh khác nhau, và về nhiều mặt không có phe hoàn toàn đúng. Cả hai cách nhìn này đều chứa chất mâu thuẫn trong mình, có sự đối chọi nhau, nhưng cũng có sự tương hỗ nhau giống như bức tranh âm-dương trong Kinh Dịch vậy. Ta sẽ tiếp tục soi lại quan hệ này mỗi khi có dịp.

2.5 Phân lớp các mô hình cụ thể và cách tham số hóa.  Các mô hình thống kê giống như các sinh vật trong thế giới tự nhiên, rất đa dạng và có thể được phân lớp, và có thể quan sát sự phức tạp tăng dần với quá trình phát triển của ngành. Trong ngành học máy thì một số người còn gọi một mô hình là một cái máy (machine), nghe công nghệ, hiện đại và mới mẻ hơn. Để mô tả một mô hình thì cần phải nói cách tham số hóa của chúng thế nào, nên cần rất nhiều khái niệm và lexicon. Tham số hóa thế nào chính là vấn đề cơm và nước mắm của người học thống kê.

Với rất nhiều biến ngẫu nhiên, cần phải định ra joint distribution (phân bố liên hợp). Marginal distribution gọi là ? Conditional distribution gọi là phân bố điều kiện. Covariates gọi là đồng biến. Trong công nghệ thường là đầu vào. Features thực ra cũng là đồng biến, nhưng xuất xứ từ học máy, và sẽ gọi là đặc trưng.

Trong họ mũ, có hai cách tham số hóa. Natural parameterization gọi là cách tham số hóa tự nhiên. Canonical parameterization gọi là tham số hóa chính tắc? Còn gọi là tham số hóa trung bình (mean parameterization). Hai hệ tham số kể trên có liên hệ mất thiết với nhau qua quan hệ đối ngẫu liên hợp (conjugate duality), một khái niệm của giải tích lồi (convex analysis). Trong hình học thông tin (information geometry) thì hai hệ tham số này có thể hiểu qua khái niệm e-flat manifold và m-flat manifold (?). Normalizing constant gọi là hắng số chuẩn hóa. trong vật lý thống kê thì khái niệm này còn gọi là partition function — hàm ngăn phần. Các mô hình thông dụng trong vật lý lý thuyết như mô hình Ising, spin glass (?), đều là trường hợp đặc biệt của họ mũ. Rất nhiều hàm phân bố là trường hợp đặc biệt của họ mũ. Đặc biệt quan trọng là multivariate Gaussian dịch là Gauss đa biến. Mean vector và covariance matrix gọi là vector trung bình và ma trận hiệp phương sai.

Mô hình họ mũ lại là trường hợp đặc biệt của họ mô hình xác suất đồ thị (graphical model). Phân biệt graphical và graph và graphics thể nào đây? Để định nghĩa mô hình này cần potential function (hàm tiềm năng), được định nghĩa trên clique (?) của các biến ngẫu nhiên. Có hai loại mô hình XSDT. Một là mô hình đồ thị vô hướng (undirected graphical model), cũng đồng nghĩa với trường ngẫu nhiên Markov (Markov random fields). Một là mô hình đồ thị có hướng (directed graphical model), còn gọi là mạng Bayes (Bayesian network) của Pearl. Trong mạng Bayes có khái niệm nốt chanốt con. Khái niệm moralization gọi là lấy nhau. Một số trường hợp thông dụng của mạng Bayes có thể kể đến mô hình cây xác suất ĐT (tree-structured graphical model), mô hình đa  cây (polytree) nhưng có lẽ gọi là cây đa cũng thích hợp, mô hình Markov ẩn (hidden Markov), mô hình lọc Kalman (Kalman filter), mài trơn Kalman (Kalman smoothing) … Latent/hidden variables gọi là các biến ẩn. Naive Bayes tạm gọi là Bayes thơ ngây, hoặc Bây ngô. Mạng Bayes cho các dạng dữ liệu tuần tự (sequential data) còn gọi là dynamic Bayes net (?).

Một số mô hình tham số khác phải kể đến: Mô hình hổi quy tuyến tính, mạng nơ ron (neural network), mô hình cây quyết định (decision tree), mô hình hợp xướng (ensemble), mô hình hổi quy logit (logistic regression), mô hình tuyến tính tổng quát (generalized linear model), mô hình mạng tin, mạng tin sâu (deep belief net). v.v. Những mô hình kiểu này thường áp dụng vào các vấn đề suy diễn cụ thể hơn, đặc biệt trong bài toán phân lớp (classification) và hồi quy (regression). Có một số cách phân loại nữa: Trong học máy thì các mô hình dự trên hàm phân bố xác suất liên hợp thường gọi là mô hình sinh mẫu (generative model), nhưng cũng có một số mô hình áp dụng cho các vẫn đề liên quan đến xác suất điều kiện thì gọi là mô hình phân biệt (discriminative model). Cái sau hay được dùng cho các kiểu suy diễn đặc biệt hơn như bài toán phân lớp, bài toán phân hạng, v.v.

Một mô hình bao gồm cả tham số có số chiều hữu hạn và tham số có số chiều vô hạn thường gọi là mô hình bán tham số (semiparametric model).  Một ví dụ tiêu biểu là mô hình hồi quy Cox (Cox regression model) trong bài toán phân tích sống sótphân tích sự kiện lịch sử (survival analysis/ event history analysis). Time to event data dịch là dữ liệu sự kiện. Trong mô hình này, thành phần tham số hữu hạn gắn liền với những đồng biến (covariates) quan tâm,  thành phần tham số vô hạn là cường độ tử vong/lỗi cơ bản (baseline hazard intensity). Đôi khi họ các mô hình bán tham số được gộp chung vào họ các mô hình phi tham số.

Họ các mô hình phi tham số Bayes được lấy từ các quá trình ngẫu nhiên kể trên. Infinite mixture model gọi là mô hình trộn/ hỗn hợp vô hạn. Có các quá trình đậm chất ẩm thực: Quá trình nhà hàng Tàu (Chinese restaurant process), quá trình búp phê Ấn độ (Indian buffet process). Quá trình coelescence gọi là gì? Với dân tần suất thì nhiều khi các mô hình phi tham số chỉ là tập các hàm quen thuộc trong giải tích hàm. Ví dụ lớp Sobolev (Sobolev class), lớp Besov, không gian Hilbert nhân tự sinh (reproducing kernel Hilbert space), lớp smoothing splines (?), v.v.  Dân Bayes sẽ luôn luôn nói về các hàm phân bố (độ đo) cho các hàm số kiểu này.

Dân Bayes còn có một việc là phải tham số hóa các tham số. Theo cách nhìn Bayes, các tham số cũng ngẫu nhiên, phải được giả dụ bởi một hàm phân bố khác. Các tham số của hàm này sẽ là hyperparameter (tham số tầng trên/ tham số thượng tầng?). Nếu là người theo Bayes cuồng tín, thì các tham số thượng tầng này cũng phải ngẫu nhiên… và phải tiếp tục quá trình tham số này đến tận Big Bang. Điều này dẫn đến một họ mô hình đa tầng (hierarchical model/ multi-level model), rất mạnh và rất giàu. Tuy có thể coi là một trường hợp của mô hình XSDT, nhưng trọng tâm và nguổn gốc rất khác, nên ta không nên gộp làm một. (Chú ý là ta không thể đi đến tận Big Bang, nên sau vài tầng của hierarchy thì các nhà thống kê Bayes cũng sẽ  mệt và dửng lại. Trên thực tế, khi đó vai trò của các tham số tầng rất cao không còn ý nhiều trong chuyện chi phối các biểu hiện của mô hình nữa). Việc định ra cách tham số hóa các tham số còn gọi là sự định ra các prior distribution (phân bố tiên nghiệm) cho các tham số ngẫu nhiên. Áp dụng công thức Bayes (Bayes rule) thì tính được posterior distribution, dịch là phân bố hậu nghiệm. Conjugate prior thì gọi là phân bố tiên nghiệm liên hợp. Tham số hóa cho các tham số hyper còn gọi là sự định ra các hyperprior (phân bố tiên nghiệm thượng tầng). Quyết định lựa chọn prior nào (sự chỉ định tiên nghiệm) phụ thuộc vào sự giằng co giữa tiên nghiệm (prior knowledge), thực nghiệm từ dữ liệu (empirical data), và sự thuận tiện về tính toán (computational convenience). Sử dụng các phân bố tiên nghiệm liên hợp (phát âm đầy mồm!) là một ví dụ của sự thuận tiện. Sự giẳng co giữa tiên nghiệm và thực nghiệm chẳng qua là một thể hiện của dao cạo Occam, dưới nhãn quan của trường phái Bayes.

Dân tần suất thì không thích khái niệm tham số hyper chút nào, mà cho rằng các tham số phải là không ngẫu nhiên. Về mặt mô hình mà nói thì cách nhìn này là cái trói vô hình, theo quan điểm Bayes những tham số kiểu này là vẫn có thể coi là ngẫu nhiên theo một độ đo Dirac (độ đo nguyên tử — atomic measure), một sự ràng buộc rất chặt không cần thiết. Cho nên, trong lịch sử mô hình của các nhà tần suất thường không giàu có bằng mô hình của các nhà Bayes. Tuy không nhất thiết phải là như vậy.

2.6 Dao cạo của Occam. Như ông Gớt nói là mọi chân lý đều màu xám, còn cây đời thì mãi mãi xanh tươi. Thay chữ chân lý bằng chữ mô hình, thay chữ cây đời bằng chữ dữ liệu quan sát được, ta có một biên phản cho các nhà thống kê. Bác George Box có một câu nổi tiếng tương tự — mọi mô hình đều sai, chỉ có những mô hình hữu ích hay không. Cho nên ta phải nhìn nhận các mô hình là cách chúng ta xấp xỉ thế giới thực nghiệm. Vì vậy ngoài sai số ước lượng (estimation error) của các tham số, còn có một dạng sai số gọi là sai số xấp xỉ (approximation error). Mô hình dùng ngôn ngữ thống kê và các cấu trúc toán học (như các quá trình stochastic) làm viên gạch, nhưng lại được ước lượng, điều chỉnh (update), và đánh giá, phân tích bằng dữ liệu thật.  Công cụ toán học càng mạnh thì tính phức tạp mô hình (model complexity) càng lớn, dẫn đến khả năng biểu diễn của một mô hình càng lớn, khi đó sai số xấp xỉ sẽ nhỏ, song việc ước lượng (estimation) từ dữ liệu cũng có thể lớn lên.  Đây chính là giằng co (tradeoff ) giữa sai số xấp xỉ và sai số ước lượng. Hiện tượng này gọi là cái dao cạo của Occam (Occam’s razor),  luôn luôn ám ảnh và xuyên suốt mọi quyết định trong việc thiết kế và đánh giá một mô hình học. Sợ nhất là mô hình overfit dữ liệu (quá rộng) Một đánh giá khách quan đối với sự hiệu quả và tích hữu ích của một mô hình là tính dự báo của nó, và nói chung thì lỗi dự báo thường được chặn bởi hai dạng sai số nói trên. Liên quan đến các khái niệm xấp xỉ: Model misspecification gọi là sự chỉ định mô hình không chuẩn. Khái niệm model identifiability gọi là tính khả nhận diện mô hình. Parameter identifiability là tính khả nhận diện của tham số.

Tóm tắt: joint probability, marginal probability, conditional probability, model identifiability, model mis-specification, model choice, model selection, parameter identifiability, consistency, parametric model, nonparametric, exponential family, curved exponential family, graphical model, hierarchical model, mixture model, hidden markov model, copula model, latent/hidden variables, nonparametric Bayesian model, density, intensity measure, analysis of variance, functional data, curve data, prior distribution, posterior distribution, a priori, a posteriori, sufficient statistics, order statistics, mean parameterization, canonical parameterization, normalizing constant, log-partition function, mean function, covariance function, covariates, features, conjugate prior, conjugacy

3. Các phương pháp suy diễn thống kê

3.1 Tổng quan. Cần phân biệt suy diễn thống kê (statistical inference) với suy diễn xác suất (probabilistic inference). Cái sau chỉ là sự tính toán các xác suất điều kiện trên cơ sở mô hình xác suất. Còn SDTK là suy diễn trên cơ sở mô hình thống kê với sự hiện diện của số liệu. Có hai vấn đề chính, một là suy diễn về tham số, hay còn gọi là ước lượng về tham số (parameter estimation), và dự báo (prediction). Với nhãn quan Bayes thì suy diễn thống kê còn gọi là suy diễn Bayes, về mặt toán học thì không khác gì suy diễn xác suất vì cả tham số và dữ liệu đều được mô tả bằng biến ngẫu nhiên. Cho nên về mặt khái niệm thì đơn giản, mẫu mực. Với nhãn quan tấn suất thì cách tiếp cận đến các vấn đề suy diễn thống kê khó khăn hơn về mặt khái niệm, và đòi hỏi các cách tiếp cận không mẫu mực. Trong học máy thì vấn đề ước lượng về tham số còn gọi là học.

Nếu như trong vấn đề xác định mô hình thì quan điểm Bayes và quan điểm tần suất có tính tương hỗ nhau (ví dụ, anh Bây nói với với anh Tần: Tôi mệt rồi, cho phép cái tham số hyper của tôi là không ngẫu nhiên nhá — và anh Tần nói với anh Bây: Cho tôi gọi tham số của anh là biến ẩn nhá), thì trong vấn đề suy diễn, hai quan điểm này xung khắc nhau quyết liệt bất phân thắng bại. Quan điểm của Bây là: đối với vấn đề ước lượng tham số thì chỉ suy diễn điều kiện vào dữ liệu có sẵn (conditioning on data), và “marginalize out/ integrate out” (?) các tham số ngẫu nhiên trong việc dự báo. Quan điểm của Tần là: đồi với vấn đề ước lượng tham số thì phải suy diễn cho cả dữ liệu tưởng tượng (imaginary data, và dùng ước lượng “plug-in” (?) trong việc dự báo. Tiêu chuẩn của Bây là lạc quan, quan tâm nhiều đến phân tích trường hợp trung bình (average-case analysis). Tiêu chuẩn của Tần rất bi quan, chú trọng nhiều hơn đến phân tích tình huống xấu nhất (worst-case analysis). Đây chỉ là hai thái cực để cho thấy sự khác biệt. Trên thực tế có thể  kết hợp cả hai cách tiếp cận trong việc suy diễn từ dữ liệu.

Có một số vấn đề suy diễn cụ thể hơn, và do đó có một số lexicon riêng: Point estimation gọi là ước lượng điểm (một khái niệm của TK Tần). Hypothesis testing gọi là kiểm định lý thuyết (phép thử lý thuyết?).  Classification gọi là vấn đề phân lớp. Clustering gọi là vấn đề chia nhóm. Bài toán ranking trong học máy gọi là vấn đề phân hạngSupervised learning gọi là học có nhãn, học có hướng dẫn. Unsupervised learning gọi là học không nhãn (học không có hướng dẫn, học không thầy). Sequential analysis gọi là phân tích chuỗi/ phân tích tuần tự (?), mà cụ thể có bài toán optimal stopping dịch là bài toán dừng tối ưu. Survival analysis gọi là phân tích sự sống sót (?). Vấn đề change point detection gọi là bài toán phát hiện điểm thay đổi. Chú ý là tất cả các vẫn đề suy diễn cụ thể này đều có thể hiểu tổng quát theo một trong hai vấn đề suy diễn (ước lượng tham số, hoặc dự báo), đều có thể tiếp cận theo cách nhìn Tần hay Bây, nhưng có thể sự điểu chỉnh một chút về cách đánh giá của suy diễn.

3.2 Lý thuyết quyết định. Nền tảng lý thuyết của suy diễn thống kê chính là lý thuyết quyết định của Abraham Wald. Cần khái niệm rủi ro (risk). Rủi ro Bayes là Bayes risk. Rủi ro là kỳ vọng của hàm thiệt hại/tổn thất/thiệt/mất (loss function). Dân kinh tế sẽ dùng hàm utility (hàm tiện ích/thỏa dụng) thay vì dùng hàm thiệt hại. Một khái niệm tương tự là hàm reward (?)  trong môn học reinforcement learning(?), và quá trình quyết định Markov.

Lý thuyết quyết định là cái ô chung cho cả hai trường phái Bây và Tần, nhưng với dân Tần thì có nhiều việc phải lo hơn. Estimator dịch là cách ước lượng cho một tham số, và là một hàm số áp dụng vào dữ liệu. Như vậy cũng giống một thống kê, như vậy có thể coi một thống kê là một cách ước lượng thô sơ.  Estimate là một ước lượng cụ thể cho một tham số nào đó. Trong bài toán phân lớp thì estimator còn gọi là một learning machine (máy học), estimate sẽ là hàm số phân lớp (classifier).  Trong vấn đề kiểm định lý thuyết (hypothesis testing) thì cái phải ước lượng là một hàm số quyết định (decision function).  Dù theo nhãn quan nào thì đều cần tìm ước lượng theo tiêu chuẩn có giá trị rủi ro tối thiểu (minimum risk criterion).  Nhưng rủi ro của anh Bây thì khác với anh Tần.  Kỳ vọng tần suất (frequentist expectation) là kỳ vọng của hàm mất đối với phân bố của dữ liệu (ảo tưởng) trên cơ sở một mô hình với một tham số có sẵn. Kỳ vọng Bayes là giá trị kỳ vọng của hàm mất đối với phân bố điều kiện của tham số trên cơ sở dữ liệu có sẵn. Nói cách khác, với anh Tần thì dữ liệu là ngẫu nhiên, với anh Bây thì tham số là ngẫu nhiên. Nếu lấy kỳ vọng của kỳ vọng tần suất đối với phân bố của tham số, hoặc lấy kỳ vọng của kỳ vọng Bayes đối với phân bố của dữ liệu thì ta cùng nhận được Rủi ro Bayes!

Một số hàm thiệt hại thông dụng: Hàm thiệt  0-1. Khi đó Rủi ro Bayes gọi là Lỗi Bayes (Bayes error).  Hàm thiệt bình phương (square loss). Hàm thiệt mũ (exponential loss). Hàm thiệt logit (logistic loss). Surrogate loss sẽ được dịch là hàm thiệt thế chỗ (?). Để so sánh các cách ước lượng (estimator) khác nhau người ta có thể dùng tiêu chuẩn Bayes (thông qua việc so sánh Rủi ro Bayes). Dân tần suất sẽ hay dùng tiêu chuẩn minimax, mượn từ lý thuyết trò chơi (mà cuộc chơi ở đây là giữa nhà thống kê và Trời — chỉ Ông Trời biết chân lý (mô hình đúng là gì, và ông trời mỗi lần ra tay sẽ nhả ra một mẫu dữ liệu). Cần một số phẩm chất cho các cách ước lượng, như khái niệm unbiasedness (?), admissibility (?), consistency (nhất quán), invariance (bất biến phương sai), efficiency (hiệu quả), superefficiency (siêu hiệu quả). Dân Bayes chủ quan không quan tâm đến mấy cái chuẩn này, vì họ đã có niềm tin son sắt vào tiên nghiệm rồi, và suy diễn Bayes bằng cách tính phân bố hậu nghiệm là xong. Tuy vậy phương pháp suy diễn Bayes chủ quan có nhiều tính chất lý thuyết rất tốt. Suy diễn dựa trên cơ sở của phân bố hậu nghiệm được chứng minh là tối ưu theo tiêu chuẩn Rủi ro Bayes. Dân Bayes khách quan thì không quá tự tin như dân Bayes chủ quan, nên họ muốn phân bố tiên nghiệm phải có những phẩm chất tốt. Tính nhất quán hậu nghiệm (posterior consistency) là một phẩm chất quan trọng.

3.3 Các cách ước lượng/học thống kê. Tôi đặt vài viên gạch ở đây. Khi nào rỗi sẽ viết dần dần. Bạn nào có nhã hứng đóng góp từng paragraph vào các mục sau (hoặc các mục chưa ghi) xin cho biết. Ước lượng hay học ở đây vẫn trên cơ sở một họ mô hình định sẵn. Còn vấn đề khó hơn là chọn mô hình (model selection), so sánh các mô hình, đặc biệt giữa các mô hình có độ phức tạp khác hẳn nhau. Kiểm định giả thuyết  là một dạng rất đặc biệt của lựa chọn giữa các mô hình, song vẫn có thể hiểu gọn trong phạm vi ước lượng.

Empirical risk minimization. Rủi ro được định nghĩa trên cơ sở hàm phân bố của mô hình (chân lý — chỉ có Trời mới biết). Chỉ có thể tiếp cận đến mô hình này thông qua quá trình thực nghiệm (empirical process). Nói cách khác, rủi ro phải được ước lượng bẳng rủi ro thực nghiệm (empirical risk). Hầu hết các cách ước lượng của phe Tần suất đều ở dạng tính rủi ro thực nghiệm cực tiểu (empirical risk minimization (ERM)). Một lexicon đồng nghĩa là M-estimation (ước lượng M), M có nghĩa là maximization hoặc minimization. Cách ước lượng dựa vào moment (moment-based estimation/ moment matching) thực ra cũng có thể được động viên và liên hệ với cách ước lượng rủi ro thực nghiệm cực đại. Một vấn đề đau đầu cho cách ước lượng rủi ro cực tiểu là phải chọn hàm mất gì? Có một số tên riêng: Nếu hàm mất là hàm bình phương, thì ta có phương pháp bình phương cực tiểu (least square) rất thông dụng trong hồi quy.

Maximum likelihood và nguyên tắc likelihood. Nếu mô hình thống kê chỉ định ra một hàm phân bố cho dữ liệu, thì ta có khái niệm likelihood (khả năng?). Đây là hàm số của tham số, nhưng được lại là ngẫu nhiên vì được định nghĩa trên cơ sở dữ liệu ngẫu nhiên. Likelihood chính là một ví dụ tiêu biểu (nhất) của rủi ro thực nghiệm. Hàm mất tương ứng ở đây là hàm logarithm của mật độ. Maximum likelihood dịch là cách ước lượng khả năng cực đại (?), một phát kiến vĩ đại của Ronald Fisher. Đây là cách ước lượng thông dụng, đa năng bậc nhất trong ngành thống kê (ít nhất là với nhãn quan tần suất). Với các mô hình tham số thì cách ước lượng này được đảm bảo bởi tính nhất quán (consistency) — mô hình sẽ được ước lượng chính xác nếu số dữ liệu tiến đến vô hạn. Tại sao hàm mất lại là hàm logarithm của mật độ mà không phải là một hàm số nào khác? Đây là một ví dụ của sự diệu kỳ bất ngờ của toán học — câu trả lởi truy ra khái niệm độc lập, khái niệm tập trung của độ đo trong xác suất, và tính lồi trong giải tích (và hình học). Nguyên tắc khả năng (likelihood principle) cho rẳng hàm khả năng là một thống kê đầy đủ (sufficient statistics). Nguyên tắc này phá sản trong ngữ cảnh phi tham số.

Regularization/Penalization/Shrinkage. Với sự ước lượng các mô hình phi tham số thì chỉ dựa vào dữ liệu (thông qua hàm khả năng (likelihood) hoặc tổng quát hơn, hàm rủi ro thực nghiệm) không đủ. Cần phải có sự điều chỉnh trong việc lấy cực đại/cực tiểu thông qua khái niệm regularization (kiểm soát), còn gọi là penalization (soát phạt). Regularized empirical risk gọi là rủi ro thực nghiệm có kiểm soát.  Khái niệm kiểm soát, soát phạt bắt nguổn từ một phát hiện bất ngờ của Charles Stein về shrinkage estimator (cách ước lượng co). Cho nên nhiều khi người ta cũng gọi nhóm ước lượng này là ước lượng co.  Để dùng một số lượng dữ liệu hữu hạn mà ước lượng các đại lượng (tham số) vô hạn hoặc có số chiều đủ lớn (cho dù số dữ liệu có lớn đến đâu và tiến dần đến vô hạn đi chăng nữa) thì vẫn phải có sự kiểm soát trong ước lượng, và không thể dựa hoàn toàn vào dữ liệu thực nghiệm được.  Theo nhãn quan Bayes thì điều này chính là sự giằng co giữa thực nghiệm và tiên nghiệm. Co (shrinkage) ở đây chính là co về tiên nghiệm.

Phương pháp phân tích hậu nghiệm/ học Bayes. Phương pháp phân tích hậu nghiệm (a posteriori analysis), cụ thể là cách suy diễn hậu nghiệm (posterior inference), suy diễn Bayes (Bayesian inference), học Bayes (Bayesian learning),… đều mô tả cùng một cách ước lượng theo trường phái Bayes. Đó là thay vì người ta ước lượng tham số (không ngẫu nhiên) như trong trường phái tần suất, người ta sẽ tính hàm phân bố hậu nghiệm cho tham số thông qua công thức Bayes. Cách này mẫu mực — phần việc chính ở đây là chỉ định ra phân bố tiên nghiệm ra sao, và tính toán phân bố hậu nghiệm thế nào (vì phải tính tích phân rất phức tạp về mặt tính toán).  Chú ý rằng cách ước lượng maximum likelihood chẳng qua là tính mốt (mode) của phân bố hậu nghiệm, nếu phân bố tiên nghiệm được chọn là phân bố đều (uniform distribution). Trong phân tích Bayes, đặc biệt là với mô hình tham số, thì không phải lo lắng gì về việc kiểm soát (regularization). Nhưng nếu phân bố tiên nghiệm là một quá trình ngẫu nhiên (trong mô hình phi tham số) thì vẫn phải lo lắng về chuyện kiểm soát tính phức tạp của tiên nghiệm (complexity of prior distribution). Một công cụ là sensitivity analysis (phân tích tính nhạy cảm) của phân bố cho tham số.

Phương pháp Bayes thực nghiệm (empirical Bayes). Phương pháp này có thể xem cách ước lượng tần suất cho mô hình đa tầng. Mô hình đa tầng là một công cụ lý tưởng trong việc kiểm soát độ phức tạp của các mô hình cho tham số.

3.4. Các vấn để suy diễn cụ thể hơn.

Hypothesis testing. Trong kiểm định giả thuyết có một số khái niệm quan trọng: Null hypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error) và lỗi loại hai (type-2 error). Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âm tính (false negative) trong đánh giá các treatment (?) trong y học. Trong công nghệ thì type-1 error gọi là false alarm error rate (?), type-2 error chính là misdetection error rate (?). Tất cả các loại rỗi này đều là hàm rủi ro đối với hàm thiệt 0-1. Cách ước lượng trong kiểm định giả thuyết gọi là một hàm quyết định. Và người ta sử dụng hàm quyết định thực hiện phép thử (test) cho giả thuyết. Một phép thử được đánh giá thông qua các bảo đạm về giới hạn của các lỗi kể trên. Sự giẳng co giữa lỗi loại một và loại hai được biểu diễn bẳng ROC curve (đường cong ROC). Các khái niệm liên hệ còn có significance (?). Confidence interval dịch là ? p-value dịch là giá trị p. Power của phép thử gọi là sức mạnh.  Nếu chỉ có hai giả thuyết đẻ so sánh thì hàm quyết định tối ưu chính phải dựa vào likelihood ratio (phân số khả năng). Likelihood ratio test gọi là phép thử dựa vào phân số khả năng. Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn (asymptotic statistics).

Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson. Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễn này với cách hình thức suy diễn kiểu khác trong thống kê.  Nếu tiếp cận theo nhãn quan Bayes thì KDGT khá là đơn giản, không khác gì việc ước lượng một mô hình là bao. Cần khái niệm phân bố tiên nghiệm cho các giả thuyết. Khái niệm Bayes factor sẽ được dịch là ?

Sequential analysis. Trong phân tích tuần tự (sequential analysis) thì có sự giẳng co của lỗi Bayes và thời gian trễ (delay time) của quyết định về giả thuyết. Khái niệm thử thông dụng là sequential likelihood ratio test (phép thử dựa theo chuỗi phân số khả năng). Công cụ lý thuyết đẻ đánh giá sức mạnh của phép thử là các phân tích về thời gian dừng, phân tích các loại thời điểm vượt biên, v.v. trong lý thuyết xác suất về quá trình Markov.

Classification/regression/ranking. Trong bài toán phân lớp thì người ta gọi một cách ước lượng để phân lớp là một máy học (learning machine). Tham số cần ước lượng ở đây gọi là một hàm phân loại (classifier). Có thể tiếp cận vấn đề này trên cơ sở mô hình tham số hoặc mô hình phi tham số. Để học được máy (mô hình) thường đòi hỏi nhiều tính toán,  chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển. Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng.  Cách học/ ước lượng, về mặt tính toán, có lexicon riêng là training (việc huấn luyện).  Dữ liệu cần cho việc huấn luyện gọi là dữ liệu huấn luyện (training data). Phép thử một hàm phân loại với dữ liệu mới gọi là testing. Dữ liệu thử chính là test data. Nếu có hai lớp để phân loại thì hàm phân loại tối ưu phải dựa vào likelihood ratio, rất giống như trong kiểm định giả thuyết. Một khác biệt căn bản giữa bài toán phân lớp với bài toán kiểm định lý thuyết là chỗ này: Cái đầu phải thử giả thuyết cho từng mẫu một. Cái sau chỉ phải thử giả thuyết một lần cho cả đám đông. Có rất nhiều phương pháp phân lớp, với các mô hình tham số và phi tham số, và các giải thuật học/ước lượng rất phong phú. Kinh điển thì có linear discriminant analysis (phân tích phân biệt tuyến tính), logistic regression (hồi quy logit). Hiện đại hơn thì có mạng nơ ron (neural network), radiant basis network (?), support vector machines (?),…

Bài toán hồi quy (regression analysis) tương tự như bài toán phân lớp, khác ở đây là cần phải ước lượng/học phương trình hồi quy (thay vì hàm phân loại). Hàm phân lớp chỉ có giá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục. Bài toán phân cấp gần giống bài toán phân cấp ở chỗ hàm phân loại cũng có giá trị rời rạc (và không phải nhị phân), nhưng dữ liệu huấn luyện các mẫu về sự so sánh giữa các cấp chứ không phải nhãn lớp (cấp).

Dimensionality reduction/ exploratory data analysis. Phân tích khám phá với dữ liệu là một mảng quan trọng. Principle component analysis dịch là phân tích thành phần chủ yếu. Multidimensional scaling dịch là ?. Independence component analysis gọi là phân tích thành phần độc lập. Vấn đề chia nhóm (clustering) cũng có thể đặt vào đây, nhưng các phương pháp chia nhóm dựa vào mô hình (model-based clustering) đã phát triển đến mức độ rất tinh xảo, và nên đặt nó vào nhóm suy diễn dựa vào mô hình.

3.5 Thống kê  ở vô hạn, lý thuyết học, và lý thuyết thông tin (asymptotic statistics, learning theory, information theory)

Thống kê ở asymptotic chính là cơ sở lý thuyết giả thích sự hiệu quả và giới hạn của các suy diễn thống kê.  Thống kê ở vô hạn nghiên cứu tính chất của các phép ước lượng khi lượng mẫu (sample size) tiến đến vô hạn. Một vấn đề người ta cần quan tâm là các tiêu chuẩn dựa vào rủi ro phải tiến về 0. Tính chất này gọi là tính nhất quán (consistency) của một cách ước lượng. Nếu đã nhất quán rồi thì còn quan tâm rate of convergence — tốc độ hội tụ — của các rủi ro. Ngoải ra ta còn quan tâm đến tính chất về phân bố của sự hội tụ. Một tính chất quan trọng thường gặp là asymptotic normality (sự bình thường ở giới hạn). Với trường phái Bayes khách quan thì có khái niệm nhất quán hậu nghiệm (posterior consistency) — khi số mẫu tiến đến giới hạn thì phân bố hậu nghiện phải tập trung về một điểm, điểm đó chính là giá trị chân lý của tham số cần ước lượng. Tính chất này mang tính tấn suất, vì nó vẫn giả sử tham số là không ngẫu nhiên, mặc dù ta có thể định ra phân bố tiên nghiệm và làm phân tích hậu nghiệm. (Các nhà Bayes chủ quan cuồng tín sẽ ngoảnh mặt quay gót khi ai nó nói đến khái niệm này).

Một vấn đề khác người ta cũng quan tâm là tính chất về phân bố của các thống kê được sử dụng trong các phép suy diễn cụ thể, như trong kiểm định giả thuyết chẳng hạn. Nhờ tính chất phân bố của thống kê (ở điều kiện mẫu vô hạn) mà ta có thể có những đảm bảo nhất định về các rủi ro của suy diễn.

Công cụ toán học của phân tích thống kê asymptotic là tính chất tập trung của độ đo (concentration of measure), đặc biệt trong ngữ cảnh của quá trình thực nghiệm (empirical process). Empirical process theory là tên thường gọi. Công cụ quan trọng có symmetrization argument (mẹo cân đối hóa). Chaining method dịch là phương pháp chuỗi, một phương pháp mẫu mực để chứng minh các chặn trên cho tiếm hàm rủi ro (định nghĩa trên quá trình thực nghiệm) bởi các đại lượng mô tả sự phức tạp của mô hình (model complexity). Khái niệm sự phức tạp của mô hình đến từ lý thuyết xấp xỉ (approximation theory).  Các khái niệm chính gồm có covering number (số đĩa phủ), packing number (số đĩa chèn?). Khái niệm entropy (Kolmogorov entropy chứ không phải Shannon entropy) được giữ nguyên trong lexicon. Ngoài các chặn trên, còn có thể chứng minh các chặn dưới, gọi chung là chặn minimax. Chặn này cho biết tốc độ hội tụ của rủi ro tốt nhất có thể được (trong mọi cách ước lượng) đối với một lớp mô hình cho sẵn. Đối với lớp mô hình tuyến tính thì độ phức tạp của mô hình có thể mô ta bằng một khái niệm tổ hợp nổi tiếng trong lý thuyết học (learning theory) của Vapnik và Chervonenkis,  số chiều VC (VC dimension).

Lý thuyết thông tin (information theory) của Shannon chính là lý thuyết thống kê giới hạn cho một số bài toán suy diễn cụ thể trong công nghệ thông tin, công nghệ nén và truyền tải dữ liệu. LTTT cũng tập trung nhiều vào đại lượng có thể dùng để mô ta sự hiệu quả của một giải thuật suy diễn. Các đại lượng này xuất hiện trên exponent của các chặn trên và chặn dưới của các rủi ro của suy diễn, không chỉ trong các bài toán cụ thể trong công nghệ thông tin, mà còn trong các ngữ cảnh suy diễn thống kê tổng quát. Các khái niệm quan trọng gồm có: Shannon entropy, conditional entropy (entropy điều kiện), Kullback-Leibler divergence (độ phân kỳ Kullback-Leibler), mutual information (thông tin chung). Do đó, các khái niệm về thông tin này còn có vai trò quan trọng trong các vấn đề về sự lựa chọn mô hình (model selection), thiết kế thí nghiệm (experimental design) và trong các phân tích khám phá. Về mặt toán học, các khái niệm thông tin này đều là các phiếm hàm mô tả sự ngẫu nhiên và quan hệ của một hay nhiều hàm phân bố xác suất. Các khái niệm liên hệ có thể kể đến: Fisher information (thông tin Fisher), phương sai.

3.5 Lựa chọn mô hình (model selection).

3.6 Thiết kế thí nghiệm (experiment design). Tôi không biết đủ sâu/rộng để viết về phần này. Hy vọng bác nào là chuyên gia xắn tay vào viết giúp một vài paragraph.

Tóm tắt: Bayesian learning, Bayesian inference, posterior inference, maximum likelihood, posterior consistency, asymptotic consistency, asymptotic normality, sensitivity analysis, stability analysis, heat map,  efficiency, superefficiency, estimator, estimate, learning algorithm, learner, chaining method, symmetrization, covering number, free probability

ROC, hypothesis test, Bayes error, approximation error, estimation error, null hypothesis, alternative hypothesis, type-1 error, type-2 error, power, significance, p-value, Bayesfactor, nested design, empirical Bayes method, shrinkage, sequential analysis, sequential change point analysis, online analysis, distributed algorithm

4. Các giải thuật thống kê, học giả

4.1 Tổng quan. Thống kê cổ điển không có khái niệm về giải thuật. Khi chưa có công cụ máy tính người ta chỉ có thể nghiên cứu tính chất và áp dụng các cách ước lượng khá giản đơn về mặt tính toán. Sự ra đời của máy tính và thông qua đó phát triển của lĩnh vực giải thuật và học máy thổi một làn gió mới vào vấn đề suy diễn từ dữ liệu. Làn gió này bắt đầu rất nhỏ từ thập niên 60, mạnh dần lên vào thập niên 80, đến thập niên 90 và những năm đầu thế kỷ này có lẽ nó đã trở thành bão. Cơn bão của khoa học tính toán đang làm thay đổi hoàn toàn khung cảnh của thống kê hiện đại, hứa hẹn những bước phát triến ngoạn mục trong tương lai. Về mặt lý thuyết, trước kia, ta chỉ quan tâm quan hệ giữa lượng mẫu và độ hiệu quả của suy diễn thống kê thông qua sự chính xác của các phép ước lượng.  Nay, ta còn phải quan tâm đến hai đại lượng mới: đó là sự phức tạp về tính toán — computational complexity (về mặt thời gian và bộ nhớ), và sự xấp xỉ của mô hình (approximation error) , vì bây giờ chúng ta đã có thể phát triến và nghiên cứu các dạng mô hình mạnh hơn trước, các phép ước lượng phức tạp hơn trước. Đại lượng đầu tiên, sự phức tạp về tính toán, đến từ khoa học máy tính. Đại lượng thứ hai, tính xấp xỉ của mô hình, đến từ thuyết xấp xỉ của toán ứng dụng, và lý thuyết xác suất. Một sự thay đổi rõ nét nhất trong sự phát triển của các phương pháp suy diễn thống kê hiện đại chính là sự lên ngôi của trường phái Bayes, vì các công cụ giải thuật ngày nay cho phép thực hiện phân tích Bayes một các hiệu quả hơn về mặt tính toán. Các mô hình Bayes còn nối lại quan hệ mật thiết giữa những người xây dựng mô hình thống kê với những người nghiên cứu về quá trình ngẫu nhiên trong lý thuyết xác suất.  Với sự hiện diện của khái niệm phức tạp tính toán và khái niệm xấp xỉ trong suy diễn thống kê, sự đối nghịch giữa hai trường phái Bayes và Tần suất bị loãng đi và mất dần tính cực đoan cuồng tín của thế kỷ 20. Người ta bắt đầu có cái nhìn cân bằng hơn về vai trò và quan hệ giữa hai trường phái này.

expectation-maximization algorithm, variational inference, message-passing algorithm, belief propagation, back propagation, training, testing, classification, clustering, hierarchical clustering, linear regression, kernel method, sparsity
, regularization, penalization, cross-validation, leave-one-out, boosting, bagging, bootstrap, compressed sensing, quantization, heteroscedasticity, multi-modality,

5. Các phương pháp tối ưu trong suy diễn thống kê

simulated annealing, local search, global search, heuristic search, restart, hill-climbing, saddle point, sampling, importance sampling, proposal distribution, acceptance probability, heat bath method, particle filtering, filtering, smoothing

Chủ đề : Toán Ứng Dụng, Trí tuệ nhân tạo, Xác suất & thống kê and tagged , , , . Bookmark the permalink. Trackbacks are closed, but you can post a comment.

63 Comments

  1. Posted 09/11/2010 at 4:08 pm | Permalink

    Hi bác Long, góp ý với 2 mục đầu tiên

    “Vật thể căn bản” nên thay bằng “Đối tượng cơ bản”

    Nên nói thêm cả expectation là “trị kỳ vọng”, deviation là “độ lệch”, standard deviation là “độ lệch chuẩn”

    Variance = phương sai

    conditional independence = độc lập có điều kiện

    Functional = phiếm hàm

    – multi-linear functional là phiếm hàm đa tuyến tính

    partial exchangeability = tính hoán chuyển từng phần (hoặc tính hoán chuyển bộ phận)

    • Posted 10/11/2010 at 10:23 am | Permalink

      Bác Hưng,
      Một số chỗ tôi vẫn muốn giữ chữ vật thể cho object (as in probabilistic objects), ví dụ như một quá trình stochastic chẳng hạn. Dùng chữ đối tượng hơi chung chung quá?

      • Mr.Th
        Posted 21/02/2012 at 9:10 pm | Permalink

        e hỏi cái này không biết có quy luật gì ko? a Long có thể cho em biết quy luật đó không? .
        -E chơi game, thấy khi em nâng 1 vật phẩm lên, cấp 1 dùng đá 1 thì tỉ lệ là 50%, cấp 2 dùng đá 1 tỉ lệ là 12, cấp 3 dùng đá 1 thì tỉ lệ là 3. Khi thất bại thì vật phẩm sẽ giảm 1 cấp ..TT..
        – Đầu tiên em cho đá 1 zô thì lên, sau đó cho lên 2 với đá 1 thất bại, cứ như thế lập đi lập lại 4, 5 lần thì nó lên cấp 2 ( tạm gọi quá trình này là * )
        – Sau đó em lấy đá 1 cứ nâng cấp tiếp với tỉ lệ là 3 % thì xuống 1, em nâng típ với tỉ lệ 12% thì nó xuống 0, và quá trình * lại bắt đầu, đến lần thứ 9 10 thì nó lên 2 và 3 ( tỉ lệ 12 và 3% ). có khi 15, 16 lần mới lên.
        => rõ ràng quá trình này cứ lập lại em để ý thấy vậy, nhưng không biết nó thuộc phép tính nào trong toán học, vì em thấy có phép tính trong đánh bài thì chắc cũng đươc áp dụng trong đây.
        ( ghi chú thêm: em hỏi với tinh thần học hỏi thôi).
        Mong anh chỉ em !

  2. Posted 09/11/2010 at 4:16 pm | Permalink

    Cảm ơn bác Hưng. Mong bác (và các bác tiếp tục). Phương sai nghe lạ quá ta.

  3. Posted 09/11/2010 at 4:52 pm | Permalink

    – Variance = phương sai : cái này ở VN dậy như vậy.

    – quá trình martingale/ lý thuyết ergodic: hồi xưa em được thầy Nguyễn Quí Hỷ dậy môn Các Quá Trình Ngẫu Nhiên, thầy viêt phiên âm mác-tinh-gan và ê-gô-đích.

    – Lattice = dàn
    ví dụ: phonetic lattice được dịch bên ngôn ngữ học là : dàn ngữ âm. Mà về mặt visualization thì lattice em trong nó cũng giống cái dàn hoa thiên lí :D.

    – stationary distribution = phân phối xác suất ổn định ?

    • Posted 10/11/2010 at 10:18 am | Permalink

      Thích chữ dàn này. Ổn định nghe không ổn (stability). Tôi tạm để martingale và ergodic như vậy cho đến khi ai đó có từ nào hay hơn.

      • Posted 10/11/2010 at 12:36 pm | Permalink

        – covariance matrix = ma trận hiệp phương sai : cái này phổ biến tại VN.

        – Fisher-Neyman factorization theorem = định lí phân tích thừa số Fisher-Neyman
        factorization = phân tích thừa số cũng giống như dịch prime factorization = phân tích thừa số nguyên tố

        – Undirected graphical model = mô hình đồ thị vô hướng: cho thống nhất với bên lí thuyết đồ thị

        – Normalizing constant = bất biến chuẩn hóa

        – Partition function= hàm phân rã hoặc hàm ngăn phần

        – Spin glass model = mô hình cốc xoay hoặc mô hình đảo ly

      • Posted 10/11/2010 at 12:42 pm | Permalink

        Bác Long dịch Naive Bayes thành gì?
        Em nghĩ nghiêm túc thì có thể dịch là “Bayes thơ ngây” / “Bayes giản dị”. Nếu đi tán chuyện với sinh viên thì có thể nói là “Bayes gà” cho nó xì tin.

        • Posted 10/11/2010 at 12:57 pm | Permalink

          Bayes ngây ngô? Thơ ngây nghe hơi … thơ ngây quá nhỉ.

          Partition function: Ngăn phần sounds good

          Đảo ly hay cốc xoay tôi thấy chưa đạt, chưa toát đúng tinh thần của mô hình.

        • Posted 10/11/2010 at 1:02 pm | Permalink

          Hay gọi là Bây Ngô, cho trùng tên với mấy địa chủ blog họ Ngô nhà ta?

        • Lê Hoàng Long
          Posted 13/11/2010 at 10:08 pm | Permalink

          “Bayes gà” hơi bị hay :-)!!!

      • Posted 10/11/2010 at 11:07 pm | Permalink

        Bây Ngô nghe buồn cười dã man.

        – Spin glass model = mô hình thủy tinh tự xoay?

        – manifold = đa tạp: bên Toán hay nói như vậy

        – hyperparameter = siêu tham số

        – neural network = mạng nơ-ron và decision tree = cây quyết định: cái này phổ biến ở VN

        – overfit = quá khớp

        – Quá trình coelescence = quá trình chập

        – marginal distribution = phân bố biên

        – Features = đặc trưng: cái này bên computer vision hay nói “features extraction” = “trích chọn đặc trưng”

        – orthonormal = trực chuẩn: bên Toán hay nói thế, ví dụ “hệ véc-tơ trực chuẩn” = “orthonormal vector system”

        – reproducing kernel Hilbert space = không gian nhân Hilber tự sinh ?
        kernel = nhân ?

        • Posted 11/11/2010 at 6:39 pm | Permalink

          Thanks. Thế còn e-flat? Chữ “quá khớp” nghe hơi oxymoron nhỉ?

          Siêu tham số vẫn chưa ổn…. Cái này bên lý thuyết đồ thị người ta gọi hypergraph là gì? Bác Hưng?

          Spin glass…. về mặt toán học thì biến spin này là biến ngẫu nhiên nhị phân. Cho nên tôi chưa thấy tự xoay ở đâu cả… Có thể chưa hiểu hết ý nghĩa vật lý. Cái này bác nào làm vật lý thống kê chắc chẳn biết rõ…

        • Posted 12/11/2010 at 10:47 am | Permalink

          Hypergraph chắc là “siêu đồ thị” thôi. Tôi không biết cách diễn đạt khác.

        • Posted 15/11/2010 at 7:13 pm | Permalink

          Trong LT đồ thị thì nghe có lý… nhưng trong mô hình đa tầng thì hyper không siêu lắm… tôi dịch tạm là tham số thượng tầng

  4. học làm bánh
    Posted 09/11/2010 at 8:37 pm | Permalink

    Time-homogenerous = bất biến hay đồng nhất thời gian?
    Irreducibility = bất khả thu gọn?
    stationary distribution = phân phối bất dịch như anh Long có vẻ sát nghĩa hơn
    compound = phức hợp
    martingale chắc để nguyên vậy là tốt nhất

  5. nguyen_v
    Posted 10/11/2010 at 10:27 am | Permalink

    Một số từ đã được dùng nhiều

    Stationary distribution: phân bố dừng

    Irreducibility: bất khả quy

    Spatiotemporal process: quá trình không-thời gian

  6. Posted 10/11/2010 at 11:36 am | Permalink

    Thanks. Tôi đã sửa. Chữ quy đa nghĩa quá nhỉ.

  7. Lirg
    Posted 11/11/2010 at 4:02 am | Permalink

    Hay quá, các anh cho một loạt bài về học máy. Em dg theo một lớp Machine learning mà không hiểu gì hết

  8. học làm bánh
    Posted 11/11/2010 at 3:51 pm | Permalink

    Chữ stochastic mình dịch là “ngẫu nhiên” giống như random có ổn không? Em đọc sách thì thường thấy là stochastic đi chung với processes còn random thì đi cùng với variables, nhưng về ngữ nghĩa thì hai từ chắc là giống nhau.

    Filtration trong survival analysis thì thường được gọi là [process] history. Dịch filtration sang tiếng Việt là [họ/không gian] lịch sử [quá trình] ko biết có ổn không? Hệ thống lọc nghe có vẻ hơn cơ bắp quá 🙂

    Liên quan đến Dirichlet processes và những mở rộng sau này, anh Long có biết một tài liệu tương đối căn bản và đầy đủ nào ko? Em có dùng hierarchical Dirichlet processes cho mô hình mạng và variational inference để ước lượng, nhưng mà vẫn ở mức độ ứng dụng, chưa hiểu kĩ lắm về mặt lý thuyết lắm.

    Thanks

    • Posted 11/11/2010 at 6:36 pm | Permalink

      Tài liệu đầy đủ thì không tôi cũng rõ lắm. Học làm bánh thử đọc bài báo của Sethuraman (Statistica Sinica, 1994) xem, sẽ hiểu rõ hơn về lý tuyết. Và một số tham khảo khác trong bài HDP của Teh et al (2006).

      Gọi là history thì e chưa hợp (trong survival analysis thì ok), vì không nhất thiết phải lọc theo thời gian.

      À, thế “biểu diễn bẻ gậy” thì thế nào? 🙂

      • học làm bánh
        Posted 11/11/2010 at 10:32 pm | Permalink

        Em thấy “biểu diễn bẻ gậy” nghe rất hay đấy chứ 🙂

        Cám ơn tham khảo Sethuraman của anh Long. Bài của Teh et al em có đọc rồi nhưng còn lơ mơ lắm, chắc phải xem vài lần nữa.

    • Posted 11/11/2010 at 7:04 pm | Permalink

      HLB nói cũng đúng (về stochastic), nhưng từ ngẫu nhiên vẫn hơi bị overloaded…

  9. học làm bánh
    Posted 11/11/2010 at 4:40 pm | Permalink

    phase transition = chuyển pha
    normalizing constant = hằng [số] chuẩn hóa ?
    potential function = hàm tiềm năng?
    mixture model = mô hình hỗn hợp nghe êm tai hơn mô hình trộn ko ?
    hyperparameter = tham số cấp trên/cao ?
    model/parameter identifiability = tính khả xác định của mô hình/tham số
    hypothesis testing = kiểm định giả thuyết
    classification = bài toán/vấn đề phân loại
    ranking = bài toán/vấn đề xếp hạng
    clustering = bài toán/vấn đề tìm/chia nhóm
    Anh Long thêm phần định nghĩa về semiparametric models mà tiêu biển là Cox regression model xem sao?

    Người ta có Chinese restaurant process hay Indian buffet process, ko biết khi nào cái tên Vietnamese traffic process sẽ được dùng 🙂

    • Posted 11/11/2010 at 6:32 pm | Permalink

      Tôi không biết mấy về semiparametric models với lại survival analysis cả. Hay Học làm bánh viết một đoạn đi.

      • học làm bánh
        Posted 11/11/2010 at 10:34 pm | Permalink

        Để em thử viết đoạn giới thiệu về semiparametric models xem sao. Cho em thêm chút thời gian. Đang bận bế con 🙂

        • học làm bánh
          Posted 12/11/2010 at 12:55 pm | Permalink

          Ngoài ra, ta có thể bắt gặp những mô hình bán tham số (semiparametric model). Một mô hình bán tham số bao gồm cả hai thành phần: một thành phần tham số có số chiều hữu hạn và một thành phần tham số có chiều là vô hạn. Thông thường, người ta chỉ quan tâm đến việc ước lượng thành phần tham số hữu hạn trong những mô hình này. Một ví dụ tiêu biểu của mô hình bán tham số là mô hình hồi quy Cox (Cox regression model) trong lĩnh vực phân tích sống sót và sự kiện lịch sử (survival and event history analysis). Cụ thể hơn, mô hình này được dùng để phân tích dữ liệu sự kiện (time to event data) ví dụ như thời điểm chết do ung thư hay thời điểm một máy tính bị hỏng. Trong mô hình này, thành phần tham số hữu hạn gắn liền với những đồng biến mà nhà phân tích quan tâm như loại thuốc điều trị, tuổi của bệnh nhân, hay hãng sản xuất máy tính (ảnh hưởng của những yếu tố này lên thời điểm tử vong hay hư hỏng). Thành phần tham số vô hạn là cường độ tử vong/lỗi cơ bản (baseline hazard intensity). Cường độ tử vong/lỗi cơ bản có thể hiểu nôm na là xác suất tử vong/lỗi tức thời của một cá nhân/máy tính khi mà giá trị tất cả các đồng biến của người đó/nó là 0.

          Em mới viết đoạn này, anh Long tùy ý chỉnh sửa và thêm vào chỗ nào cho thích hợp.

        • Posted 13/11/2010 at 10:29 am | Permalink

          Thanks, HLB. Tôi đã cập nhật vào bài.

  10. Nkd
    Posted 11/11/2010 at 11:00 pm | Permalink

    Ôi các bác phải lấy 1 cuốn xác suất thống kê tiếng Việt ra dịch cho chuẩn, người ta dịch nhiều phết rồi đấy, đừng phát minh cái mới. Stochastic process dịch là Quá trình ngẫu nhiên, đúng rồi đấy.

  11. Thuỳ Ngân
    Posted 11/11/2010 at 11:27 pm | Permalink

    Em có ý kiến thế này:
    Rất nhiều thuật ngữ nếu để nguyên trong tiếng Anh và giải nghĩa thì sẽ dễ hiểu hơn rất nhiều. Cố gắng dịch các thuật ngữ ra tiếng Việt là một tham vọng quá lớn, làm mất nghĩa của thuật ngữ và làm khó cho người học (hay, những người sẽ bị dạy những thuật ngữ này). Tiếng Việt đã bị bỏ lại quá quá quá xa so với tiếng Anh. Nếu đây là một trăm năm trước, các nỗ lực Việt hóa các thuật ngữ có thể được xem là nỗ lực độc lập, tự cường, tự hào của dân tộc, vân vân và vân vân. Em thấy, nếu đã quá trễ (là em thấy thế thôi, các bậc đại sư nhưng bác Long và bác Hưng không thấy thế thì cứ việc bỏ qua comment của em), thì sao ko bắt chước như người Nhật đầu thế kỷ trước: thiết lập ra một hệ thống phiên âm chuẩn mới; phiên âm lại các thuật ngữ khoa học không có trong tiếng Việt; và giữ nguyên định nghĩa, giải nghĩa của các thuật ngữ đó; nhập nó vào một phần của tiếng Việt luôn.

    Ví dụ: từ stochastic process sao không để quách lại thành: tiến trình stoc-ká-tic. Rồi để nguyên phần giải nghĩa bên cạnh là: tiến trình (mà hành vi của nó) không xác định được.

    Nỗ lực dịch thuật cho tới giờ em thấy, thật ra cũng là: dùng các từ Hán Việt (không phải tiếng Việt, một số lượng từ khá lớn đã trở nên khó hiểu với người Việt hiện đại, khi mà giáo dục đã không còn bắt phải học tiếng Hán để hiểu nghĩa các từ Hán Việt) để dịch các thuật ngữ; trong quá trình dịch (phần nào) làm mất ngữ nghĩa của nó. Đến tay người học, nếu không có các thuật ngữ nguyên bản bên cạnh, người học không còn cảm thấy các thuật ngữ dịch đó có nghĩa (make sense) chỗ nào nữa rồi.

    Futile Attempts.

    • Thuỳ Ngân
      Posted 11/11/2010 at 11:39 pm | Permalink

      Em muốn làm rõ thêm ý của em:

      Ý em là: nếu đằng nào cũng là “tạo ra các từ, các kết hợp từ mới” để dịch lại các thuật ngữ:
      —> Hoặc là dịch chúng ra dùng các từ Hán Việt (không phải tiếng Việt),
      —> Hoặc là để nguyên và phiên âm chúng lại (cũng không phải tiếng Việt).

      Thì sao không đơn giản là để nguyên và phiên âm chúng lại. Trong thời đại này, không có thể nào một học viên theo con đường học thuật, nghiên cứu khoa học lại có thể không thuần thạo tiếng Anh. Nỗ lực dịch các thuật ngữ thường dành cho những người không chuyên. Người không chuyên dù không chuyên trong lĩnh vực này thì cũng phải là chuyên trong lĩnh vực khác (của họ). Cuối cùng, mọi người muốn tìm hiểu nghiên cứu bất cứ cái gì cũng phải có tiếng Anh. Vậy, để nguyên các thuật ngữ, chỉ phiên âm lại, và giải nghĩa có phải là tối ưu hơn không?

      Vấn đề phiên âm theo em là rất quan trọng.

    • Posted 12/11/2010 at 12:13 am | Permalink

      Những điều Thùy Ngân nói rất đáng suy nghĩ. Tôi hiểu ý bạn nói nhưng không nghĩ là vô vọng. Ngược lại tôi cho là có ích.

      Ngôn ngữ là một thứ sống động, có tiến hóa, sinh sôi, thay đổi, thích ứng. Nếu thổi cho nó các ý nghĩa thì nó sẽ càng sinh sôi giàu có và nó quay lại làm giàu có cho sự suy nghĩ của mình. Có thể kết hợp cả thuẩn Việt, Hán Việt và phiên âm. Theo tôi không nên nề hà, cái gì nghe êm tai và cách biệt là được. Tôi cũng ủng hộ việc khi học thì nên học kèm cả thuật ngữ tiếng Việt và tiếng Anh. Không nên coi nhẹ vai trò của tiếng Việt trong việc học các khái niệm khoa học trừu tượng. Vì tính tượng hình và tượng thanh của tiếng Việt rất cao, nhiều khi nghe tiếng Việt cho một khái niệm trừu tượng tôi lại cảm thấy mình hiểu một khái niệm trứu tượng tốt hơn từ gốc tiếng Anh nhiều.

      Bài lexicon này tôi không liệt kê hết các khái niệm, chỉ một số khái niệm căn bản, quan trọng nhất và một số khái niệm thông dụng và hiện đại. Những thứ căn bản đã được chuẩn hóa mà bị dịch chưa chuẩn thì mong các bạn tiếp tục đóng góp, chỉ bảo (vì tôi không học mấy thứ này ở VN). Nhưng hy vọng có không ít khái niệm mới, hoặc cách nhìn mới mẻ ở đây…

      Bài này hy vọng còn hũu ích cho các bạn đang làm Phd đã advanced về xác suất, thống kê, tin học, xử lý tín hiệu và toán ứng dụng, để thấy sự liên hệ các ngành với nhau ra sao, biết khái niệm nào đứng ổ đâu. Và cảm nhận phần nào được sự đẹp đẽ về mặt toán học, sự đa dụng trong thực tiễn, và sự giàu có sâu sắc về cách tư duy của khoa học TK. Trên thực tế từng cộng đồng đang phát triển đến mức một người làm xong PhD trung bình cũng chỉ biết được một góc nhỏ các khái niệm đã đề cập. Khi viết tổng hợp thế này nó cũng đã rất hữu ích cho bức tranh tổng thể trong đầu tôi. Hy vọng cũng hữu ích với các bạn ấy như với tôi.

      Ngoài ra khi viết xong bài này có lẽ tôi sẽ thấy tự tin hơn khi phát biểu seminar ở VN, không như mấy năm trước.

      • học làm bánh
        Posted 12/11/2010 at 1:07 pm | Permalink

        Khi học đại học ở Việt Nam, em rất thích hai bộ sách Lập trình C++, Lập trình Java như thế nào của nhóm tác giả Dương Quang Thiện và Hoàng Ngọc Giao. Điểm chính là họ luôn chú thích thuật ngữ tiếng Anh nguyên thủy kế bên cụm từ Việt hóa, nhờ vậy sau này đọc tài liệu tiếng Anh liên quan dễ hơn nhiều.

        Cái lexicon này theo em nghĩ sẽ có nhiều tác dụng trong việc dạy hay viết sách giới thiệu về những tiến bộ mới của thống kê hay máy học, mong anh Long cứ tiếp tục. Nếu có thể thì thêm vào sau những khái niệm này một số nguồn tài liệu để tham khảo thêm.

  12. X-ray
    Posted 12/11/2010 at 12:59 am | Permalink

    Những thứ kiểu như Quá trình Ngẫu nhiên ở Việt nam đã giảng dạy bao nhiêu năm nay rồi. Giờ lại phát minh lại cái bánh xe à.

    • Posted 12/11/2010 at 1:10 am | Permalink

      OK, chuyển quá trình stochastic thành quá trính ngẫu nhiên. Còn những cái nào là phát minh lại bánh xe không nhỉ?

    • Thuỳ Ngân
      Posted 12/11/2010 at 3:59 am | Permalink

      Nhiều trong những thứ đã dạy lâu nay trở thành cản trở cho người học (là em đây). Chương trình học được soạn thảo dạy trong trường thường chỉ đưa ra các thuật ngữ đã được dịch, ít khi để kèm nguyên bản bên cạnh. Cho đến khi người học (sinh viên ..) đi xa hơn, tiếp cận các tài liệu gốc, thì nhiều thuật ngữ phải tìm hiểu lại (“à, hóa ra nó là cái từ XYZ gì trong sách tiếng Việt.”). Tại sao không để các từ nguyên bản, người học muốn tìm hiểu xa hơn sẽ dễ dàng hơn.

      Một vấn đề khác nữa trong việc dịch thuật ngữ là người dịch không thật sự hiểu rõ chữ Hán Việt, dẫn đến dịch bậy, rồi đem cái dịch bậy đó đi dạy. Dạy riết rồi nó thành “cái bánh xe”, những người đi sau muốn sửa lại cũng sợ phạm húy.

      Một vài ví dụ:
      process <~~~ được dịch là "tiến trình" <~~~ có lý.
      thread <~~~ được dịch là "tiểu trình" <~~~ cái này là cắt xém từ "tiểu tiến trình" cho gọn <~~~ thấy kỳ kỳ?
      multiprocessing <~~~ được dịch là "đa chương" <~~~ cái này là cắt xém từ "đa chương trình" cho gọn <~~~ có còn có nghĩa nữa không?

      Một vài thuật ngữ khác như: cổng luận lý (logic gate) (?!?), siêu phân luồng (hyper-threading), phân tâm học (psychoanalysis) <~~ từ này có lẽ là viết tắt lại của "phân tích tâm lý học".

      Những từ này đem đi dạy nhiều, thì cuối cùng nó cũng thành "cái bánh xe".

      Cuối cùng, có nhất thiết phải dịch tất cả các thuật ngữ không? Em thấy không cần thiết phải như thế. Những từ nào có thể trong tiếng Việt rõ ràng hơn thì dịch. Những từ nào để tiếng Anh dễ hiểu hơn thì để đó.

      Cái chính là: chú giải rõ ràng các thuật ngữ. Người đọc hiểu rõ thuật ngữ ám chỉ cái gì, liên kết với cái gì là đủ. Thuật ngữ hay thuật ngữ đã được dịch đều là những cái nhãn cả thôi.

      Em dĩ nhiên không đến trình độ học PhD, ý kiến của em có thể xem là hạn hẹp so với các bác đã và đang học PhD.

      • Posted 12/11/2010 at 8:38 am | Permalink

        Đúng là nhiều từ còn tối nghĩa, chưa đạt. Tôi cố gắng đưa ra các ngữ cảnh và tóm lược một số cách nhìn cho rõ hơn. Bác nào giỏi tiếng Việt tuy chưa biết nhiều về thống kê cũng xin mạnh dạn góp ý nhé.

  13. HaThuyAnh
    Posted 12/11/2010 at 3:56 am | Permalink

    Đúng như anh Long kỳ vọng, bài này giúp cho ta có cái nhìn tổng thể và liên quan giữa XS – TK – Machine Learning. Giúp ích rất nhiều cho người học đỡ mệt rất nhiều mỗi khi đụng những vấn đề liên quan đến các lĩnh vực trên. Tuy nhiên đây chỉ là tổng quan, các chi tiết thì người đọc còn phải tự thân vận động nhiều.
    Tôi có quyển từ điển toán học Anh – Việt, khoảng 17 000 từ. Nếu anh Long có cần để tham khảo câu chữ, tôi sẽ gửi qua email.

    • Posted 12/11/2010 at 8:32 am | Permalink

      Cảm ơn anh HaThuyAnh. Tôi có từ điển này, nhưng thiếu thời gian nên chưa tham khảo được mấy. Hiện tại nhớ mảng nào thì viết ra mảng đó, đặt nó vào từng chỗ. Còn thiếu phần nào các bạn đóng góp theo kiểu wiki nhé.

  14. học làm bánh
    Posted 13/11/2010 at 3:56 pm | Permalink

    model misspecification = (sự/việc) chỉ/ấn định sai mô hình ?
    loss function = hàm thiệt hại chắc nghe đỡ chết chóc hơn là hàm mất 🙂
    utility function = hàm lợi/tiện ích
    invariance = bất biến dạng ?

    • Posted 13/11/2010 at 4:34 pm | Permalink

      Hehe… ừ nhỉ. Mình suốt ngày làm với cái hàm này nên không thấy nó chết chóc. Tạm thay đổi giữa hàm thiệt hại và hàm thiệt ABC…

    • Posted 13/11/2010 at 4:39 pm | Permalink

      hàm lợi nghe hơi kinh nhỉ.

    • Dũng
      Posted 14/11/2010 at 9:25 am | Permalink

      loss function dịch là “thất hàm” có được không?
      utility function dịch là “định hàm” (hàm định trị)?

      • Posted 15/11/2010 at 7:09 pm | Permalink

        đinh trị có thể là một ứng cử viên tốt. Cho cả reward function trong reinforcement learning (?).

  15. Lê Hoàng Long
    Posted 13/11/2010 at 10:16 pm | Permalink

    Anh Long, mấy cái lexicon giống như vậy rất có lợi cho cả người bên này lẫn người ở Việt Nam (giơ tay ủng hộ). Em thấy vấn đề lớn nhất là ở chỗ làm sao cho khớp cả hai phía. Nhiều khi bà con bên này dịch nhiều từ khác với cách ở Việt Nam hay xài, có khi đâm ra chuệch choạc. Em nhớ hồi đó cũng ngồi dịch tài liệu Fluid Mechanics, ngó thấy chữ “stress tensor” mà không biết tiếng Việt dịch là cái gì. Về sau mới biết ở nhà gọi nó là “ứng suất.”
    Còn nhiều chuyện vui vui khác nữa, chẳng hạn “integrable” được dịch thành “khả tích,” “differentiable” được dịch thành “khả vi,” nhưng đến “measurable” lại được dịch thành “đo được” (?!). Có một thời gian em với tụi bạn toàn gọi nó là “khả lường” :-).

  16. Posted 13/11/2010 at 10:33 pm | Permalink

    Hi bác Long: Buồn cười thật… vốn HV của chúng ta hơi bị què quặt nên thiếu nhất quán. Khả lường nghe cũng không tệ lắm nhỉ. Tôi vẫn còn vui vui với chữ hàm lợi của bạn HLB (hay là lợi hàm nhỉ). Nhưng tiếng Việt nôm nhiều khi có tính biểu cảm mạnh hơn, nhất là những khái niệm hình học. Câu hỏi là ngôn ngữ cần có sự nhất quán đến đâu?

    • Lê Hoàng Long
      Posted 14/11/2010 at 6:17 am | Permalink

      Không biết ở Việt Nam gọi “utility function” là gì. Nếu ở nhà không gọi là “hàm lợi” mà đã có một từ khác cho nó thì đâm ra hai bên bị lệch pha.

      Em ngẫm nghĩ thì thấy nhiều khái niệm hình học của mình toàn dùng từ Hán Việt đó chứ: tiếp tuyến, tiếp điểm, trung tuyến, phân giác, lượng giác, đồng dạng, nội tiếp, ngoại tiếp, tam giác, tứ giác, đa giác, diện tích, chu vi, hoành độ, tung độ v.v… Nghĩ lại thì thấy hồi đó mình học mấy từ này cũng chẳng khác gì bây giờ học thuật ngữ mới bằng tiếng Anh. Mình chỉ hiểu tiếp tuyến là cái đường thẳng tiếp xúc (lại Hán Việt 🙂 ) với một đường cong, chứ có hiểu “tiếp” là từ “tiếp xúc,” còn “tuyến” là “đường” đâu. Em xài “trục hoành,” “trục tung” một thời gian, rất vô tư, cho đến khi đọc Truyện Kiều, người ta chú giải mới biết “hoành” là ngang, “tung” là dọc (tại vậy nên mới có cụm “tung hoành ngang dọc”) :-).

  17. shakhi
    Posted 14/11/2010 at 1:18 pm | Permalink

    Utility fuction được gọi là Hàm lợi ích.

  18. Nkd
    Posted 14/11/2010 at 4:58 pm | Permalink

    Không biết trong ngành khác gọi là gì, kinh tế thì gọi là Hàm Thỏa Dụng

  19. Phương
    Posted 14/11/2010 at 9:14 pm | Permalink

    Từ likelihood được dịch là “hợp lí”, có lẽ vì đại lượng này được dùng để đo độ hợp lí của mô hình trên một bộ dữ liệu đã quan sát được. Độ hợp lí càng lớn thì chứng tỏ mô hình càng khớp với dữ liệu huấn luyện; và nếu mô hình đó không bị quá khớp (overfit) thì đó là mô hình tốt rồi.

    Em thấy thuật ngữ “hợp lí cực đại” cũng đã được dùng phổ biến trong tiếng Việt rồi. Dịch như vậy theo em là rất… hợp lí. 🙂

    • Posted 15/11/2010 at 7:08 pm | Permalink

      Tôi kiểm tra cuốn từ điển và đúng là người ta đã dịch như vậy. Nhưng quả thật “hợp lý” nghe không đúng nghĩa lắm. Thế các hàm thiệt hại khác thì không hợp ý à? Sao lại hợp và sao lại lý? Chú ý là MLE không nhất thiết phải là cách ước lượng tốt nhất theo nhiều nghĩa (và trong phi tham số thì còn tệ hơn)…

      Bạn nào hiểu rõ MLE và lại giỏi tiếng Việt xin giải thích hộ…

  20. thanh
    Posted 15/11/2010 at 12:22 am | Permalink

    em xin hỏi các từ sau nên dịch là gì ạ ?: equivariance, moment, moment generating function.

  21. Posted 15/11/2010 at 5:15 am | Permalink

    Cảm ơn anh Long. Bài viết rất hữu ích cho giới ngoại đạo (Sinh học) như tôi khi hiểu những lý thuyết toán trong các chủ đề đa ngành. Tôi xin phép sao lưu 1 bản trên wiki Thư viện Khoa học VLOS và sẽ chịu trách nhiệm update so với bản gốc ở đây.

    • Posted 15/11/2010 at 10:08 am | Permalink

      OK. Tôi sẽ cố gắng viết tiếp các mục còn lại (với sự đóng góp của mọi người), nhưng chưa biết bao giờ thì xong.

  22. Bùi Văn
    Posted 02/12/2010 at 10:45 pm | Permalink

    Sao em in thì bị lỗi nhỉ?

  23. Expling
    Posted 04/10/2011 at 8:22 pm | Permalink

    Cảm ơn bác Long đã viết bài rất hay này. Em đang đi tìm `regression splines` thì tìm ra trang này. Thấy trong bài của bác có `lớp smoothing splines` mà chưa thấy chuyển ngữ tương ứng. Em chưa hiểu về cái này. Bác có thể mách giúp em nó là gì không. Cảm ơn bác nhiều

  24. Posted 05/10/2011 at 12:14 pm | Permalink

    Chào Expling. Cảm ơn bạn. Tôi nghĩ smoothing splines là một khái niệm cổ điển nên chắc là đã có ai đó chuyển ngữ rồi, nên đang chờ các chuyên gia lên tiếng giúp. Tôi cũng rất muốn viết tiếp cái lexicon này, đặc biệt phần các giải thuật thống kê, nhưng chưa có thời gian. Bác nào muốn xắn tay vào góp sức đều welcome.

  25. Nguyễn Vũ Dzũng
    Posted 01/06/2012 at 12:10 am | Permalink

    Chào anh Long.
    Anh có thể chia sẻ kinh nghiệm về học Xác suất thống kê như thế nào không? Tựa như bài “Học KHMT nên đọc sách gì?” của anh Hưng.
    Rất mong nhận được sự chia sẻ của anh. Cảm ơn

  26. NXL
    Posted 02/06/2012 at 3:16 pm | Permalink

    Chào Dzũng, trong loạt bài về “học khmt…” có một mục riêng về thống kê và học máy. Còn nếu bạn hỏi riêng về xác suất thì bước đầu có thể tìm hiểu về course sequence bài bản về lý thuyết xác suất ở mức độ trên đại học của các khoa thống kê xem sao. Ví dụ, nên tìm hiểu chương trình xác suất ở khoa thống kê ở Berkeley, vì đây một trong những khoa rất mạnh về xác suất.

  27. VĂN
    Posted 11/11/2012 at 9:20 pm | Permalink

    Chào Anh!
    Cho hỏi anh về suy diễn Bayesian?

    Giả sử rằng từ tập dữ liệu đầu vào X và tập nhãn (đầu ra) tương ứng là Y.
    Tập đầu ra được định nghĩa theo phân phối chuẩn (Gaussian).
    y=f(x)+n (nhiều).
    Giải sư ta có công thức để ước lượng mean function đầu ra E[f(x)] và covariance function là k(x,x)=COV(f(x),f(x’)).
    Ở đây đã có công thức ước lượng giá trị này.

    Xin hỏi anh là các giá trị này được dùng ở giai đoạn nào trong suy diễn Bayesian? (dùng ở đâu trong công thức suy diễn?)

  28. HaThuyAnh
    Posted 17/09/2013 at 4:00 am | Permalink

    Thưa anh Long, vậy thì, ở đoạn đầu của bài viết, có phải là độ đo xác suất là công thức làm bánh? và các biến ngẫu nhiên là cái bánh?

  29. Tran Khanh Linh
    Posted 05/01/2014 at 4:16 am | Permalink

    Kính gửi thầy Nguyễn Xuân Long

    Xin gửi link bài viết của thầy với tên tác giả là “Cao Xuân Hiếu” :
    http://old.voer.edu.vn/module/khoa-hoc-va-cong-nghe/thuat-ngu-nganh-xac-suat-thong-ke-va-hoc-may.html

Post a Comment

Your email is never published nor shared. Required fields are marked *

You may use these HTML tags and attributes <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*
*