<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Blog Khoa Học Máy Tính &#187; Xác suất &amp; thống kê</title>
	<atom:link href="http://www.procul.org/blog/category/xac-su%e1%ba%a5t-th%e1%bb%91ng-ke/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.procul.org/blog</link>
	<description>Tầm nhìn ta thật ngắn mà đã thấy bao thứ  để làm -- Alan Turing</description>
	<lastBuildDate>Wed, 08 Feb 2012 13:27:56 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
		<item>
		<title>Các câu hỏi phỏng vấn [41]</title>
		<link>http://www.procul.org/blog/2012/01/31/cac-cau-h%e1%bb%8fi-ph%e1%bb%8fng-v%e1%ba%a5n-41/</link>
		<comments>http://www.procul.org/blog/2012/01/31/cac-cau-h%e1%bb%8fi-ph%e1%bb%8fng-v%e1%ba%a5n-41/#comments</comments>
		<pubDate>Wed, 01 Feb 2012 01:10:15 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Dành cho du học sinh]]></category>
		<category><![CDATA[Vui - Giải Trí]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[xác suất]]></category>
		<category><![CDATA[Đố]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=4215</guid>
		<description><![CDATA[Chọn 3 điểm ngẫu nhiên trên đường tròn, xác suất có tam giác vuông là bao nhiêu? Chọn 3 điểm ngẫu nhiên trên đường tròn, xác suất có tam giác nhọn là bao nhiêu?]]></description>
			<content:encoded><![CDATA[<ol start=109>
<li> Chọn 3 điểm ngẫu nhiên trên đường tròn, xác suất có tam giác vuông là bao nhiêu?
<li> Chọn 3 điểm ngẫu nhiên trên đường tròn, xác suất có tam giác nhọn là bao nhiêu?
</ol>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2012/01/31/cac-cau-h%e1%bb%8fi-ph%e1%bb%8fng-v%e1%ba%a5n-41/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>Câu hỏi xác suất</title>
		<link>http://www.procul.org/blog/2011/10/28/cau-h%e1%bb%8fi-xac-su%e1%ba%a5t/</link>
		<comments>http://www.procul.org/blog/2011/10/28/cau-h%e1%bb%8fi-xac-su%e1%ba%a5t/#comments</comments>
		<pubDate>Fri, 28 Oct 2011 12:22:22 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Vui - Giải Trí]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[Vui]]></category>
		<category><![CDATA[xác suất]]></category>
		<category><![CDATA[Đố]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=4076</guid>
		<description><![CDATA[Thấy từ Twitter của @jbrownridge một câu hỏi tuyệt vời.]]></description>
			<content:encoded><![CDATA[<p><a href="http://i.imgur.com/qvzU4.jpg">Thấy</a> từ Twitter của @jbrownridge một câu hỏi tuyệt vời. </p>
Note: There is a poll embedded within this post, please visit the site to participate in this post's poll.
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/10/28/cau-h%e1%bb%8fi-xac-su%e1%ba%a5t/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>Polytime và polydata</title>
		<link>http://www.procul.org/blog/2011/10/25/polytime-va-polydata/</link>
		<comments>http://www.procul.org/blog/2011/10/25/polytime-va-polydata/#comments</comments>
		<pubDate>Tue, 25 Oct 2011 16:51:54 +0000</pubDate>
		<dc:creator>Nguyễn Xuân Long</dc:creator>
				<category><![CDATA[Lý thuyết tính toán]]></category>
		<category><![CDATA[Lý thuyết thông tin]]></category>
		<category><![CDATA[Thuật Toán]]></category>
		<category><![CDATA[Toán Ứng Dụng]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[lỗi xấp xỉ]]></category>
		<category><![CDATA[lỗi ước lượng]]></category>
		<category><![CDATA[thống kê]]></category>
		<category><![CDATA[xác suất]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3929</guid>
		<description><![CDATA[Mấy hôm nay đọc một số bài viết về việc học mô hình hỗn hợp (mixture models). Đây là lĩnh vực kinh điển trong thống kê, nhưng vẫn tiếp tục là một lĩnh vực mở đang được quan tâm trong thống kê, học máy cũng như thuật toán. [Tôi cũng vừa upload bài mới trên [...]]]></description>
			<content:encoded><![CDATA[<p>Mấy hôm nay đọc một số bài viết về việc học mô hình hỗn hợp (mixture models). Đây là lĩnh vực kinh điển trong thống kê, nhưng vẫn tiếp tục là một lĩnh vực mở đang được quan tâm trong thống kê, học máy cũng như thuật toán. [Tôi cũng vừa upload <a href= "http://arxiv.org/abs/1109.3250"> bài mới trên arxiv</a> về lĩnh vực này.]</p>
<p>Có một số khác biệt thú vị về tiêu chuẩn học/ước lượng bởi các cộng đồng khác nhau. Dân khmt đặc biệt là về thuật toán thì quan tâm đến làm sao tìm ra được thuật toán chạy có thời gian đa thức, và cần số lượng mẫu <img src='http://s.wordpress.com/latex.php?latex=%20n%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' n ' title=' n ' class='latex' /> cũng là đa thức. Đa thức đối với kích cỡ của đầu vào của bài toán (ở đây sẽ là chiều của mô hình = số lượng tham số), và đa thức đối với <img src='http://s.wordpress.com/latex.php?latex=%201%2F%5Cepsilon%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' 1/\epsilon ' title=' 1/\epsilon ' class='latex' />. Epsilon ở đây là lỗi ước lượng cho phép. Ví dụ như <a href= "http://research.microsoft.com/en-us/um/people/adum/publications/2010-Efficiently_Learning_Mixtures_of_Two_Gaussians.pdf"> bài báo này </a>, <a href="http://projecteuclid.org/DPubS?service=UI&#038;version=1.0&#038;verb=Display&#038;handle=euclid.aoap/1106922321"> bài này </a>.</p>
<p>Tôi không hiểu tại sao <img src='http://s.wordpress.com/latex.php?latex=%201%2F%5Cepsilon%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' 1/\epsilon ' title=' 1/\epsilon ' class='latex' /> và số lượng tham số lại &#8220;nghiễm nhiên&#8221; để ngang hàng nhau trong việc phân tích asymptotic. Nếu giới hạn cho polynomial asymptotic một cách chung chung thì chắc không sao &#8212; có nhiều ví dụ cho ta thấy điều đó. Phân biệt giữa độ phức tạp exponential và phức tạp polynomial là vấn đề truyền thống trong KHMT. Điều này cũng có nghĩa là trong khmt sự phân biệt giữa các tốc độ đa thức còn chưa được chú ý nhiều (<img src='http://s.wordpress.com/latex.php?latex=%20%281%2F%5Cepsilon%29%5E2%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' (1/\epsilon)^2 ' title=' (1/\epsilon)^2 ' class='latex' /> vs. <img src='http://s.wordpress.com/latex.php?latex=%20%281%2F%5Cepsilon%29%5E3&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' (1/\epsilon)^3' title=' (1/\epsilon)^3' class='latex' /> chẳng hạn.) Kỳ thực so với thống kê thì các kết quả về phức tạp mẫu bên computational learning theory còn khá đơn giản, vì họ chưa chú trọng đến độ đa thức. </p>
<p>Trong thống kê hay học máy thống kê thì quan tâm chính là độ hội tụ của ước lượng (convergence of estimation error) đối với số mẫu. <img src='http://s.wordpress.com/latex.php?latex=%20%5Cepsilon%20%3D%20O%28n%5E%7B-1%2F2%7D%29%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' \epsilon = O(n^{-1/2}) ' title=' \epsilon = O(n^{-1/2}) ' class='latex' /> là một tốc độ kinh điển trong thống kê tham số hữu hạn chiều (khi đó, ta cũng có <img src='http://s.wordpress.com/latex.php?latex=%20n%20%3D%20%281%2F%5Cepsilon%29%5E%7B2%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' n = (1/\epsilon)^{2} ' title=' n = (1/\epsilon)^{2} ' class='latex' />). Trong các vấn đề ước lượng khác thì tốc độ hội tụ có thể rất khác, <img src='http://s.wordpress.com/latex.php?latex=%20n%5E%7B-%5Cdelta%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt=' n^{-\delta} ' title=' n^{-\delta} ' class='latex' /> hoặc rất chậm theo tốc độ logarithm, <img src='http://s.wordpress.com/latex.php?latex=%5Blog%281%2Fn%29%5D%5E%7B%5Cdelta%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='[log(1/n)]^{\delta} ' title='[log(1/n)]^{\delta} ' class='latex' />, chẳng hạn. Lý thuyết minimax, nếu có, cho ta biết giá trị tốt nhất có thể của delta đạt được bởi một thuật toán tốt nhất có thể được. </p>
<p>Tuy nhiên bên thống kê chưa quan tâm đến sự phức tạp về thời gian của thuật toán. Có thể nói các kết quả về sự phức tạp của thuật toán ở bên thống kê hầu như không tồn tại.</p>
<p>Có thể tiếp cận vấn đề này theo hai hướng.</p>
<p>Một là tạm thời tách rời hai sự phức tạp khác nhau này ra. Thực ra cái này đã được làm ở một chừng mực nào đó: Đây chính là sự tách rời giữa lỗi xấp xỉ (approximation error) và lỗi ước lượng thống kê (estimation error). Thông thường lỗi xấp xỉ cũng cho ta biết tốc độ tốt nhất của một giải thuật tính xấp xỉ một đại lượng nào đó (không ngẫu nhiên), tuy điều này không phải luôn rõ ràng. Dân thống kê mới chỉ chú tâm đến cái thứ hai (lỗi ước lượng thống kê). Còn phân tích về lỗi xấp xỉ thì là địa hạt của những người nghiên cứu về lý thuyết xấp xỉ. Chỉ việc bê kết quả bên lý thuyết xấp xỉ sang áp dụng là xong. </p>
<p>Hướng này hay ở chỗ nó tách ra hai khái niệm mà bản thân chúng đều không đơn giản. Nhưng nếu không có kết quả về xấp xỉ cho một lớp mô hình cần quan tâm thì chịu. Điều này không phải là hy hữu, vì sự chú ý và động cơ của các ngành có nhiều khác nhau. Ví dụ, đân làm xấp xỉ có vẻ không quan tâm nhiều đến các biến rời rạc hoặc các dạng hàm số định nghĩa cho tập hợp (như hàm phân bố xác suất).</p>
<p>Hướng thứ hai là không tách rời hai dạng lỗi kể trên. Qua đó ta có thể nghiên cứu về sự tương tác giữa phức tạp về mẫu và phức tạp về thuật toán. Đặc biệt, sự tương tác giữa các mức phức tạp đa thức của cả mẫu và thời gian thuật toán. Tôi nghĩ đây là một trong những vấn đề thú vị trong lý thuyết học máy hiện nay. </p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/10/25/polytime-va-polydata/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>Luyện gà chọi và vấn đề overfitting</title>
		<link>http://www.procul.org/blog/2011/10/03/luy%e1%bb%87n-ga-ch%e1%bb%8di-va-v%e1%ba%a5n-d%e1%bb%81-overfitting/</link>
		<comments>http://www.procul.org/blog/2011/10/03/luy%e1%bb%87n-ga-ch%e1%bb%8di-va-v%e1%ba%a5n-d%e1%bb%81-overfitting/#comments</comments>
		<pubDate>Mon, 03 Oct 2011 19:27:19 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Giáo dục]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[thống kê]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3772</guid>
		<description><![CDATA[Trong ngành Học Máy và Thống Kê nói chung có vấn đề đau đầu là vấn đề overfitting. Nếu dữ liệu dùng để luyện mô hình có nhiễu lớn thì một mô hình &#8220;giải thích&#8221; dữ liệu hoàn hảo sẽ nhiều khả năng đoán tương lai sai toét. Tôi đã liên hệ vấn đề overfitting [...]]]></description>
			<content:encoded><![CDATA[<p>Trong ngành Học Máy và Thống Kê nói chung có vấn đề đau đầu là <a href="http://en.wikipedia.org/wiki/Overfitting">vấn đề overfitting</a>. Nếu dữ liệu dùng để luyện mô hình có nhiễu lớn thì một mô hình &#8220;giải thích&#8221; dữ liệu hoàn hảo sẽ nhiều khả năng đoán tương lai sai toét. Tôi đã liên hệ vấn đề overfitting với thiên kiến khẳng định trong bài <a href="http://www.procul.org/blog/2007/08/01/thien-nga-den-2/">điểm sách Thiên Nga Đen</a>: chăm chăm đi tìm một &#8220;lý thuyết&#8221; giải thích lịch sử không phải là khó, tìm mô hình có khả năng dự đoán tương lai mới khó. Rất dễ tìm hàm &#8220;fit&#8221; giá chứng khoán (Google chẳng hạn) từ hồi nó mới ra thị trường, nhưng hàm đó có đoán được giá ngày mai không?</p>
<p>Luyện gà chọi thi đại học cũng tiềm ẩn một vấn đề overfitting. Các sinh viên &#8220;fit&#8221; vào một mô hình thi cử cứng nhắc chưa chắc đã dễ giáo dục thành các kỹ sư, bác sĩ, luật sư giỏi. <a href="http://timesofindia.indiatimes.com/india/Poor-quality-of-students-entering-IITs-Narayana-Murthy/articleshow/10217469.cms">Gần đây</a>,  Narayana Murthy của Infosys đã gióng hồi chuông cảnh báo ở hội nghị &#8220;Pan IIT&#8221; summit rằng các kỹ sư tốt nghiệp hệ thống IIT càng lúc càng tệ, do vấn đề luyện gà chọi để &#8220;fit&#8221; vào hệ thống thi cử.</p>
<blockquote><p>More emphasis has to be given to research at the undergraduate level and examinations should test independent thinking of students rather than their ability to solve problems. </p>
<p>Murthy said in order to produce good research at IITs, the Indian government has to be persuaded to create institutions that fund research projects. </p>
<p>In addition, faculty members should also be evaluated annually on their research performance by an independent committee, Murthy said adding that India must shift from the tenure system for its faculty to a five year contractual appointment system. </p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/10/03/luy%e1%bb%87n-ga-ch%e1%bb%8di-va-v%e1%ba%a5n-d%e1%bb%81-overfitting/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Công nghệ thần giao cách cảm</title>
		<link>http://www.procul.org/blog/2011/09/14/cong-ngh%e1%bb%87-th%e1%ba%a7n-giao-cach-c%e1%ba%a3m/</link>
		<comments>http://www.procul.org/blog/2011/09/14/cong-ngh%e1%bb%87-th%e1%ba%a7n-giao-cach-c%e1%ba%a3m/#comments</comments>
		<pubDate>Wed, 14 Sep 2011 12:37:29 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Thần kinh học]]></category>
		<category><![CDATA[Vượt định kiến]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[Y Học]]></category>
		<category><![CDATA[EEG]]></category>
		<category><![CDATA[Hans Berger]]></category>
		<category><![CDATA[Lê Thị Thái Tần]]></category>
		<category><![CDATA[Sóng não]]></category>
		<category><![CDATA[Thần giao cách cảm]]></category>
		<category><![CDATA[thống kê]]></category>
		<category><![CDATA[vượt định kiến]]></category>
		<category><![CDATA[xác suất]]></category>
		<category><![CDATA[Xử lý tín hiệu]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3554</guid>
		<description><![CDATA[1. Tia hy vọng cho các phế nhân Johnny Ray vốn là thợ xây tường đá.  Năm 1997, khi ông 59 tuổi, ông bị đột quỵ cuống não (brain-stem stroke), dẫn đến hội chứng khoá trong (locked-in syndrome). Ông vẫn tư duy được như thường nhưng hoàn toàn không còn có thể di động bất [...]]]></description>
			<content:encoded><![CDATA[<p><strong>1. Tia hy vọng cho các phế nhân</strong></p>
<p>Johnny Ray vốn là thợ xây tường đá.  Năm 1997, khi ông 59 tuổi, ông bị <em>đột quỵ cuống não</em> (<a href="http://cancer.osu.edu/PatientEd/Materials/PDFDocs/dis-cond/stroke/Brainstem-Stroke.pdf">brain-stem stroke</a>), dẫn đến <em>hội chứng khoá trong</em> (<a href="http://en.wikipedia.org/wiki/Locked-in_syndrome">locked-in syndrome</a>). Ông vẫn tư duy được như thường nhưng hoàn toàn không còn có thể di động bất kỳ bộ phận nào trên cơ thể, trừ mắt vẫn còn thấy.</p>
<p>Johnny Ray đã “may mắn” <a href="http://www.wired.com/wired/archive/9.08/assist_pr.html">được chọn</a> làm đối tượng thử nghiệm thứ 2 của một nhóm nghiên cứu thần kinh học ở trường đại học Emory, bang Atlanta, Mỹ. Hai nhà thần kinh học Phillip Kennedy và Roy Bakay đã bắt đầu nghiên cứu cách “đọc” thông tin từ sóng não bằng cách cấy trực tiếp các điện cực vào não từ 1990. Đến 1996, họ đã có một số kết quả khả quan sau các thí nghiệm với các động vật linh trưởng (primates) và Cơ quan quản lý thực và dược phẩm Mỹ (FDA) đã cho phép nhóm nghiên cứu của Kennedy và Bakay thử nghiệm trên … hai người. Người thứ nhất là một phụ nữ bị <a href="http://en.wikipedia.org/wiki/Amyotrophic_lateral_sclerosis">bệnh Lou Gehrig</a> giai đoạn cuối. Bà ta qua đời hai tháng sau. Johnny Ray là bệnh nhân thứ hai.</p>
<p><span id="more-3554"></span></p>
<p>Để đơn giản tối đa tín hiệu sóng não cần diễn dịch, các bác sĩ đã bảo Ray tập trung vào những suy nghĩ nhị phân kiểu như nóng/lạnh, lên/xuống. Những suy nghĩ phân cực này tạo ra các mẫu (pattern) sóng khác nhau được một máy tính cá nhân nối trực tiếp vào các điện cực qua cổng USB xử lý và “học” dùng các phương pháp phổ dụng trong ngành xử lý tín hiệu và xác suất thống kê. Sau một thời gian tập huấn với các kiểu tập trung tư duy phức tạp hơn (như thử cố di động cánh tay), ông Ray đã có thể di động được … con trỏ chuột trên màn hình máy tính, gõ các ký tự trên bàn phím (trên màn hình), và thậm chí chơi cả vài nốt nhạc. Sau thành công ban đầu với trường hợp của Johnny Ray, nhóm nghiên cứu đã nhận được tài trợ để thử thêm 8 bệnh nhân nữa. <a href="http://www.procul.org/blog/wp-content/uploads/2011/08/bci.jpg"><img class="alignright size-medium wp-image-3595" title="bci" src="http://www.procul.org/blog/wp-content/uploads/2011/08/bci-300x250.jpg" alt="" width="300" height="250" /></a></p>
<p>Năm 2002, Jens Neumann – một người mù không bẩm sinh – được cấy các điện cực nối với cameras vào các vùng thị giác trong não. Các cameras đặc biệt này gửi các tín hiệu kích thích vào các vùng thị giác trong não. Hệ thống này do nhà Y-Sinh học <a href="http://en.wikipedia.org/wiki/William_H._Dobelle">William H. Dobelle</a> (1941—2004) thiết kế. Neumann đã dùng “thị giác” còn rất chi là “khiếm” này để lái xe trong sân đậu xe của viện nghiên cứu.</p>
<p>Năm 2005, <a href="http://en.wikipedia.org/wiki/Matt_Nagle">Matt Nagle</a> – một bệnh nhân bị tứ chi bất toại (<a href="http://en.wikipedia.org/wiki/Tetraplegic">Tetraplegic</a>) – đã dùng chông nghệ <a href="http://en.wikipedia.org/wiki/BrainGate">BrainGate</a> của công ty Cyberkinetics Neurotechnology để di chuyển một cánh tay robot, di chuyển con trỏ chuột, bật tắt đèn và TV.</p>
<p>Tháng 2 năm 2011, anh trung sĩ cụt tay Glen Lehman của quân đội Mỹ <a href="http://cosmiclog.msnbc.msn.com/_news/2011/02/18/6080364-bionic-arms-are-spreading-wider">đã biểu diễn</a> điều khiển cánh tay giả của mình bằng ý nghĩ ở hội nghị thường niên của Tổ chức vì tiến bộ Khoa Học Hoa Kỳ (American Association for the Advancement of Science – gọi tắt là <a href="http://www.aaas.org/">AAAS</a>). Trong <a href="http://www.eurekalert.org/multimedia/pub/29745.php?from=178861">video</a> quay lại cuộc trình diễn của anh, ta có thể thấy Lehman đã dùng tay giả cầm gói đồ ăn, khay thức ăn, và chuyền một chai nước. Anh nói với các nhà báo: “<em>tay tôi hầu như là đồng bộ với suy nghĩ của tôi!</em>”.</p>
<p>Các trường hợp của Johnny Ray, Jens Neumann, Matt Nagle, và Glen Lehmann là bốn trong số rất nhiều ví dụ thử nghiệm thành công của “<em>giao diện não-máy</em>” (<a href="http://en.wikipedia.org/wiki/Brain%E2%80%93computer_interface">Brain-Computer Interface</a>, BCI), một nhánh nghiên cứu đầy hứa hẹn sẽ mang lại những phép màu cho các phế nhân. Không những thế, công nghệ và khoa học đằng sau BCI còn có khả năng sẽ đặt nền tảng cho những ứng dụng không tiền khoáng hậu cho cả nhân loại và đào sâu tầm hiểu biết của chúng ta vào cỗ máy phức tạp nhất mà con người đã từng “giao diện” vào được: não bộ!</p>
<p><strong>2. &#8220;Truy cập&#8221; vào não &#8230;</strong></p>
<p>Năm 1875, bác sĩ người Anh <a href="http://en.wikipedia.org/wiki/Richard_Caton">Richard Caton</a> (1842—1926) đã khám phá ra rằng não thỏ và khỉ có các hiện tượng điện. Sau đó, nhiều bác sĩ và nhà khoa học đã dùng điện não đồ (electroencephalogram, viết tắt là EEG) để đo và nghiên cứu các hoạt động điện trong não thú vật. Năm 1924, bác sĩ người Đức <a href="http://en.wikipedia.org/wiki/Hans_Berger">Hans Berger</a> (1873—1941) là người đầu tiên trong lịch sử nhân loại đã có thí nghiệm đo “sóng não” người bằng điện não đồ. Các điện cực được gắn trên da đầu. Ông quan sát thấy có một nhịp <a href="http://en.wikipedia.org/wiki/Alpha_wave">sóng alpha</a> (còn gọi là sóng Berger) ở tần số khoảng 8—12Hz. Ban đầu người ta không tin lắm vì có khả năng đây chỉ là nhiễu từ bên ngoài, nhưng sau đó các nhóm nghiên cứu khác đã độc lập kiểm chứng được rằng quả là có cái gọi là “sóng não” phát sinh bởi các hoạt động điện từ của các neurons thần kinh.</p>
<div id="attachment_3556" class="wp-caption alignright" style="width: 349px"><a href="http://www.procul.org/blog/wp-content/uploads/2011/08/EEG.png"><img class="size-full wp-image-3556" title="EEG" src="http://www.procul.org/blog/wp-content/uploads/2011/08/EEG.png" alt="" width="339" height="339" /></a><p class="wp-caption-text">Điện cực gắn vào đầu để đo EEG</p></div>
<p>Đo lường và phân tích sóng não từ các điện cực gắn ngoài sọ là việc cực kỳ khó vì các điện cực không tiếp xúc trực tiếp với não nên tín hiệu vốn đã yếu còn bị mất mát; ngoài ra tín hiệu đo được còn bị hứng thêm nhiều loại tín hiệu nhiễu như nhiễu sinh học từ hoạt động của cơ, tim mạch, mắt, hay nhiễu từ môi trường xung quanh như nguồn điện gia dụng chẳng hạn. Do đó hầu như chỉ có những hoạt động của não đòi hỏi nhiều thành tố thần kinh hoạt động đồng bộ mới tạo sóng đủ mạnh để phân tích và dùng được.</p>
<p>Dù gặp nhiều khó khăn như vậy, <a href="http://m.cacm.acm.org/magazines/2011/5/107704-brain-computer-interfaces-for-communication-and-control/fulltext">từ những năm 60</a> các nhà khoa học đã nghiên cứu các phương pháp xử lý tín hiệu và xác suất thống kê để dùng tín hiệu EEG làm được những thí nghiệm kỳ diệu. Năm 1964 nhà vật lý Edmond Dewan của phòng nghiên cứu Không Quân ở tiểu bang Massachussetts, Mỹ, đã minh chứng rằng các người dùng hệ thống của ông có thể dùng tín hiệu EEG để gửi mã Morse.. Đầu thập niên 1970, giáo sư ngành khoa học máy tính Jacques Vidal của đại học UCLA, Mỹ, cũng đã huấn luyện người sử dụng dùng não phát ra các lệnh di động đèn tín hiệu trái phải, trên dưới. Điều khá thú vị là người dùng hệ thống của cả Dewan và Vidal đều chủ ý di động mắt để tạo ra sóng EEG. Nhưng đây cũng là một “thất bại” của họ trên phương diện ứng dụng Y học, vì họ cần người dùng di chuyển một bộ cơ (mắt) để lấy tín hiệu; các bệnh nhân bị liệt chưa chắc đã “lanh mắt” được như vậy.</p>
<p>Sau đó các nhóm nghiên cứu khác đã từ từ “giải mã” được một số loại sóng não mà không cần dựa vào sự chuyển động của mắt hay các bộ cơ khác trong cơ thể. Ví dụ, các nhà khoa học đã có thể giải mã được sóng não EEG khi người dùng tưởng tượng một chuyển động nào đó.</p>
<p>Có thể phần nào giải quyết những khó khăn về mặt chất lượng tín hiệu của kỹ thuật EEG bằng cách cấy điện cực thẳng vào não thay vì chỉ gắn chúng ngoài đầu. Tuy nhiên phương pháp “can thiệp sâu” này cực kỳ khó nghiên cứu trên diện rộng vì lý do hiển nhiên: có cho tiền tỉ cũng không ai cho cưa sọ ra làm chuột thí nghiệm, chưa kể tính bất khả thi về mặt luật pháp. Do đó, các thí nghiệm của phương pháp can thiệp sâu vào não này chủ yếu được tiến hành trên các động vật linh trưởng, hoặc là chuột, mèo. Thỉnh thoảng mới <a href="http://www.nature.com/nature/journal/v442/n7099/abs/nature04970.html">có kết quả</a> áp dụng vào các bệnh nhân bị liệt, mặc dù chúng rất khả quan.</p>
<p>Trên thú vật thì từ năm 1969 nhà vật lý Eberhard Fetz của đại học Washington (thành phố Seattle, Mỹ) cùng các cộng sự <a href="http://www.sciencemag.org/content/163/3870/955">đã minh chứng</a> rằng ta có thể huấn luyện khỉ dùng não điều khiển các cánh tay robot. Từ đó đến nay đã có <a href="http://www.ncbi.nlm.nih.gov/pubmed/16859758">nhiều công trình</a> nghiên cứu phân tích các sóng não phức tạp hơn nhiều. Đã có thêm rất nhiều công trình phân tích sóng não của các loại khỉ, vượn, giúp chúng điều khiển các thiết bị cơ học hoặc máy tính bằng suy nghĩ. Thậm chí vào năm 2000 các nhà khoa học của đại học Duke (Bắc Carolina, Mỹ), đại học MIT (bang Massachussetts, Mỹ) và đại học bang New York (SUNY) <a href="http://web.mit.edu/newsoffice/2000/monkeys-1206.html">đã huấn luyện</a>cho khỉ di chuyển tay robot từ xa qua mạng Internet: khỉ ở Duke, tay robot ở MIT cách nhiều trăm dặm.</p>
<p>Về mặt hình ảnh thì năm 1999, nhóm nghiên cứu của giáo sư Yang Dan ở đại học UC Berkeley, Mỹ, đã giải mã được sóng não của mèo để xây dựng lại phần nào (với độ phân giải thấp) hình ảnh mà mèo nhìn thấy.</p>
<div id="attachment_3557" class="wp-caption alignleft" style="width: 310px"><a href="http://www.procul.org/blog/wp-content/uploads/2011/08/cat-image.png"><img class="size-medium wp-image-3557" title="cat-image" src="http://www.procul.org/blog/wp-content/uploads/2011/08/cat-image-300x149.png" alt="" width="300" height="149" /></a><p class="wp-caption-text">Hình ảnh thực ở ngoài mèo nhìn thấy, và ảnh xây dựng lại của nhóm Yang Dan</p></div>
<p>Năm 2008, một nhóm các khoa học gia Nhật bản cũng <a href="http://www.ncbi.nlm.nih.gov/pubmed/19081384">đã xây dựng</a> lại được hình ảnh mà một người nhìn thấy dùng công nghệ “<em>ch</em><em>ụp </em><em>ảnh c</em><em>ộng h</em><em>ư</em><em>ởng t</em><em>ừ ch</em><em>ức năng</em>” (<a href="http://en.wikipedia.org/wiki/Functional_magnetic_resonance_imaging">functional Magnetic Resonance Imaging</a>, viết tắt là fMRI). Mặc dù hình ảnh mà họ xây dựng lại có độ phân giải rất thấp (10 x 10 pixels) và chỉ là đen trắng,  kết quả này thật sự là rất hứa hẹn (ví dụ, nó cho thấy khả năng ghi hình lại các giấc mơ!). Một điểm đáng lưu ý nữa là kỹ thuật fMRI chỉ chụp ảnh từ ngoài, không can thiệp trực tiếp vào não bộ.</p>
<p>Để phân tích sóng não, các kỹ thuật phổ dụng của ngành Học máy Thống kê (statistical machine learning) là thành phần cốt lõi. Học máy thống kê là một hướng tiếp cận đến vấn đề trí tuệ nhân tạo. Trong thập niên đầu của thế ký 21, Học máy Thống kê đã len lỏi vào hầu hết các ngóc ngách của cuộc sống hiện đại: nó là khối óc của công nghệ tìm kiếm của Google, của các chương trình lọc thư rác, của xe ô-tô không người lái, của các hệ thống theo dõi bệnh lý tự động, nhận diện chữ viết, tiếng nói, hình ảnh, các chương trình bảo mật mạng, các giao dịch tài chính và chứng khoán diễn ra hàng ngày với tốc độ nanô-giây, vân vân và vân vân. <a href="http://www.procul.org/blog/2011/04/19/tri-tu%e1%bb%87-nhan-t%e1%ba%a1o-va-nh%e1%bb%afng-v%e1%bb%8b-chua-t%e1%bb%83-m%e1%bb%9bi/">Thành công vang dội</a> của hệ thống máy tính Watson của công ty IBM trong trò <em>Jeopardy!</em> tháng 2 vừa qua đã đưa Học máy thống kê lên vị trí thống lĩnh không thể chối cãi trong trí tuệ nhân tạo hiện đại. Mục tiêu chủ yếu của Học máy thống kê là phối hợp thuật toán máy tính và mô hình thống kê để tìm ra các cấu trúc có liên hệ về mặt toán học trong một mớ dữ liệu hổ lốn và nhiều nhiễu như mạng WWW, giao dịch chứng khoán, hay hình ảnh X-quang chẩn bệnh. Do đó, việc Học máy thống kê được dùng để phân tích sóng não cũng là điều dễ hiểu.</p>
<p>Kể cũng khá thú vị là, mục tiêu của môn Học Máy nói riêng và trí tuệ nhân tạo nói chung là huấn luyện cho máy biết tự “suy nghĩ”. Nhưng trong ngữ cảnh bài này chúng ta lại thấy kỹ thuật Học Máy được dùng để huấn luyện cho máy hiểu suy nghĩ của người. Và để làm được điều này người cũng phải được huấn luyện để tập trung tư duy theo một mẫu nhất định cho máy học được mẫu đó. Một thông tin nhỏ cho các bạn đọc chuyên ngành: hiện nay support-vector machines (SVM) vẫn là công cụ hiệu quả nhất cho vấn đề &#8220;học&#8221; sóng não này.</p>
<p><strong>3. Thần giao cách cảm</strong></p>
<p>Việc nghiên cứu và áp dụng BCI để giúp người tàn tật đã và đang phát triển nhanh chóng. Ngoài các minh chứng điều khiển tay chân giả, <a href="http://www.wired.com/medtech/health/news/2007/01/72580">đã có các kết quả</a> về điều khiển xe lăn, <a href="http://www.technologyreview.com/biomedicine/38159/?p1=MstRcnt">điều khiển thắng xe hơi</a> bằng tư duy, . Nhưng các ứng dụng của BCI rõ ràng là không chỉ nằm ở đó. Khi đã có thể gửi thông điệp tới máy bằng suy nghĩ thì “<em>th</em><em>ần giao cách c</em><em>ảm</em>” không còn là chuyện khoa học giả tưởng nữa. <a href="http://discovermagazine.com/2011/apr/15-armys-bold-plan-turn-soldiers-into-telepaths/article_print">Một trọng những ứng dụng</a> quan trọng của “công nghệ thần giao cách cảm” là trên … chiến trường.</p>
<p>Năm 2008, quân đội Mỹ đã bắt đầu tài trợ cho một dự án gồm nhiều trường đại học ở Mỹ để phát triển công nghệ “<em>cách c</em><em>ả</em><em>m t</em><em>ổ</em><em>ng h</em><em>ợ</em><em>p</em>” (synthetic telepathy) dùng cho mục tiêu quân sự.  Mục tiêu “đơn giản” của dự án là phát triển các loại “nón” đặc biệt chứa các thiết bị đo sóng não, để các chiến binh có thể suy nghĩ và máy sẽ đo và gửi qua đường truyền không dây những thông điệp tác chiến đơn giản đến những cái nón khác của đồng đội, có bộ phận chuyển tín hiệu thành âm thanh cho họ. Chúng ta hoàn toàn có thể tưởng tượng được cuộc cách mạng quân sự  khi ý tưởng này thành hiện thực.</p>
<div id="attachment_3560" class="wp-caption alignnone" style="width: 610px"><a href="http://www.procul.org/blog/wp-content/uploads/2011/08/TGCC.png"><img class="size-full wp-image-3560" title="TGCC" src="http://www.procul.org/blog/wp-content/uploads/2011/08/TGCC.png" alt="" width="600" /></a><p class="wp-caption-text">Ảnh chôm của tạp chí Discover</p></div>
<p>Dự án này do tiến sĩ Elmar Schmeisser ấp ủ khi ông làm quản lý dự án ở phòng nghiên cứu của quân đội Mỹ (Army Research Office). Sau một lần tham dự hội nghị về các tiến triển mới nhất của khoa học và công nghệ BCI, Schmeisser chợt nhận ra rằng BCI không chỉ có lợi cho người tàn tật. Ông đã thuyết phục các lãnh đạo ở phòng nghiên cứu tài trợ cho dự án dài hơi này. Cùng với tư vấn của các nhà khoa học hàng đầu về BCI, các nhà lãnh đạo phòng nghiên cứu quân đội Mỹ đã … siêu lòng. Từ đó, các đơn xin tài trợ chất đầy phòng quản lý của Schmeisser. Đến 2008, Schmeisser  quyết định tài trợ cho hai nhóm nghiên cứu theo đuổi hai cách tiếp cận đến vấn đề này. Nhóm đầu tiên do tiến sĩ Gerwin Schalk, một nhà Y-Sinh học ở đại học Y Albany, bang New York dẫn đầu, theo đuổi hướng “can thiệp sâu”. Nhóm thứ hai gồm các giáo sư ở các đại học UC Irvine, Carnegie Mellon University và đại học Maryland, do giáo sư Mike D’Zmura ở UC Irvine lãnh đạo theo đuổi hướng dùng EEG, không cần cưa sọ. Họ đã nhận được tài trợ đầu tiên với số tiền khởi điểm hơn 6 triệu đô.</p>
<p>Để tránh các khó khăn về nhiễu của công nghệ EEG, ban đầu nhóm thứ hai dùng thêm công nghệ “<em>t</em><em>ừ</em><em> não đ</em><em>ồ</em>” (<a href="http://en.wikipedia.org/wiki/Magnetoencephalography">Magnetoencephalography</a>, viết tắt là MEG), giống EEG ở chỗ chỉ cần đội một cái nón đồ sộ đặc biệt mà không cần mổ não, nhưng MEG đo <em>t</em><em>ừ</em><em> tr</em><em>ư</em><em>ờ</em><em>ng</em> tạo bởi các hoạt động của não. Lý do mà các máy MEG trông như các bộ sấy tóc khổng lồ ở thẩm mỹ viện là vì chúng cần các “lá chắn” nhiễu từ trường ngoài môi trường. Lợi thế của MEG so với EEG là từ trường tạo bởi hoạt động của não ít bị giảm chất lượng so với điện trường khi đi xuyên qua sọ. So với fMRI thì MEG “nhạy” hơn nhiều, có thể dùng để đo các thay đổi trong não trong thời khoảng mili-giây. Với MEG thì nhóm của D’Zmura đã có các thành tựu bước đầu với mã Morse và một số suy nghĩ đơn giản. Còn với các nón EEG nhỏ thì công nghệ của họ cũng đã có thể giải mã được suy nghĩ một số cụm từ nhất định nhưng chỉ với xác suất khoảng 45%.</p>
<p>Ta có thể tin chắc rằng sẽ phải ít nhất vài mươi năm nữa cho đến khi đội đặc nhiệm câm của Mỹ đột nhập vào các hang núi ở Afghanistan. Nhưng việc những người tàn phế tận dụng công nghệ BCI để giao tiếp và điều khiển những “cánh tay” nối dài bằng suy nghĩ, hay các game thủ chơi game không cần tay chân thì chắc chắn sẽ thành hiện thực trong tương lai rất gần.</p>
<p><strong>4. Những hạt giống đầu tiên của công nghệ sóng não trên thị trường</strong></p>
<p>Không chỉ còn là khái niệm minh chứng trong phòng thí nghiệm, công nghệ BCI và các ứng dụng của nó đã bắt đầu được phát triển và kinh doanh ngoài “đời thực”.</p>
<p>Để kỷ niệm sinh nhận 10 năm của chiếc xe “thân thiện môi trường” Prius, công ty Toyota đã thiết lập một chương trình tài trợ gọi là “<a href="http://www.toyotapriusprojects.com/">các dự án Prius</a>” với mục đích tài trợ hoặc hợp tác với các dự án xây dựng và thiết kế công nghệ dựa trên “triết lý Toyota Prius”: hướng về tương lai. Một trong những dự án đã có sản phẩm mẫu ra đời tháng 8 vừa qua là chiếc <a href="http://prollyisnotprobably.com/2011/07/the_toyota_prius_projects_conc_12.php">xe đạp PXP</a>, là thành quả hợp tác của Toyota, công ty xe đạp Parlee Cycles, và công ty công nghệ DeepLocal. Ngoại trừ rất nhiều các cải tiến tối ưu động lực, vật liệu, cua-rơ PXP còn có thể tự sang số xe bằng ý nghĩ. Cua-rơ đội một “tai nghe sóng não” nối với một điện thoại iPhone gắn vào xe. Bạn đọc có thể xem giới thiệu PXP trên một youtube video: </p>
<p><center><iframe width="560" height="345" src="http://www.youtube.com/embed/lWzdWMapJ-c" frameborder="0" allowfullscreen></iframe></center></p>
<p>Các thiết bị giao diện não-máy đã được một số công ty phát triển và bán ra thị trường: ví dụ như bộ “tai nghe” <a href="http://store.neurosky.com/products/mindwave-1">MindWave</a> (100usd) của công ty NeuroSky, <a href="http://techreport.com/articles.x/14957">bộ kích hoạt NIA</a> (90usd) của công ty OCZ, hay bộ <a href="http://www.emotiv.com/apps/epoc/299/">EPOC neuroheadset</a> (300usd) của công ty Emotiv Systems. Có nhiều công ty đang phát triển và kinh doanh ứng dụng (chủ yếu là giải trí và Y tế) dựa trên giao diện lập trình của các thiết bị nghe sóng não này.</p>
<p>Cụ thể hơn, EPOC neuroheadset là một trong những thiết bị giao diện người-máy mới nhất và thông minh nhất, hứa hẹn sẽ sớm đưa bàn phím và con chuột vào dĩ vãng. EPOC neuroheadset có ba loại cảm biến “giải mã” hoạt động não mà họ gọi là (1) Expressiv: khả năng diễn đạt lại các biểu hiện trên mặt, (2) Affectiv: khả năng “hiểu” các biểu hiện tình cảm trong não, và (3) Cognitiv: khả năng hiểu được suy nghĩ. Bạn đọc có thể xem demo về các khả năng của EPOC neuroheadset ở trên youtube:</p>
<p><iframe src="http://www.youtube.com/embed/E66tuKQAMcU" frameborder="0" width="420" height="345"></iframe></p>
<p>EPOC neuroheadset chắc chắn sẽ cách mạng hoá công nghệ trò chơi điện tử. Với Expressiv, các nhân vật trong trò chơi điện tử sẽ mang “dấu ấn” biểu hiện gương mặt của người chơi. Với Affectiv, môi trường chơi có thể biến ảo về màu sắc, âm nhạc, tuỳ theo trạng thái tình cảm của gamer. Với Cognitive, EPOC neuroheadset có thể sẽ đóng vai trò chủ đạo, nếu không muốn nói là loại bỏ hoàn toàn bộ game console. Hiện nay EPOC neuroheadset đã được bán trên thị trường Mỹ với giá 299 USD một bộ. Người mua chủ yếu là các nhà nghiên cứu và các nhà phát triển ứng dụng (games, Y tế).</p>
<div id="attachment_3561" class="wp-caption alignleft" style="width: 274px"><a href="http://www.procul.org/blog/wp-content/uploads/2011/08/EPOC.png"><img class="size-full wp-image-3561" title="EPOC" src="http://www.procul.org/blog/wp-content/uploads/2011/08/EPOC.png" alt="" width="264" height="264" /></a><p class="wp-caption-text">EPOC neuroheadset</p></div>
<p>Liên quan đến Việt Nam, hai trong bốn sáng lập viên của Emotiv Systems là người gốc Việt: Lê Thị Thái Tần (tổng giám đốc) và Đỗ Hoài Nam. Lê Thị Thái Tần cùng gia đình vượt biên sang Úc năm 1982, khi chị bốn tuổi. Đến năm 1998 chị được giải thưởng gương mặt trẻ tiêu biểu của Úc. Đỗ Hoài Nam là cựu học sinh chuyên Lý trường Amsterdam. Tháng 7 năm 2010, chị Tần đã có bài nói chuyện giới thiệu EPOC ở hội nghị TED lừng danh. Bạn đọc có thể xem buổi nói chuyện của chị:</p>
<p><!--copy and paste--><object width="526" height="374" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="wmode" value="transparent" /><param name="bgColor" value="#ffffff" /><param name="flashvars" value="vu=http://video.ted.com/talk/stream/2010G/Blank/TanLe_2010G-320k.mp4&amp;su=http://images.ted.com/images/ted/tedindex/embed-posters/TanLe-2010G.embed_thumbnail.jpg&amp;vw=512&amp;vh=288&amp;ap=0&amp;ti=921&amp;lang=eng&amp;introDuration=15330&amp;adDuration=4000&amp;postAdDuration=830&amp;adKeys=talk=tan_le_a_headset_that_reads_your_brainwaves;year=2010;theme=tales_of_invention;theme=how_the_mind_works;theme=a_taste_of_tedglobal_2010;theme=what_s_next_in_tech;event=TEDGlobal+2010;tag=Design;tag=Entertainment;tag=Technology;tag=brain;tag=computers;tag=interface+design;tag=mind;&amp;preAdTag=tconf.ted/embed;tile=1;sz=512x288;" /><param name="src" value="http://video.ted.com/assets/player/swf/EmbedPlayer.swf" /><param name="pluginspace" value="http://www.macromedia.com/go/getflashplayer" /><param name="allowfullscreen" value="true" /><param name="allowscriptaccess" value="always" /><embed width="526" height="374" type="application/x-shockwave-flash" src="http://video.ted.com/assets/player/swf/EmbedPlayer.swf" allowFullScreen="true" allowScriptAccess="always" wmode="transparent" bgColor="#ffffff" flashvars="vu=http://video.ted.com/talk/stream/2010G/Blank/TanLe_2010G-320k.mp4&amp;su=http://images.ted.com/images/ted/tedindex/embed-posters/TanLe-2010G.embed_thumbnail.jpg&amp;vw=512&amp;vh=288&amp;ap=0&amp;ti=921&amp;lang=eng&amp;introDuration=15330&amp;adDuration=4000&amp;postAdDuration=830&amp;adKeys=talk=tan_le_a_headset_that_reads_your_brainwaves;year=2010;theme=tales_of_invention;theme=how_the_mind_works;theme=a_taste_of_tedglobal_2010;theme=what_s_next_in_tech;event=TEDGlobal+2010;tag=Design;tag=Entertainment;tag=Technology;tag=brain;tag=computers;tag=interface+design;tag=mind;&amp;preAdTag=tconf.ted/embed;tile=1;sz=512x288;" pluginspace="http://www.macromedia.com/go/getflashplayer" allowfullscreen="true" allowscriptaccess="always" /> </object></p>
<p><strong>5. Thay lời kết</strong></p>
<p>Nguồn cảm hứng cho bác sĩ Hans Berger nghiên cứu sóng não con người là từ một sự trùng hợp. Năm 1893 ông gia nhập đội kỵ binh, bị ngã ngựa tưởng chết trong một lần tập dù không bị thương tích gì nặng. Cùng ngày hôm đó, chị ông có linh tính chẳng lành và đòi cha ông liên lạc với ông hỏi han tình hình. Từ sự kiện này Hans Berger tin vào khả năng thần giao cách cảm. </p>
<p>Tuy nhiên, thay vì biến sự kỳ bí thành một niềm tin huyền bí siêu nhiên để thờ phụng, ông đã quyết tâm tìm ra cơ chế hoạt động của “thần giao cách cảm”. “Sóng não” là một khởi đầu hữu lý, phần còn lại là lịch sử. </p>
<p>Chọn lựa của ông thấm nhuần tư duy khoa học và tinh thần Khai Sáng. </p>
<p>Đầu thế kỷ 17, René Descartes có tuyên ngôn triết học rằng: “tôi nghĩ, nên tôi tồn tại!” Đầu thế kỷ 21, khẩu hiệu của công ty Emotiv là “bạn nghĩ, nên bạn có thể!”</p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/09/14/cong-ngh%e1%bb%87-th%e1%ba%a7n-giao-cach-c%e1%ba%a3m/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>HM6 &#8212; Độ phức tạp Rademacher</title>
		<link>http://www.procul.org/blog/2011/03/15/hm6-d%e1%bb%99-ph%e1%bb%a9c-t%e1%ba%a1p-rademacher/</link>
		<comments>http://www.procul.org/blog/2011/03/15/hm6-d%e1%bb%99-ph%e1%bb%a9c-t%e1%ba%a1p-rademacher/#comments</comments>
		<pubDate>Tue, 15 Mar 2011 04:19:50 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[Bất đẳng thức McDiarmid]]></category>
		<category><![CDATA[Bổ đề Massart]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[Rademacher]]></category>
		<category><![CDATA[VC-dimension]]></category>
		<category><![CDATA[xác suất]]></category>
		<category><![CDATA[Định lý Koltchinskii-Panchenko]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3096</guid>
		<description><![CDATA[HM5: Mô hình giả thuyết không nhất quán và định lý hội tụ đều Vapnik-Chervonenkis HM7: AdaBoost Trong bài HM 5, ta đã giới thiệu mô hình giả thuyết không nhất quán và chứng minh định lý hội tụ đều của Vapnik và Chervonenkis. Đây là một trong những định lý cơ bản nhất của [...]]]></description>
			<content:encoded><![CDATA[
<p><ul>
<li> <a href="http://www.procul.org/blog/2010/08/30/hm5-d&#37;e1&#37;bb&#37;8bnh-ly-vapnik-chervonenkis-cho-mo-hinh-gi&#37;e1&#37;ba&#37;a3-thuy&#37;e1&#37;ba&#37;bft-khong-nh&#37;e1&#37;ba&#37;a5t/">HM5</a>: Mô hình giả thuyết không nhất quán và định lý hội tụ đều Vapnik-Chervonenkis
<li> HM7: AdaBoost
</ul>
<p>
Trong bài HM 5, ta đã giới thiệu mô hình giả thuyết không nhất quán và chứng minh định lý hội tụ đều của Vapnik và Chervonenkis. Đây là một trong những định lý cơ bản nhất của lý thuyết học máy thống kê. Ta gọi tắt nó là <em>định lý VC</em>. Định lý VC chặn trên lỗi tổng quát hóa bằng lỗi thực nghiệm và độ phức tạp VC (hay VC dimension) của lớp giả thuyết. Trong bài này, ta chứng minh một kết quả tổng quát hơn định lý VC. Ta sẽ chặn trên lỗi tổng quát hóa bằng lỗi thực nghiệm và cái gọi là <em>độ phức tạp Rademacher</em>. Định lý VC là một hệ quả trực tiếp của chặn trên dùng độ phức tạp Rademacher này. Chứng minh kết quả này cũng trực quan hơn rất nhiều so với chứng minh định lý VC trong bài trước. Bạn có thể quên luôn chứng minh của bài trước đi. Ngoài ra, ta sẽ dùng kết quả của bài này để phân tích thuật toán AdaBoost thảo luận trong bài tới. Phần lớn bài này viết theo <a href="http://www.cs.nyu.edu/~mohri/ml10/">bài giảng số 3</a> của Mehryar Mohri ở NYU. </p>
<p>
<p><b> 1. Độ phức tạp Rademacher </b> </p>
<p><p>
Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là một họ các hàm từ một miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> nào đó vào đoạn <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ba%2Cb%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[a,b]}' title='{[a,b]}' class='latex' />. Trong các ứng dụng thì <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%20%3D%20%5COmega%20%5Ctimes%20%5C%7B0%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z = \Omega \times \{0,1\}}' title='{\mathcal Z = \Omega \times \{0,1\}}' class='latex' /> hay <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%20%3D%20%5COmega%20%5Ctimes%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z = \Omega \times \{-1,1\}}' title='{\mathcal Z = \Omega \times \{-1,1\}}' class='latex' />. Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> là một phân bố xác suất trên miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' />. Phân bố này sẽ được hiểu ngầm trong các phát biểu xác suất dưới đây, để tránh ký hiệu lằng nhằng quá.</p>
<p>
Gọi <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> là một tập <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> phần tử bất kỳ của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' />. <em>Độ phức tạp Rademacher thực nghiệm</em> (của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' />, tính tương đối theo <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' />) được định nghĩa là
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%3D%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ig%28z_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%20%5Cdots%2C%20z_m%29%20%5Cright%5D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \hat{\mathcal R}_S(\mathcal G) = \mathop{\mathbf E}_\sigma \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_ig(z_i) \ | \ S = (z_1, \dots, z_m) \right] ' title='\displaystyle  \hat{\mathcal R}_S(\mathcal G) = \mathop{\mathbf E}_\sigma \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_ig(z_i) \ | \ S = (z_1, \dots, z_m) \right] ' class='latex' /></p>
<p> Trong đó, <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma%20%3D%20%28%5Csigma_1%2C%5Cdots%2C%20%5Csigma_m%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma = (\sigma_1,\dots, \sigma_m)}' title='{\sigma = (\sigma_1,\dots, \sigma_m)}' class='latex' /> là một vector của các biến Rademacher: <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%20%3D%20%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i = \pm 1}' title='{\sigma_i = \pm 1}' class='latex' /> với xác suất <img src='http://s.wordpress.com/latex.php?latex=%7B1%2F2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/2}' title='{1/2}' class='latex' />.</p>
<p>
<span id="more-3096"></span><br />
Nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là họ các hàm phân loại (classifiers), mỗi hàm lấy giá trị <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\pm 1}' title='{\pm 1}' class='latex' />, thì độ phức tạp Rademacher thực nghiệm có thể hiểu nôm na như sau. Ta gán giá trị <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\pm 1}' title='{\pm 1}' class='latex' /> ngẫu nhiên vào <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> điểm của <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' />. Rồi tính trung bình xem cái hàm phân loại tốt nhất của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> phân loại đúng được bao nhiêu. Ví dụ, nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là một tập các hàm rất hùng mạnh, với bất kỳ cách gán <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\pm 1}' title='{\pm 1}' class='latex' /> nào vào <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> cũng tồn tại hàm <img src='http://s.wordpress.com/latex.php?latex=%7Bg%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g}' title='{g}' class='latex' /> gán nhãn chính xác, thì độ phức tạp Rademacher bằng <img src='http://s.wordpress.com/latex.php?latex=%7B1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1}' title='{1}' class='latex' />. Ta chia độ phức tạp cho <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> là để &#8220;bình thường hóa&#8221; số đo này cho nó không phụ thuộc vào số mẫu. </p>
<p>
<em>Độ phức tạp Rademacher</em> của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là trị kỳ vọng của độ phức tạp Rademacher thực nghiệm:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathcal%20R_m%28%5Cmathcal%20G%29%20%3D%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%20%5Csim%20%5Cmathcal%20D%5Em%7D%20%5Cleft%5B%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%5Cright%5D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathcal R_m(\mathcal G) = \mathop{\mathbf E}_{S \sim \mathcal D^m} \left[ \hat{\mathcal R}_S(\mathcal G) \right]. ' title='\displaystyle  \mathcal R_m(\mathcal G) = \mathop{\mathbf E}_{S \sim \mathcal D^m} \left[ \hat{\mathcal R}_S(\mathcal G) \right]. ' class='latex' /></p>
<p>
Quan sát đầu tiên của ta liên hệ độ phức tạp Rademacher của một bộ hàm phân loại và bộ hàm mất mát (loss functions) tương ứng. Cụ thể hơn, gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một bộ các hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5COmega%20%5Crightarrow%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Omega \rightarrow \{-1,1\}}' title='{\Omega \rightarrow \{-1,1\}}' class='latex' />. Mỗi hàm của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một hàm phân loại nhị phân. Từ giờ trở đi ta dùng các nhãn <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{-1,1\}}' title='{\{-1,1\}}' class='latex' /> thay vì nhãn <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B0%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{0,1\}}' title='{\{0,1\}}' class='latex' /> cho tiện về mặt toán học. Đặt <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%20%3D%20%5COmega%20%5Ctimes%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z = \Omega \times \{-1,1\}}' title='{\mathcal Z = \Omega \times \{-1,1\}}' class='latex' />. Như vậy các phần tử <img src='http://s.wordpress.com/latex.php?latex=%7Bz%20%5Cin%20%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z \in \mathcal Z}' title='{z \in \mathcal Z}' class='latex' /> có dạng <img src='http://s.wordpress.com/latex.php?latex=%7Bz%20%3D%20%28%5Cmathbf%20x%2C%20y%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z = (\mathbf x, y)}' title='{z = (\mathbf x, y)}' class='latex' /> với <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathbf%20x%20%5Cin%20%5COmega%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathbf x \in \Omega}' title='{\mathbf x \in \Omega}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7By%20%5Cin%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{y \in \{-1,1\}}' title='{y \in \{-1,1\}}' class='latex' />. Xét một phân bố <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> trên <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> tùy hỉ. Định nghĩa một họ hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> từ <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5B0%2C1%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[0,1]}' title='{[0,1]}' class='latex' /> như sau. Với mỗi <img src='http://s.wordpress.com/latex.php?latex=%7Bh%20%5Cin%20%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h \in \mathcal H}' title='{h \in \mathcal H}' class='latex' />, định nghĩa <img src='http://s.wordpress.com/latex.php?latex=%7Bg%28%5Cmathbf%20x%2C%20y%29%20%3D%20%5Cmathbf%201_%7Bh%28%5Cmathbf%20x%29%20%5Cneq%20y%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g(\mathbf x, y) = \mathbf 1_{h(\mathbf x) \neq y}}' title='{g(\mathbf x, y) = \mathbf 1_{h(\mathbf x) \neq y}}' class='latex' />. </p>
<blockquote><p><b>Bổ đề 1</b> <em> Ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cwidehat%7B%5Ctextnormal%7Berr%7D%7D_S%28h%29%20%26%3D%26%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%20%5C%5C%20%5Ctextnormal%7Berr%7D%28h%29%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%5C%5C%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%26%3D%26%20%5Cfrac%201%202%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%5C%5C%20%5Cmathcal%20R_m%28%5Cmathcal%20G%29%20%26%3D%26%20%5Cfrac%201%202%20%5Cmathcal%20R_m%28%5Cmathcal%20H%29.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \widehat{\textnormal{err}}_S(h) &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i) \\ \textnormal{err}(h) &amp;=&amp; \mathop{\mathbf E}[g(z)]\\ \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H)\\ \mathcal R_m(\mathcal G) &amp;=&amp; \frac 1 2 \mathcal R_m(\mathcal H). \end{array} ' title='\displaystyle  \begin{array}{rcl}  \widehat{\textnormal{err}}_S(h) &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i) \\ \textnormal{err}(h) &amp;=&amp; \mathop{\mathbf E}[g(z)]\\ \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H)\\ \mathcal R_m(\mathcal G) &amp;=&amp; \frac 1 2 \mathcal R_m(\mathcal H). \end{array} ' class='latex' /></p>
<p> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Hai đẳng thức đầu tiên là định nghĩa. Đẳng thức thứ tư là hệ quả trực tiếp của đẳng thức thứ ba. Ta chứng minh đẳng thức thứ ba.
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%5Cmathbf%201_%7Bh%28%5Cmathbf%20x_i%29%20%5Cneq%20y_i%7D%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Cfrac%201%202%20%5Csigma_i%281-h%28%5Cmathbf%20x_i%29%20y_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cfrac%201%202%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%2B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%28-%5Csigma_iy_i%29h%28%5Cmathbf%20x_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cfrac%201%202%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ih%28%5Cmathbf%20x_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cfrac%201%202%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_i\mathbf 1_{h(\mathbf x_i) \neq y_i} \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \frac 1 2 \sigma_i(1-h(\mathbf x_i) y_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sum_{i=1}^m \sigma_i + \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m (-\sigma_iy_i)h(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_ih(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H) \end{array} ' title='\displaystyle  \begin{array}{rcl}  \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_i\mathbf 1_{h(\mathbf x_i) \neq y_i} \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \frac 1 2 \sigma_i(1-h(\mathbf x_i) y_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sum_{i=1}^m \sigma_i + \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m (-\sigma_iy_i)h(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_ih(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H) \end{array} ' class='latex' /></p>
<p> Đẳng thức thứ tư ta dùng quan sát đơn giản là <img src='http://s.wordpress.com/latex.php?latex=%7B%28-%5Csigma_iy_i%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(-\sigma_iy_i)}' title='{(-\sigma_iy_i)}' class='latex' /> có phân bố giống hệt <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i}' title='{\sigma_i}' class='latex' /> và các <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i}' title='{\sigma_i}' class='latex' /> độc lập nhau. <img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' /></p>
<p>
Độ phức tạp Rademacher liên quan đến VC-dimension như thế nào? <a href="http://afst.cedram.org/item?id=AFST_2000_6_9_2_245_0">Massart hồi 2000</a> cho ta câu trả lời. Ta sẽ chứng minh bổ đề sau ở cuối bài, sau khi đã làm quen hơn với độ phức tạp Rademacher. </p>
<blockquote><p><b>Bổ đề 2</b> <em> Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một bộ các hàm số vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{-1,1\}}' title='{\{-1,1\}}' class='latex' />. Với <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> là một tập <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> mẫu bất kỳ, ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%5Cleq%20%5Csqrt%7B%5Cfrac%7B2%5Clog%20%5CPi_%7B%5Cmathcal%20H%7D%28S%29%7D%7Bm%7D%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \hat{\mathcal R}_S(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(S)}{m}}. ' title='\displaystyle  \hat{\mathcal R}_S(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(S)}{m}}. ' class='latex' /></p>
<p> Và do đó,
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%7B%5Cmathcal%20R%7D_m%28%5Cmathcal%20H%29%20%5Cleq%20%5Csqrt%7B%5Cfrac%7B2%5Clog%20%5CPi_%7B%5Cmathcal%20H%7D%28m%29%7D%7Bm%7D%7D%20%5Cleq%20%5Csqrt%7B%5Cfrac%7B2d%5Clog%28me%2Fd%29%7D%7Bm%7D%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  {\mathcal R}_m(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(m)}{m}} \leq \sqrt{\frac{2d\log(me/d)}{m}}. ' title='\displaystyle  {\mathcal R}_m(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(m)}{m}} \leq \sqrt{\frac{2d\log(me/d)}{m}}. ' class='latex' /></p>
<p> Trong đó <img src='http://s.wordpress.com/latex.php?latex=%7Bd%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d}' title='{d}' class='latex' /> là VC-dimension của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' />. </em></p></blockquote>
<p><p>
Dùng cái gọi là <em>độ phức tạp Gaussian</em>, <a href="http://portal.acm.org/citation.cfm?id=944944">Bartlett và Mendelson</a> chứng minh một chặn khác chặt hơn nữa: <img src='http://s.wordpress.com/latex.php?latex=%7B%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%3D%20O%28%5Csqrt%7Bd%2Fn%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\hat{\mathcal R}_S(\mathcal H) = O(\sqrt{d/n})}' title='{\hat{\mathcal R}_S(\mathcal H) = O(\sqrt{d/n})}' class='latex' />, và vì thế <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20R_m%28%5Cmathcal%20H%29%20%3D%20O%28%5Csqrt%7Bd%2Fn%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal R_m(\mathcal H) = O(\sqrt{d/n})}' title='{\mathcal R_m(\mathcal H) = O(\sqrt{d/n})}' class='latex' />. Ta sẽ quay lại với Gaussian complexity vào dịp khác. </p>
<p>
<p><b> 2. Các chặn cho độ phức tạp Rademacher </b> </p>
<p><p>
Kết quả chính của đề mục này là từ một <a href="http://projecteuclid.org/DPubS?service=UI&#038;version=1.0&#038;verb=Display&#038;handle=euclid.aos/1015362183">bài báo của Koltchinskii và Panchenko</a> hồi năm 2002. Các bác cựu Liên Xô ngố rất giỏi mấy trò này. Dùng Liên Xô ngố chứ không phải Nga ngố là vì <a href="http://www.math.unm.edu/research/faculty_hp.php?d_id=46">bác Vladimir Koltchinskii</a> tốt nghiệp đại học Kiev. Còn <a href="http://www.math.tamu.edu/department_review/deptselfstudy/panchenko.html">Dmitry Panchenko</a> là học trò của Koltchinskii.</p>
<p>
Để chứng minh kết quả chính này ta cần <a href="http://www.cs.nyu.edu/~rostami/ml/2007/ashish-mcdiarmid.pdf">bất đẳng thức McDiarmid</a> của <a href="http://www.stats.ox.ac.uk/people/academic_staff/colin_mcdiarmid">Colin McDiarmid</a>. BĐT này khá dễ nhớ và dễ dùng. </p>
<blockquote><p><b>Định lý 3 (BĐT McDiarmid)</b> <em> Xét <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> biến ngẫu nhiên độc lập <img src='http://s.wordpress.com/latex.php?latex=%7BX_1%2C%20%5Cdots%2C%20X_m%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X_1, \dots, X_m}' title='{X_1, \dots, X_m}' class='latex' /> trên một miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20X%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal X}' title='{\mathcal X}' class='latex' /> nào đó, và một hàm số <img src='http://s.wordpress.com/latex.php?latex=%7Bf%3A%20%5Cmathcal%20X%5Em%20%5Crightarrow%20%5Cmathbb%20R%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f: \mathcal X^m \rightarrow \mathbb R}' title='{f: \mathcal X^m \rightarrow \mathbb R}' class='latex' />. Hàm số <img src='http://s.wordpress.com/latex.php?latex=%7Bf%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f}' title='{f}' class='latex' /> thỏa điều kiện là thay đổi tọa độ thứ <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' /> thì chỉ thay đổi giá trị của <img src='http://s.wordpress.com/latex.php?latex=%7Bf%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f}' title='{f}' class='latex' /> nhiều nhất là <img src='http://s.wordpress.com/latex.php?latex=%7Bc_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{c_i}' title='{c_i}' class='latex' />. Cụ thể hơn, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' />, <img src='http://s.wordpress.com/latex.php?latex=%7Bx_1%2C%5Cdots%2C%20x_m%2C%20x%27_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{x_1,\dots, x_m, x&#039;_i}' title='{x_1,\dots, x_m, x&#039;_i}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%7Cf%28x_1%2C%5Cdots%2Cx_%7Bi-1%7D%2Cx_i%2Cx_%7Bi%2B1%7D%2C%5Cdots%2C%20x_m%29%20-%20f%28x_1%2C%5Cdots%2Cx_%7Bi-1%7D%2Cx%27_i%2Cx_%7Bi%2B1%7D%2C%5Cdots%2C%20x_m%29%7C%20%5Cleq%20c_i.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  |f(x_1,\dots,x_{i-1},x_i,x_{i+1},\dots, x_m) - f(x_1,\dots,x_{i-1},x&#039;_i,x_{i+1},\dots, x_m)| \leq c_i. ' title='\displaystyle  |f(x_1,\dots,x_{i-1},x_i,x_{i+1},\dots, x_m) - f(x_1,\dots,x_{i-1},x&#039;_i,x_{i+1},\dots, x_m)| \leq c_i. ' class='latex' /></p>
<p> Thì với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cepsilon%20%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\epsilon &gt;0}' title='{\epsilon &gt;0}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5B%20f%20-%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bf%5D%20%5Cgeq%20%5Cepsilon%20%5D%20%5Cleq%20%5Cexp%5Cleft%28%5Cfrac%7B-2%5Cepsilon%5E2%7D%7B%5Csum_%7Bi%3D1%7D%5Emc_i%5E2%7D%5Cright%29%2C%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \geq \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right), ' title='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \geq \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right), ' class='latex' /></p>
<p> và
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5B%20f%20-%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bf%5D%20%5Cleq%20-%20%5Cepsilon%20%5D%20%5Cleq%20%5Cexp%5Cleft%28%5Cfrac%7B-2%5Cepsilon%5E2%7D%7B%5Csum_%7Bi%3D1%7D%5Emc_i%5E2%7D%5Cright%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \leq - \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right). ' title='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \leq - \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right). ' class='latex' /></p>
<p> </em></p></blockquote>
<p>
<blockquote><p><b>Định lý 4 (Koltchinskii-Panchenko)</b> <em> Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là một bộ các hàm từ miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5B0%2C1%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[0,1]}' title='{[0,1]}' class='latex' />. Với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cdelta%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\delta&gt;0}' title='{\delta&gt;0}' class='latex' />, với xác suất ít nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' /> bất đẳng thức sau đây đúng <em>với mọi</em> <img src='http://s.wordpress.com/latex.php?latex=%7Bg%20%5Cin%20%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g \in \mathcal G}' title='{g \in \mathcal G}' class='latex' />, <a name="eqnrad-bound-1">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%20%5Cleq%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%20%2B%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%281%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}.  \ \ \ \ \ (1)' title='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}.  \ \ \ \ \ (1)' class='latex' /></p>
<p></a> Với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cdelta%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\delta&gt;0}' title='{\delta&gt;0}' class='latex' />, với xác suất ít nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' /> bất đẳng thức sau đây đúng <em>với mọi</em> <img src='http://s.wordpress.com/latex.php?latex=%7Bg%20%5Cin%20%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g \in \mathcal G}' title='{g \in \mathcal G}' class='latex' />, <a name="eqnrad-bound-2">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%20%5Cleq%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%20%2B%202%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%2B%203%20%5Csqrt%7B%5Cfrac%7B%5Clog%5Cfrac%202%20%5Cdelta%7D%7B2m%7D%7D.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%282%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\hat{\mathcal R}_S(\mathcal G) + 3 \sqrt{\frac{\log\frac 2 \delta}{2m}}.  \ \ \ \ \ (2)' title='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\hat{\mathcal R}_S(\mathcal G) + 3 \sqrt{\frac{\log\frac 2 \delta}{2m}}.  \ \ \ \ \ (2)' class='latex' /></p>
<p></a> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Để đơn giản hóa ký hiệu, ta định nghĩa
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%20%5C%5C%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%26%3D%26%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%5C%5C%20%5CPhi%28S%29%20%26%3D%26%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}[g] &amp;=&amp; \mathop{\mathbf E}[g(z)] \\ \widehat{\mathop{\mathbf E}}_S[g] &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i)\\ \Phi(S) &amp;=&amp; \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g]. \end{array} ' title='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}[g] &amp;=&amp; \mathop{\mathbf E}[g(z)] \\ \widehat{\mathop{\mathbf E}}_S[g] &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i)\\ \Phi(S) &amp;=&amp; \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g]. \end{array} ' class='latex' /></p>
<p> Để chứng minh <a href="#eqnrad-bound-1">(1)</a>, ta cần chứng minh rằng <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPhi%28S%29%20%5Cleq%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Phi(S) \leq 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}}' title='{\Phi(S) \leq 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}}' class='latex' /> với xác suất cao. Để chứng minh điều này thì ta chứng minh <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%5CPhi%28S%29%5D%20%5Cleq%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' title='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' class='latex' />, sau đó áp dụng bất đẳng thức McDiarmid vào hàm số <img src='http://s.wordpress.com/latex.php?latex=%7Bf%20%3D%20%5CPhi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f = \Phi}' title='{f = \Phi}' class='latex' />. Nói chung, chìa khóa của toàn bộ định lý là chứng minh quan hệ <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%5CPhi%28S%29%5D%20%5Cleq%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' title='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' class='latex' /> bằng kỹ thuật &#8220;đối xứng hóa&#8221;.</p>
<p>
Lưu ý rằng <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20%3D%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%7D%5Cleft%5B%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_%7BS%27%7D%5Bg%5D%20%5Cright%5D.%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}[g] = \mathop{\mathbf E}_{S&#039;}\left[ \widehat{\mathop{\mathbf E}}_{S&#039;}[g] \right].}' title='{\mathop{\mathbf E}[g] = \mathop{\mathbf E}_{S&#039;}\left[ \widehat{\mathop{\mathbf E}}_{S&#039;}[g] \right].}' class='latex' /> Ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%5CPhi%28S%29%5D%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_S%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_S%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%7D%20%5Cleft%5B%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_%7BS%27%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%5Cright%5D%20%5Cright%5D%5C%5C%20%5Ctext%7B%28Jensen%29%7D%20%26%5Cleq%20%26%20%5Cmathop%7B%5Cmathbf%20E%7D_S%20%5Cleft%5B%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_%7BS%27%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%5Cright%5D%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%28g%28z%27_i%29%20-%20g%28z_i%29%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%2CS%27%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%28g%28z%27_i%29%20-%20g%28z_i%29%29%20%5Cright%5D%5C%5C%20%26%5Cleq%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20g%28z%27_i%29%20%5Cright%5D%2B%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20-%5Csigma_i%20g%28z_i%29%20%5Cright%5D%5C%5C%20%26%3D%26%202%20%5Cmathcal%20R_m%28%5Cmathcal%20G%29.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}_S[\Phi(S)] &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right]\\ &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}_{S&#039;} \left[\widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ \text{(Jensen)} &amp;\leq &amp; \mathop{\mathbf E}_S \left[ \mathop{\mathbf E}_{S&#039;} \left[ \sup_{g \in \mathcal G} \widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m (g(z&#039;_i) - g(z_i)) \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i(g(z&#039;_i) - g(z_i)) \right]\\ &amp;\leq&amp; \mathop{\mathbf E}_{S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i g(z&#039;_i) \right]+ \mathop{\mathbf E}_{S,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m -\sigma_i g(z_i) \right]\\ &amp;=&amp; 2 \mathcal R_m(\mathcal G). \end{array} ' title='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}_S[\Phi(S)] &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right]\\ &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}_{S&#039;} \left[\widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ \text{(Jensen)} &amp;\leq &amp; \mathop{\mathbf E}_S \left[ \mathop{\mathbf E}_{S&#039;} \left[ \sup_{g \in \mathcal G} \widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m (g(z&#039;_i) - g(z_i)) \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i(g(z&#039;_i) - g(z_i)) \right]\\ &amp;\leq&amp; \mathop{\mathbf E}_{S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i g(z&#039;_i) \right]+ \mathop{\mathbf E}_{S,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m -\sigma_i g(z_i) \right]\\ &amp;=&amp; 2 \mathcal R_m(\mathcal G). \end{array} ' class='latex' /></p>
<p> Đẳng thức ở dòng thứ <img src='http://s.wordpress.com/latex.php?latex=%7B5%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{5}' title='{5}' class='latex' /> là một dạng &#8220;đối xứng hóa&#8221; (symmetrization) đơn giản: sau khi lấy các mẫu <img src='http://s.wordpress.com/latex.php?latex=%7Bz%27_i%2C%20z_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z&#039;_i, z_i}' title='{z&#039;_i, z_i}' class='latex' /> ta có thể hoán chuyển <img src='http://s.wordpress.com/latex.php?latex=%7Bz%27_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z&#039;_i}' title='{z&#039;_i}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7Bz_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z_i}' title='{z_i}' class='latex' /> từ <img src='http://s.wordpress.com/latex.php?latex=%7BS%27%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S&#039;}' title='{S&#039;}' class='latex' /> sang <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> và ngược lại. Do <img src='http://s.wordpress.com/latex.php?latex=%7BS%27%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S&#039;}' title='{S&#039;}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> là các mẫu độc lập, sự hoán chuyển này không thay đổi phân bố của chúng. </p>
<p>
Bây giờ ta áp dụng bất đẳng thức McDiarmid vào hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPhi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Phi}' title='{\Phi}' class='latex' />. Khi thay một điểm <img src='http://s.wordpress.com/latex.php?latex=%7Bz_i%20%5Cin%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z_i \in S}' title='{z_i \in S}' class='latex' /> bằng <img src='http://s.wordpress.com/latex.php?latex=%7Bz%27_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z&#039;_i}' title='{z&#039;_i}' class='latex' /> nào đó, giá trị của hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPhi%28S%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Phi(S)}' title='{\Phi(S)}' class='latex' /> thay đổi nhiều nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1%2Fm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/m}' title='{1/m}' class='latex' />. Do đó, từ bất đẳng thức McDiarmid ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5CPhi%28S%29%20%5Cleq%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%7D%5B%5CPhi%28S%29%5D%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 1 \delta}{2m}} ' title='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 1 \delta}{2m}} ' class='latex' /></p>
<p> với xác suất ít nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' />. Đó là chứng minh <a href="#eqnrad-bound-1">(1)</a>.</p>
<p>
Để chứng minh <a href="#eqnrad-bound-2">(2)</a> thì ta lại áp dụng McDiarmid một lần nữa. Lần này là với hàm số <img src='http://s.wordpress.com/latex.php?latex=%7B%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\hat{\mathcal R}_S(\mathcal G)}' title='{\hat{\mathcal R}_S(\mathcal G)}' class='latex' />. Trước hết, McDiarmid như lần 1 cho ta <a name="eqntemp1">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5CPhi%28S%29%20%5Cleq%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%7D%5B%5CPhi%28S%29%5D%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%202%20%5Cdelta%7D%7B2m%7D%7D%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%283%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 2 \delta}{2m}}  \ \ \ \ \ (3)' title='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 2 \delta}{2m}}  \ \ \ \ \ (3)' class='latex' /></p>
<p></a> với xác suất ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%2F2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta/2}' title='{1-\delta/2}' class='latex' />. Rồi từ bất đẳng thức vừa chứng minh, ta có <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%7D%5B%5CPhi%28S%29%5D%20%5Cleq%202%7B%5Cmathcal%20R%7D_m%28%5Cmathcal%20G%29%20%3D%202%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}_{S}[\Phi(S)] \leq 2{\mathcal R}_m(\mathcal G) = 2\mathop{\mathbf E}_S[ \hat{\mathcal R}_S(\mathcal G) ]}' title='{\mathop{\mathbf E}_{S}[\Phi(S)] \leq 2{\mathcal R}_m(\mathcal G) = 2\mathop{\mathbf E}_S[ \hat{\mathcal R}_S(\mathcal G) ]}' class='latex' />. Khi thay <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> chỉ một mẫu thì <img src='http://s.wordpress.com/latex.php?latex=%7B%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\hat{\mathcal R}_S(\mathcal G)}' title='{\hat{\mathcal R}_S(\mathcal G)}' class='latex' /> thay đổi nhiều nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1%2Fm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/m}' title='{1/m}' class='latex' />. Do đó, với xác suất ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%2F2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta/2}' title='{1-\delta/2}' class='latex' /> ta có <a name="eqntemp2">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Chat%7B%5Cmathcal%20R%7D_m%28%5Cmathcal%20G%29%20%5Cleq%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%202%20%5Cdelta%7D%7B2m%7D%7D.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%284%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \hat{\mathcal R}_m(\mathcal G) \leq \hat{\mathcal R}_S(\mathcal G) + \sqrt{\frac{\log \frac 2 \delta}{2m}}.  \ \ \ \ \ (4)' title='\displaystyle  \hat{\mathcal R}_m(\mathcal G) \leq \hat{\mathcal R}_S(\mathcal G) + \sqrt{\frac{\log \frac 2 \delta}{2m}}.  \ \ \ \ \ (4)' class='latex' /></p>
<p></a> Từ <a href="#eqntemp1">(3)</a> và <a href="#eqntemp2">(4)</a> ta có <a href="#eqnrad-bound-2">(2)</a>. <img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' /></p>
<p>
<p><b> 3. Một số hệ quả của chặn độ phức tạp Rademacher </b> </p>
<p><p>
Từ Bổ đề 1 và Định lý 4, ta có hệ quả sau đây.</p>
<blockquote><p><b>Hệ quả  5</b> <em> Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một họ các hàm phân lớp từ <img src='http://s.wordpress.com/latex.php?latex=%7B%5COmega%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Omega}' title='{\Omega}' class='latex' /> vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{-1,1\}}' title='{\{-1,1\}}' class='latex' />. Thì với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cdelta%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\delta&gt;0}' title='{\delta&gt;0}' class='latex' />, với xác suất ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Ctext%7Berr%7D%28h%29%20%26%5Cleq%26%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%20%2B%20%5Cmathcal%7BR%7D_m%28%5Cmathcal%20H%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D%5C%5C%20%5Ctext%7Berr%7D%28h%29%20%26%5Cleq%26%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%20%2B%20%5Cwidehat%7B%20%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%2B%203%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \mathcal{R}_m(\mathcal H) + \sqrt{\frac{\log \frac 1 \delta}{2m}}\\ \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \widehat{ \mathcal R}_S(\mathcal H) + 3 \sqrt{\frac{\log \frac 1 \delta}{2m}}. \end{array} ' title='\displaystyle  \begin{array}{rcl}  \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \mathcal{R}_m(\mathcal H) + \sqrt{\frac{\log \frac 1 \delta}{2m}}\\ \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \widehat{ \mathcal R}_S(\mathcal H) + 3 \sqrt{\frac{\log \frac 1 \delta}{2m}}. \end{array} ' class='latex' /></p>
<p> </em></p></blockquote>
<p> Chặn thứ 2 chỉ phụ thuộc vào dữ liệu, do đó có khả năng hữu dụng trong việc chọn mô hình phân lớp, giúp giải quyết vấn đề <a href="http://en.wikipedia.org/wiki/Model_selection">model selection</a>. Vấn đề là làm thế nào để tính độ phức tạp Rademacher một cách hiệu quả, chưa nói đến việc chọn một hàm <img src='http://s.wordpress.com/latex.php?latex=%7Bh%5Cin%20%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h\in \mathcal H}' title='{h\in \mathcal H}' class='latex' /> với <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csum_i%20%5Csigma_ih%28%5Cmathbf%20x_i%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sum_i \sigma_ih(\mathbf x_i)}' title='{\sum_i \sigma_ih(\mathbf x_i)}' class='latex' /> lớn nhất. Bài này khó tương đương với bài toán tối thiểu hóa lỗi thực nghiệm (ERM), và nói chung là <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathbf%7BNP%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathbf{NP}}' title='{\mathbf{NP}}' class='latex' />-khó. Câu hỏi tự nhiên là, có một &#8220;độ phức tạp&#8221; nào hữu dụng và dễ tính hơn không?</p>
<p>
Từ hệ quả trên và Bổ đề 2 ta có định lý VC. Vậy ta chứnh minh bổ đề 2. Nhưng ta sẽ chứng minh một bổ đề còn tổng quát hơn Bổ đề 2, gọi là Bổ đề Massart. Mấy cái mẹo dùng trong chứng minh bổ đề Massart rất phổ dụng trong các chứng minh hiện tượng tập trung (concentration inequalities).</p>
<blockquote><p><b>Bổ đề 6 (Bổ đề Massart)</b> <em> Xét một tập con hữu hạn <img src='http://s.wordpress.com/latex.php?latex=%7BA%20%5Csubset%20%5Cmathbb%20R%5Em%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{A \subset \mathbb R^m}' title='{A \subset \mathbb R^m}' class='latex' />, với <img src='http://s.wordpress.com/latex.php?latex=%7BL%20%3D%20%5Cmax_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5C%7C%5Cmathbf%20x%20%5C%7C_2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{L = \max_{\mathbf x \in A} \|\mathbf x \|_2}' title='{L = \max_{\mathbf x \in A} \|\mathbf x \|_2}' class='latex' />. Ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Cfrac%201%20m%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cleq%20%5Cfrac%7BL%5Csqrt%7B2%5Clog%7CA%7C%7D%7D%7Bm%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{L\sqrt{2\log|A|}}{m}. ' title='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{L\sqrt{2\log|A|}}{m}. ' class='latex' /></p>
<p> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Ta dùng cái mẹo Bernstein, còn gọi là phương pháp mô-măng mũ (exponential moment method). Do hàm mũ là hàm lồi, bất đẳng thức Jensen suy ra, với <img src='http://s.wordpress.com/latex.php?latex=%7Bt%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t&gt;0}' title='{t&gt;0}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cexp%5Cleft%28%20t%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cright%29%20%26%5Cleq%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cexp%5Cleft%28%20t%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%5C%5C%20%26%5Cleq%26%20%5Csum_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Csum_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cprod_%7Bi%3D1%7D%5Em%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) &amp;\leq&amp; \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma \left[ \sup_{\mathbf x \in A} \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;\leq&amp; \sum_{\mathbf x \in A} \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \sum_{\mathbf x \in A} \prod_{i=1}^m \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \end{array} ' title='\displaystyle  \begin{array}{rcl}  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) &amp;\leq&amp; \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma \left[ \sup_{\mathbf x \in A} \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;\leq&amp; \sum_{\mathbf x \in A} \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \sum_{\mathbf x \in A} \prod_{i=1}^m \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \end{array} ' class='latex' /></p>
<p> Đến đây, ta dùng một bất đẳng thức tạm gọi là <em>bất đẳng thức Hoeffding nhỏ</em>, thường dùng làm bước chính trong chứng minh <a href="http://en.wikipedia.org/wiki/Hoeffding's_inequality">BĐT Hoeffding</a> (lớn). BĐT Hoeffding nhỏ phát biểu như sau: nếu <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' /> là một biến ngẫu nhiên với <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D%5BX%5D%3D0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}[X]=0}' title='{\mathop{\mathbf E}[X]=0}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7BX%5Cin%20%5Ba%2Cb%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X\in [a,b]}' title='{X\in [a,b]}' class='latex' /> thì, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7Bs%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{s&gt;0}' title='{s&gt;0}' class='latex' /> ta có <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D%5B%5Cexp%28sX%29%5D%20%5Cleq%20%5Cexp%28s%5E2%28b-a%29%5E2%2F8%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}[\exp(sX)] \leq \exp(s^2(b-a)^2/8)}' title='{\mathop{\mathbf E}[\exp(sX)] \leq \exp(s^2(b-a)^2/8)}' class='latex' />. Chứng minh BĐT này rất đơn giản. (Xem <a href="http://www.cs.berkeley.edu/~bartlett/courses/281b-sp08/13.pdf">ở đây</a> chẳng hạn.) Từ BĐT Hoeffding nhỏ ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%20%5Cleq%20%5Cexp%28t%5E2%282x_i%29%5E2%2F8%29%20%3D%20%5Cexp%28t%5E2x_i%5E2%2F2%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \leq \exp(t^2(2x_i)^2/8) = \exp(t^2x_i^2/2). ' title='\displaystyle  \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \leq \exp(t^2(2x_i)^2/8) = \exp(t^2x_i^2/2). ' class='latex' /></p>
<p> Như vậy,
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cexp%5Cleft%28%20t%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cright%29%20%5Cleq%20%5Csum_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cprod_%7Bi%3D1%7D%5Em%20%5Cexp%28t%5E2x_i%5E2%2F2%29%20%5Cleq%20%7CA%7C%20%5Cexp%28t%5E2L%5E2%2F2%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) \leq \sum_{\mathbf x \in A} \prod_{i=1}^m \exp(t^2x_i^2/2) \leq |A| \exp(t^2L^2/2). ' title='\displaystyle  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) \leq \sum_{\mathbf x \in A} \prod_{i=1}^m \exp(t^2x_i^2/2) \leq |A| \exp(t^2L^2/2). ' class='latex' /></p>
<p> Lấy <img src='http://s.wordpress.com/latex.php?latex=%7B%5Clog%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\log}' title='{\log}' class='latex' /> hai vế, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7Bt%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t&gt;0}' title='{t&gt;0}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cleq%20%5Cfrac%7B%5Clog%7CA%7C%7D%7Bt%7D%20%2B%20%5Cfrac%7BtL%5E2%7D%7B2%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{\log|A|}{t} + \frac{tL^2}{2}. ' title='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{\log|A|}{t} + \frac{tL^2}{2}. ' class='latex' /></p>
<p> Chọn <img src='http://s.wordpress.com/latex.php?latex=%7Bt%20%3D%20%5Cfrac%7B%5Csqrt%7B2%5Clog%7CA%7C%7D%7D%7BL%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t = \frac{\sqrt{2\log|A|}}{L}}' title='{t = \frac{\sqrt{2\log|A|}}{L}}' class='latex' /> để giảm thiểu vế phải là hoàn tất toàn bộ chứng minh. <img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' /></p>
<p>
<b>Bài tập:</b> chứng minh Bổ đề 2 từ Bổ đề Massart. </p>
<p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/03/15/hm6-d%e1%bb%99-ph%e1%bb%a9c-t%e1%ba%a1p-rademacher/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Chứng minh định lý Loomis-Whitney dùng entropy</title>
		<link>http://www.procul.org/blog/2011/03/04/ch%e1%bb%a9ng-minh-d%e1%bb%8bnh-ly-loomis-whitney-dung-entropy/</link>
		<comments>http://www.procul.org/blog/2011/03/04/ch%e1%bb%a9ng-minh-d%e1%bb%8bnh-ly-loomis-whitney-dung-entropy/#comments</comments>
		<pubDate>Fri, 04 Mar 2011 21:52:38 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[bất đẳng thức Loomis-Whitney]]></category>
		<category><![CDATA[Entropy]]></category>
		<category><![CDATA[xác suất]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2988</guid>
		<description><![CDATA[1. Bất đẳng thức Loomis-Whitney Từ bài toán đố mấy anh lính bắn laser, bác Xuân Long giới thiệu bất đẳng thức Loomis-Whitney. Phiên bản lý thuyết độ đo của BĐT này thì để bác Long viết. Trong bài này chúng ta chỉ thảo luận phiên bản rời rạc (và hữu hạn) của BĐT này. [...]]]></description>
			<content:encoded><![CDATA[
<p>
<p><b> 1. Bất đẳng thức Loomis-Whitney </b> </p>
<p><p>
Từ bài toán đố mấy anh <a href="http://www.procul.org/blog/2011/03/01/tia/">lính bắn laser</a>, bác Xuân Long giới thiệu <a href="http://www.ams.org/journals/bull/1949-55-10/S0002-9904-1949-09320-5/S0002-9904-1949-09320-5.pdf">bất đẳng thức Loomis-Whitney</a>. Phiên bản lý thuyết độ đo của BĐT này thì để bác Long viết. Trong bài này chúng ta chỉ thảo luận phiên bản rời rạc (và hữu hạn) của BĐT này. </p>
<p>
Trước hết, ta phát biểu dạng đơn giản của BĐT &#8212; theo dòng suy nghĩ của bài toán đố. Gọi <img src='http://s.wordpress.com/latex.php?latex=%7BA%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{A}' title='{A}' class='latex' /> là tập một số điểm trong <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathbb%20Z%5Ed%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathbb Z^d}' title='{\mathbb Z^d}' class='latex' />. Với mỗi chiều <img src='http://s.wordpress.com/latex.php?latex=%7Bi%20%5Cin%20%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i \in [d]}' title='{i \in [d]}' class='latex' />, gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPi_i%28A%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Pi_i(A)}' title='{\Pi_i(A)}' class='latex' /> là tập &#8220;bóng&#8221; của <img src='http://s.wordpress.com/latex.php?latex=%7BA%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{A}' title='{A}' class='latex' /> trên mặt phẳng vuông góc với chiều <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' />. Cụ thể hơn, nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%28x_1%2C%5Cdots%2Cx_d%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(x_1,\dots,x_d)}' title='{(x_1,\dots,x_d)}' class='latex' /> là một điểm trong <img src='http://s.wordpress.com/latex.php?latex=%7BA%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{A}' title='{A}' class='latex' /> thì <img src='http://s.wordpress.com/latex.php?latex=%7B%28x_1%2C%5Cdots%2Cx_%7Bi-1%7D%2Cx_%7Bi%2B1%7D%2Cx_d%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(x_1,\dots,x_{i-1},x_{i+1},x_d)}' title='{(x_1,\dots,x_{i-1},x_{i+1},x_d)}' class='latex' /> là điểm trong <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPi_i%28A%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Pi_i(A)}' title='{\Pi_i(A)}' class='latex' />. Dạng đơn giản của BĐT Loomis-Whitney rời rạc nói rằng: <a name="eqnsimple">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%7CA%7C%5E%7Bd-1%7D%20%5Cleq%20%5Cprod_%7Bi%3D1%7D%5Ed%20%7C%20%5CPi_i%28A%29%20%7C.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%281%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  |A|^{d-1} \leq \prod_{i=1}^d | \Pi_i(A) |.  \ \ \ \ \ (1)' title='\displaystyle  |A|^{d-1} \leq \prod_{i=1}^d | \Pi_i(A) |.  \ \ \ \ \ (1)' class='latex' /></p>
<p></a> Trong bài lính bắn laser, <img src='http://s.wordpress.com/latex.php?latex=%7Bd%3D3%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d=3}' title='{d=3}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPi_i%28A%29%5Cleq%20k%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Pi_i(A)\leq k}' title='{\Pi_i(A)\leq k}' class='latex' />. Do đó <img src='http://s.wordpress.com/latex.php?latex=%7B%7CA%7C%20%5Cleq%20k%5E%7B3%2F2%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{|A| \leq k^{3/2}}' title='{|A| \leq k^{3/2}}' class='latex' />. Tôi có lời giải dùng lý luận kiểu định lý Turan, cho chặn chặt và chính xác khi <img src='http://s.wordpress.com/latex.php?latex=%7Bk%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{k}' title='{k}' class='latex' /> không phải là số chính phương. Chứng minh này để khi khác viết, vì nó quá &#8220;bầy hầy&#8221; cho nên tổng quát lên <a href="#eqnsimple">(1)</a> rất mất công, chưa nói đến <a href="#eqncomplex">(2)</a> dưới đây.</p>
<p>
Dạng phức tạp hơn của BĐT Loomis-Whitney rời rạc phát biểu như sau. Lần này chúng ta được phép chiếu xuống các không gian có chiều nhỏ hơn nữa. Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' /> là một bộ các tập con của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' /> sao cho mỗi phần tử của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' /> thuộc về đúng <img src='http://s.wordpress.com/latex.php?latex=%7Br%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{r}' title='{r}' class='latex' /> thành viên của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' />. Ví dụ, nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' /> là tập các tập con kích thước <img src='http://s.wordpress.com/latex.php?latex=%7B%28d-1%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(d-1)}' title='{(d-1)}' class='latex' /> của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' /> thì <img src='http://s.wordpress.com/latex.php?latex=%7Br%3Dd-1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{r=d-1}' title='{r=d-1}' class='latex' />. Nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' /> là tập các tập con kích thước <img src='http://s.wordpress.com/latex.php?latex=%7Bd-2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d-2}' title='{d-2}' class='latex' /> của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' /> thì <img src='http://s.wordpress.com/latex.php?latex=%7Br%3D%5Cbinom%7Bd-1%7D%7Bd-3%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{r=\binom{d-1}{d-3}}' title='{r=\binom{d-1}{d-3}}' class='latex' />. Với mỗi <img src='http://s.wordpress.com/latex.php?latex=%7BS%20%5Cin%20%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S \in \mathcal S}' title='{S \in \mathcal S}' class='latex' />, gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPi_S%28A%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Pi_S(A)}' title='{\Pi_S(A)}' class='latex' /> là hình chiếu của <img src='http://s.wordpress.com/latex.php?latex=%7BA%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{A}' title='{A}' class='latex' /> xuống các tọa độ trong <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' />. Ta có dạng tổng quát của <a href="#eqnsimple">(1)</a> <a name="eqncomplex">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%7CA%7C%5E%7Br%7D%20%5Cleq%20%5Cprod_%7BS%5Cin%20%5Cmathcal%20S%7D%20%7C%20%5CPi_S%28A%29%20%7C.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%282%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  |A|^{r} \leq \prod_{S\in \mathcal S} | \Pi_S(A) |.  \ \ \ \ \ (2)' title='\displaystyle  |A|^{r} \leq \prod_{S\in \mathcal S} | \Pi_S(A) |.  \ \ \ \ \ (2)' class='latex' /></p>
<p></a> </p>
<p> <span id="more-2988"></span></p>
<p><b> 2. Chứng minh bất đẳng thức Loomis-Whitney bằng lập luận entropy </b> </p>
<p><p>
Về cơ bản, BĐT Loomis-Whitney là một dạng nguyên tắc chuồng bồ câu (tiếng Việt còn gọi là nguyên lý Dirichlet). Nếu mà một tập điểm quá lớn thì chúng phải có &#8220;bóng&#8221; lớn từ các hướng. Bây giờ chúng ta chứng minh trực quan này bằng lập luận dùng entropy, một kỹ thuật rất quan trọng của phương pháp xác suất. Ta sẽ chứng minh phiên bản đơn giản <a href="#eqnsimple">(1)</a> trước, và không đi vào chi tiết, để dành chi tiết cho phần tới. Xem thêm <a href="http://www.uni-due.de/~hm0110/book.pdf">quyển sách miễn phí</a> này. </p>
<p>
Ý tưởng chính là như sau: ta chọn một điểm <img src='http://s.wordpress.com/latex.php?latex=%7B%28X_1%2C%20%5Cdots%2C%20X_d%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(X_1, \dots, X_d)}' title='{(X_1, \dots, X_d)}' class='latex' /> ngẫu nhiên từ tập <img src='http://s.wordpress.com/latex.php?latex=%7BA%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{A}' title='{A}' class='latex' /> với xác suất đều <img src='http://s.wordpress.com/latex.php?latex=%7B1%2F%7CA%7C%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/|A|}' title='{1/|A|}' class='latex' />. Như vậy cái <a href="http://en.wikipedia.org/wiki/Joint_entropy">joint entropy</a> <img src='http://s.wordpress.com/latex.php?latex=%7BH%28X_1%2C%5Cdots%2CX_d%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{H(X_1,\dots,X_d)}' title='{H(X_1,\dots,X_d)}' class='latex' /> là tối đa (xác suất đều là hỗn loạn nhất, nhiều thông tin nhất). Và ta có <a name="eqn1">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X_1%2C%5Cdots%2C%20X_d%29%20%3D%20%5Clog%7CA%7C.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%283%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X_1,\dots, X_d) = \log|A|.  \ \ \ \ \ (3)' title='\displaystyle  H(X_1,\dots, X_d) = \log|A|.  \ \ \ \ \ (3)' class='latex' /></p>
<p></a> </p>
<p>
Kế đến, ta dùng một bất đẳng thức đơn giản gọi là bất đẳng thức Han: <a name="eqn2">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%28d-1%29H%28X_1%2C%5Cdots%2CX_d%29%20%5Cleq%20%5Csum_%7Bi%3D1%7D%5EdH%28X_1%2C%5Cdots%2CX_%7Bi-1%7D%2CX_%7Bi%2B1%7D%2C%5Cdots%2CX_d%29.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%284%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  (d-1)H(X_1,\dots,X_d) \leq \sum_{i=1}^dH(X_1,\dots,X_{i-1},X_{i+1},\dots,X_d).  \ \ \ \ \ (4)' title='\displaystyle  (d-1)H(X_1,\dots,X_d) \leq \sum_{i=1}^dH(X_1,\dots,X_{i-1},X_{i+1},\dots,X_d).  \ \ \ \ \ (4)' class='latex' /></p>
<p></a> Bất đẳng thức này có thể hiểu nôm na là, nếu mà độ hỗn loạn là lớn trong không gian <img src='http://s.wordpress.com/latex.php?latex=%7Bd%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d}' title='{d}' class='latex' /> chiều, thì tổng độ hỗn loạn ở các hình chiếu cũng phải lớn. Bất đẳng thức này rất dễ chứng minh chỉ dùng định nghĩa của entropy thôi.</p>
<p>
Quan sát cuối cùng của ta rất đơn giản: <a name="eqn3">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X_1%2C%5Cdots%2CX_%7Bi-1%7D%2CX_%7Bi%2B1%7D%2C%5Cdots%2CX_d%29%20%5Cleq%20%5Clog%7C%5CPi_i%28A%29%7C.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%285%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X_1,\dots,X_{i-1},X_{i+1},\dots,X_d) \leq \log|\Pi_i(A)|.  \ \ \ \ \ (5)' title='\displaystyle  H(X_1,\dots,X_{i-1},X_{i+1},\dots,X_d) \leq \log|\Pi_i(A)|.  \ \ \ \ \ (5)' class='latex' /></p>
<p></a> Bởi vì <img src='http://s.wordpress.com/latex.php?latex=%7B%28X_1%2C%5Cdots%2CX_%7Bi-1%7D%2CX_%7Bi%2B1%7D%2C%5Cdots%2CX_d%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(X_1,\dots,X_{i-1},X_{i+1},\dots,X_d)}' title='{(X_1,\dots,X_{i-1},X_{i+1},\dots,X_d)}' class='latex' /> là một điểm ngẫu nhiên trong tập <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPi_i%28A%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Pi_i(A)}' title='{\Pi_i(A)}' class='latex' />, cái joint entropy không thể lớn hơn entropy của phân bố đều được. </p>
<p>
Từ <a href="#eqn1">(3)</a>, <a href="#eqn2">(4)</a>, và <a href="#eqn3">(5)</a> ta có <a href="#eqnsimple">(1)</a>.</p>
<p>
<p><b> 3. Entropy, bất đẳng thức Shearer, và bất đẳng thức Loomis-Whitney tổng quát </b> </p>
<p><p>
Gọi <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' /> là một biến rời rạc ngẫu nhiên có giá trị là một trong <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' /> &#8220;ký tự&#8221; <img src='http://s.wordpress.com/latex.php?latex=%7Bx_1%2C%5Cdots%2C%20x_n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{x_1,\dots, x_n}' title='{x_1,\dots, x_n}' class='latex' />. Entropy nhị phân của <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' />, dùng để đo tính bất định (khó đoán) của <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' />, được định nghĩa là </p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X%29%20%3D%20-%5Csum_%7Bi%3D1%7D%5En%20p%28x_i%29%5Clog_2%20p%28x_i%29%20%3D%20%5Ctext%7B%5Cbf%20E%7D%5Cleft%5B%5Clog_21%2Fp%28x_i%29%5Cright%5D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X) = -\sum_{i=1}^n p(x_i)\log_2 p(x_i) = \text{\bf E}\left[\log_21/p(x_i)\right]. ' title='\displaystyle  H(X) = -\sum_{i=1}^n p(x_i)\log_2 p(x_i) = \text{\bf E}\left[\log_21/p(x_i)\right]. ' class='latex' /></p>
<p> trong đó <img src='http://s.wordpress.com/latex.php?latex=%7Bp%28x%29%20%3D%20%5Ctext%7BProb%7D%5BX%3Dx%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{p(x) = \text{Prob}[X=x]}' title='{p(x) = \text{Prob}[X=x]}' class='latex' /> là hàm mật độ của <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' />. </p>
<blockquote><p><b>Định lý 1</b> <em> Đừng lấy vợ có entropy cao. </em></p></blockquote>
<p><p>
Do <img src='http://s.wordpress.com/latex.php?latex=%7B%5Clog%28x%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\log(x)}' title='{\log(x)}' class='latex' /> là hàm lõm, <a href="http://en.wikipedia.org/wiki/Jensen's_inequality">bất đẳng thức Jensen</a> cho ta biết
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X%29%20%3D%20%5Ctext%7B%5Cbf%20E%7D%5B%5Clog_21%2Fp%28x_i%29%5D%20%5Cleq%20%5Clog_2%20%5Ctext%7B%5Cbf%20E%7D%5B1%2Fp%28x_i%29%5D%20%3D%20%5Clog_2n.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X) = \text{\bf E}[\log_21/p(x_i)] \leq \log_2 \text{\bf E}[1/p(x_i)] = \log_2n. ' title='\displaystyle  H(X) = \text{\bf E}[\log_21/p(x_i)] \leq \log_2 \text{\bf E}[1/p(x_i)] = \log_2n. ' class='latex' /></p>
<p> Đây là lý do mà ta suy ra được <a href="#eqn1">(3)</a> và <a href="#eqn3">(5)</a> ở trên. Khi có nhiều biến hơn thì hàm (joint) entropy cũng được định nghĩa tương tự:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X_1%2C%5Cdots%2C%20X_d%29%20%3D%20-%5Csum_%7Bx_1%2C%5Cdots%2Cx_d%7D%20p%28x_1%2C%20%5Cdots%2C%20x_d%29%20%5Clog%20p%28x_1%2C%5Cdots%2Cx_d%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X_1,\dots, X_d) = -\sum_{x_1,\dots,x_d} p(x_1, \dots, x_d) \log p(x_1,\dots,x_d). ' title='\displaystyle  H(X_1,\dots, X_d) = -\sum_{x_1,\dots,x_d} p(x_1, \dots, x_d) \log p(x_1,\dots,x_d). ' class='latex' /></p>
<p> Một cách đơn giản, hiểu <img src='http://s.wordpress.com/latex.php?latex=%7BX%3D%28X_1%2C%5Cdots%2CX_d%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X=(X_1,\dots,X_d)}' title='{X=(X_1,\dots,X_d)}' class='latex' /> là <em>một</em> biến ngẫu nhiên trong không gian <img src='http://s.wordpress.com/latex.php?latex=%7Bd%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d}' title='{d}' class='latex' /> chiều, rồi áp dụng định nghĩa đầu tiên cũng vậy. </p>
<p>
<a href="http://en.wikipedia.org/wiki/Conditional_entropy">Entropy có điều kiện</a> thì dùng để đo tính ngẫu nhiên của biến <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' /> sau khi đã biết biến <img src='http://s.wordpress.com/latex.php?latex=%7BY%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{Y}' title='{Y}' class='latex' />. Ngày xưa ông bà ta nói &#8220;nồi nào vung nấy&#8221; chính là một định lý của lý thuyết thông tin, ý bảo khi đã biết anh chồng thì entropy của cô vợ giảm hẳn. Entropy của <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' /> cho biết <img src='http://s.wordpress.com/latex.php?latex=%7BY%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{Y}' title='{Y}' class='latex' /> được định nghĩa là giá trị kỳ vọng của entropy của biến <img src='http://s.wordpress.com/latex.php?latex=%7BX%20%7C%20Y%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X | Y}' title='{X | Y}' class='latex' />, biết <img src='http://s.wordpress.com/latex.php?latex=%7BY%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{Y}' title='{Y}' class='latex' /> rồi thì tính trung bình ta biết thêm được bao nhiêu về <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' />:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20H%28X%20%7C%20Y%29%20%26%3D%26%20%5Csum_%7By%7D%20p%28y%29%20H%28X%20%7C%20Y%3Dy%29%5C%5C%20%26%3D%26%20-%20%5Csum_y%20p%28y%29%20%5Csum_x%20p%28x%20%7C%20y%29%20%5Clog%20p%28x%20%7C%20y%29%5C%5C%20%26%3D%26%20-%20%5Csum_%7Bx%2Cy%7D%20p%28x%2Cy%29%20%5Clog%20p%28x%20%7C%20y%29%5C%5C%20%26%3D%26%20%5Ctext%7B%5Cbf%20E%7D_%7Bx%2Cy%7D%5Cleft%5B%20%5Clog%20%5Cfrac%7B1%7D%7Bp%28x%20%7C%20y%29%7D%20%5Cright%5D%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  H(X | Y) &amp;=&amp; \sum_{y} p(y) H(X | Y=y)\\ &amp;=&amp; - \sum_y p(y) \sum_x p(x | y) \log p(x | y)\\ &amp;=&amp; - \sum_{x,y} p(x,y) \log p(x | y)\\ &amp;=&amp; \text{\bf E}_{x,y}\left[ \log \frac{1}{p(x | y)} \right] \end{array} ' title='\displaystyle  \begin{array}{rcl}  H(X | Y) &amp;=&amp; \sum_{y} p(y) H(X | Y=y)\\ &amp;=&amp; - \sum_y p(y) \sum_x p(x | y) \log p(x | y)\\ &amp;=&amp; - \sum_{x,y} p(x,y) \log p(x | y)\\ &amp;=&amp; \text{\bf E}_{x,y}\left[ \log \frac{1}{p(x | y)} \right] \end{array} ' class='latex' /></p>
<p> Từ định nghĩa, ta có thể suy ra vài công thức rất trực quan về hàm entropy. Ví dụ, từ <img src='http://s.wordpress.com/latex.php?latex=%7Bp%28x%2Cy%29%20%3D%20p%28x%7Cy%29p%28y%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{p(x,y) = p(x|y)p(y)}' title='{p(x,y) = p(x|y)p(y)}' class='latex' /> ta có:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Clog%20%281%2Fp%28x%2Cy%29%29%20%3D%20%5Clog%20%281%2Fp%28%20x%20%7C%20y%29%29%20%2B%20%5Clog%281%2Fp%28y%29%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \log (1/p(x,y)) = \log (1/p( x | y)) + \log(1/p(y)). ' title='\displaystyle  \log (1/p(x,y)) = \log (1/p( x | y)) + \log(1/p(y)). ' class='latex' /></p>
<p> Lấy trị kỳ vọng hai vế ta có <a name="eqnchain-rule">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X%2CY%29%20%3D%20H%28X%20%7C%20Y%29%20%2B%20H%28Y%29.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%286%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X,Y) = H(X | Y) + H(Y).  \ \ \ \ \ (6)' title='\displaystyle  H(X,Y) = H(X | Y) + H(Y).  \ \ \ \ \ (6)' class='latex' /></p>
<p></a> (Công thức này gọi là <em>luật chuỗi</em>, như luật chuỗi trong tính đạo hàm.) Shannon đã nghiệm ra các quan hệ khác, đều không khó chứng minh,
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%200%20%5Cleq%20H%20%28X%20%7C%20Y%29%20%5Cleq%20H%28X%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  0 \leq H (X | Y) \leq H(X). ' title='\displaystyle  0 \leq H (X | Y) \leq H(X). ' class='latex' /></p>
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X%2CY%29%20%5Cleq%20H%28X%29%20%2B%20H%28Y%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X,Y) \leq H(X) + H(Y). ' title='\displaystyle  H(X,Y) \leq H(X) + H(Y). ' class='latex' /></p>
<p> <a name="eqn5">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X%2CY%20%7C%20Z%29%20%5Cleq%20H%28X%20%7C%20Z%29%20%2B%20H%28Y%20%7C%20Z%29.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%287%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X,Y | Z) \leq H(X | Z) + H(Y | Z).  \ \ \ \ \ (7)' title='\displaystyle  H(X,Y | Z) \leq H(X | Z) + H(Y | Z).  \ \ \ \ \ (7)' class='latex' /></p>
<p></a>
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X%29%20-%20H%28X%20%7C%20Y%29%20%3D%20H%28Y%29%20-%20H%28Y%20%7C%20X%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X) - H(X | Y) = H(Y) - H(Y | X). ' title='\displaystyle  H(X) - H(X | Y) = H(Y) - H(Y | X). ' class='latex' /></p>
<p> Chúng ta quan tâm đến (sự thay đổi) entropy khi chiếu một vector nhiều chiều xuống một số chiều nhất định. Cụ thể hơn, gọi <img src='http://s.wordpress.com/latex.php?latex=%7BS%20%5Csubset%20%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S \subset [d]}' title='{S \subset [d]}' class='latex' /> là một tập con khác rỗng bất kỳ. Cho các biến ngẫu nhiên <img src='http://s.wordpress.com/latex.php?latex=%7BX_1%2C%5Cdots%2C%20X_d%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X_1,\dots, X_d}' title='{X_1,\dots, X_d}' class='latex' />, và gọi <img src='http://s.wordpress.com/latex.php?latex=%7BX_S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X_S}' title='{X_S}' class='latex' /> là vector &#8220;hình chiếu&#8221; <img src='http://s.wordpress.com/latex.php?latex=%7B%28X_i%20%5C%20%7C%20%5C%20i%20%5Cin%20S%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(X_i \ | \ i \in S)}' title='{(X_i \ | \ i \in S)}' class='latex' />. </p>
<p>
Hàm số <img src='http://s.wordpress.com/latex.php?latex=%7BS%20%5Crightarrow%20H%28X_S%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S \rightarrow H(X_S)}' title='{S \rightarrow H(X_S)}' class='latex' /> là <a href="http://theory.stanford.edu/~shaddin/papers/submodular_survey.pdf">hàm sub-modular</a>, nghĩa là <a name="eqnsub-modularity">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X_%7BS%5Ccup%20T%7D%29%20%2B%20H%28X_%7BS%5Ccap%20T%7D%29%20%5Cleq%20H%28X_S%29%20%2B%20H%28X_T%29.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%288%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X_{S\cup T}) + H(X_{S\cap T}) \leq H(X_S) + H(X_T).  \ \ \ \ \ (8)' title='\displaystyle  H(X_{S\cup T}) + H(X_{S\cap T}) \leq H(X_S) + H(X_T).  \ \ \ \ \ (8)' class='latex' /></p>
<p></a> Để chứng minh bất đẳng thức trên, trừ hai vế cho <img src='http://s.wordpress.com/latex.php?latex=%7B2H%28X_%7BS%5Ccap%20T%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{2H(X_{S\cap T})}' title='{2H(X_{S\cap T})}' class='latex' /> và áp dụng luật chuỗi <a href="#eqnchain-rule">(6)</a> ta có bất đẳng thức tương đương
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20H%28X_%7BS%5Ccup%20T%7D%20%7C%20X_%7BS%20%5Ccap%20T%7D%29%20%5Cleq%20H%28X_S%20%7C%20X_%7BS%5Ccap%20T%7D%29%2BH%28X_T%20%7C%20X_%7BS%5Ccap%20T%7D%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  H(X_{S\cup T} | X_{S \cap T}) \leq H(X_S | X_{S\cap T})+H(X_T | X_{S\cap T}). ' title='\displaystyle  H(X_{S\cup T} | X_{S \cap T}) \leq H(X_S | X_{S\cap T})+H(X_T | X_{S\cap T}). ' class='latex' /></p>
<p> Đây chính là bất đẳng thức <a href="#eqn5">(7)</a>. Bây giờ ta đã có đủ công cụ để chứng minh <b>bất đẳng thức Shearer</b>, tổng quát hơn bất đẳng thức Han. Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' /> là một bộ các tập con của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' /> sao cho mỗi phần tử của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' /> thuộc về đúng <img src='http://s.wordpress.com/latex.php?latex=%7Br%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{r}' title='{r}' class='latex' /> thành viên của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' />. Bất đẳng thức Shearer nói rằng
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20rH%28X_1%2C%5Cdots%2CH_d%29%20%5Cleq%20%5Csum_%7BS%20%5Cin%20%5Cmathcal%20S%7D%20H%28X_S%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  rH(X_1,\dots,H_d) \leq \sum_{S \in \mathcal S} H(X_S). ' title='\displaystyle  rH(X_1,\dots,H_d) \leq \sum_{S \in \mathcal S} H(X_S). ' class='latex' /></p>
<p> Khi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' /> là tập tất cả các tập con kích thước <img src='http://s.wordpress.com/latex.php?latex=%7Bd-1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d-1}' title='{d-1}' class='latex' /> của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' /> thì ta có BĐT Han. Để chứng minh BĐT Shearer thì ta áp dụng tính chất sub-modularity <a href="#eqnsub-modularity">(8)</a> vào vế phải liên tục. Cứ lấy hai thành viên bất kỳ của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal S}' title='{\mathcal S}' class='latex' /> và áp dụng <a href="#eqnsub-modularity">(8)</a>. Khi đó ta thay <img src='http://s.wordpress.com/latex.php?latex=%7BS%2C%20T%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S, T}' title='{S, T}' class='latex' /> bằng <img src='http://s.wordpress.com/latex.php?latex=%7BS%5Ccap%20T%2C%20S%5Ccup%20T%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S\cap T, S\cup T}' title='{S\cap T, S\cup T}' class='latex' />. Trong quá trình này, số lần xuất hiện của <img src='http://s.wordpress.com/latex.php?latex=%7Bi%5Cin%20%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i\in [d]}' title='{i\in [d]}' class='latex' /> trong các tập vẫn luôn giữ là <img src='http://s.wordpress.com/latex.php?latex=%7Br%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{r}' title='{r}' class='latex' />. Quá trình thay thế này chỉ không đổi khi <img src='http://s.wordpress.com/latex.php?latex=%7BS%5Csubseteq%20T%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S\subseteq T}' title='{S\subseteq T}' class='latex' /> hoặc <img src='http://s.wordpress.com/latex.php?latex=%7BT%5Csubseteq%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{T\subseteq S}' title='{T\subseteq S}' class='latex' />. Do đó, khi không còn thay đổi gì nữa thì ta có một đám tập hợp là tập con của nhau, xâu thành một chuỗi. Một số tập có thể là tập rỗng, entropy bằng <img src='http://s.wordpress.com/latex.php?latex=%7B0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{0}' title='{0}' class='latex' />, có thể bỏ đi. Các tập còn lại, do mỗi <img src='http://s.wordpress.com/latex.php?latex=%7Bi%5Cin%20%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i\in [d]}' title='{i\in [d]}' class='latex' /> xuất hiện đúng <img src='http://s.wordpress.com/latex.php?latex=%7Br%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{r}' title='{r}' class='latex' /> lần, buộc phải là <img src='http://s.wordpress.com/latex.php?latex=%7Br%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{r}' title='{r}' class='latex' /> phiên bản của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Bd%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[d]}' title='{[d]}' class='latex' />, và đó là vế trái của BĐT Shearer.</p>
<p>
Từ BĐT Shearer chứng minh BĐT Loomis-Whitney tổng quát <a href="#eqncomplex">(2)</a> không khó khăn gì. </p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/03/04/ch%e1%bb%a9ng-minh-d%e1%bb%8bnh-ly-loomis-whitney-dung-entropy/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>What is Statistics?</title>
		<link>http://www.procul.org/blog/2011/01/28/what-is-statistics/</link>
		<comments>http://www.procul.org/blog/2011/01/28/what-is-statistics/#comments</comments>
		<pubDate>Fri, 28 Jan 2011 23:22:14 +0000</pubDate>
		<dc:creator>Nguyễn Xuân Long</dc:creator>
				<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[thống kê]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2910</guid>
		<description><![CDATA[Thống kê là gì? Nếu bạn không phải là người học thống kê, câu trả lời có thể là thế này: Đó là công việc của những người giữ sổ sách. Ở Việt nam ta và nhiều nước bạn XHCN khác, viện thống kê làm người ta liên tưởng đến nơi người ta liệt kê [...]]]></description>
			<content:encoded><![CDATA[<p>Thống kê là gì? </p>
<p>Nếu bạn không phải là người học thống kê, câu trả lời có thể là thế này: Đó là công việc của những người giữ sổ sách. Ở Việt nam ta và nhiều nước bạn XHCN khác, viện thống kê làm người ta liên tưởng đến nơi người ta liệt kê sản lượng thóc thu hoạch hàng năm, đôi khi nhân lên bởi một con số nào đó (1.2 chẳng hạn) sao cho khi chia ra diện tích đất làm nông thì được một con số 5 tấn tròn trĩnh. Ngày xưa ở Liên bang Xô viết, lý thuyết xác suất thì phát triển rực rỡ với những Kolmogorov hay Dynkin, nhưng Thống kê hầu như không được phép nghiên cứu. Nghe nói một nhà thống kê có tiếng ở đó được giao cho phân tích dữ liệu, và đã đưa ra các kết luận không trùng với ý của Stalin. Ông này hình như bị xử tử, hay bị đi cải tạo ở Siberi, còn có ai ho he nói đến &#8220;statistical inference&#8221; thì cũng xin chừa từ đó. Ở các nước TBCN anh em thì thống kê được sử dụng mọi nơi mọi chỗ đến mức độ bị lạm dụng. Cho nên có câu: there are lies, damn lies, and statistics!</p>
<p>Cho nên đôi khi tôi lại phải than thở: Tội nghiệp cho Statistics. He he.</p>
<p>Có bài viết gần đây của Michael Jordan có một số mô tả thú vị về Thống kê. (Đọc ở <a href="http://arxiv.org/abs/1101.0929"> đây </a>). Bài này kỳ thực viết về Leo Breiman, một nhà thống kê nổi tiếng của thế kỷ trước. Phải biết về <a href="http://www.universityofcalifornia.edu/senate/inmemoriam/leobreiman.htm"> hành trình của Breiman</a>, bắt đầu từ một nhà xác suất (probabilistic) hàng đầu rồi trở thành một người làm thống kê ứng dụng và sau đó trở thành một người cổ vũ nhiệt tình cho machine learning, để thấy sự tính đa mặt của thống kê. Trong blog này cũng đã nói về Breiman <a href="http://www.procul.org/blog/2008/12/12/l%E1%BA%A1i-machine-learning-va-statistics/"> ở đây. </a></p>
<p>Câu bình của Jordan về Thống kê cho thấy định nghĩa lĩnh vực nghiên cứu này cũng rất khó khăn kể cả trong dân trong nghề:</p>
<blockquote><p>
Statistics is a uniquely difficult field to convey to the uninitiated. It sits astride the abstract and the concrete, the theoretical and the applied. It has a mathematical flavor and yet it is not simply a branch of mathematics. Its core problems blend into those of the disciplines that probe into the nature of intelligence and thought, in particular philosophy, psychology and artificial intelligence. Debates over foundational issues have waxed and waned, but the field has not yet arrived at a single foundational perspective.
</p></blockquote>
<p>Nhưng đây lại là lĩnh vực nghiên cứu thú vị:</p>
<blockquote><p>
Given these complexities it might seem surprising that human beingscould have definite opinions about core issues in statistics, and surprising that working in such a field could be pleasurable. And yet there was Leo Breiman, who had his definite opinions about statistics and who took great pleasure in waking up every morning to see what more he could do to bring the field along.</p>
<p>To the extent that most statisticians have a vision about the final conclusive form the field might take, I suspect that this vision is a mathematical one—a set of core definitions, axioms and theorems. Moreover, I think that many statisticians will expect for these mathematical ideas to involve a set of optimality principles, such that it will be possible for a user of statistics<br />
circa 2500 AD to dial in the description of a problem and out will pop the optimal procedure.
</p></blockquote>
<p>Thống kê và các nghiên cứu về thuật toán đang hội tụ thành một ngành mới trong tương lai. Không có thuật toán thì nhiều lý thuyết Thống kê sẽ trở nên vô dụng. Không có Thống Kê thì nhiều kết quả về Thuật toán sẽ không có ích. Kết hợp cả hai ta sẽ làm được rất nhiều việc. Trong Thống kê, &#8220;statistics&#8221; là một khái niệm căn bản: Một thống kê (statistics) được định nghĩa là một hàm số được định nghĩa trên dữ liệu, f(X). X ở đây là dữ liệu đầu vào. Ngày xưa thì hàm f này chỉ là mẫu trung bình hay median gì đó, nhưng ngày nay các hàm f trở nên phức tạp hơn nhiều để mô tả các loại dữ liệu nhiều biến và pattern phức tạp hơn. Trong KHMT, &#8220;thuật toán&#8221; (algorithm) là một khái niệm căn bản: nó được định nghĩa là một quá trình tính toán trên cơ sở đầu vào để có được đầu ra f(X). Thống kê quan tậm đến việc định nghĩa và mô hình f(X) thế nào cho phù hợp với các vấn đề và hiện tượng được đặt ra, còn KHMT quan tâm đến việc thực hiện các phép tính định nghĩa bởi hàm f thế nào cho nhanh. Như vậy, suy cho cùng TK và KHMT hiện tại có cùng chung một đối tượng nghiên cứu. Chỉ có ở các khía cạnh khác nhau mà thôi.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/01/28/what-is-statistics/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Bài toán Mai Siêu Phong</title>
		<link>http://www.procul.org/blog/2010/12/29/bai-toan-mai-sieu-phong/</link>
		<comments>http://www.procul.org/blog/2010/12/29/bai-toan-mai-sieu-phong/#comments</comments>
		<pubDate>Wed, 29 Dec 2010 20:48:23 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[Coupon collector]]></category>
		<category><![CDATA[xác suất]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2854</guid>
		<description><![CDATA[1. Bài toán Mai Siêu Phong Để tập Cửu Âm Bạch Cốt Trảo, Mai Siêu Phong thu thập đầu lâu. Mỗi đêm một cái đầu mới. Thừa giấy vẽ voi, Mai Siêu Phong định nhân tiện sưu tầm luôn một bộ đầu lâu người tất cả các môn phái. Có môn phái. Mỗi đêm Mai [...]]]></description>
			<content:encoded><![CDATA[<p><b> 1. Bài toán Mai Siêu Phong </b></p>
<p>
Để tập Cửu Âm Bạch Cốt Trảo, Mai Siêu Phong thu thập đầu lâu. Mỗi đêm một cái đầu mới. Thừa giấy vẽ voi, Mai Siêu Phong định nhân tiện sưu tầm luôn một bộ đầu lâu người tất cả các môn phái. Có <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' /> môn phái. Mỗi đêm Mai Siêu Phong giết bừa một mạng, và kẻ xấu số thuộc về một trong <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' /> môn phái với xác suất <img src='http://s.wordpress.com/latex.php?latex=%7B1%2Fn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/n}' title='{1/n}' class='latex' />. <a href="http://en.wikipedia.org/wiki/Coupon_collector's_problem">Bài toán Mai Siêu Phong</a> là như sau: tính trung bình thì Mai Siêu Phong cần bao nhiêu đêm mới thu thập được toàn bộ đầu lâu các phái? Bài toán này có nhiều biến thể và nhiều ứng dụng, là một trong những bài toán cơ bản nhất của bộ môn xác suất. </p>
<p>
Gọi <img src='http://s.wordpress.com/latex.php?latex=%7BX_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X_i}' title='{X_i}' class='latex' /> là tổng số người Mai Siêu Phong cần giết thêm để lấy được sọ của một phái mới sau khi đã có sọ của <img src='http://s.wordpress.com/latex.php?latex=%7Bi-1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i-1}' title='{i-1}' class='latex' /> phái rồi. Dễ thấy rằng <img src='http://s.wordpress.com/latex.php?latex=%7BX_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X_i}' title='{X_i}' class='latex' /> là biến ngẫu nhiên hình học (<a href="http://en.wikipedia.org/wiki/Geometric_distribution">geometric random variable</a>) với tham số <img src='http://s.wordpress.com/latex.php?latex=%7Bp_i%20%3D%20%5Cfrac%7Bn-i%2B1%7D%7Bn%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{p_i = \frac{n-i+1}{n}}' title='{p_i = \frac{n-i+1}{n}}' class='latex' />. Do đó, <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7BE%7D%5BX_i%5D%20%3D%201%2Fp_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{E}[X_i] = 1/p_i}' title='{\text{E}[X_i] = 1/p_i}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7BVar%7D%5BX_i%5D%20%3D%20%281-p_i%29%2Fp_i%5E2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{Var}[X_i] = (1-p_i)/p_i^2}' title='{\text{Var}[X_i] = (1-p_i)/p_i^2}' class='latex' />. Gọi <img src='http://s.wordpress.com/latex.php?latex=%7BX%20%3D%20X_1%2B%5Ccdots%20%2B%20X_n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X = X_1+\cdots + X_n}' title='{X = X_1+\cdots + X_n}' class='latex' /> là tổng số đêm Mai Siêu Phong cần để có đủ bộ sưu tập, ta có</p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BE%7D%5BX%5D%20%3D%20%5Csum_i%20%5Ctext%7BE%7D%5BX_i%5D%20%3D%20n%5Cleft%281%2B%5Cfrac%201%202%20%2B%20%5Ccdots%20%2B%20%5Cfrac%201%20n%5Cright%29%20%3D%20n%20H_n.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{E}[X] = \sum_i \text{E}[X_i] = n\left(1+\frac 1 2 + \cdots + \frac 1 n\right) = n H_n. ' title='\displaystyle  \text{E}[X] = \sum_i \text{E}[X_i] = n\left(1+\frac 1 2 + \cdots + \frac 1 n\right) = n H_n. ' class='latex' /></p>
<p>
Trong đó <img src='http://s.wordpress.com/latex.php?latex=%7BH_n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{H_n}' title='{H_n}' class='latex' /> là <a href="http://en.wikipedia.org/wiki/Harmonic_number">số đồng điều</a> thứ <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' />. Do các biến <img src='http://s.wordpress.com/latex.php?latex=%7BX_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X_i}' title='{X_i}' class='latex' /> độc lập nhau (tại sao?), ta cũng có </p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BVar%7D%5BX%5D%20%3D%20%5Csum_%7Bi%3D1%7D%5En%20%5Ctext%7BVar%7D%5BX_i%5D%20%5Cleq%20%5Csum_%7Bi%3D1%7D%5En%20%5Cfrac%7B1%7D%7Bp_i%5E2%7D%20%3D%20n%5E2%20%5Csum_%7Bi%3D1%7D%5En%5Cfrac%7B1%7D%7Bi%5E2%7D%20%5Cleq%20n%5E2%5Csum_%7Bi%3D1%7D%5E%5Cinfty%20%5Cfrac%7B1%7D%7Bi%5E2%7D%20%3D%20%5Cfrac%7Bn%5E2%5Cpi%5E2%7D%7B6%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Var}[X] = \sum_{i=1}^n \text{Var}[X_i] \leq \sum_{i=1}^n \frac{1}{p_i^2} = n^2 \sum_{i=1}^n\frac{1}{i^2} \leq n^2\sum_{i=1}^\infty \frac{1}{i^2} = \frac{n^2\pi^2}{6}. ' title='\displaystyle  \text{Var}[X] = \sum_{i=1}^n \text{Var}[X_i] \leq \sum_{i=1}^n \frac{1}{p_i^2} = n^2 \sum_{i=1}^n\frac{1}{i^2} \leq n^2\sum_{i=1}^\infty \frac{1}{i^2} = \frac{n^2\pi^2}{6}. ' class='latex' /></p>
<p> (Đẳng thức cuối cùng là đẳng thức Euler, <a href="http://en.wikipedia.org/wiki/Basel_problem">bài toán Basel</a>.) Đến đây ta dùng <a href="http://www.procul.org/blog/2010/07/09/gt-8-con-ga-c&#37;e1&#37;bb&#37;a7a-ong-chebyshev/">con gà của Chebyshev</a> để biết xác suất Mai Siêu Phong hoàn tất được bộ sưu tập sọ. Giả sử Mai Siêu Phong xuất quân liên tục <img src='http://s.wordpress.com/latex.php?latex=%7BnH_n%20%2B%20cn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{nH_n + cn}' title='{nH_n + cn}' class='latex' /> đêm liền, với <img src='http://s.wordpress.com/latex.php?latex=%7Bc%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{c}' title='{c}' class='latex' /> là một tham số, thì xác suất <img src='http://s.wordpress.com/latex.php?latex=%7BX%20%5Cgeq%20nH_n%2Bcn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X \geq nH_n+cn}' title='{X \geq nH_n+cn}' class='latex' /> nhỏ hơn xác suất <img src='http://s.wordpress.com/latex.php?latex=%7B%7CX-nH_n%7C%5Cgeq%20cn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{|X-nH_n|\geq cn}' title='{|X-nH_n|\geq cn}' class='latex' />. Do đó, ông Chebyshev bảo đảm là Mai Siêu Phong thất bại với xác suất nhỏ hơn
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5B%20%7CX-nH_n%7C%5Cgeq%20cn%20%5D%20%3D%20%5Ctext%7BProb%7D%5Cleft%5B%20%7CX-nH_n%7C%5Cgeq%20%5Cfrac%7Bc%5Csqrt%206%7D%7B%5Cpi%7D%20%5Csqrt%7B%5Cfrac%7Bn%5E2%5Cpi%5E2%7D%7B6%7D%7D%20%5Cright%5D%20%5Cleq%20%5Cfrac%7B%5Cpi%5E2%7D%7B6c%5E2%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}[ |X-nH_n|\geq cn ] = \text{Prob}\left[ |X-nH_n|\geq \frac{c\sqrt 6}{\pi} \sqrt{\frac{n^2\pi^2}{6}} \right] \leq \frac{\pi^2}{6c^2}. ' title='\displaystyle  \text{Prob}[ |X-nH_n|\geq cn ] = \text{Prob}\left[ |X-nH_n|\geq \frac{c\sqrt 6}{\pi} \sqrt{\frac{n^2\pi^2}{6}} \right] \leq \frac{\pi^2}{6c^2}. ' class='latex' /></p>
<p> Như vậy, để đảm bảo 99 phần trăm xác suất thành công thì Mai Siêu Phong cần dạ hành cỡ <img src='http://s.wordpress.com/latex.php?latex=%7BnH_n%2B12.84n%20%5Capprox%20n%20%5Cln%20n%20%2B%2012.84n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{nH_n+12.84n \approx n \ln n + 12.84n}' title='{nH_n+12.84n \approx n \ln n + 12.84n}' class='latex' /> đêm. </p>
<p><span id="more-2854"></span></p>
<p>
Thật ra thì mình không cần ông Chebyshev, chỉ cần dùng &#8220;chặn hội&#8221; (union bound) là đã có kết quả tốt hơn rồi. Giả sử Mai Siêu Phong làm việc <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> đêm liền. Xác suất mà phái Hoa Sơn không bị tổn thất là <img src='http://s.wordpress.com/latex.php?latex=%7B%281-1%2Fn%29%5Em%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(1-1/n)^m}' title='{(1-1/n)^m}' class='latex' />. Do đó, xác suất mà có ít nhất một phái không bị tổn thất là nhỏ hơn <img src='http://s.wordpress.com/latex.php?latex=%7Bn%281-1%2Fn%29%5Em%20%3C%20ne%5E%7B-m%2Fn%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n(1-1/n)^m &lt; ne^{-m/n}}' title='{n(1-1/n)^m &lt; ne^{-m/n}}' class='latex' />. Nhớ rằng <img src='http://s.wordpress.com/latex.php?latex=%7BH_n%20%5Capprox%20%5Cln%20n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{H_n \approx \ln n}' title='{H_n \approx \ln n}' class='latex' />. Nếu ta chọn <img src='http://s.wordpress.com/latex.php?latex=%7Bm%20%3D%20n%5Cln%20n%2Bcn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m = n\ln n+cn}' title='{m = n\ln n+cn}' class='latex' /> thì
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20ne%5E%7B-m%2Fn%7D%20%3D%20ne%5E%7B-%5Cln%20n-c%7D%20%3D%20%5Cfrac%7B1%7D%7Be%5Ec%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  ne^{-m/n} = ne^{-\ln n-c} = \frac{1}{e^c}. ' title='\displaystyle  ne^{-m/n} = ne^{-\ln n-c} = \frac{1}{e^c}. ' class='latex' /></p>
<p> Để đảm bảo xác suất thành công 99 phần trăm thì chỉ cần <img src='http://s.wordpress.com/latex.php?latex=%7Bc%20%3D%204.7%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{c = 4.7}' title='{c = 4.7}' class='latex' /> thay vì <img src='http://s.wordpress.com/latex.php?latex=%7B12.84%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{12.84}' title='{12.84}' class='latex' /> như cách dùng Chebyshev. Cái chặn <img src='http://s.wordpress.com/latex.php?latex=%7B1%2Fe%5Ec%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/e^c}' title='{1/e^c}' class='latex' /> tốt hơn hẳn <img src='http://s.wordpress.com/latex.php?latex=%7BO%281%2Fc%5E2%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{O(1/c^2)}' title='{O(1/c^2)}' class='latex' />.</p>
<p>
Có nhiều biến thể hợp lý của bài toán Mai Siêu Phong, và mỗi biến thể đều dùng được trong phân tích một ứng dụng cụ thể. Bạn có thể chọn một bộ các điều kiện sau đây để tạo biến thể mới. (<a href="http://arxiv.org/pdf/1010.5608v2">Bài này</a> tóm tắt một số kết quả đã biết. Và <a href="http://www.combinatorics.org/Volume_15/PDF/v15i1n31.pdf">bài này</a> nữa.) </p>
<p><ul>
<li> Xác suất lấy được sọ người phái <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' /> là <img src='http://s.wordpress.com/latex.php?latex=%7Bp_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{p_i}' title='{p_i}' class='latex' /> (không nhất thiết là <img src='http://s.wordpress.com/latex.php?latex=%7B1%2Fn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/n}' title='{1/n}' class='latex' />). Dĩ nhiên ta giả sử <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csum_%7Bi%3D1%7D%5En%20p_i%20%3D%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sum_{i=1}^n p_i = 1}' title='{\sum_{i=1}^n p_i = 1}' class='latex' />
<li> Ta cần sưu tập ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7Bd%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d}' title='{d}' class='latex' /> sọ của mỗi phái. (Nghĩa là có ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7Bd%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d}' title='{d}' class='latex' /> bộ sưu tập.) Bài toán Mai Siêu Phong tương ứng với <img src='http://s.wordpress.com/latex.php?latex=%7Bd%3D1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d=1}' title='{d=1}' class='latex' />. Hồi 1960, <a href="http://www.jstor.org/pss/2308930">Newman và Shepp</a> có câu trả lời cho biến thể này, dùng một phương pháp kiểu tính toán symbolic như trong enumerative combinatorics. Câu trả lời là ta cần thu thập, tính trung bình, <img src='http://s.wordpress.com/latex.php?latex=%7Bn%28%5Cln%20n%20%2B%20%28d-1%29%5Cln%5Cln%20n%20%2B%20o%281%29%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n(\ln n + (d-1)\ln\ln n + o(1))}' title='{n(\ln n + (d-1)\ln\ln n + o(1))}' class='latex' /> sọ để có <img src='http://s.wordpress.com/latex.php?latex=%7Bd%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d}' title='{d}' class='latex' /> bộ sưu tập hoàn tất. Như vậy, bộ sưu tập đầu tiên tiêu tốn <img src='http://s.wordpress.com/latex.php?latex=%7Bn%5Cln%20n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n\ln n}' title='{n\ln n}' class='latex' /> sọ; còn mỗi bộ sưu tập còn lại chỉ tốn khoảng <img src='http://s.wordpress.com/latex.php?latex=%7Bn%20%5Cln%20%5Cln%20n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n \ln \ln n}' title='{n \ln \ln n}' class='latex' /> sọ thôi. Âu cũng là dễ hiểu.
<li> Mỗi lần dạ hành lấy được <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> sọ khác nhau, phân bố ngẫu nhiên. Ta có thể gọi bài này là <em>bài toán Trần Huyền Phong</em>.
</ul>
<p>
Ngoài ra, có một số câu hỏi tự nhiên khác như: </p>
<p><ul>
<li> Ngay lúc Mai Siêu Phong vừa có đủ một bộ sưu tập thì (trị kỳ vọng của) số đệ tử phái Hoa Sơn mất mạng là bao nhiêu?
<li> Ngay lúc Mai Siêu Phong vừa có đủ một bộ sưu tập thì (trị kỳ vọng của) số môn phái mất ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7Bk%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{k}' title='{k}' class='latex' /> mạng là bao nhiêu?
</ul>
<p>
<a href="http://www-irma.u-strasbg.fr/~foata/paper/pub89brother.pdf">Foata-Zeilberger</a> tổng quá hoá phương pháp của Newman-Shepp để trả lời các câu hỏi tương tự như trên. <a href="http://www.ieor.berkeley.edu/~oren/pubs/coupon.pdf">Một bài gần đây</a> của Adler-Oren-Ross dùng phương pháp truyền thống và đơn giản hơn.</p>
<p>
<p><b> 2. Bài toán Trần Huyền Phong </b></p>
<p><p>
Trần Huyền Phong mỗi đêm thu thập được <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> sọ khác nhau, phân bố ngẫu nhiên. (Nghĩa là bộ <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> sọ chọn ngẫu nhiên từ <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cbinom%20n%20m%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\binom n m}' title='{\binom n m}' class='latex' /> bộ.) Một biến thể của bài toán này có ứng dụng trong việc thiết kế kế hoạch truyền dữ liệu trong mạng không dây, kênh broadcast. Xem <a href="http://www.ee2.caltech.edu/Faculty/babak/pubs/papers/delay.pdf">bài này</a>. Tuy nhiên, tôi không biết có bài báo hay sách nào viết trực tiếp về bài toán Trần Huyền Phong. Bác nào thấy thảo luận bài này ở đâu đó rồi thì xin cho biết!</p>
<p>
Về mặt trực quan thì, khi <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' /> lớn, lấy một bộ <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> sọ ngẫu nhiên cũng gần bằng lấy <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> sọ ngẫu nhiên, từng cái từng cái một. Do đó, số đêm Trần Huyền Phong cần dạ hành là <img src='http://s.wordpress.com/latex.php?latex=%7BO%5Cleft%28%20%5Cfrac%201%20m%20%28n%20%5Cln%20n%29%20%5Cright%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{O\left( \frac 1 m (n \ln n) \right)}' title='{O\left( \frac 1 m (n \ln n) \right)}' class='latex' />. </p>
<p>
Thế công thức chính xác hoặc là chặn dưới asymptotic thì sao? Ta có thể nghĩ về bài này dùng chuỗi Markov rời rạc với các trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7B0%2C%20m%2C%20m%2B1%2C%5Ccdots%2C%20n%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{0, m, m+1,\cdots, n}' title='{0, m, m+1,\cdots, n}' class='latex' />, trong đó <img src='http://s.wordpress.com/latex.php?latex=%7B0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{0}' title='{0}' class='latex' /> là trạng thái khởi điểm, và <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' /> là trạng thái hấp thu (absorbing state). Trần Huyền Phong ở trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' /> nếu hắn đã thu thập được sọ của <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' /> phái khác nhau. Bắt đầu từ trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7B0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{0}' title='{0}' class='latex' />, ta cần tính số bước kỳ vọng đến khi chuỗi bị hút vào trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' />. Con số này gọi là <em>mean time to absorption</em>, và có thể tính được bằng cách tính ma trận cơ bản (fundamental matrix) của chuỗi. Xem <a href="http://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/Chapter11.pdf">chương sách này</a>, định lý 11.5. Tuy nhiên, phương pháp này không đảm bảo cho ra công thức cụ thể (closed-form).</p>
<p>
Có cách nào tính trực tiếp hơn một chút không? Trước hết, chúng ta tính các xác suất chuyển trạng thái (transition probability). Từ trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7B0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{0}' title='{0}' class='latex' /> đến <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> thì xác suất là <img src='http://s.wordpress.com/latex.php?latex=%7B1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1}' title='{1}' class='latex' />. Giả sử ta ở trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' /> với <img src='http://s.wordpress.com/latex.php?latex=%7Bm%20%5Cleq%20i%20%5Cleq%20n-1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m \leq i \leq n-1}' title='{m \leq i \leq n-1}' class='latex' />. Ta chỉ có thể chuyển đến trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7Bj%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{j}' title='{j}' class='latex' /> với <img src='http://s.wordpress.com/latex.php?latex=%7Bi%20%5Cleq%20j%20%5Cleq%20%5Cmin%5C%7Bi%2Bm%2Cn%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i \leq j \leq \min\{i+m,n\}}' title='{i \leq j \leq \min\{i+m,n\}}' class='latex' /> mà thôi, với xác suất</p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20p_%7Bij%7D%20%3D%20%5Cfrac%7B%5Cbinom%7Bi%7D%7Bm-%28j-i%29%7D%5Cbinom%7Bn-i%7D%7Bj-i%7D%7D%7B%5Cbinom%20n%20m%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  p_{ij} = \frac{\binom{i}{m-(j-i)}\binom{n-i}{j-i}}{\binom n m}. ' title='\displaystyle  p_{ij} = \frac{\binom{i}{m-(j-i)}\binom{n-i}{j-i}}{\binom n m}. ' class='latex' /></p>
<p>
Gọi <img src='http://s.wordpress.com/latex.php?latex=%7Bt_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t_i}' title='{t_i}' class='latex' /> là số bước kỳ vọng để bắt đầu từ trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' /> đến trạng thái <img src='http://s.wordpress.com/latex.php?latex=%7Bn%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{n}' title='{n}' class='latex' />. Ta cần tính <img src='http://s.wordpress.com/latex.php?latex=%7Bt_0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t_0}' title='{t_0}' class='latex' />. Rõ ràng là <img src='http://s.wordpress.com/latex.php?latex=%7Bt_0%20%3D%201%2Bt_m%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t_0 = 1+t_m}' title='{t_0 = 1+t_m}' class='latex' />, và <img src='http://s.wordpress.com/latex.php?latex=%7Bt_n%20%3D%200%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t_n = 0}' title='{t_n = 0}' class='latex' />. Với <img src='http://s.wordpress.com/latex.php?latex=%7Bm%20%5Cleq%20i%20%5Cleq%20n-1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m \leq i \leq n-1}' title='{m \leq i \leq n-1}' class='latex' /> thì dễ thấy công thức quy hồi:</p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20t_i%20%3D%201%20%2B%20%5Csum_%7Bj%3Di%7D%5E%7B%5Cmin%28i%2Bm%2Cn%29%7D%20p_%7Bij%7Dt_j.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  t_i = 1 + \sum_{j=i}^{\min(i+m,n)} p_{ij}t_j. ' title='\displaystyle  t_i = 1 + \sum_{j=i}^{\min(i+m,n)} p_{ij}t_j. ' class='latex' /></p>
<p>
Do đó, ta có thể dùng công thức sau đây để tính tất cả các <img src='http://s.wordpress.com/latex.php?latex=%7Bt_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t_i}' title='{t_i}' class='latex' />, với <img src='http://s.wordpress.com/latex.php?latex=%7Bm%20%5Cleq%20i%20%5Cleq%20n-1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m \leq i \leq n-1}' title='{m \leq i \leq n-1}' class='latex' />,</p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20t_i%20%3D%20%5Cfrac%7B1%20%2B%20%5Cdisplaystyle%20%5Csum_%7Bj%3Di%2B1%7D%5E%7B%5Cmin%28i%2Bm%2Cn%29%7D%20p_%7Bij%7Dt_j%7D%7B1-p_%7Bii%7D%7D%20%3D%20%5Cfrac%7B1%20%2B%20%5Cdisplaystyle%20%5Csum_%7Bj%3Di%2B1%7D%5E%7B%5Cmin%28i%2Bm%2Cn%29%7D%20%5Cfrac%7B%5Cbinom%7Bi%7D%7Bm-%28j-i%29%7D%5Cbinom%7Bn-i%7D%7Bj-i%7D%7D%7B%5Cbinom%20n%20m%7D%20t_j%7D%7B1-%5Cfrac%7B%5Cbinom%20i%20m%7D%7B%5Cbinom%20n%20m%7D%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  t_i = \frac{1 + \displaystyle \sum_{j=i+1}^{\min(i+m,n)} p_{ij}t_j}{1-p_{ii}} = \frac{1 + \displaystyle \sum_{j=i+1}^{\min(i+m,n)} \frac{\binom{i}{m-(j-i)}\binom{n-i}{j-i}}{\binom n m} t_j}{1-\frac{\binom i m}{\binom n m}}. ' title='\displaystyle  t_i = \frac{1 + \displaystyle \sum_{j=i+1}^{\min(i+m,n)} p_{ij}t_j}{1-p_{ii}} = \frac{1 + \displaystyle \sum_{j=i+1}^{\min(i+m,n)} \frac{\binom{i}{m-(j-i)}\binom{n-i}{j-i}}{\binom n m} t_j}{1-\frac{\binom i m}{\binom n m}}. ' class='latex' /></p>
<p>
<b>Bài tập mở.</b> Tìm asymptotic behavior của <img src='http://s.wordpress.com/latex.php?latex=%7Bt_m%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t_m}' title='{t_m}' class='latex' />.</p>
<p>
<b>Bài Tập.</b> Dùng chặn hội để chứng minh rằng xác suất mà Trần Huyền Phong lấy chưa đủ bộ sưu tập sau <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cfrac%20n%20m%20%5Cln%28n%2F%5Cdelta%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\frac n m \ln(n/\delta)}' title='{\frac n m \ln(n/\delta)}' class='latex' /> đêm xuất mã là nhỏ hơn <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\delta}' title='{\delta}' class='latex' />.</p>
<p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2010/12/29/bai-toan-mai-sieu-phong/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>Lexicon — xác suất thống kê và học máy</title>
		<link>http://www.procul.org/blog/2010/11/09/lexicon-xac-su%e1%ba%a5t-th%e1%bb%91ng-ke-va-h%e1%bb%8dc-may/</link>
		<comments>http://www.procul.org/blog/2010/11/09/lexicon-xac-su%e1%ba%a5t-th%e1%bb%91ng-ke-va-h%e1%bb%8dc-may/#comments</comments>
		<pubDate>Tue, 09 Nov 2010 05:45:35 +0000</pubDate>
		<dc:creator>Nguyễn Xuân Long</dc:creator>
				<category><![CDATA[Toán Ứng Dụng]]></category>
		<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[thống kê]]></category>
		<category><![CDATA[Thuật ngữ]]></category>
		<category><![CDATA[xác suất]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2532</guid>
		<description><![CDATA[Last Updated: 18/11/2010 Trang này lấy cảm hứng từ trang lexicon của chùa THT bắt đầu từ gợi ý của địa chủ blog này. Chủ đề trung tâm là suy diễn thống kê. Với nhãn quan này tôi bắt đầu từ lý thuyết xác suất, sau đó chuyển sang lexicon bên thống kê học và [...]]]></description>
			<content:encoded><![CDATA[<p>Last Updated: 18/11/2010</p>
<p>Trang này lấy cảm hứng từ trang <a href="http://thichhoctoan.wordpress.com/lexicon/">lexicon</a> của chùa THT bắt đầu từ gợi ý của địa chủ blog này.</p>
<p>Chủ đề trung tâm là suy diễn thống kê. Với nhãn quan này tôi bắt đầu từ lý thuyết xác suất, sau đó chuyển sang lexicon bên thống kê học và đảo qua học máy (machine learning) bên khmt rồi đến các giải thuật quy hoạch tối ưu.</p>
<p><span id="more-2532"></span></p>
<p>Số lượng lexicon tôi biết còn rất cám cảnh, mục tiêu chính (ích kỷ) ở đây sẽ là cơ hội (cho tôi) để học thêm. Có một số từ chuyên ngành sẽ khá là mới mẻ, đây sẽ là cơ hội để ta tự do sáng tác. Sẽ cố gắng thống nhất với các lexicon đã được xem là chuẩn, nhưng vẫn có thể xem lại một số chưa được sát nghĩa. Rất mong được sự góp ý của mọi người.</p>
<p>Khởi động với lý thuyết xác suất (có vẻ dễ dàng hơn cả, càng đi tiếp hình như càng cam go). Tôi sẽ tiếp tục cập nhật khi có thêm đóng góp.</p>
<p><strong>Mục lục.</strong></p>
<blockquote style="text-align: left;"><p><strong>1. Lý thuyết xác suất</strong></p>
<p>1.1 Căn bản<br />
1.2 Độc lập và hội tụ<br />
1.3 Quá trình ngẫu nhiên</p>
<p><strong>2. Mô hình thống kê</strong></p>
<p>2.1 Căn bản<br />
2.2 Tham số<br />
2.3 Đầy đủ và thông tin<br />
2.4 Nhãn quan Bayes và Tần suất<br />
2.5 Phân lớp các mô hình và cách tham số hóa<br />
2.6 Dao cạo của Occam</p>
<p><strong>3. Suy diễn thống kê</strong></p>
<p>3.1 Tổng quan<br />
3.2 Lý thuyết quyết định<br />
3.3 Các cách ước lượng/ học thống kê<br />
3.4 Các suy diễn thống kê cụ thể<br />
3.5 Thống kê vô hạn, lý thuyết học và lý thuyết thông tin<br />
3.6 Lựa chọn mô hình<br />
3.7 Thiết kế thí nghiệm</p>
<p><strong>4. Giải thuật thống kê/ học giả </strong></p>
<p>4.1 Tổng quan</p>
<p>&#8230;.</p></blockquote>
<p><strong>1. Lý thuyết xác suất:</strong></p>
<p><strong>1.1 Căn bản</strong>: Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự <strong><em>ngẫu nhiên</em></strong> (randomness). Đối tượng cơ bản nhất của LTXS là các <em>biến ngẫu nhiên</em> (random variables).  Để định nghĩa một biến ngẫu nhiên thì cần một <em><strong>hàm phân bố</strong> </em>(distribution function), qua đó có thể định nghĩa được các khái niệm như <em>trung bình</em> (mean) và <em><strong>phương sai</strong></em> (variance). Standard deviation gọi là <strong><em>độ lệch chuẩn</em></strong>. Mean và variance là các <em><strong>phiếm hàm</strong></em> (functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu diễn bởi <strong><em>hàm mật độ</em></strong> (density), theo định lý Radon-Nikodym.</p>
<p>Cơ sở toán học của lý thuyết xác suất là <em>thuyết độ đo</em> (measure theory), nhưng việc chính của các xác suất gia (?) (probablist) là xây dựng phát triển cáng nhiều loại đo đo xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa một <em>đại số sigma</em> (sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm <em><strong>độc lập</strong> </em>(independence), và mạnh mẽ hơn là <em><strong>độc lập có điều kiện</strong></em> (conditional independence). Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát hơn.</p>
<p><strong>1.2 Độc lập và hội tụ:</strong> Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh <em>hiện tượng <strong>tập trung của độ đo</strong></em> (concentration of measure). Bắt đầu là <strong><em>luật các số lớn</em></strong> (có phiên bản<em> luật mạnh</em> (strong law) và<em> luật yếu</em>). Luật <strong><em>giới hạn trung tâm</em> </strong>(Central limit theorem) nhắc rằng sample mean (<strong><em>mẫu trung bình</em></strong>)  có quy luật <strong><em>bình thường</em></strong> (normal/Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm <em>hội tụ</em> (convergence) trong giải tích. Hội tụ <strong><em>gần chắc</em></strong> (almost sure), <em><strong>hội tụ về phân bố hoặc về luật</strong> </em>(convergence in distribution/ in law).  Ngoài luật số lớn còn có <strong><em>luật các số nhỏ</em> </strong>(hay luật các hiện tượng hiếm có &#8212; law of rare events), cho ta biết khi nào thì mẫu trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất &#8212; là những viên gạch cho toàn bộ lâu đài XS.</p>
<p>Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là <strong><em>tính hoán chuyển được</em></strong> (exchangeability).  Nếu tính độc lập là nền tảng cho các phương pháp <strong><em>suy diễn tần số</em></strong> (frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp<strong> suy diễn Bayesian</strong>. Tính hoán chuyển được đang được mở rộng ra thành <em><strong>hoán chuyển từng phần</strong></em> (partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các <em><strong>vật thể tổ hợp </strong></em>(combinatorial object) rời rạc và phức tạp.</p>
<p><strong>1.3 Quá trình ngẫu nhiên:</strong> LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp, nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những <em>tập các hàm số đo được</em> (measurable functions), và hàm phân bố cho các <em><strong>độ đo ngẫu nhiên</strong></em> (random measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các <strong><em>quá trình ngẫu nhiên</em></strong> (stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ các điều kiện <strong><em>nhất quán</em></strong> (consistency) của độ đo cho các <em>cylinder sets</em>. Đây là cách để chúng ta xây dựng được các hàm phân bố cho <em>quá trình Gauss</em> (Gaussian processes), <em>quá trình Dirichlet</em> (Dirichlet process), v.v.</p>
<p>Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào <em>phép biến đổi Fourier</em> (Fourier transform) của các hàm phân bố.  Theo ngôn ngữ XS thì khái niệm này gọi là <strong><em>hàm tính cách</em></strong> (characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần khái niệm các hàm phân bố <strong><em>khả phân vô hạn</em></strong> (infinitely divisible). Khái niệm tiếp theo là các hàm <strong><em>phân bố ổn định</em> </strong>(stable distribution). Gauss và Poisson chính là hai hàm phân bố ổn định &#8212; không phải là &#8220;ngẫu nhiên&#8221; nếu chúng ta quay về các luật số lớn và số nhỏ nhắc ở trên. Max-stable là một họ<strong><em> phân bố cực đại ổn định</em></strong>.</p>
<p>Các quá trình ngẫu nhiên có tính chất <strong><em>gia tăng độc lập</em></strong> (independent increment) gọi là quá trình Lévy. Tổng quát hơn một chút là các <strong><em>độ đo hoàn toàn độc lập</em></strong> (completely random measures). Định lý biểu diễn Lévy-Khintchine cho chúng ta biết rõ hàm tính cách của các quá trính stochastic này là gì, thông qua <em>độ đo Lévy </em>(Levy measure). Chọn độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tương ứng. Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ của các lâu đài xác suất đồ sộ:  Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả các quá trính Lévy đều có thể được decompose <em>(<span style="text-decoration: line-through;">phân rã</span>) (phân tách) </em>thành tổng của ba quá trình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quá trình <strong><em>phức hợp</em></strong> (compound) Poisson, và một là quá trình martingale.</p>
<p>Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫu nhiên. Thay vì hình dung sigma đại số (recipe làm bánh) thì ta có thể mô tả những cái bánh. Nếu quá trình được liệt kê bởi tham số thởi gian, thì một cái bánh ở đây có thể hiểu là một <em>lối mẫu</em> (sample path). Với một số quá trình ngẫu nhiên thì có thể mô tả cách tạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp <em>nhặt mẫu từ giỏ Pólya</em> (Pólya&#8217;s urn).  Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng <strong><em>biểu diễn bẻ gậy</em></strong> (stick-breaking representation). Theo biểu diễn này thì cần các <em>nguyên tử</em> (atom) và các <em>mẩu gậy</em> (stick-breaking weight). Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở của độc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằng các nguyên liệu giản đơn hơn.</p>
<p>Được quan tâm hàng đầu là biểu hiện của giá trị <em>kỳ vọng</em> (expectation) của một vật thể xác suất. Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bản thân nó cũng là một biến ngẫu nhiên. Một công cụ quan trọng là khái niệm martingale. Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là <em><strong>quá trình đánh bạc</strong></em>(?). Cần khái niệm filtration (<em><strong>hệ thống lọc</strong></em>). Ngoải ra ta còn có submartingale, supermartingale và semimartingale (?). Nhờ các công cụ này mà ta có thể tìm hiểu các khái niệm xác suất hữu ích như<strong> <em>thời điểm dừng</em></strong> (stopping time), <strong><em>thời điểm chạm</em></strong> (hitting time), <strong><em>thời gian/thởi điểm vượt biên</em></strong> (boundary crossing time).</p>
<p>Một họ quá trình NN rất thông dụng là <em>quá trình Markov</em> (Markov process). Định nghĩa trên cơ sở <strong><em>hạch xác suất chuyển dịch</em></strong> (transition probability kernel), và khái niệm hệ thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local time được dịch là <strong><em>thời gian địa phương</em></strong>. Quá trình Markov cho thời gian rời rạc còn gọi là <em><strong>chuỗi Markov</strong> (hoặc<strong> xích Markov</strong>).</em> Liên qua đến chuỗi Markov là lý thuyết ergodic (?). Irreducibility dịch là <strong><em>bất khả quy</em></strong>.  Một vấn đề được quan tâm là <em>thời gian <strong>hòa tan</strong></em> (mixing time) của chuỗi Markov.  Điều kiện cần cho chuỗi Markov được hòa tan về một trạng thái <em>phân bố bất dịch (phân bố dừng)</em> (stationary distribution)  là ergodicity, thỏa mãn phương trính<strong> c<em>ân bằng chi tiết</em></strong> (detailed balance). Chuỗi Markov định nghĩa cho không gian rởi rạc (<em><strong>dàn</strong></em> lattice chẳng hạn) thì sẽ trở thành quá trình<strong> <em>đi bộ ngẫu nhiên</em></strong> (random walk).  Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự <strong>cặp đôi</strong>. Coupling from the past? Quá đơn giản, <strong>cặp nhau từ quá khứ</strong>! Time-homogeneous Markov process gọi là <strong><em>quá trình Markov đồng biến</em></strong>.</p>
<p>Nói đến quá trình ta thường nghĩ đến thời gian &#8212; cụ thể là các quá trình NN thường được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là <strong><em>trường ngẫu nhiên Markov</em></strong>. Gaussian random field là <strong><em>trường ngẫu nhiên Gauss</em></strong>. Poisson point process gọi là <strong><em>quá trình điểm Poisson</em></strong> (lại quá trình, nhưng kỳ thực phải gọi là trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là <em><strong>hiện tượng chuyển pha</strong></em>.</p>
<p>Một dạng quá trình NN khá hay ho gọi là empirical process (<strong><em>quá trình thực nghiệm</em></strong>). Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói  ở mục sau.</p>
<p>Các khái niệm quan trọng khác: percolation, excursion, optional stopping</p>
<p><!--more--></p>
<p><strong>2. Mô hình thống kê</strong></p>
<p><strong>2.1 Căn bản. </strong><em><strong>Mô hình thống kê</strong></em> (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyên liệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS. Cái khác ở đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là <em><strong>dữ liệu</strong></em> (data), những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằng thực nghiệm và các thiết bị công nghệ. Cho nên trọng tâm của việc xây dựng mô hình thống kê là làm sao <em><strong>ước lượng</strong></em> (estimate) /<em><strong>học</strong></em> (learn) được mô hình này từ dữ liệu, làm sao có thể đánh giá được tính <em><strong>hiệu quả</strong></em> (efficiency) hoặc tính <em><strong>phổ quát</strong></em> (generalization) của mô hình, làm sao có thể <em><strong>chọn ra được mô hình</strong></em> hữu ích (model selection/model choice).</p>
<p><strong>2.2 Tham số.</strong> Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải <strong>tham số</strong> hóa (parameterization) mô hình. Các <strong><em>tham số</em></strong> (parameter) là phần còn lại của mô hình xác suất mà chúng ta phải ước lượng, học. Đến đây có một vấn đề nho nhỏ, các tham số là một giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên. Có hai cách tiếp cận vấn đề này, <strong><em>trường phái tần suất</em></strong> giả dụ cách đẩu, còn <em><strong>trường phái Bayes</strong></em> thì giả dụ cách sau. Nếu các tham số là có số chiều hữu hạn, ta có một <strong><em>mô hình tham số</em></strong> (parametric model), nếu số chiều là vô hạn thì ta có <em><strong>mô hình phi tham số</strong></em> (nonparametric model). Như vậy, gọi là phi tham số không có nghĩa là không có tham số. Nếu tham số là ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là <strong><em>mô hình phi tham số Bayes</em></strong> (Bayesian nonparametric model). Điều này không có nghĩa làm việc với các mô hình dạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người phát triến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãn quan Bayes. Song không nhất thiết phải vậy.</p>
<p><strong>2.3 Đầy đủ và thông tin</strong>. Một công cụ quan trọng trong việc tham số hóa là khái niệm<em><strong> thống kê đầy đủ</strong></em> (sufficient statistics). Để hiểu khái niệm này phải hiểu khái niệm <em><strong>thống kê</strong></em> là gì. Một thống kê là một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên hệ với khmt thì thống kê chính là <em><strong>đầu ra</strong></em> (output) của một <em><strong>giải thuật</strong></em> sử dụng dữ liệu như là <em><strong>đầu vào</strong></em>.  Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý <em><strong>biểu diễn phân tích Fisher-Neyman</strong></em> (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm thống kê đầy đủ là một khái niệm có tính lý thuyết <strong>thông tin</strong> (information-theoretic), có thể phát biểu bằng tính <em>độc lập có điều kiện</em> và các khái niệm entropy.</p>
<p>Một loạt các mô hình đẹp có thể được động viên từ khái niệm cần và đủ kiểu này. Mô hình <em><strong>họ mũ</strong></em> (exponential family) là mô hình tạo ra dữ liệu ngẫu nhiên nhất có thể được, nếu các thống kê đầy đủ đã được cho. <em><strong>Mô hình xác suất đồ thị </strong></em>(probabilistic graphical model) là mô hình duy nhất thỏa mãn các ràng buộc về độc lập có điều kiện cho các biến ngẫu nhiên, theo định lý Hammersley-Clifford. Nếu các biến ngẫu nhiên được giả dụ là hoán chuyển được, thì chúng bắt buộc phải được mô tả bởi một <em><strong>mô hình trộn/ mô hình hỗn hợp </strong></em>(mixture model), theo định lý nổi tiếng của de Finetti. Nếu các biến ngẫu nhiên có hàm phân bố không thay đổi kể cả khi bị <em><strong>biến đổi trực chuẩn</strong></em> (orthornomal transformation) thì chúng bắt buộc phải được mô tả bởi một elliptically contoured distribution (<em><strong>phân bố có đường cong ê líp</strong></em>), kiểu như Gauss đa biến vậy.</p>
<p><strong>2.4 </strong><strong>Nhãn quan Bayes và tần suất</strong>. Các mô hình thống kê cho ta keo dính để gắn kết các dữ liệu với nhau, và là đối tượng trung tâm của ngành thống kê. Nhưng trong lịch sử và đến tận bây giờ, các mô hình vẫn được trường phái Bayes chào đón nồng nhiệt hơn là trường phái tần suất, bởi vì sự lệ thuộc vào một mô hình thống kê làm cho người ta liên tưởng đến sự lệ thuộc vào <em><strong>tiên nghiệm</strong></em> (prior knowledge) quá nhiều, và do đó thiếu đi sự &#8220;khách quan&#8221;. Đặc biệt trong trường phái Bayes có một nhánh gọi là <strong><em>Bayes chủ quan</em></strong> (subjective Bayes) và <em><strong>Bayes khách quan</strong></em>. Những người theo Bayes chủ quan cho rằng, nếu ta có những <em><strong>niềm tin chủ quan </strong></em>(subjective belief) nhất định về dữ liệu, thì ta sẽ sử dụng một mô hình xác suất tương ứng, do các định lý kiểu như của de Finetti và Hammersley-Clifford kể trên. Một mảng không nhỏ của ngành thống kê học, thuộc trường phái tấn suất, tập trung vào các phương pháp <em><strong>mô hình tự do</strong></em> (distribution free), qua đó không sử dụng một mô hình xác suất cụ thể nào, mặc dù họ có giả sử là tộn tại một hàm phân bố để tạo ra các mẫu dữ liệu một cách độc lập.  Chú ý rằng điều này không có nghĩa là các nhà tần suất là khách quan hơn các nhà Bayes chủ quan, vì sự giả dụ tính độc lập nói chung là mạnh hơn sự giả dụ tính độc lập điều kiện, hay tính hoán chuyển được. Cả hai cách nhìn Bayes và tần suất đều hữu ích trong các ngữ cảnh khác nhau, và về nhiều mặt không có phe hoàn toàn đúng. Cả hai cách nhìn này đều chứa chất mâu thuẫn trong mình, có sự đối chọi nhau, nhưng cũng có sự tương hỗ nhau giống như bức tranh âm-dương trong Kinh Dịch vậy. Ta sẽ tiếp tục soi lại quan hệ này mỗi khi có dịp.</p>
<p><strong>2.5 Phân lớp các mô hình cụ thể và cách tham số hóa</strong>.  Các mô hình thống kê giống như các sinh vật trong thế giới tự nhiên, rất đa dạng và có thể được phân lớp, và có thể quan sát sự phức tạp tăng dần với quá trình phát triển của ngành. Trong ngành học máy thì một số người còn gọi một mô hình là một cái máy (machine), nghe công nghệ, hiện đại và mới mẻ hơn. Để mô tả một mô hình thì cần phải nói cách tham số hóa của chúng thế nào, nên cần rất nhiều khái niệm và lexicon. Tham số hóa thế nào chính là vấn đề cơm và nước mắm của người học thống kê.</p>
<p>Với rất nhiều biến ngẫu nhiên, cần phải định ra joint distribution (<em><strong>phân bố liên hợp</strong></em>). Marginal distribution gọi là ? Conditional distribution gọi là phân bố điều kiện. Covariates gọi là <em><strong>đồng biến</strong></em>. Trong công nghệ thường là đầu vào. Features thực ra cũng là đồng biến, nhưng xuất xứ từ học máy, và sẽ gọi là <em><strong>đặc trưng</strong></em>.</p>
<p>Trong họ mũ, có hai cách tham số hóa. Natural parameterization gọi là cách<strong><em> tham số hóa tự nhiên</em></strong>. Canonical parameterization gọi là <strong><em>tham số hóa chính tắc</em></strong>? Còn gọi là <strong><em>tham số hóa trung bình</em></strong> (mean parameterization). Hai hệ tham số kể trên có liên hệ mất thiết với nhau qua quan hệ<strong><em> đối ngẫu liên hợp</em></strong> (conjugate duality), một khái niệm của giải tích lồi (convex analysis). Trong <em><strong>hình học thông tin</strong></em> (information geometry) thì hai hệ tham số này có thể hiểu qua khái niệm e-flat manifold và m-flat manifold (?). Normalizing constant gọi là <em><strong>hắng số chuẩn hóa</strong></em>. trong vật lý thống kê thì khái niệm này còn gọi là partition function &#8212; <strong><em>hàm ngăn phần</em></strong>. Các mô hình thông dụng trong vật lý lý thuyết như mô hình Ising, spin glass (?), đều là trường hợp đặc biệt của họ mũ. Rất nhiều hàm phân bố là trường hợp đặc biệt của họ mũ. Đặc biệt quan trọng là multivariate Gaussian dịch là <strong><em>Gauss đa biến</em></strong>. Mean vector và covariance matrix gọi là <strong><em>vector trung bình</em></strong> và ma trận <em><strong>hiệp phương sai</strong></em>.</p>
<p>Mô hình họ mũ lại là trường hợp đặc biệt của họ <strong><em>mô hình xác suất đồ thị </em></strong>(graphical model). Phân biệt graphical và graph và graphics thể nào đây? Để định nghĩa mô hình này cần potential function (<strong><em>hàm tiềm năng</em></strong>), được định nghĩa trên clique (?) của các biến ngẫu nhiên. Có hai loại mô hình XSDT. Một là <strong><em>mô hình đồ thị vô hướng</em></strong> (undirected graphical model), cũng đồng nghĩa với trường ngẫu nhiên Markov (Markov random fields). Một là <strong><em>mô hình đồ thị có hướng</em></strong> (directed graphical model), còn gọi là <em><strong>mạng Bayes</strong></em> (Bayesian network) của Pearl. Trong mạng Bayes có khái niệm <strong><em>nốt cha</em></strong> và <strong><em>nốt con</em></strong>. Khái niệm moralization gọi là <em><strong>lấy nhau</strong></em>. Một số trường hợp thông dụng của mạng Bayes có thể kể đến mô hình <strong><em>cây xác suất ĐT</em></strong> (tree-structured graphical model), mô <strong><em>hình đa  cây</em></strong> (polytree) nhưng có lẽ gọi là <strong><em>cây đa</em></strong> cũng thích hợp, mô hình <strong><em>Markov ẩn</em></strong> (hidden Markov), mô hình <em><strong>lọc Kalman</strong></em> (Kalman filter), <strong><em>mài trơn Kalman</em></strong> (Kalman smoothing) &#8230; Latent/hidden variables gọi là các <em><strong>biến ẩn</strong></em>. Naive Bayes tạm gọi là <em><strong>Bayes thơ ngây</strong></em>, hoặc Bây ngô. Mạng Bayes cho các dạng dữ liệu tuần tự (sequential data) còn gọi là dynamic Bayes net (?).</p>
<p>Một số mô hình tham số khác phải kể đến: Mô hình <em><strong>hổi quy tuyến tính</strong></em>,<em><strong> mạng nơ ron</strong></em> (neural network), mô hình <strong><em>cây quyết định</em></strong> (decision tree), mô hình<em><strong> hợp xướng</strong></em> (ensemble), mô hình <em><strong>hổi quy logit</strong></em> (logistic regression), mô hình <strong><em>tuyến tính tổng quát</em></strong> (generalized linear model), mô hình<strong><em> mạng tin, mạng tin sâu</em></strong> (deep belief net). v.v. Những mô hình kiểu này thường áp dụng vào các vấn đề suy diễn cụ thể hơn, đặc biệt trong bài toán phân lớp (classification) và hồi quy (regression). Có một số cách phân loại nữa: Trong học máy thì các mô hình dự trên hàm phân bố xác suất liên hợp thường gọi là <em><strong>mô hình sinh mẫu</strong></em> (generative model), nhưng cũng có một số mô hình áp dụng cho các vẫn đề liên quan đến xác suất điều kiện thì gọi là <em><strong>mô hình phân biệt</strong></em> (discriminative model). Cái sau hay được dùng cho các kiểu suy diễn đặc biệt hơn như bài toán phân lớp, bài toán phân hạng, v.v.</p>
<p>Một mô hình bao gồm cả tham số có số chiều hữu hạn và tham số có số chiều vô hạn thường gọi là <em><strong>mô hình bán tham số</strong></em> (semiparametric model).  Một ví dụ tiêu biểu là <strong><em>mô hình hồi quy Cox</em></strong> (Cox regression model) trong bài toán <em><strong>phân tích sống sót</strong></em> và <strong><em>phân tích sự kiện lịch sử</em></strong> (survival analysis/ event history analysis). Time to event data dịch là dữ liệu sự kiện. Trong mô hình này, thành phần tham số hữu hạn gắn liền với những đồng biến (covariates) quan tâm,  thành phần tham số vô hạn là <strong><em>c</em><em>ường độ tử vong/lỗi cơ bản</em></strong> (baseline hazard intensity). Đôi khi họ các mô hình bán tham số được gộp chung vào họ các mô hình phi tham số.</p>
<p>Họ các mô hình phi tham số Bayes được lấy từ các quá trình ngẫu nhiên kể trên. Infinite mixture model gọi là <strong><em>mô hình trộn/ hỗn hợp vô hạn</em></strong>. Có các quá trình đậm chất ẩm thực: Quá trình <strong><em>nhà hàng Tàu</em></strong> (Chinese restaurant process), <em>q</em><strong><em>uá trình búp phê Ấn độ </em></strong>(Indian buffet process). Quá trình coelescence gọi là gì? Với dân tần suất thì nhiều khi các mô hình phi tham số chỉ là tập các hàm quen thuộc trong giải tích hàm. Ví dụ <em><strong>lớp Sobolev</strong></em> (Sobolev class), <em><strong>lớp Besov</strong></em>, <strong><em>không gian Hilbert</em></strong> <em><strong>nhân tự sinh</strong></em> (reproducing kernel Hilbert space), lớp smoothing splines (?), v.v.  Dân Bayes sẽ luôn luôn nói về các hàm phân bố (độ đo) cho các hàm số kiểu này.</p>
<p>Dân Bayes còn có một việc là phải tham số hóa các tham số. Theo cách nhìn Bayes, các tham số cũng ngẫu nhiên, phải được giả dụ bởi một hàm phân bố khác. Các tham số của hàm này sẽ là hyperparameter (<strong><em>tham số tầng trên/ tham số thượng tầng?</em></strong>). Nếu là người theo Bayes cuồng tín, thì các tham số thượng tầng này cũng phải ngẫu nhiên&#8230; và phải tiếp tục quá trình tham số này đến tận Big Bang. Điều này dẫn đến một họ <strong><em>mô hình đa tầng</em></strong> (hierarchical model/ multi-level model), rất mạnh và rất giàu. Tuy có thể coi là một trường hợp của mô hình XSDT, nhưng trọng tâm và nguổn gốc rất khác, nên ta không nên gộp làm một. (Chú ý là ta không thể đi đến tận Big Bang, nên sau vài tầng của hierarchy thì các nhà thống kê Bayes cũng sẽ  mệt và dửng lại. Trên thực tế, khi đó vai trò của các tham số tầng rất cao không còn ý nhiều trong chuyện chi phối các biểu hiện của mô hình nữa). Việc định ra cách tham số hóa các tham số còn gọi là sự định ra các prior distribution <strong><em>(phân bố tiên nghiệm</em></strong>) cho các tham số ngẫu nhiên. Áp dụng  <em><strong>công thức </strong><strong>Bayes</strong></em> (Bayes rule) thì tính được posterior distribution, dịch là <em><strong>phân bố hậu nghiệm</strong></em>. Conjugate prior thì gọi là <em><strong>phân bố tiên nghiệm liên hợp</strong></em>. Tham số hóa cho các tham số hyper còn gọi là sự định ra các hyperprior (<em><strong>phân bố tiên nghiệm thượng tầng</strong></em>). Quyết định lựa chọn prior nào (<strong><em>sự chỉ định tiên nghiệm</em></strong>) phụ thuộc vào sự giằng co giữa tiên nghiệm (prior knowledge), thực nghiệm từ dữ liệu (empirical data), và sự thuận tiện về tính toán (computational convenience). Sử dụng các phân bố tiên nghiệm liên hợp (phát âm đầy mồm!) là một ví dụ của sự thuận tiện. Sự giẳng co giữa tiên nghiệm và thực nghiệm chẳng qua là một thể hiện của dao cạo Occam, dưới nhãn quan của trường phái Bayes.</p>
<p>Dân tần suất thì không thích khái niệm tham số hyper chút nào, mà cho rằng các tham số phải là không ngẫu nhiên. Về mặt mô hình mà nói thì cách nhìn này là cái trói vô hình, theo quan điểm Bayes những tham số kiểu này là vẫn có thể coi là ngẫu nhiên theo <em>một độ đo Dirac</em> (<em><strong>độ đo nguyên tử </strong></em>&#8211; atomic measure), một sự ràng buộc rất chặt không cần thiết. Cho nên, trong lịch sử mô hình của các nhà tần suất thường không giàu có bằng mô hình của các nhà Bayes. Tuy không nhất thiết phải là như vậy.</p>
<p><strong>2.6 Dao cạo của Occam.</strong> Như ông Gớt nói là mọi chân lý đều màu xám, còn cây đời thì mãi mãi xanh tươi. Thay chữ chân lý bằng chữ mô hình, thay chữ cây đời bằng chữ dữ liệu quan sát được, ta có một biên phản cho các nhà thống kê. Bác George Box có một câu nổi tiếng tương tự &#8212; mọi mô hình đều sai, chỉ có những mô hình hữu ích hay không. Cho nên ta phải nhìn nhận các mô hình là cách chúng ta <em><strong>xấp xỉ </strong></em>thế giới thực nghiệm. Vì vậy ngoài <em><strong>sai số ước lượng</strong></em> (estimation error) của các tham số, còn có một dạng sai số gọi là <em><strong>sai số xấp xỉ </strong></em>(approximation error). Mô hình dùng ngôn ngữ thống kê và các cấu trúc toán học (như các quá trình stochastic) làm viên gạch, nhưng lại được ước lượng, điều chỉnh (update), và đánh giá, phân tích bằng dữ liệu thật.  Công cụ toán học càng mạnh thì<em><strong> tính phức tạp mô hình</strong></em> (model complexity) càng lớn, dẫn đến khả năng biểu diễn của một mô hình càng lớn, khi đó sai số xấp xỉ sẽ nhỏ, song việc ước lượng (estimation) từ dữ liệu cũng có thể lớn lên.  Đây chính là <em><strong>giằng co</strong></em> (tradeoff ) giữa sai số xấp xỉ và sai số ước lượng. Hiện tượng này gọi là cái <strong><em>dao cạo của Occam</em></strong> (Occam&#8217;s razor),  luôn luôn ám ảnh và xuyên suốt mọi quyết định trong việc thiết kế và đánh giá một mô hình học. Sợ nhất là mô hình overfit dữ liệu (<strong><em>quá rộng</em></strong>) Một đánh giá khách quan đối với sự hiệu quả và tích hữu ích của một mô hình là tính dự báo của nó, và nói chung thì lỗi dự báo thường được chặn bởi hai dạng sai số nói trên. Liên quan đến các khái niệm xấp xỉ: Model misspecification gọi là sự <em><strong>chỉ định mô hình không chuẩn</strong></em>. Khái niệm model identifiability gọi là <em><strong>tính khả nhận diện mô hình</strong></em>. Parameter identifiability là <strong><em>tính khả nhận diện của tham số</em></strong>.</p>
<p>Tóm tắt: joint probability, marginal probability, conditional probability, model identifiability, model mis-specification, model choice, model selection, parameter identifiability, consistency, parametric model, nonparametric, exponential family, curved exponential family, graphical model, hierarchical model, mixture model, hidden markov model, copula model, latent/hidden variables, nonparametric Bayesian model, density, intensity measure, analysis of variance, functional data, curve data, prior distribution, posterior distribution, a priori, a posteriori, sufficient statistics, order statistics, mean parameterization, canonical parameterization, normalizing constant, log-partition function, mean function, covariance function, covariates, features, conjugate prior, conjugacy</p>
<p><strong><!--more-->3. Các phương pháp suy diễn thống kê </strong></p>
<p><strong>3.1 Tổng quan. </strong>Cần phân biệt <em><strong>suy diễn thống kê</strong></em> (statistical inference) với <strong><em>suy diễn xác suất</em></strong> (probabilistic inference). Cái sau chỉ là sự tính toán các xác suất điều kiện trên cơ sở mô hình xác suất. Còn SDTK là suy diễn trên cơ sở mô hình thống kê với sự hiện diện của số liệu. Có hai vấn đề chính, một là <strong><em>suy diễn về tham số</em></strong>, hay còn gọi là <strong><em>ước lượng về tham số</em></strong> (parameter estimation), và <strong><em>dự báo</em></strong> (prediction). Với nhãn quan Bayes thì suy diễn thống kê còn gọi là <em><strong>suy diễn Bayes</strong></em>, về mặt toán học thì không khác gì suy diễn xác suất vì cả tham số và dữ liệu đều được mô tả bằng biến ngẫu nhiên. Cho nên về mặt khái niệm thì đơn giản, mẫu mực. Với nhãn quan tấn suất thì cách tiếp cận đến các vấn đề suy diễn thống kê khó khăn hơn về mặt khái niệm, và đòi hỏi các cách tiếp cận không mẫu mực. Trong học máy thì vấn đề ước lượng về tham số còn gọi là <strong><em>học. </em></strong></p>
<p>Nếu như trong vấn đề xác định mô hình thì quan điểm Bayes và quan điểm tần suất có tính tương hỗ nhau (ví dụ, anh Bây nói với với anh Tần: Tôi mệt rồi, cho phép cái tham số hyper của tôi là không ngẫu nhiên nhá &#8212; và anh Tần nói với anh Bây: Cho tôi gọi tham số của anh là biến ẩn nhá), thì trong vấn đề suy diễn, hai quan điểm này xung khắc nhau quyết liệt bất phân thắng bại. Quan điểm của Bây là: đối với vấn đề ước lượng tham số thì chỉ suy diễn điều kiện vào dữ liệu có sẵn (conditioning on data), và &#8220;<strong><em>marginalize out/ integrate out</em></strong>&#8221; (?) các tham số ngẫu nhiên trong việc dự báo. Quan điểm của Tần là: đồi với vấn đề ước lượng tham số thì phải suy diễn cho cả <em><strong>dữ liệu tưởng tượng</strong></em> (imaginary data, và dùng ước lượng &#8220;<strong><em>plug-in</em></strong>&#8221; (?) trong việc dự báo. Tiêu chuẩn của Bây là lạc quan, quan tâm nhiều đến <strong><em>phân tích trường hợp trung bình</em></strong> (average-case analysis). Tiêu chuẩn của Tần rất bi quan, chú trọng nhiều hơn đến <em><strong>phân tích tình huống xấu nhất</strong></em> (worst-case analysis). Đây chỉ là hai thái cực để cho thấy sự khác biệt. Trên thực tế có thể  kết hợp cả hai cách tiếp cận trong việc suy diễn từ dữ liệu.</p>
<p>Có một số vấn đề suy diễn cụ thể hơn, và do đó có một số lexicon riêng: Point estimation gọi là<em><strong> ước lượng điểm</strong></em> (một khái niệm của TK Tần). Hypothesis testing gọi là <strong><em>kiểm định lý thuyết </em></strong>(phép thử lý thuyết?).  Classification gọi là <strong><em>vấn đề phân lớp</em></strong>. Clustering gọi là <strong><em>vấn đề chia nhóm</em></strong>. Bài toán ranking trong học máy gọi là <strong><em>vấn đề phân hạng</em></strong>.  <em><strong>Supervised learning</strong></em> gọi là <strong><em>học có nhãn, học có hướng dẫn</em></strong>. Unsupervised learning gọi là <em><strong>học không nhãn (học không có hướng dẫn, học không thầy)</strong></em>. Sequential analysis gọi là <strong><em>phân tích chuỗi/ phân tích tuần tự</em></strong> (?), mà cụ thể có bài toán optimal stopping dịch là bài toán <em><strong>dừng tối ưu</strong></em>. Survival analysis gọi là <strong><em>phân tích sự sống sót</em></strong> (?). Vấn đề change point detection gọi là bài toán <em><strong>phát hiện điểm thay đổi</strong></em>. Chú ý là tất cả các vẫn đề suy diễn cụ thể này đều có thể hiểu tổng quát theo một trong hai vấn đề suy diễn (ước lượng tham số, hoặc dự báo), đều có thể tiếp cận theo cách nhìn Tần hay Bây, nhưng có thể sự điểu chỉnh một chút về cách đánh giá của suy diễn.</p>
<p><strong>3.2 Lý thuyết quyết định</strong>. Nền tảng lý thuyết của suy diễn thống kê chính là <em><strong>lý thuyết quyết định</strong></em> của Abraham Wald. Cần khái niệm rủi ro (risk). Rủi ro Bayes là Bayes risk. Rủi ro là kỳ vọng của <em><strong>hàm thiệt hại/tổn thất/thiệt/mất </strong></em>(loss function). Dân kinh tế sẽ dùng hàm utility (<strong><em>hàm tiện ích</em><em>/thỏa dụng</em></strong>) thay vì dùng hàm thiệt hại. Một khái niệm tương tự là hàm reward (?)  trong môn học reinforcement learning(?), và quá trình quyết định Markov.</p>
<p>Lý thuyết quyết định là cái ô chung cho cả hai trường phái Bây và Tần, nhưng với dân Tần thì có nhiều việc phải lo hơn. <em><strong>Estimator</strong></em> dịch là <em><strong>cách ước lượng</strong></em> cho một tham số, và là một hàm số áp dụng vào dữ liệu. Như vậy cũng giống một thống kê, như vậy có thể coi một thống kê là một cách ước lượng thô sơ.  Estimate là <em><strong>một ước lượng</strong></em> cụ thể cho một tham số nào đó. Trong bài toán phân lớp thì estimator còn gọi là một learning machine (<em><strong>máy học</strong></em>), estimate sẽ là <em><strong>hàm số phân lớp</strong></em> (classifier).  Trong vấn đề kiểm định lý thuyết (hypothesis testing) thì cái phải ước lượng là một<em><strong> hàm số quyết định</strong></em> (decision function).  Dù theo nhãn quan nào thì đều cần tìm ước lượng theo tiêu chuẩn có <em><strong>giá trị rủi ro tối thiểu</strong></em> (minimum risk criterion).  Nhưng rủi ro của anh Bây thì khác với anh Tần.  <em><strong>Kỳ vọng tần suất</strong></em> (frequentist expectation) là kỳ vọng của hàm mất đối với phân bố của dữ liệu (ảo tưởng) trên cơ sở một mô hình với một tham số có sẵn. <em><strong>Kỳ vọng Bayes</strong></em> là giá trị kỳ vọng của hàm mất đối với phân bố điều kiện của tham số trên cơ sở dữ liệu có sẵn. Nói cách khác, với anh Tần thì dữ liệu là ngẫu nhiên, với anh Bây thì tham số là ngẫu nhiên. Nếu lấy kỳ vọng của kỳ vọng tần suất đối với phân bố của tham số, hoặc lấy kỳ vọng của kỳ vọng Bayes đối với phân bố của dữ liệu thì ta cùng nhận được Rủi ro Bayes!</p>
<p>Một số hàm thiệt hại thông dụng: <strong><em>Hàm thiệt  0-1</em></strong>. Khi đó Rủi ro Bayes gọi là <em><strong>Lỗi Bayes </strong></em>(Bayes error).  <em><strong>Hàm thiệt bình phương</strong></em> (square loss). <em><strong>Hàm thiệt mũ</strong></em> (exponential loss). <strong>Hàm thiệt logit</strong> (logistic loss). Surrogate loss sẽ được dịch là <em><strong>hàm thiệt thế chỗ</strong></em> (?). Để so sánh các cách ước lượng (estimator) khác nhau người ta có thể dùng tiêu chuẩn Bayes (thông qua việc so sánh <em><strong>Rủi ro Bayes</strong></em>). Dân tần suất sẽ hay dùng <strong><em>tiêu chuẩn minimax</em></strong>, mượn từ lý thuyết trò chơi (mà cuộc chơi ở đây là giữa nhà thống kê và Trời &#8212; chỉ Ông Trời biết chân lý (mô hình đúng là gì, và ông trời mỗi lần ra tay sẽ nhả ra một mẫu dữ liệu). Cần một số phẩm chất cho các cách ước lượng, như khái niệm unbiasedness (?), admissibility (?), consistency (<strong><em>nhất quán</em></strong>), invariance (<em><strong>bất biến phương sai</strong></em>), efficiency (<strong><em>hiệu quả</em></strong>), superefficiency (<strong><em>siêu hiệu quả</em></strong>). Dân Bayes chủ quan không quan tâm đến mấy cái chuẩn này, vì họ đã có niềm tin son sắt vào tiên nghiệm rồi, và suy diễn Bayes bằng cách tính phân bố hậu nghiệm là xong. Tuy vậy phương pháp suy diễn Bayes chủ quan có nhiều tính chất lý thuyết rất tốt. Suy diễn dựa trên cơ sở của phân bố hậu nghiệm được chứng minh là tối ưu theo tiêu chuẩn Rủi ro Bayes. Dân Bayes khách quan thì không quá tự tin như dân Bayes chủ quan, nên họ muốn phân bố tiên nghiệm phải có những phẩm chất tốt. <em><strong>Tính nhất quán hậu nghiệm</strong></em> (posterior consistency) là một phẩm chất quan trọng.</p>
<p><strong>3.3 Các cách ước lượng/học thống kê.</strong> Tôi đặt vài viên gạch ở đây. Khi nào rỗi sẽ viết dần dần. Bạn nào có nhã hứng đóng góp từng paragraph vào các mục sau (hoặc các mục chưa ghi) xin cho biết. Ước lượng hay học ở đây vẫn trên cơ sở một họ mô hình định sẵn. Còn vấn đề khó hơn là chọn mô hình (model selection), so sánh các mô hình, đặc biệt giữa các mô hình có độ phức tạp khác hẳn nhau. Kiểm định giả thuyết  là một dạng rất đặc biệt của lựa chọn giữa các mô hình, song vẫn có thể hiểu gọn trong phạm vi ước lượng.</p>
<p><strong>Empirical risk minimization</strong>. Rủi ro được định nghĩa trên cơ sở hàm phân bố của mô hình (chân lý &#8212; chỉ có Trời mới biết). Chỉ có thể tiếp cận đến mô hình này thông qua <em><strong>quá trình thực nghiệm </strong></em>(empirical process). Nói cách khác, rủi ro phải được ước lượng bẳng <strong><em>rủi ro thực nghiệm</em></strong> (empirical risk). Hầu hết các cách ước lượng của phe Tần suất đều ở dạng tính rủi ro thực nghiệm cực tiểu (empirical risk minimization (ERM)). Một lexicon đồng nghĩa là <em><strong>M-estimation</strong></em> (ước lượng M), M có nghĩa là maximization hoặc minimization. Cách <em><strong>ước lượng dựa vào moment </strong></em>(moment-based estimation/ moment matching) thực ra cũng có thể được động viên và liên hệ với cách ước lượng rủi ro thực nghiệm cực đại. Một vấn đề đau đầu cho cách ước lượng rủi ro cực tiểu là phải chọn hàm mất gì? Có một số tên riêng: Nếu hàm mất là hàm bình phương, thì ta có phương pháp <strong><em>bình phương cực tiểu</em></strong> (least square) rất thông dụng trong hồi quy.</p>
<p><strong>Maximum likelihood và nguyên tắc likelihood</strong>. Nếu mô hình thống kê chỉ định ra một hàm phân bố cho dữ liệu, thì ta có khái niệm <em><strong>likelihood (khả năng?</strong></em>). Đây là hàm số của tham số, nhưng được lại là ngẫu nhiên vì được định nghĩa trên cơ sở dữ liệu ngẫu nhiên. Likelihood chính là một ví dụ tiêu biểu (nhất) của rủi ro thực nghiệm. Hàm mất tương ứng ở đây là hàm logarithm của mật độ. Maximum likelihood dịch là cách <strong><em>ước lượng khả năng cực đại</em></strong> (?), một phát kiến vĩ đại của Ronald Fisher. Đây là cách ước lượng thông dụng, đa năng bậc nhất trong ngành thống kê (ít nhất là với nhãn quan tần suất). Với các mô hình tham số thì cách ước lượng này được đảm bảo bởi tính nhất quán (consistency) &#8212; mô hình sẽ được ước lượng chính xác nếu số dữ liệu tiến đến vô hạn. Tại sao hàm mất lại là hàm logarithm của mật độ mà không phải là một hàm số nào khác? Đây là một ví dụ của sự diệu kỳ bất ngờ của toán học &#8212; câu trả lởi truy ra khái niệm độc lập, khái niệm tập trung của độ đo trong xác suất, và tính lồi trong giải tích (và hình học). <strong><em>Nguyên tắc khả năng</em></strong> (likelihood principle) cho rẳng hàm khả năng là một thống kê đầy đủ (sufficient statistics). Nguyên tắc này phá sản trong ngữ cảnh phi tham số.</p>
<p><strong>Regularization/Penalization/Shrinkage. </strong>Với sự ước lượng các mô hình phi tham số thì chỉ dựa vào dữ liệu (thông qua hàm khả năng (likelihood) hoặc tổng quát hơn, hàm rủi ro thực nghiệm) không đủ. Cần phải có sự điều chỉnh trong việc lấy cực đại/cực tiểu thông qua khái niệm regularization (<strong><em>kiểm soát</em></strong>), còn gọi là penalization (<em><strong>soát phạt)</strong></em>. Regularized empirical risk gọi là <em><strong>rủi ro thực nghiệm có kiểm soát</strong></em>.  Khái niệm kiểm soát, soát phạt bắt nguổn từ một phát hiện bất ngờ của Charles Stein về shrinkage estimator (<strong><em>cách ước lượng co</em></strong>). Cho nên nhiều khi người ta cũng gọi nhóm ước lượng này là ước lượng co.  Để dùng một số lượng dữ liệu hữu hạn mà ước lượng các đại lượng (tham số) vô hạn hoặc có số chiều đủ lớn (cho dù số dữ liệu có lớn đến đâu và tiến dần đến vô hạn đi chăng nữa) thì vẫn phải có sự kiểm soát trong ước lượng, và không thể dựa hoàn toàn vào dữ liệu thực nghiệm được.  Theo nhãn quan Bayes thì điều này chính là sự giằng co giữa thực nghiệm và tiên nghiệm. Co (shrinkage) ở đây chính là co về tiên nghiệm.</p>
<p><strong>Phương pháp phân tích hậu nghiệm/ học Bayes. </strong>Phương pháp phân tích hậu nghiệm (a posteriori analysis), cụ thể là cách<strong><em> suy diễn hậu nghiệm</em></strong> (posterior inference), <strong><em>suy diễn Bayes</em></strong> (Bayesian inference),<em><strong> học Bayes</strong></em> (Bayesian learning),&#8230; đều mô tả cùng một cách ước lượng theo trường phái Bayes. Đó là thay vì người ta ước lượng tham số (không ngẫu nhiên) như trong trường phái tần suất, người ta sẽ tính hàm phân bố hậu nghiệm cho tham số thông qua công thức Bayes. Cách này mẫu mực &#8212; phần việc chính ở đây là chỉ định ra phân bố tiên nghiệm ra sao, và tính toán phân bố hậu nghiệm thế nào (vì phải tính tích phân rất phức tạp về mặt tính toán).  Chú ý rằng cách ước lượng maximum likelihood chẳng qua là tính <strong><em>mốt</em></strong> (mode) của phân bố hậu nghiệm, nếu phân bố tiên nghiệm được chọn là <strong><em>phân bố đề</em></strong>u (uniform distribution). Trong phân tích Bayes, đặc biệt là với mô hình tham số, thì không phải lo lắng gì về việc kiểm soát (regularization). Nhưng nếu phân bố tiên nghiệm là một quá trình ngẫu nhiên (trong mô hình phi tham số) thì vẫn phải lo lắng về chuyện kiểm soát tính phức tạp của tiên nghiệm (complexity of prior distribution). Một công cụ là sensitivity analysis (<strong><em>phân tích tính nhạy cảm</em></strong>) của phân bố cho tham số.</p>
<p><strong>Phương pháp Bayes thực nghiệm (empirical Bayes). </strong>Phương pháp này có thể xem cách ước lượng tần suất cho mô hình đa tầng. Mô hình đa tầng là một công cụ lý tưởng trong việc kiểm soát độ phức tạp của các mô hình cho tham số.</p>
<p><strong>3.4.</strong><strong> Các vấn để suy diễn cụ thể hơn</strong>.</p>
<p>Hypothesis testing. Trong kiểm định giả thuyết có một số khái niệm quan trọng: Null hypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error) và lỗi loại hai (type-2 error). Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âm tính (false negative) trong đánh giá các treatment (?) trong y học. Trong công nghệ thì type-1 error gọi là false alarm error rate (?), type-2 error chính là misdetection error rate (?). Tất cả các loại rỗi này đều là hàm rủi ro đối với hàm thiệt 0-1. Cách ước lượng trong kiểm định giả thuyết gọi là một hàm quyết định. Và người ta sử dụng hàm quyết định thực hiện phép thử (test) cho giả thuyết. Một phép thử được đánh giá thông qua các bảo đạm về giới hạn của các lỗi kể trên. Sự giẳng co giữa lỗi loại một và loại hai được biểu diễn bẳng ROC curve (<em><strong>đường cong ROC</strong></em>). Các khái niệm liên hệ còn có significance (?). Confidence interval dịch là ? p-value dịch là giá trị p. Power của phép thử gọi là <em><strong>sức mạnh</strong></em>.  Nếu chỉ có hai giả thuyết đẻ so sánh thì hàm quyết định tối ưu chính phải dựa vào likelihood ratio (<em><strong>phân số khả năng</strong></em>). Likelihood ratio test gọi là phép thử dựa vào phân số khả năng. Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn (asymptotic statistics).</p>
<p>Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson. Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễn này với cách hình thức suy diễn kiểu khác trong thống kê.  Nếu tiếp cận theo nhãn quan Bayes thì KDGT khá là đơn giản, không khác gì việc ước lượng một mô hình là bao. Cần khái niệm phân bố tiên nghiệm cho các giả thuyết. Khái niệm Bayes factor sẽ được dịch là ?</p>
<p>Sequential analysis. Trong phân tích tuần tự (sequential analysis) thì có sự giẳng co của lỗi Bayes và thời gian trễ (delay time) của quyết định về giả thuyết. Khái niệm thử thông dụng là sequential likelihood ratio test (<strong><em>phép thử dựa theo chuỗi phân số khả năng</em></strong>). Công cụ lý thuyết đẻ đánh giá sức mạnh của phép thử là các phân tích về thời gian dừng, phân tích các loại thời điểm vượt biên, v.v. trong lý thuyết xác suất về quá trình Markov.</p>
<p>Classification/regression/ranking. Trong bài toán phân lớp thì người ta gọi một cách ước lượng để phân lớp là một <em><strong>máy họ</strong></em>c (learning machine). Tham số cần ước lượng ở đây gọi là một <em><strong>hàm phân loại</strong></em> (classifier). Có thể tiếp cận vấn đề này trên cơ sở mô hình tham số hoặc mô hình phi tham số. Để học được máy (mô hình) thường đòi hỏi nhiều tính toán,  chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển. Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng.  Cách học/ ước lượng, về mặt tính toán, có lexicon riêng là training (<strong><em>việc huấn luyện</em></strong>).  Dữ liệu cần cho việc huấn luyện gọi là<strong><em> dữ liệu huấn luyện</em></strong> (training data). <strong><em>Phép thử</em></strong> một hàm phân loại với dữ liệu mới gọi là testing. <strong><em>Dữ liệu thử</em></strong> chính là test data. Nếu có hai lớp để phân loại thì hàm phân loại tối ưu phải dựa vào likelihood ratio, rất giống như trong kiểm định giả thuyết. Một khác biệt căn bản giữa bài toán phân lớp với bài toán kiểm định lý thuyết là chỗ này: Cái đầu phải thử giả thuyết cho từng mẫu một. Cái sau chỉ phải thử giả thuyết một lần cho cả đám đông. Có rất nhiều phương pháp phân lớp, với các mô hình tham số và phi tham số, và các giải thuật học/ước lượng rất phong phú. Kinh điển thì có linear discriminant analysis (<strong><em>phân tích phân biệt tuyến tính</em></strong>), logistic regression (<em><strong>hồi quy logit)</strong></em>. Hiện đại hơn thì có <em><strong>mạng nơ ron</strong></em> (neural network), radiant basis network (?), support vector machines (?),&#8230;</p>
<p><strong><em>Bài toán hồi quy</em></strong> (regression analysis) tương tự như bài toán phân lớp, khác ở đây là cần phải ước lượng/học phương trình hồi quy (thay vì hàm phân loại). Hàm phân lớp chỉ có giá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục. Bài toán phân cấp gần giống bài toán phân cấp ở chỗ hàm phân loại cũng có giá trị rời rạc (và không phải nhị phân), nhưng dữ liệu huấn luyện các mẫu về sự so sánh giữa các cấp chứ không phải nhãn lớp (cấp).</p>
<p>Dimensionality reduction/ exploratory data analysis. <em><strong>Phân tích khám phá</strong></em> với dữ liệu là một mảng quan trọng. Principle component analysis dịch là <strong><em>phân tích thành phần chủ yếu</em></strong>. Multidimensional scaling dịch là ?. Independence component analysis gọi là <strong><em>phân tích thành phần độc lập</em></strong>. Vấn đề chia nhóm (clustering) cũng có thể đặt vào đây, nhưng các phương pháp chia nhóm dựa vào mô hình (model-based clustering) đã phát triển đến mức độ rất tinh xảo, và nên đặt nó vào nhóm suy diễn dựa vào mô hình.</p>
<p><strong>3.5 Thống kê  ở vô hạn, lý thuyết học, và lý thuyết thông tin (asymptotic statistics, learning theory, information theory)</strong></p>
<p>Thống kê ở asymptotic chính là cơ sở lý thuyết giả thích sự hiệu quả và giới hạn của các suy diễn thống kê.  Thống kê ở vô hạn nghiên cứu tính chất của các phép ước lượng khi lượng mẫu (sample size) tiến đến vô hạn. Một vấn đề người ta cần quan tâm là các tiêu chuẩn dựa vào rủi ro phải tiến về 0. Tính chất này gọi là<em><strong> tính nhất quán</strong></em> (consistency) của một cách ước lượng. Nếu đã nhất quán rồi thì còn quan tâm rate of convergence &#8211;<em><strong> tốc độ hội tụ </strong></em>&#8211; của các rủi ro. Ngoải ra ta còn quan tâm đến tính chất về phân bố của sự hội tụ. Một tính chất quan trọng thường gặp là asymptotic normality (<strong><em>sự bình thường ở giới hạn</em></strong>). Với trường phái Bayes khách quan thì có khái niệm <em><strong>nhất quán hậu nghiệm</strong></em> (posterior consistency) &#8212; khi số mẫu tiến đến giới hạn thì phân bố hậu nghiện phải tập trung về một điểm, điểm đó chính là giá trị chân lý của tham số cần ước lượng. Tính chất này mang tính tấn suất, vì nó vẫn giả sử tham số là không ngẫu nhiên, mặc dù ta có thể định ra phân bố tiên nghiệm và làm phân tích hậu nghiệm. (Các nhà Bayes chủ quan cuồng tín sẽ ngoảnh mặt quay gót khi ai nó nói đến khái niệm này).</p>
<p>Một vấn đề khác người ta cũng quan tâm là tính chất về phân bố của các thống kê được sử dụng trong các phép suy diễn cụ thể, như trong kiểm định giả thuyết chẳng hạn. Nhờ tính chất phân bố của thống kê (ở điều kiện mẫu vô hạn) mà ta có thể có những đảm bảo nhất định về các rủi ro của suy diễn.</p>
<p>Công cụ toán học của phân tích thống kê asymptotic là tính chất<strong><em> tập trung của độ đo</em></strong> (concentration of measure), đặc biệt trong ngữ cảnh của <em><strong>quá trình thực nghiệm</strong></em> (empirical process). Empirical process theory là tên thường gọi. Công cụ quan trọng có symmetrization argument (<strong><em>mẹo cân đối hóa</em></strong>). Chaining method dịch là <strong><em>phương pháp chuỗ</em></strong>i, một phương pháp mẫu mực để chứng minh các chặn trên cho tiếm hàm rủi ro (định nghĩa trên quá trình thực nghiệm) bởi các đại lượng mô tả <strong><em>sự phức tạp của mô hình</em></strong> (model complexity). Khái niệm sự phức tạp của mô hình đến từ <strong><em>lý thuyết xấp xỉ</em></strong> (approximation theory).  Các khái niệm chính gồm có covering number (<strong><em>số đĩa phủ</em></strong>), packing number (<strong><em>số đĩa chèn</em></strong>?). Khái niệm entropy (Kolmogorov entropy chứ không phải Shannon entropy) được giữ nguyên trong lexicon. Ngoài các chặn trên, còn có thể chứng minh các chặn dưới, gọi chung là <em><strong>chặn minimax</strong></em>. Chặn này cho biết tốc độ hội tụ của rủi ro tốt nhất có thể được (trong mọi cách ước lượng) đối với một lớp mô hình cho sẵn. Đối với lớp mô hình tuyến tính thì độ phức tạp của mô hình có thể mô ta bằng một khái niệm tổ hợp nổi tiếng trong lý thuyết học (learning theory) của Vapnik và Chervonenkis,  <em><strong>số chiều VC </strong></em>(VC dimension).</p>
<p>Lý thuyết thông tin (information theory) của Shannon chính là lý thuyết thống kê giới hạn cho một số bài toán suy diễn cụ thể trong công nghệ thông tin, công nghệ nén và truyền tải dữ liệu. LTTT cũng tập trung nhiều vào đại lượng có thể dùng để mô ta sự hiệu quả của một giải thuật suy diễn. Các đại lượng này xuất hiện trên exponent của các chặn trên và chặn dưới của các rủi ro của suy diễn, không chỉ trong các bài toán cụ thể trong công nghệ thông tin, mà còn trong các ngữ cảnh suy diễn thống kê tổng quát. Các khái niệm quan trọng gồm có: Shannon entropy, conditional entropy (<strong><em>entropy điều kiện</em></strong>), Kullback-Leibler divergence (<strong><em>độ phân kỳ Kullback-Leibler</em></strong>), mutual information (<strong><em>thông tin chung)</em></strong>. Do đó, các khái niệm về thông tin này còn có vai trò quan trọng trong các vấn đề về sự lựa chọn mô hình (model selection), thiết kế thí nghiệm (experimental design) và trong các phân tích khám phá. Về mặt toán học, các khái niệm thông tin này đều là các phiếm hàm mô tả sự ngẫu nhiên và quan hệ của một hay nhiều hàm phân bố xác suất. Các khái niệm liên hệ có thể kể đến: Fisher information (<strong><em>thông tin Fisher</em></strong>), phương sai.</p>
<p><strong>3.5 Lựa chọn mô hình (model selection).</strong></p>
<p><strong>3.6 Thiết kế thí nghiệm (experiment design). <em>Tôi không biết đủ sâu/rộng để viết về phần này. Hy vọng bác nào là chuyên gia xắn tay vào viết giúp một vài paragraph.<br />
</em></strong></p>
<p>Tóm tắt: Bayesian learning, Bayesian inference, posterior inference, maximum likelihood, posterior consistency, asymptotic consistency, asymptotic normality, sensitivity analysis, stability analysis, heat map,  efficiency, superefficiency, estimator, estimate, learning algorithm, learner, chaining method, symmetrization, covering number, free probability</p>
<p>ROC, hypothesis test, Bayes error, approximation error, estimation error, null hypothesis, alternative hypothesis, type-1 error, type-2 error, power, significance, p-value, Bayesfactor, nested design, empirical Bayes method, shrinkage, sequential analysis, sequential change point analysis, online analysis, distributed algorithm</p>
<p><strong><!--more-->4. Các giải thuật thống kê, học giả</strong></p>
<p><strong><em>4.1 Tổng quan.</em></strong> Thống kê cổ điển không có khái niệm về giải thuật. Khi chưa có công cụ máy tính người ta chỉ có thể nghiên cứu tính chất và áp dụng các cách ước lượng khá giản đơn về mặt tính toán. Sự ra đời của máy tính và thông qua đó phát triển của lĩnh vực giải thuật và học máy thổi một làn gió mới vào vấn đề suy diễn từ dữ liệu. Làn gió này bắt đầu rất nhỏ từ thập niên 60, mạnh dần lên vào thập niên 80, đến thập niên 90 và những năm đầu thế kỷ này có lẽ nó đã trở thành bão. Cơn bão của khoa học tính toán đang làm thay đổi hoàn toàn khung cảnh của thống kê hiện đại, hứa hẹn những bước phát triến ngoạn mục trong tương lai. Về mặt lý thuyết, trước kia, ta chỉ quan tâm quan hệ giữa lượng mẫu và độ hiệu quả của suy diễn thống kê thông qua sự chính xác của các phép ước lượng.  Nay, ta còn phải quan tâm đến hai đại lượng mới: đó là <em><strong>sự phức tạp về tính toán</strong></em> &#8212; computational complexity (về mặt thời gian và bộ nhớ), và <strong>s</strong><em><strong>ự xấp xỉ của mô hình</strong></em> (approximation error) , vì bây giờ chúng ta đã có thể phát triến và nghiên cứu các dạng mô hình mạnh hơn trước, các phép ước lượng phức tạp hơn trước. Đại lượng đầu tiên, sự phức tạp về tính toán, đến từ khoa học máy tính. Đại lượng thứ hai, tính xấp xỉ của mô hình, đến từ thuyết xấp xỉ của toán ứng dụng, và lý thuyết xác suất. Một sự thay đổi rõ nét nhất trong sự phát triển của các phương pháp suy diễn thống kê hiện đại chính là sự lên ngôi của trường phái Bayes, vì các công cụ giải thuật ngày nay cho phép thực hiện phân tích Bayes một các hiệu quả hơn về mặt tính toán. Các mô hình Bayes còn nối lại quan hệ mật thiết giữa những người xây dựng mô hình thống kê với những người nghiên cứu về quá trình ngẫu nhiên trong lý thuyết xác suất.  Với sự hiện diện của khái niệm phức tạp tính toán và khái niệm xấp xỉ trong suy diễn thống kê, sự đối nghịch giữa hai trường phái Bayes và Tần suất bị loãng đi và mất dần tính cực đoan cuồng tín của thế kỷ 20. Người ta bắt đầu có cái nhìn cân bằng hơn về vai trò và quan hệ giữa hai trường phái này.</p>
<p>expectation-maximization algorithm, variational inference, message-passing algorithm, belief propagation, back propagation, training, testing, classification, clustering, hierarchical clustering, linear regression, kernel method, sparsity<br />
, regularization, penalization, cross-validation, leave-one-out, boosting, bagging, bootstrap, compressed sensing, quantization, heteroscedasticity, multi-modality,</p>
<p><strong>5. Các phương pháp tối ưu trong suy diễn thống kê</strong></p>
<p>simulated annealing, local search, global search, heuristic search, restart, hill-climbing, saddle point, sampling, importance sampling, proposal distribution, acceptance probability, heat bath method, particle filtering, filtering, smoothing</p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2010/11/09/lexicon-xac-su%e1%ba%a5t-th%e1%bb%91ng-ke-va-h%e1%bb%8dc-may/feed/</wfw:commentRss>
		<slash:comments>57</slash:comments>
		</item>
	</channel>
</rss>

