<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Blog Khoa Học Máy Tính &#187; Trí tuệ nhân tạo</title>
	<atom:link href="http://www.procul.org/blog/category/tri-tu%e1%bb%87-nhan-t%e1%ba%a1o/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.procul.org/blog</link>
	<description>Tầm nhìn ta thật ngắn mà đã thấy bao thứ  để làm -- Alan Turing</description>
	<lastBuildDate>Wed, 08 Feb 2012 13:27:56 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
		<item>
		<title>I&#8217;m impressed!</title>
		<link>http://www.procul.org/blog/2011/11/27/im-impressed/</link>
		<comments>http://www.procul.org/blog/2011/11/27/im-impressed/#comments</comments>
		<pubDate>Sun, 27 Nov 2011 16:03:37 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Robotic]]></category>
		<category><![CDATA[Rubik]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=4111</guid>
		<description><![CDATA[Rất ấn tượng!]]></description>
			<content:encoded><![CDATA[<p>Rất ấn tượng! </p>
<p><span id="more-4111"></span></p>
<p><center><iframe width="560" height="315" src="http://www.youtube.com/embed/_d0LfkIut2M" frameborder="0" allowfullscreen></iframe></center></p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/11/27/im-impressed/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Peter Norvig on Noam Chomsky</title>
		<link>http://www.procul.org/blog/2011/05/27/peter-norvig-on-noam-chomsky/</link>
		<comments>http://www.procul.org/blog/2011/05/27/peter-norvig-on-noam-chomsky/#comments</comments>
		<pubDate>Fri, 27 May 2011 13:59:52 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[Noam Chomsky]]></category>
		<category><![CDATA[Peter Norvig]]></category>
		<category><![CDATA[thống kê]]></category>
		<category><![CDATA[xác suất]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3383</guid>
		<description><![CDATA[Trong bài Trí Tuệ Nhân Tạo và Những vị Chúa Tể Mới, bác Xuân Long và tôi đã ngầm ám chỉ rằng &#8220;những vị chúa tể mới&#8221; là những mô hình thống kê, thay cho những vị chúa tể (mấy chục năm) cũ là các mô hình logic hình thức chặt chẽ. Ngoài ra, một [...]]]></description>
			<content:encoded><![CDATA[<p>Trong bài <a href="http://www.procul.org/blog/2011/04/19/tri-tu%e1%bb%87-nhan-t%e1%ba%a1o-va-nh%e1%bb%afng-v%e1%bb%8b-chua-t%e1%bb%83-m%e1%bb%9bi/">Trí Tuệ Nhân Tạo và Những vị Chúa Tể Mới</a>, bác Xuân Long và tôi đã ngầm ám chỉ rằng &#8220;những vị chúa tể mới&#8221; là những mô hình thống kê, thay cho những vị chúa tể (mấy chục năm) cũ là các mô hình logic hình thức chặt chẽ. Ngoài ra, một ý quan trọng nữa là quan điểm Dijkstra: việc tranh cãi xem mô hình nào mới là &#8220;insightful&#8221;, mới là &#8220;thông minh&#8221;, hay bất kỳ một tính từ mỹ miều nào khác là việc không quan trọng. Khi đã làm được Tàu Ngầm thì việc tàu có bơi như cá hay không để cho các &#8230; triết gia bình luận. Chúng ta đi làm tiếp Máy Bay.</p>
<p>Những luận điểm trên thật ra cần những bài dài hơi hơn, với luận cứ chặt chẽ hơn, nhất là dành cho các cây đề cổ như bác Noam Chomsky. Ở <a href="http://mit150.mit.edu/symposia/brains-minds-machines">một hội nghị nhân kỷ niệm MIT 150 năm tuổi</a>, có đoạn thế này:</p>
<blockquote><p>derided researchers in machine learning who use purely statistical methods to produce behavior that mimics something in the world, but who don&#8217;t try to understand the meaning of that behavior. Chomsky compared such researchers to scientists who might study the dance made by a bee returning to the hive, and who could produce a statistically based simulation of such a dance without attempting to understand why the bee behaved that way. &#8220;<em>That&#8217;s a notion of [scientific] success that&#8217;s very novel. I don&#8217;t know of anything like it in the history of science,</em>&#8221; said Chomsky.
</p></blockquote>
<p><a href="http://norvig.com/chomsky.html">Peter Norvig phân tích (nói đúng hơn là băm vằm) luận điểm của Chomsky</a>. </p>
<p>Cái <a href="http://en.wikipedia.org/wiki/Chinese_room">phòng Trung Hoa</a> còn tồn tại lâu. </p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/05/27/peter-norvig-on-noam-chomsky/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>Bước kế tiếp của trí tuệ nhân tạo</title>
		<link>http://www.procul.org/blog/2011/04/28/b%c6%b0%e1%bb%9bc-k%e1%ba%bf-ti%e1%ba%bfp-c%e1%bb%a7a-tri-tu%e1%bb%87-nhan-t%e1%ba%a1o/</link>
		<comments>http://www.procul.org/blog/2011/04/28/b%c6%b0%e1%bb%9bc-k%e1%ba%bf-ti%e1%ba%bfp-c%e1%bb%a7a-tri-tu%e1%bb%87-nhan-t%e1%ba%a1o/#comments</comments>
		<pubDate>Thu, 28 Apr 2011 13:00:05 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[KHMT và sinh học]]></category>
		<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Vui - Giải Trí]]></category>
		<category><![CDATA[Sinh vật]]></category>
		<category><![CDATA[Thông minh]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3341</guid>
		<description><![CDATA[Watson còn khuya mới hạ gục được chú bồ câu này Hay là chú quạ này.]]></description>
			<content:encoded><![CDATA[<p>Watson còn khuya mới hạ gục được chú bồ câu này </p>
<p><span id="more-3341"></span></p>
<p><center><object width="640" height="390"><param name="movie" value="http://www.youtube.com/v/ymkT_C_NWXw&#038;hl=en_US&#038;feature=player_embedded&#038;version=3"></param><param name="allowFullScreen" value="true"></param><param name="allowScriptAccess" value="always"></param><embed src="http://www.youtube.com/v/ymkT_C_NWXw&#038;hl=en_US&#038;feature=player_embedded&#038;version=3" type="application/x-shockwave-flash" allowfullscreen="true" allowScriptAccess="always" width="640" height="390"></embed></object><br />
</center></p>
<p>Hay là <a href="http://www.youtube.com/watch?v=ofjo26O0z_o&#038;feature=youtu.be">chú quạ này</a>. </p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/04/28/b%c6%b0%e1%bb%9bc-k%e1%ba%bf-ti%e1%ba%bfp-c%e1%bb%a7a-tri-tu%e1%bb%87-nhan-t%e1%ba%a1o/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Trí tuệ nhân tạo và những vị chúa tể mới</title>
		<link>http://www.procul.org/blog/2011/04/19/tri-tu%e1%bb%87-nhan-t%e1%ba%a1o-va-nh%e1%bb%afng-v%e1%bb%8b-chua-t%e1%bb%83-m%e1%bb%9bi/</link>
		<comments>http://www.procul.org/blog/2011/04/19/tri-tu%e1%bb%87-nhan-t%e1%ba%a1o-va-nh%e1%bb%afng-v%e1%bb%8b-chua-t%e1%bb%83-m%e1%bb%9bi/#comments</comments>
		<pubDate>Tue, 19 Apr 2011 11:07:54 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Ảnh hưởng của CNTT]]></category>
		<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[Jeopardy]]></category>
		<category><![CDATA[Phép thử Turing]]></category>
		<category><![CDATA[Watson]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3225</guid>
		<description><![CDATA[Bài đăng ở Tia Sáng, số kỷ niệm 20 năm. Ngô Quang Hưng &#8212; Nguyễn Xuân Long Cảm ơn em họ biên tập! Năm 1950, Alan Turing, cha đẻ ngành khoa học máy tính, đặt ra một câu hỏi đồng nghĩa với thách thức cho nhân loại: &#8220;Làm thế nào để biết được một chiếc [...]]]></description>
			<content:encoded><![CDATA[<blockquote><p>Bài <a href="http://tiasang.com.vn/Default.aspx?tabid=111&#038;CategoryID=2&#038;News=3984">đăng ở Tia Sáng</a>, số kỷ niệm 20 năm.<br />
Ngô Quang Hưng &#8212; Nguyễn Xuân Long<br />
Cảm ơn <a href="http://camlybui.wordpress.com/">em họ</a> biên tập!
</p></blockquote>
<p><em>Năm 1950, Alan Turing, cha đẻ ngành khoa học máy tính, đặt ra một câu hỏi đồng nghĩa với thách thức cho nhân loại: &#8220;Làm thế nào để biết được một chiếc máy tính có suy nghĩ hay không?&#8221;. Năm 1997, khi siêu máy tính Deep Blue hạ gục huyền thoại cờ vua Gary Kasparov trong trận đấu được coi là kỳ vĩ nhất của lịch sử cờ vua, cựu quán quân thế giới thừa nhận: &#8220;Tôi cảm thấy sự hiện hữu của trí thông minh ở phía bên kia bàn cờ!&#8221;. Ngày 16/2 năm nay, thêm hai bộ óc siêu việt khác của loài người đối mặt &#8211; và thua cuộc &#8211; một &#8220;bộ óc&#8221; mới trong ngành máy tính mang tên Watson. Với thành tựu mới nhất này, liệu chúng ta có thể nói gì về tư duy của máy, và hy vọng gì ở ngành trí tuệ nhân tạo trong tương lai?<br />
</em></p>
<p><span id="more-3225"></span></p>
<p><strong>1. Sự lên ngôi của vị chúa tể mới<br />
</strong></p>
<p><strong>Hỏi</strong>: Rõ là &#8220;Thời buổi gian khó&#8221;! Một cơn động đất lớn tấn công New Madrid, Missouri, vào ngày 7 tháng 2 năm 1812, cùng ngày mà tác giả này tấn công Anh Quốc. (&#8220;Hard times,&#8221; indeed! A giant quake struck New Madrid, Missouri, on Feb. 7, 1812, the day this author struck England.)</p>
<p><strong>Đáp</strong>: Ai là Charles Dickens? (Who is Charles Dickens?)</p>
<p>Đây là một ví dụ điển hình của trò chơi truyền hình nổi tiếng tại Mỹ mang tên <a href="http://en.wikipedia.org/wiki/Jeopardy!">Jeopardy!</a>. Khác với các loại trò chơi đố vui có thưởng theo kiểu &#8220;Ai muốn làm triệu phú&#8221;, <em>Jeopardy!</em> đòi hỏi kiến thức sâu rộng của người chơi vì các câu hỏi chứa đầy cạm bẫy (chơi chữ, đảo ngữ nghĩa, gợi ý mang tính lừa phỉnh, vân vân) đòi hỏi phải xử lý thông tin cực kỳ phức tạp trong một thời gian cực ngắn. Một điểm đặc biệt nữa là câu hỏi và câu trả lời của <em>Jeopardy!</em> đảo vị trí cho nhau: câu hỏi là câu trả lời mang tính xác định về một đối tượng nào đó, còn câu trả lời là một câu hỏi về đối tượng này. Trong ví dụ kể trên, cụm từ &#8220;Thời buổi gian khó&#8221; (hard times) nhắc đến một tác phẩm nổi tiếng của <a href="http://en.wikipedia.org/wiki/Charles_dickens">Charles Dickens</a>. “Thời buổi gian khó&#8221; cũng được dùng với ngụ ý về sự gian khó gây ra bởi cơn động đất. Từ &#8220;tấn công&#8221; (struck) được dùng với hai nghĩa, nghĩa đen nói về tác động của trận động đất, còn nghĩa bóng nói về ngày chào đời của Charles Dickens (ngày động đất là ngày sinh của Dickens). Các nhà vô địch <em>Jeopardy!</em> vì thế thường được xem là đại diện cho trí thông minh và sự uyên bác. </p>
<p><a href="http://www.procul.org/blog/wp-content/uploads/2011/04/jeopardy-pic.png"><img src="http://www.procul.org/blog/wp-content/uploads/2011/04/jeopardy-pic.png" alt="" title="jeopardy-pic" height="200" class="alignright size-full wp-image-3227" /></a><br />
Luật chơi của <em>Jeopardy!</em> đại khái như sau. Mỗi trận đấu gồm ba vòng, với ba đấu thủ. Hai vòng đầu mỗi vòng có 30 câu hỏi, chia làm 6 phạm trù, mỗi phạm trù 5 câu hỏi. Mỗi câu hỏi ở 2 vòng đầu có giá trị tiền nhất định. Sau khi nghe đọc câu hỏi các đấu thủ bấm nút tranh quyền trả lời. Trả lời đúng thì thắng số tiền của câu hỏi đó, trả lời sai thì bị mất số tiền này và còn bị trừ vào khoản tiền đã thắng. Mỗi đấu thủ thường chỉ có khoảng 1, 2 giây để bấm nút nếu không muốn bị giành mất quyền trả lời. Vòng thi cuối cùng chỉ có một câu hỏi duy nhất, thí sinh dùng tiền đã thắng để &#8220;đặt cược&#8221; ngay cả trước khi biết được câu hỏi. Thắng thì thắng thêm số tiền cược đó, còn thua thì bị trừ đi. Phạm vi đề tài thi rất &#8220;bao la&#8221;: lịch sử, sự kiện đương đại, văn học, nghệ thuật, khoa học, ngôn ngữ, chơi chữ, vân vân. </p>
<p>Hai huyền thoại hiện nay của trò chơi này là <a href="http://en.wikipedia.org/wiki/Ken_Jennings">Ken Jennings</a> (người thắng kỷ lục 74 trận liên tục trong năm 2004 với tổng số tiền thắng cuộc hơn 3 triệu đô la) và <a href="http://en.wikipedia.org/wiki/Brad_Rutter">Brad Rutter</a> (người thắng &#8220;cúp C1&#8243; &#8211; cúp các nhà vô địch <em>Jeopardy!</em> &#8211; với tổng số tiền thắng nhiều nhất trong lịch sử <em>Jeopardy!</em>: hơn 3 triệu rưỡi đô la). Từ 14 đến 16 tháng 2/2011 vừa qua, cả hai bộ óc siêu phàm này đã trải qua ba trận &#8220;đại chiến&#8221; lịch sử với một đối thủ mới tò te tên là <a href="http://www-03.ibm.com/innovation/us/watson/index.html">Watson</a> &#8211; một hệ thống máy tính của hãng IBM, được đặt tên để tưởng nhớ chủ tịch đầu tiên của hãng này là Thomas Watson.</p>
<p>Watson &#8220;<a href="http://www.pcworld.com/article/219900/ibm_watson_wins_jeopardy_humans_rally_back.html">nghiền nát</a>&#8221; Ken và Brad &#8211; như Deep Blue đã từng <a href="http://en.wikipedia.org/wiki/Deep_Blue_versus_Garry_Kasparov">hạ gục Kasparov</a> gần 14 năm trước.</p>
<p><img src="http://www.procul.org/blog/wp-content/uploads/2011/04/watson-ken-brad.png" alt="" title="watson-ken-brad" width="600" class="aligncenter size-full wp-image-3226" /></p>
<p>Ở câu hỏi cuối cùng của vòng thi đấu cuối cùng, bên cạnh câu trả lời (đúng) của mình, Ken Jennings tuyên bố nửa đùa nửa thật (trước khi biết rằng Watson cũng trả lời đúng câu hỏi này): &#8220;<em>Cá nhân tôi hoan nghênh các vị chúa tể mới</em>&#8220;. </p>
<p><strong>2. Trí tuệ nhân tạo, từ logic cổ điển đến thống kê tính toán<br />
</strong></p>
<p>Trước khi phủi tay xuề xòa về sự không cân sức của trận đấu <a href="http://en.wikipedia.org/wiki/David_%26_Goliath">David tí hon chọi Goliath khổng lồ</a> này, ta phải cẩn thận xem lại xem … ai là David và ai là Goliath. Không thể chối cãi được rằng, dù là lính mới, Watson là một <a href="http://www-03.ibm.com/innovation/us/watson/what-is-watson/a-system-designed-for-answers.html">đối thủ khổng lồ</a>, kích thước tương đương &#8230; 10 cái tủ lạnh, chứa khoảng <a href="ftp://public.dhe.ibm.com/common/ssi/ecm/en/pow03061usen/POW03061USEN.PDF">200 triệu trang tài liệu</a> (bằng khoảng 1 triệu quyển sách), 16 Terabytes (16 nghìn tỉ bytes) bộ nhớ, và có khả năng xử lý 80 Teraflops một giây. </p>
<p>Tuy nhiên, kích thước và số lượng không nhất thiết tỉ lệ thuận với sự thông minh. Một triệu con khỉ không gõ được vở kịch Hamlet. Vả lại, dù có tính về số lượng thì sự mất cân xứng cũng không rõ ràng lắm là ngả về phía nào. Ken và Brad mỗi người có <a href="http://en.wikipedia.org/wiki/Neuron">khoảng 100 tỉ neurons</a> thần kinh, và có hơn 30 năm tuổi đời để học số kiến thức mà họ có, cộng với cả chục năm &#8220;kinh nghiệm chiến trường”: xử lý sự lắt léo của <em>Jeopardy!</em>. Watson ra đời khoảng 2004, có tổng cộng 2880 bộ vi xử lý POWER7 mới của IBM. Mỗi bộ vi xử lý gồm bốn lõi song song với tổng cộng khoảng 1,2 tỉ transitors, vị chi là gần 3 nghìn rưỡi tỉ transitors, gấp 35 lần số neuron thần kinh một người có. Thế nhưng, mỗi neuron thần kinh lại có sức mạnh tính toán mạnh gấp nhiều lần một transitor, vì mỗi neuron thần kinh là một bộ vi xử lý sinh học, cho dù thuộc loại sơ khai.</p>
<p>Những thành tựu khoa học và công nghệ nào đã mang lại thành công của Watson? Chiến thắng của Watson là thành tựu tổng hợp của nhiều phân ngành khoa học máy tính: thuật toán, các bộ vi xử lý, hệ xử lý song song, mạng máy tính, trí tuệ nhân tạo, cơ sở dữ liệu, vân vân. Trong khuôn khổ bài này chúng ta sẽ chỉ đề cập đến mảng trí tuệ nhân tạo (TTNT). </p>
<p>Ngay từ thời kỳ đầu của TTNT, người ta đã biết rằng một trong những yếu tố cần thiết làm nên một máy tính thông minh là khả năng biểu diễn và xử lý tri thức. Tri thức phải được mã hóa bằng một thứ ngôn ngữ mà máy tính có thể hiểu được. <a href="http://plato.stanford.edu/entries/logic-ai/">Logic đã là sự lựa chọn hiển nhiên</a>, vì đó cũng là ngôn ngữ của bộ vi xử lý. Với một <a href="http://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning">kho tri thức</a> bằng ngôn ngữ logic, các vấn đề suy diễn biến thành các bài toán suy luận logic thuần túy, một địa hạt mà máy tính sẽ dễ dàng thống trị.</p>
<p>Cho đến tận những năm 80 của thế kỷ trước, người ta tập trung phần lớn sức lực vào vấn đề tự động hóa và cải thiện hiệu quả của suy diễn logic. Làm thế nào để tìm kiếm ra câu trả lời thật nhanh từ những quy luật định sẵn. Deep Blue chính là một ví dụ điển hình của sự thành công ngoạn mục trong công nghệ tìm kiếm trong một môi trường có quy luật chặt chẽ. Máy tính có thể chơi rất tốt các trò chơi loại này, khi mà các quy luật của cuộc chơi và mọi thông tin đã được cho trước rõ ràng. </p>
<p>Nhưng làm thế nào để thiết lập được kho tri thức định sẵn cho máy tính? Làm thế nào để kho tri thức ấy không ngừng được thu lượm, cập nhật và chắt lọc từ sự tiếp xúc của máy tính với thế giới bên ngoài? Máy tính có thể chơi cờ rất giỏi, nhưng khả năng thu lượm thông tin và thích ứng với bên ngoài còn thua xa một con chuột bạch. Và, dạng giao tiếp đặc biệt quan trọng chính là giao tiếp với con người. Làm thế nào để máy tính có thể giao tiếp được với con người, qua đó hấp thụ được kho tri thức của loài người thành của chúng, giả sử rằng chúng cũng được lập trình để có một nguyện vọng như vậy? </p>
<p>Trong thập niên đầu thế kỷ 21, sự phổ dụng của các công nghệ và kết quả khoa học ngành Học Máy (machine learning) đánh dấu một bước ngoặt thay đổi nền tảng quan trọng trong quá trình phát triển của ngành TTNT. Các công nghệ TTNT đã len lỏi vào tất cả các ngóc ngách của cuộc sống con người. Chúng ta dùng các công cụ tìm kiếm như <a href="http://www.google.com/">Google</a> hàng ngày, các <a href="http://en.wikipedia.org/wiki/E-mail_filtering">bộ lọc thư rác</a> từng phút (200 tỉ thư rác mỗi ngày). Các điện thoại cầm tay tí hon đời mới có thể <a href="http://www.computerworld.com/s/article/print/9213925/Speech_recognition_Your_smartphone_gets_smarter?taxonomyName=Mobile+and+Wireless&#038;taxonomyId=15">nhận dạng tiếng nói tốt</a>, và có cả <a href="http://en.wikipedia.org/wiki/Machine_translation">phần mềm dịch</a> nhanh giữa các thứ tiếng khác nhau. Chưa hoàn hảo nhưng hoàn toàn hữu dụng. Đã có <a href="http://en.wikipedia.org/wiki/Driverless_car">xe tự lái được trong thành phố</a> và <a href="http://marsrover.nasa.gov/home/index.html">rô-bô thám hiểm Hỏa Tinh</a>. Các thuật toán TTNT <a href="http://www.technologyreview.com/computing/37373/?a=f">theo dõi</a> tình trạng nhiễm trùng của trẻ sơ sinh, nhận diện <a href="http://en.wikipedia.org/wiki/Facial_recognition_system">nhân dạng</a> và <a href="http://academic.research.microsoft.com/Publication/12037914/using-machine-learning-to-speed-up-manual-image-annotation-application-to-a-3d-imaging-protocol">hình ảnh tế bào</a>, nhận dạng <a href="http://en.wikipedia.org/wiki/Handwriting_recognition">chữ viết tay</a> và <a href="http://www.cubs.buffalo.edu/fingerrecog.shtml">vân tay</a>. Các thuật toán Học Máy còn dùng để <a href="http://videolectures.net/mmdss07_laskov_mlit/">khám phá xâm nhập mạng</a> và bảo vệ tấn công cơ sở dữ liệu <a href="http://www.cse.buffalo.edu/~hungngo/papers/raid2010.pdf">từ bên trong</a>. Các giao dịch tài chính từ chứng khoán đến thẻ tín dụng đều được các thuật toán học máy <a href="http://videolectures.net/mmdss07_hand_stf/">“theo dõi” gắt gao</a> ở tốc độ nano-giây.</p>
<p>Những thành tựu này đạt được là do các nhà nghiên cứu TTNT nhận ra rằng “học” quan trọng hơn “biết”, khả năng đối chọi với tính bất định của thế giới thực quan trọng hơn khả năng tư duy theo một hệ thống logic làm sẵn. Nền tảng của TTNT hiện đại từ đó đã được chuyển từ logic cổ điển, chặt chẽ nhưng cứng nhắc, sang tính toán thống kê, lỏng lẻo hơn về mặt logic nhưng mềm dẻo, có tính ứng biến cao. Vấn đề học tập, cập nhật và chắt lọc tri thức từ dữ liệu thô, gọi vắn tắt là vấn đề <a href="http://www.stanford.edu/class/cs229/">Học Máy</a>, đang trở thành lĩnh vực trung tâm của TTNT. Ngành học máy được phát triển trên nền tảng của xác suất thống kê và khoa học máy tính, với mục tiêu là tạo ra các thuật toán tự học giúp cho máy tính định hình được khái niệm, liên hệ các ý nghĩa, tìm kiếm ra các quy luật trên cơ sở các nguồn dữ liệu thô và nhiễu.</p>
<p>Một trong những nguồn dữ liệu quan trọng bậc nhất cho máy tính, đồng thời cũng là dạng dữ liệu phức tạp và nhiều nhiễu bậc nhất, chính là ngôn ngữ tự nhiên của loài người. Khác với ngôn ngữ logic của máy, ngôn ngữ của người rất linh hoạt và giàu có, thường không tuân theo các quy luật logic cứng nhắc. Các từ vựng trong ngôn ngữ của chúng ta thường là đa nghĩa. Các từ được kếp hợp với nhau qua các cấu trúc câu đa dạng, làm tăng nên khả năng biểu cảm gấp bội. Các câu lại được kết hợp với nhau tạo ra các ngữ cảnh có thể làm tăng sự mơ hồ hoặc thay đổi hẳn nội dung. </p>
<p>Trong <em>Jeopardy!</em>, giải mã cho được cách chơi chữ trúc trắc và các gợi ý đầy cạm bẫy để “hiểu” được câu hỏi mới chỉ là trở ngại đầu tiên cho Watson.  Để tìm ra câu trả lời, các kỹ sư của IBM còn phải tìm cách giúp Watson tìm kiếm và đánh giá sự tin cậy của các câu trả lời có thể, từ kho dữ liệu khổng lồ được nạp sẵn gồm có các loại từ điển, thư viện Wikipedia, và các tác phẩm văn học. Watson phải tận dụng tất cả khả năng tính toán của mình để tìm ra câu trả lời nhanh và chính xác, vượt qua kinh nghiệm dày dặn và kho tri thức sâu rộng của hai địch thủ sừng sỏ bằng da thịt.</p>
<p>Các kỹ sư của IBM đã phải <a href="http://www.stanford.edu/class/cs124/AIMagzine-DeepQA.pdf">sử dụng</a> hơn 100 phương pháp trong lĩnh vực học máy và xử lý ngôn ngữ để phân tích câu hỏi, tìm tòi nguồn ý của câu hỏi, tìm kiếm và đánh giá độ tin cậy các câu trả lời trong qua các kỹ thuật thống kê và học máy hiện đại.</p>
<p><strong>3. Tương lai TTNT: Từ phép thử Turing đến quan điểm Dijkstra<br />
</strong></p>
<p>Năm 1965, Herbert Simon dự đoán “trong vòng 20 năm nữa máy sẽ làm được bất kỳ việc gì người làm được”; năm 1967, Marvin Minsky cho rằng “trong vòng một thế hệ nữa, bài toán xây dựng ‘trí tuệ nhân tạo’ sẽ được xem như là giải quyết xong”. Ở thời điểm 2011 này, chúng ta biết các vị tiền bối ngành máy tính đã quá lạc quan. Vậy thì, từ những bài học gặt hái được qua chiến thắng lịch sử của Watson năm nay, chúng ta có thể nói gì về tương lai của ngành TTNT? Để thảo luận câu hỏi này, ta quay lại một chút với một câu hỏi cơ bản mà Alan Turing đặt ra năm 1950: làm thế nào để biết máy có “nghĩ” không? </p>
<p><div id="attachment_3228" class="wp-caption alignright" style="width: 330px"><a href="http://www.procul.org/blog/wp-content/uploads/2011/04/turing_test.png"><img src="http://www.procul.org/blog/wp-content/uploads/2011/04/turing_test.png" alt="" title="turing_test" width="320" height="394" class="size-full wp-image-3228" /></a><p class="wp-caption-text">Nguồn ảnh: http://xkcd.com/329/</p></div> Tư duy là một khái niệm khó nắm bắt, là thách thức quan trọng không chỉ đối với ngành khoa học máy tính mà còn thần kinh học và các ngành khoa học xã hội. Vì thế, để trả lời câu hỏi về tư duy của máy, Turing đã đề cử một phép thử mà ngày nay được gọi là <a href="http://en.wikipedia.org/wiki/Turing_test">phép thử Turing</a>: cho một ban giám khảo ngồi trong một không gian tách biệt, nói chuyện với máy đồng thời với số người thật. Nếu ban giám khảo không phân biệt được ai là máy ai là người thật thì kết luận là máy có “tư duy”. Ta phải tưởng tượng mình sống ở năm 1950 để cảm nhận sự khó khăn của việc xây dựng một cái “máy” vượt qua được phép  thử Turing này. </p>
<p>Vậy mà đến năm 1965, chương trình máy tính <a href="http://en.wikipedia.org/wiki/ELIZA">Eliza</a> của Joseph Weizenbaum trường MIT đã có khả năng thuyết phục rất nhiều người là nó là người thật, dùng một <a href="http://en.wikipedia.org/wiki/Rogerian_psychotherapy">cái mẹo đơn giản</a> của các nhà tâm lý học trong hội thoại với bệnh nhân: khi nào không hiểu thì lấy một từ khóa trong câu của bệnh nhân và bảo họ giải thích thêm. Ví dụ, bệnh nhân nói “hôm nay tớ buồn quá”, máy tính trả lời: “bạn nói thêm cho tớ về nỗi buồn của bạn đi!”. Chỉ đơn giản như thế, nhưng rất nhiều người đã không tin rằng Eliza là chương trình máy tính. Nhiều người thậm chí đã “nói chuyện” nhiều giờ liền với Eliza, và khi xong thì báo cáo kết quả là “nhà điều trị tâm lý” Eliza đã có tác động tích cực đến tâm lý của họ. Hiện nay hàng năm vẫn có các kỳ thi dạng phép thử Turing cho các chương trình máy tính (<a href="http://en.wikipedia.org/wiki/Loebner_prize">Giải thưởng Loebner</a> là một ví dụ), và nhiều chương trình đã rất cận kề với điểm vượt qua phép thử Turing. Thậm chí, gần đây có cả chương trình tự động &#8220;kết bạn&#8221; trên các mạng xã hội, hội thoại với con người kiểu Eliza. Các nhà nghiên cứu đã thử cho bọn &#8220;bot&#8221; này <a href="http://www.theatlantic.com/magazine/archive/2011/05/are-you-following-a-bot/8448/">thâm nhập vào trung tâm</a> của một nhóm lớn các bạn bè trong một mạng xã hội kiểu Twitter bằng cách này. Cho nên ai kết bạn linh tinh trên Facebook hay Twitter thì nên cẩn thận xem lại bạn mình có phải là &#8230; người không. </p>
<p>Vậy giờ đây, liệu đã có thể kết luận từ sự kiện Watson, con người đã có thể tạo ra những bộ máy thực sự có trí tuệ hay không? Noam Chomsky, một nhà ngôn ngữ học nổi tiếng, <a href="http://www.framingbusiness.net/archives/1287">thẳng thừng tuyên bố</a>: “Với tôi, Watson chẳng hiểu gì cả. Nó chỉ là một cái máy ủi rất to thôi”.  Marvin Minsky, một trong những người sáng lập nên ngành trí tuệ nhân tạo sau Turing, cũng có <a href="http://www.pbs.org/wgbh/nova/tech/pioneer-artificial-intelligence.html">thái độ tương tự</a>: “Nếu như Watson chỉ là một dạng máy tính tìm kiếm và so trùng mẫu (pattern matching) &#8230; thì chẳng có gì ấn tượng cả. Với tôi, vẫn chưa máy tính nào có thể có cách cư xử theo lẽ thường tình như một đứa trẻ con 4, 5 tuổi”.</p>
<p>Thoạt nghe, những nhận xét như của Chomsky hay Minsky không phải không có cơ sở. Quả là ở chừng mực nào đó, cũng giống như Deep Blue, Watson vẫn chỉ là một máy tính làm rất tốt một việc: đó là việc tìm kiếm câu trả lời, một dạng câu trả lời chỉ thích hợp cho một cuộc chơi, cho dù là một cuộc chơi lắt léo như Jeopardy!. Watson vẫn phải dựa vào kho tri thức khổng lồ đã được tải xuống và sắp xếp vào hệ thống bộ nhớ rất “máy ủi” của mình bởi các kỹ sư bằng da bằng thịt của IBM. Nếu cái kho tri thức ấy được Watson tự thu lượm và học hỏi được thì có thể sự đánh giá của chúng ta với trí thông minh của nó sẽ khác đi chăng? Nhưng nhìn nhận công bằng hơn, Watson thực sự là bước tiến vượt bậc so với Deep Blue. Trước khi có Watson, chúng ta đã không biết chắc có thể tạo ra được máy tính có khả năng xử lý ngôn ngữ tự nhiên của con người và thắng được con người trong một cuộc chơi như <em>Jeopardy!</em>.</p>
<p>Có ai đó từng nói: hễ cứ khi máy tính đã làm được cái gì thì cái đó không được coi là thông minh nữa. Định kiến này  sẽ luôn luôn đi kèm theo bất kỳ thành tựu công nghệ nào của loài người, cho dù chúng có kỳ vĩ đến đâu. Các tác giả bài này chọn cách nhìn cùng hướng với cố giáo sư Edsger Dijkstra, người thắng giải Turing năm 1972. Dijkstra từng nói: “<em>hỏi máy tính có biết nghĩ hay không thì cũng chẳng hay ho gì hơn hỏi tàu ngầm có biết bơi không</em>”. Quan điểm của Dijkstra cũng chính là xu hướng phát triển của khoa học và công nghệ  TTNT hiện nay mà đại diện mới nhất là Watson: <em>hướng chức năng</em>. Khi công nghệ Q&#038;A (hỏi đáp) của Watson có thể dùng để <a href="http://www.thestar.com/news/world/article/960319--ibm-jeopardy-champion-watson-may-help-doctors?bn=1">giúp bệnh nhân và bác sĩ</a> chẩn đoán bệnh bằng cách tìm và trả lời các câu hỏi lâm sàng hóc búa, khi công nghệ Q&#038;A phát triển đến mức các trung tâm giải đáp thắc mắc kỹ thuật <a href="http://blogs.forbes.com/tomgroenfeldt/2011/04/01/ibms-watson-goes-from-jeopardy-to-wall-street/">chỉ còn toàn máy</a>, khi công nghệ Q&#038;A phát triển đến mức ta có thể đặt câu hỏi trực tiếp cho Google mà không cần nghĩ xem từ khóa đúng là gì … thì việc Watson có biết “nghĩ” thật hay không có lẽ không còn là câu hỏi cần thiết nữa. </p>
<p>Khoa học gia ngành Tâm Lý Daniel Gilbert <a href="http://www.theatlantic.com/magazine/archive/2011/03/mind-vs-machine/8386/">từng nói rằng</a>, mỗi nhà tâm lý học sẽ phải một lần trong đời viết cái câu sau: </p>
<p>“Con người là loài duy nhất có khả năng _________” </p>
<p>Cho đến gần cuối thế kỷ 20, điền “chơi cờ vua” vào khoảng trống hẳn là đa số nhân loại đồng ý. Đến nay điền “làm Toán” vào được không? Không! Hệ thống phần mềm <a href="http://www.wolframalpha.com/">WolframAlpha</a> có khả năng làm Toán tốt hơn tuyệt đại đa số nhân loại: nó có thể tính tích phân bất định và xác định, tính tổng các chuỗi hình thức, và mật độ dân số Việt Nam, trong vòng tích tắc, với câu hỏi là ngôn ngữ tự nhiên.</p>
<p>Watson vừa mới loại bỏ thêm một việc nữa mà chỉ con người mới có thể làm được. Xu hướng chức năng theo quan điểm của Dijkstra sẽ là xu hướng thượng phong cho tương lai ngành TTNT. </p>
<p>Có thể đến một lúc nào đó chúng ta sẽ phải quay lại với vấn đề mà Turing đã lẩn tránh khi ông đưa ra phép thử Turing. Trí thông minh là gì? Cụ thể hơn: thế nào là trí thông minh của máy? Tương tự, thế nào là tình cảm của máy? Thế nào là lẽ thường? Còn, nếu bạn không đồng ý với quan điểm Dijkstra và muốn &#8220;hạ gục&#8221; Watson thì chỉ cần hỏi: “<em>Này, Watson, tại sao vợ tớ giận tớ?</em>”</p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/04/19/tri-tu%e1%bb%87-nhan-t%e1%ba%a1o-va-nh%e1%bb%afng-v%e1%bb%8b-chua-t%e1%bb%83-m%e1%bb%9bi/feed/</wfw:commentRss>
		<slash:comments>54</slash:comments>
		</item>
		<item>
		<title>HM6 &#8212; Độ phức tạp Rademacher</title>
		<link>http://www.procul.org/blog/2011/03/15/hm6-d%e1%bb%99-ph%e1%bb%a9c-t%e1%ba%a1p-rademacher/</link>
		<comments>http://www.procul.org/blog/2011/03/15/hm6-d%e1%bb%99-ph%e1%bb%a9c-t%e1%ba%a1p-rademacher/#comments</comments>
		<pubDate>Tue, 15 Mar 2011 04:19:50 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[Bất đẳng thức McDiarmid]]></category>
		<category><![CDATA[Bổ đề Massart]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[Rademacher]]></category>
		<category><![CDATA[VC-dimension]]></category>
		<category><![CDATA[xác suất]]></category>
		<category><![CDATA[Định lý Koltchinskii-Panchenko]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=3096</guid>
		<description><![CDATA[HM5: Mô hình giả thuyết không nhất quán và định lý hội tụ đều Vapnik-Chervonenkis HM7: AdaBoost Trong bài HM 5, ta đã giới thiệu mô hình giả thuyết không nhất quán và chứng minh định lý hội tụ đều của Vapnik và Chervonenkis. Đây là một trong những định lý cơ bản nhất của [...]]]></description>
			<content:encoded><![CDATA[
<p><ul>
<li> <a href="http://www.procul.org/blog/2010/08/30/hm5-d&#37;e1&#37;bb&#37;8bnh-ly-vapnik-chervonenkis-cho-mo-hinh-gi&#37;e1&#37;ba&#37;a3-thuy&#37;e1&#37;ba&#37;bft-khong-nh&#37;e1&#37;ba&#37;a5t/">HM5</a>: Mô hình giả thuyết không nhất quán và định lý hội tụ đều Vapnik-Chervonenkis
<li> HM7: AdaBoost
</ul>
<p>
Trong bài HM 5, ta đã giới thiệu mô hình giả thuyết không nhất quán và chứng minh định lý hội tụ đều của Vapnik và Chervonenkis. Đây là một trong những định lý cơ bản nhất của lý thuyết học máy thống kê. Ta gọi tắt nó là <em>định lý VC</em>. Định lý VC chặn trên lỗi tổng quát hóa bằng lỗi thực nghiệm và độ phức tạp VC (hay VC dimension) của lớp giả thuyết. Trong bài này, ta chứng minh một kết quả tổng quát hơn định lý VC. Ta sẽ chặn trên lỗi tổng quát hóa bằng lỗi thực nghiệm và cái gọi là <em>độ phức tạp Rademacher</em>. Định lý VC là một hệ quả trực tiếp của chặn trên dùng độ phức tạp Rademacher này. Chứng minh kết quả này cũng trực quan hơn rất nhiều so với chứng minh định lý VC trong bài trước. Bạn có thể quên luôn chứng minh của bài trước đi. Ngoài ra, ta sẽ dùng kết quả của bài này để phân tích thuật toán AdaBoost thảo luận trong bài tới. Phần lớn bài này viết theo <a href="http://www.cs.nyu.edu/~mohri/ml10/">bài giảng số 3</a> của Mehryar Mohri ở NYU. </p>
<p>
<p><b> 1. Độ phức tạp Rademacher </b> </p>
<p><p>
Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là một họ các hàm từ một miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> nào đó vào đoạn <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ba%2Cb%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[a,b]}' title='{[a,b]}' class='latex' />. Trong các ứng dụng thì <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%20%3D%20%5COmega%20%5Ctimes%20%5C%7B0%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z = \Omega \times \{0,1\}}' title='{\mathcal Z = \Omega \times \{0,1\}}' class='latex' /> hay <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%20%3D%20%5COmega%20%5Ctimes%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z = \Omega \times \{-1,1\}}' title='{\mathcal Z = \Omega \times \{-1,1\}}' class='latex' />. Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> là một phân bố xác suất trên miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' />. Phân bố này sẽ được hiểu ngầm trong các phát biểu xác suất dưới đây, để tránh ký hiệu lằng nhằng quá.</p>
<p>
Gọi <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> là một tập <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> phần tử bất kỳ của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' />. <em>Độ phức tạp Rademacher thực nghiệm</em> (của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' />, tính tương đối theo <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' />) được định nghĩa là
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%3D%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ig%28z_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%20%5Cdots%2C%20z_m%29%20%5Cright%5D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \hat{\mathcal R}_S(\mathcal G) = \mathop{\mathbf E}_\sigma \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_ig(z_i) \ | \ S = (z_1, \dots, z_m) \right] ' title='\displaystyle  \hat{\mathcal R}_S(\mathcal G) = \mathop{\mathbf E}_\sigma \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_ig(z_i) \ | \ S = (z_1, \dots, z_m) \right] ' class='latex' /></p>
<p> Trong đó, <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma%20%3D%20%28%5Csigma_1%2C%5Cdots%2C%20%5Csigma_m%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma = (\sigma_1,\dots, \sigma_m)}' title='{\sigma = (\sigma_1,\dots, \sigma_m)}' class='latex' /> là một vector của các biến Rademacher: <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%20%3D%20%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i = \pm 1}' title='{\sigma_i = \pm 1}' class='latex' /> với xác suất <img src='http://s.wordpress.com/latex.php?latex=%7B1%2F2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/2}' title='{1/2}' class='latex' />.</p>
<p>
<span id="more-3096"></span><br />
Nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là họ các hàm phân loại (classifiers), mỗi hàm lấy giá trị <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\pm 1}' title='{\pm 1}' class='latex' />, thì độ phức tạp Rademacher thực nghiệm có thể hiểu nôm na như sau. Ta gán giá trị <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\pm 1}' title='{\pm 1}' class='latex' /> ngẫu nhiên vào <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> điểm của <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' />. Rồi tính trung bình xem cái hàm phân loại tốt nhất của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> phân loại đúng được bao nhiêu. Ví dụ, nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là một tập các hàm rất hùng mạnh, với bất kỳ cách gán <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cpm%201%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\pm 1}' title='{\pm 1}' class='latex' /> nào vào <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> cũng tồn tại hàm <img src='http://s.wordpress.com/latex.php?latex=%7Bg%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g}' title='{g}' class='latex' /> gán nhãn chính xác, thì độ phức tạp Rademacher bằng <img src='http://s.wordpress.com/latex.php?latex=%7B1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1}' title='{1}' class='latex' />. Ta chia độ phức tạp cho <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> là để &#8220;bình thường hóa&#8221; số đo này cho nó không phụ thuộc vào số mẫu. </p>
<p>
<em>Độ phức tạp Rademacher</em> của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là trị kỳ vọng của độ phức tạp Rademacher thực nghiệm:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathcal%20R_m%28%5Cmathcal%20G%29%20%3D%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%20%5Csim%20%5Cmathcal%20D%5Em%7D%20%5Cleft%5B%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%5Cright%5D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathcal R_m(\mathcal G) = \mathop{\mathbf E}_{S \sim \mathcal D^m} \left[ \hat{\mathcal R}_S(\mathcal G) \right]. ' title='\displaystyle  \mathcal R_m(\mathcal G) = \mathop{\mathbf E}_{S \sim \mathcal D^m} \left[ \hat{\mathcal R}_S(\mathcal G) \right]. ' class='latex' /></p>
<p>
Quan sát đầu tiên của ta liên hệ độ phức tạp Rademacher của một bộ hàm phân loại và bộ hàm mất mát (loss functions) tương ứng. Cụ thể hơn, gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một bộ các hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5COmega%20%5Crightarrow%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Omega \rightarrow \{-1,1\}}' title='{\Omega \rightarrow \{-1,1\}}' class='latex' />. Mỗi hàm của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một hàm phân loại nhị phân. Từ giờ trở đi ta dùng các nhãn <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{-1,1\}}' title='{\{-1,1\}}' class='latex' /> thay vì nhãn <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B0%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{0,1\}}' title='{\{0,1\}}' class='latex' /> cho tiện về mặt toán học. Đặt <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%20%3D%20%5COmega%20%5Ctimes%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z = \Omega \times \{-1,1\}}' title='{\mathcal Z = \Omega \times \{-1,1\}}' class='latex' />. Như vậy các phần tử <img src='http://s.wordpress.com/latex.php?latex=%7Bz%20%5Cin%20%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z \in \mathcal Z}' title='{z \in \mathcal Z}' class='latex' /> có dạng <img src='http://s.wordpress.com/latex.php?latex=%7Bz%20%3D%20%28%5Cmathbf%20x%2C%20y%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z = (\mathbf x, y)}' title='{z = (\mathbf x, y)}' class='latex' /> với <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathbf%20x%20%5Cin%20%5COmega%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathbf x \in \Omega}' title='{\mathbf x \in \Omega}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7By%20%5Cin%20%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{y \in \{-1,1\}}' title='{y \in \{-1,1\}}' class='latex' />. Xét một phân bố <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> trên <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> tùy hỉ. Định nghĩa một họ hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> từ <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5B0%2C1%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[0,1]}' title='{[0,1]}' class='latex' /> như sau. Với mỗi <img src='http://s.wordpress.com/latex.php?latex=%7Bh%20%5Cin%20%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h \in \mathcal H}' title='{h \in \mathcal H}' class='latex' />, định nghĩa <img src='http://s.wordpress.com/latex.php?latex=%7Bg%28%5Cmathbf%20x%2C%20y%29%20%3D%20%5Cmathbf%201_%7Bh%28%5Cmathbf%20x%29%20%5Cneq%20y%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g(\mathbf x, y) = \mathbf 1_{h(\mathbf x) \neq y}}' title='{g(\mathbf x, y) = \mathbf 1_{h(\mathbf x) \neq y}}' class='latex' />. </p>
<blockquote><p><b>Bổ đề 1</b> <em> Ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cwidehat%7B%5Ctextnormal%7Berr%7D%7D_S%28h%29%20%26%3D%26%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%20%5C%5C%20%5Ctextnormal%7Berr%7D%28h%29%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%5C%5C%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%26%3D%26%20%5Cfrac%201%202%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%5C%5C%20%5Cmathcal%20R_m%28%5Cmathcal%20G%29%20%26%3D%26%20%5Cfrac%201%202%20%5Cmathcal%20R_m%28%5Cmathcal%20H%29.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \widehat{\textnormal{err}}_S(h) &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i) \\ \textnormal{err}(h) &amp;=&amp; \mathop{\mathbf E}[g(z)]\\ \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H)\\ \mathcal R_m(\mathcal G) &amp;=&amp; \frac 1 2 \mathcal R_m(\mathcal H). \end{array} ' title='\displaystyle  \begin{array}{rcl}  \widehat{\textnormal{err}}_S(h) &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i) \\ \textnormal{err}(h) &amp;=&amp; \mathop{\mathbf E}[g(z)]\\ \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H)\\ \mathcal R_m(\mathcal G) &amp;=&amp; \frac 1 2 \mathcal R_m(\mathcal H). \end{array} ' class='latex' /></p>
<p> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Hai đẳng thức đầu tiên là định nghĩa. Đẳng thức thứ tư là hệ quả trực tiếp của đẳng thức thứ ba. Ta chứng minh đẳng thức thứ ba.
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%5Cmathbf%201_%7Bh%28%5Cmathbf%20x_i%29%20%5Cneq%20y_i%7D%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Cfrac%201%202%20%5Csigma_i%281-h%28%5Cmathbf%20x_i%29%20y_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cfrac%201%202%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%2B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%28-%5Csigma_iy_i%29h%28%5Cmathbf%20x_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cfrac%201%202%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ih%28%5Cmathbf%20x_i%29%20%5C%20%7C%20%5C%20S%20%3D%20%28z_1%2C%5Cdots%2C%20z_m%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cfrac%201%202%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_i\mathbf 1_{h(\mathbf x_i) \neq y_i} \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \frac 1 2 \sigma_i(1-h(\mathbf x_i) y_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sum_{i=1}^m \sigma_i + \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m (-\sigma_iy_i)h(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_ih(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H) \end{array} ' title='\displaystyle  \begin{array}{rcl}  \hat{\mathcal R}_S(\mathcal G) &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_i\mathbf 1_{h(\mathbf x_i) \neq y_i} \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \frac 1 2 \sigma_i(1-h(\mathbf x_i) y_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sum_{i=1}^m \sigma_i + \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m (-\sigma_iy_i)h(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \mathop{\mathbf E}_\sigma\left[ \sup_{h\in \mathcal H} \frac 1 m \sum_{i=1}^m \sigma_ih(\mathbf x_i) \ | \ S = (z_1,\dots, z_m) \right]\\ &amp;=&amp; \frac 1 2 \hat{\mathcal R}_S(\mathcal H) \end{array} ' class='latex' /></p>
<p> Đẳng thức thứ tư ta dùng quan sát đơn giản là <img src='http://s.wordpress.com/latex.php?latex=%7B%28-%5Csigma_iy_i%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{(-\sigma_iy_i)}' title='{(-\sigma_iy_i)}' class='latex' /> có phân bố giống hệt <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i}' title='{\sigma_i}' class='latex' /> và các <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i}' title='{\sigma_i}' class='latex' /> độc lập nhau. <img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' /></p>
<p>
Độ phức tạp Rademacher liên quan đến VC-dimension như thế nào? <a href="http://afst.cedram.org/item?id=AFST_2000_6_9_2_245_0">Massart hồi 2000</a> cho ta câu trả lời. Ta sẽ chứng minh bổ đề sau ở cuối bài, sau khi đã làm quen hơn với độ phức tạp Rademacher. </p>
<blockquote><p><b>Bổ đề 2</b> <em> Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một bộ các hàm số vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{-1,1\}}' title='{\{-1,1\}}' class='latex' />. Với <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> là một tập <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> mẫu bất kỳ, ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%5Cleq%20%5Csqrt%7B%5Cfrac%7B2%5Clog%20%5CPi_%7B%5Cmathcal%20H%7D%28S%29%7D%7Bm%7D%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \hat{\mathcal R}_S(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(S)}{m}}. ' title='\displaystyle  \hat{\mathcal R}_S(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(S)}{m}}. ' class='latex' /></p>
<p> Và do đó,
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%7B%5Cmathcal%20R%7D_m%28%5Cmathcal%20H%29%20%5Cleq%20%5Csqrt%7B%5Cfrac%7B2%5Clog%20%5CPi_%7B%5Cmathcal%20H%7D%28m%29%7D%7Bm%7D%7D%20%5Cleq%20%5Csqrt%7B%5Cfrac%7B2d%5Clog%28me%2Fd%29%7D%7Bm%7D%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  {\mathcal R}_m(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(m)}{m}} \leq \sqrt{\frac{2d\log(me/d)}{m}}. ' title='\displaystyle  {\mathcal R}_m(\mathcal H) \leq \sqrt{\frac{2\log \Pi_{\mathcal H}(m)}{m}} \leq \sqrt{\frac{2d\log(me/d)}{m}}. ' class='latex' /></p>
<p> Trong đó <img src='http://s.wordpress.com/latex.php?latex=%7Bd%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d}' title='{d}' class='latex' /> là VC-dimension của <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' />. </em></p></blockquote>
<p><p>
Dùng cái gọi là <em>độ phức tạp Gaussian</em>, <a href="http://portal.acm.org/citation.cfm?id=944944">Bartlett và Mendelson</a> chứng minh một chặn khác chặt hơn nữa: <img src='http://s.wordpress.com/latex.php?latex=%7B%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%3D%20O%28%5Csqrt%7Bd%2Fn%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\hat{\mathcal R}_S(\mathcal H) = O(\sqrt{d/n})}' title='{\hat{\mathcal R}_S(\mathcal H) = O(\sqrt{d/n})}' class='latex' />, và vì thế <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20R_m%28%5Cmathcal%20H%29%20%3D%20O%28%5Csqrt%7Bd%2Fn%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal R_m(\mathcal H) = O(\sqrt{d/n})}' title='{\mathcal R_m(\mathcal H) = O(\sqrt{d/n})}' class='latex' />. Ta sẽ quay lại với Gaussian complexity vào dịp khác. </p>
<p>
<p><b> 2. Các chặn cho độ phức tạp Rademacher </b> </p>
<p><p>
Kết quả chính của đề mục này là từ một <a href="http://projecteuclid.org/DPubS?service=UI&#038;version=1.0&#038;verb=Display&#038;handle=euclid.aos/1015362183">bài báo của Koltchinskii và Panchenko</a> hồi năm 2002. Các bác cựu Liên Xô ngố rất giỏi mấy trò này. Dùng Liên Xô ngố chứ không phải Nga ngố là vì <a href="http://www.math.unm.edu/research/faculty_hp.php?d_id=46">bác Vladimir Koltchinskii</a> tốt nghiệp đại học Kiev. Còn <a href="http://www.math.tamu.edu/department_review/deptselfstudy/panchenko.html">Dmitry Panchenko</a> là học trò của Koltchinskii.</p>
<p>
Để chứng minh kết quả chính này ta cần <a href="http://www.cs.nyu.edu/~rostami/ml/2007/ashish-mcdiarmid.pdf">bất đẳng thức McDiarmid</a> của <a href="http://www.stats.ox.ac.uk/people/academic_staff/colin_mcdiarmid">Colin McDiarmid</a>. BĐT này khá dễ nhớ và dễ dùng. </p>
<blockquote><p><b>Định lý 3 (BĐT McDiarmid)</b> <em> Xét <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> biến ngẫu nhiên độc lập <img src='http://s.wordpress.com/latex.php?latex=%7BX_1%2C%20%5Cdots%2C%20X_m%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X_1, \dots, X_m}' title='{X_1, \dots, X_m}' class='latex' /> trên một miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20X%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal X}' title='{\mathcal X}' class='latex' /> nào đó, và một hàm số <img src='http://s.wordpress.com/latex.php?latex=%7Bf%3A%20%5Cmathcal%20X%5Em%20%5Crightarrow%20%5Cmathbb%20R%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f: \mathcal X^m \rightarrow \mathbb R}' title='{f: \mathcal X^m \rightarrow \mathbb R}' class='latex' />. Hàm số <img src='http://s.wordpress.com/latex.php?latex=%7Bf%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f}' title='{f}' class='latex' /> thỏa điều kiện là thay đổi tọa độ thứ <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' /> thì chỉ thay đổi giá trị của <img src='http://s.wordpress.com/latex.php?latex=%7Bf%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f}' title='{f}' class='latex' /> nhiều nhất là <img src='http://s.wordpress.com/latex.php?latex=%7Bc_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{c_i}' title='{c_i}' class='latex' />. Cụ thể hơn, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7Bi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{i}' title='{i}' class='latex' />, <img src='http://s.wordpress.com/latex.php?latex=%7Bx_1%2C%5Cdots%2C%20x_m%2C%20x%27_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{x_1,\dots, x_m, x&#039;_i}' title='{x_1,\dots, x_m, x&#039;_i}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%7Cf%28x_1%2C%5Cdots%2Cx_%7Bi-1%7D%2Cx_i%2Cx_%7Bi%2B1%7D%2C%5Cdots%2C%20x_m%29%20-%20f%28x_1%2C%5Cdots%2Cx_%7Bi-1%7D%2Cx%27_i%2Cx_%7Bi%2B1%7D%2C%5Cdots%2C%20x_m%29%7C%20%5Cleq%20c_i.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  |f(x_1,\dots,x_{i-1},x_i,x_{i+1},\dots, x_m) - f(x_1,\dots,x_{i-1},x&#039;_i,x_{i+1},\dots, x_m)| \leq c_i. ' title='\displaystyle  |f(x_1,\dots,x_{i-1},x_i,x_{i+1},\dots, x_m) - f(x_1,\dots,x_{i-1},x&#039;_i,x_{i+1},\dots, x_m)| \leq c_i. ' class='latex' /></p>
<p> Thì với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cepsilon%20%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\epsilon &gt;0}' title='{\epsilon &gt;0}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5B%20f%20-%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bf%5D%20%5Cgeq%20%5Cepsilon%20%5D%20%5Cleq%20%5Cexp%5Cleft%28%5Cfrac%7B-2%5Cepsilon%5E2%7D%7B%5Csum_%7Bi%3D1%7D%5Emc_i%5E2%7D%5Cright%29%2C%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \geq \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right), ' title='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \geq \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right), ' class='latex' /></p>
<p> và
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5B%20f%20-%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bf%5D%20%5Cleq%20-%20%5Cepsilon%20%5D%20%5Cleq%20%5Cexp%5Cleft%28%5Cfrac%7B-2%5Cepsilon%5E2%7D%7B%5Csum_%7Bi%3D1%7D%5Emc_i%5E2%7D%5Cright%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \leq - \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right). ' title='\displaystyle  \text{Prob}[ f - \mathop{\mathbf E}[f] \leq - \epsilon ] \leq \exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2}\right). ' class='latex' /></p>
<p> </em></p></blockquote>
<p>
<blockquote><p><b>Định lý 4 (Koltchinskii-Panchenko)</b> <em> Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal G}' title='{\mathcal G}' class='latex' /> là một bộ các hàm từ miền <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20Z%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal Z}' title='{\mathcal Z}' class='latex' /> vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5B0%2C1%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{[0,1]}' title='{[0,1]}' class='latex' />. Với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cdelta%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\delta&gt;0}' title='{\delta&gt;0}' class='latex' />, với xác suất ít nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' /> bất đẳng thức sau đây đúng <em>với mọi</em> <img src='http://s.wordpress.com/latex.php?latex=%7Bg%20%5Cin%20%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g \in \mathcal G}' title='{g \in \mathcal G}' class='latex' />, <a name="eqnrad-bound-1">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%20%5Cleq%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%20%2B%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%281%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}.  \ \ \ \ \ (1)' title='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}.  \ \ \ \ \ (1)' class='latex' /></p>
<p></a> Với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cdelta%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\delta&gt;0}' title='{\delta&gt;0}' class='latex' />, với xác suất ít nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' /> bất đẳng thức sau đây đúng <em>với mọi</em> <img src='http://s.wordpress.com/latex.php?latex=%7Bg%20%5Cin%20%5Cmathcal%20G%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{g \in \mathcal G}' title='{g \in \mathcal G}' class='latex' />, <a name="eqnrad-bound-2">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%20%5Cleq%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%20%2B%202%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%2B%203%20%5Csqrt%7B%5Cfrac%7B%5Clog%5Cfrac%202%20%5Cdelta%7D%7B2m%7D%7D.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%282%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\hat{\mathcal R}_S(\mathcal G) + 3 \sqrt{\frac{\log\frac 2 \delta}{2m}}.  \ \ \ \ \ (2)' title='\displaystyle  \mathop{\mathbf E}[g(z)] \leq \frac 1 m \sum_{i=1}^m g(z_i) + 2\hat{\mathcal R}_S(\mathcal G) + 3 \sqrt{\frac{\log\frac 2 \delta}{2m}}.  \ \ \ \ \ (2)' class='latex' /></p>
<p></a> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Để đơn giản hóa ký hiệu, ta định nghĩa
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%28z%29%5D%20%5C%5C%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%26%3D%26%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20g%28z_i%29%5C%5C%20%5CPhi%28S%29%20%26%3D%26%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}[g] &amp;=&amp; \mathop{\mathbf E}[g(z)] \\ \widehat{\mathop{\mathbf E}}_S[g] &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i)\\ \Phi(S) &amp;=&amp; \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g]. \end{array} ' title='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}[g] &amp;=&amp; \mathop{\mathbf E}[g(z)] \\ \widehat{\mathop{\mathbf E}}_S[g] &amp;=&amp; \frac 1 m \sum_{i=1}^m g(z_i)\\ \Phi(S) &amp;=&amp; \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g]. \end{array} ' class='latex' /></p>
<p> Để chứng minh <a href="#eqnrad-bound-1">(1)</a>, ta cần chứng minh rằng <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPhi%28S%29%20%5Cleq%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Phi(S) \leq 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}}' title='{\Phi(S) \leq 2\mathcal{R}_m(\mathcal G) + \sqrt{\frac{\log\frac 1 \delta}{2m}}}' class='latex' /> với xác suất cao. Để chứng minh điều này thì ta chứng minh <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%5CPhi%28S%29%5D%20%5Cleq%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' title='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' class='latex' />, sau đó áp dụng bất đẳng thức McDiarmid vào hàm số <img src='http://s.wordpress.com/latex.php?latex=%7Bf%20%3D%20%5CPhi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{f = \Phi}' title='{f = \Phi}' class='latex' />. Nói chung, chìa khóa của toàn bộ định lý là chứng minh quan hệ <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%5CPhi%28S%29%5D%20%5Cleq%202%5Cmathcal%7BR%7D_m%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' title='{\mathop{\mathbf E}_S[\Phi(S)] \leq 2\mathcal{R}_m(\mathcal G)}' class='latex' /> bằng kỹ thuật &#8220;đối xứng hóa&#8221;.</p>
<p>
Lưu ý rằng <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20%3D%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%7D%5Cleft%5B%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_%7BS%27%7D%5Bg%5D%20%5Cright%5D.%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}[g] = \mathop{\mathbf E}_{S&#039;}\left[ \widehat{\mathop{\mathbf E}}_{S&#039;}[g] \right].}' title='{\mathop{\mathbf E}[g] = \mathop{\mathbf E}_{S&#039;}\left[ \widehat{\mathop{\mathbf E}}_{S&#039;}[g] \right].}' class='latex' /> Ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%5CPhi%28S%29%5D%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_S%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cmathop%7B%5Cmathbf%20E%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_S%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%7D%20%5Cleft%5B%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_%7BS%27%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%5Cright%5D%20%5Cright%5D%5C%5C%20%5Ctext%7B%28Jensen%29%7D%20%26%5Cleq%20%26%20%5Cmathop%7B%5Cmathbf%20E%7D_S%20%5Cleft%5B%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_%7BS%27%7D%5Bg%5D%20-%20%5Cwidehat%7B%5Cmathop%7B%5Cmathbf%20E%7D%7D_S%5Bg%5D%20%5Cright%5D%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%28g%28z%27_i%29%20-%20g%28z_i%29%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%2CS%27%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%28g%28z%27_i%29%20-%20g%28z_i%29%29%20%5Cright%5D%5C%5C%20%26%5Cleq%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%27%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20g%28z%27_i%29%20%5Cright%5D%2B%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bg%20%5Cin%20%5Cmathcal%20G%7D%20%5Cfrac%201%20m%20%5Csum_%7Bi%3D1%7D%5Em%20-%5Csigma_i%20g%28z_i%29%20%5Cright%5D%5C%5C%20%26%3D%26%202%20%5Cmathcal%20R_m%28%5Cmathcal%20G%29.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}_S[\Phi(S)] &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right]\\ &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}_{S&#039;} \left[\widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ \text{(Jensen)} &amp;\leq &amp; \mathop{\mathbf E}_S \left[ \mathop{\mathbf E}_{S&#039;} \left[ \sup_{g \in \mathcal G} \widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m (g(z&#039;_i) - g(z_i)) \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i(g(z&#039;_i) - g(z_i)) \right]\\ &amp;\leq&amp; \mathop{\mathbf E}_{S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i g(z&#039;_i) \right]+ \mathop{\mathbf E}_{S,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m -\sigma_i g(z_i) \right]\\ &amp;=&amp; 2 \mathcal R_m(\mathcal G). \end{array} ' title='\displaystyle  \begin{array}{rcl}  \mathop{\mathbf E}_S[\Phi(S)] &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right]\\ &amp;=&amp; \mathop{\mathbf E}_S \left[ \sup_{g \in \mathcal G} \mathop{\mathbf E}_{S&#039;} \left[\widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ \text{(Jensen)} &amp;\leq &amp; \mathop{\mathbf E}_S \left[ \mathop{\mathbf E}_{S&#039;} \left[ \sup_{g \in \mathcal G} \widehat{\mathop{\mathbf E}}_{S&#039;}[g] - \widehat{\mathop{\mathbf E}}_S[g] \right] \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m (g(z&#039;_i) - g(z_i)) \right]\\ &amp;=&amp; \mathop{\mathbf E}_{S,S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i(g(z&#039;_i) - g(z_i)) \right]\\ &amp;\leq&amp; \mathop{\mathbf E}_{S&#039;,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m \sigma_i g(z&#039;_i) \right]+ \mathop{\mathbf E}_{S,\sigma} \left[ \sup_{g \in \mathcal G} \frac 1 m \sum_{i=1}^m -\sigma_i g(z_i) \right]\\ &amp;=&amp; 2 \mathcal R_m(\mathcal G). \end{array} ' class='latex' /></p>
<p> Đẳng thức ở dòng thứ <img src='http://s.wordpress.com/latex.php?latex=%7B5%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{5}' title='{5}' class='latex' /> là một dạng &#8220;đối xứng hóa&#8221; (symmetrization) đơn giản: sau khi lấy các mẫu <img src='http://s.wordpress.com/latex.php?latex=%7Bz%27_i%2C%20z_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z&#039;_i, z_i}' title='{z&#039;_i, z_i}' class='latex' /> ta có thể hoán chuyển <img src='http://s.wordpress.com/latex.php?latex=%7Bz%27_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z&#039;_i}' title='{z&#039;_i}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7Bz_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z_i}' title='{z_i}' class='latex' /> từ <img src='http://s.wordpress.com/latex.php?latex=%7BS%27%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S&#039;}' title='{S&#039;}' class='latex' /> sang <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> và ngược lại. Do <img src='http://s.wordpress.com/latex.php?latex=%7BS%27%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S&#039;}' title='{S&#039;}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> là các mẫu độc lập, sự hoán chuyển này không thay đổi phân bố của chúng. </p>
<p>
Bây giờ ta áp dụng bất đẳng thức McDiarmid vào hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPhi%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Phi}' title='{\Phi}' class='latex' />. Khi thay một điểm <img src='http://s.wordpress.com/latex.php?latex=%7Bz_i%20%5Cin%20S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z_i \in S}' title='{z_i \in S}' class='latex' /> bằng <img src='http://s.wordpress.com/latex.php?latex=%7Bz%27_i%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{z&#039;_i}' title='{z&#039;_i}' class='latex' /> nào đó, giá trị của hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPhi%28S%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Phi(S)}' title='{\Phi(S)}' class='latex' /> thay đổi nhiều nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1%2Fm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/m}' title='{1/m}' class='latex' />. Do đó, từ bất đẳng thức McDiarmid ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5CPhi%28S%29%20%5Cleq%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%7D%5B%5CPhi%28S%29%5D%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 1 \delta}{2m}} ' title='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 1 \delta}{2m}} ' class='latex' /></p>
<p> với xác suất ít nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' />. Đó là chứng minh <a href="#eqnrad-bound-1">(1)</a>.</p>
<p>
Để chứng minh <a href="#eqnrad-bound-2">(2)</a> thì ta lại áp dụng McDiarmid một lần nữa. Lần này là với hàm số <img src='http://s.wordpress.com/latex.php?latex=%7B%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\hat{\mathcal R}_S(\mathcal G)}' title='{\hat{\mathcal R}_S(\mathcal G)}' class='latex' />. Trước hết, McDiarmid như lần 1 cho ta <a name="eqntemp1">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5CPhi%28S%29%20%5Cleq%20%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%7D%5B%5CPhi%28S%29%5D%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%202%20%5Cdelta%7D%7B2m%7D%7D%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%283%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 2 \delta}{2m}}  \ \ \ \ \ (3)' title='\displaystyle  \Phi(S) \leq \mathop{\mathbf E}_{S}[\Phi(S)] + \sqrt{\frac{\log \frac 2 \delta}{2m}}  \ \ \ \ \ (3)' class='latex' /></p>
<p></a> với xác suất ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%2F2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta/2}' title='{1-\delta/2}' class='latex' />. Rồi từ bất đẳng thức vừa chứng minh, ta có <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D_%7BS%7D%5B%5CPhi%28S%29%5D%20%5Cleq%202%7B%5Cmathcal%20R%7D_m%28%5Cmathcal%20G%29%20%3D%202%5Cmathop%7B%5Cmathbf%20E%7D_S%5B%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}_{S}[\Phi(S)] \leq 2{\mathcal R}_m(\mathcal G) = 2\mathop{\mathbf E}_S[ \hat{\mathcal R}_S(\mathcal G) ]}' title='{\mathop{\mathbf E}_{S}[\Phi(S)] \leq 2{\mathcal R}_m(\mathcal G) = 2\mathop{\mathbf E}_S[ \hat{\mathcal R}_S(\mathcal G) ]}' class='latex' />. Khi thay <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> chỉ một mẫu thì <img src='http://s.wordpress.com/latex.php?latex=%7B%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\hat{\mathcal R}_S(\mathcal G)}' title='{\hat{\mathcal R}_S(\mathcal G)}' class='latex' /> thay đổi nhiều nhất là <img src='http://s.wordpress.com/latex.php?latex=%7B1%2Fm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1/m}' title='{1/m}' class='latex' />. Do đó, với xác suất ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%2F2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta/2}' title='{1-\delta/2}' class='latex' /> ta có <a name="eqntemp2">
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Chat%7B%5Cmathcal%20R%7D_m%28%5Cmathcal%20G%29%20%5Cleq%20%5Chat%7B%5Cmathcal%20R%7D_S%28%5Cmathcal%20G%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%202%20%5Cdelta%7D%7B2m%7D%7D.%20%20%5C%20%5C%20%5C%20%5C%20%5C%20%284%29&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \hat{\mathcal R}_m(\mathcal G) \leq \hat{\mathcal R}_S(\mathcal G) + \sqrt{\frac{\log \frac 2 \delta}{2m}}.  \ \ \ \ \ (4)' title='\displaystyle  \hat{\mathcal R}_m(\mathcal G) \leq \hat{\mathcal R}_S(\mathcal G) + \sqrt{\frac{\log \frac 2 \delta}{2m}}.  \ \ \ \ \ (4)' class='latex' /></p>
<p></a> Từ <a href="#eqntemp1">(3)</a> và <a href="#eqntemp2">(4)</a> ta có <a href="#eqnrad-bound-2">(2)</a>. <img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' /></p>
<p>
<p><b> 3. Một số hệ quả của chặn độ phức tạp Rademacher </b> </p>
<p><p>
Từ Bổ đề 1 và Định lý 4, ta có hệ quả sau đây.</p>
<blockquote><p><b>Hệ quả  5</b> <em> Gọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là một họ các hàm phân lớp từ <img src='http://s.wordpress.com/latex.php?latex=%7B%5COmega%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Omega}' title='{\Omega}' class='latex' /> vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B-1%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{-1,1\}}' title='{\{-1,1\}}' class='latex' />. Thì với mọi <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cdelta%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\delta&gt;0}' title='{\delta&gt;0}' class='latex' />, với xác suất ít nhất <img src='http://s.wordpress.com/latex.php?latex=%7B1-%5Cdelta%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1-\delta}' title='{1-\delta}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Ctext%7Berr%7D%28h%29%20%26%5Cleq%26%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%20%2B%20%5Cmathcal%7BR%7D_m%28%5Cmathcal%20H%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D%5C%5C%20%5Ctext%7Berr%7D%28h%29%20%26%5Cleq%26%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%20%2B%20%5Cwidehat%7B%20%5Cmathcal%20R%7D_S%28%5Cmathcal%20H%29%20%2B%203%20%5Csqrt%7B%5Cfrac%7B%5Clog%20%5Cfrac%201%20%5Cdelta%7D%7B2m%7D%7D.%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \mathcal{R}_m(\mathcal H) + \sqrt{\frac{\log \frac 1 \delta}{2m}}\\ \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \widehat{ \mathcal R}_S(\mathcal H) + 3 \sqrt{\frac{\log \frac 1 \delta}{2m}}. \end{array} ' title='\displaystyle  \begin{array}{rcl}  \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \mathcal{R}_m(\mathcal H) + \sqrt{\frac{\log \frac 1 \delta}{2m}}\\ \text{err}(h) &amp;\leq&amp;\widehat{\text{err}}(h) + \widehat{ \mathcal R}_S(\mathcal H) + 3 \sqrt{\frac{\log \frac 1 \delta}{2m}}. \end{array} ' class='latex' /></p>
<p> </em></p></blockquote>
<p> Chặn thứ 2 chỉ phụ thuộc vào dữ liệu, do đó có khả năng hữu dụng trong việc chọn mô hình phân lớp, giúp giải quyết vấn đề <a href="http://en.wikipedia.org/wiki/Model_selection">model selection</a>. Vấn đề là làm thế nào để tính độ phức tạp Rademacher một cách hiệu quả, chưa nói đến việc chọn một hàm <img src='http://s.wordpress.com/latex.php?latex=%7Bh%5Cin%20%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h\in \mathcal H}' title='{h\in \mathcal H}' class='latex' /> với <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csum_i%20%5Csigma_ih%28%5Cmathbf%20x_i%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sum_i \sigma_ih(\mathbf x_i)}' title='{\sum_i \sigma_ih(\mathbf x_i)}' class='latex' /> lớn nhất. Bài này khó tương đương với bài toán tối thiểu hóa lỗi thực nghiệm (ERM), và nói chung là <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathbf%7BNP%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathbf{NP}}' title='{\mathbf{NP}}' class='latex' />-khó. Câu hỏi tự nhiên là, có một &#8220;độ phức tạp&#8221; nào hữu dụng và dễ tính hơn không?</p>
<p>
Từ hệ quả trên và Bổ đề 2 ta có định lý VC. Vậy ta chứnh minh bổ đề 2. Nhưng ta sẽ chứng minh một bổ đề còn tổng quát hơn Bổ đề 2, gọi là Bổ đề Massart. Mấy cái mẹo dùng trong chứng minh bổ đề Massart rất phổ dụng trong các chứng minh hiện tượng tập trung (concentration inequalities).</p>
<blockquote><p><b>Bổ đề 6 (Bổ đề Massart)</b> <em> Xét một tập con hữu hạn <img src='http://s.wordpress.com/latex.php?latex=%7BA%20%5Csubset%20%5Cmathbb%20R%5Em%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{A \subset \mathbb R^m}' title='{A \subset \mathbb R^m}' class='latex' />, với <img src='http://s.wordpress.com/latex.php?latex=%7BL%20%3D%20%5Cmax_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5C%7C%5Cmathbf%20x%20%5C%7C_2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{L = \max_{\mathbf x \in A} \|\mathbf x \|_2}' title='{L = \max_{\mathbf x \in A} \|\mathbf x \|_2}' class='latex' />. Ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Cfrac%201%20m%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cleq%20%5Cfrac%7BL%5Csqrt%7B2%5Clog%7CA%7C%7D%7D%7Bm%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{L\sqrt{2\log|A|}}{m}. ' title='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \frac 1 m \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{L\sqrt{2\log|A|}}{m}. ' class='latex' /></p>
<p> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Ta dùng cái mẹo Bernstein, còn gọi là phương pháp mô-măng mũ (exponential moment method). Do hàm mũ là hàm lồi, bất đẳng thức Jensen suy ra, với <img src='http://s.wordpress.com/latex.php?latex=%7Bt%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t&gt;0}' title='{t&gt;0}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%5Cexp%5Cleft%28%20t%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cright%29%20%26%5Cleq%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cexp%5Cleft%28%20t%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%5C%5C%20%26%5Cleq%26%20%5Csum_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Csum_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cprod_%7Bi%3D1%7D%5Em%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) &amp;\leq&amp; \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma \left[ \sup_{\mathbf x \in A} \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;\leq&amp; \sum_{\mathbf x \in A} \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \sum_{\mathbf x \in A} \prod_{i=1}^m \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \end{array} ' title='\displaystyle  \begin{array}{rcl}  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) &amp;\leq&amp; \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \mathop{\mathbf E}_\sigma \left[ \sup_{\mathbf x \in A} \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;\leq&amp; \sum_{\mathbf x \in A} \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sum_{i=1}^m \sigma_ix_i \right) \right]\\ &amp;=&amp; \sum_{\mathbf x \in A} \prod_{i=1}^m \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \end{array} ' class='latex' /></p>
<p> Đến đây, ta dùng một bất đẳng thức tạm gọi là <em>bất đẳng thức Hoeffding nhỏ</em>, thường dùng làm bước chính trong chứng minh <a href="http://en.wikipedia.org/wiki/Hoeffding's_inequality">BĐT Hoeffding</a> (lớn). BĐT Hoeffding nhỏ phát biểu như sau: nếu <img src='http://s.wordpress.com/latex.php?latex=%7BX%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X}' title='{X}' class='latex' /> là một biến ngẫu nhiên với <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D%5BX%5D%3D0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}[X]=0}' title='{\mathop{\mathbf E}[X]=0}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7BX%5Cin%20%5Ba%2Cb%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{X\in [a,b]}' title='{X\in [a,b]}' class='latex' /> thì, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7Bs%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{s&gt;0}' title='{s&gt;0}' class='latex' /> ta có <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathop%7B%5Cmathbf%20E%7D%5B%5Cexp%28sX%29%5D%20%5Cleq%20%5Cexp%28s%5E2%28b-a%29%5E2%2F8%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathop{\mathbf E}[\exp(sX)] \leq \exp(s^2(b-a)^2/8)}' title='{\mathop{\mathbf E}[\exp(sX)] \leq \exp(s^2(b-a)^2/8)}' class='latex' />. Chứng minh BĐT này rất đơn giản. (Xem <a href="http://www.cs.berkeley.edu/~bartlett/courses/281b-sp08/13.pdf">ở đây</a> chẳng hạn.) Từ BĐT Hoeffding nhỏ ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%20%5Cleft%5B%20%5Cexp%5Cleft%28%20t%20%5Csigma_ix_i%20%5Cright%29%20%5Cright%5D%20%5Cleq%20%5Cexp%28t%5E2%282x_i%29%5E2%2F8%29%20%3D%20%5Cexp%28t%5E2x_i%5E2%2F2%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \leq \exp(t^2(2x_i)^2/8) = \exp(t^2x_i^2/2). ' title='\displaystyle  \mathop{\mathbf E}_\sigma \left[ \exp\left( t \sigma_ix_i \right) \right] \leq \exp(t^2(2x_i)^2/8) = \exp(t^2x_i^2/2). ' class='latex' /></p>
<p> Như vậy,
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cexp%5Cleft%28%20t%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cright%29%20%5Cleq%20%5Csum_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Cprod_%7Bi%3D1%7D%5Em%20%5Cexp%28t%5E2x_i%5E2%2F2%29%20%5Cleq%20%7CA%7C%20%5Cexp%28t%5E2L%5E2%2F2%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) \leq \sum_{\mathbf x \in A} \prod_{i=1}^m \exp(t^2x_i^2/2) \leq |A| \exp(t^2L^2/2). ' title='\displaystyle  \exp\left( t \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \right) \leq \sum_{\mathbf x \in A} \prod_{i=1}^m \exp(t^2x_i^2/2) \leq |A| \exp(t^2L^2/2). ' class='latex' /></p>
<p> Lấy <img src='http://s.wordpress.com/latex.php?latex=%7B%5Clog%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\log}' title='{\log}' class='latex' /> hai vế, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7Bt%3E0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t&gt;0}' title='{t&gt;0}' class='latex' /> ta có
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Cmathbf%20E%7D_%5Csigma%5Cleft%5B%20%5Csup_%7B%5Cmathbf%20x%20%5Cin%20A%7D%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_ix_i%20%5Cright%5D%20%5Cleq%20%5Cfrac%7B%5Clog%7CA%7C%7D%7Bt%7D%20%2B%20%5Cfrac%7BtL%5E2%7D%7B2%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{\log|A|}{t} + \frac{tL^2}{2}. ' title='\displaystyle  \mathop{\mathbf E}_\sigma\left[ \sup_{\mathbf x \in A} \sum_{i=1}^m \sigma_ix_i \right] \leq \frac{\log|A|}{t} + \frac{tL^2}{2}. ' class='latex' /></p>
<p> Chọn <img src='http://s.wordpress.com/latex.php?latex=%7Bt%20%3D%20%5Cfrac%7B%5Csqrt%7B2%5Clog%7CA%7C%7D%7D%7BL%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{t = \frac{\sqrt{2\log|A|}}{L}}' title='{t = \frac{\sqrt{2\log|A|}}{L}}' class='latex' /> để giảm thiểu vế phải là hoàn tất toàn bộ chứng minh. <img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' /></p>
<p>
<b>Bài tập:</b> chứng minh Bổ đề 2 từ Bổ đề Massart. </p>
<p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/03/15/hm6-d%e1%bb%99-ph%e1%bb%a9c-t%e1%ba%a1p-rademacher/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Go Watson Go!</title>
		<link>http://www.procul.org/blog/2011/02/14/go-watson-go/</link>
		<comments>http://www.procul.org/blog/2011/02/14/go-watson-go/#comments</comments>
		<pubDate>Mon, 14 Feb 2011 18:03:00 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Trí tuệ nhân tạo]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2951</guid>
		<description><![CDATA[We&#8217;re all rooting for you, man. (Pun intended!)]]></description>
			<content:encoded><![CDATA[<p>We&#8217;re all rooting for <a href="http://www-943.ibm.com/innovation/us/watson/">you</a>, man. (Pun intended!)</p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2011/02/14/go-watson-go/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Lexicon — xác suất thống kê và học máy</title>
		<link>http://www.procul.org/blog/2010/11/09/lexicon-xac-su%e1%ba%a5t-th%e1%bb%91ng-ke-va-h%e1%bb%8dc-may/</link>
		<comments>http://www.procul.org/blog/2010/11/09/lexicon-xac-su%e1%ba%a5t-th%e1%bb%91ng-ke-va-h%e1%bb%8dc-may/#comments</comments>
		<pubDate>Tue, 09 Nov 2010 05:45:35 +0000</pubDate>
		<dc:creator>Nguyễn Xuân Long</dc:creator>
				<category><![CDATA[Toán Ứng Dụng]]></category>
		<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[thống kê]]></category>
		<category><![CDATA[Thuật ngữ]]></category>
		<category><![CDATA[xác suất]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2532</guid>
		<description><![CDATA[Last Updated: 18/11/2010 Trang này lấy cảm hứng từ trang lexicon của chùa THT bắt đầu từ gợi ý của địa chủ blog này. Chủ đề trung tâm là suy diễn thống kê. Với nhãn quan này tôi bắt đầu từ lý thuyết xác suất, sau đó chuyển sang lexicon bên thống kê học và [...]]]></description>
			<content:encoded><![CDATA[<p>Last Updated: 18/11/2010</p>
<p>Trang này lấy cảm hứng từ trang <a href="http://thichhoctoan.wordpress.com/lexicon/">lexicon</a> của chùa THT bắt đầu từ gợi ý của địa chủ blog này.</p>
<p>Chủ đề trung tâm là suy diễn thống kê. Với nhãn quan này tôi bắt đầu từ lý thuyết xác suất, sau đó chuyển sang lexicon bên thống kê học và đảo qua học máy (machine learning) bên khmt rồi đến các giải thuật quy hoạch tối ưu.</p>
<p><span id="more-2532"></span></p>
<p>Số lượng lexicon tôi biết còn rất cám cảnh, mục tiêu chính (ích kỷ) ở đây sẽ là cơ hội (cho tôi) để học thêm. Có một số từ chuyên ngành sẽ khá là mới mẻ, đây sẽ là cơ hội để ta tự do sáng tác. Sẽ cố gắng thống nhất với các lexicon đã được xem là chuẩn, nhưng vẫn có thể xem lại một số chưa được sát nghĩa. Rất mong được sự góp ý của mọi người.</p>
<p>Khởi động với lý thuyết xác suất (có vẻ dễ dàng hơn cả, càng đi tiếp hình như càng cam go). Tôi sẽ tiếp tục cập nhật khi có thêm đóng góp.</p>
<p><strong>Mục lục.</strong></p>
<blockquote style="text-align: left;"><p><strong>1. Lý thuyết xác suất</strong></p>
<p>1.1 Căn bản<br />
1.2 Độc lập và hội tụ<br />
1.3 Quá trình ngẫu nhiên</p>
<p><strong>2. Mô hình thống kê</strong></p>
<p>2.1 Căn bản<br />
2.2 Tham số<br />
2.3 Đầy đủ và thông tin<br />
2.4 Nhãn quan Bayes và Tần suất<br />
2.5 Phân lớp các mô hình và cách tham số hóa<br />
2.6 Dao cạo của Occam</p>
<p><strong>3. Suy diễn thống kê</strong></p>
<p>3.1 Tổng quan<br />
3.2 Lý thuyết quyết định<br />
3.3 Các cách ước lượng/ học thống kê<br />
3.4 Các suy diễn thống kê cụ thể<br />
3.5 Thống kê vô hạn, lý thuyết học và lý thuyết thông tin<br />
3.6 Lựa chọn mô hình<br />
3.7 Thiết kế thí nghiệm</p>
<p><strong>4. Giải thuật thống kê/ học giả </strong></p>
<p>4.1 Tổng quan</p>
<p>&#8230;.</p></blockquote>
<p><strong>1. Lý thuyết xác suất:</strong></p>
<p><strong>1.1 Căn bản</strong>: Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự <strong><em>ngẫu nhiên</em></strong> (randomness). Đối tượng cơ bản nhất của LTXS là các <em>biến ngẫu nhiên</em> (random variables).  Để định nghĩa một biến ngẫu nhiên thì cần một <em><strong>hàm phân bố</strong> </em>(distribution function), qua đó có thể định nghĩa được các khái niệm như <em>trung bình</em> (mean) và <em><strong>phương sai</strong></em> (variance). Standard deviation gọi là <strong><em>độ lệch chuẩn</em></strong>. Mean và variance là các <em><strong>phiếm hàm</strong></em> (functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu diễn bởi <strong><em>hàm mật độ</em></strong> (density), theo định lý Radon-Nikodym.</p>
<p>Cơ sở toán học của lý thuyết xác suất là <em>thuyết độ đo</em> (measure theory), nhưng việc chính của các xác suất gia (?) (probablist) là xây dựng phát triển cáng nhiều loại đo đo xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa một <em>đại số sigma</em> (sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm <em><strong>độc lập</strong> </em>(independence), và mạnh mẽ hơn là <em><strong>độc lập có điều kiện</strong></em> (conditional independence). Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát hơn.</p>
<p><strong>1.2 Độc lập và hội tụ:</strong> Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh <em>hiện tượng <strong>tập trung của độ đo</strong></em> (concentration of measure). Bắt đầu là <strong><em>luật các số lớn</em></strong> (có phiên bản<em> luật mạnh</em> (strong law) và<em> luật yếu</em>). Luật <strong><em>giới hạn trung tâm</em> </strong>(Central limit theorem) nhắc rằng sample mean (<strong><em>mẫu trung bình</em></strong>)  có quy luật <strong><em>bình thường</em></strong> (normal/Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm <em>hội tụ</em> (convergence) trong giải tích. Hội tụ <strong><em>gần chắc</em></strong> (almost sure), <em><strong>hội tụ về phân bố hoặc về luật</strong> </em>(convergence in distribution/ in law).  Ngoài luật số lớn còn có <strong><em>luật các số nhỏ</em> </strong>(hay luật các hiện tượng hiếm có &#8212; law of rare events), cho ta biết khi nào thì mẫu trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất &#8212; là những viên gạch cho toàn bộ lâu đài XS.</p>
<p>Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là <strong><em>tính hoán chuyển được</em></strong> (exchangeability).  Nếu tính độc lập là nền tảng cho các phương pháp <strong><em>suy diễn tần số</em></strong> (frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp<strong> suy diễn Bayesian</strong>. Tính hoán chuyển được đang được mở rộng ra thành <em><strong>hoán chuyển từng phần</strong></em> (partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các <em><strong>vật thể tổ hợp </strong></em>(combinatorial object) rời rạc và phức tạp.</p>
<p><strong>1.3 Quá trình ngẫu nhiên:</strong> LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp, nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những <em>tập các hàm số đo được</em> (measurable functions), và hàm phân bố cho các <em><strong>độ đo ngẫu nhiên</strong></em> (random measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các <strong><em>quá trình ngẫu nhiên</em></strong> (stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ các điều kiện <strong><em>nhất quán</em></strong> (consistency) của độ đo cho các <em>cylinder sets</em>. Đây là cách để chúng ta xây dựng được các hàm phân bố cho <em>quá trình Gauss</em> (Gaussian processes), <em>quá trình Dirichlet</em> (Dirichlet process), v.v.</p>
<p>Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào <em>phép biến đổi Fourier</em> (Fourier transform) của các hàm phân bố.  Theo ngôn ngữ XS thì khái niệm này gọi là <strong><em>hàm tính cách</em></strong> (characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần khái niệm các hàm phân bố <strong><em>khả phân vô hạn</em></strong> (infinitely divisible). Khái niệm tiếp theo là các hàm <strong><em>phân bố ổn định</em> </strong>(stable distribution). Gauss và Poisson chính là hai hàm phân bố ổn định &#8212; không phải là &#8220;ngẫu nhiên&#8221; nếu chúng ta quay về các luật số lớn và số nhỏ nhắc ở trên. Max-stable là một họ<strong><em> phân bố cực đại ổn định</em></strong>.</p>
<p>Các quá trình ngẫu nhiên có tính chất <strong><em>gia tăng độc lập</em></strong> (independent increment) gọi là quá trình Lévy. Tổng quát hơn một chút là các <strong><em>độ đo hoàn toàn độc lập</em></strong> (completely random measures). Định lý biểu diễn Lévy-Khintchine cho chúng ta biết rõ hàm tính cách của các quá trính stochastic này là gì, thông qua <em>độ đo Lévy </em>(Levy measure). Chọn độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tương ứng. Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ của các lâu đài xác suất đồ sộ:  Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả các quá trính Lévy đều có thể được decompose <em>(<span style="text-decoration: line-through;">phân rã</span>) (phân tách) </em>thành tổng của ba quá trình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quá trình <strong><em>phức hợp</em></strong> (compound) Poisson, và một là quá trình martingale.</p>
<p>Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫu nhiên. Thay vì hình dung sigma đại số (recipe làm bánh) thì ta có thể mô tả những cái bánh. Nếu quá trình được liệt kê bởi tham số thởi gian, thì một cái bánh ở đây có thể hiểu là một <em>lối mẫu</em> (sample path). Với một số quá trình ngẫu nhiên thì có thể mô tả cách tạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp <em>nhặt mẫu từ giỏ Pólya</em> (Pólya&#8217;s urn).  Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng <strong><em>biểu diễn bẻ gậy</em></strong> (stick-breaking representation). Theo biểu diễn này thì cần các <em>nguyên tử</em> (atom) và các <em>mẩu gậy</em> (stick-breaking weight). Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở của độc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằng các nguyên liệu giản đơn hơn.</p>
<p>Được quan tâm hàng đầu là biểu hiện của giá trị <em>kỳ vọng</em> (expectation) của một vật thể xác suất. Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bản thân nó cũng là một biến ngẫu nhiên. Một công cụ quan trọng là khái niệm martingale. Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là <em><strong>quá trình đánh bạc</strong></em>(?). Cần khái niệm filtration (<em><strong>hệ thống lọc</strong></em>). Ngoải ra ta còn có submartingale, supermartingale và semimartingale (?). Nhờ các công cụ này mà ta có thể tìm hiểu các khái niệm xác suất hữu ích như<strong> <em>thời điểm dừng</em></strong> (stopping time), <strong><em>thời điểm chạm</em></strong> (hitting time), <strong><em>thời gian/thởi điểm vượt biên</em></strong> (boundary crossing time).</p>
<p>Một họ quá trình NN rất thông dụng là <em>quá trình Markov</em> (Markov process). Định nghĩa trên cơ sở <strong><em>hạch xác suất chuyển dịch</em></strong> (transition probability kernel), và khái niệm hệ thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local time được dịch là <strong><em>thời gian địa phương</em></strong>. Quá trình Markov cho thời gian rời rạc còn gọi là <em><strong>chuỗi Markov</strong> (hoặc<strong> xích Markov</strong>).</em> Liên qua đến chuỗi Markov là lý thuyết ergodic (?). Irreducibility dịch là <strong><em>bất khả quy</em></strong>.  Một vấn đề được quan tâm là <em>thời gian <strong>hòa tan</strong></em> (mixing time) của chuỗi Markov.  Điều kiện cần cho chuỗi Markov được hòa tan về một trạng thái <em>phân bố bất dịch (phân bố dừng)</em> (stationary distribution)  là ergodicity, thỏa mãn phương trính<strong> c<em>ân bằng chi tiết</em></strong> (detailed balance). Chuỗi Markov định nghĩa cho không gian rởi rạc (<em><strong>dàn</strong></em> lattice chẳng hạn) thì sẽ trở thành quá trình<strong> <em>đi bộ ngẫu nhiên</em></strong> (random walk).  Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự <strong>cặp đôi</strong>. Coupling from the past? Quá đơn giản, <strong>cặp nhau từ quá khứ</strong>! Time-homogeneous Markov process gọi là <strong><em>quá trình Markov đồng biến</em></strong>.</p>
<p>Nói đến quá trình ta thường nghĩ đến thời gian &#8212; cụ thể là các quá trình NN thường được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là <strong><em>trường ngẫu nhiên Markov</em></strong>. Gaussian random field là <strong><em>trường ngẫu nhiên Gauss</em></strong>. Poisson point process gọi là <strong><em>quá trình điểm Poisson</em></strong> (lại quá trình, nhưng kỳ thực phải gọi là trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là <em><strong>hiện tượng chuyển pha</strong></em>.</p>
<p>Một dạng quá trình NN khá hay ho gọi là empirical process (<strong><em>quá trình thực nghiệm</em></strong>). Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói  ở mục sau.</p>
<p>Các khái niệm quan trọng khác: percolation, excursion, optional stopping</p>
<p><!--more--></p>
<p><strong>2. Mô hình thống kê</strong></p>
<p><strong>2.1 Căn bản. </strong><em><strong>Mô hình thống kê</strong></em> (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyên liệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS. Cái khác ở đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là <em><strong>dữ liệu</strong></em> (data), những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằng thực nghiệm và các thiết bị công nghệ. Cho nên trọng tâm của việc xây dựng mô hình thống kê là làm sao <em><strong>ước lượng</strong></em> (estimate) /<em><strong>học</strong></em> (learn) được mô hình này từ dữ liệu, làm sao có thể đánh giá được tính <em><strong>hiệu quả</strong></em> (efficiency) hoặc tính <em><strong>phổ quát</strong></em> (generalization) của mô hình, làm sao có thể <em><strong>chọn ra được mô hình</strong></em> hữu ích (model selection/model choice).</p>
<p><strong>2.2 Tham số.</strong> Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải <strong>tham số</strong> hóa (parameterization) mô hình. Các <strong><em>tham số</em></strong> (parameter) là phần còn lại của mô hình xác suất mà chúng ta phải ước lượng, học. Đến đây có một vấn đề nho nhỏ, các tham số là một giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên. Có hai cách tiếp cận vấn đề này, <strong><em>trường phái tần suất</em></strong> giả dụ cách đẩu, còn <em><strong>trường phái Bayes</strong></em> thì giả dụ cách sau. Nếu các tham số là có số chiều hữu hạn, ta có một <strong><em>mô hình tham số</em></strong> (parametric model), nếu số chiều là vô hạn thì ta có <em><strong>mô hình phi tham số</strong></em> (nonparametric model). Như vậy, gọi là phi tham số không có nghĩa là không có tham số. Nếu tham số là ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là <strong><em>mô hình phi tham số Bayes</em></strong> (Bayesian nonparametric model). Điều này không có nghĩa làm việc với các mô hình dạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người phát triến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãn quan Bayes. Song không nhất thiết phải vậy.</p>
<p><strong>2.3 Đầy đủ và thông tin</strong>. Một công cụ quan trọng trong việc tham số hóa là khái niệm<em><strong> thống kê đầy đủ</strong></em> (sufficient statistics). Để hiểu khái niệm này phải hiểu khái niệm <em><strong>thống kê</strong></em> là gì. Một thống kê là một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên hệ với khmt thì thống kê chính là <em><strong>đầu ra</strong></em> (output) của một <em><strong>giải thuật</strong></em> sử dụng dữ liệu như là <em><strong>đầu vào</strong></em>.  Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý <em><strong>biểu diễn phân tích Fisher-Neyman</strong></em> (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm thống kê đầy đủ là một khái niệm có tính lý thuyết <strong>thông tin</strong> (information-theoretic), có thể phát biểu bằng tính <em>độc lập có điều kiện</em> và các khái niệm entropy.</p>
<p>Một loạt các mô hình đẹp có thể được động viên từ khái niệm cần và đủ kiểu này. Mô hình <em><strong>họ mũ</strong></em> (exponential family) là mô hình tạo ra dữ liệu ngẫu nhiên nhất có thể được, nếu các thống kê đầy đủ đã được cho. <em><strong>Mô hình xác suất đồ thị </strong></em>(probabilistic graphical model) là mô hình duy nhất thỏa mãn các ràng buộc về độc lập có điều kiện cho các biến ngẫu nhiên, theo định lý Hammersley-Clifford. Nếu các biến ngẫu nhiên được giả dụ là hoán chuyển được, thì chúng bắt buộc phải được mô tả bởi một <em><strong>mô hình trộn/ mô hình hỗn hợp </strong></em>(mixture model), theo định lý nổi tiếng của de Finetti. Nếu các biến ngẫu nhiên có hàm phân bố không thay đổi kể cả khi bị <em><strong>biến đổi trực chuẩn</strong></em> (orthornomal transformation) thì chúng bắt buộc phải được mô tả bởi một elliptically contoured distribution (<em><strong>phân bố có đường cong ê líp</strong></em>), kiểu như Gauss đa biến vậy.</p>
<p><strong>2.4 </strong><strong>Nhãn quan Bayes và tần suất</strong>. Các mô hình thống kê cho ta keo dính để gắn kết các dữ liệu với nhau, và là đối tượng trung tâm của ngành thống kê. Nhưng trong lịch sử và đến tận bây giờ, các mô hình vẫn được trường phái Bayes chào đón nồng nhiệt hơn là trường phái tần suất, bởi vì sự lệ thuộc vào một mô hình thống kê làm cho người ta liên tưởng đến sự lệ thuộc vào <em><strong>tiên nghiệm</strong></em> (prior knowledge) quá nhiều, và do đó thiếu đi sự &#8220;khách quan&#8221;. Đặc biệt trong trường phái Bayes có một nhánh gọi là <strong><em>Bayes chủ quan</em></strong> (subjective Bayes) và <em><strong>Bayes khách quan</strong></em>. Những người theo Bayes chủ quan cho rằng, nếu ta có những <em><strong>niềm tin chủ quan </strong></em>(subjective belief) nhất định về dữ liệu, thì ta sẽ sử dụng một mô hình xác suất tương ứng, do các định lý kiểu như của de Finetti và Hammersley-Clifford kể trên. Một mảng không nhỏ của ngành thống kê học, thuộc trường phái tấn suất, tập trung vào các phương pháp <em><strong>mô hình tự do</strong></em> (distribution free), qua đó không sử dụng một mô hình xác suất cụ thể nào, mặc dù họ có giả sử là tộn tại một hàm phân bố để tạo ra các mẫu dữ liệu một cách độc lập.  Chú ý rằng điều này không có nghĩa là các nhà tần suất là khách quan hơn các nhà Bayes chủ quan, vì sự giả dụ tính độc lập nói chung là mạnh hơn sự giả dụ tính độc lập điều kiện, hay tính hoán chuyển được. Cả hai cách nhìn Bayes và tần suất đều hữu ích trong các ngữ cảnh khác nhau, và về nhiều mặt không có phe hoàn toàn đúng. Cả hai cách nhìn này đều chứa chất mâu thuẫn trong mình, có sự đối chọi nhau, nhưng cũng có sự tương hỗ nhau giống như bức tranh âm-dương trong Kinh Dịch vậy. Ta sẽ tiếp tục soi lại quan hệ này mỗi khi có dịp.</p>
<p><strong>2.5 Phân lớp các mô hình cụ thể và cách tham số hóa</strong>.  Các mô hình thống kê giống như các sinh vật trong thế giới tự nhiên, rất đa dạng và có thể được phân lớp, và có thể quan sát sự phức tạp tăng dần với quá trình phát triển của ngành. Trong ngành học máy thì một số người còn gọi một mô hình là một cái máy (machine), nghe công nghệ, hiện đại và mới mẻ hơn. Để mô tả một mô hình thì cần phải nói cách tham số hóa của chúng thế nào, nên cần rất nhiều khái niệm và lexicon. Tham số hóa thế nào chính là vấn đề cơm và nước mắm của người học thống kê.</p>
<p>Với rất nhiều biến ngẫu nhiên, cần phải định ra joint distribution (<em><strong>phân bố liên hợp</strong></em>). Marginal distribution gọi là ? Conditional distribution gọi là phân bố điều kiện. Covariates gọi là <em><strong>đồng biến</strong></em>. Trong công nghệ thường là đầu vào. Features thực ra cũng là đồng biến, nhưng xuất xứ từ học máy, và sẽ gọi là <em><strong>đặc trưng</strong></em>.</p>
<p>Trong họ mũ, có hai cách tham số hóa. Natural parameterization gọi là cách<strong><em> tham số hóa tự nhiên</em></strong>. Canonical parameterization gọi là <strong><em>tham số hóa chính tắc</em></strong>? Còn gọi là <strong><em>tham số hóa trung bình</em></strong> (mean parameterization). Hai hệ tham số kể trên có liên hệ mất thiết với nhau qua quan hệ<strong><em> đối ngẫu liên hợp</em></strong> (conjugate duality), một khái niệm của giải tích lồi (convex analysis). Trong <em><strong>hình học thông tin</strong></em> (information geometry) thì hai hệ tham số này có thể hiểu qua khái niệm e-flat manifold và m-flat manifold (?). Normalizing constant gọi là <em><strong>hắng số chuẩn hóa</strong></em>. trong vật lý thống kê thì khái niệm này còn gọi là partition function &#8212; <strong><em>hàm ngăn phần</em></strong>. Các mô hình thông dụng trong vật lý lý thuyết như mô hình Ising, spin glass (?), đều là trường hợp đặc biệt của họ mũ. Rất nhiều hàm phân bố là trường hợp đặc biệt của họ mũ. Đặc biệt quan trọng là multivariate Gaussian dịch là <strong><em>Gauss đa biến</em></strong>. Mean vector và covariance matrix gọi là <strong><em>vector trung bình</em></strong> và ma trận <em><strong>hiệp phương sai</strong></em>.</p>
<p>Mô hình họ mũ lại là trường hợp đặc biệt của họ <strong><em>mô hình xác suất đồ thị </em></strong>(graphical model). Phân biệt graphical và graph và graphics thể nào đây? Để định nghĩa mô hình này cần potential function (<strong><em>hàm tiềm năng</em></strong>), được định nghĩa trên clique (?) của các biến ngẫu nhiên. Có hai loại mô hình XSDT. Một là <strong><em>mô hình đồ thị vô hướng</em></strong> (undirected graphical model), cũng đồng nghĩa với trường ngẫu nhiên Markov (Markov random fields). Một là <strong><em>mô hình đồ thị có hướng</em></strong> (directed graphical model), còn gọi là <em><strong>mạng Bayes</strong></em> (Bayesian network) của Pearl. Trong mạng Bayes có khái niệm <strong><em>nốt cha</em></strong> và <strong><em>nốt con</em></strong>. Khái niệm moralization gọi là <em><strong>lấy nhau</strong></em>. Một số trường hợp thông dụng của mạng Bayes có thể kể đến mô hình <strong><em>cây xác suất ĐT</em></strong> (tree-structured graphical model), mô <strong><em>hình đa  cây</em></strong> (polytree) nhưng có lẽ gọi là <strong><em>cây đa</em></strong> cũng thích hợp, mô hình <strong><em>Markov ẩn</em></strong> (hidden Markov), mô hình <em><strong>lọc Kalman</strong></em> (Kalman filter), <strong><em>mài trơn Kalman</em></strong> (Kalman smoothing) &#8230; Latent/hidden variables gọi là các <em><strong>biến ẩn</strong></em>. Naive Bayes tạm gọi là <em><strong>Bayes thơ ngây</strong></em>, hoặc Bây ngô. Mạng Bayes cho các dạng dữ liệu tuần tự (sequential data) còn gọi là dynamic Bayes net (?).</p>
<p>Một số mô hình tham số khác phải kể đến: Mô hình <em><strong>hổi quy tuyến tính</strong></em>,<em><strong> mạng nơ ron</strong></em> (neural network), mô hình <strong><em>cây quyết định</em></strong> (decision tree), mô hình<em><strong> hợp xướng</strong></em> (ensemble), mô hình <em><strong>hổi quy logit</strong></em> (logistic regression), mô hình <strong><em>tuyến tính tổng quát</em></strong> (generalized linear model), mô hình<strong><em> mạng tin, mạng tin sâu</em></strong> (deep belief net). v.v. Những mô hình kiểu này thường áp dụng vào các vấn đề suy diễn cụ thể hơn, đặc biệt trong bài toán phân lớp (classification) và hồi quy (regression). Có một số cách phân loại nữa: Trong học máy thì các mô hình dự trên hàm phân bố xác suất liên hợp thường gọi là <em><strong>mô hình sinh mẫu</strong></em> (generative model), nhưng cũng có một số mô hình áp dụng cho các vẫn đề liên quan đến xác suất điều kiện thì gọi là <em><strong>mô hình phân biệt</strong></em> (discriminative model). Cái sau hay được dùng cho các kiểu suy diễn đặc biệt hơn như bài toán phân lớp, bài toán phân hạng, v.v.</p>
<p>Một mô hình bao gồm cả tham số có số chiều hữu hạn và tham số có số chiều vô hạn thường gọi là <em><strong>mô hình bán tham số</strong></em> (semiparametric model).  Một ví dụ tiêu biểu là <strong><em>mô hình hồi quy Cox</em></strong> (Cox regression model) trong bài toán <em><strong>phân tích sống sót</strong></em> và <strong><em>phân tích sự kiện lịch sử</em></strong> (survival analysis/ event history analysis). Time to event data dịch là dữ liệu sự kiện. Trong mô hình này, thành phần tham số hữu hạn gắn liền với những đồng biến (covariates) quan tâm,  thành phần tham số vô hạn là <strong><em>c</em><em>ường độ tử vong/lỗi cơ bản</em></strong> (baseline hazard intensity). Đôi khi họ các mô hình bán tham số được gộp chung vào họ các mô hình phi tham số.</p>
<p>Họ các mô hình phi tham số Bayes được lấy từ các quá trình ngẫu nhiên kể trên. Infinite mixture model gọi là <strong><em>mô hình trộn/ hỗn hợp vô hạn</em></strong>. Có các quá trình đậm chất ẩm thực: Quá trình <strong><em>nhà hàng Tàu</em></strong> (Chinese restaurant process), <em>q</em><strong><em>uá trình búp phê Ấn độ </em></strong>(Indian buffet process). Quá trình coelescence gọi là gì? Với dân tần suất thì nhiều khi các mô hình phi tham số chỉ là tập các hàm quen thuộc trong giải tích hàm. Ví dụ <em><strong>lớp Sobolev</strong></em> (Sobolev class), <em><strong>lớp Besov</strong></em>, <strong><em>không gian Hilbert</em></strong> <em><strong>nhân tự sinh</strong></em> (reproducing kernel Hilbert space), lớp smoothing splines (?), v.v.  Dân Bayes sẽ luôn luôn nói về các hàm phân bố (độ đo) cho các hàm số kiểu này.</p>
<p>Dân Bayes còn có một việc là phải tham số hóa các tham số. Theo cách nhìn Bayes, các tham số cũng ngẫu nhiên, phải được giả dụ bởi một hàm phân bố khác. Các tham số của hàm này sẽ là hyperparameter (<strong><em>tham số tầng trên/ tham số thượng tầng?</em></strong>). Nếu là người theo Bayes cuồng tín, thì các tham số thượng tầng này cũng phải ngẫu nhiên&#8230; và phải tiếp tục quá trình tham số này đến tận Big Bang. Điều này dẫn đến một họ <strong><em>mô hình đa tầng</em></strong> (hierarchical model/ multi-level model), rất mạnh và rất giàu. Tuy có thể coi là một trường hợp của mô hình XSDT, nhưng trọng tâm và nguổn gốc rất khác, nên ta không nên gộp làm một. (Chú ý là ta không thể đi đến tận Big Bang, nên sau vài tầng của hierarchy thì các nhà thống kê Bayes cũng sẽ  mệt và dửng lại. Trên thực tế, khi đó vai trò của các tham số tầng rất cao không còn ý nhiều trong chuyện chi phối các biểu hiện của mô hình nữa). Việc định ra cách tham số hóa các tham số còn gọi là sự định ra các prior distribution <strong><em>(phân bố tiên nghiệm</em></strong>) cho các tham số ngẫu nhiên. Áp dụng  <em><strong>công thức </strong><strong>Bayes</strong></em> (Bayes rule) thì tính được posterior distribution, dịch là <em><strong>phân bố hậu nghiệm</strong></em>. Conjugate prior thì gọi là <em><strong>phân bố tiên nghiệm liên hợp</strong></em>. Tham số hóa cho các tham số hyper còn gọi là sự định ra các hyperprior (<em><strong>phân bố tiên nghiệm thượng tầng</strong></em>). Quyết định lựa chọn prior nào (<strong><em>sự chỉ định tiên nghiệm</em></strong>) phụ thuộc vào sự giằng co giữa tiên nghiệm (prior knowledge), thực nghiệm từ dữ liệu (empirical data), và sự thuận tiện về tính toán (computational convenience). Sử dụng các phân bố tiên nghiệm liên hợp (phát âm đầy mồm!) là một ví dụ của sự thuận tiện. Sự giẳng co giữa tiên nghiệm và thực nghiệm chẳng qua là một thể hiện của dao cạo Occam, dưới nhãn quan của trường phái Bayes.</p>
<p>Dân tần suất thì không thích khái niệm tham số hyper chút nào, mà cho rằng các tham số phải là không ngẫu nhiên. Về mặt mô hình mà nói thì cách nhìn này là cái trói vô hình, theo quan điểm Bayes những tham số kiểu này là vẫn có thể coi là ngẫu nhiên theo <em>một độ đo Dirac</em> (<em><strong>độ đo nguyên tử </strong></em>&#8211; atomic measure), một sự ràng buộc rất chặt không cần thiết. Cho nên, trong lịch sử mô hình của các nhà tần suất thường không giàu có bằng mô hình của các nhà Bayes. Tuy không nhất thiết phải là như vậy.</p>
<p><strong>2.6 Dao cạo của Occam.</strong> Như ông Gớt nói là mọi chân lý đều màu xám, còn cây đời thì mãi mãi xanh tươi. Thay chữ chân lý bằng chữ mô hình, thay chữ cây đời bằng chữ dữ liệu quan sát được, ta có một biên phản cho các nhà thống kê. Bác George Box có một câu nổi tiếng tương tự &#8212; mọi mô hình đều sai, chỉ có những mô hình hữu ích hay không. Cho nên ta phải nhìn nhận các mô hình là cách chúng ta <em><strong>xấp xỉ </strong></em>thế giới thực nghiệm. Vì vậy ngoài <em><strong>sai số ước lượng</strong></em> (estimation error) của các tham số, còn có một dạng sai số gọi là <em><strong>sai số xấp xỉ </strong></em>(approximation error). Mô hình dùng ngôn ngữ thống kê và các cấu trúc toán học (như các quá trình stochastic) làm viên gạch, nhưng lại được ước lượng, điều chỉnh (update), và đánh giá, phân tích bằng dữ liệu thật.  Công cụ toán học càng mạnh thì<em><strong> tính phức tạp mô hình</strong></em> (model complexity) càng lớn, dẫn đến khả năng biểu diễn của một mô hình càng lớn, khi đó sai số xấp xỉ sẽ nhỏ, song việc ước lượng (estimation) từ dữ liệu cũng có thể lớn lên.  Đây chính là <em><strong>giằng co</strong></em> (tradeoff ) giữa sai số xấp xỉ và sai số ước lượng. Hiện tượng này gọi là cái <strong><em>dao cạo của Occam</em></strong> (Occam&#8217;s razor),  luôn luôn ám ảnh và xuyên suốt mọi quyết định trong việc thiết kế và đánh giá một mô hình học. Sợ nhất là mô hình overfit dữ liệu (<strong><em>quá rộng</em></strong>) Một đánh giá khách quan đối với sự hiệu quả và tích hữu ích của một mô hình là tính dự báo của nó, và nói chung thì lỗi dự báo thường được chặn bởi hai dạng sai số nói trên. Liên quan đến các khái niệm xấp xỉ: Model misspecification gọi là sự <em><strong>chỉ định mô hình không chuẩn</strong></em>. Khái niệm model identifiability gọi là <em><strong>tính khả nhận diện mô hình</strong></em>. Parameter identifiability là <strong><em>tính khả nhận diện của tham số</em></strong>.</p>
<p>Tóm tắt: joint probability, marginal probability, conditional probability, model identifiability, model mis-specification, model choice, model selection, parameter identifiability, consistency, parametric model, nonparametric, exponential family, curved exponential family, graphical model, hierarchical model, mixture model, hidden markov model, copula model, latent/hidden variables, nonparametric Bayesian model, density, intensity measure, analysis of variance, functional data, curve data, prior distribution, posterior distribution, a priori, a posteriori, sufficient statistics, order statistics, mean parameterization, canonical parameterization, normalizing constant, log-partition function, mean function, covariance function, covariates, features, conjugate prior, conjugacy</p>
<p><strong><!--more-->3. Các phương pháp suy diễn thống kê </strong></p>
<p><strong>3.1 Tổng quan. </strong>Cần phân biệt <em><strong>suy diễn thống kê</strong></em> (statistical inference) với <strong><em>suy diễn xác suất</em></strong> (probabilistic inference). Cái sau chỉ là sự tính toán các xác suất điều kiện trên cơ sở mô hình xác suất. Còn SDTK là suy diễn trên cơ sở mô hình thống kê với sự hiện diện của số liệu. Có hai vấn đề chính, một là <strong><em>suy diễn về tham số</em></strong>, hay còn gọi là <strong><em>ước lượng về tham số</em></strong> (parameter estimation), và <strong><em>dự báo</em></strong> (prediction). Với nhãn quan Bayes thì suy diễn thống kê còn gọi là <em><strong>suy diễn Bayes</strong></em>, về mặt toán học thì không khác gì suy diễn xác suất vì cả tham số và dữ liệu đều được mô tả bằng biến ngẫu nhiên. Cho nên về mặt khái niệm thì đơn giản, mẫu mực. Với nhãn quan tấn suất thì cách tiếp cận đến các vấn đề suy diễn thống kê khó khăn hơn về mặt khái niệm, và đòi hỏi các cách tiếp cận không mẫu mực. Trong học máy thì vấn đề ước lượng về tham số còn gọi là <strong><em>học. </em></strong></p>
<p>Nếu như trong vấn đề xác định mô hình thì quan điểm Bayes và quan điểm tần suất có tính tương hỗ nhau (ví dụ, anh Bây nói với với anh Tần: Tôi mệt rồi, cho phép cái tham số hyper của tôi là không ngẫu nhiên nhá &#8212; và anh Tần nói với anh Bây: Cho tôi gọi tham số của anh là biến ẩn nhá), thì trong vấn đề suy diễn, hai quan điểm này xung khắc nhau quyết liệt bất phân thắng bại. Quan điểm của Bây là: đối với vấn đề ước lượng tham số thì chỉ suy diễn điều kiện vào dữ liệu có sẵn (conditioning on data), và &#8220;<strong><em>marginalize out/ integrate out</em></strong>&#8221; (?) các tham số ngẫu nhiên trong việc dự báo. Quan điểm của Tần là: đồi với vấn đề ước lượng tham số thì phải suy diễn cho cả <em><strong>dữ liệu tưởng tượng</strong></em> (imaginary data, và dùng ước lượng &#8220;<strong><em>plug-in</em></strong>&#8221; (?) trong việc dự báo. Tiêu chuẩn của Bây là lạc quan, quan tâm nhiều đến <strong><em>phân tích trường hợp trung bình</em></strong> (average-case analysis). Tiêu chuẩn của Tần rất bi quan, chú trọng nhiều hơn đến <em><strong>phân tích tình huống xấu nhất</strong></em> (worst-case analysis). Đây chỉ là hai thái cực để cho thấy sự khác biệt. Trên thực tế có thể  kết hợp cả hai cách tiếp cận trong việc suy diễn từ dữ liệu.</p>
<p>Có một số vấn đề suy diễn cụ thể hơn, và do đó có một số lexicon riêng: Point estimation gọi là<em><strong> ước lượng điểm</strong></em> (một khái niệm của TK Tần). Hypothesis testing gọi là <strong><em>kiểm định lý thuyết </em></strong>(phép thử lý thuyết?).  Classification gọi là <strong><em>vấn đề phân lớp</em></strong>. Clustering gọi là <strong><em>vấn đề chia nhóm</em></strong>. Bài toán ranking trong học máy gọi là <strong><em>vấn đề phân hạng</em></strong>.  <em><strong>Supervised learning</strong></em> gọi là <strong><em>học có nhãn, học có hướng dẫn</em></strong>. Unsupervised learning gọi là <em><strong>học không nhãn (học không có hướng dẫn, học không thầy)</strong></em>. Sequential analysis gọi là <strong><em>phân tích chuỗi/ phân tích tuần tự</em></strong> (?), mà cụ thể có bài toán optimal stopping dịch là bài toán <em><strong>dừng tối ưu</strong></em>. Survival analysis gọi là <strong><em>phân tích sự sống sót</em></strong> (?). Vấn đề change point detection gọi là bài toán <em><strong>phát hiện điểm thay đổi</strong></em>. Chú ý là tất cả các vẫn đề suy diễn cụ thể này đều có thể hiểu tổng quát theo một trong hai vấn đề suy diễn (ước lượng tham số, hoặc dự báo), đều có thể tiếp cận theo cách nhìn Tần hay Bây, nhưng có thể sự điểu chỉnh một chút về cách đánh giá của suy diễn.</p>
<p><strong>3.2 Lý thuyết quyết định</strong>. Nền tảng lý thuyết của suy diễn thống kê chính là <em><strong>lý thuyết quyết định</strong></em> của Abraham Wald. Cần khái niệm rủi ro (risk). Rủi ro Bayes là Bayes risk. Rủi ro là kỳ vọng của <em><strong>hàm thiệt hại/tổn thất/thiệt/mất </strong></em>(loss function). Dân kinh tế sẽ dùng hàm utility (<strong><em>hàm tiện ích</em><em>/thỏa dụng</em></strong>) thay vì dùng hàm thiệt hại. Một khái niệm tương tự là hàm reward (?)  trong môn học reinforcement learning(?), và quá trình quyết định Markov.</p>
<p>Lý thuyết quyết định là cái ô chung cho cả hai trường phái Bây và Tần, nhưng với dân Tần thì có nhiều việc phải lo hơn. <em><strong>Estimator</strong></em> dịch là <em><strong>cách ước lượng</strong></em> cho một tham số, và là một hàm số áp dụng vào dữ liệu. Như vậy cũng giống một thống kê, như vậy có thể coi một thống kê là một cách ước lượng thô sơ.  Estimate là <em><strong>một ước lượng</strong></em> cụ thể cho một tham số nào đó. Trong bài toán phân lớp thì estimator còn gọi là một learning machine (<em><strong>máy học</strong></em>), estimate sẽ là <em><strong>hàm số phân lớp</strong></em> (classifier).  Trong vấn đề kiểm định lý thuyết (hypothesis testing) thì cái phải ước lượng là một<em><strong> hàm số quyết định</strong></em> (decision function).  Dù theo nhãn quan nào thì đều cần tìm ước lượng theo tiêu chuẩn có <em><strong>giá trị rủi ro tối thiểu</strong></em> (minimum risk criterion).  Nhưng rủi ro của anh Bây thì khác với anh Tần.  <em><strong>Kỳ vọng tần suất</strong></em> (frequentist expectation) là kỳ vọng của hàm mất đối với phân bố của dữ liệu (ảo tưởng) trên cơ sở một mô hình với một tham số có sẵn. <em><strong>Kỳ vọng Bayes</strong></em> là giá trị kỳ vọng của hàm mất đối với phân bố điều kiện của tham số trên cơ sở dữ liệu có sẵn. Nói cách khác, với anh Tần thì dữ liệu là ngẫu nhiên, với anh Bây thì tham số là ngẫu nhiên. Nếu lấy kỳ vọng của kỳ vọng tần suất đối với phân bố của tham số, hoặc lấy kỳ vọng của kỳ vọng Bayes đối với phân bố của dữ liệu thì ta cùng nhận được Rủi ro Bayes!</p>
<p>Một số hàm thiệt hại thông dụng: <strong><em>Hàm thiệt  0-1</em></strong>. Khi đó Rủi ro Bayes gọi là <em><strong>Lỗi Bayes </strong></em>(Bayes error).  <em><strong>Hàm thiệt bình phương</strong></em> (square loss). <em><strong>Hàm thiệt mũ</strong></em> (exponential loss). <strong>Hàm thiệt logit</strong> (logistic loss). Surrogate loss sẽ được dịch là <em><strong>hàm thiệt thế chỗ</strong></em> (?). Để so sánh các cách ước lượng (estimator) khác nhau người ta có thể dùng tiêu chuẩn Bayes (thông qua việc so sánh <em><strong>Rủi ro Bayes</strong></em>). Dân tần suất sẽ hay dùng <strong><em>tiêu chuẩn minimax</em></strong>, mượn từ lý thuyết trò chơi (mà cuộc chơi ở đây là giữa nhà thống kê và Trời &#8212; chỉ Ông Trời biết chân lý (mô hình đúng là gì, và ông trời mỗi lần ra tay sẽ nhả ra một mẫu dữ liệu). Cần một số phẩm chất cho các cách ước lượng, như khái niệm unbiasedness (?), admissibility (?), consistency (<strong><em>nhất quán</em></strong>), invariance (<em><strong>bất biến phương sai</strong></em>), efficiency (<strong><em>hiệu quả</em></strong>), superefficiency (<strong><em>siêu hiệu quả</em></strong>). Dân Bayes chủ quan không quan tâm đến mấy cái chuẩn này, vì họ đã có niềm tin son sắt vào tiên nghiệm rồi, và suy diễn Bayes bằng cách tính phân bố hậu nghiệm là xong. Tuy vậy phương pháp suy diễn Bayes chủ quan có nhiều tính chất lý thuyết rất tốt. Suy diễn dựa trên cơ sở của phân bố hậu nghiệm được chứng minh là tối ưu theo tiêu chuẩn Rủi ro Bayes. Dân Bayes khách quan thì không quá tự tin như dân Bayes chủ quan, nên họ muốn phân bố tiên nghiệm phải có những phẩm chất tốt. <em><strong>Tính nhất quán hậu nghiệm</strong></em> (posterior consistency) là một phẩm chất quan trọng.</p>
<p><strong>3.3 Các cách ước lượng/học thống kê.</strong> Tôi đặt vài viên gạch ở đây. Khi nào rỗi sẽ viết dần dần. Bạn nào có nhã hứng đóng góp từng paragraph vào các mục sau (hoặc các mục chưa ghi) xin cho biết. Ước lượng hay học ở đây vẫn trên cơ sở một họ mô hình định sẵn. Còn vấn đề khó hơn là chọn mô hình (model selection), so sánh các mô hình, đặc biệt giữa các mô hình có độ phức tạp khác hẳn nhau. Kiểm định giả thuyết  là một dạng rất đặc biệt của lựa chọn giữa các mô hình, song vẫn có thể hiểu gọn trong phạm vi ước lượng.</p>
<p><strong>Empirical risk minimization</strong>. Rủi ro được định nghĩa trên cơ sở hàm phân bố của mô hình (chân lý &#8212; chỉ có Trời mới biết). Chỉ có thể tiếp cận đến mô hình này thông qua <em><strong>quá trình thực nghiệm </strong></em>(empirical process). Nói cách khác, rủi ro phải được ước lượng bẳng <strong><em>rủi ro thực nghiệm</em></strong> (empirical risk). Hầu hết các cách ước lượng của phe Tần suất đều ở dạng tính rủi ro thực nghiệm cực tiểu (empirical risk minimization (ERM)). Một lexicon đồng nghĩa là <em><strong>M-estimation</strong></em> (ước lượng M), M có nghĩa là maximization hoặc minimization. Cách <em><strong>ước lượng dựa vào moment </strong></em>(moment-based estimation/ moment matching) thực ra cũng có thể được động viên và liên hệ với cách ước lượng rủi ro thực nghiệm cực đại. Một vấn đề đau đầu cho cách ước lượng rủi ro cực tiểu là phải chọn hàm mất gì? Có một số tên riêng: Nếu hàm mất là hàm bình phương, thì ta có phương pháp <strong><em>bình phương cực tiểu</em></strong> (least square) rất thông dụng trong hồi quy.</p>
<p><strong>Maximum likelihood và nguyên tắc likelihood</strong>. Nếu mô hình thống kê chỉ định ra một hàm phân bố cho dữ liệu, thì ta có khái niệm <em><strong>likelihood (khả năng?</strong></em>). Đây là hàm số của tham số, nhưng được lại là ngẫu nhiên vì được định nghĩa trên cơ sở dữ liệu ngẫu nhiên. Likelihood chính là một ví dụ tiêu biểu (nhất) của rủi ro thực nghiệm. Hàm mất tương ứng ở đây là hàm logarithm của mật độ. Maximum likelihood dịch là cách <strong><em>ước lượng khả năng cực đại</em></strong> (?), một phát kiến vĩ đại của Ronald Fisher. Đây là cách ước lượng thông dụng, đa năng bậc nhất trong ngành thống kê (ít nhất là với nhãn quan tần suất). Với các mô hình tham số thì cách ước lượng này được đảm bảo bởi tính nhất quán (consistency) &#8212; mô hình sẽ được ước lượng chính xác nếu số dữ liệu tiến đến vô hạn. Tại sao hàm mất lại là hàm logarithm của mật độ mà không phải là một hàm số nào khác? Đây là một ví dụ của sự diệu kỳ bất ngờ của toán học &#8212; câu trả lởi truy ra khái niệm độc lập, khái niệm tập trung của độ đo trong xác suất, và tính lồi trong giải tích (và hình học). <strong><em>Nguyên tắc khả năng</em></strong> (likelihood principle) cho rẳng hàm khả năng là một thống kê đầy đủ (sufficient statistics). Nguyên tắc này phá sản trong ngữ cảnh phi tham số.</p>
<p><strong>Regularization/Penalization/Shrinkage. </strong>Với sự ước lượng các mô hình phi tham số thì chỉ dựa vào dữ liệu (thông qua hàm khả năng (likelihood) hoặc tổng quát hơn, hàm rủi ro thực nghiệm) không đủ. Cần phải có sự điều chỉnh trong việc lấy cực đại/cực tiểu thông qua khái niệm regularization (<strong><em>kiểm soát</em></strong>), còn gọi là penalization (<em><strong>soát phạt)</strong></em>. Regularized empirical risk gọi là <em><strong>rủi ro thực nghiệm có kiểm soát</strong></em>.  Khái niệm kiểm soát, soát phạt bắt nguổn từ một phát hiện bất ngờ của Charles Stein về shrinkage estimator (<strong><em>cách ước lượng co</em></strong>). Cho nên nhiều khi người ta cũng gọi nhóm ước lượng này là ước lượng co.  Để dùng một số lượng dữ liệu hữu hạn mà ước lượng các đại lượng (tham số) vô hạn hoặc có số chiều đủ lớn (cho dù số dữ liệu có lớn đến đâu và tiến dần đến vô hạn đi chăng nữa) thì vẫn phải có sự kiểm soát trong ước lượng, và không thể dựa hoàn toàn vào dữ liệu thực nghiệm được.  Theo nhãn quan Bayes thì điều này chính là sự giằng co giữa thực nghiệm và tiên nghiệm. Co (shrinkage) ở đây chính là co về tiên nghiệm.</p>
<p><strong>Phương pháp phân tích hậu nghiệm/ học Bayes. </strong>Phương pháp phân tích hậu nghiệm (a posteriori analysis), cụ thể là cách<strong><em> suy diễn hậu nghiệm</em></strong> (posterior inference), <strong><em>suy diễn Bayes</em></strong> (Bayesian inference),<em><strong> học Bayes</strong></em> (Bayesian learning),&#8230; đều mô tả cùng một cách ước lượng theo trường phái Bayes. Đó là thay vì người ta ước lượng tham số (không ngẫu nhiên) như trong trường phái tần suất, người ta sẽ tính hàm phân bố hậu nghiệm cho tham số thông qua công thức Bayes. Cách này mẫu mực &#8212; phần việc chính ở đây là chỉ định ra phân bố tiên nghiệm ra sao, và tính toán phân bố hậu nghiệm thế nào (vì phải tính tích phân rất phức tạp về mặt tính toán).  Chú ý rằng cách ước lượng maximum likelihood chẳng qua là tính <strong><em>mốt</em></strong> (mode) của phân bố hậu nghiệm, nếu phân bố tiên nghiệm được chọn là <strong><em>phân bố đề</em></strong>u (uniform distribution). Trong phân tích Bayes, đặc biệt là với mô hình tham số, thì không phải lo lắng gì về việc kiểm soát (regularization). Nhưng nếu phân bố tiên nghiệm là một quá trình ngẫu nhiên (trong mô hình phi tham số) thì vẫn phải lo lắng về chuyện kiểm soát tính phức tạp của tiên nghiệm (complexity of prior distribution). Một công cụ là sensitivity analysis (<strong><em>phân tích tính nhạy cảm</em></strong>) của phân bố cho tham số.</p>
<p><strong>Phương pháp Bayes thực nghiệm (empirical Bayes). </strong>Phương pháp này có thể xem cách ước lượng tần suất cho mô hình đa tầng. Mô hình đa tầng là một công cụ lý tưởng trong việc kiểm soát độ phức tạp của các mô hình cho tham số.</p>
<p><strong>3.4.</strong><strong> Các vấn để suy diễn cụ thể hơn</strong>.</p>
<p>Hypothesis testing. Trong kiểm định giả thuyết có một số khái niệm quan trọng: Null hypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error) và lỗi loại hai (type-2 error). Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âm tính (false negative) trong đánh giá các treatment (?) trong y học. Trong công nghệ thì type-1 error gọi là false alarm error rate (?), type-2 error chính là misdetection error rate (?). Tất cả các loại rỗi này đều là hàm rủi ro đối với hàm thiệt 0-1. Cách ước lượng trong kiểm định giả thuyết gọi là một hàm quyết định. Và người ta sử dụng hàm quyết định thực hiện phép thử (test) cho giả thuyết. Một phép thử được đánh giá thông qua các bảo đạm về giới hạn của các lỗi kể trên. Sự giẳng co giữa lỗi loại một và loại hai được biểu diễn bẳng ROC curve (<em><strong>đường cong ROC</strong></em>). Các khái niệm liên hệ còn có significance (?). Confidence interval dịch là ? p-value dịch là giá trị p. Power của phép thử gọi là <em><strong>sức mạnh</strong></em>.  Nếu chỉ có hai giả thuyết đẻ so sánh thì hàm quyết định tối ưu chính phải dựa vào likelihood ratio (<em><strong>phân số khả năng</strong></em>). Likelihood ratio test gọi là phép thử dựa vào phân số khả năng. Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn (asymptotic statistics).</p>
<p>Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson. Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễn này với cách hình thức suy diễn kiểu khác trong thống kê.  Nếu tiếp cận theo nhãn quan Bayes thì KDGT khá là đơn giản, không khác gì việc ước lượng một mô hình là bao. Cần khái niệm phân bố tiên nghiệm cho các giả thuyết. Khái niệm Bayes factor sẽ được dịch là ?</p>
<p>Sequential analysis. Trong phân tích tuần tự (sequential analysis) thì có sự giẳng co của lỗi Bayes và thời gian trễ (delay time) của quyết định về giả thuyết. Khái niệm thử thông dụng là sequential likelihood ratio test (<strong><em>phép thử dựa theo chuỗi phân số khả năng</em></strong>). Công cụ lý thuyết đẻ đánh giá sức mạnh của phép thử là các phân tích về thời gian dừng, phân tích các loại thời điểm vượt biên, v.v. trong lý thuyết xác suất về quá trình Markov.</p>
<p>Classification/regression/ranking. Trong bài toán phân lớp thì người ta gọi một cách ước lượng để phân lớp là một <em><strong>máy họ</strong></em>c (learning machine). Tham số cần ước lượng ở đây gọi là một <em><strong>hàm phân loại</strong></em> (classifier). Có thể tiếp cận vấn đề này trên cơ sở mô hình tham số hoặc mô hình phi tham số. Để học được máy (mô hình) thường đòi hỏi nhiều tính toán,  chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển. Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng.  Cách học/ ước lượng, về mặt tính toán, có lexicon riêng là training (<strong><em>việc huấn luyện</em></strong>).  Dữ liệu cần cho việc huấn luyện gọi là<strong><em> dữ liệu huấn luyện</em></strong> (training data). <strong><em>Phép thử</em></strong> một hàm phân loại với dữ liệu mới gọi là testing. <strong><em>Dữ liệu thử</em></strong> chính là test data. Nếu có hai lớp để phân loại thì hàm phân loại tối ưu phải dựa vào likelihood ratio, rất giống như trong kiểm định giả thuyết. Một khác biệt căn bản giữa bài toán phân lớp với bài toán kiểm định lý thuyết là chỗ này: Cái đầu phải thử giả thuyết cho từng mẫu một. Cái sau chỉ phải thử giả thuyết một lần cho cả đám đông. Có rất nhiều phương pháp phân lớp, với các mô hình tham số và phi tham số, và các giải thuật học/ước lượng rất phong phú. Kinh điển thì có linear discriminant analysis (<strong><em>phân tích phân biệt tuyến tính</em></strong>), logistic regression (<em><strong>hồi quy logit)</strong></em>. Hiện đại hơn thì có <em><strong>mạng nơ ron</strong></em> (neural network), radiant basis network (?), support vector machines (?),&#8230;</p>
<p><strong><em>Bài toán hồi quy</em></strong> (regression analysis) tương tự như bài toán phân lớp, khác ở đây là cần phải ước lượng/học phương trình hồi quy (thay vì hàm phân loại). Hàm phân lớp chỉ có giá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục. Bài toán phân cấp gần giống bài toán phân cấp ở chỗ hàm phân loại cũng có giá trị rời rạc (và không phải nhị phân), nhưng dữ liệu huấn luyện các mẫu về sự so sánh giữa các cấp chứ không phải nhãn lớp (cấp).</p>
<p>Dimensionality reduction/ exploratory data analysis. <em><strong>Phân tích khám phá</strong></em> với dữ liệu là một mảng quan trọng. Principle component analysis dịch là <strong><em>phân tích thành phần chủ yếu</em></strong>. Multidimensional scaling dịch là ?. Independence component analysis gọi là <strong><em>phân tích thành phần độc lập</em></strong>. Vấn đề chia nhóm (clustering) cũng có thể đặt vào đây, nhưng các phương pháp chia nhóm dựa vào mô hình (model-based clustering) đã phát triển đến mức độ rất tinh xảo, và nên đặt nó vào nhóm suy diễn dựa vào mô hình.</p>
<p><strong>3.5 Thống kê  ở vô hạn, lý thuyết học, và lý thuyết thông tin (asymptotic statistics, learning theory, information theory)</strong></p>
<p>Thống kê ở asymptotic chính là cơ sở lý thuyết giả thích sự hiệu quả và giới hạn của các suy diễn thống kê.  Thống kê ở vô hạn nghiên cứu tính chất của các phép ước lượng khi lượng mẫu (sample size) tiến đến vô hạn. Một vấn đề người ta cần quan tâm là các tiêu chuẩn dựa vào rủi ro phải tiến về 0. Tính chất này gọi là<em><strong> tính nhất quán</strong></em> (consistency) của một cách ước lượng. Nếu đã nhất quán rồi thì còn quan tâm rate of convergence &#8211;<em><strong> tốc độ hội tụ </strong></em>&#8211; của các rủi ro. Ngoải ra ta còn quan tâm đến tính chất về phân bố của sự hội tụ. Một tính chất quan trọng thường gặp là asymptotic normality (<strong><em>sự bình thường ở giới hạn</em></strong>). Với trường phái Bayes khách quan thì có khái niệm <em><strong>nhất quán hậu nghiệm</strong></em> (posterior consistency) &#8212; khi số mẫu tiến đến giới hạn thì phân bố hậu nghiện phải tập trung về một điểm, điểm đó chính là giá trị chân lý của tham số cần ước lượng. Tính chất này mang tính tấn suất, vì nó vẫn giả sử tham số là không ngẫu nhiên, mặc dù ta có thể định ra phân bố tiên nghiệm và làm phân tích hậu nghiệm. (Các nhà Bayes chủ quan cuồng tín sẽ ngoảnh mặt quay gót khi ai nó nói đến khái niệm này).</p>
<p>Một vấn đề khác người ta cũng quan tâm là tính chất về phân bố của các thống kê được sử dụng trong các phép suy diễn cụ thể, như trong kiểm định giả thuyết chẳng hạn. Nhờ tính chất phân bố của thống kê (ở điều kiện mẫu vô hạn) mà ta có thể có những đảm bảo nhất định về các rủi ro của suy diễn.</p>
<p>Công cụ toán học của phân tích thống kê asymptotic là tính chất<strong><em> tập trung của độ đo</em></strong> (concentration of measure), đặc biệt trong ngữ cảnh của <em><strong>quá trình thực nghiệm</strong></em> (empirical process). Empirical process theory là tên thường gọi. Công cụ quan trọng có symmetrization argument (<strong><em>mẹo cân đối hóa</em></strong>). Chaining method dịch là <strong><em>phương pháp chuỗ</em></strong>i, một phương pháp mẫu mực để chứng minh các chặn trên cho tiếm hàm rủi ro (định nghĩa trên quá trình thực nghiệm) bởi các đại lượng mô tả <strong><em>sự phức tạp của mô hình</em></strong> (model complexity). Khái niệm sự phức tạp của mô hình đến từ <strong><em>lý thuyết xấp xỉ</em></strong> (approximation theory).  Các khái niệm chính gồm có covering number (<strong><em>số đĩa phủ</em></strong>), packing number (<strong><em>số đĩa chèn</em></strong>?). Khái niệm entropy (Kolmogorov entropy chứ không phải Shannon entropy) được giữ nguyên trong lexicon. Ngoài các chặn trên, còn có thể chứng minh các chặn dưới, gọi chung là <em><strong>chặn minimax</strong></em>. Chặn này cho biết tốc độ hội tụ của rủi ro tốt nhất có thể được (trong mọi cách ước lượng) đối với một lớp mô hình cho sẵn. Đối với lớp mô hình tuyến tính thì độ phức tạp của mô hình có thể mô ta bằng một khái niệm tổ hợp nổi tiếng trong lý thuyết học (learning theory) của Vapnik và Chervonenkis,  <em><strong>số chiều VC </strong></em>(VC dimension).</p>
<p>Lý thuyết thông tin (information theory) của Shannon chính là lý thuyết thống kê giới hạn cho một số bài toán suy diễn cụ thể trong công nghệ thông tin, công nghệ nén và truyền tải dữ liệu. LTTT cũng tập trung nhiều vào đại lượng có thể dùng để mô ta sự hiệu quả của một giải thuật suy diễn. Các đại lượng này xuất hiện trên exponent của các chặn trên và chặn dưới của các rủi ro của suy diễn, không chỉ trong các bài toán cụ thể trong công nghệ thông tin, mà còn trong các ngữ cảnh suy diễn thống kê tổng quát. Các khái niệm quan trọng gồm có: Shannon entropy, conditional entropy (<strong><em>entropy điều kiện</em></strong>), Kullback-Leibler divergence (<strong><em>độ phân kỳ Kullback-Leibler</em></strong>), mutual information (<strong><em>thông tin chung)</em></strong>. Do đó, các khái niệm về thông tin này còn có vai trò quan trọng trong các vấn đề về sự lựa chọn mô hình (model selection), thiết kế thí nghiệm (experimental design) và trong các phân tích khám phá. Về mặt toán học, các khái niệm thông tin này đều là các phiếm hàm mô tả sự ngẫu nhiên và quan hệ của một hay nhiều hàm phân bố xác suất. Các khái niệm liên hệ có thể kể đến: Fisher information (<strong><em>thông tin Fisher</em></strong>), phương sai.</p>
<p><strong>3.5 Lựa chọn mô hình (model selection).</strong></p>
<p><strong>3.6 Thiết kế thí nghiệm (experiment design). <em>Tôi không biết đủ sâu/rộng để viết về phần này. Hy vọng bác nào là chuyên gia xắn tay vào viết giúp một vài paragraph.<br />
</em></strong></p>
<p>Tóm tắt: Bayesian learning, Bayesian inference, posterior inference, maximum likelihood, posterior consistency, asymptotic consistency, asymptotic normality, sensitivity analysis, stability analysis, heat map,  efficiency, superefficiency, estimator, estimate, learning algorithm, learner, chaining method, symmetrization, covering number, free probability</p>
<p>ROC, hypothesis test, Bayes error, approximation error, estimation error, null hypothesis, alternative hypothesis, type-1 error, type-2 error, power, significance, p-value, Bayesfactor, nested design, empirical Bayes method, shrinkage, sequential analysis, sequential change point analysis, online analysis, distributed algorithm</p>
<p><strong><!--more-->4. Các giải thuật thống kê, học giả</strong></p>
<p><strong><em>4.1 Tổng quan.</em></strong> Thống kê cổ điển không có khái niệm về giải thuật. Khi chưa có công cụ máy tính người ta chỉ có thể nghiên cứu tính chất và áp dụng các cách ước lượng khá giản đơn về mặt tính toán. Sự ra đời của máy tính và thông qua đó phát triển của lĩnh vực giải thuật và học máy thổi một làn gió mới vào vấn đề suy diễn từ dữ liệu. Làn gió này bắt đầu rất nhỏ từ thập niên 60, mạnh dần lên vào thập niên 80, đến thập niên 90 và những năm đầu thế kỷ này có lẽ nó đã trở thành bão. Cơn bão của khoa học tính toán đang làm thay đổi hoàn toàn khung cảnh của thống kê hiện đại, hứa hẹn những bước phát triến ngoạn mục trong tương lai. Về mặt lý thuyết, trước kia, ta chỉ quan tâm quan hệ giữa lượng mẫu và độ hiệu quả của suy diễn thống kê thông qua sự chính xác của các phép ước lượng.  Nay, ta còn phải quan tâm đến hai đại lượng mới: đó là <em><strong>sự phức tạp về tính toán</strong></em> &#8212; computational complexity (về mặt thời gian và bộ nhớ), và <strong>s</strong><em><strong>ự xấp xỉ của mô hình</strong></em> (approximation error) , vì bây giờ chúng ta đã có thể phát triến và nghiên cứu các dạng mô hình mạnh hơn trước, các phép ước lượng phức tạp hơn trước. Đại lượng đầu tiên, sự phức tạp về tính toán, đến từ khoa học máy tính. Đại lượng thứ hai, tính xấp xỉ của mô hình, đến từ thuyết xấp xỉ của toán ứng dụng, và lý thuyết xác suất. Một sự thay đổi rõ nét nhất trong sự phát triển của các phương pháp suy diễn thống kê hiện đại chính là sự lên ngôi của trường phái Bayes, vì các công cụ giải thuật ngày nay cho phép thực hiện phân tích Bayes một các hiệu quả hơn về mặt tính toán. Các mô hình Bayes còn nối lại quan hệ mật thiết giữa những người xây dựng mô hình thống kê với những người nghiên cứu về quá trình ngẫu nhiên trong lý thuyết xác suất.  Với sự hiện diện của khái niệm phức tạp tính toán và khái niệm xấp xỉ trong suy diễn thống kê, sự đối nghịch giữa hai trường phái Bayes và Tần suất bị loãng đi và mất dần tính cực đoan cuồng tín của thế kỷ 20. Người ta bắt đầu có cái nhìn cân bằng hơn về vai trò và quan hệ giữa hai trường phái này.</p>
<p>expectation-maximization algorithm, variational inference, message-passing algorithm, belief propagation, back propagation, training, testing, classification, clustering, hierarchical clustering, linear regression, kernel method, sparsity<br />
, regularization, penalization, cross-validation, leave-one-out, boosting, bagging, bootstrap, compressed sensing, quantization, heteroscedasticity, multi-modality,</p>
<p><strong>5. Các phương pháp tối ưu trong suy diễn thống kê</strong></p>
<p>simulated annealing, local search, global search, heuristic search, restart, hill-climbing, saddle point, sampling, importance sampling, proposal distribution, acceptance probability, heat bath method, particle filtering, filtering, smoothing</p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2010/11/09/lexicon-xac-su%e1%ba%a5t-th%e1%bb%91ng-ke-va-h%e1%bb%8dc-may/feed/</wfw:commentRss>
		<slash:comments>57</slash:comments>
		</item>
		<item>
		<title>Phép &#8220;chuyển giản&#8221; trong học máy</title>
		<link>http://www.procul.org/blog/2010/09/03/phep-chuy%e1%bb%83n-gi%e1%ba%a3n-trong-h%e1%bb%8dc-may/</link>
		<comments>http://www.procul.org/blog/2010/09/03/phep-chuy%e1%bb%83n-gi%e1%ba%a3n-trong-h%e1%bb%8dc-may/#comments</comments>
		<pubDate>Fri, 03 Sep 2010 20:42:21 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[Reduction]]></category>
		<category><![CDATA[thống kê]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2299</guid>
		<description><![CDATA[Khái niệm &#8220;chuyển giản&#8221; (reduction) là khái niệm trung tâm của lý thuyết tính toán và thuật toán. Alina Beygelzimer, John Langford, và Bianca Zadrozny có một tutorial hay ở ICML 2009 về &#8220;chuyển giản&#8221; trong học máy. Ví dụ, ta có thể &#8220;chuyển giản&#8221; bài toán phân loại (classification) tổng quát về bài toán [...]]]></description>
			<content:encoded><![CDATA[<p>Khái niệm &#8220;chuyển giản&#8221; (reduction) là khái niệm trung tâm của lý thuyết tính toán và thuật toán. Alina Beygelzimer, John Langford, và Bianca Zadrozny có <a href="http://hunch.net/~reductions_tutorial/">một tutorial</a> hay ở ICML 2009 về &#8220;chuyển giản&#8221; trong học máy. Ví dụ, ta có thể &#8220;chuyển giản&#8221; bài toán phân loại (classification) tổng quát về bài toán phân loại nhị phân.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2010/09/03/phep-chuy%e1%bb%83n-gi%e1%ba%a3n-trong-h%e1%bb%8dc-may/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>HM5 &#8212; Định lý Vapnik-Chervonenkis cho mô hình giả thuyết không nhất quán</title>
		<link>http://www.procul.org/blog/2010/08/30/hm5-d%e1%bb%8bnh-ly-vapnik-chervonenkis-cho-mo-hinh-gi%e1%ba%a3-thuy%e1%ba%bft-khong-nh%e1%ba%a5t/</link>
		<comments>http://www.procul.org/blog/2010/08/30/hm5-d%e1%bb%8bnh-ly-vapnik-chervonenkis-cho-mo-hinh-gi%e1%ba%a3-thuy%e1%ba%bft-khong-nh%e1%ba%a5t/#comments</comments>
		<pubDate>Mon, 30 Aug 2010 10:35:01 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Lý thuyết tính toán]]></category>
		<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Xác suất & thống kê]]></category>
		<category><![CDATA[COLT]]></category>
		<category><![CDATA[học máy]]></category>
		<category><![CDATA[VC-dimension]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2263</guid>
		<description><![CDATA[HM4: Độ phức tạp mẫu và VC dimension. HM6: Độ phức tạp Rademacher Hai mô hình (nhất quán và PAC) chúng ta thấy cho đến nay đều không thực tế lắm. Trên thực tế dữ liệu thường có nhiễu, việc tìm một giả thuyết nhất quán với nhiều mẫu trở nên khó khăn. Đôi khi [...]]]></description>
			<content:encoded><![CDATA[<ul>
<li> <a href="http://www.procul.org/blog/2008/07/18/h&#37;e1&#37;bb&#37;8dc-may-t&#37;e1&#37;bb&#37;ab-goc-nhin-c&#37;e1&#37;bb&#37;a7a-ly-thuy&#37;e1&#37;ba&#37;bft-tinh-toan-4/">HM4</a>: Độ phức tạp mẫu và VC dimension.
<li> <a href="http://www.procul.org/blog/2011/03/15/hm6-d%E1%BB%99-ph%E1%BB%A9c-t%E1%BA%A1p-rademacher/">HM6</a>: Độ phức tạp Rademacher
</ul>
<p>
Hai mô hình (nhất quán và PAC) chúng ta thấy cho đến nay đều không thực tế lắm. Trên thực tế dữ liệu thường có nhiễu, việc tìm một giả thuyết nhất quán với nhiều mẫu trở nên khó khăn. Đôi khi không tồn tại giả thuyết nào nhất quán với dữ liệu, hoặc cho dù có tồn tại thì nhiễu cũng làm cho không tồn tại. Vả lại, nhất quán với dữ liệu bị nhiễu thì cũng không hay ho gì. Đó là chưa kể việc đi tìm một giả thuyết nhất quán với dữ liệu có thể là bài toán NP-khó, và thậm chí có thể trên thực tế không tồn tại cái khái niệm mà mình đang muốn học.</p>
<p>
(Từ giờ trở đi, tôi sẽ dịch &#8220;learner&#8221; là &#8220;học giả&#8221;. Học giả ở đây là một thuật toán máy tính chứ không phải là một gã hói đầu. &#8220;Học giả như hòa như đạo. Bất học giả như cảo như thảo.&#8221;)</p>
<p>
Như vậy chúng ta cần một mô hình cho phép học giả trả về một giả thuyết không nhất quán với mẫu, và phải tìm cách đo chất lượng học giả &#8212; kể cả khi không có cái khái niệm mà mình muốn học. Bài này kết thúc bằng chứng minh định lý Vapnik-Chervonenkis, một trong những định lý quan trọng nhất của lý thuyết học máy thống kê (statistical learning theory).</p>
<p>
<span id="more-2263"></span></p>
<p>
<b> 7. Mô hình giả thuyết không nhất quán </b></p>
<p><p>
Trong mô hình này, ta giả sử cả training data lẫn test data đều gồm các điểm <img src='http://s.wordpress.com/latex.php?latex=%7B%28%7B%5Cbf%20x%7D%2Cy%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{({\bf x},y)}' title='{({\bf x},y)}' class='latex' /> được lấy mẫu từ không gian <img src='http://s.wordpress.com/latex.php?latex=%7B%5COmega%20%5Ctimes%20%5C%7B0%2C1%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Omega \times \{0,1\}}' title='{\Omega \times \{0,1\}}' class='latex' /> theo một phân bố <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> chưa biết nào đó. Dễ thấy rằng giả định này tổng quát hơn giả định của mô hình PAC, vì với PAC thì các điểm <img src='http://s.wordpress.com/latex.php?latex=%7B%28%7B%5Cbf%20x%7D%2Cy%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{({\bf x},y)}' title='{({\bf x},y)}' class='latex' /> được lấy mẫu dựa trên phân bố của <img src='http://s.wordpress.com/latex.php?latex=%7B%7B%5Cbf%20x%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{{\bf x}}' title='{{\bf x}}' class='latex' /> và khái niệm cần học.</p>
<p>
Chất lượng của một giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7Bh%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h}' title='{h}' class='latex' /> được đo bằng <em>&#8220;lỗi thật&#8221;</em> của nó, định nghĩa như sau:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7Berr%7D%28h%29%20%3A%3D%20%5Cmathop%7B%5Ctextnormal%7BProb%7D%7D_%7B%28%7B%5Cbf%20x%7D%2C%20y%29%20%5Cleftarrow%20%5Cmathcal%20D%7D%20%5Bh%28%7B%5Cbf%20x%7D%29%20%5Cneq%20y%5D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{err}(h) := \mathop{\textnormal{Prob}}_{({\bf x}, y) \leftarrow \mathcal D} [h({\bf x}) \neq y] ' title='\displaystyle  \text{err}(h) := \mathop{\textnormal{Prob}}_{({\bf x}, y) \leftarrow \mathcal D} [h({\bf x}) \neq y] ' class='latex' /></p>
<p> Lỗi này cũng được gọi là <em>lỗi tổng quát hóa</em> (generalization error) của giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7Bh%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h}' title='{h}' class='latex' />. Trong trường hợp lý tưởng thì chúng ta muốn giải quyết vấn đề sau đây.</p>
<blockquote><p><b>Định nghĩa 1 (Bài toán lý tưởng)</b> <em> Tìm giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7Bh%5E%2A%20%5Cin%20%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h^* \in \mathcal H}' title='{h^* \in \mathcal H}' class='latex' /> sao cho lỗi thật <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7Berr%7D%28h%5E%2A%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{err}(h^*)}' title='{\text{err}(h^*)}' class='latex' /> là tối thiểu. Nói cách khác,
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20h%5E%2A%20%3D%20%5Cmathop%7B%5Ctext%7Bargmin%7D%7D_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Ctext%7B%20err%7D%28h%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  h^* = \mathop{\text{argmin}}_{h\in \mathcal H} \text{ err}(h). ' title='\displaystyle  h^* = \mathop{\text{argmin}}_{h\in \mathcal H} \text{ err}(h). ' class='latex' /></p>
<p> </em></p></blockquote>
<p> Gọi là trường hợp lý tưởng vì chúng ta không biết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' />, do đó không thể tính hàm <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7Berr%7D%28h%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{err}(h)}' title='{\text{err}(h)}' class='latex' />. Nếu ta biết phân bố <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> thì rõ ràng là giả thuyết sau đây là tối ưu:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20h_%7B%5Ctext%7B%5Csc%20opt%7D%7D%28%7B%5Cbf%20x%7D%29%20%3D%20%5Cbegin%7Bcases%7D%201%20%26%20%5Ctextnormal%7Bif%7D%20%5C%20%5Ctext%7BProb%7D%5B%20y%3D1%20%5C%20%7C%20%5C%20%7B%5Cbf%20x%7D%5D%20%5Cgeq%201%2F2%5C%5C%200%20%26%20%5Ctextnormal%7Bif%7D%20%5C%20%5Ctext%7BProb%7D%5B%20y%3D0%20%5C%20%7C%20%5C%20%7B%5Cbf%20x%7D%5D%20%3C%201%2F2%20%5Cend%7Bcases%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  h_{\text{\sc opt}}({\bf x}) = \begin{cases} 1 &amp; \textnormal{if} \ \text{Prob}[ y=1 \ | \ {\bf x}] \geq 1/2\\ 0 &amp; \textnormal{if} \ \text{Prob}[ y=0 \ | \ {\bf x}] &lt; 1/2 \end{cases}. ' title='\displaystyle  h_{\text{\sc opt}}({\bf x}) = \begin{cases} 1 &amp; \textnormal{if} \ \text{Prob}[ y=1 \ | \ {\bf x}] \geq 1/2\\ 0 &amp; \textnormal{if} \ \text{Prob}[ y=0 \ | \ {\bf x}] &lt; 1/2 \end{cases}. ' class='latex' /></p>
<p> Giả thuyết này được gọi là <a href="http://www-speech.sri.com/people/anand/771/html/node9.html">Bayes optimal classifier</a>, còn giá trị <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7Berr%7D%28h_%7B%5Ctext%7B%5Csc%20opt%7D%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{err}(h_{\text{\sc opt}})}' title='{\text{err}(h_{\text{\sc opt}})}' class='latex' /> &#8212; gọi là <em>lỗi Bayes</em> &#8212; nhỏ hơn bất kỳ <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7Berr%7D%28h%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{err}(h)}' title='{\text{err}(h)}' class='latex' /> nào khác. Cũng lưu ý rằng <img src='http://s.wordpress.com/latex.php?latex=%7Bh_%7B%5Ctext%7B%5Csc%20opt%7D%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h_{\text{\sc opt}}}' title='{h_{\text{\sc opt}}}' class='latex' /> không nhất thiết là phải thuộc về lớp giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> cho trước. (Chúng ta sẽ quay lại với chủ đề giả thuyết cuối cùng không thuộc <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> trong bài tới khi ta thảo luận thuật toán AdaBoost.)</p>
<p>
Quay lại với cách &#8220;cài đặt&#8221; vấn đề trong mô hình giả thuyết không nhất quán ở trên. Do ta không biết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' />, bài toán thật sự không thể là bài toán tìm giả thuyết với lỗi thật tối thiểu. Một lối ra khá phổ dụng trong các trường hợp tối ưu các hàm không tính được là ta dùng một hàm khác, tính/ước lượng được, để xấp xỉ cái lỗi thật <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7Berr%7D%28h%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{err}(h)}' title='{\text{err}(h)}' class='latex' /> mà ta không tính được. Cụ thể hơn, định nghĩa <em>lỗi thực nghiệm</em> (empirical error) như sau:</p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%20%3D%20%5Cfrac%7B%7C%5C%7Bi%20%3A%20h%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7C%7D%7Bm%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \widehat{\text{err}}(h) = \frac{|\{i : h({\bf x}_i) \neq y_i\}|}{m} ' title='\displaystyle  \widehat{\text{err}}(h) = \frac{|\{i : h({\bf x}_i) \neq y_i\}|}{m} ' class='latex' /></p>
<p>
Lỗi thực nghiệm còn được gọi là <em>lỗi huấn luyện</em> (training error) hoặc <em>rủi ro thực nghiệm</em> (empirical risk cho <a href="http://en.wikipedia.org/wiki/0-1_loss_function">01 loss function</a>). Đôi khi, để nhấn mạnh là lỗi thực nghiệm được đo trên bộ mẫu <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' />, ta dùng ký hiệu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\widehat{\text{err}}_S(h)}' title='{\widehat{\text{err}}_S(h)}' class='latex' />.</p>
<p>
Chúng ta sẽ chứng minh cái gọi là <em>định lý hội tụ đều</em> (uniform convergence theorem). Định lý này nói rằng, với số mẫu đủ lớn thì lỗi thật và lỗi thực nghiệm của một giả thuyết <em>bất kỳ</em> không xa nhau là mấy. (Với một giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7Bh%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h}' title='{h}' class='latex' /> cố định thì trị kỳ vọng của lỗi thực nghiệm là lỗi thật, do đó định lý này hữu lý.) Do đó, thay vì tìm giả thuyết với lỗi thật nhỏ nhất (đằng nào cũng không làm được) thì ta có thể cố tìm giả thuyết với lỗi thực nghiệm nhỏ nhất. Chiến lược này gọi là chiến lược <em>tối thiểu rủi ro thực nghiệm</em> (<a href="http://en.wikipedia.org/wiki/Empirical_risk_minimization">empirical risk minimization</a> hay ERM)</p>
<blockquote><p><b>Định nghĩa 2 (ERM)</b> <em> Tìm giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Chat%20h%5E%2A%20%5Cin%20%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\hat h^* \in \mathcal H}' title='{\hat h^* \in \mathcal H}' class='latex' /> sao cho lỗi thực nghiệm <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28%5Chat%20h%5E%2A%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\widehat{\text{err}}(\hat h^*)}' title='{\widehat{\text{err}}(\hat h^*)}' class='latex' /> là tối thiểu. Nói cách khác,
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Chat%20h%5E%2A%20%3D%20%5Cmathop%7B%5Ctext%7Bargmin%7D%7D_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \hat h^* = \mathop{\text{argmin}}_{h\in \mathcal H} \widehat{\text{err}}(h). ' title='\displaystyle  \hat h^* = \mathop{\text{argmin}}_{h\in \mathcal H} \widehat{\text{err}}(h). ' class='latex' /></p>
<p> </em></p></blockquote>
<p><p>
Các học giả Occam như thảo luận trong các bài trước (tìm giả thuyết nhất quán với toàn bộ mẫu &#8212; lỗi thực nghiệm bằng không) là trường hợp đặc biệt của lời giải bài toán trên. Bài toán ERM trên cho phép cả trường hợp ta không tìm được giả thuyết nhất quán. Một trong những điểm yếu của ERM (với 01 loss function như định nghĩa ở trên) là nó thường là bài toán NP-khó (xem <a href="http://en.wikipedia.org/wiki/Empirical_risk_minimization">bài này</a> chẳng hạn).</p>
<blockquote><p><b>Định lý 3 (Định lý hội tụ đều cho <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> hữu hạn)</b> <em> Xét trường hợp lớp giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là hữu hạn. Nếu ta lấy
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20m%20%5Cgeq%20%5Cfrac%7B%5Clog%5Cleft%28%20%5Cfrac%7B2%7C%5Cmathcal%20H%7C%7D%7B%5Cdelta%7D%5Cright%29%7D%7B2%5Cepsilon%5E2%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  m \geq \frac{\log\left( \frac{2|\mathcal H|}{\delta}\right)}{2\epsilon^2} ' title='\displaystyle  m \geq \frac{\log\left( \frac{2|\mathcal H|}{\delta}\right)}{2\epsilon^2} ' class='latex' /></p>
<p> mẫu từ phân bố <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> thì
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5Cleft%5B%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%7C%20%5Cleq%20%5Cepsilon%2C%20%5C%20%5Cforall%20h%20%5Cin%20%5Cmathcal%20H%20%5Cright%5D%20%5Cgeq%201-%5Cdelta.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}\left[|\text{err}(h) - \widehat{\text{err}}(h)| \leq \epsilon, \ \forall h \in \mathcal H \right] \geq 1-\delta. ' title='\displaystyle  \text{Prob}\left[|\text{err}(h) - \widehat{\text{err}}(h)| \leq \epsilon, \ \forall h \in \mathcal H \right] \geq 1-\delta. ' class='latex' /></p>
<p> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Rất dễ. Áp dụng <a href="McDiarmid’s">bất đẳng thức Hoeffing</a> (một dạng <a href="http://www.procul.org/blog/2010/07/10/gt-9-ti&#37;e1&#37;bb&#37;81n-xu-chernoff-bernstein-va-m&#37;e1&#37;ba&#37;b9o-trung-v&#37;e1&#37;bb&#37;8b/">con gà Chernoff</a>, và là trường hợp đặc biệt của bất đẳng thức McDiarmid) ta có, với <img src='http://s.wordpress.com/latex.php?latex=%7Bh%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h}' title='{h}' class='latex' /> bất kỳ:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5Cleft%5B%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%7C%20%3E%20%5Cepsilon%5Cright%5D%20%3C%202e%5E%7B-2%5Cepsilon%5E2m%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}\left[|\text{err}(h) - \widehat{\text{err}}(h)| &gt; \epsilon\right] &lt; 2e^{-2\epsilon^2m}. ' title='\displaystyle  \text{Prob}\left[|\text{err}(h) - \widehat{\text{err}}(h)| &gt; \epsilon\right] &lt; 2e^{-2\epsilon^2m}. ' class='latex' /></p>
<p> Sau đó, union bound cho ta
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5Cleft%5B%5Cforall%20h%20%5Cin%20%5Cmathcal%20H%2C%20%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%7C%20%3E%20%5Cepsilon%5Cright%5D%20%3C%202%7C%5Cmathcal%20H%7Ce%5E%7B-2%5Cepsilon%5E2m%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}\left[\forall h \in \mathcal H, |\text{err}(h) - \widehat{\text{err}}(h)| &gt; \epsilon\right] &lt; 2|\mathcal H|e^{-2\epsilon^2m}. ' title='\displaystyle  \text{Prob}\left[\forall h \in \mathcal H, |\text{err}(h) - \widehat{\text{err}}(h)| &gt; \epsilon\right] &lt; 2|\mathcal H|e^{-2\epsilon^2m}. ' class='latex' /></p>
<p> Từ đó dẫn đến kết luận của định lý. <img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' /></p>
<p>
Từ định lý hội tụ đều, ta thấy rằng lời giải cho bài toán ERM cũng khá tốt so với lời giải của bài toán lý tưởng:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7Berr%7D%28%5Chat%20h%5E%2A%29%20%5Cleq%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28%5Chat%20h%5E%2A%29%20%2B%20%5Cepsilon%20%5Cleq%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%5E%2A%29%20%2B%20%5Cepsilon%20%5Cleq%20%5Ctext%7Berr%7D%28h%5E%2A%29%20%2B%202%5Cepsilon.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{err}(\hat h^*) \leq \widehat{\text{err}}(\hat h^*) + \epsilon \leq \widehat{\text{err}}(h^*) + \epsilon \leq \text{err}(h^*) + 2\epsilon. ' title='\displaystyle  \text{err}(\hat h^*) \leq \widehat{\text{err}}(\hat h^*) + \epsilon \leq \widehat{\text{err}}(h^*) + \epsilon \leq \text{err}(h^*) + 2\epsilon. ' class='latex' /></p>
<p> Ta có thể viết lại sự phụ thuộc của lỗi tổng quát hóa <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7Berr%7D%28h%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{err}(h)}' title='{\text{err}(h)}' class='latex' /> vào lỗi thực nghiệm <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\widehat{\text{err}}(h)}' title='{\widehat{\text{err}}(h)}' class='latex' />, độ phức tạp của lớp giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Clog%20%7C%5Cmathcal%20H%7C%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\log |\mathcal H|}' title='{\log |\mathcal H|}' class='latex' />, tổng số mẫu <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> và độ tin cậy như sau:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7Berr%7D%28h%29%20%5Cleq%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%20%2B%20%5Csqrt%7B%5Cfrac%7B%5Clog%282%7C%5Cmathcal%20H%7C%29%20%2B%20%5Clog%281%2F%5Cdelta%29%7D%7Bm%7D%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{err}(h) \leq \widehat{\text{err}}(h) + \sqrt{\frac{\log(2|\mathcal H|) + \log(1/\delta)}{m}} ' title='\displaystyle  \text{err}(h) \leq \widehat{\text{err}}(h) + \sqrt{\frac{\log(2|\mathcal H|) + \log(1/\delta)}{m}} ' class='latex' /></p>
<p> Có vài điểm đáng chú ý: </p>
<ul>
<li> Độ phức tạp mẫu phụ thuộc vào <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cepsilon%5E2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\epsilon^2}' title='{\epsilon^2}' class='latex' /> chứ không còn là <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cepsilon%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\epsilon}' title='{\epsilon}' class='latex' /> như trong mô hình PAC.
<li> Tăng <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> thì lỗi tổng quát hóa giảm. Cho học giả càng nhiều ví dụ càng tốt. Dĩ nhiên làm thế sẽ ảnh hưởng đến thời gian chạy của học giả.
<li> Độ phức tạp của lớp giả thuyết càng nhỏ càng tốt.
<li> Lỗi thực nghiệm càng bé càng tốt.
<li> Tuy nhiên, có một trade-off giữa lỗi thực nghiệm và độ phức tạp của lớp giả thuyết. Nếu lớp giả thuyết quá đơn giản thì khả năng ta tìm được một giả thuyết có lỗi thực nghiệm bé sẽ giảm. Khi độ phức tạp của lớp giả thuyết tăng lên thì sẽ dễ tìm giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7Bh%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h}' title='{h}' class='latex' /> có lỗi thực nghiệm <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\widehat{\text{err}}(h)}' title='{\widehat{\text{err}}(h)}' class='latex' /> nhỏ. Nhưng đến một lúc nào đó thì số hạng thứ hai (chứa <img src='http://s.wordpress.com/latex.php?latex=%7B%5Clog%20%282%7C%5Cmathcal%20H%7C%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\log (2|\mathcal H|)}' title='{\log (2|\mathcal H|)}' class='latex' />) sẽ áp đảo số hạng thứ nhất, và ta bị vấn đề <a href="http://en.wikipedia.org/wiki/Overfitting">overfitting</a>, một vấn đề thật sự đau đầu trong thống kê.
</ul>
<p>
Trong hai bài tới, chúng ta sẽ thảo luận thuật toán AdaBoost và thuật toán Support Vector Machine; có vẻ như chúng chống chọi vấn đề overfitting khá tốt.</p>
<p>
Trong trường hợp <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> vô hạn thì ta có định lý hội tụ đều dùng VC-dimension, là một trong những định lý quan trọng nhất trong statistical learning theory.</p>
<blockquote><p><b>Định lý 4 (Định lý hội tụ đều cho <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> vô hạn &#8212; Còn gọi là định lý Vapnik-Chervonenkis)</b> <em> Xét trường hợp lớp giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> là vô hạn với <img src='http://s.wordpress.com/latex.php?latex=%7Bd%20%3D%20%5Ctext%7B%5Csc%20vcd%7D%28%5Cmathcal%20H%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{d = \text{\sc vcd}(\mathcal H)}' title='{d = \text{\sc vcd}(\mathcal H)}' class='latex' />. Nếu ta lấy
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20m%20%3D%20%5COmega%5Cleft%28%20%5Cfrac%7Bd%7D%7B%5Cepsilon%5E2%7D%5Clog%5Cfrac%7B1%7D%7B%5Cepsilon%7D%20%2B%20%5Cfrac%7B1%7D%7B%5Cepsilon%5E2%7D%20%5Clog%20%5Cfrac%201%20%5Cdelta%5Cright%29%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  m = \Omega\left( \frac{d}{\epsilon^2}\log\frac{1}{\epsilon} + \frac{1}{\epsilon^2} \log \frac 1 \delta\right) ' title='\displaystyle  m = \Omega\left( \frac{d}{\epsilon^2}\log\frac{1}{\epsilon} + \frac{1}{\epsilon^2} \log \frac 1 \delta\right) ' class='latex' /></p>
<p> mẫu từ phân bố <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal D}' title='{\mathcal D}' class='latex' /> thì
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Ctext%7BProb%7D%5Cleft%5B%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D%28h%29%7C%20%5Cleq%20%5Cepsilon%2C%20%5C%20%5Cforall%20h%20%5Cin%20%5Cmathcal%20H%20%5Cright%5D%20%5Cgeq%201-%5Cdelta.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \text{Prob}\left[|\text{err}(h) - \widehat{\text{err}}(h)| \leq \epsilon, \ \forall h \in \mathcal H \right] \geq 1-\delta. ' title='\displaystyle  \text{Prob}\left[|\text{err}(h) - \widehat{\text{err}}(h)| \leq \epsilon, \ \forall h \in \mathcal H \right] \geq 1-\delta. ' class='latex' /></p>
<p> </em></p></blockquote>
<p> <em>Chứng minh:</em>  Ta cần chứng minh bất đẳng thức sau đây:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_S%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h%29%7C%20%3E%20%5Cepsilon%20%5Cright%5D%20%5Cleq%20%5Cdelta%2C%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\text{Prob}}_S \left[ \sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon \right] \leq \delta, ' title='\displaystyle  \mathop{\text{Prob}}_S \left[ \sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon \right] \leq \delta, ' class='latex' /></p>
<p> trong đó <img src='http://s.wordpress.com/latex.php?latex=%7BS%3D%5C%7B%28%7B%5Cbf%20x%7D_1%2Cy_1%29%2C%20%5Ccdots%2C%20%28%7B%5Cbf%20x%7D_m%2Cy_m%29%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S=\{({\bf x}_1,y_1), \cdots, ({\bf x}_m,y_m)\}}' title='{S=\{({\bf x}_1,y_1), \cdots, ({\bf x}_m,y_m)\}}' class='latex' /> là tập <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> mẫu độc lập. Giống như trong trường hợp định lý VC cho mô hình PAC, ta dùng cái mẹo lấy mẫu kép. Ta lấy thêm <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> mẫu độc lập <img src='http://s.wordpress.com/latex.php?latex=%7BS%27%3D%5C%7B%28%7B%5Cbf%20x%7D%27_1%2Cy%27_1%29%2C%20%5Ccdots%2C%20%28%7B%5Cbf%20x%7D%27_m%2Cy%27_m%29%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S&#039;=\{({\bf x}&#039;_1,y&#039;_1), \cdots, ({\bf x}&#039;_m,y&#039;_m)\}}' title='{S&#039;=\{({\bf x}&#039;_1,y&#039;_1), \cdots, ({\bf x}&#039;_m,y&#039;_m)\}}' class='latex' /> nữa (chỉ là công cụ chứng minh, không lấy thật). Chứng minh bao gồm bốn bước.</p>
<p><ul>
<li> <b>Bước 1.</b> chuyển từ vô hạn xuống hữu hạn. Ta sẽ chứng minh rằng</p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_S%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h%29%7C%20%3E%20%5Cepsilon%20%5Cright%5D%20%5Cleq%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h%29%7C%20%3E%20%5Cepsilon%2F2%20%5Cright%5D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\text{Prob}}_S \left[ \sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon \right] \leq 2 \cdot \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right] ' title='\displaystyle  \mathop{\text{Prob}}_S \left[ \sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon \right] \leq 2 \cdot \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right] ' class='latex' /></p>
<p>
Với một bộ mẫu <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> đã lấy, nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h%29%7C%20%3E%20%5Cepsilon%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon}' title='{\sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon}' class='latex' /> thì định nghĩa <img src='http://s.wordpress.com/latex.php?latex=%7Bh_S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h_S}' title='{h_S}' class='latex' /> là một hàm (tùy hỉ) trong <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> miễn sao <img src='http://s.wordpress.com/latex.php?latex=%7B%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h_S%29%7C%20%3E%20%5Cepsilon%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon}' title='{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon}' class='latex' />; còn nếu <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h%29%7C%20%5Cleq%20%5Cepsilon%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| \leq \epsilon}' title='{\sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| \leq \epsilon}' class='latex' /> thì định nghĩa <img src='http://s.wordpress.com/latex.php?latex=%7Bh_S%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h_S}' title='{h_S}' class='latex' /> là một hàm bất kỳ trong <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' />.</p>
<p>
Trước hết, dùng bất đẳng thức Chernoff, dễ chứng minh được rằng, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7Bm%20%5Cgeq%20100%2F%5Cepsilon%5E2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m \geq 100/\epsilon^2}' title='{m \geq 100/\epsilon^2}' class='latex' /> ta có:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%27%7D%20%5Cleft%5B%20%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h_S%29%7C%20%3C%20%5Cepsilon%2F2%20%5Cright%5D%20%5Cgeq%201%2F2.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\text{Prob}}_{S&#039;} \left[ |\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2 \right] \geq 1/2. ' title='\displaystyle  \mathop{\text{Prob}}_{S&#039;} \left[ |\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2 \right] \geq 1/2. ' class='latex' /></p>
<p> (Không cần đến <img src='http://s.wordpress.com/latex.php?latex=%7B100%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{100}' title='{100}' class='latex' />, để cho vui thôi; cỡ <img src='http://s.wordpress.com/latex.php?latex=%7B8%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{8}' title='{8}' class='latex' /> là đủ.)</p>
<p><p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%26%26%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_S%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Ctext%7Berr%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h%29%7C%20%3E%20%5Cepsilon%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Ctext%7BE%7D%7D_S%20%5Cleft%5B%20%7B%5Cbf%201%7D_%7B%5C%7B%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h_S%29%7C%20%3E%20%5Cepsilon%5C%7D%7D%20%5Cright%5D%5C%5C%20%26%5Cleq%20%26%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BE%7D%7D_S%20%5Cleft%5B%20%7B%5Cbf%201%7D_%7B%5C%7B%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h_S%29%7C%20%3E%20%5Cepsilon%5C%7D%7D%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%27%7D%20%5Cleft%5B%20%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h_S%29%7C%20%3C%20%5Cepsilon%2F2%20%5Cright%5D%20%5Cright%5D%5C%5C%20%26%5Cleq%20%26%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BE%7D%7D_S%20%5Cleft%5B%20%7B%5Cbf%201%7D_%7B%5C%7B%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h_S%29%7C%20%3E%20%5Cepsilon%5C%7D%7D%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BE%7D%7D_%7BS%27%7D%20%5Cleft%5B%20%7B%5Cbf%201%7D_%7B%5C%7B%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h_S%29%7C%20%3C%20%5Cepsilon%2F2%5C%7D%7D%20%5Cright%5D%20%5Cright%5D%5C%5C%20%26%3D%26%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BE%7D%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%7B%5Cbf%201%7D_%7B%5C%7B%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h_S%29%7C%20%3E%20%5Cepsilon%5C%7D%7D%20%5Ccdot%20%7B%5Cbf%201%7D_%7B%5C%7B%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h_S%29%7C%20%3C%20%5Cepsilon%2F2%5C%7D%7D%20%5Cright%5D%5C%5C%20%26%3D%26%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_S%28h_S%29%7C%20%3E%20%5Cepsilon%20%5Ctext%7B%20and%20%7D%20%7C%5Ctext%7Berr%7D%28h_S%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h_S%29%7C%20%3C%20%5Cepsilon%2F2%20%5Cright%5D%5C%5C%20%26%5Cleq%20%26%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h%29%7C%20%3E%20%5Cepsilon%2F2%20%5Cright%5D%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  &amp;&amp; \mathop{\text{Prob}}_S \left[ \sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon \right]\\ &amp;=&amp; \mathop{\text{E}}_S \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \right]\\ &amp;\leq &amp; 2 \cdot \mathop{\text{E}}_S \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \cdot \mathop{\text{Prob}}_{S&#039;} \left[ |\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2 \right] \right]\\ &amp;\leq &amp; 2 \cdot \mathop{\text{E}}_S \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \cdot \mathop{\text{E}}_{S&#039;} \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2\}} \right] \right]\\ &amp;=&amp; 2 \cdot \mathop{\text{E}}_{S,S&#039;} \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \cdot {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2\}} \right]\\ &amp;=&amp; 2 \cdot \mathop{\text{Prob}}_{S,S&#039;} \left[ |\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon \text{ and } |\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2 \right]\\ &amp;\leq &amp; 2 \cdot \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right] \end{array} ' title='\displaystyle  \begin{array}{rcl}  &amp;&amp; \mathop{\text{Prob}}_S \left[ \sup_{h \in \mathcal H} |\text{err}(h) - \widehat{\text{err}}_S(h)| &gt; \epsilon \right]\\ &amp;=&amp; \mathop{\text{E}}_S \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \right]\\ &amp;\leq &amp; 2 \cdot \mathop{\text{E}}_S \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \cdot \mathop{\text{Prob}}_{S&#039;} \left[ |\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2 \right] \right]\\ &amp;\leq &amp; 2 \cdot \mathop{\text{E}}_S \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \cdot \mathop{\text{E}}_{S&#039;} \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2\}} \right] \right]\\ &amp;=&amp; 2 \cdot \mathop{\text{E}}_{S,S&#039;} \left[ {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon\}} \cdot {\bf 1}_{\{|\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2\}} \right]\\ &amp;=&amp; 2 \cdot \mathop{\text{Prob}}_{S,S&#039;} \left[ |\text{err}(h_S) - \widehat{\text{err}}_S(h_S)| &gt; \epsilon \text{ and } |\text{err}(h_S) - \widehat{\text{err}}_{S&#039;}(h_S)| &lt; \epsilon/2 \right]\\ &amp;\leq &amp; 2 \cdot \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right] \end{array} ' class='latex' /></p>
<p><li> <b>Bước 2.</b> đối xứng hóa dùng các <a href="http://en.wikipedia.org/wiki/Rademacher_complexity">biến Rademacher</a> <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%20%5Cin%20%5C%7B-1%2C1%5C%7D%2C%20i%20%5Cin%20%5Bm%5D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i \in \{-1,1\}, i \in [m]}' title='{\sigma_i \in \{-1,1\}, i \in [m]}' class='latex' />, nghĩa là <img src='http://s.wordpress.com/latex.php?latex=%7B%5Ctext%7BProb%7D%5B%5Csigma_i%3D1%5D%3D%5Ctext%7BProb%7D%5B%5Csigma_i%3D-1%5D%3D1%2F2%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\text{Prob}[\sigma_i=1]=\text{Prob}[\sigma_i=-1]=1/2}' title='{\text{Prob}[\sigma_i=1]=\text{Prob}[\sigma_i=-1]=1/2}' class='latex' />. Ta sẽ chứng minh rằng
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h%29%7C%20%3E%20%5Cepsilon%2F2%20%5Cright%5D%20%5Cleq%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20%5Cright%7C%20%3E%20%5Cepsilon%2F4%20%5Cright%5D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right] \leq 2 \cdot \mathop{\text{Prob}}_{S,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right] ' title='\displaystyle  \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right] \leq 2 \cdot \mathop{\text{Prob}}_{S,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right] ' class='latex' /></p>
<p>
Lưu ý rằng <img src='http://s.wordpress.com/latex.php?latex=%7B%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{{\bf 1}_{\{h({\bf x}_i) \neq y_i\}}}' title='{{\bf 1}_{\{h({\bf x}_i) \neq y_i\}}}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7B%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D%27_i%29%20%5Cneq%20y%27_i%5C%7D%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{{\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}}}' title='{{\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}}}' class='latex' /> có cùng phân bố, do đó <img src='http://s.wordpress.com/latex.php?latex=%7B%28%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20-%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D%27_i%29%20%5Cneq%20y%27_i%5C%7D%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}})}' title='{({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}})}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7B-%28%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20-%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D%27_i%29%20%5Cneq%20y%27_i%5C%7D%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{-({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}})}' title='{-({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}})}' class='latex' /> có cùng phân bố với trị kỳ vọng bằng <img src='http://s.wordpress.com/latex.php?latex=%7B0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{0}' title='{0}' class='latex' />. Ta có:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cbegin%7Barray%7D%7Brcl%7D%20%20%26%26%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%7C%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%7D%28h%29%20-%20%5Cwidehat%7B%5Ctext%7Berr%7D%7D_%7BS%27%7D%28h%29%7C%20%3E%20%5Cepsilon%2F2%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%28%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20-%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D%27_i%29%20%5Cneq%20y%27_i%5C%7D%7D%29%20%5Cright%7C%20%3E%20%5Cepsilon%2F2%20%5Cright%5D%5C%5C%20%26%3D%26%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%5Cleft%28%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20-%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D%27_i%29%20%5Cneq%20y%27_i%5C%7D%7D%5Cright%29%20%5Cright%7C%20%3E%20%5Cepsilon%2F2%20%5Cright%5D%5C%5C%20%26%5Cleq%26%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2CS%27%2C%5Csigma%7D%20%5Cleft%5B%20%5Cleft%5C%7B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20%5Cright%7C%20%3E%20%5Cepsilon%2F4%20%5Cright%5C%7D%20%5Ctext%7B%20or%20%7D%20%5Cleft%5C%7B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D%27_i%29%20%5Cneq%20y%27_i%5C%7D%7D%20%5Cright%7C%20%3E%20%5Cepsilon%2F4%20%5Cright%5C%7D%20%5Cright%5D%5C%5C%20%26%5Cleq%26%202%20%5Ccdot%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20%5Cright%7C%20%3E%20%5Cepsilon%2F4%20%5Cright%5D%20%5Cend%7Barray%7D%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \begin{array}{rcl}  &amp;&amp; \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right]\\ &amp;=&amp; \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m ({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}}) \right| &gt; \epsilon/2 \right]\\ &amp;=&amp; \mathop{\text{Prob}}_{S,S&#039;,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i \left({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}}\right) \right| &gt; \epsilon/2 \right]\\ &amp;\leq&amp; \mathop{\text{Prob}}_{S,S&#039;,\sigma} \left[ \left\{ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right\} \text{ or } \left\{ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}} \right| &gt; \epsilon/4 \right\} \right]\\ &amp;\leq&amp; 2 \cdot \mathop{\text{Prob}}_{S,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right] \end{array} ' title='\displaystyle  \begin{array}{rcl}  &amp;&amp; \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} |\widehat{\text{err}}_{S}(h) - \widehat{\text{err}}_{S&#039;}(h)| &gt; \epsilon/2 \right]\\ &amp;=&amp; \mathop{\text{Prob}}_{S,S&#039;} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m ({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}}) \right| &gt; \epsilon/2 \right]\\ &amp;=&amp; \mathop{\text{Prob}}_{S,S&#039;,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i \left({\bf 1}_{\{h({\bf x}_i) \neq y_i\}} - {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}}\right) \right| &gt; \epsilon/2 \right]\\ &amp;\leq&amp; \mathop{\text{Prob}}_{S,S&#039;,\sigma} \left[ \left\{ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right\} \text{ or } \left\{ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}&#039;_i) \neq y&#039;_i\}} \right| &gt; \epsilon/4 \right\} \right]\\ &amp;\leq&amp; 2 \cdot \mathop{\text{Prob}}_{S,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right] \end{array} ' class='latex' /></p>
<p><li> <b>Bước 3.</b> thay vì xét cái <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sup_{h\in \mathcal H}}' title='{\sup_{h\in \mathcal H}}' class='latex' /> ở vế phải bất đẳng thức trên, ta chỉ cần xét các &#8220;dichotomies&#8221; của lớp giả thuyết <img src='http://s.wordpress.com/latex.php?latex=%7B%5Cmathcal%20H%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\mathcal H}' title='{\mathcal H}' class='latex' /> trên tập <img src='http://s.wordpress.com/latex.php?latex=%7B%5C%7B%20%7B%5Cbf%20x%7D_i%20%5C%20%7C%20%5C%20%28%7B%5Cbf%20x%7D_i%2C%20y_i%29%20%5Cin%20S%5C%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\{ {\bf x}_i \ | \ ({\bf x}_i, y_i) \in S\}}' title='{\{ {\bf x}_i \ | \ ({\bf x}_i, y_i) \in S\}}' class='latex' />. Áp dụng bất đẳng thức Hoeffding và union bound là ta sẽ có:
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%7BS%2C%5Csigma%7D%20%5Cleft%5B%20%5Csup_%7Bh%20%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20%5Cright%7C%20%3E%20%5Cepsilon%2F4%20%5Cright%5D%20%5Cleq%20%5CPi_%7B%5Cmathcal%20H%7D%28m%29%20%5Ccdot%202%20%5Ccdot%20e%5E%7B-m%5Cepsilon%5E2%2F32%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\text{Prob}}_{S,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right] \leq \Pi_{\mathcal H}(m) \cdot 2 \cdot e^{-m\epsilon^2/32}. ' title='\displaystyle  \mathop{\text{Prob}}_{S,\sigma} \left[ \sup_{h \in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \right] \leq \Pi_{\mathcal H}(m) \cdot 2 \cdot e^{-m\epsilon^2/32}. ' class='latex' /></p>
<p> Cụ thể hơn, với mọi <img src='http://s.wordpress.com/latex.php?latex=%7Bh%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{h}' title='{h}' class='latex' />, <img src='http://s.wordpress.com/latex.php?latex=%7B%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}}}' title='{\sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}}}' class='latex' /> là các biến độc lập với trị kỳ vọng bằng <img src='http://s.wordpress.com/latex.php?latex=%7B0%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{0}' title='{0}' class='latex' />, dao động giữa <img src='http://s.wordpress.com/latex.php?latex=%7B1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{1}' title='{1}' class='latex' /> và <img src='http://s.wordpress.com/latex.php?latex=%7B-1%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{-1}' title='{-1}' class='latex' />. Do đó, <a href="http://en.wikipedia.org/wiki/Hoeffding's_inequality">bất đẳng thức Hoeffding</a> cho ta biết (conditioning on <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' />)
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%5Csigma%20%5Cleft%5B%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20%5Cright%7C%20%3E%20%5Cepsilon%2F4%20%5Cleft%7C%20%5Cright.%20S%20%5Cright%5D%20%5Cleq%202%20%5Ccdot%20e%5E%7B-m%5Cepsilon%5E2%2F32%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\text{Prob}}_\sigma \left[ \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \left| \right. S \right] \leq 2 \cdot e^{-m\epsilon^2/32}. ' title='\displaystyle  \mathop{\text{Prob}}_\sigma \left[ \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \left| \right. S \right] \leq 2 \cdot e^{-m\epsilon^2/32}. ' class='latex' /></p>
<p> Với một bộ mẫu <img src='http://s.wordpress.com/latex.php?latex=%7BS%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{S}' title='{S}' class='latex' /> đã chọn thì tổng số dãy <img src='http://s.wordpress.com/latex.php?latex=%7B%28%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_1%29%20%5Cneq%20y_1%5C%7D%7D%2C%20%5Ccdots%2C%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_m%29%20%5Cneq%20y_m%5C%7D%7D%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{({\bf 1}_{\{h({\bf x}_1) \neq y_1\}}, \cdots, {\bf 1}_{\{h({\bf x}_m) \neq y_m\}})}' title='{({\bf 1}_{\{h({\bf x}_1) \neq y_1\}}, \cdots, {\bf 1}_{\{h({\bf x}_m) \neq y_m\}})}' class='latex' /> khác nhau bị chặn trên bởi <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPi_%7B%5Cmathcal%20H%7D%28m%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Pi_{\mathcal H}(m)}' title='{\Pi_{\mathcal H}(m)}' class='latex' />. Do đó, union bound hoàn tất bước 3, vì
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%20%5Cmathop%7B%5Ctext%7BProb%7D%7D_%5Csigma%20%5Cleft%5B%20%5Csup_%7Bh%5Cin%20%5Cmathcal%20H%7D%20%5Cfrac%201%20m%20%5Cleft%7C%20%5Csum_%7Bi%3D1%7D%5Em%20%5Csigma_i%20%7B%5Cbf%201%7D_%7B%5C%7Bh%28%7B%5Cbf%20x%7D_i%29%20%5Cneq%20y_i%5C%7D%7D%20%5Cright%7C%20%3E%20%5Cepsilon%2F4%20%5Cleft%7C%20%5Cright.%20S%20%5Cright%5D%20%5Cleq%20%5CPi_%7B%5Cmathcal%20H%7D%28m%29%20%5Ccdot%202%20%5Ccdot%20e%5E%7B-m%5Cepsilon%5E2%2F32%7D.%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  \mathop{\text{Prob}}_\sigma \left[ \sup_{h\in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \left| \right. S \right] \leq \Pi_{\mathcal H}(m) \cdot 2 \cdot e^{-m\epsilon^2/32}. ' title='\displaystyle  \mathop{\text{Prob}}_\sigma \left[ \sup_{h\in \mathcal H} \frac 1 m \left| \sum_{i=1}^m \sigma_i {\bf 1}_{\{h({\bf x}_i) \neq y_i\}} \right| &gt; \epsilon/4 \left| \right. S \right] \leq \Pi_{\mathcal H}(m) \cdot 2 \cdot e^{-m\epsilon^2/32}. ' class='latex' /></p>
<p><li> <b>Bước 4.</b> Bổ đề Sauer và tính toán cơ bắp hoàn tất chứng minh định lý. Bổ đề Sauer cho biết <img src='http://s.wordpress.com/latex.php?latex=%7B%5CPi_%7B%5Cmathcal%20H%7D%28m%29%20%5Cleq%20%28em%2Fd%29%5Ed%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{\Pi_{\mathcal H}(m) \leq (em/d)^d}' title='{\Pi_{\mathcal H}(m) \leq (em/d)^d}' class='latex' />. Do đó ta chỉ cần chọn <img src='http://s.wordpress.com/latex.php?latex=%7Bm%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m}' title='{m}' class='latex' /> sao cho
<p align=center><img src='http://s.wordpress.com/latex.php?latex=%5Cdisplaystyle%20%208%20%28em%2Fd%29%5Ed%20e%5E%7B-m%5Cepsilon%5E2%2F32%7D%20%5Cleq%20%5Cdelta%20&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\displaystyle  8 (em/d)^d e^{-m\epsilon^2/32} \leq \delta ' title='\displaystyle  8 (em/d)^d e^{-m\epsilon^2/32} \leq \delta ' class='latex' /></p>
<p> là xong. Dễ thấy rằng <img src='http://s.wordpress.com/latex.php?latex=%7Bm%20%3D%20%5COmega%5Cleft%28%20%5Cfrac%7Bd%7D%7B%5Cepsilon%5E2%7D%5Clog%5Cfrac%7B1%7D%7B%5Cepsilon%7D%20%2B%20%5Cfrac%7B1%7D%7B%5Cepsilon%5E2%7D%20%5Clog%20%5Cfrac%201%20%5Cdelta%5Cright%29%7D&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='{m = \Omega\left( \frac{d}{\epsilon^2}\log\frac{1}{\epsilon} + \frac{1}{\epsilon^2} \log \frac 1 \delta\right)}' title='{m = \Omega\left( \frac{d}{\epsilon^2}\log\frac{1}{\epsilon} + \frac{1}{\epsilon^2} \log \frac 1 \delta\right)}' class='latex' /> đủ thỏa.
</ul>
<img src='http://s.wordpress.com/latex.php?latex=%5CBox&#038;bg=ffffff&#038;fg=000000&#038;s=0' alt='\Box' title='\Box' class='latex' />
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2010/08/30/hm5-d%e1%bb%8bnh-ly-vapnik-chervonenkis-cho-mo-hinh-gi%e1%ba%a3-thuy%e1%ba%bft-khong-nh%e1%ba%a5t/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>Robotics &#8212; State of the art</title>
		<link>http://www.procul.org/blog/2010/07/17/robotics-state-of-the-art/</link>
		<comments>http://www.procul.org/blog/2010/07/17/robotics-state-of-the-art/#comments</comments>
		<pubDate>Sat, 17 Jul 2010 22:06:39 +0000</pubDate>
		<dc:creator>NQH</dc:creator>
				<category><![CDATA[Tin tức đó đây]]></category>
		<category><![CDATA[Trí tuệ nhân tạo]]></category>
		<category><![CDATA[Robotics]]></category>
		<category><![CDATA[Vui]]></category>

		<guid isPermaLink="false">http://www.procul.org/blog/?p=2141</guid>
		<description><![CDATA[]]></description>
			<content:encoded><![CDATA[<p><center><object width="580" height="360"><param name="movie" value="http://www.youtube.com/v/c3Cq0sy4TBs&amp;hl=en_US&amp;fs=1?rel=0&amp;border=1"></param><param name="allowFullScreen" value="true"></param><param name="allowscriptaccess" value="always"></param><embed src="http://www.youtube.com/v/c3Cq0sy4TBs&amp;hl=en_US&amp;fs=1?rel=0&amp;border=1" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="580" height="360"></embed></object></center></p>
]]></content:encoded>
			<wfw:commentRss>http://www.procul.org/blog/2010/07/17/robotics-state-of-the-art/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
	</channel>
</rss>

