<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: HM3 &#8212; Mô hình PAC</title>
	<atom:link href="http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/</link>
	<description>Tầm nhìn ta thật ngắn mà đã thấy bao thứ  để làm -- Alan Turing</description>
	<lastBuildDate>Wed, 08 Feb 2012 20:07:47 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>By: npson</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172093</link>
		<dc:creator>npson</dc:creator>
		<pubDate>Fri, 18 Jul 2008 22:27:41 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172093</guid>
		<description>Cam on anh Long. Em khong biet nhieu, thay bac David ben ay lam ve Philosophy cung hoc ML roi co vai y kien khong biet tot xau the nao nen dem ve day hoi chuyen gia ay ma :)</description>
		<content:encoded><![CDATA[<p>Cam on anh Long. Em khong biet nhieu, thay bac David ben ay lam ve Philosophy cung hoc ML roi co vai y kien khong biet tot xau the nao nen dem ve day hoi chuyen gia ay ma <img src='http://www.procul.org/blog/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Nguyen Xuan Long</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172070</link>
		<dc:creator>Nguyen Xuan Long</dc:creator>
		<pubDate>Fri, 18 Jul 2008 00:11:36 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172070</guid>
		<description>@npson: bài blog đó có một số ý, không rõ bác nhắc đến ý nào... Tuy nhiên quan điểm cá nhân tôi thì kernel methods chỉ là một dạng class of models hữu ích cho một số v/đ và data cụ thể, nhưng rất hạn chế trong nhiều trường hợp khác. Tiếp tục refine nó hoặc áp dụng một lớp mô hình hoàn toàn khác là sẽ tùy thuộc vào data. Tôi không coi kernel methods là một thứ cure-all panacea.

Ưu điểm chính của kernel-based models là: chúng đơn giản cho người dùng, vì không đòi hỏi modeling assumption. Chúng cũng đơn giản cho thuật toán học, vì chỉ là một dạng linear model trên một không gian Hilbert. Nhưng việc chúng đủ phức tạp để mô tả nhiều dạng data trong thực tế cho ta thấy vẻ đẹp và sức mạnh của một chút toán học cao cấp (a little more math goes a long way, moving to higher dimensional space, i.e.,
http://www.procul.org/blog/2006/03/08/going-to-higher-dimensional-space/
)

Về lý thuyết thì kernel-based estimator kho^ng phải là optimal in minimax sense. Xem, vi&#039; du/ một dạng tutorial sau:
E. J. Candès. Modern statistical estimation via oracle inequalities. Acta Numerica, 15 257-325. 
(available from his homepage)

và manuscript cũng có online của GS I. Johnstone của Stanford vói tựa &quot;Function estimation&quot;, homepage:
http://stat.stanford.edu/people/faculty/johnstone/index.html

Có thể fix vấn đề (về sự hạn chế của kernel models) bằng cách learn a family of kernels. Tuy nhiên tôi không thích cách này vì nó cũng giống như một dạng đẩy mô hình neural network từ 2 tầng lên thành 3 tầng.  Cách này mất đi vẻ đẹp và đơn giản của phương pháp kernel ban đầu. Lợi ích về sức mạnh mô hình chưa thấy đâu nhưng bạn sẽ chết ngập vì các vấn đề optimization phát sinh, (tương tự như với neural nets vậy).

@Nguyên: Có thể nhìn nhận vấn đề bác nói là một dạng classification, nhưng không rõ có useful không? 
Nếu tôi muốn tấn công v/đ này tôi sẽ tấn công nó một cách trực diện thay vì reduce nó về một classification formulation, mà theo tôi khá là hạn chế, với bài toán của bác.</description>
		<content:encoded><![CDATA[<p>@npson: bài blog đó có một số ý, không rõ bác nhắc đến ý nào&#8230; Tuy nhiên quan điểm cá nhân tôi thì kernel methods chỉ là một dạng class of models hữu ích cho một số v/đ và data cụ thể, nhưng rất hạn chế trong nhiều trường hợp khác. Tiếp tục refine nó hoặc áp dụng một lớp mô hình hoàn toàn khác là sẽ tùy thuộc vào data. Tôi không coi kernel methods là một thứ cure-all panacea.</p>
<p>Ưu điểm chính của kernel-based models là: chúng đơn giản cho người dùng, vì không đòi hỏi modeling assumption. Chúng cũng đơn giản cho thuật toán học, vì chỉ là một dạng linear model trên một không gian Hilbert. Nhưng việc chúng đủ phức tạp để mô tả nhiều dạng data trong thực tế cho ta thấy vẻ đẹp và sức mạnh của một chút toán học cao cấp (a little more math goes a long way, moving to higher dimensional space, i.e.,<br />
<a href="http://www.procul.org/blog/2006/03/08/going-to-higher-dimensional-space/" rel="nofollow">http://www.procul.org/blog/2006/03/08/going-to-higher-dimensional-space/</a><br />
)</p>
<p>Về lý thuyết thì kernel-based estimator kho^ng phải là optimal in minimax sense. Xem, vi&#8217; du/ một dạng tutorial sau:<br />
E. J. Candès. Modern statistical estimation via oracle inequalities. Acta Numerica, 15 257-325.<br />
(available from his homepage)</p>
<p>và manuscript cũng có online của GS I. Johnstone của Stanford vói tựa &#8220;Function estimation&#8221;, homepage:<br />
<a href="http://stat.stanford.edu/people/faculty/johnstone/index.html" rel="nofollow">http://stat.stanford.edu/people/faculty/johnstone/index.html</a></p>
<p>Có thể fix vấn đề (về sự hạn chế của kernel models) bằng cách learn a family of kernels. Tuy nhiên tôi không thích cách này vì nó cũng giống như một dạng đẩy mô hình neural network từ 2 tầng lên thành 3 tầng.  Cách này mất đi vẻ đẹp và đơn giản của phương pháp kernel ban đầu. Lợi ích về sức mạnh mô hình chưa thấy đâu nhưng bạn sẽ chết ngập vì các vấn đề optimization phát sinh, (tương tự như với neural nets vậy).</p>
<p>@Nguyên: Có thể nhìn nhận vấn đề bác nói là một dạng classification, nhưng không rõ có useful không?<br />
Nếu tôi muốn tấn công v/đ này tôi sẽ tấn công nó một cách trực diện thay vì reduce nó về một classification formulation, mà theo tôi khá là hạn chế, với bài toán của bác.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: npson</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172068</link>
		<dc:creator>npson</dc:creator>
		<pubDate>Thu, 17 Jul 2008 23:02:42 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172068</guid>
		<description>Hom nay, luc loi n-Category Cafe, thay co bai viet nay:
http://golem.ph.utexas.edu/category/2007/06/kernels_in_machine_learning_i.html#comments
Cac chuyen gia co y kien gi khong ?</description>
		<content:encoded><![CDATA[<p>Hom nay, luc loi n-Category Cafe, thay co bai viet nay:<br />
<a href="http://golem.ph.utexas.edu/category/2007/06/kernels_in_machine_learning_i.html#comments" rel="nofollow">http://golem.ph.utexas.edu/category/2007/06/kernels_in_machine_learning_i.html#comments</a><br />
Cac chuyen gia co y kien gi khong ?</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Ngô Quang Hưng</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172067</link>
		<dc:creator>Ngô Quang Hưng</dc:creator>
		<pubDate>Thu, 17 Jul 2008 20:37:41 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172067</guid>
		<description>Chào bác &lt;strong&gt;sloth&lt;/strong&gt;

1. Các vấn đề liên quan đến online ad hiện nay là rất hot. Tôi có dịp nói chuyện với Prabhakar Raghavan mấy tháng trước và đa số các vấn đền algorithmic hoặc ML ở Yahoo Research ông nêu ra đều liên quan đến đề tài này. (Dĩ nhiên, ông ta cũng nói đến mục tiêu lâu dài hơn là phát triển computational economics/game theory/etc, however online ad is where you win or lose BILLIONS of USD in a few years. Yahoo literally lost roughly a billion dollars due to bad ad strategies/algorithms.)

2. Khi nào viết lại tôi sẽ thay ví dụ khác spam filtering. Quả là ví dụ này có hơi &quot;khinh thường&quot; ML. Dùng doc classification chắc tốt hơn. Thanks for your comments.

3. ta = chúng ta (as in &quot;we&quot; when &lt;strong&gt;I&lt;/strong&gt; write papers, even in sole author papers). &quot;We&quot; doesn&#039;t mean &quot;you and I&quot;, it&#039;s just a standard academic and perhaps boring way to avoid the egoistic &quot;&lt;strong&gt;I&lt;/strong&gt;&quot;

4. Tác giả đọc đến đâu thì dẫn reader(s) đến đó :-). Như đã nói từ đầu, đây là &quot;nhật ký&quot; của tôi khi đi tìm hiểu xem learnability mô hình bằng toán như thế nào. I&#039;m happy as long as there are more than 2 people who&#039;d take the time to read things I wrote and give useful feedbacks.</description>
		<content:encoded><![CDATA[<p>Chào bác <strong>sloth</strong></p>
<p>1. Các vấn đề liên quan đến online ad hiện nay là rất hot. Tôi có dịp nói chuyện với Prabhakar Raghavan mấy tháng trước và đa số các vấn đền algorithmic hoặc ML ở Yahoo Research ông nêu ra đều liên quan đến đề tài này. (Dĩ nhiên, ông ta cũng nói đến mục tiêu lâu dài hơn là phát triển computational economics/game theory/etc, however online ad is where you win or lose BILLIONS of USD in a few years. Yahoo literally lost roughly a billion dollars due to bad ad strategies/algorithms.)</p>
<p>2. Khi nào viết lại tôi sẽ thay ví dụ khác spam filtering. Quả là ví dụ này có hơi &#8220;khinh thường&#8221; ML. Dùng doc classification chắc tốt hơn. Thanks for your comments.</p>
<p>3. ta = chúng ta (as in &#8220;we&#8221; when <strong>I</strong> write papers, even in sole author papers). &#8220;We&#8221; doesn&#8217;t mean &#8220;you and I&#8221;, it&#8217;s just a standard academic and perhaps boring way to avoid the egoistic &#8220;<strong>I</strong>&#8221;</p>
<p>4. Tác giả đọc đến đâu thì dẫn reader(s) đến đó <img src='http://www.procul.org/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> . Như đã nói từ đầu, đây là &#8220;nhật ký&#8221; của tôi khi đi tìm hiểu xem learnability mô hình bằng toán như thế nào. I&#8217;m happy as long as there are more than 2 people who&#8217;d take the time to read things I wrote and give useful feedbacks.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: sloth</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172066</link>
		<dc:creator>sloth</dc:creator>
		<pubDate>Thu, 17 Jul 2008 19:19:45 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172066</guid>
		<description>vài lời bàn loạn, hi vọng các sư phụ (bác Hưng, bác Long, who else?) chiếu cố chỉ giáo. 

mô hình PAC, trong mắt của lý thuyết thống kê ko phải là cái gì quá xa lạ. 
nhưng theo tôi hiểu thì PAC vẫn có mặt trong các bài báo ở COLT hiện nay (bài toán phân lớp cổ điển) khi xem xét trong ngữ cảnh active learning, semi-supervised learning, lí do là vì không có hoặc đòi hỏi khá nhẹ về phân bố xác suất của dữ liệu. 

theo tôi hiểu, các mô hình, giải thuật active learning hay semi-supervised learning đã từng được (và vẫn đang được) xem xét dưới góc độ thống kê, nhưng khi đó luôn có giả thiết (ngầm hoặc hiện) về phân bố xác suất của dữ liệu. 

theo tôi hiểu, 1 chủ đề khá hot ở COLT (và SODA?) mấy năm gần đây là &quot;online learning&quot; (nonstochastic) dạng &quot;bandit&quot; (partial feedback) với các biến thể về &quot;number of bandits&quot; (until infinite). 
với trình độ &lt; abc về CS lẫn ML, tôi không hiểu ngoài ứng dụng &quot;online advertising&quot; (ở mấy web search engines) và &quot;obvious routing&quot; mà các tác giả này đem ra làm ví dụ, mô hình dự đoán kiểu cờ bạc này có thể có ứng dụng cụ thể ở đâu nữa.

@bác Hưng: 
- tôi không thích ví dụ spam filtering bằng ML lắm, vì theo tôi hiểu, lọc spam ở mức này là mức cuối cùng rồi (kiểu nan đề captcha, tính bảo mật của các giải thuật ML). 
  Ví dụ hiền lành, cổ điển kiểu phân loại emails, bài báo theo chủ đề có phù hợp với ML hơn không?
- tôi không hề có ý định phá bĩnh nhiệt tình của bác, nhưng tôi có mấy câu hỏi củ chuối (tương tự tên sinh viên nào đó của bác?) với tư cách 1 novice reader: 
  mục đích của series này là gì? tác giả định dẫn readers đi đến đâu? 
  dành cho đối tượng readers nào? và ko dành cho đối tượng nào? 
  (theo kiểu cụ Hồ (sgk lớp 4 nói thế): viết cho ai, viết để làm gì, rồi mới viết cái gì, viết như thế nào?)
- có gì thay đổi đáng kể nếu thay các chữ &quot;ta&quot; bằng &quot;tôi&quot; ko? 
  sorry bác, vì tôi vốn bị dị ứng nặng với các từ ta, chúng ta trong các bài báo mậu dịch vn (chúng ta phải thế này thế nọ, bla bla). 
  đọc mấy bài báo kiểu đó tôi thực sự chẳng hiểu là người nói, người viết đang muốn nói cụ thể đến ai, hay kiểu phiếm chỉ chí phèo, AQ, ...</description>
		<content:encoded><![CDATA[<p>vài lời bàn loạn, hi vọng các sư phụ (bác Hưng, bác Long, who else?) chiếu cố chỉ giáo. </p>
<p>mô hình PAC, trong mắt của lý thuyết thống kê ko phải là cái gì quá xa lạ.<br />
nhưng theo tôi hiểu thì PAC vẫn có mặt trong các bài báo ở COLT hiện nay (bài toán phân lớp cổ điển) khi xem xét trong ngữ cảnh active learning, semi-supervised learning, lí do là vì không có hoặc đòi hỏi khá nhẹ về phân bố xác suất của dữ liệu. </p>
<p>theo tôi hiểu, các mô hình, giải thuật active learning hay semi-supervised learning đã từng được (và vẫn đang được) xem xét dưới góc độ thống kê, nhưng khi đó luôn có giả thiết (ngầm hoặc hiện) về phân bố xác suất của dữ liệu. </p>
<p>theo tôi hiểu, 1 chủ đề khá hot ở COLT (và SODA?) mấy năm gần đây là &#8220;online learning&#8221; (nonstochastic) dạng &#8220;bandit&#8221; (partial feedback) với các biến thể về &#8220;number of bandits&#8221; (until infinite).<br />
với trình độ &lt; abc về CS lẫn ML, tôi không hiểu ngoài ứng dụng &#8220;online advertising&#8221; (ở mấy web search engines) và &#8220;obvious routing&#8221; mà các tác giả này đem ra làm ví dụ, mô hình dự đoán kiểu cờ bạc này có thể có ứng dụng cụ thể ở đâu nữa.</p>
<p>@bác Hưng:<br />
- tôi không thích ví dụ spam filtering bằng ML lắm, vì theo tôi hiểu, lọc spam ở mức này là mức cuối cùng rồi (kiểu nan đề captcha, tính bảo mật của các giải thuật ML).<br />
  Ví dụ hiền lành, cổ điển kiểu phân loại emails, bài báo theo chủ đề có phù hợp với ML hơn không?<br />
- tôi không hề có ý định phá bĩnh nhiệt tình của bác, nhưng tôi có mấy câu hỏi củ chuối (tương tự tên sinh viên nào đó của bác?) với tư cách 1 novice reader:<br />
  mục đích của series này là gì? tác giả định dẫn readers đi đến đâu?<br />
  dành cho đối tượng readers nào? và ko dành cho đối tượng nào?<br />
  (theo kiểu cụ Hồ (sgk lớp 4 nói thế): viết cho ai, viết để làm gì, rồi mới viết cái gì, viết như thế nào?)<br />
- có gì thay đổi đáng kể nếu thay các chữ &#8220;ta&#8221; bằng &#8220;tôi&#8221; ko?<br />
  sorry bác, vì tôi vốn bị dị ứng nặng với các từ ta, chúng ta trong các bài báo mậu dịch vn (chúng ta phải thế này thế nọ, bla bla).<br />
  đọc mấy bài báo kiểu đó tôi thực sự chẳng hiểu là người nói, người viết đang muốn nói cụ thể đến ai, hay kiểu phiếm chỉ chí phèo, AQ, &#8230;</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: newcomer</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172052</link>
		<dc:creator>newcomer</dc:creator>
		<pubDate>Thu, 17 Jul 2008 01:39:36 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172052</guid>
		<description>Toi thay dich PAC sang tieng Viet la &quot;Mô hình có lẽ xấp xỉ đúng&quot; co ve nhu nong dan qua. Toi cung cung khong biet se dich nhu the nao nhung ma cho the thay tu &quot;co le&quot; thanh xac suat thi hay hon.</description>
		<content:encoded><![CDATA[<p>Toi thay dich PAC sang tieng Viet la &#8220;Mô hình có lẽ xấp xỉ đúng&#8221; co ve nhu nong dan qua. Toi cung cung khong biet se dich nhu the nao nhung ma cho the thay tu &#8220;co le&#8221; thanh xac suat thi hay hon.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Bach Hung Nguyen</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172028</link>
		<dc:creator>Bach Hung Nguyen</dc:creator>
		<pubDate>Wed, 16 Jul 2008 12:28:14 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172028</guid>
		<description>Cảm ơn bác Hưng và bác Long đã viết &amp; bình rất thú vị. Mục &quot;Tối ưu hóa cái gì&quot;, cái này theo em nghĩ thì là minimum error rate training với một hàm lỗi (error/loss function) hoặc là maximum likelihood of training data, do đó dù PAC-learning hay bất cứ loại learning algorithms/models gì cũng có thể dùng chung được thuật toán tối ưu.

Bác Long bình &quot;Tuy nhiên models phức tạp quá thì ta cũng không học vì 2 lý do: overfit (cái này là statistical constraint), hoặc không đủ computational và mathematical tools dde^? học nó.&quot;. Đúng là models càng phức tạp thì càng dễ overfit, nhưng đó là data sparseness và cái này là gốc của statistical learning. Khi thiết kế models ngoài những khoản constraints như bác Long viết thì ta phải quan tâm đến training data. Bác Hồ đã nói là &quot;Tuổi nhỏ làm việc nhỏ, tùy theo sức của mình&quot;, áp dụng vào ML nghĩa là nếu mức độ sophisticated của models phụ thuộc vào training data.

Machine translation có thể được nhìn dưới góc độ 1 bài toán classification. Khi ta muốn dịch 1 câu tiếng Việt sang tiếng Anh, cũng có thể hiều là ta muốn label câu tiếng Việt bởi 1 nhãn là câu tiếng Anh với tập nhãn là vô hạn. Tồn tại một features space bên tiếng Việt gọi là VS và 1 mapping function Phi(V) chuyển câu tiếng Việt V vào VS; tương tự với tiếng Anh là ES và Omega(E). Dịch Việt-Anh tương đương với hàm    Omega(E) = W * Phi(V). Công viêc của training là học ma trận W (mùi SVM nồng nặc :-)) ).

Với ví dụ trên, một câu hỏi là liệu các bài toán có thể ép về 1 dạng nào đó của bài toán classification được ko?</description>
		<content:encoded><![CDATA[<p>Cảm ơn bác Hưng và bác Long đã viết &amp; bình rất thú vị. Mục &#8220;Tối ưu hóa cái gì&#8221;, cái này theo em nghĩ thì là minimum error rate training với một hàm lỗi (error/loss function) hoặc là maximum likelihood of training data, do đó dù PAC-learning hay bất cứ loại learning algorithms/models gì cũng có thể dùng chung được thuật toán tối ưu.</p>
<p>Bác Long bình &#8220;Tuy nhiên models phức tạp quá thì ta cũng không học vì 2 lý do: overfit (cái này là statistical constraint), hoặc không đủ computational và mathematical tools dde^? học nó.&#8221;. Đúng là models càng phức tạp thì càng dễ overfit, nhưng đó là data sparseness và cái này là gốc của statistical learning. Khi thiết kế models ngoài những khoản constraints như bác Long viết thì ta phải quan tâm đến training data. Bác Hồ đã nói là &#8220;Tuổi nhỏ làm việc nhỏ, tùy theo sức của mình&#8221;, áp dụng vào ML nghĩa là nếu mức độ sophisticated của models phụ thuộc vào training data.</p>
<p>Machine translation có thể được nhìn dưới góc độ 1 bài toán classification. Khi ta muốn dịch 1 câu tiếng Việt sang tiếng Anh, cũng có thể hiều là ta muốn label câu tiếng Việt bởi 1 nhãn là câu tiếng Anh với tập nhãn là vô hạn. Tồn tại một features space bên tiếng Việt gọi là VS và 1 mapping function Phi(V) chuyển câu tiếng Việt V vào VS; tương tự với tiếng Anh là ES và Omega(E). Dịch Việt-Anh tương đương với hàm    Omega(E) = W * Phi(V). Công viêc của training là học ma trận W (mùi SVM nồng nặc <img src='http://www.procul.org/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> ) ).</p>
<p>Với ví dụ trên, một câu hỏi là liệu các bài toán có thể ép về 1 dạng nào đó của bài toán classification được ko?</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Ngô Quang Hưng</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172003</link>
		<dc:creator>Ngô Quang Hưng</dc:creator>
		<pubDate>Wed, 16 Jul 2008 02:06:39 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172003</guid>
		<description>Hi bác Long, thanks for the informative comment, as always!

Tôi không có ý nói là Vapnik không nghiên cứu về learnability, mà chỉ nói là quyển nature of statistical learning theory của ông không có chương nào về tractability. Tôi sẽ viết về VC-dimension và ứng dụng trong một/hai bài tới.

Tôi cũng hoàn toàn đồng ý với bác là PAC như  tôi  đã trình bày đến nay rất hạn chế, nó chỉ mô tả mỗi bài classification trong supervised learning. Theo tôi hiểu thì gần đây COLT cũng có vài phát kiến mới, sẽ đọc và viết thêm.</description>
		<content:encoded><![CDATA[<p>Hi bác Long, thanks for the informative comment, as always!</p>
<p>Tôi không có ý nói là Vapnik không nghiên cứu về learnability, mà chỉ nói là quyển nature of statistical learning theory của ông không có chương nào về tractability. Tôi sẽ viết về VC-dimension và ứng dụng trong một/hai bài tới.</p>
<p>Tôi cũng hoàn toàn đồng ý với bác là PAC như  tôi  đã trình bày đến nay rất hạn chế, nó chỉ mô tả mỗi bài classification trong supervised learning. Theo tôi hiểu thì gần đây COLT cũng có vài phát kiến mới, sẽ đọc và viết thêm.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Nguyễn Xuân Long</title>
		<link>http://www.procul.org/blog/2008/07/14/h%e1%bb%8dc-may-t%e1%bb%ab-goc-nhin-c%e1%bb%a7a-ly-thuy%e1%ba%bft-tinh-toan-3/comment-page-1/#comment-172000</link>
		<dc:creator>Nguyễn Xuân Long</dc:creator>
		<pubDate>Wed, 16 Jul 2008 00:50:59 +0000</pubDate>
		<guid isPermaLink="false">http://www.procul.org/blog/?p=888#comment-172000</guid>
		<description>Cảm ơn bác Hưng, bài viết rất súc tích và nhiều thông tin và thú vị, đặc biệt là về v/d học các Boolean classes.

Tôi có một số nhận xét nhanh (và critical, bác biết rồi đó :-)  về PAC:

-- Đóng góp về mô hình PAC có ý nghĩa lịch sử với cộng đồng nghiên cứu ML nói riêng và AI nói chung, bởi nghĩa nó giúp cho cộng đồng này chuyển sang sử dụng ngôn ngữ xác suất thống kê thay vì dùng logic để thực hiện inductive inference.

-- Sự tập trung vào boolean function classes là hoàn toàn mới và rất KHMT. Tuy vậy những function classes này không có đủ nhiều structures và do đó tôi có cảm tưởng kho&#039; có tiến xa gì về mặt lý thuyết. Ngoài ra hầu như không có ứng dụng thực tiễn nào cho việc sử dụng function classes này cho to+&#039;i nay.

-- Các khía cạnh khác của lý thuyết PAC không mới và hầu như đã được nghiên cứu *rộng* và *sâu* hơn trong lý thuyết thống kê. Xin đưa ví dụ:

   ++ PAC chủ yếu tập trung vào bài toán classification (cho dữ liệu và nhãn). Tuy nhiên đó chỉ là một vấn đề hẹp trong cả một bức tranh rộng lớn các loại mô hình và statistical inference.  
   ++ PAC tập trung vào worst-case analysis của một số concept classes (như Boolean classes). Theoretical statistics từ những năm 60,70 đã thiết lập lý thuyết độ sộ về worst-case analysis qua minimax theory, cho phép ta biết hiệu quả học tốt nhất có thể được cho từng concept class. Tuy họ không nghien cứu cụ thể Boolean classes, nhưng ứng dụng các kết quả này cho các classes có nhiều analytic structures hơn (ví dụ smooth function classes như spline chẳng hạn, hoặc các dạng class biểu diễn qua mixture models), và có ứng dụng thực tiễn. Các kết quả lower-bound này rất combinatorial. Một số tác giả lớn như Le Cam, Hajek, Pinsker, Birgé, Vapnik,... từ thập niên 60/70.
   ++ Tôi ngạc nhiên là bác Hưng nói Vapnik không nghiên cứu các vấn đề PAC-learnable như đinh nghĩa ở trên. Lý thuyết VC đi xa và sophisticated hơn nhiều những gì PAC-theory đạt được. 
   ++ PAC cảm thấy khó khăn khi rời khỏi i.i.d. assumption. Lý do tại sao tôi sẽ viết duới đây ;-)
   ++ PAC là một lý thuyết frequentist, tuy nhiên một bức tranh thống nhất cho learning (inference) phải là một sự kết hợp giữa Bayesian framework và frequentist techniques.

Nói ngắn gọn, xét trong sự phát triển chung với cả ngành thống kê thì PAC không mới, phần nhiều tụt hậu so với những phát triển của thống kê lý thuyết đã phát triển ở các thập niên trước đó.

Hạn chế lớn nhất của PAC formulation và learning theory formulation (nhất là thời gian đầu) là lấy learning algorithm (kèm với input/output) là trọng tâm. Kỳ thực là rất quan trọng, nhưng learning algorithm chỉ là mặt nổi của một mặt ẩn quan trọng hơn nhiều, đó là models.

Models dùng ngôn ngữ toán học (đặc biệt là xác suất) để mô phỏng các hiện tượng diễn tả data mà ta có. Data quyết định models, models quyết định thuật toán, chứ không phải ngược lại.   

Do đó khi ta design của thuật toán phải tính đến tính chất của models. Khi đó sẽ có hai tương tác/tradeoff quyết định cho design. Tương tác giữa computational và statistical constraints. Thuật toán phải đủ nhanh. Đây là một resource constraint của user, phần nhiều là computational. Nhưng models phải đủ phức tạp để diễn tả data. Cái này là statistical constraint. Tuy nhiên models phức tạp quá thì ta cũng không học vì 2 lý do: overfit (cái này là statistical constraint), hoặc không đủ computational và mathematical tools dde^? học nó.

Như vậy nếu không đặt cả model lên bàn ngay từ đâu thì ta không thể nói gì đuợc nhiều. Mô hình PAC hạn chế chính vì không đặt vai trò của model lên làm trọng tâm.  Điều này khác với statistics, cũng như các khoa học khác.  (Như bài báo của bác Hưng đã dẫn, model ví dụ chủ yếu của PAC là các Boolean classes, ra^&#039;t i&#039;t structure và ít có ứng dụng với data trong thực tế).

Nếu lấy models làm trọng tâm, thêm các assumptions về chúng, thì thuật toán sẽ đến theo.  Các vấn đề về thuật toán và computational complexity vẫn còn nguyên đó, nhưng sẽ fruitful hơn.

Ta cũng có thể phê bình ngược lại với thống kê lý thuyết là họ quá chú trọng về model, nhưng lại hoàn toàn thờ ơ về các vấn đề computational. Phê bình này hoàn toàn đúng, nhưng từ thập niên 90 lại đây thì các nhà thống kê cũng program và optimize rất kinh.

Theo tôi đóng góp lâu dài của ML không phải là về lý thuyết (như PAC), mà chính là các mô hình/thuật toán độc đáo và hiệu quả. Tôi cũng bắt đầu đến với ML theory qua cái nhìn của PAC, và lúc đầu cũng rất ấn tượng với nó. Nhưng nếu học lại ML, tôi sẽ không bắt đầu bằng PAC, mà sẽ bắt đầu cùng với một vài quyển sách nhập môn statistics như quyển của Peter Bickel &amp; Girshik, và quyển về Bayesian statistics của Jim Berger. Nếu muốn đi sâu vào lý thuyết learning, một quyển nhập môn Asymptotic Statistics của Van der Vaart chẳng hạn rất bổ ích. Và tìm hiểu càng nhiều dạng mô hình thống kê càng tốt.</description>
		<content:encoded><![CDATA[<p>Cảm ơn bác Hưng, bài viết rất súc tích và nhiều thông tin và thú vị, đặc biệt là về v/d học các Boolean classes.</p>
<p>Tôi có một số nhận xét nhanh (và critical, bác biết rồi đó <img src='http://www.procul.org/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' />   về PAC:</p>
<p>&#8211; Đóng góp về mô hình PAC có ý nghĩa lịch sử với cộng đồng nghiên cứu ML nói riêng và AI nói chung, bởi nghĩa nó giúp cho cộng đồng này chuyển sang sử dụng ngôn ngữ xác suất thống kê thay vì dùng logic để thực hiện inductive inference.</p>
<p>&#8211; Sự tập trung vào boolean function classes là hoàn toàn mới và rất KHMT. Tuy vậy những function classes này không có đủ nhiều structures và do đó tôi có cảm tưởng kho&#8217; có tiến xa gì về mặt lý thuyết. Ngoài ra hầu như không có ứng dụng thực tiễn nào cho việc sử dụng function classes này cho to+&#8217;i nay.</p>
<p>&#8211; Các khía cạnh khác của lý thuyết PAC không mới và hầu như đã được nghiên cứu *rộng* và *sâu* hơn trong lý thuyết thống kê. Xin đưa ví dụ:</p>
<p>   ++ PAC chủ yếu tập trung vào bài toán classification (cho dữ liệu và nhãn). Tuy nhiên đó chỉ là một vấn đề hẹp trong cả một bức tranh rộng lớn các loại mô hình và statistical inference.<br />
   ++ PAC tập trung vào worst-case analysis của một số concept classes (như Boolean classes). Theoretical statistics từ những năm 60,70 đã thiết lập lý thuyết độ sộ về worst-case analysis qua minimax theory, cho phép ta biết hiệu quả học tốt nhất có thể được cho từng concept class. Tuy họ không nghien cứu cụ thể Boolean classes, nhưng ứng dụng các kết quả này cho các classes có nhiều analytic structures hơn (ví dụ smooth function classes như spline chẳng hạn, hoặc các dạng class biểu diễn qua mixture models), và có ứng dụng thực tiễn. Các kết quả lower-bound này rất combinatorial. Một số tác giả lớn như Le Cam, Hajek, Pinsker, Birgé, Vapnik,&#8230; từ thập niên 60/70.<br />
   ++ Tôi ngạc nhiên là bác Hưng nói Vapnik không nghiên cứu các vấn đề PAC-learnable như đinh nghĩa ở trên. Lý thuyết VC đi xa và sophisticated hơn nhiều những gì PAC-theory đạt được.<br />
   ++ PAC cảm thấy khó khăn khi rời khỏi i.i.d. assumption. Lý do tại sao tôi sẽ viết duới đây <img src='http://www.procul.org/blog/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /><br />
   ++ PAC là một lý thuyết frequentist, tuy nhiên một bức tranh thống nhất cho learning (inference) phải là một sự kết hợp giữa Bayesian framework và frequentist techniques.</p>
<p>Nói ngắn gọn, xét trong sự phát triển chung với cả ngành thống kê thì PAC không mới, phần nhiều tụt hậu so với những phát triển của thống kê lý thuyết đã phát triển ở các thập niên trước đó.</p>
<p>Hạn chế lớn nhất của PAC formulation và learning theory formulation (nhất là thời gian đầu) là lấy learning algorithm (kèm với input/output) là trọng tâm. Kỳ thực là rất quan trọng, nhưng learning algorithm chỉ là mặt nổi của một mặt ẩn quan trọng hơn nhiều, đó là models.</p>
<p>Models dùng ngôn ngữ toán học (đặc biệt là xác suất) để mô phỏng các hiện tượng diễn tả data mà ta có. Data quyết định models, models quyết định thuật toán, chứ không phải ngược lại.   </p>
<p>Do đó khi ta design của thuật toán phải tính đến tính chất của models. Khi đó sẽ có hai tương tác/tradeoff quyết định cho design. Tương tác giữa computational và statistical constraints. Thuật toán phải đủ nhanh. Đây là một resource constraint của user, phần nhiều là computational. Nhưng models phải đủ phức tạp để diễn tả data. Cái này là statistical constraint. Tuy nhiên models phức tạp quá thì ta cũng không học vì 2 lý do: overfit (cái này là statistical constraint), hoặc không đủ computational và mathematical tools dde^? học nó.</p>
<p>Như vậy nếu không đặt cả model lên bàn ngay từ đâu thì ta không thể nói gì đuợc nhiều. Mô hình PAC hạn chế chính vì không đặt vai trò của model lên làm trọng tâm.  Điều này khác với statistics, cũng như các khoa học khác.  (Như bài báo của bác Hưng đã dẫn, model ví dụ chủ yếu của PAC là các Boolean classes, ra^&#8217;t i&#8217;t structure và ít có ứng dụng với data trong thực tế).</p>
<p>Nếu lấy models làm trọng tâm, thêm các assumptions về chúng, thì thuật toán sẽ đến theo.  Các vấn đề về thuật toán và computational complexity vẫn còn nguyên đó, nhưng sẽ fruitful hơn.</p>
<p>Ta cũng có thể phê bình ngược lại với thống kê lý thuyết là họ quá chú trọng về model, nhưng lại hoàn toàn thờ ơ về các vấn đề computational. Phê bình này hoàn toàn đúng, nhưng từ thập niên 90 lại đây thì các nhà thống kê cũng program và optimize rất kinh.</p>
<p>Theo tôi đóng góp lâu dài của ML không phải là về lý thuyết (như PAC), mà chính là các mô hình/thuật toán độc đáo và hiệu quả. Tôi cũng bắt đầu đến với ML theory qua cái nhìn của PAC, và lúc đầu cũng rất ấn tượng với nó. Nhưng nếu học lại ML, tôi sẽ không bắt đầu bằng PAC, mà sẽ bắt đầu cùng với một vài quyển sách nhập môn statistics như quyển của Peter Bickel &#038; Girshik, và quyển về Bayesian statistics của Jim Berger. Nếu muốn đi sâu vào lý thuyết learning, một quyển nhập môn Asymptotic Statistics của Van der Vaart chẳng hạn rất bổ ích. Và tìm hiểu càng nhiều dạng mô hình thống kê càng tốt.</p>
]]></content:encoded>
	</item>
</channel>
</rss>

