Thị trường công việc cho faculty ở các trường ĐH ở Mỹ năm nay đã khép lại. Tôi đã may mắn tìm được một vị trí mà mình yêu thích, và đang hứng khởi chuẩn bị dọn đến thành phố Ann Arbor, Michigan. Cũng giống như việc chuẩn bị apply vào grad schools để theo đuổi PhD, quá trình nộp hồ sơ, phỏng vấn và thăm viếng các trường ĐH là một rite of passage cho những ai đi theo con đuờng academia, và tất nhiên cũng để lại cho tôi nhiều ấn tượng đáng nhớ. Xin ghi chép lại đôi chuyện và một vài suy nghĩ về triển vọng và cơ hội của ngành thống kê và KHMT (đặc biệt là machine learning) trong thời gian tới.
Mặc dù nộp đơn vào cả hai khoa Thống kê (TK) và KHMT, tôi thích ở bên khoa Thống kê vì thấy văn hóa ngành này phù hợp vói tính cách của mình. Về mặt nghiên cứu, nhất là lĩnh vực machine learning/ data mining thì ở bên KHMT hay bên TK sẽ không có khác biệt gì nhiều với những lĩnh vực tôi quan tâm; tôi đang và sẽ tiếp tục hợp tác với các đồng nghiệp ở cả hai. Vì không làm PhD bên khoa TK nên lúc đầu tôi có nhiều e ngại về khả năng xin việc của mình ở các khoa đó. Thế giới academia về nhiều khía cạnh khá là bảo thủ và rất coi trọng truyền thống. Rất ít khi họ nhận người có PhD từ một khoa khác và ngành TK cũng không phải là ngoại lệ. (Đôi khi một PhD một ngành khác vẫn có thể có những vị trí joint appointment cho hai khoa (ví dụ 50% TK và 50% KHMT), tuy vậy những vị trí như vậy cũng rất hiếm hoi và cũng không mấy được ưa chuộng cho những người ở vị trí Assistant Professor vì lý do xét duyệt tenure phiền phức sau này. Phần lớn các joint appointment mà chúng ta thấy là dành cho senior faculty và là ở dạng courtesy mà thôi, không phải là thành viên thường trực (regular) trong khoa). Rất may tôi không cảm thấy có sự phân biệt nào đáng kể đối với trường hợp của mình (nói cách khác, nếu có sự phân biệt thì đó chính là lợi thế về background KHMT/machine learning của mình). Ngoài cá nhân tôi, năm nay có một người nữa có background về machine learning cũng được nhận vào giảng dạy ở khoa TK Đại học Pennsylvania. Điều này nói lên sự cởi mở của ngành TK tại thời điểm hiện nay, một giai đoạn chuyển dịch thú vị có thể ảnh hưởng lớn đến bộ mặt của các khoa TK và KHMT trong tương lai. Đây là một câu chuyện chính tôi muốn nói trong bài viết này.
Trong quá trình đi phỏng vấn, trò chuyện với nhiều người, tôi nhận thấy hai ngành KHMT và Thống kê có rất nhiều điểm tương đồng. Cả hai đều là ngành trẻ, dẫu có gốc rễ từ lâu nhưng thực sự cả hai chỉ bắt đầu cất cánh vào sau thế chiến 2. Ở Mỹ các khoa Thống kê bắt đầu được thành lập từ những năm 1950, 1960, thường tách ra từ khoa Toán. Các khoa KHMT cũng bắt đầu được thành lập từ những năm 1960’s, 1970’s, cũng tách từ khoa Toán hoặc Engineering. Sự ra đời của các khoa KHMT và TK có thể nói là một phần lớn do nhu cầu giải quyết các vấn đề thực tiễn phát sinh trong chiến tranh, công nghiệp, nông nghiệp và một số lĩnh vực trọng yếu khác. Khác với các ngành KH hay công nghệ khác thường có đối tượng nghiên cứu rất cụ thể (ví dụ, nuôi con nào trồng cây gì), đối tượng nghiên cứu của TK và KHMT mang tính khái quát khá cao (xoay quanh những vấn đề về inference và computation). Vì vậy TK và KHMT cũng có những vấn đề nghiên cứu nội tại khá sâu sắc và lý thú, mang đậm tính lý thuyết và triết lý. Với nhiều người đó có thể là lý do chính (hoặc ban đầu) thu hút họ đến với hai ngành này và bản thân tôi cũng đã bắt đầu như vậy. Nhưng như nói ở trên thì TK và KHMT phần lớn và về bản chất không phải là một ngành lý thuyết thuần túy. Chính tính ứng dụng cao của KHMT và TK, bằng cách tạo ra những công cụ cụ thể để có thể áp dụng trong các khoa học thực tiễn khác, là cái gốc rễ cung cấp động lực để hai ngành này tồn tại và phát triển. Vấn đề gì cần xử lý và phân tích dữ liệu thì cần phương pháp XSTK. Cần cấu trúc dữ liệu và giải thuật phức tạp thì cần công cụ KHMT. Thời đại ngày nay rất dễ thấy rất nhiều vấn đề trong mọi lĩnh vực đều cần cả hai thứ đó.
Công nghệ hiện đại đang cho phép chúng ta quan sát các hiện tượng tự nhiên, xã hội hay tính chất của các máy móc nhân tạo một cách rất tỷ mỷ bằng khả năng thu thập dữ liệu với số lượng rất lớn. Làm sao để “make sense” được núi dữ liệu khổng lồ này là một thử thách cần sự cộng tác của chuyên gia thống kê cũng như chuyên gia KHMT. Chính sự thay đổi vượt bậc về số luợng dữ liệu này đòi hỏi nhiều thay đổi căn bản trong phương pháp xử lý phân tích dữ liệu và các phưong pháp dự báo thống kê. Sự giao thoa giữa inferential efficiency và computational efficiency đang trở nên một vấn đề trung tâm của TK, và tôi tin rằng đây cũng là một vấn đề trung tâm (không chỉ trong machine learning mà cả) KHMT trong tương lai. Tôi đã từng viết ở Blog KHMT về quá trình giải quyết các vấn đề liên quan đến dữ liệu là sự tương tác: Data –> Models –>Algorithms. Theo truyền thống, anh làm TK sẽ tìm hiểu Data (nói chuyện với các chuyên gia về data đó), và xây dựng mô hình và phương pháp cách thức học/inference mô hình thích hợp. Có mô hình rồi, những vấn đề về data structure, thuật toán và implementation cụ thể đuợc đẩy cho anh làm KHMT. Khi data phức tạp, mô hình phức tạp, thuật toán cũng phức tạp theo, thì sự module hóa như vậy không khả thi /hiệu quả nữạ, cần phải có sự tradeoff giữa việc design mô hình và design thuật toán. Vì vậy cần phải có background về cả KHMT và XSTK mới có thể giải quyết vấn đề một cách hiệu quả. Rất có thể, trong tương lai, những khoa kiểu như khoa Machine Learning ở Carnegie Mellon University (CMU) sẽ được thành lập ở nhiều nơi, kết hợp va hấp thụ nhiều thứ đang được dạy/học riêng rẽ ở các khoa TK và KHMT. Khi ấy, bộ mặt khoa TK va KHMT cũng sẽ thay đổi và khác xa những gì chúng ta đang thấy ngày nay.
Trong khi KHMT đã trở nên khá quen thuộc với các thế hệ sinh viên VN gần đây, sự hiện diện của TK còn rất ít ỏi. Trong quá trình phỏng vấn ở 10 trường (có thể coi là trong top 20 ở Mỹ) tôi được dịp làm quen với vài bạn VN ở khoa TK. Một bạn ở Wisconsin-Madison và một bạn ở Florida. Một có background về analysis/PDE, một có background về probability truớc khi sang Mỹ theo đuổi PhD về statistics. Cả hai đều được các GS ở khoa đánh giá rất cao. Nếu tôi đi phỏng vấn ở các khoa KHMT, chắc sẽ có hân hạnh được gặp các SV VN nhiều hơn. Quả thực hiện nay còn quá ít SV người Việt học TK, so với ngành KHMT cũng như các ngành Engineering khác. Trong khi KHMT nghe cool với SV Việt nam, TK có lẽ không (chưa) có gì là cool lắm. Lực lượng giảng dạy và nghiên cứu TK ở Vietnam hình như rất ít ỏi, có lẽ chỉ đếm trên đầu ngón tay. Không rõ đã có trường nào có khoa thống kê riêng chưa. Tôi chắc là một đội ngũ có chuyên môn bài bản về mô hình, xử lý và phân tích dữ liệu có lẽ rất ít. Tôi có cảm giác sự hiểu biết của giới sinh viên đại học ở VN về ngành TK và những cơ hội của XSTK rất hạn chế do thiếu thông tin.
Xin nói tiếp về triển vọng công việc của ngành TK ở Mỹ. Theo tôi biết từ các chủ nhiệm khoa thì những ai tốt nghiệp PhD về TK đều xin việc rất dễ. Các ngành Engineering thì lúc lên lúc xuống, tùy vào “what’s hot and what’s not”. Công nghệ thay đổi rất nhanh, do đó đoán trước cái gì nóng là rất khó. Nhưng bên XSTK thì bao giờ cũng cần người làm cho các công ty tư vấn cho chính phủ, bảo hiểm, y tế, dược, khảo sát về dân số, và các công ty về tài chính. Vì bao giờ cũng có nhiều dữ liệu và các dạng dữ liệu mới, đòi hỏi công cụ phân tích và dự báo mới. Gần đây các công ty high-tech như Google, Yahoo cũng đều có nhu cầu tìm PhD về TK, vì những công ty này kiểm soát một lượng thông tin khổng lồ của thế giới. Trong khi thị trường faculty job cho EECS có phần đình trệ trong vòng 5-10 năm trở lại đây, thì bên TK thì sau một chu kỳ trì trệ của thập niên 80-90 lại bắt đầu khởi sắc. Điều này theo tôi liên quan đến sự chuyển dịch của ngành TK sang hướng computation nhiều hơn, như đã nói ở trên, và sự về hưu của một lớp các GS kỳ cựu lấy bằng PhD những năm 60-70 (đây là lớp PhD đào tạo bài bản đầu tiên ở các khoa TK ở Mỹ). Năm nay tôi nộp hồ sơ đến 15 khoa TK và 9 khoa KHMT, bởi vì chỉ có từng đó vị trí opening cho vị trí tenure-track. Sự chênh lệch này đáng kể vì thông thường các khoa KHMT lớn hơn TK rất nhiều và theo đó lẽ ra thường phải có nhiều opening hơn. Ở Berkeley năm nay chỉ tuyển thêm 1 người (khoa này cực lớn với hơn 80 faculty và 1500 sinh viên), trong khi đó khoa TK (với khoảng 20-30 faculty) cũng được tuyển thêm1 người. Khoa KHMT ĐH Wisconsin-Madison (bác An Hải) cũng không có opening cho đến phút cuối, cuối cùng năm nay cũng tuyển hai người. Khoa TK (nhỏ hơn khoa KHMT như thường lệ) ở Wisconsin cũng tuyển thêm hai người năm nay.
Hiện nay mức độ cạnh tranh về graduate admissions (PhD programs) cho các khoa TK có thể vẫn còn thấp hơn bên EECS nhiều. Ở Duke năm vừa rồi có khoảng 200 hồ sơ, nhận khoảng 10. Như thường lệ, các bạn Trung Quốc và Ấn Độ luôn luôn là những người nhanh nhạy nhất. Nhưng trong số 200 hồ sơ đó có khoảng > 100 hồ sơ là tù Trung Quốc. Một faculty ở Purdue cũng cho hay có khoảng 300 hồ sơ, thì nghe đâu hơn 200 là từ TQ. Đây là điểm các bạn SV Việt nam nên lưu ý. Các khoa ai cũng thích diversity, và nếu học sinh đến từ VN chẳng hạn chắc chắn sẽ có ưu thế. Nhiều vị GS gốc TQ còn nói với tôi là họ không thích nhận nhiều SV từ TQ như vậy. Như đã nói ở trên nhu cầu công việc bên TK luôn tăng trưởng ổn định nên triển vọng về tenure-track position opening bên TK do đó cũng rất tốt. Theo nhiều người nhìn nhận, trong vòng 10 năm tới prospects về academia bên TK sẽ vẫn tốt cho những người có thế mạnh về computation, algorithms (bên cạnh background tốt về TK hiện đại).
Vì vậy các bạn có background tốt về toán, KHMT, các ngành khoa học tính toán (computational sciences), các ngành công nghê ở bậc đại học, nên tham khảo tìm hiểu thêm ngành XSTK trong khi lựa chọn hướng đi (để làm PhD) của mình. Thú thực hồi học ĐH tôi có học một vài courses về TK, học cộng trừ nhân chia mấy cái mean và variance thấy không thú vị gì cho lắm. Ở mức độ ĐH thường người ta chỉ dạy các dạng recipe cookbooks về XSTK, rất lạc hậu và tẻ nhạt. Thấy giống như học calculus bên Toán hay học lập trình Pascal bên KHMT vậy. Đó không phải là bức tranh thực sự của XSTK. Ngành XSTK hiện đại đang trở thành ngôn ngữ và công cụ cho khoa học và công nghệ hiện đại giống như ngành toán học đối vơi vật lý vậy. Các vấn đề trong nghiên cứu về XSTK rất dồi dào và phù hợp cho các tính cách khác nhau: những ai thích học toán, hoặc thích sáng tạo thuật toán, hoặc thích tạo ra mô hình cho các hiện tượng tự nhiên và xã hội, thích nghịch ngợm với dữ liệu các kiểu, hoặc thích nghiên cứu của mình có ứng dụng trực tiếp đến cuộc sống, đều có thể tìm được cho mình một mảng đề tài phù hợp. Nếu bạn từng được vấn đề trong trí tuệ nhân tạo, machine learning, signal processing, communication theory, hay information theory kích thích trì tò mò và say mê, thì rất có thể ngành Xác suất thống kê là ngành thích hợp cho khả năng và tính cách của mình.
Bài viết này có thể hơi self-center về ngành TK một chút. Xin được nói ngay là có rất nhiều ngành hay khác nhau và những cơ hội khác nhau cho tất cả mọi người. KHMT hay TK chỉ là một vài lựa chọn trong rất nhiều lựa chọn đó. Mong muốn của tôi ở đây chủ yếu là cung cấp thêm một số thông tin có thể sẽ hữu ích để tham khảo, đặc biệt những ai xuất thân từ KHMT, toán, hoặc các ngành kỹ thuật khác, đang loay hoay tìm kiếm một con đuờng đi tiếp cho nghiên cứu lâu dài cho mình. Hy vọng trong tương lai không xa sẽ có thêm đồng nghiệp VN, không chỉ trong KHMT mà cả trong XSTK nữa.
Chuyên mục: Dành cho du học sinh & Xác suất & thống kê | Bình luận (16) »