Đoán câu hỏi

Thường khi nói “đoán” thì ta nghĩ đến việc đoán câu trả lời cho một câu hỏi nào đó. Tuy nhiên, khi dùng các search engines như Google, đôi khi ta phải đoán cả … câu hỏi, dù rằng ta thật sự đang tìm câu trả lời cho một câu hỏi trong đầu.

Ví dụ 1: bạn đang phải làm một bài tập rất khó về giải thuật và muốn tìm câu trả lời trên web. Thường thì các bài tập về thuật toán có thể được mô tả bằng rất nhiều cách khác nhau. Đề thi ACM ICPC 2006 có bài B nói về dịch vụ ăn uống gì đó nhưng thật sự chỉ là một bài minimum matching on bipartite graphs. Nếu các thí sinh biết được từ khóa “minimum matching on bipartite graphs” thì coi như xong, vì lời giải có thể tìm dễ dàng trên web.

Ví dụ 2: bạn muốn tìm các tài liệu kinh tế về vấn đề “mang hàng đi bán”, nhưng bạn không biết đích xác thuật ngữ kinh tế cho “mang hàng đi bán” là gì; nếu gõ “mang hàng đi bán” trên google thì nhiều khả năng là bạn không tìm được distribution of comsumer goods.

Các search engines đều cố gắng tìm cách đoán xem bạn đang hỏi cái gì, nhưng có lẽ cũng còn lâu mới có lời giải thỏa đáng. Về cơ bản, đó là nội dung của ngành xử lý ngôn ngữ tự nhiên. Hiện nay, các search engines phổ biến đều chưa đủ “interactive” – nghĩa là đáng lẽ nó phải hỏi lại mình “bạn muốn hỏi cái này phải không? hay bạn muốn hỏi cái kia?” để mình làm rõ hơn câu hỏi – thì nó đưa cho mình một danh sách vài trăm ngàn câu trả lời để mình tự tìm lấy.

Tóm lại, bạn và tôi vẫn còn phải đoán câu hỏi dài dài trước khi tìm được câu trả lời cho điều mình muốn hỏi.

Chủ đề : Trí tuệ nhân tạo. Bookmark the permalink. Trackbacks are closed, but you can post a comment.

6 Comments

  1. tvhvt
    Posted 03/11/2006 at 12:23 pm | Permalink

    Anh Hung dang noi den “doan ca^u ho?i” voi ngon ngu tu nhien. Search engine hien nay chua ngon ddoa.n ddoa’n ca^u ho?i nhung ddoan “chua loi chinh ta” (spelling checking) cua Google co ve khong den noi qua te a? O tang tha^’p cua tro doa’n nay can den ca bai toan “ranking” (xep thu tu uu tien cac ca^u ho?i/goi y spelling ma search-engine doan la user muo^’n ho?i).

    Trong Statistical Machine Learning (thus Statistical Inference, Datamining) co 1 bai toan cung thuoc dang “doan cau hoi”, goi la Active Learning. Passive Learner xay dung 1 mo hinh (ha`m) dua tren du lieu ma^~u co san. Active Learner = Seclective Sampler + Passive Learner. Selective Sampler tham gia vao qua trinh xay dung du lieu hoc. No se chon nhung vi du (chua gan nhan) ma no cho la co ich cho Passive Learner (hi vong la se tim duoc ha`m can hoc nhanh hon, nghia la se to^’n it du lieu phai gan nhan hon). Co 1 kieu Active Learner khac “tu dong sinh ra cau hoi” tren du lieu chua gan nhan de tu+. no’ doa’n nhan cho du lieu, goi la (Selective) Querying nhung kieu nay it pho bien hon vi du+~ lie^.u sinh ra kieu nay co the khong co nghia de ma ga’n nhan that.

    Con co the phan chia Selective Sampling theo dang pool-based (tap du lieu chua co nhan co dinh tu dau) vs stream-based (online) selective sampling nua. Truong hop selective sampling doi voi bai toan co^? ddie^?n phan lop nhi. pha^n lien quan den (standard) cryptanalysis (pha’ ma~) voi du lieu bit. Khong biet quantum crypto thi tuong ung voi kieu du lieu va bai toan gi trong Selective Sampling …

    1 nhom o Hebrew Univ. thi quan tam den Query by Committee va moc bai toan stream selective sampling voi bai toan uoc luong the tich cac convex body (1 moi quan tam cua bac Lovasz o Microsoft). Bai gan day nhat cua nhom Hebrew nay la “Query by Committee Made Real” o NIPS’05 (http://books.nips.cc/papers/files/nips18/NIPS2005_0064.pdf). That ra truoc do ho co 1 phien ban Technical Report va 1 bai o tap chi Theoretical Computer Science (2002) cho truong hop chua xet den kernel.

    Pool-based selective sampling rat ga^`n voi Optimal Experimental Design. O NIPS’05, 1 chu’ sinh vien cua M. Jordan (su phu cua anh NXLong) duoc Outstanding Paper voi OED tren du lieu sinh hoc. OED chi thuc hien 1 lan lay mau, con pool-based selective sampling co the la(.p lai 1 so la^`n.

    Active Learning cung co lien quan chut it den bai xac dinh tap rang buoc “active constraint set” trong bai toan ho.c voi structured output space.

  2. Posted 03/11/2006 at 9:58 pm | Permalink

    Em không làm nghiên cứu về hướng này nên không rành lắm. Có một câu hỏi nhờ anh Hưng giải đáp giúp. Đó là tại sao 1 good search engine, ví dụ như Google, có thể làm việc tốt trên English, nhưng lại không tốt trên Vietnamese, mặc dù là họ support unicode nên cũng có thể tìm được từ khóa tiếng Việt. Theo phỏng đoán của em thì có lẽ thuật toán tìm kiếm của họ áp dụng phần natural language processing, grammar,… cho English, mà English và Vietnamese thì khác nhau rất nhiều chăng?

  3. tvhvt
    Posted 04/11/2006 at 6:17 am | Permalink

    Theo tai lieu duoc cong bo (khong biet do tin cay http://www.google.com/technology/), hoat dong cua Google search engine gom 2 phan: tim kiem tho^ (ko nha(‘c den trong “technology” tren) va tim kiem na^ng cao. Tim kiem tho^ (1) la tim kieu boolean (Google ko the`m tim theo tho^’ng ke^ cac tu+` chu chua noi den chuyen NLP). Tim kiem tinh (2) dung giai thuat PageRank, khai thac hyperlinks (in/out) tu nhung trang do tim kiem tho^ (1) loc ra.

    Dua tren hoat dong nay, to^i ddoa’n co’ 2 nguye^n nha^n lam Google tren tieng Viet chua to^’t:
    - chat luong cua (1): tu+` trong tieng Viet thuong la tu+` ghe’p, tham chi thuong la dda nghi~a (context-dependent) vi the tro boolean search hay context-free khong ho+.p.
    - chat luong cua (2): so^’/cha^’t luong tai lieu tieng Viet con han che (chua noi chuyen VN dat tuong lua firewall voi cac trang “ha?i ngoa.i”), vi the khai thac in/out-linked pages cung bi han che.

  4. Posted 04/11/2006 at 10:25 am | Permalink

    Chào bác tvhvh, không biết bác có chắc chắn về (1) là chỉ dùng boolean ko? Vì hôm nọ có 1 bác ở Google qua trường em nói chuyện thì thấy họ làm phần 1 khá kỹ, đặc biệt là phần information retrieval chứ ko chỉ là boolean như thế. Dĩ nhiên là họ phải giấu nghề rồi, nhưng em ko nghĩ là họ nói 1 đằng làm 1 nẻo.

  5. tvhvt
    Posted 04/11/2006 at 10:46 am | Permalink

    Cam on bac twoask, ttin cua bac chac chan phai chinh xac hon cua toi :p Phan 1 toi noi theo tai lieu Google noi tu hoi ho mo ta PageRank(?)

    bac co link nao den talk do khong? Toi rat to mo muon biet ho cham soc phan IR ki den muc nao. Theo toi biet thi standard retrieval techniques da dat den ngu+o+~ng (tu lau) roi va hien gio Yahoo, MSN (toi khong biet ve Google) deu tap trung vao phan NLP, “advanced/efficient PageRanking” va Machine Learning. Cai nay thi to^i da’m cha(‘c ho+n dua tren cac bai bao sap trinh bay o CIKM’06, da trinh bay o SIGIR’06, WWW’06, COLT’06, ICML’05.

    Nhan tien noi 1 chuyen ngoa`i le^`. Ko biet co bac nao de y la khoang 1 nam nay Google Interface da cho bay ma^’t ca^u dai khai la “xyz pages are indexed” khong. No lien quan den vu tranh luan (kha gay can) nam truoc ve “number of indexed pages” cua Google/Yahoo/MSN. 1 bai Best Paper WWW’06 dung “random resampling” de uoc luong con so nay.

  6. Posted 05/11/2006 at 6:14 pm | Permalink

    Bác tvhvt, rất tiếc là hôm đó em có xin cái talk của 1 thành viên nhóm của Google Search, nhưng anh ta không cho :D :D Em không rõ là tại sao phần 1 họ dùng rất nhiều các tính toán khá phức tạp để đưa ra kết quả, còn phần 2 thì đúng là dùng page rank. Không biết con số page mà goolgle đã index là bao nhiêu nhỉ?

Post a Comment

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>