AI CÓ THỰC SỰ "BIẾT"?

 

Helo ae,

Hồi con gái tôi hai tuổi, có một buổi chiều cả nhà ngồi ngoài sân. Có con cún hàng xóm chạy qua. Con bé chỉ tay, gọi "con ó". Vợ tôi lắc đầu cười, nói lại "con chó". Con bé nhắc theo. 

Mấy ngày sau, con cún chạy qua lần nữa. Con bé chỉ tay, tự nói "con chó" mà không cần ai xác nhận.


Trước cái khoảnh khắc mà con gái tôi tự gọi "chó" mà không cần ai chỉnh, có một bước quan trọng đã xảy ra. 

Trước đó, nó chỉ học cách phát âm. Sau đó, âm "chó" trong đầu nó đã được "kết nối" với một con vật bốn chân biết sủa. 

Nó không còn chỉ nhắc theo từ "chó". Nó thực sự đã thấy, đã liên kết, và đã tự gọi.


Con gái tôi đã đi qua một bước mà toàn bộ ngành AI ngôn ngữ (LLM) hiện nay chưa từng đi qua, và có thể sẽ không bao giờ đi qua được.

Hôm nay tôi sẽ nói về bước đó.


Có một nhà logic học người Đức cuối thế kỷ 19 tên là Frege. Ông phân biệt rõ hai chiều của bất kỳ cái tên nào: 

- Chiều "ý nghĩa": cách nó được dùng, được hiểu, được ráp với các từ khác.

 - Chiều thứ hai là "đối tượng": thứ thực sự tồn tại ngoài kia mà từ ngữ trỏ vào.


Ví dụ kinh điển của ông về 2 chiều này là sao hôm và sao mai. 

Chúng là hai từ có ý nghĩa khác nhau (ngôi sao buổi sáng/ngôi sao buổi tối), nhưng cả hai lại cùng trỏ về một thứ ngoài Trái Đất là hành tinh Venus (sao Kim).


Con gái tôi, sau quá trình học về con chó, đã có cả hai chiều. Nó biết từ "chó" được dùng thế nào. Và nó cũng biết từ đó trỏ về một thứ đang sủa ngoài sân.

AI hiện tại thì khác. Toàn bộ quá trình học của nó là chữ sinh ra chữ. 

Nó học bằng cách đọc hàng tỉ câu có chữ "chó": "chó cắn", "chó sủa", "chó là động vật bốn chân",.... rồi học rằng từ "chó" thường đi với những từ nào, trong những ngữ cảnh nào. 

Dù nó học cực kỳ giỏi. Nhưng nó chưa từng thấy con chó thật.

Nó không có cách nào kiểm tra rằng từ "chó" có trỏ vào thứ gì đang thật sự tồn tại hay không. Vì nó không có mắt để nhìn, không có tay để chạm, không có tai để nghe chó sủa.


Cái mà chúng ta hay gọi là "ảo giác AI" (bịa ra thông tin không tồn tại) không phải là vấn đề kỹ thuật có thể giải được. Bởi đó là hệ quả tất yếu phải sinh ra trong kiến trúc thiết kế hiện tại của nó.

Một kiến trúc chỉ có chiều "ý nghĩa", không có chiều "đối tượng."


Khi cần sinh ra một câu trôi chảy (hay cả một bài viết như bài này), thì nó làm rất mượt. 

Còn cái câu/bài viết đó có trỏ vào thứ gì tồn tại thật ngoài kia hay không thì nó không cách nào biết được. Vì nó không có cách nhìn ra ngoài.


Tôi từng viết một số bài về hiểu/biết và skin in the game. 

Skin in the game là một kiểu kết nối với thực tại, nơi con người hành động, con người chịu hậu quả, con người buộc phải "biết" cái mình đang nói có thật hay không. 

Và AI sẽ luôn thiếu cái biết và skin in the game vì nó không có mặt trong thế giới mà nó nói về.


Ae có thể hình dung thế này. AI giống như ai đó học vẽ bản đồ bằng cách nhìn vào các bản đồ có sẵn khác. 

Nó có thể vẽ ra những bản đồ mới rất đẹp, đường nét rõ ràng, ký hiệu chuẩn. Nhưng nó chưa từng đi qua một con đường thật nào trên mặt đất.

Cái nó tạo ra, vì thế, cũng chỉ là một bản đồ của bản đồ, không phải bản đồ về vùng đất.


Có nhiều người nghĩ rằng AI sẽ càng ngày càng mạnh vì cứ huấn luyện thêm dữ liệu, cho nó nhiều hơn, tốt hơn, sớm muộn gì nó cũng thống trị loài người.

Nhưng không. Điều đó sẽ không thể xảy ra, ít nhất là với kiến trúc hiện tại.


Kuhn là nhà triết học, khoa học người Mỹ, tác giả cuốn "Cấu Trúc Của Cách Mạng Khoa Học" (1962). 

Ông phân biệt rõ hai kiểu khoa học. Một là "khoa học bình thường", khi các nhà khoa học giải bài toán trong khuôn khổ đã có, cải tiến từng phần, làm cho mọi thứ chính xác hơn. 

Hai là "cách mạng khoa học", khi toàn bộ khuôn khổ cũ sụp đổ và một khuôn khổ mới hoàn toàn khác thay thế.


Phần lớn thời gian, khoa học sẽ là loại một. Nhà vật lý ngồi tinh chỉnh phép đo, sửa hệ số, cải thiện độ chính xác. Trong những giai đoạn đó, "thông minh" có nghĩa là "làm việc giỏi trong cái khuôn khổ đã có."


Nhưng "cách mạng khoa học" thì không đến từ đó. Nó đến từ việc một người nhìn vào "những ngoại lệ dị thường", khi kết quả không khớp, hay hiện tượng không giải thích được. 

Và khi đó, thay vì cố ép nó vào khuôn cũ, người đó sẽ nói: "có khi cái cũ đã sai." 

Einstein làm thế với vật lý Newton. Darwin làm thế với sinh học cố định. Mỗi cuộc cách mạng nhận thức bắt đầu từ một người dám đứng ngoài đám đông trí thức cùng thời.


Bây giờ, hãy nghĩ về cách LLM được huấn luyện. Mỗi vòng nó học từ phản hồi con người (RLHF) là một vòng đẩy LLM về phía trung bình của ý kiến của loài người. 

Câu trả lời nào nhiều người gật đầu sẽ được củng cố. Câu nào nhiều người lắc đầu sẽ bị giảm trọng số. Qua đủ nhiều vòng, LLM sẽ hội tụ về cái mà phần lớn loài người tại thời điểm này, cho là "đúng".


Đây là cấu trúc đối lập hoàn toàn với cấu trúc sinh ra "cách mạng khoa học". 

Cách mạng cần kẻ đứng ngoài rìa, cần một góc nhìn khác biệt mà số đông lắc đầu. Quy trình học từ phản hồi (RLHF) sẽ triệt tiêu chính cái đó. 

Cuối cùng nó sẽ trở thành cái máy tổng hợp ý kiến trung bình, cực mạnh ở việc làm những gì đã có người làm rồi, và cực yếu ở việc "phát hiện cái chưa ai thấy."


Mà "cực mạnh ở bình thường" không hẳn là một lời khen. 

LLM có thể viết code tốt hơn 95% lập trình viên. Tóm tắt báo cáo nhanh hơn 99% người dùng. Trả lời câu hỏi y khoa chuẩn hơn 90% bệnh nhân xài google.

Nhưng (và đây là cái "nhưng" lớn) là phần lớn người dùng không phân biệt được đó là trí tuệ thật hay ảo giác. 

Họ thấy LLM trả lời trôi chảy, có lý, đúng phần lớn các trường hợp, nên kết luận "nó thông minh".


Nhưng nó không thông minh. Nó là cái máy sinh từ ngữ từ xác suất cực mạnh. Hai cái đó hoàn toàn khác nhau.


Người thông minh thật nhìn vào một khuôn khổ và thấy được lỗ hổng. LLM thì do cấu trúc training, được đẩy về trung bình của dữ liệu hiện tại, nên không thể phát hiện lỗ hổng, đó chính là điểm yếu của nó.


Điều này sẽ tạo ra nhiều hệ quả trong thực tế. Ae nào từng xây dựng các hệ thống giao dịch tự động sẽ quá hiểu.

Khi thị trường đi vào regime/trạng thái mới (kiểu regime mà sách giáo khoa chưa kịp viết) thì mô hình sẽ cho ra kết quả rất tự tin. Vì đó là tất cả những gì nó được học. 

Quant nào tin mô hình hơn tin trực giác mình lúc đó sẽ bị bịt mắt dắt vào hố.


Giờ xin quay lại về câu chuyện con gái tôi ở đầu bài.

Cái nó có mà LLM không có (và sẽ không bao giờ có) không phải là kiến thức. Kiến thức thì AI bây giờ có thừa.
Cái nó có là đôi chân.


Chân để đi ra sân. Tay để chạm vào bộ lông chó. Mắt để thấy cậu vàng chạy lăng quăng. Tai để nghe tiếng sủa. Mũi để ngửi mùi. 

Và một thân thể có thể biết đau khi bị cắn, có thể vui khi được chó liếm tay.

Nó có mặt trong thế giới mà nó đang nói về. AI hiện tại thì không.


Và cái có mặt đó không phải sự khác biệt nhỏ. 

Nó là toàn bộ điều kiện để một âm thanh trở thành một cái tên thật. 

Là toàn bộ điều kiện để một niềm tin trở thành một "cái biết", không phải một câu nhắc lại. 

Nó cũng là toàn bộ điều kiện để một hành động có thể chịu hậu quả, để từ hậu quả đó, sinh ra một “trí khôn" không học được từ ai khác.


Trong nhà Phật có khái niệm "trực chỉ". Cái "thấy trực tiếp", không qua trung gian.
LLM, theo cấu trúc của nó, không bao giờ có thể trực chỉ.

Tất cả những gì nó có là khái niệm chồng khái niệm, chữ chồng lên chữ. Bản đồ đọc từ bản đồ.


Trong thời đại AI, cuộc đua giữa người và máy vì thế không phải là chuyện ai thông minh hơn ai. Thông minh là cuộc đua mà AI đã sắp thắng. 

Lợi thế thực sự của con người nằm ở chỗ chúng ta có chân, có tay, có chịu hậu quả, có thấy "đối tượng" trực tiếp. 

Cái này AI sẽ không thể làm được, vì cấu trúc hiện tại của nó không cho phép.


Tôi nhìn con gái tôi tự chỉ tay vào con cún và gọi tên. Đó là một "cái biết" của một đứa trẻ hai tuổi.

Nó không học được từ tôi. Tôi không dạy được nó. Cái bước từ "nhắc tên theo" sang "tự gọi" đó, nó đã tự đi qua một mình.

Mọi đứa trẻ sẽ luôn đi qua được bước đó,
còn AI thông minh nhất trên hành tinh này,

đến giờ,
vẫn chưa thể đi qua.

Comments