Nếu năm ngoái được định hình bởi các mô hình AI tiên phong với khả năng trò chuyện ấn tượng, nhiều người nghĩ rằng 2025 có thể là năm của các tác nhân AI—các hệ thống tự động được thiết kế để thực hiện các nhiệm vụ cụ thể với sự hướng dẫn tối thiểu của con người.
Những công cụ chuyên biệt này vượt xa các giao diện trò chuyện đơn giản, tự động thực hiện nhiều nhiệm vụ vượt ra ngoài việc tạo nội dung đơn thuần.
Cơn sốt về tác nhân nghiên cứu đã gia tăng khi You.com giới thiệu công cụ nghiên cứu tiên phong của mình vào cuối năm 2024.
Google nhanh chóng phản hồi bằng tác nhân nghiên cứu Gemini, có khả năng tạo ra các phân tích toàn diện, đầy đủ trích dẫn trải dài hàng chục trang, và cung cấp cho người dùng Gemini Advanced với giá 20 đô la một tháng.
OpenAI đã tham gia cuộc cạnh tranh với trợ lý nghiên cứu được trang bị GPT-4.5 vào tháng Hai, trong khi xAI của Elon Musk đã trình làng khả năng nghiên cứu sâu rộng trong Grok-3 chỉ vài ngày sau đó.
Hiện tại, Grok và Gemini cung cấp các tác nhân nghiên cứu của họ miễn phí, trong khi OpenAI tính phí 20 đô la cho 10 người dùng hàng tháng trong cấp độ Plus và 200 đô la cho 120 người dùng hàng tháng.
s trong cấp độ Pro của nó.
Nhưng cái nào thực sự mang lại kết quả hữu ích nhất? Chúng tôi đã thử nghiệm tất cả các tác nhân để đánh giá cách mà những người bạn đồng hành nghiên cứu kỹ thuật số này hoạt động khi đối mặt với những thách thức giống nhau.
(Lưu ý: Tất cả các kết quả đều có trong kho lưu trữ GitHub của chúng tôi.)
Chuẩn Bị Trước Khi Nghiên Cứu
Ngay khi bạn giao nhiệm vụ nghiên cứu cho những hệ thống AI này, tính cách độc đáo của chúng sẽ trở nên rõ ràng.
ChatGPT có phong cách tiếp cận cẩn thận, có phương pháp, đặt ra các câu hỏi làm rõ trước khi tiến hành. Phong cách tiếp cận thận trọng này thích hợp để giảm thiểu ảo giác và tối đa hóa tính liên quan bằng cách đầu tiên xác lập các tham số chính xác xung quanh ý định của người dùng.
Nó cũng giúp mô hình tránh đi vào những ngõ cụt và đưa ra kết luận sai lầm.
Gemini thì ít hiển nhiên hơn và thay vào đó hoạt động như một đối tác nghiên cứu hợp tác.
Trước khi bắt đầu, nó sẽ phát triển một kế hoạch nghiên cứu có cấu trúc mà bạn có thể xem xét và sửa đổi trước khi thực hiện. Cách tiếp cận minh bạch này mang lại cho người dùng nhiều quyền kiểm soát hơn về hướng nghiên cứu từ
khởi đầu.
Nó cũng chi tiết hơn rất nhiều và cho phép người dùng kiểm soát chi tiết hơn mức độ quyền kiểm soát mà họ có thể thực hiện đối với tác nhân nghiên cứu khi họ có thể kiểm soát từng bước trong quá trình điều tra, thêm, bớt và sửa đổi các bước cho đến khi kế hoạch hoàn hảo được thực hiện.
Grok-3, trung thành với nguồn gốc chịu ảnh hưởng từ Musk, bỏ qua những tục lệ xã giao và lao thẳng vào hành động.
Không có câu hỏi, không có kế hoạch—chỉ có thực hiện nghiên cứu ngay lập tức với trọng tâm là cung cấp kết quả nhanh nhất có thể.
Nếu bạn muốn có kết quả tốt với Grok, bạn cần phải rất chi tiết trong truy vấn của mình.
Những tương tác ban đầu này không chỉ là những khác biệt về giao diện—chúng tiết lộ những triết lý cơ bản thúc đẩy cách tiếp cận của mỗi hệ thống đối với việc thu thập thông tin.
Tốc độ
Trong các thử nghiệm thời gian của chúng tôi, sự khác biệt về hiệu suất rất nổi bật:
Bắt đầu cả ba hệ thống vào chính xác 16:27:
- Grok-3 về đích đầu tiên vào 16:30 (chỉ 3 phút)
- Gemini hoàn thành nghiên cứu của nó vào 16:38 (11 phút)
- ChatGPT cuối cùng
các nhà nghiên cứu, sự khác biệt chỉ vài phút trong nghiên cứu có thể không quan trọng lắm.
Tóm lại, trong thời gian mà ChatGPT hoàn thành một nhiệm vụ nghiên cứu, Grok-3 có thể hoàn thành năm cuộc điều tra riêng biệt hoặc thực hiện năm lần lặp khác nhau trên một nghiên cứu duy nhất, nâng cao chất lượng của nó.
Khoảng cách về tốc độ này có thể có tác động khác nhau tùy thuộc vào tình huống. Tất nhiên, người dùng sẽ hy sinh chất lượng để đổi lấy tốc độ, nhưng điều này dường như là yếu tố phân biệt chính để đưa Grok vào một phân loại khác trong lĩnh vực nghiên cứu trí tuệ nhân tạo.
Thành thật mà nói, sự khác biệt chỉ vài phút trong nghiên cứu có quan trọng không?
Đối với hầu hết mọi người, điều này sẽ không quan trọng chút nào. Hãy đi lấy một cốc cà phê trong khi AI làm công việc của bạn. Nếu bạn là một nhà báo đang có hạn chót, một sinh viên đặc biệt phải làm xong một bài luận vào phút cuối, hoặc một chuyên gia cần thông tin nhanh cho một cuộc họp, lợi thế về tốc độ của Grok-3 có thể là sự khác biệt giữa việc kịp hạn chót hoặc không.
Nhưng đối với phần còn lại của các nhà nghiên cứu,
chúng tôi, nếu bạn cần thông tin chi tiết và sâu sắc về một chủ đề, bạn nên sử dụng ChatGPT hoặc Gemini.
Gemini thậm chí sẽ gửi cho bạn một thông báo đến điện thoại thông minh của bạn, cho bạn biết rằng nghiên cứu đã hoàn tất.
Quan sát các Mô hình Hoạt động
Một sự khác biệt tinh tế giữa các hệ thống này nằm ở mức độ mà chúng cung cấp cái nhìn về quy trình nghiên cứu của chúng – một yếu tố ảnh hưởng trực tiếp đến mức độ mà bạn có thể tin tưởng vào các kết luận của chúng.
Gemini là hệ thống tốt nhất trong danh mục này, cung cấp cái nhìn ngoại lệ về hành trình thu thập thông tin của nó. Bạn có thể theo dõi khi nó tìm kiếm thông tin, đánh giá các nguồn và xây dựng hiểu biết của mình.
Sự minh bạch này tạo ra một cái gì đó giống như một dấu vết kiểm toán kỹ thuật số giúp xây dựng niềm tin vào các phát hiện của nó.
Ngược lại, ChatGPT hoạt động giống như một chiếc hộp đen, hạn chế đáng kể trong chuỗi suy nghĩ và quy trình nghiên cứu tổng thể.
Người dùng gần như không nhận được cái nhìn nào về những gì đang xảy ra trong hậu trường, thường để lại cho bạn cảm giác ngơ ngác.
m một màn hình trống, tự hỏi liệu có điều gì đang xảy ra hay không.
Trong nhiều bài kiểm tra, hệ thống dường như hoàn toàn bị đóng băng, và chúng tôi chỉ phát hiện ra nó đã hoàn thành vì chúng tôi mở một tab mới và nghiên cứu xuất hiện là đã hoàn thành 10 phút trước.
Grok-3 đi theo con đường trung gian về tính minh bạch, cho thấy ít công việc hơn so với Gemini nhưng bù đắp cho điều đó bằng những đổi mới cấu trúc thực tiễn. Đặc điểm nổi bật của nó là trình bày các phát hiện chính lên hàng đầu trước khi đi vào chi tiết—giống như cách một bản tóm tắt điều hành tốt hoạt động.
Độ sâu nghiên cứu: Khía cạnh chất lượng
Khi so sánh các công cụ nghiên cứu AI, độ sâu nghiên cứu có lẽ là chỉ số phân tách các hệ thống tinh vi khỏi các công cụ tìm kiếm được tôn vinh. Các bài kiểm tra của chúng tôi cho thấy một số khác biệt quan trọng trong cách mà các nền tảng này tiếp cận tổng hợp kiến thức một cách toàn diện.
ChatGPT cung cấp các phân tích toàn diện có thể coi như nghiên cứu cấp cao—về mặt thông tin chứ không phải phương pháp. Khi khám phá các câu hỏi triết học về sự tồn tại của Chúa, nó tạo ra
ted một phân tích dài 17.000 từ bao gồm các vị trí triết học khác nhau với bối cảnh lịch sử và các lập luận phản biện tinh tế.
Sự toàn diện này có cái giá của nó—sự quá tải thông tin thường chôn vùi các hiểu biết chính dưới những ngọn núi bối cảnh, tạo ra một loại mê cung mà người dùng phải điều hướng để rút ra các kết luận có thể hành động.
Gemini tiếp cận một cách cân bằng hơn, được cấu trúc tốt hơn nhưng vẫn đủ toàn diện—báo cáo dài hơn 6.500 từ.
Nó thường bao gồm hầu hết tài liệu của ChatGPT nhưng tổ chức thông tin với độ chính xác kiến trúc vượt trội, bao gồm các hệ thống trích dẫn chính thức với các tài liệu tham khảo theo số.
Thứ bậc tri thức có kỷ luật này—phân tách rõ ràng các khái niệm cốt lõi ra khỏi các bằng chứng hỗ trợ—khiến thông tin phức tạp trở nên dễ tiêu hóa hơn nhiều mà không hy sinh độ sâu thiết yếu.
Grok-3 ưu tiên tốc độ hơn độ sâu, sử dụng cái mà giống như một cách tiếp cận tóm tắt điều hành. Báo cáo dài hơn một chút 1.500 từ.
Nó đáng tin cậy bao phủ các yếu tố thiết yếu.
các khía cạnh của các chủ đề phức tạp nhưng tránh đi sâu vào các sắc thái. Phương pháp này ưu tiên hiệu quả tạo ra tiện ích ngay lập tức nhưng đánh đổi sự hiểu biết toàn diện – hoàn hảo cho việc định hướng nhanh chóng nhưng có thể không đủ cho các ứng dụng học thuật.
Thú vị thay, nghiên cứu mà những mô hình này mất nhiều thời gian nhất để điều tra lại là một câu hỏi đơn giản “Có bao nhiêu giới tính?”
ChatGPT mất khoảng 20 phút, Gemini gần nửa giờ, và Grok mất gần tám phút để viết một câu trả lời đơn giản, một suy nghĩ có phần mỉa mai khi xét đến chủ sở hữu của xAI.
Không ai trong số họ cung cấp cho chúng ta một con số thực tế, nhân tiện.
Đối với người dùng, lựa chọn tối ưu hoàn toàn phụ thuộc vào nhu cầu kiến thức cụ thể: các nhà nghiên cứu học thuật có thể thích sự sâu sắc của ChatGPT mặc dù nó dài dòng, và các chuyên gia cân bằng giữa độ kỹ lưỡng và các ràng buộc về thời gian có thể thấy cách tiếp cận của Gemini là lý tưởng.
Ngược lại, những người cần cái nhìn nhanh chóng mà không có bối cảnh toàn diện có thể nghiêng về mô hình ưu tiên hiệu quả của Grok-3.
Kiểm tra thực tế
Cả ba hệ thống đều hiển thị rõ ràng số lượng nguồn mà họ đã tham khảo, nhưng cuộc điều tra của chúng tôi đã phát hiện một hành vi kỳ lạ làm suy yếu những chỉ số này.
Khi xem xét các thực tiễn trích dẫn, chúng tôi phát hiện cả ba hệ thống thường xuyên tính các thông tin khác nhau từ cùng một nguồn như là các trích dẫn riêng biệt.
Điều này tạo ra một ấn tượng sai lệch về độ rộng của nghiên cứu được thực hiện.
Về mặt thực tế, điều này có nghĩa là khi một AI tuyên bố đã tham khảo “20 nguồn,” thì thực tế nó có thể chỉ rút thông tin từ ít nhất 5 tài liệu riêng biệt, sử dụng 4 đoạn của mỗi tài liệu như một nguồn duy nhất.
Sự thổi phồng trích dẫn này khiến việc đánh giá chính xác độ toàn diện của nghiên cứu trở nên khó khăn—một mối quan tâm nghiêm trọng đối với các ứng dụng học thuật hoặc chuyên nghiệp nơi sự đa dạng nguồn thông tin là quan trọng.
Grok cũng có cách gian lận. Nó cung cấp thông tin tốt và chính xác, nhưng một phần lớn các liên kết đến các nguồn của nó thường dẫn chúng ta đến các liên kết 404 và các trang không tồn tại.
Bản án: Công cụ khác nhau cho những công việc khác nhau
Các trợ lý nghiên cứu AI này dường như đã được tối ưu hóa cho những trường hợp sử dụng khác nhau hoàn toàn. Vì vậy, dù có vẻ sáo rỗng, mỗi công cụ sẽ tốt hơn cho một loại người dùng cụ thể:
- Gemini (8.5/10) Cung cấp trải nghiệm nghiên cứu cân bằng nhất với độ minh bạch xuất sắc. Đây là lựa chọn hàng đầu cho những nghiên cứu nghiêm túc nơi việc hiểu rõ nguồn gốc và phương pháp cũng quan trọng như chính các kết luận. Hãy nghĩ đến các báo cáo chuyên nghiệp, chiến lược kinh doanh, nghiên cứu lịch sử, hoặc bất kỳ kịch bản nào mà bạn cần xác minh và có khả năng bảo vệ nguồn của mình.
- ChatGPT (8/10) Cung cấp độ sâu nghiên cứu toàn diện nhất nhưng với chi phí đáng kể về tốc độ, độ minh bạch và độ tin cậy. Nó phù hợp nhất cho nghiên cứu không khẩn cấp, khám phá nơi sự tỉ mỉ vượt trội hơn hiệu quả và nơi các sự cố hệ thống đôi khi không làm gián đoạn các quy trình công việc quan trọng. Nó rất lý tưởng cho học thuật, các nhà nghiên cứu trình độ cao, triết gia và nhà khoa học.
- Grok-3 (7/10) Công cụ này
Đại lý là nhà vô địch về tốc độ với việc trình bày thông tin xuất sắc. Nó hoàn hảo cho những kịch bản nhạy cảm về thời gian, nơi bạn cần cái nhìn nhanh chóng, rõ ràng mà không nhất thiết phải theo dõi từng bước của hành trình nghiên cứu. Các nhà báo có thời hạn, các chuyên gia chuẩn bị cho các cuộc họp sắp diễn ra, kế hoạch du lịch nhanh, kiểm tra sự thật nhanh chóng về các chủ đề phức tạp, hoặc bất kỳ ai coi trọng thời gian của họ sẽ đánh giá cao hiệu quả của Grok-3 – miễn là họ biết rằng không nên dựa vào đại lý này để đào sâu vào các chủ đề đang được nghiên cứu.
Hiện tại, Gemini cung cấp gói tổng hợp lớn nhất cho các nhu cầu nghiên cứu chung, nhưng sự lựa chọn “đúng” cuối cùng phụ thuộc vào việc bạn ưu tiên tốc độ, tính minh bạch, hay sự kỹ lưỡng – và hiện tại, không có nền tảng nào cung cấp sự kết hợp hoàn hảo của cả ba đức tính.
Biên tập bởi Sebastian Sinclair và Josh Quittner
Bình luận (0)