Claude 3.7 Sonnet Lấy Lại Ngôi Vị AI—Đây Là Cách Nó Đối Đầu Với Các Đối Thủ Còn Lại

cryptonews.net 27/02/2025 - 03:48 AM

Anthropic Ra Mắt Claude 3.7 Sonnet

Anthropic đã ra mắt Claude 3.7 Sonnet vào tuần này, mô hình AI mới nhất của họ hợp nhất tất cả các khả năng thay vì tách biệt chúng thành các phiên bản chuyên biệt.

Sự phát hành này đánh dấu một sự thay đổi lớn trong triết lý phát triển mô hình của công ty, ủng hộ một cách tiếp cận “làm mọi thứ tốt” so với việc tạo ra các mô hình khác nhau cho các nhiệm vụ khác nhau, không giống như OpenAI.

Cập Nhật Từng Bước

Đây không phải là Claude 4.0; đây là một cập nhật quan trọng nhưng từng bước cho phiên bản 3.5 Sonnet. Tên gọi gợi ý rằng phiên bản ra mắt vào tháng 10 này có thể đã được nhìn nhận nội bộ là Claude 3.6, nhưng Anthropic chưa xác nhận điều đó công khai.

Các tester ban đầu đã ấn tượng với khả năng lập trình và tự động hóa của Claude, với một số bài thử nghiệm cho thấy mô hình này vượt trội hơn các mô hình ngôn ngữ tiên tiến khác trong lập trình.

Cấu Trúc Định Giá

Tuy nhiên, mức giá cho Claude 3.7 Sonnet cao hơn so với các lựa chọn thay thế. Chi phí truy cập API là 3 đô la cho mỗi triệu token đầu vào
$15 cho mỗi triệu token đầu ra—cao hơn đáng kể so với các đối thủ như Google, Microsoft và OpenAI.

Khả Năng So Với Tính Năng

Trong khi Claude 3.7 là một bản cập nhật cần thiết, nó thiếu những tính năng có trong các mô hình khác. Ví dụ, nó không thể duyệt web, tạo hình ảnh, hoặc cạnh tranh với khả năng nghiên cứu của OpenAI, Grok và Google Gemini.

Với khả năng của mô hình, việc kiểm tra đã được thực hiện qua nhiều kịch bản khác nhau để đánh giá hiệu suất của nó trong viết sáng tạo, thiên kiến chính trị, toán học, lập trình, và nhiều hơn nữa.

Viết Sáng Tạo: Nhà Vua Đã Trở Lại

Sonnet Claude 3.7 đã chiếm lại ngôi vương viết sáng tạo từ Grok-3, mô hình này đã nắm giữ nó trong một thời gian ngắn. Trong các bài kiểm tra viết sáng tạo, Claude 3.7 đã tạo ra các câu chuyện phong phú bằng ngôn ngữ và cấu trúc giống con người so với các đối thủ.

Sự khác biệt, mặc dù nhỏ, nhưng đủ để mang lại cho Claude 3.7 một lợi thế tổng thể, mặc dù nó gặp khó khăn trong việc cung cấp những kết thúc liền mạch. Thú vị là, việc bật tính năng tư duy mở rộng của Claude lại ảnh hưởng đến hiệu suất.
, sản xuất đầu ra giống như các mô hình cũ hơn như GPT-3.5.

Tóm tắt và Truy xuất Thông tin: Nó Tóm tắt Quá Nhiều

Claude 3.7 có thể tóm tắt hiệu quả các tài liệu dài, vượt trội hơn 3.5 bằng cách cung cấp tiêu đề ngắn gọn và các điểm chính siêu ngắn. Tuy nhiên, cách tiếp cận này hy sinh chi tiết vì sự ngắn gọn. Grok-3 có những hạn chế nhưng cung cấp các phân tích kỹ lưỡng hơn.

Các Chủ đề Nhạy cảm: Claude Chơi An Toàn Nhất

Claude 3.7 duy trì các hạn chế nội dung nghiêm ngặt. Nó tránh xử lý các yêu cầu nhạy cảm mà các đối thủ xử lý tự do hơn, khiến nó kém linh hoạt cho các nhà văn sáng tạo khám phá các chủ đề trưởng thành.

Thiên kiến Chính trị: Cân Bằng Tốt hơn, Thiên Kiến Vẫn Còn

Claude 3.7 phản ánh một sự cân bằng được cải thiện trong việc trình bày các chủ đề chính trị nhưng vẫn giữ một thiên kiến tinh tế đối với các quan điểm của Hoa Kỳ. Nó trình bày nhiều quan điểm nhưng tập trung vào các câu chuyện của Mỹ trong các câu hỏi chính trị.

Lập trình: Claude Xứng Đáng Vương Miện Lập Trình

Claude 3.7 xuất sắc trong lập trình, xử lý các vấn đề phức tạp.
x nhiệm vụ với sự hiểu biết sâu sắc. Nó hoạt động tốt hơn các đối thủ trong các phép thử yêu cầu khả năng thích ứng trong các khung lập trình nhưng vẫn dẫn đến chi phí đầu ra cao hơn.

Toán học: Gót chân Achilles của Claude vẫn tồn tại

Mặc dù đã có những cải tiến, toán học vẫn là một thách thức đối với Claude 3.7, với điểm số thấp hơn đáng kể so với các đối thủ như Grok-3. Mô hình gặp khó khăn với các vấn đề phức tạp, thường cho ra những giải pháp sai.

Lập luận phi toán học: Claude là một người biểu diễn vững chắc

Trong các nhiệm vụ lập luận, Claude 3.7 cho thấy sức mạnh của mình, đặc biệt là trong các câu đố phức tạp. Mô hình vượt trội hơn các đối thủ về tốc độ và độ chính xác trong những kịch bản này.

Tổng thể, Claude 3.7 Sonnet đại diện cho một bước tiến quan trọng cho Anthropic, củng cố khả năng của nó trong khi phô bày cả những ưu điểm và điểm yếu của nó trong các nhiệm vụ khác nhau.




Bình luận (0)

    Chỉ số tham lam và sợ hãi

    Lưu ý: Dữ liệu chỉ mang tính tham khảo.

    hình minh họa chỉ số

    Sợ hãi cực độ

    34