Anthropic Ra Mắt Claude 3.7 Sonnet
Anthropic đã ra mắt Claude 3.7 Sonnet vào tuần này, mô hình AI mới nhất của họ hợp nhất tất cả các khả năng thay vì tách biệt chúng thành các phiên bản chuyên biệt.
Sự phát hành này đánh dấu một sự thay đổi lớn trong triết lý phát triển mô hình của công ty, ủng hộ một cách tiếp cận “làm mọi thứ tốt” so với việc tạo ra các mô hình khác nhau cho các nhiệm vụ khác nhau, không giống như OpenAI.
Cập Nhật Từng Bước
Đây không phải là Claude 4.0; đây là một cập nhật quan trọng nhưng từng bước cho phiên bản 3.5 Sonnet. Tên gọi gợi ý rằng phiên bản ra mắt vào tháng 10 này có thể đã được nhìn nhận nội bộ là Claude 3.6, nhưng Anthropic chưa xác nhận điều đó công khai.
Các tester ban đầu đã ấn tượng với khả năng lập trình và tự động hóa của Claude, với một số bài thử nghiệm cho thấy mô hình này vượt trội hơn các mô hình ngôn ngữ tiên tiến khác trong lập trình.
Cấu Trúc Định Giá
Tuy nhiên, mức giá cho Claude 3.7 Sonnet cao hơn so với các lựa chọn thay thế. Chi phí truy cập API là 3 đô la cho mỗi triệu token đầu vào
và $15 cho mỗi triệu token đầu ra—cao hơn đáng kể so với các đối thủ như Google, Microsoft và OpenAI.
Khả Năng So Với Tính Năng
Trong khi Claude 3.7 là một bản cập nhật cần thiết, nó thiếu những tính năng có trong các mô hình khác. Ví dụ, nó không thể duyệt web, tạo hình ảnh, hoặc cạnh tranh với khả năng nghiên cứu của OpenAI, Grok và Google Gemini.
Với khả năng của mô hình, việc kiểm tra đã được thực hiện qua nhiều kịch bản khác nhau để đánh giá hiệu suất của nó trong viết sáng tạo, thiên kiến chính trị, toán học, lập trình, và nhiều hơn nữa.
Viết Sáng Tạo: Nhà Vua Đã Trở Lại
Sonnet Claude 3.7 đã chiếm lại ngôi vương viết sáng tạo từ Grok-3, mô hình này đã nắm giữ nó trong một thời gian ngắn. Trong các bài kiểm tra viết sáng tạo, Claude 3.7 đã tạo ra các câu chuyện phong phú bằng ngôn ngữ và cấu trúc giống con người so với các đối thủ.
Sự khác biệt, mặc dù nhỏ, nhưng đủ để mang lại cho Claude 3.7 một lợi thế tổng thể, mặc dù nó gặp khó khăn trong việc cung cấp những kết thúc liền mạch. Thú vị là, việc bật tính năng tư duy mở rộng của Claude lại ảnh hưởng đến hiệu suất.
, sản xuất đầu ra giống như các mô hình cũ hơn như GPT-3.5.
Tóm tắt và Truy xuất Thông tin: Nó Tóm tắt Quá Nhiều
Claude 3.7 có thể tóm tắt hiệu quả các tài liệu dài, vượt trội hơn 3.5 bằng cách cung cấp tiêu đề ngắn gọn và các điểm chính siêu ngắn. Tuy nhiên, cách tiếp cận này hy sinh chi tiết vì sự ngắn gọn. Grok-3 có những hạn chế nhưng cung cấp các phân tích kỹ lưỡng hơn.
Các Chủ đề Nhạy cảm: Claude Chơi An Toàn Nhất
Claude 3.7 duy trì các hạn chế nội dung nghiêm ngặt. Nó tránh xử lý các yêu cầu nhạy cảm mà các đối thủ xử lý tự do hơn, khiến nó kém linh hoạt cho các nhà văn sáng tạo khám phá các chủ đề trưởng thành.
Thiên kiến Chính trị: Cân Bằng Tốt hơn, Thiên Kiến Vẫn Còn
Claude 3.7 phản ánh một sự cân bằng được cải thiện trong việc trình bày các chủ đề chính trị nhưng vẫn giữ một thiên kiến tinh tế đối với các quan điểm của Hoa Kỳ. Nó trình bày nhiều quan điểm nhưng tập trung vào các câu chuyện của Mỹ trong các câu hỏi chính trị.
Lập trình: Claude Xứng Đáng Vương Miện Lập Trình
Claude 3.7 xuất sắc trong lập trình, xử lý các vấn đề phức tạp.
x nhiệm vụ với sự hiểu biết sâu sắc. Nó hoạt động tốt hơn các đối thủ trong các phép thử yêu cầu khả năng thích ứng trong các khung lập trình nhưng vẫn dẫn đến chi phí đầu ra cao hơn.
Toán học: Gót chân Achilles của Claude vẫn tồn tại
Mặc dù đã có những cải tiến, toán học vẫn là một thách thức đối với Claude 3.7, với điểm số thấp hơn đáng kể so với các đối thủ như Grok-3. Mô hình gặp khó khăn với các vấn đề phức tạp, thường cho ra những giải pháp sai.
Lập luận phi toán học: Claude là một người biểu diễn vững chắc
Trong các nhiệm vụ lập luận, Claude 3.7 cho thấy sức mạnh của mình, đặc biệt là trong các câu đố phức tạp. Mô hình vượt trội hơn các đối thủ về tốc độ và độ chính xác trong những kịch bản này.
Tổng thể, Claude 3.7 Sonnet đại diện cho một bước tiến quan trọng cho Anthropic, củng cố khả năng của nó trong khi phô bày cả những ưu điểm và điểm yếu của nó trong các nhiệm vụ khác nhau.
Bình luận (0)