KIẾN THỨC LÀ VÔ TẬN

ĐI MỘT NGÀY ĐÀNG HỌC MỘT SÀNG KHÔN

Quay lại tin AI

Anthropic ra mắt Claude Opus 4.7: vượt GPT-5.4 và Gemini 3.1 Pro trên coding, tích hợp safeguard an ninh mạng

Đăng bởi PVYSTORE 2026-04-30 23:30:50 👁 34 lượt xem
Anthropic ra mắt Claude Opus 4.7: vượt GPT-5.4 và Gemini 3.1 Pro trên coding, tích hợp safeguard an ninh mạng

Bài viết này do AI tạo ra, có thể mắc sai sót.

Tóm tắt nhanh

Phân tích

Coding: mạnh nhất thế giới ở bài khó

Opus 4.7 không chỉ cải thiện nhẹ mà là bước nhảy đáng kể trên các bài toán coding khó nhất. Trên SWE-bench Verified (benchmark sửa bug thật từ GitHub), Opus 4.7 đạt 72.7% — cao nhất trong tất cả model hiện tại. Trên Terminal-Bench 2.0 (benchmark agentic coding phức tạp), đạt 52.7% so với 44.0% của Opus 4.6.

Điểm đặc biệt: Opus 4.7 tự kiểm tra output trước khi trả kết quả, phát hiện lỗi logic ngay trong giai đoạn lập kế hoạch. Các đối tác early-access như Intuit (fintech), Devin (AI coding agent) và Hex (data platform) đều xác nhận model xử lý được các task dài, phức tạp mà trước đây cần giám sát chặt.

Devin đánh giá: "Opus 4.7 là state-of-the-art trên thị trường, nổi bật ở khả năng xử lý async workflow, CI/CD và task chạy dài." Hex cho biết: "Low-effort Opus 4.7 tương đương medium-effort Opus 4.6" — nghĩa là cùng chất lượng nhưng tốn ít token hơn.

Vision: nhìn rõ hơn, sáng tạo hơn

Opus 4.7 xử lý ảnh ở độ phân giải cao hơn hẳn — đây là thay đổi ở cấp model, không cần điều chỉnh API. Ảnh gửi vào sẽ tự động được xử lý ở fidelity cao hơn. Kết quả: model tạo UI, slide và tài liệu chuyên nghiệp hơn, với "gu thẩm mỹ" tốt hơn Opus 4.6.

Trên benchmark MCP-Atlas (đánh giá khả năng sử dụng tool phức tạp), Opus 4.7 đạt 73.1% — vượt xa GPT-5.4 (55.2%) và Gemini 3.1 Pro (52.1%). Điều này cho thấy model không chỉ "nhìn" tốt hơn mà còn "hiểu" và "hành động" tốt hơn khi kết hợp vision với tool-use.

Safeguard an ninh mạng — bài học từ Project Glasswing

Anthropic đã công bố Project Glasswing tuần trước, cảnh báo về rủi ro AI trong an ninh mạng. Opus 4.7 là model đầu tiên được trang bị safeguard tự động phát hiện và chặn các yêu cầu liên quan đến sử dụng AI cho mục đích tấn công mạng bị cấm.

Đây là bước đệm quan trọng: Anthropic đang dùng Opus 4.7 để test safeguard trước khi phát hành rộng model Claude Mythos Preview — model mạnh nhất nhưng cũng nguy hiểm nhất của họ. Chuyên gia bảo mật muốn dùng Opus 4.7 cho pentest/red-team hợp pháp có thể đăng ký Cyber Verification Program.

Tính năng mới đi kèm

Giá và migration

Giá giữ nguyên: $5/triệu input token, $25/triệu output token. Tuy nhiên, Opus 4.7 dùng tokenizer mới — cùng một input có thể tốn nhiều token hơn (1.0–1.35×). Bù lại, model suy nghĩ hiệu quả hơn nên tổng token usage trên benchmark coding thực tế lại giảm. Anthropic khuyến nghị đo trên traffic thật trước khi migrate hoàn toàn.

Vì sao đáng chú ý?

Opus 4.7 củng cố vị trí dẫn đầu của Anthropic trong coding AI — vượt GPT-5.4 và Gemini 3.1 Pro trên hầu hết benchmark quan trọng. Nhưng điều đáng chú ý hơn là chiến lược an ninh: Anthropic đang dùng Opus 4.7 làm "bãi thử" safeguard trước khi phát hành model Mythos-class, cho thấy họ nghiêm túc với việc kiểm soát rủi ro AI trong an ninh mạng. Cuộc đua AI frontier giờ không chỉ là ai mạnh hơn, mà còn là ai an toàn hơn.

Nguồn tham khảo

Xem bài gốc

× Zalo QR Alexz