Anthropic ra mắt Claude Opus 4.7: vượt GPT-5.4 và Gemini 3.1 Pro trên coding, tích hợp safeguard an ninh mạng

Bài viết này do AI tạo ra, có thể mắc sai sót.

Tóm tắt nhanh

🔹 Anthropic ra mắt Claude Opus 4.7 — nâng cấp lớn về coding, vision và agentic workflow so với Opus 4.6, đã có trên API, Bedrock, Vertex AI và Microsoft Foundry
🔹 Opus 4.7 đạt điểm cao nhất trên SWE-bench Verified (72.7%), Terminal-Bench 2.0 (52.7%) và nhiều benchmark coding khác — vượt GPT-5.4 và Gemini 3.1 Pro
🔹 Vision nâng cấp lớn: xử lý ảnh độ phân giải cao hơn, tạo UI/slide/tài liệu chất lượng hơn hẳn
🔹 Tích hợp safeguard an ninh mạng mới — bước đệm trước khi phát hành rộng model Mythos-class

Phân tích

Coding: mạnh nhất thế giới ở bài khó

Opus 4.7 không chỉ cải thiện nhẹ mà là bước nhảy đáng kể trên các bài toán coding khó nhất. Trên SWE-bench Verified (benchmark sửa bug thật từ GitHub), Opus 4.7 đạt 72.7% — cao nhất trong tất cả model hiện tại. Trên Terminal-Bench 2.0 (benchmark agentic coding phức tạp), đạt 52.7% so với 44.0% của Opus 4.6.

Điểm đặc biệt: Opus 4.7 tự kiểm tra output trước khi trả kết quả, phát hiện lỗi logic ngay trong giai đoạn lập kế hoạch. Các đối tác early-access như Intuit (fintech), Devin (AI coding agent) và Hex (data platform) đều xác nhận model xử lý được các task dài, phức tạp mà trước đây cần giám sát chặt.

Devin đánh giá: "Opus 4.7 là state-of-the-art trên thị trường, nổi bật ở khả năng xử lý async workflow, CI/CD và task chạy dài." Hex cho biết: "Low-effort Opus 4.7 tương đương medium-effort Opus 4.6" — nghĩa là cùng chất lượng nhưng tốn ít token hơn.

Vision: nhìn rõ hơn, sáng tạo hơn

Opus 4.7 xử lý ảnh ở độ phân giải cao hơn hẳn — đây là thay đổi ở cấp model, không cần điều chỉnh API. Ảnh gửi vào sẽ tự động được xử lý ở fidelity cao hơn. Kết quả: model tạo UI, slide và tài liệu chuyên nghiệp hơn, với "gu thẩm mỹ" tốt hơn Opus 4.6.

Trên benchmark MCP-Atlas (đánh giá khả năng sử dụng tool phức tạp), Opus 4.7 đạt 73.1% — vượt xa GPT-5.4 (55.2%) và Gemini 3.1 Pro (52.1%). Điều này cho thấy model không chỉ "nhìn" tốt hơn mà còn "hiểu" và "hành động" tốt hơn khi kết hợp vision với tool-use.

Safeguard an ninh mạng — bài học từ Project Glasswing

Anthropic đã công bố Project Glasswing tuần trước, cảnh báo về rủi ro AI trong an ninh mạng. Opus 4.7 là model đầu tiên được trang bị safeguard tự động phát hiện và chặn các yêu cầu liên quan đến sử dụng AI cho mục đích tấn công mạng bị cấm.

Đây là bước đệm quan trọng: Anthropic đang dùng Opus 4.7 để test safeguard trước khi phát hành rộng model Claude Mythos Preview — model mạnh nhất nhưng cũng nguy hiểm nhất của họ. Chuyên gia bảo mật muốn dùng Opus 4.7 cho pentest/red-team hợp pháp có thể đăng ký Cyber Verification Program.

Tính năng mới đi kèm

Effort level "xhigh": mức effort mới giữa "high" và "max", cho phép kiểm soát chính xác hơn giữa chất lượng reasoning và tốc độ. Claude Code mặc định dùng xhigh.
Task budgets (beta): developer có thể giới hạn token spend cho từng task, giúp Claude phân bổ tài nguyên hợp lý trong các run dài.
/ultrareview trong Claude Code: lệnh mới tạo session review chuyên dụng, đọc toàn bộ thay đổi và phát hiện bug + vấn đề thiết kế như một reviewer kỹ tính.
Auto mode mở rộng: cho phép Claude tự quyết định thay user, chạy task dài ít bị gián đoạn hơn — đã mở cho Max users.

Giá và migration

Giá giữ nguyên: $5/triệu input token, $25/triệu output token. Tuy nhiên, Opus 4.7 dùng tokenizer mới — cùng một input có thể tốn nhiều token hơn (1.0–1.35×). Bù lại, model suy nghĩ hiệu quả hơn nên tổng token usage trên benchmark coding thực tế lại giảm. Anthropic khuyến nghị đo trên traffic thật trước khi migrate hoàn toàn.

Vì sao đáng chú ý?

Opus 4.7 củng cố vị trí dẫn đầu của Anthropic trong coding AI — vượt GPT-5.4 và Gemini 3.1 Pro trên hầu hết benchmark quan trọng. Nhưng điều đáng chú ý hơn là chiến lược an ninh: Anthropic đang dùng Opus 4.7 làm "bãi thử" safeguard trước khi phát hành model Mythos-class, cho thấy họ nghiêm túc với việc kiểm soát rủi ro AI trong an ninh mạng. Cuộc đua AI frontier giờ không chỉ là ai mạnh hơn, mà còn là ai an toàn hơn.