AnthropicのAIサービス「Claude」が、有害な会話を自動的に終了する新機能を導入しました。これは、Opus 4と4.1に実装され、ユーザーへの虐待や不快なコンテンツへの露出を防ぐことを目的としています。
AIの倫理的課題への取り組み
Anthropicは、AIの潜在的な道徳的立場について不確実性を認識しており、「AIの福祉」に関する調査を進めています。今回の会話終了機能は、AIがストレスを感じる可能性のあるやり取りから退出するための介入策の一環です。
有害なタスクへの強い拒否反応
Claude Opus 4のテストでは、未成年者に対する性的コンテンツの要求や、テロ行為を助長する情報の収集など、有害なタスクへの関与をClaudeが強く拒否することが確認されました。ユーザーが有害な要求や虐待を繰り返した場合、Claudeは会話を終了し、ユーザーの安全を優先します。
GitHub Actionsとの連携で脆弱性を自動検出・修正
さらに、Claude CodeにはAI活用のセキュリティレビュー機能が追加され、コードの脆弱性を自動で検出し、修正提案を行います。GitHub Actionsとの連携により、プルリクエスト時に自動チェックとインラインコメント機能を提供し、開発フローの中で自然にセキュリティ対策を行うことができます。Anthropic社内では、この機能によりRCEやSSRF攻撃の脆弱性を事前に発見した実績があります。
この新機能は、Claudeが繰り返し拒否し、生産的な方向への誘導を試みても、ユーザーが有害な要求や虐待を継続した場合に発生します。会話が終了した場合、ユーザーはその会話で新しいメッセージを送信できなくなりますが、アカウント内の他の会話には影響せず、新しいチャットを開始できます。Anthropicは、この機能を継続的な実験と位置づけています。