Gate Newsの報道によると、OpenAIは新たなセキュリティ脆弱性バウンティプログラムを正式に開始しました。従来の技術的脆弱性に焦点を当てるのではなく、人工知能の乱用リスクに重点を置いており、AIの安全管理の新段階への進展を示しています。このプログラムは外部の研究者の力を取り入れ、モデルが実世界のシナリオで引き起こす潜在的な危険を事前に特定しようとしています。
この取り組みは、OpenAIとBugcrowdが共同で推進し、ホワイトハッカー、研究者、安全分析者に向けて開放されています。従来の脆弱性バウンティと異なり、新プログラムはシステムの欠陥だけでなく、プロンプトインジェクションや代理滥用などのリスク事例の提出も奨励しています。これらの問題は、モデルの出力が意図から逸脱したり、複雑な環境下で制御不能な結果を招く可能性があります。
ルール設計において、OpenAIは明確な技術的脆弱性を伴わない安全性に関する報告も受け付けています。例えば、モデルが不適切な内容を生成したり、誤解を招く可能性のあるシナリオです。ただし、プラットフォームは、提出内容には十分な証拠と実際のリスク価値が必要であり、単なる脱獄テストは受け付けないとしています。また、生物安全性などの敏感なテーマに関わる発見については、秘密裏に対応し、情報拡散のリスクを低減します。
この施策は、IT業界内でさまざまな意見を呼んでいます。一部の専門家は、これはAIの透明性と安全協力を促進する重要な一歩であり、よりオープンなリスク認識体系の構築に寄与すると考えています。一方で、倫理や責任の深い問題には触れにくいとの批判もあります。例えば、データの使用範囲やプラットフォームの責任追及の仕組みなどです。
業界の動向を見ると、人工知能の安全性は単なる技術的側面から社会的影響の側面へと拡大しています。OpenAIは、外部の力を巻き込んだリスク評価のためのオープンテストを通じて、防護体制の強化とユーザーの信頼向上を図っています。ただし、このプログラムは万能ではなく、規制の枠組みや長期的なガバナンス、責任の所在についての議論は今後も続くでしょう。AIの能力がさらに向上するにつれ、積極的な防御メカニズムが業界標準となる可能性もあります。