Categories: IT関連知識全般

「責任あるAI」まとめ

責任あるAIとは

責任ある AI とは、潜在的なリスクや悪影響を軽減しながら、AI システムが透明で信頼できるものであることを保証する実践と原則のことです。

責任を持って AI を運用するために、企業は自社のシステムが以下の条件を満たしていることを積極的に確認する必要があります。

  • モニタリングと監視のメカニズムが導入されており、包括的な透明性と説明責任がある。•
  • 責任ある AI 戦略について説明責任を負うリーダーシップチームによって管理されている。•
  • 責任ある AI の原則と実践に関する専門知識を持つチームによって開発されている。•
  • 責任ある AI のガイドラインに従って構築されている。

AIシステムのバイアス

バイアス

モデルにバイアスがあるということは、モデルがデータセットの重要な特徴を見逃しているということです。これは、データの詳細が不足していることを意味します。モデルのバイアスが大きいと過小適合を意味します。

バリアンス

バリアンスが大きいと、モデルはトレーニングデータを熟知し、高い正解率で予測を行うことができます。これは、データのすべての特徴をとらえているためです。

ただし、モデルに新しいデータを入れると、モデルの正解率は低下します。これは、新しいデータには、モデルのトレーニングに使用されたデータとは異なる特徴が含まれている可能性があるためです。これにより、過剰適合の問題が発生します。

バイアスとバリアンスのトレードオフ

バイアスとバリアンスのトレードオフとは、バイアスとバリアンスの適切なバランスを取ながら、モデルを最適化することです。つまり、モデルを最適化して、過少適合や過剰適合にならないようにする必要があります。

バイアスやバリアンスのエラーを解消するには以下の方法が役立ちます

  • 交差検証 : 入力データのサブセットで複数の機械学習モデルをトレーニングし、データの補完サブセットで評価
  • データを増やす: データサンプルをさらに追加して、モデルの学習範囲を広げます
  • 正則化: 過剰適合しないように、極端な重み値にペナルティを与える手法です。
  • より単純なモデル: より単純なモデルアーキテクチャを使用すると過剰適合に有効です。
  • 次元削減(主成分分析): 可能な限り多くの情報を保持しながら、データセット内の次元 (特徴量の数) を減らす方法です。
  • トレーニングを早期に停止する: モデルがデータを記憶しないように、トレーニングを早期に終了します。

生成AIの課題

  • 有毒性 : 攻撃的、不快な、または不適切なコンテンツ (テキスト、画像、その他のモダリティを問わず) を生成する可能性があることです。
  • ハルシネーション : もっともらしく聞こえるが、検証によって正しくないと証明できる主張です。
  • 知的財産 : 知的財産の保護は、初期の LLM では問題でした。これは、LLM がトレーニングデータの一部をそのまま使用したテキストやコードをときどき生成する傾向があり、その結果、プライバシーなどの懸念が生じることがあったためです。しかし、この点は改善されたものの、よりあいまいでニュアンスを含んだトレーニングコンテンツの複製を防ぐことはできていません。
  • 盗用と不正行為: 生成 AI の創造力から、生成 AI を使用して大学の小論文を書いたり、求人応募用の見本を書いたり、その他の不正行為や違法コピーを行ったりするのではないかという懸念が生じています。
  • 業務内容に関する混乱: 生成 AI は思わず引き込まれるテキストや画像を作成することや、共通テストで良い成績を収めること、特定のトピックについて記事全体を執筆すること、提供された記事をうまく要約または記事の言葉遣いを改善することができるため、人々は不安を感じています。

責任あるAIの要素

責任ある AI の主な要素

  • 公正性: 公正性のある AI システムは、インクルージョンを促進し、差別を防ぎ、責任ある価値観と法的規範を守り、社会との信頼を築きます。
  • 説明可能性: 人間が理解できるように内部のメカニズムや決定の根拠をわかりやすく説明または提供する AI モデルの能力です。
  • プライバシーとセキュリティ: 盗用と漏えいから保護されるデータのことです。
  • 堅牢性: 想定外の状況、不確実性、エラーが発生しても AI システムが確実に動作するようにするためのメカニズムのことです。
  • ガバナンス: 生成 AI によって生じる可能性がある責任に関する問題、法的な問題、社会的な問題に対応します。 例えば、ガバナンスポリシーは、知的財産に対する個人の権利を保護するのに役立ちます。また、法律や規制の遵守を実施するためにも使用できます。
  • 透明性: 透明性により、個人、組織、ステークホルダーは AI システムの公正性、堅牢性、説明可能性を評価するためにアクセスできます。
  • 安全性: AI システムは、人間や環境に意図しない害を及ぼさないように注意深く設計およびテストする必要があります。
  • 可制御性: AI システムの動作をモニタリングし、人間の価値観や意図に合わせて AI システムを導くことができることを表します。

責任あるAIのビジネス上の利点

  • 信用と評判の向上
  • 規制コンプライアンス
  • リスクの軽減
  • 競争上の優位性
  • 意思決定の向上
  • 製品とビジネスの向上

責任あるAIのためにAmazonが提供しているサービス/ ツール

Amazon SageMaker

フルマネージド型の機械学習サービスです。

SageMaker Clarify では機械学習モデルとデータセットの潜在的なバイアスを特定できます。

Amazon SageMaker Data Wrangler では不均衡が生じた場合にデータのバランスを取ることができます。

Amazon SageMaker Model Monitor では、本番環境の SageMaker 機械学習モデルの品質をモニタリングします。

Amazon Augmented AI (Amazon A2I) は、機械学習の予測を人間がレビューするために必要なワークフローを構築できるサービスです。

Amazon SageMaker Role Manager: 管理者は Amazon SageMaker Role Manager を使用して最小限のアクセス許可を数分で定義できます。

Amazon SageMaker Model Cards: SageMaker Model Cards を使用して、構想からデプロイまで、使用目的、リスクの評価、トレーニングの詳細などの重要なモデル情報の取り込み、取得、共有を行うことができます。

Amazon SageMaker Model Dashboard: SageMaker Model Dashboard を使用して、本番環境でのモデルの動作に関するすべての情報を 1 か所でチームに把握してもらうことができます。

Amazon Bedrock 

高パフォーマンスの FM を統合 API を介して提供するフルマネージドサービスです。

Amazon Bedrock のガードレールを使用して、ユースケースおよび責任ある AI のポリシーに基づいて生成 AI アプリケーション用のセーフガードを実装できます。Amazon Bedrock のガードレールを使用することにより、特定のトピックを回避したり、有害コンテンツをフィルターしたり、違反がないかどうかユーザー入力をモニタリングしたりすることができます。

AWS AI Service Card は、AWS AI サービスをよりよく理解するのに役立つ新しいリソースです。AI Service Card は責任ある AI ドキュメントの 1 つの形態で、AWS AI サービスの想定されるユースケースと制限事項、責任ある AI 設計の選択肢、デプロイとパフォーマンスの最適化のベストプラクティスに関する情報を 1 か所で見つけることができます。

モデルを選択する際の責任ある考慮事項

Amazon Bedrock または SageMaker Clarify のモデル評価を使用して、正解率、堅牢性、有害性、人間の判断を必要とする微妙な違いがあるコンテンツについてモデルを評価できます。

AI アプリケーションのモデルを選択する際は、ユースケースを詳細に定義する必要があります。特定のユースケースに合わせてモデルをチューニングできるため、これは重要です。

モデルのパフォーマンスは、次のようなさまざまな要因によって決まります。

  • カスタマイズのレベル : プロンプトに基づくアプローチからモデル全体の再トレーニングまで、新しいデータでモデルの出力を変更できること
  • モデルのサイズ: パラメータ数によって定義されたとおりにモデルが学習した情報の量
  • 推測のオプション : セルフマネージド型のデプロイから API コールまで
  • ライセンス契約 : 一部の契約では、商用利用を制限または禁止している
  • コンテキストウィンドウ : 1 つのプロンプトに入れることができる情報の量
  • レイテンシー : モデルが出力を生成するのにかかる時間

持続可能性の観点に基づいてモデルを選択する

責任ある AI における持続可能性は、長期にわたって社会的、環境的、経済的に持続可能な方法で AI システムを開発およびデプロイできることを指します。

モデルを選択する際の責任ある主体性に関する考慮事項

  • 価値観の整合
  • 責任ある推論スキル
  • 適切なレベルの自律性
  • 透明性と説明責任

モデルを選択する際の環境上の考慮事項

  • エネルギー消費量
  • リソース使用率
  • 環境影響評価

データセットの責任ある準備

データセットのバランスを取る

不当に差別することや、望ましくないバイアスを表すことのない責任ある AI モデルを作成するには、バランスの取れたデータセットが重要です。 

データ収集におけるインクルーシブネスと多様性は、トピックに関係なく最も重要な焦点と考える必要があります。

データキュレーション

データセットのバランスを取るためのもう 1 つの部分は、データセットのキュレーションです。データセットのキュレーションは、データをモデルで正確に実行できるようにデータのラベル付け、整理、前処理を行うプロセスです。

データ前処理 -> データ拡張 -> 定期監査

モデルには透明性と説明可能性が必要

透明性 : モデルが「どのように」決定を行うのかを理解するのに役立ちます。

説明可能性: モデルが「なぜ」その決定を行ったのかを理解するのに役立ちます。これにより、モデルの制限に関するインサイトを得ることができます。 

透明性と説明可能性があるモデルのメリット

  • モデルの信頼性を向上させることができ、ユーザーはモデルが特定の予測を行った理由を理解できます。
  • デバッグと改善を簡単に行うことが簡単
  • データとモデルの意思決定プロセスをより深く理解

透明性と説明可能性があるモデルのリスク

  • 開発とメンテナンスが複雑になると、コストの増加
  • モデル、データ、アルゴリズムの脆弱性を作ると、不正行為者によって悪用される可能性があります。
  • モデルが完全に透明で説明可能であるという非現実的な期待を提示すること。状況によっては、これが実現不可能であったり、意図されていなかったりする場合があります。
  • 提供する情報が多すぎると、プライバシーやセキュリティ上の問題が発生する可能性があります。

透明性と説明可能性を実現するための AWS のツール

透明性を実現するためのツール

AWS AI Service Card : AI サービスの構築に役立つ Amazon サービスに関する透明性のあるドキュメントを提供

Amazon SageMaker Model Card : 自分で作成または開発したモデルのカタログを作成し、モデルを文書化できます。

説明可能性を実現するためのツール

SageMaker Clarify: 表形式、NLP、コンピュータビジョンの各モデルについて、特定の入力に対するモデルの予測に最も影響を与えた特徴量について詳しく示すスコアを提供します。

SageMaker Autopilot: 機械学習モデルがどのように予測を行うかについてのインサイトを提供します。

解釈可能性のトレードオフ

解釈可能性: 解釈可能性は、重みや特徴量に基づいてモデルの出力を人間が解釈できるようにシステムにアクセスすることです。

解釈可能性が高くなると、通常はパフォーマンスが低下します。 

解釈可能性のトレードオフ

解釈可能性はモデルの透明性の特徴の 1 つです。解釈可能性は、人間が決定の理由をどの程度理解できるかということです。これは説明可能性を表していると思われるかもしれませんが、違いがあります。

解釈可能性

解釈可能性は、重みや特徴量に基づいてモデルの出力を人間が解釈できるようにシステムにアクセスすることです。例えば、ある企業でモデルの透明性を高め、モデルが予測を生成する理由と方法を正確に理解する必要がある場合、その企業は AI/機械学習の手法を構成する内部の動作を観察する必要があります。

説明可能性

説明可能性は、機械学習モデルを取り入れ、その動作を人間の言葉で説明する方法です。複雑なモデル (ブラックボックスなど) では、内部の動作が予測にどのように、またなぜ影響するのかを十分に理解することはできません。ただし、モデルに依存しない方法 (部分従属度、SHAP 従属度、サロゲートモデルなど) を使用すると、入力データの属性とモデルの出力の間の意味を見つけることができます。その理解があれば、AI/機械学習モデルの性質と動作を説明できます。

次の各タブを展開して、解釈可能性と説明可能性の実際の例を確認してみましょう。

解釈可能性の例

経済学者は、インフレ率を予測するために多変量回帰モデルを構築するとよい場合があります。モデルの変数の推定パラメータを表示して、さまざまなデータ例に基づいて予想される出力を測定できます。この場合、完全な透明性が得られ、経済学者はモデルの動作の正確な理由と方法を答えることができます。

説明可能性の例

ある報道機関では、ニューラルネットワークを使用してカテゴリをさまざまな記事に割り当てています。この報道機関はモデルを詳細に解釈することはできません。ただし、モデルに依存しないアプローチを使用して、入力記事データをモデルの予測と比較して評価できます。このアプローチを使用したところ、スポーツ組織について言及しているビジネス記事にモデルがスポーツカテゴリを割り当てていることがわかりました。報道機関はモデルの解釈可能性を使用しませんでしたが、モデルの動作を明らかにするための説明可能な答えを導き出すことができました。

モデルの解釈可能性がパフォーマンスにどのように影響するかを示す図。

ある企業でモデルの透明性を高め、モデルが予測を生成する理由と方法を正確に理解する必要がある場合、その企業には解釈可能性を提供するモデルが必要です。ただし、図に示すように、解釈可能性が高くなると、通常はパフォーマンスが低下します。 

高いパフォーマンスを実現しつつ、モデルの動作についての一般的な理解は保ちたい場合、モデルの説明可能性がより大きな役割を果たします。

新しい AI/機械学習プロジェクトを始めるときは、解釈可能性が必要かどうかを検討する必要があります。モデルの説明可能性はどの AI/機械学習のユースケースでも使用できますが、詳細な透明性が必要な場合、AI/機械学習の手法の選択が制限されます。

安全性と透明性のトレードオフ

モデルの安全性は、AI システムが世界とやり取りする際に害を及ぼさないようにする能力です。

モデルの安全性とモデルの透明性のトレードオフ

正解率: 大規模なニューラルネットワークのような複雑なモデルは、より透明性の高い単純な線形モデルと比較すると、正確性は高いものの解釈性は低くなる傾向があります。

プライバシー: プライバシー保護手法を使用すると安全性は向上しますが、モデルの検査は難しくなります。これにより、モデルの透明性が低下する可能性があります。

安全性: 安全性を得るためにモデルの出力を制限またはフィルタリングすると、元のモデルの推論の透明性が低下する可能性があります。

セキュリティ: 隔離された環境でモデルをトレーニングすると (プライベートで、外部データにアクセスできないネットワークでトレーニングされたモデル)、外部監査を受けにくくなる可能性があります。

モデルの可制御性

制御可能なモデルは、トレーニングデータの要素を変更することで、モデルの予測と動作に影響を与えることができるモデルです。可制御性が高いほど、モデルの透明性は高くなり、望ましくないバイアスや出力の修正が可能になります。

説明可能性がある AI の人間中心設計の原則

説明可能性がある AI の人間中心設計の主な原則は次のとおりです。

  • 意思決定を増強するための設計
    • 潜在的なリスクと間違い、特にストレスやプレッシャーのかかる環境で人間が意思決定を行うときに生じる可能性のあるリスクと間違いを最小限に抑えながら、テクノロジーを使用する利点を最大限に高めることを目的としています。
  • バイアスのない意思決定のための設計
    • 意思決定プロセス、システム、ツールの設計に、結果に影響を与える可能性のあるバイアスがないことを保証することを目的としています。
  • 人間と AI の学習のための設計
    • 人間と AI の両方にとって有益で効果的な学習環境とツールを作成することを目的としたプロセスです。

Amazon SageMaker Ground Truth

機械学習ライフサイクル全体に人間のフィードバックを組み込んでモデルの正解率と関連性を向上させるための、最も包括的なヒューマンインザループ機能が用意されています。

参考資料

Responsible Artificial Intelligence Practices

Test-Hack

Recent Posts

プロンプトの基礎

プロンプトを理解する プロンプ…

2週間 ago

機械学習モデル (ML) とは

機械学習モデルのトーレニングデ…

2週間 ago

機械学習開発のライフサイクル まとね

ML 開発のライフサイクル 機…

2週間 ago

AWS のインフラストラクチャとテクノロジー

MLフレームワーク Amazo…

1か月 ago