悪意のあるAIチャットボットを見分けられますか？マイクロソフトのセキュリティ専門家が教える4つのヒント

「邪悪な」AIは存在します。そのモデルは、混乱や犯罪行為、そして何の役にも立たない目的で構築されています。しかし、正当なAIツールも改ざんされる可能性があります。ハッカーはAIにデータを供給することで、AIに悪影響を及ぼす可能性があります。その目的は、AIのデータセットに影響を与え、その出力を変更することです。

攻撃者は、バイアスの導入といった、より目立たない結果を望んでいるのかもしれません。あるいは、危険な不正確さや提案といった、悪意のある結果を求めているのかもしれません。AIは単なるツールであり、それが良い利益のために使われているのか悪い利益のために使われているのかを知りません。何に注意すべきかを知らなければ、サイバー犯罪の被害者になってしまう可能性があります。

先週、数千人のサイバーセキュリティ専門家が集まるRSACカンファレンスに参加した際、マイクロソフトのレッドチームのデータカウボーイ、ラム・シャンカール・シヴァ・クマール氏とAIセキュリティについて深く掘り下げる機会を得ました。レッドチームは企業の内部侵入テスト担当者として機能し、システムの脆弱性を見つけるために、意図的にシステムを破壊したり操作したりする方法を探します。

会話の中で、クマールは、会話相手がチャットボットであろうと、より自動的に情報を処理するエージェントであろうと、侵害されたAIから身を守るための鋭いヒントをいくつか教えてくれました。というのも、実は、侵害されたAIを見分けるのは非常に難しいからです。

1. 大手企業にこだわる

ChatGPT の実際の使用ダンジョンズ＆ドラゴンズのロールプレイングスクリーンショット — この分野の大手企業（OpenAI の ChatGPT など）によって作成および保守されている AI ツールは信頼性が高いですが、脆弱性がないわけではありません。

ジョン・マーティンデール / ファウンドリー

あらゆるAIツールには脆弱性が存在します。しかし、その分野の大手企業の意図（そして脆弱性を軽減する体制を整えたチームの規模）は、より信頼できると言えるでしょう。彼らはより実績のあるだけでなく、AIに対する明確な目標を持っているはずです。

例えば、OpenAIのChatGPT、Microsoft Copilot、Google Geminiはどうでしょうか？小規模で目立たないサブレディットで偶然見つけたチャットボットよりも信頼できるでしょう。少なくとも、ある程度の信頼は得やすいでしょう。

2. AIが何かをでっち上げる可能性があることを知る

長い間、Googleにカリフォルニアとドイツのどちらが大きいか尋ねると、AIによる検索サマリーは「ドイツ」と答えていました（違います）。マイルとキロメートルの比較をやめたのはつい最近のことです。

これは無邪気な幻覚、あるいは間違った情報が事実として伝えられた例です。（近所の2歳児が「犬は男の子しかいない」と自信満々に主張するのをご存知ですか？まさにそれと同じようなものです。）

AIが侵害されると、より危険な幻覚症状を呈したり、意図的に危険な行動に誘導したりする可能性があります。例えば、AIに毒を盛って、医療アドバイスの提供に関する安全対策を無視させてしまうようなことが考えられます。

AIからアドバイスや指示を受けたらどうしますか？常に礼儀正しく懐疑的な態度で受け止めてください。

3. AIは見つけたものだけを伝えることを覚えておく

AIチャットボットが質問に答える際、表示されるのは検索した情報の要約です。しかし、その詳細情報の精度は情報源の質に左右されます。そして現状では、情報源の質は必ずしも最高水準とは言えません。

AIが頼りにするソース資料は常に確認する必要があります。AIは時折、文脈から外れた情報を取り入れたり、誤解したりすることがあります。また、データセットの多様性が不足しているため、AIが最適なサイト（逆に、意味のあるコンテンツをほとんど公開していないサイト）を判断できない場合もあります。

興味深いニュースをシェアしてくれる人を知っていますが、彼らは必ずしも誰がその情報を教えてくれたのかを真剣に考えていません。私は必ずその人たちに、どこでその情報を聞いたのかを尋ね、その情報源が信頼できるかどうかを自分で判断します。きっとあなたもそうしているでしょう。同じ習慣をAIにも応用してみてください。

4. 批判的に考える

Wikipediaのトップページ — Wikipedia の初期の頃は、寄稿者が提供する情報を信頼しつつも検証することを教えられました（今でもそうすべきです）。AI チャットボットも同様に扱ってください。

PCワールド

上記のヒントをまとめると、すべてを知ることはできません（少なくとも、ほとんどの人はそうでしょう）。次に大切なのは、誰に頼るべきか、そしてどのようにそれを判断すべきかを理解することです。悪意のあるAIは、あなたが頭を働かせなくなると勝利します。

だから、常に自分自身に問いかけてください。「これは正しいですか？」自信過剰になってはいけません。

上記のヒントは、まずは始めるためのものです。しかし、読んだ内容を定期的に相互参照（つまり、AIヘルパーの作業を二重チェックするために複数の情報源を参照する）し、追加のサポートが必要なら誰に頼めばよいかを学ぶことで、その勢いを維持できます。私の目標は、これらの作業の後に、次の疑問に答えられるようになることです。「なぜ誰かがこの情報源の記事や動画を作成したのか？」

あるテーマについてあまり知らないときは、誰を信頼するかを賢く考える必要があります。

著者: Alaina Yee、PCWorld 上級編集者

テクノロジーとビデオゲームのジャーナリズムで14年のキャリアを持つアライナ・イーは、PCWorldで様々なトピックをカバーしています。2016年にチームに加わって以来、CPU、Windows、PCの組み立て、Chrome、Raspberry Piなど、様々なトピックについて執筆する傍ら、PCWorldのバーゲンハンター（#slickdeals）としても活躍しています。現在はセキュリティに焦点を当て、人々がオンラインで自分自身を守る最善の方法を理解できるよう支援しています。彼女の記事は、PC Gamer、IGN、Maximum PC、Official Xbox Magazineに掲載されています。