チューリングテスト

信頼の理由

チューリングテストとは

チューリングテストは、1950年にイギリスの数学者兼コンピュータ科学者であるアラン・チューリング博士によって考案された、人工知能(AI)の評価方法です。チューリングは「機械は思考することができるのか?」という問いに対して、シンプルな解答方法を模索していました。

チューリングは、「思考とは何か」という哲学的問題には踏み込まず、具体的で実用的なテストに置き換えることを提案しました。もし機械が人間の反応と見分けがつかないほど模倣できるならば、それは実質的に「思考している」と見なすことができます。このアプローチは、機械知能を評価するための基準の一つとなりました。

機械知能についての質的データを集めるため、チューリングは「イミテーションゲーム」という質問に基づく有名なゲームを採用しました。

イミテーションゲームとは

チューリングの機械知能テストは、ビクトリア朝時代に流行したあるパーティーゲームに基づいています。このゲームは、男性、女性、尋問者の合計3人で行い、男性と女性は別の部屋にいて、尋問者はまた別の部屋にいます。

ゲームは、尋問者が一連の質問をして、2人の参加者に答えさせることから始まります。ゲームの難易度を上げるため、一方の参加者には答えを捏造することが許され、もう一方の参加者は常に真実を話すように求められます。尋問者がどの回答が男性からで、どれが女性からのものかを正確に判別することが、このゲームの目的となります。

イミテーション・ゲームの解説

チューリングテストの仕組み

チューリングが1950年の論文“Computing Machinery and Intelligence,” で説明しているように、チューリング版のイミテーションゲームも尋問者と2人の参加者が必要となります。ただし、チューリング版では、参加者の一人が人間で、もう一人がコンピュータ(計算機)です。

チューリングテストでは「思考とは何か」という哲学的な問題を避け、機械知能に対する実用的な基準を設定するための先駆的な取り組みとなりました。チューリングは、尋問者が機械と人間の反応を区別できない場合、その機械は人間のような思考プロセスと知能を持つとみなすことができる、と提唱しました。

機械知能を決定する正確な基準は常に議論の対象となってきました。チューリングの論文によると、陪審員の尋問者が、実際にはコンピュータ・プログラムと対話しているにもかかわらず、70%以上の確率で別の人間と対話していると信じる場合、そのソフトウェアの開発者は、自分たちのAIがチューリングテストに合格したと主張できると言われています。

チューリング・テストの解説

チューリングテストの重要性

チューリングテストが歴史的に重要なのは、機械が思考できるかどうかという議論から、機械が人間のような会話を再現できるかどうかという議論へと焦点を移したからです。この焦点の変更は、コンピュータ・サイエンスの世界における進歩を評価するための実用的な枠組みとなりました。

長年にわたり、チューリングテストの妥当性は、コンピュータ科学者、哲学者、認知心理の学者の間で多くの議論を巻き起こしてきました。チューリングテストが長く続いているのは、技術的なベンチマークとしてだけでなく、機械が本当に知能を持ち得るかどうかを探求し、哲学的な議論を促すツールとしての役割を果たしているからです。

しかし、知能の基準として会話を主にすることで、知能の捉え方が狭まり、感情的知能や空間的知能、創造的知能といった他の知能の重要性が否定されることになりました。

現代の機械学習やニューラルネットワークの進歩により、学習データのパターンを正確に模倣するアーキテクチャを持つチャットボットを作成することが可能になっています。例えば、ChatGPT-4やGoogle Bardは、様々な会話のトピックを巧みに扱い、多くの場合、人間の反応と見分けがつかないような回答をすることができます。

ただし、それはチャットボットが知能を持っているという意味にはなりません。長時間の対話では、チャットボットを支える大規模言語モデルがハルシネーションを起こしたり、一貫性がなく矛盾した非論理的な結果を生成したりすることがあります。

チューリングテストにおける初期の問題点

チューリングは今でこそ先見の明がある人物と認識されているものの、生前は物議を醸す存在で、その業績が必ずしも評価されたわけではありませんでした。多くの学者や宗教家は、機械が人間の思考を模倣できるという考えに疑問を抱き、チューリングの革新的な考え方は、哲学的や神学的の分野で多くの議論を引き起こしました。

しかし、チューリングは自分の考えに対する異論を予想しており、機械が人間の思考を模倣できると裏付ける根拠について反論を行いました。この信念はチャーチ・チューリングの論文で説明されている。

チャーチ・チューリングの論文は、人間が特定の指示を用いて解くことができる任意の計算や数学的問題は、機械でも解くことができると提案しています。この考えは、現代コンピュータ科学の基礎となっています。

チューリングマシンと万能チューリングマシン

チューリングが初めて機械知能の概念を導入したのは、1936年の論文 “On Computable Numbers, with an Application to the Entscheidung’s Problem “です。この論文でチューリングは、適切な命令が与えられればどのような数列も計算できるシンプルな理論装置を紹介しました。

チューリングマシンは、計算を行うための抽象的な数学モデルです。チューリングの考えるマシンは、セルに分割された無限のテープ、左右に動くテープヘッド、そしてテープヘッドによる読み取り方法と書き込み方法を指示する一連の状態とルールから成っていました。彼は、各チューリングマシンが特定のタスクや計算を実行するよう設計されると想定していました。

さらに、チューリングは万能チューリングマシンも提案しました。これは、他のチューリングマシンをシミュレートできる特別なチューリングマシンを指します。理論上、万能チューリングマシンに別のチューリングマシン(とその入力)の説明を与えると、万能チューリングマシンはその情報を自分自身の入力として扱うことができます。

万能チューリングマシンの概念は、正しい入力が与えられれば、ある計算機が他のどの計算装置もシミュレートできるという考えを導入しました。現代のコンピュータ・プログラムの基礎となっており、汎用コンピュータの開発において重要な一歩となりました。

チューリングテストは現在も有効な評価方法なのか?

チューリングテストは主に、AIを評価するためのツールとみなされています。

チューリングテストがいまだに語り継がれているのは、AI研究に影響を与えたからです。基本的に、チューリングは「機械は思考することができるか?」という哲学的な問題を、データに基づいて実際に答えることができるかどうかという別の問題に変えました。

「機械は、会話中に人間と見分けがつかないように振る舞うことができるか?」という新たな問いには、科学的な方法を用いて明確に答えることが可能です。

この微細ながらも重大な視点の変化は大きな影響を及ぼし、初期の人工知能(AI)研究者たちが自然言語処理(NLP)、自然言語理解(NLU)、自然言語生成(NLG)の研究により注力するよう促進しました。

チューリングテストと対話型AI

チューリングの死後数十年の間に、エニグマ暗号解読におけるチューリングの役割が有名になり、機械知能に関する貢献や洞察が再検証されるようになりました。以下の技術や概念はチューリングテストと共通するテーマを持ち、人間の行動を機械が正確に模倣しようとするものです。

  • チャットボット:人間の会話を模倣するよう設計されたソフトウェア・アプリケーションです。初期は、人間のようなやりとりを模倣することを目的としており、チューリングテストの目的に直接なぞらえたものでした。
  • 音声アシスタント:AmazonのAlexa、Googleアシスタント、Siri、Cortanaなどの技術は、人間のようにユーザーの指示を理解し応答することを目指しており、チューリングテストの会話基準を反映しています。
  • 自然言語処理(NLP):チューリングテストが会話に焦点を当てたことで、人間の言語を理解し生成する研究が促進され、ビジネス用のNLPツールやアルゴリズムが開発されました。
  • 機械学習:チューリングテストに限らず、特に言語モデルのためのディープラーニング技術(OpenAIのGPTシリーズなど)は、より人間らしい出力を生成し、チューリングテストに合格する試みとみなされます。
  • 会話型AIプラットフォーム:GoogleのDialogflowやMicrosoftのBot Frameworkなどのツールやプラットフォームは、会話エージェントや会話型ユーザーインターフェース(CUI)の作成を可能としています。
  • CAPTCHA:人間とボットを区別するためにウェブサイトで使用されるテストで、逆チューリングテストの一種と言えます。人間にとっては簡単ですが、機械には難しいように設計されています。
  • チューリング番号:オンラインで人間のユーザーを識別し、ボットと区別するためのプロセスです。
  • 感情分析ツール:テキスト内の感情を理解することに焦点を当てていますが、チューリングテストを思い起こさせる人間のコミュニケーションの側面を捉えることを目的としています。
  • インタラクティブ・ストーリーテリングとNPC(非プレイヤーキャラクター):ビデオゲーム内で、高度な対話や選択肢を持つNPCは、チューリングテストの考え方を反映し、人間らしいやり取りをします。
  • カスタマーサポートボット:ウェブサイトやサポートチャネルでよく見られるボットは、人間のように問い合わせに回答してから、必要に応じて本物の人間に話を移行させます。
  • 敵対的生成ネットワーク(GAN):GANが新しいデータを生成するために使用する敵対的プロセスは、チューリングテストを彷彿とさせます。どちらの場合も、「本物」のソースと見分けがつかない出力を生成することが目的です。

チューリングテストと生成AI

生成AIに関する記事で頻繁にチューリングテストが引き合いに出されるのは、チューリングテストが本質的に生成型であるからです。言語モデルが物語、記事、詩を生成する際、それは単に単語を並べるだけでなく、あたかも人間によって作られたかのように感じられるコンテンツを作ろうとします。

対話式の会話を試みた最初のコンピュータープログラムの一つであるELIZAは、1960年代にMITのジョセフ・ワイゼンバウムによって作られたチャット型ロボットです。ELIZAは人間のような会話を模倣し、本物の人間と対話しているかのように人々を騙すことができた最初のコンピューター・プログラムのひとつであり、チューリングテストに関する議論でよく言及されます。

当時、ELIZAは、人間が会話の順番を指定することなく、様々な応答を生成したことから、生成的なものと見なされていました。

チューリングテストを合格しようとした有名な試み

ELIZAはチューリング・テストに合格するよう明確に設計されたわけではありませんが、ある種の人間同士のやりとりを模倣するチャットボットの能力は、人工知能と人間とコンピューターの対話の歴史において重要な節目となりました。

ELIZAに対する人々の反応は、機械に他の人間の特徴を反映させようとする人間の傾向も浮き彫りにしました。この現象は「ELIZA効果」と呼ばれ、情報技術における擬人化の同義語として使われることもあります。

ELIZA以外にも、会話型AIとチューリングテストに関連するチャットボットには以下のようなものがあります。

  • PARRY(1972年):精神科医のケネス・コルビー氏によって設計されたPARRYは、統合失調症を患う患者のシミュレーションを行いました。PARRYがテレタイプ端末を使って精神科医たちと「会話」をしたとき、一部の医師は本物の人間とやり取りをしていると信じました。
  • Racter(1980年代):作者は、“The Policeman’s Beard is Half Constructed.”というタイトルの本を書いた最初のAIプログラムだと主張しましたが、本を作成する際にどれだけ人間が介入したかについて大きな議論がありました。
  • Jabberwacky(1990年代):イギリス人プログラマーのロロ・カーペンター氏によって作成されたJabberwackyは、人間のような会話を模倣し、対話から学習するように設計されました。インドで開催された2011年度Techniche festivalで正式なチューリングテストに参加したCleverbotに引き継がれました。
  • Eugene Goostman(2014年):13歳のウクライナ人の少年の会話をシミュレートするように設計されたこのチャットボットは、ロンドンの王立協会で開催された大会でチューリングテストに合格したと主張しています。Goostmanボットは作成以来いくつかのチューリングテスト大会に出場しており、2005年と2008年のローブナー賞コンテストで2位になりました。
  • Google Duplex(2018年):Google Duplexは、ユーザーのレストランの予約、サロンの予約、その他同様のタスクを行うように設計されました。ボットは従来の意味でのチューリングテストの候補にはなりませんでしたが、「うーん」や「ああ」などのあいづちを含めて、電話越しに自然な会話を行う能力で注目されています。
  • OpenAIのGPT-3(2020年):OpenAIのGPT(Generative Pre-trained Transformer)チャットボットの第3世代は、機械生成コンテンツの性質とチューリングテストの限界について新たな関心と議論を巻き起こしました。

有名なチューリングテストの大会

長年にわたり、人工知能プログラミングの “知性”を評価するために、論争の的となったチューリングテストを使用した競技会がいくつかありました。よく知られている例としては、以下のようなものがあります。

  • Loebner Prize:1990年にヒュー・ローブナーがケンブリッジ行動研究センターと共同で創設したもので、最も有名なチューリングテスト大会の一つです。しかし、2020年に廃止されました。
  • Chatterbox Challenge:2000年代初頭に始まり、数年間にわたって開催された毎年恒例の大会です。全盛期は、Chatterbox Challengeはチャットボットコンテストの最高峰の一つでした。
  • Chatbot Battle Arena:このウェブサイトでは、異なるチャットボットを互いに戦わせ、視聴者がどのボットが勝者であるかを決めることができます。この大会では、視聴者が勝利の基準を自分で決めます。
  • Turing100:2012年にthe European Association for Artificial Intelligenceによって開催されました。アラン・チューリング生誕100周年を祝うイベントの一部でした。
  • 2K BotPrize:ビデオゲーム「Unreal Tournament 2004」の中で開催された大会です。大会の課題は、会話に重点を置くのではなく、プログラマーがゲーム内で人間プレイヤーと間違われるほど人間らしく振る舞うボットを作成することでした。

チューリングテストの代替案

チューリングテストの限界を補完するため、チューリングテストに代わる様々な評価や補足案が提案されています。一部には、会話型AIを超える機械知能を評価するためのテストもあります。

中国語の部屋は、哲学者ジョン・サール氏によって提唱された思考実験で、チューリングテストの妥当性に異議を唱え、コンピュータが言語を理解したり思考したりすることは不可能であることを証明しようとした取り組みです。

Lovelaceテストは、女性プログラマーの先駆けであるエイダ・ラブレスの名前にちなんで名付けられました。このテストは、機械が明示的にプログラムされていないオリジナルの芸術的コンテンツを作成する能力を評価する取り組みです。

Marcusテストは、ニューヨーク大学の認知科学者ゲイリー・マーカス氏によって提唱された人工知能のテストです。AIが現実世界の出来事を理解し、対応する能力を評価するように設計されています。

現代におけるチューリングテストの利用

以前ほど機械知能の指標としての地位は確立していないものの、チューリングテストの遺産は依然として存在します。チューリングテストは、議論やマーケティングの貴重なツールとしてあり続けています。

  • AIコンテスト:Loebner Prizeは廃止されましたが、チャットボット開発者のための小規模な大会では、依然としてチューリングテストが評価基準の一部として取り入れられています。
  • 自然言語処理(NLP)能力のベンチマーク:チューリングテストは、NLPアルゴリズムの性能のベンチマークとして、AIコミュニティで非公式に使用されることがあります。NLPモデルが人間のような回答を生成できる場合、しばしばチューリング・コンプリート(Turing Complete)またはチューリング・テスト・キャパブル(Turing Test-Capable)と言われます。
  • 教育ツール:チューリングテストは、AI、認知コンピューティング、哲学に関連する学術コースで頻繁に議論されます。イミテーション・ゲームは、感覚的な機械知能と意識の概念を探求する出発点として、今でもその用途があります。
  • メディアとポップカルチャー:チューリングテストは、ロボット、アンドロイド、自己認識する機械などにまつわる映画、文学、議論の中でしばしば言及されます。
  • 倫理:音声、動画、テキストベースの生成AIモデルの進歩により、特に近年、チューリングテストの持つ意味合いについて新たな議論が巻き起こっています。もし機械が人間を巧みに模倣できるようになった場合、欺瞞や信頼、そしてそのような技術の倫理的な使用に関する問題が生じる可能性があります。
  • マーケティング:チャットボット、音声アシスタント、その他の会話型エージェントを開発する企業は、その生成ソフトウェアがいかに「人間と似ている」かを測定する方法として、チューリングテストを参照することが多いです。この場合、チューリングテストは実際的なベンチマークというよりも、宣伝文句として使用されています。

よくある質問

なぜチューリングテストは合格が難しいのか?

会話型AIがチューリングテストに合格するために必要なスコアは?

Siriはチューリングテストに合格できるのか?

Alexaはチューリングテストに合格できるのか?

ChatGPTはチューリングテストに合格できるのか?

チューリングテストはAIが自己意識を持つかどうかを判断できますか?

チューリングテストはチャットボット以外にも使えるのか?

関連用語

マーガレット・ローズ
テクノロジーエキスパート

マーガレット・ローズは、受賞歴のあるテクニカルライター兼教師です。説明能力に優れており、複雑なテクノロジーを一般の方にもわかりやすく説明します。過去20年にわたり、彼女が書いたITの定義はQueのテク…...