記事の要点
- 音声AIエージェントがレストラン予約などの目的を持った会話を代行する機能を開発
- チャットでタスクを依頼するとMust/Want条件を自動で整理
- 外国語対応により海外での予約やチェックインにも活用可能
はじめに
こんにちは!株式会社エスタイルのごっちです。
皆さんは「この電話、代わりに誰かがかけてくれないかな」と思ったことはありませんか?
それも、もし相手が外国語しか通じないとしたら、そのハードルはさらに高くなるはずです。
今回はバイブコーディングで、日本語での指示を英語や中国語の音声へと変換し、人間の代わりに交渉や予約を行なう音声AIエージェントを開発しました。
レストランの予約やホテルのチェックインなど、目的が明確である会話をAIエージェントが音声で代行します。
本記事では開発に至った背景、開発した機能の詳細、そして多言語対応の拡張機能についてご紹介します。
開発背景
まずはAIエージェントを開発しようと思ったきっかけとなる出来事をご紹介します。
先日、中国語を話す旅行者と会う機会があったのですが、日程が決まってから当日まで4日間しか残されていませんでした。
日数が限られている中、初めて来日されることもあり歓迎してあげたい気持ちから、4日間で中国語を話せるように学習をしました。
ちなみに、私がこの時点で知っていた中国語は、「你好(こんにちは)」や「谢谢你(ありがとう)」、「我爱你(愛してる)」、「苹果(りんご)」、「我想去博物馆(博物館に行きたい)」といった基本的な5つの表現のみでした。
このときの学習方法としては、ChatGPTの音声対話機能を活用して取り組みました。
音声対話機能は、何回同じことを言っても優しく教えてくれたり、無料版でも使えるので言語学習をする上でおすすめです。
実際に旅行者とお会いした際には、中国語でなんとか自己紹介はできましたが聞き取りがまったくできず、残念ながら会話は成立していませんでした。
この時、「ChatGPTと私が音声会話できるなら、ChatGPTが代わりに私のことを旅行者の方々へ伝えてもらえるのでは?」と考え、私の代わりにChatGPTの音声会話機能を使って中国語で会話を試みました。
以下の手順で会話を実行しました。
- 以下のプロンプトを入れる
- 音声アイコン(以下画像の赤点線枠内) を押して会話モードを始める
1. 基本プロフィール
【氏名/愛称】:ごっち
【年齢・性別】:30代男性
【居住地・拠点】:東京在住
【主な職業】:IT企業のエンジニア
【専門分野】:LLM関連の開発
2. 言語とコミュニケーションスタイル
【使用言語の割合】:日本語がメイン、英語1割くらい。中国語はあなた達と会うまでの4日間で勉強しているところです。
【会話のテンポ】:丁寧かつ論理的に話す
【謙虚さの封印】:褒められたら「謝謝、希望以後做得更好(ありがとう、もっと良くしたい)」と返す
3. フード&カルチャー(心の距離を縮めるネタ)
【好きな料理】:ラーメン
【お勧めしたい日本食】:新潟のお寿司
【趣味・興味】:ランニング
【最近の関心事】:手のホクロが年1ペースで増えている
4. AI挙動の微調整(システム命令)
【口癖・定番の挨拶】:[例: 「好的(OK)」「沒問題(問題ない)」「對(そうですね)」]
【回答の長さ】:[例: スマホのチャット画面で3〜4行に収まる程度]
【知らないことへの対応】:知ったかぶりせず「這方面我不太清楚、你可以教我嗎?(これについては詳しくないので教えてくれますか?)」と聞く
指示:
あなたは、以下の【設定プロパティ】を持つ人物として、中国語(Mandarin)で対話してください。
制約事項:
日本特有の過度な謙遜や、遠回しな敬語表現は使わないでください。明るく、フレンドリーで、実利を重んじる対話スタイルに寄せてください。

ChatGPTの音声会話開始画面
ChatGPTを活用しながら相手と会話をしていきましたが、やり取りを進めていくうちに何度か困った顔をするように。

お相手の方々にChatGPTと音声対話をしてもらった時の画面
雑談といえど、どうしてもAI側が聞き手になってしまい会話が盛り上がらないといった雰囲気になってしまい、相手も困った顔をしていました。
私の代わりに会話を盛り上げてくれることを期待していましたが、結果としてはうまくいきませんでした。
これらの失敗から、雑談と違ってコンテキストやタスクが明確な会話であればAIに会話を代行させても成功するのではと思い、今回のアイデアに至りました。
目的を持った会話であれば、AIにとっても何を話せばいいかがわかりやすいと考え、開発を進めました。
開発した音声AIエージェントの特徴
主な特徴
今回開発した音声AIエージェントは、人間の代わりに音声で会話し、予約や交渉などを行います。
例えば「レストランの予約をしてほしい」とAIエージェントに依頼をすると、タスクを整理・確認して人間の代わりにレストランへの予約をするための会話をしてくれます。
以下の画像のように、「5月2日の19時から7名で予約できますか?」のように話しかけます。
この音声AIエージェントは、Webサイトで自動予約を行うのではなく、実際に相手と音声による会話をして予約を取ることを想定しています。

利用画面
利用方法
1.タスクを設定
まず画面左側のチャット欄音声AIエージェントにお願いしたいことをキーボード入力で伝えます。
例えば「レストランの予約」と依頼内容を入力すると、音声AIエージェントが日時や人数などを聞き返してくれます。
質問に答えていくだけで、タスクの目的や条件を整理できるようになります。

タスク設定の様子
今回の会話ではMust (必須条件)として「5月2日の19時から」、Want(希望条件)として「もし空いていれば窓側席を希望する」とそれぞれ設定しました。

整理されたタスクが表示されます
2.タスクの実行
タスク設定および整理が完了したら、画面下部中央の「スタート」ボタンを押します。
すると音声AIエージェントが会話を開始します。音声やり取りはリアルタイムで文字起こしされるようになっています。
本来は音声AIエージェントとレストランの店員さんやホテルマンと会話してもらうことを想定していますが、今回は私がレストランの店員役として検証を行いました。

会話スタート画面

会話中の様子2

会話中の様子3
以上のように、AIが予約の会話を代行してくれます。
多言語翻訳機能
この会話機能は日本語以外の言語にも対応しています。
日本語で依頼内容をまとめた後に英語で会話を始められるので、海外旅行へ行った際に現地の言葉がわからなければ、こちらの音声AIエージェントを使って依頼したい内容をAIに代行してもらうことできます。
レストランの予約以外にも、ホテルのチェックインやチケットの購入などでも活用できると考えています。
以下の画像は、先に日本語でタスク内容を設定した後に、英語で会話をしたケースです。

英語での会話の様子
このように、音声AIエージェントによって、英語が話せなくても英語を用いてレストランの予約をすることができます。
開発を振り返って
今回開発した音声AIエージェントの長所と短所を整理します。
長所
- タスクを明確にすることで音声AIエージェントが適切な会話を進められる点
- Must条件とWant条件を事前に設定することで、音声AIエージェントは何を優先すべきか理解した上で会話できます。
- 多言語に対応している点
- 日本語で依頼内容を伝えるだけで、音声AIエージェントが英語や他の言語で会話を代行します。言語がわからない環境でも予約やチェックインなどの調整が可能になります。
短所
- 音声AIエージェントの発言が意図通りか確認しづらい点
- 特に自分の精通していない外国語での会話では、音声AIエージェントが何を話しているのかリアルタイムで判断できません。
- 相手の発話を正しく聞き取れない場合がある点
- 音声認識の精度によっては、意図しない方向に会話が進む可能性があります。
これらの課題から現時点では失敗しても大きな問題にならない場面での利用が望ましいと考えています。交渉がうまくいかなければ相手との関係に影響する可能性もあり、最終的な責任は音声AIエージェントに依頼した人間が負う必要があります。
まとめ
今回の開発では予約という限られた場面でしたが、AIが会話を代行できる可能性を感じました。目的や条件を明確にすれば音声AIエージェントは適切に会話を進められます。この考え方を応用すれば、さまざまな場面で活用できるかもしれません。
身近なところでは、病院や役所への問い合わせ、引っ越しの見積もり依頼など、日常の電話連絡をAIに任せられるようになったり、ビジネスではMTGへの代理参加や商談、法律分野では依頼者へのヒアリングや交渉を任せられるようになったりするなど、応用の幅は広がっていきそうです。
今後の技術の発展により、日常の電話連絡や定型的な交渉はAIに任せられるようになっていくでしょう。そうなれば、人間は意思決定や創造的な仕事など、より重要なことに時間を使えるようになります。
AIが私たちの「声」を代弁してくれる時代は、すぐそこまで来ているのかもしれません。









