人工知能(AI)分野で革新的な存在として注目を集めるOpenAIが、ChatGPTモデルの進化を続けています。同社は、ユーザーによりコンテクストに沿った適切な回答を提供するため、AIモデルに高度なアップデートと新機能を常に追加しています。さらなる継続的改善の一環として、OpenAIは5月、ChatGPTに音声モードを導入すると発表しました。これにより、よりヒューマンライクな会話とパーソナライズが可能になります。待望の先進的音声モードが一部のユーザーに提供開始されました。
OpenAIが新しい先進的音声モードを限定的な有料ChatGPTユーザーにテスト提供開始
新しい「高度な音声モード」は、リアルタイムでより自然な会話を可能にし、やり取りの遅延やレイテンシーを解消します。この機能は現在、一部のChatGPT Plus会員向けにテスト提供されており、今秋までにはすべてのPlus会員が利用できるようになる予定です。
この高度なAIツールは、現行のChatGPTの音声モードよりもはるかに進化しており、感情や様々な状況を理解し、それに応じて反応することができます。これにより、より自然で人間らしい対話が可能になります。
OpenAIのGPT-4oの音声機能は、45言語で100人以上の外部レッドチームによる厳格なテストを経て、品質と安全性を確保
OpenAIによると、GPT-4oの音声機能は、45言語で100人以上の外部レッドチームによる厳格なテストを経て、品質と安全性を確保しているとのことです。先進的音声モードには、Juniper、Cove、Ember、Breezeの4つのプリセット音声が用意されており、物議を醸したChatGPT Skyの音声は削除されました。
フィルターとガードレールによる安全対策
OpenAIは、著作権侵害や声の悪用を防ぐために、フィルターとガードレールを設置しています。現在提供されているプリセット音声は、有名人の声を模倣したり、類似したりするものではありません。また、先進的な音声モードにプログラムされた4つの音声に一致しないものは、組み込みのフィルターとガードレールによってブロックされる仕組みになっています。これにより、著作権のあるコンテンツの生成や音声の悪用を防ぐことができます。
マルチモーダル機能
イベントではビデオや画面共有などのマルチモーダル機能もデモされましたが、これらは現在のアルファ版には含まれておらず、後日提供される予定です。
マルチモーダル機能とは、複数の種類のデータ入力や出力を組み合わせて使用する技術のことです。具体的には、次のような機能を指します。
- ビデオ: 映像を用いたコンテンツの表示や共有。
- 音声: 音声入力や音声出力によるインタラクション。
- テキスト: テキストベースの入力や出力。
- 画像: 静止画の表示や解析。
マルチモーダル機能を持つシステムは、これらのデータタイプを統合して利用することで、より豊かで直感的なユーザー体験を提供します。例えば、ユーザーが音声で質問をし、その回答がビデオやテキストで表示されるといった形です。
OpenAIのマルチモーダル機能は、異なるデータ形式を統合することで、よりインタラクティブで柔軟な対話が可能になります。
今後の展望とユーザーへの通知
同社は8月に、講じた安全対策、この機能の可能性と限界について、より詳細なレポートを提供する予定です。選ばれたChatGPT Plusユーザーには、ガイドラインを記載したメールとモバイルアプリ内のメッセージが届きます。有料のChatGPTユーザーの方は、メール通知に注目しましょう。
まとめ
OpenAIの「高度な音声モード」の導入は、AI技術の進化における重要な一歩です。より自然で人間らしい対話を可能にするこの機能は、AIとのコミュニケーションの未来を切り開くものとして期待されています。ChatGPT Plusユーザーは、この革新的な機能を体験できる機会に注目しておくべきでしょう。