試用 Gemini 2.5，這是我們最新的模型，延遲時間短且效能更好。

Text-to-Speech

Text-to-Speech AI

透過採用 Google AI 技術精華的 API，將文字轉換為自然流暢的語音。

新客戶最高可獲得 $300 美元的免費抵免額，開始使用 Text-to-Speech 和其他 Google Cloud 產品。

以自然流暢的智慧型回應改善客戶互動
在您的裝置和應用程式中提供語音使用者介面，方便使用者參與互動
依據使用者偏好的語音和語言提供個人化的訊息

瞭解如何使用 Text-to-Speech API 製作合成語音

開始使用自修研究室

優點

高傳真語音

部署 Google 的創新技術，產生語調宛如真人的語音。以 DeepMind 的語音合成專業知識為基礎所打造的 API，可提供擬真的語音。

最豐富的語音選項

提供 380 多種語音選項，支援超過 75 種語言和方言，包括中文、北印度文、西班牙文、阿拉伯文、俄文等。您可以挑選最適合使用者和應用程式的語音。

獨一無二的語音

創造獨特的語音，讓您在所有客戶接觸點上呈現自己的品牌特色，而不是與其他機構共用相同的語音。

示範

實際運用 Text-to-Speech

自由輸入內容、選取所需語言，然後按一下「Speak It」即可聆聽。

主要功能與特色

Gemini-TTS

無論是簡短片段或完整故事，都能合成單人或多人語音，同時保留情境脈絡。只要使用簡單的自然語言提示詞 (支援超過 75 種語言/地區組合)，就能精準指定風格、口音、語速、語氣和情緒表達方式。如要瞭解詳情，請前往 Media Studio 或參閱說明文件。

Chirp 3：HD 語音

打造互動性高的代理，運用以 AudioML 為基礎的最新自然對話語音提供服務。這些語音提供高品質音訊、低延遲串流，並呈現自然聽感，融合人類口語停頓、情感表現和精準語調。如要瞭解詳情，請前往 Media Studio 或參閱說明文件。

Chirp 3：即時自訂語音

只要提供 10 秒的音訊，就能建立個人化語音模型。非常適合用於電玩遊戲、有聲書、Podcast 等，且支援的語言/地區組合超過 30 種。如要瞭解詳情，請前往 Media Studio 或參閱說明文件。

提示詞、文字和 SSML 支援

您可以使用簡單的純文字指令碼、SSML 標記，甚至強大的自然語言提示詞 (視模型支援情況而定)，控制數字和時間格式、呈現方式、發音和情緒。如要瞭解詳情，請前往 Media Studio 或參閱說明文件。

Gemini-TTS

瞭解如何使用 Gemini-TTS 精準控制語音合成，透過自然語言提示詞指定風格、語氣、語速和情緒表達方式。

Quickstart

Chirp 3：HD 語音總覽

瞭解如何透過 Chirp 3：HD 語音合成逼真且能引發共鳴的語音，並運用進階控制項，根據指令碼最佳做法微調音訊。

Quickstart

Chirp 3：即時自訂語音總覽

只要使用短短 10 秒的錄音內容，就能為組織打造獨特的個人化語音模型，快速生成個人語音。

Tutorial

使用 SSML 來朗讀地址

瞭解如何使用語音合成標記語言 (SSML) 來朗讀地址文字檔案。

Google Cloud Basics

Text-to-Speech 基本知識

使用 Text-to-Speech API 的基本概念指南。

Google Cloud Basics

支援的語音和語言

瀏覽這項產品的指南和資源。

找不到所需資訊嗎？

版本資訊

瞭解 Text-to-Speech 的最新版本

使用案例

用途

客服中心內的語音機器人

Dialogflow 的語音機器人可動態產生語音，而非播放預先錄製的靜態語音，能提供更優質的客戶服務語音體驗。以高品質的合成語音進行互動，讓來電者享有親切熟悉的個人化服務。

用途

在裝置中產生語音

將您的裝置當做文字閱讀器使用，讓裝置發出擬真語音，與使用者自然地溝通。搭配使用 Speech-to-Text 和 Natural Language 來建立端對端語音使用者介面，以輕鬆而吸引人的互動來改善使用者體驗。

用途

無障礙電子節目表

輕鬆讓系統讀出電子節目表的文字內容，藉此為客戶提供更優質的使用者體驗，並讓您的服務和應用程式符合無障礙需求。試試電子節目表示範。

輕鬆將文字轉語音功能導入電子節目表，為客戶提供更優質的使用者體驗，並讓服務和應用程式符合無障礙需求。

所有功能與特色

串流音訊合成	透過串流音訊合成功能，協助 AI 代理提供超低延遲語音體驗，實現流暢而即時的對話互動。
長音訊合成功能	使用長音訊合成功能，以非同步的方式合成輸入內容，最高可達 100 萬位元組。
語音和語言選項	針對超過 75 種語言和方言提供 380 多種語音，而且即將推出更多選項。
文字與 SSML 支援	您可以使用語音合成標記語言 (SSML) 標記來自訂語音，例如加入停頓點、數字、日期與時間格式設定，以及其他發音指示。
音調微調	自訂所選語音的音調，最多可以比預設音調升高或降低 20 個半音。
誦讀速度微調	您可以將誦讀速度調整為比正常速度快或慢 4 倍。
音量增益控制	輸出音量最多能提高 16 db 或降低 96 db。
整合 REST 和 gRPC API	輕鬆整合可傳送 REST 或 gRPC 要求的任何應用程式或裝置，包括手機、電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。
多種音訊格式	將文字轉換為 MP3、Linear16、OGG Opus 和其他多種音訊格式。
音訊設定檔	可針對用來播放語音的喇叭類型進行最佳化處理，例如耳罩式耳機或電話聽筒。

定價

系統每月計算 Text-to-Speech 的費用時，會按照傳送至這項服務進行音訊合成的字元數計費。WaveNet 語音每月前 100 萬個字元免費。如果是標準 (非 WaveNet) 語音，則每月前 400 萬個字元免費。免費方案的額度用完後，系統會依據 Text-to-Speech 處理的文字量向您收費 (計費單位為 100 萬個字元)。

如果使用美元以外的貨幣付費，系統將按照 Google Cloud SKU 頁面上列出的相應貨幣價格計費。

展開下一步行動

新客戶可獲得 $300 美元的免費抵免額，開始使用 Text-to-Speech 和其他 Google Cloud 產品。

需要入門協助嗎？
聯絡銷售人員
與值得信賴的夥伴合作
尋找合作夥伴
繼續瀏覽
查看所有產品

Text-to-Speech AI

高傳真語音

最豐富的語音選項

獨一無二的語音

實際運用 Text-to-Speech

主要功能與特色

Gemini-TTS

Chirp 3：HD 語音

Chirp 3：即時自訂語音

提示詞、文字和 SSML 支援

最新消息

說明文件

Gemini-TTS

Chirp 3：HD 語音總覽

Chirp 3：即時自訂語音總覽

使用 SSML 來朗讀地址

Text-to-Speech 基本知識

支援的語音和語言

找不到所需資訊嗎？

探索更多文件

使用案例

客服中心內的語音機器人

在裝置中產生語音

無障礙電子節目表

所有功能與特色

定價

展開下一步行動

需要入門協助嗎？

與值得信賴的夥伴合作

繼續瀏覽