PollyはAmazonのクラウドプラットフォームの一つで、テキストを音声に変換するサービスです(テキストから音声への変換)。テキストを音声に変換すること自体は珍しいことではありませんが、Google翻訳でも簡単にできます。しかし、Pollyはテキストに基づいて自然な音声を可能な限り生成することができますので、言語学習者にとっては大きな助けとなります。また、応用範囲も広く、字幕から音声、スクリプト、ナレーション、対話まで様々な用途に利用できます。さらに、Pollyを使用してPodcastを録音することも可能です。効果を試してみたい読者はAmazon Pollyにアクセスしてみてください。
一般的な言語のテスト
利用範囲として、中国語、英語、日本語、韓国語をテストしたいと思います。以下はPollyで変換した音声のサンプルです:
- 日本語
- 中国語(華語)
- 英語(アメリカ)
- 英語(イギリス)
- 韓国語
英語は言うまでもありませんが、非常に豊富なサポートがあり、アメリカ英語とイギリス英語の発音以外にも、さまざまな声優の声を選択することができます。非常に自然で、真人間と区別がつかないほどです。中国語は少し不自然に聞こえますが、台湾華語ではないと思われますが、普通話でもありません。日本語のサポートレベルは私の想像を超えており、文は非常に滑らかに聞こえます。さらに、英語が混ざっている場合、Pollyは英語を日本風の発音に変換して読み上げることさえあります。例えば、「この件についてはbug ticket必要でしょうか?」という文は、Pollyが次のように読み上げます:
声優のようにシーンに応じた豊かな音声変化をするわけではありませんが、私にとっては非常に便利なツールです。
Pollyには2つのオプションがあります。1つは「ニューラル音声」で、自然で最も人間に近い音声を生成します。もう1つは「標準」で、かなり自然な音声ですが、まだ機械音と分かることがあります。現時点では一部の言語のみが「ニューラル音声」をサポートしています。中国語、英語、日本語、韓国語の中で、英語と日本語、韓国語は「ニューラル」をサポートしています。
PollyはSSML(Speech Synthesis Markup Language)1をサポートしており、特定の文に対して一時停止したり、シーンに応じて声の調子を変えたりするためのマークアップを使用できます。これにより、より臨場感のある音声を実現することができます。
価格
価格表は公式ウェブサイトを参照してください。1百万文字あたり4ドル、ニューラル音声の場合は16ドルです。製品自体が大量のテキストを音声に変換する必要がない限り、一般的な補助ツールとしては非常に安価な価格で利用できます。個人開発者でも簡単に利用できます。
月額料金は処理する文字の数に基づいて請求されます。Amazon Pollyの標準音声の音声または音声マークアップリクエストは、1百万文字あたり4.00 USDで請求されます(無料プランを超えた場合)。Amazon Pollyのニューラル音声の音声または音声マークアップリクエストは、1百万文字あたり16.00 USDで請求されます(無料プランを超えた場合)。
統合(node.jsを例に)
Pollyを統合するのは非常に簡単で、aws-sdkを使用するだけです。以下はサンプルコードです:
polly.synthesizeSpeech(
{
Text: "おはようございます",
TextType: "text",
VoiceId: "Takumi",
LanguageCode: "ja-JP",
OutputFormat: "mp3",
},
(err, data) => {
if (err) {
console.log(err);
}
fs.writeFileSync("./result.mp3", data.AudioStream);
}
);
polly.startSpeechSynthesisTask()
このように書くと、変換された音声がresult.mp3
に保存されます。
結論
Pollyは使いやすくて安価であり、多くのアプリケーションでコンテンツの豊かさを向上させるために活用できると感じます。私は言語学習に使用しており、テキストを入力すると即座にリアルな発音を聞くことができますので、非常に便利です。
中国語のユーザーにとっては、音声は受け入れられるものの、台湾の方言ではないため抵抗感があるかもしれません。これは少し残念ですが、将来的には台湾の地元の方言を利用できることを期待しています。