カランのブログ

Kalan 頭像照片,在淡水拍攝,淺藍背景

四零二曜日電子報上線啦!訂閱訂起來

ソフトウェアエンジニア / 台湾人 / 福岡生活
このブログはRSS Feed をサポートしています。RSSリンクをクリックして設定してください。技術に関する記事はコードがあるのでブログで閲覧することをお勧めします。

今のモード ライト

我會把一些不成文的筆記或是最近的生活雜感放在短筆記,如果有興趣的話可以來看看唷!

記事のタイトルや概要は自動翻訳であるため(中身は翻訳されてない場合が多い)、変な言葉が出たり、意味伝わらない場合がございます。空いてる時間で翻訳します。

Amazon Polly - テキストを音声に変換すると、効果が非常に顕著です。

PollyはAmazonのクラウドプラットフォームの一つで、テキストを音声に変換するサービスです(テキストから音声への変換)。テキストを音声に変換すること自体は珍しいことではありませんが、Google翻訳でも簡単にできます。しかし、Pollyはテキストに基づいて自然な音声を可能な限り生成することができますので、言語学習者にとっては大きな助けとなります。また、応用範囲も広く、字幕から音声、スクリプト、ナレーション、対話まで様々な用途に利用できます。さらに、Pollyを使用してPodcastを録音することも可能です。効果を試してみたい読者はAmazon Pollyにアクセスしてみてください。

一般的な言語のテスト

利用範囲として、中国語、英語、日本語、韓国語をテストしたいと思います。以下はPollyで変換した音声のサンプルです:

  • 日本語
  • 中国語(華語)
  • 英語(アメリカ)
  • 英語(イギリス)
  • 韓国語

英語は言うまでもありませんが、非常に豊富なサポートがあり、アメリカ英語とイギリス英語の発音以外にも、さまざまな声優の声を選択することができます。非常に自然で、真人間と区別がつかないほどです。中国語は少し不自然に聞こえますが、台湾華語ではないと思われますが、普通話でもありません。日本語のサポートレベルは私の想像を超えており、文は非常に滑らかに聞こえます。さらに、英語が混ざっている場合、Pollyは英語を日本風の発音に変換して読み上げることさえあります。例えば、「この件についてはbug ticket必要でしょうか?」という文は、Pollyが次のように読み上げます:

声優のようにシーンに応じた豊かな音声変化をするわけではありませんが、私にとっては非常に便利なツールです。

Pollyには2つのオプションがあります。1つは「ニューラル音声」で、自然で最も人間に近い音声を生成します。もう1つは「標準」で、かなり自然な音声ですが、まだ機械音と分かることがあります。現時点では一部の言語のみが「ニューラル音声」をサポートしています。中国語、英語、日本語、韓国語の中で、英語と日本語、韓国語は「ニューラル」をサポートしています。

PollyはSSML(Speech Synthesis Markup Language)1をサポートしており、特定の文に対して一時停止したり、シーンに応じて声の調子を変えたりするためのマークアップを使用できます。これにより、より臨場感のある音声を実現することができます。

価格

価格表は公式ウェブサイトを参照してください。1百万文字あたり4ドル、ニューラル音声の場合は16ドルです。製品自体が大量のテキストを音声に変換する必要がない限り、一般的な補助ツールとしては非常に安価な価格で利用できます。個人開発者でも簡単に利用できます。

月額料金は処理する文字の数に基づいて請求されます。Amazon Pollyの標準音声の音声または音声マークアップリクエストは、1百万文字あたり4.00 USDで請求されます(無料プランを超えた場合)。Amazon Pollyのニューラル音声の音声または音声マークアップリクエストは、1百万文字あたり16.00 USDで請求されます(無料プランを超えた場合)。

統合(node.jsを例に)

Pollyを統合するのは非常に簡単で、aws-sdkを使用するだけです。以下はサンプルコードです:

polly.synthesizeSpeech(
  {
    Text: "おはようございます",
    TextType: "text",
    VoiceId: "Takumi",
    LanguageCode: "ja-JP",
    OutputFormat: "mp3",
  },
  (err, data) => {
    if (err) {
      console.log(err);
    }
    fs.writeFileSync("./result.mp3", data.AudioStream);
  }
);

polly.startSpeechSynthesisTask()

このように書くと、変換された音声がresult.mp3に保存されます。

結論

Pollyは使いやすくて安価であり、多くのアプリケーションでコンテンツの豊かさを向上させるために活用できると感じます。私は言語学習に使用しており、テキストを入力すると即座にリアルな発音を聞くことができますので、非常に便利です。

中国語のユーザーにとっては、音声は受け入れられるものの、台湾の方言ではないため抵抗感があるかもしれません。これは少し残念ですが、将来的には台湾の地元の方言を利用できることを期待しています。

Footnotes

  1. https://docs.aws.amazon.com/polly/latest/dg/ssml.html

次の記事

自作の簡易ラジオ

前の記事

雑感(MySQLからの離脱)

この文章が役に立つと思うなら、下のリンクで応援してくれると大変嬉しいです✨

Buy me a coffee