Amazon Pollyを試してみた

投稿者: | 2019-05-21

前から気になっていたAWSの音声合成Amazon Pollyを試したときのメモです(2019年5月)。

Amazon Pollyをはじめる

Amazon Polly(深層学習を使用したテキスト読み上げサービス)| AWS

のリンクをクリックして、「Amazon Pollyの使用を開始する」のボタンをタップ。

もう一度、開始するのボタンをタップするとコンソール画面に移動します。

プレーンテキスト部分に文字を入れて、「音声を聴く」ボタンを押すと再生されます。

音声ファイルのダウンロード

MP3のダウンロードで音声データをダウンロードできます。ファイル形式はMP3以外にも、OGG、PCM、Speech Marksを選択可能。

音声は、日本語の場合、Mizuki, 女性とTakumi, 男性のみ。

特別な言葉は、発音がおかしい場合があるので、レキシコン、またはSSMLで修正します。

とりあえず試すなら、SSMLを使うのが良さそうです。多く利用するようであれば、レキシコンが良さそう。SSMLはタグで直接文字を指定する感じ。レキシコンは、そのライブラリという感じ。

AWS CLIを使って管理したりもできるけど、最初はそこまでしなくても良いかなと思います。

AWS Command Line Interface (AWS CLI) は、コマンドラインシェルでコマンドを使用して AWS サービスとやり取りするためのオープンソースツールです。

AWS Command Line Interface とは – AWS Command Line Interface

SSMLタグを使って発音させてみる

プレーンテキストの右側のタブ「SSML」をクリックします。

こんな感じでHTMLのタグのようなものを入れて発音させます。

<speak>最近、3キロほど痩せました。うれしいです。</speak>
タグ無し

とりあえずお試しなので、適当にタグを入れてみました。emphasisは強調だそうです。

<speak>最近、<emphasis>3キロ</emphasis>ほど痩せました。うれしいです。
</speak>
emphasisのタグ入れてみた

違いが出てますね。もともとの音声が良い感じなので、あまり使うことはないかもしれません。

タグの一覧は、

Amazon Polly でサポートされている SSML タグ – Amazon Polly

で確認できます。

SSML を使用する (コンソール) – Amazon Polly

費用

【Amazon Polly】料金(人工知能を活用したテキスト読み上げサービス) | AWS

最初に開始してから、12 か月間は1 か月あたり 500 万文字まで無料で利用できます。Webサービスとかで利用しないかぎりは、1 か月で500 万文字は超えることがないかなと思います。

すごい使ったなーって思っても、

リクエスト 1,000 件、リクエスト 1 件あたり 1,000 文字100 万文字~ 23 時間 8 分
4.00 USD

ぐらいなので、個人利用の場合、有料だとしてもそれほどお金はいきそうにないかなと思います。

WordPressのプラグイン

WordPressのプラグインがあるようです。

プラグインをインストールする – Amazon Polly

サイトの文字を読ませたり、RSSのデータを読ませたりできるようです。

AHS 〔Win版〕 VOICEROID2 紲星あかり SAHS-40046 [Windows用]
価格:10051円(税込、送料無料) (2019/5/19時点)

楽天で購入