前から気になっていたAWSの音声合成Amazon Pollyを試したときのメモです(2019年5月)。
Amazon Pollyをはじめる
Amazon Polly(深層学習を使用したテキスト読み上げサービス)| AWS
のリンクをクリックして、「Amazon Pollyの使用を開始する」のボタンをタップ。
もう一度、開始するのボタンをタップするとコンソール画面に移動します。
プレーンテキスト部分に文字を入れて、「音声を聴く」ボタンを押すと再生されます。
音声ファイルのダウンロード
MP3のダウンロードで音声データをダウンロードできます。ファイル形式はMP3以外にも、OGG、PCM、Speech Marksを選択可能。
音声は、日本語の場合、Mizuki, 女性とTakumi, 男性のみ。
特別な言葉は、発音がおかしい場合があるので、レキシコン、またはSSMLで修正します。
とりあえず試すなら、SSMLを使うのが良さそうです。多く利用するようであれば、レキシコンが良さそう。SSMLはタグで直接文字を指定する感じ。レキシコンは、そのライブラリという感じ。
AWS CLIを使って管理したりもできるけど、最初はそこまでしなくても良いかなと思います。
AWS Command Line Interface (AWS CLI) は、コマンドラインシェルでコマンドを使用して AWS サービスとやり取りするためのオープンソースツールです。
AWS Command Line Interface とは – AWS Command Line Interface
SSMLタグを使って発音させてみる
プレーンテキストの右側のタブ「SSML」をクリックします。
こんな感じでHTMLのタグのようなものを入れて発音させます。
<speak>最近、3キロほど痩せました。うれしいです。</speak>
とりあえずお試しなので、適当にタグを入れてみました。emphasisは強調だそうです。
<speak>最近、<emphasis>3キロ</emphasis>ほど痩せました。うれしいです。
</speak>
違いが出てますね。もともとの音声が良い感じなので、あまり使うことはないかもしれません。
タグの一覧は、
Amazon Polly でサポートされている SSML タグ – Amazon Polly
で確認できます。
SSML を使用する (コンソール) – Amazon Polly
費用
【Amazon Polly】料金(人工知能を活用したテキスト読み上げサービス) | AWS
最初に開始してから、12 か月間は1 か月あたり 500 万文字まで無料で利用できます。Webサービスとかで利用しないかぎりは、1 か月で500 万文字は超えることがないかなと思います。
すごい使ったなーって思っても、
リクエスト 1,000 件、リクエスト 1 件あたり 1,000 文字 | 100 万文字 | ~ 23 時間 8 分 | 4.00 USD |
ぐらいなので、個人利用の場合、有料だとしてもそれほどお金はいきそうにないかなと思います。
WordPressのプラグイン
WordPressのプラグインがあるようです。
サイトの文字を読ませたり、RSSのデータを読ませたりできるようです。