音声合成エンジンを使った一人読み合わせで文書を校正する方法

2017/12/8 (金) 2017/12/9 (土)

先日職場で「文書の校正」について話題になりました。公的文書を含めて顧客や契約先に提示する文書に誤植や意味が分かりにくい記載があると問題になってしまいます。

先輩が「俺の前の職場では二人で読み合わせをしていた。一人が原稿を発声して読み上げ、もう一人がその原稿を追って確認するんだ。」と話されていました。その話を聞いて私も以前サポート回答メールの内容をチェックする際に似たようなことをやってたのを思い出しましたので紹介します。

サポートの回答内容も誤字は許されないので、チェックとして回答者以外の人（先輩とか）に内容も含めて文書を確認してもらう、ということは日常から行っていました。先輩に内容を見てもらう前に自分でもチェックはしますが、画面のテキストを見ているだけだと誤植や誤変換見過ごしてしまい、指摘されることが割と希にありました。

それをなんとかしたいと思って考え出したのが音声合成エンジンを使って一人で読み合わせを行う方法です。

音声合成とは

音声合成とは、人間の音声を人工的に作り出すものです。テキストをセットするとそのまま読み上げてくれます。10年以上前から存在はしていましたが、ここ数年でかなり自然に発生できるようになりました。無償で利用できるエンジンもそこそこの精度があります。ゆっくり実況と呼ばれる AquesTalk という現時点では無料の音声合成エンジンを使ってゲーム実況などを話させるのが有名です。

一人読み合わせの方法

音声合成エンジンをダウンロードしてインストールします。私は Softalk を使っています。サイトからダウンロードして解凍してください。exe を実行するだけで起動でできます。
私は一人読み上げ用に以下を設定していました。[オプション] → [環境設定] で設定変更ができます。Windows 10 では Program Files フォルダー内にインストールすると「管理者として実行」しなければ設定が保存されませんでした。
- [読み上げ1]
  - 「ArcGIS」とか英単語は正しく読めないので別途登録します。
- [表示] タブ
  - MS ゴシック（文字数のカウントを容易にするため）
  - 文書を右端で折り返す
- [声質] タブ
  - 女性01（ゆっくり実況や解説に使われている音声です。）
  - Microsoft Haruka Desktop - Japanese（これを選択すると少し人間らしい声質になります。語彙力も若干こちらが賢いです。速度は 130 くらいに早めた方が聞き取りやすい。）
- [その他] タブ
  - クリップボードを読み上げる
アプリを起動して、必要な文書を貼り付けます。
Softalk

貼り付けたら自動でしゃべり始めます。
文書を入力した場合は、[再生] ボタンを押すことで話し始めます。
[録音] ボタンを押すと話し内容が環境設定で指定したフォルダーに WAVE (*.wav) として保存されます。

女性01

Microsoft Haruka

イヤフォンで音声を聞きながら間違いがあれば文書を直して貼り付け直す、を繰り返します。これで2人の労力を使うことなく1人力で読み合わせを行うことができ、誤字や誤植もなくせました。

ただし、無料の音声合成エンジンは語彙力が乏しいので正しい漢字の読み仮名が使えない場合があります。英単語は読めないので辞書登録が必要です。また、説明の順序や書き方は耳で聞いても直せない場合があるので指導と経験が必要です。

羽田康祐

伊達と酔狂のGISエンジニア。GIS上級技術者、Esri認定インストラクター、CompTIA CTT+ Classroom Trainer、潜水士、PADIダイブマスター、四アマ。WordPress は 2.1 からのユーザーで歴だけは長い。代表著書『"地図リテラシー入門―地図の正しい読み方・描き方がわかる』 GIS を使った自己紹介はこちら。ESRIジャパン(株)所属、元青山学院大学非常勤講師を兼務。日本地図学会第31期常任委員。発言は個人の見解です。