音声の自動文字起こし

さて、せっかく新しくnotesを作ったので、久しぶりに記事を書いてみたいと思います。といっても、テクノロジー系のものですが、最近はこうした技術をちょっとずつ蓄積して、知的生産活動と呼ばれるものの新しい形を模索しています。ええ、知的生産活動そのものからの逃避です。

理屈としては以下の流れになります。

1.音声をパソコンに入力する
2.入力された音声を文字化するサービスを使う
3.文字化されたデータを修正する

このうち、最後の作業は校正の作業で、ある意味手作業です(パソコンが出始めの頃は、パソコン上の修正を手作業とは呼ばなかったものですが、手作業の意味も変わってきました)。

1.音声をパソコンに入力する

通常、パソコン上で音声を流すとスピーカーから音として出力されます。このままでは文字起こしに使えません。そのため、パソコンからの出力をパソコンへの入力とする、イメージ的にはパソコンのスピーカーから出る音をそのままパソコンのマイクに入力するという設定を行ないます。

このようなことをしてくれるソフトウェアのことを、仮想オーディオデバイスと言います。ここでは、MacではBlackholeを、WindowsではVB-CABLEを使います(後者についてはこちらも参考になると思います)。Windows10では、標準でこの機能がついているようです。

Macの場合

Blackholeのウェブサイトで名前とメールアドレスを入力します
送られてきたメールにあるリンクからダウンロードをします
インストールをします

a. 簡単な設定

最も簡単な設定は、単純に出力を入力につなぐものです。この場合、音声がスピーカーから聞こえません。自動で文字起こしをして放置しておきたい時には便利です。

「システム環境設定」の「サウンド」を開き、「出力」を「BlackHole 16ch」にします
音量を上げておきます
「入力」を「BlackHole 16ch」にします

以上で設定は完了です。

b. 複雑な設定

より複雑な設定は、出力を入力につなぐと同時にスピーカーにもつなぎます。音声を聞きながら、自動で文字起こしをさせたい場合に便利です。

「アプリケーション」の「ユーティリティ」フォルダ内にある「Audio Midi設定.app」を立ち上げます
左下の「+」から「複数出力装置を作成」を選びます
リストに作成された「複数出力装置」の名前を分かりやすいものに変えます(例ではMacBook ProのスピーカーとBlackHoleという意味でMBP+BHという名前にしています)
右のリストから「スピーカー」を選び、その後に「BlackHole 16ch」を選びます(順番が大事です)

「システム環境設定」の「サウンド」を開き、「出力」を先ほどの装置(例では「MBP+BH」)にします
音量を上げておきます
「入力」を「BlackHole 16ch」にします

Windowsの場合

a. 簡単な設定

最も簡単な設定は、単純に出力を入力につなぐものです。この場合、音声がスピーカーから聞こえません。自動で文字起こしをして放置しておきたい時には便利です。

「音量」アイコンから「サウンド設定」を開きます
「録音」タブの「マイク」のある枠の中で空白部分を右クリックします
「無効なデバイスの表示」を選びます
「ステレオミキサー」を右クリックし、「有効」をクリックします

b. 複雑な設定

より複雑な設定は、出力を入力につなぐと同時にスピーカーにもつなぎます。音声を聞きながら、自動で文字起こしをさせたい場合に便利です。

仮想オーディオデバイスのインストール
VB-CABLEのウェブサイトでソフトウェアをダウンロードします
解答されたフォルダの中の「VBCABLE_Setup.exe」(32bit版)もしくは「VBCABLE_Setup_x64.exe」(64bit版)のインストーラーを選びます
右クリックをして「管理者として実行」をします

出力と入力をつなぐ
「音量」アイコンから「サウンド設定」を開き「出力」を「CABLE Input(VB-Audio Virtual Cable)」にします
音量を上げておきます
同じく「入力」を「CABLE Output(VB-Audio Virtual Cable)」にします

スピーカーからも音を出す
「システム」の「サウンド」から「サウンドコントロール」とたどってください
「録音」タブの「CABLE Output」を右クリックし「プロパティ」を選びます
「聴く」タブの「このデバイスを聴く」をチェックします

以上で設定は完了です。Windowsは使い慣れていませんので、間違いがあるかもしれません。

2.入力された音声を文字化するサービスを使う

ここではGoogleドキュメントを使用します。なお、これ以降の操作はGoogle Chromeを使わなければできませんので、先にインストールをしておいてください。

「Googleドキュメント」にアクセスします
「パーソナル」の方の「Gooleドキュメントを使ってみる」を選びます
ログインを求められるので、ログインをするか、Googleアカウントがない場合には作成します
「空白」を選び新規ファイルを作成します

「ツール」から「音声入力」を選びます
マイクボタンが現われます(これを押すと音声入力が開始されます)

パソコン上で音声ファイルを開きます
再生をします
Google Chromeに移り、音声入力を開始します

これで自動で文字起こしが行われていきます。この間、パソコン上で他の作業をすると音声入力が停止してしまいますので、文字起こしが終わるまでそのまま待っている必要があります。他の作業をする必要のない時に、もしくは文字起こし用にパソコンを1台用意して行なうと良いと思います。

3.文字化されたデータを修正する

完成した文字起こしは決して十分なものではありませんので、もう一度音声を聞きながら修正を行ないます。

自動で文字起こしをする手順は以上です。面接データや講義内容の文字起こしなどに活用できると思います。

最後に仮想オーディオデバイスをインストールした後の流れを動画にしましたので、参考にご覧ください。

BGMはD-elf.comより

コメントを残す

メールアドレスが公開されることはありません。

先頭に戻る