メディアファイルの音声内容を、自動&手動 で文字起こし!「KoeMill」。
KoeMill
AI を使用し、動画やサウンドファイルの音声内容を自動&手動 で文字起こしできるようにするソフト。
文字起こし AI “ Whisper ” を使用してメディアファイルの音声内容を文字起こしし、結果のテキストをスプレッドシートのような編集画面に出力できるようにしてくれます。
文字起こし結果を SRT 形式の字幕ファイル / TXT ファイル / CSV ファイル に書き出す機能や、メディアファイルを内蔵プレイヤーで再生しながら文字起こし作業を行う機能 等も付いています。
「KoeMill」は、メディアファイルの音声を文字起こしすることができるソフトです。
WAV / MP3 / M4A / WMA 形式の音声ファイル、または、AVI / MP4 / M4V / WMV といった動画ファイルの音声を文字起こしすることができる音声書き起こしツールで、処理を自動と手動のハイブリッドで行えるところが大きな特徴。
文字起こしは、OpenAI の文字起こし AI “ Whisper ” を使用してワンクリックで実行することができるほか、文字起こしされたテキストをスプレッドシートのような画面で手動編集することも可能となっています。
さらに、文字起こし対象のメディアファイルを内蔵プレイヤーで再生しながら書き起こし作業を行うこともできるので、自動文字起こしで不備があった場合にも容易に修正を行えるようになっています。
尚、文字起こし結果のテキストは、SRT 形式の字幕ファイル、もしくは TXT / CSV ファイルとして書き出すことができ、保存した SRT ファイルは「KoeMill」で読み込んで再編集することもできたりします。
基本的な使い方は以下の通り。
- 「KoeMill_Launcher.exe」を実行します。
- メイン画面が表示されます。 まず、画面右端にある ボタンをクリックし、文字起こしを行うメディアファイルを選択します。
- 続いて、画面左側にある ボタンをクリックし、読み込んだメディアファイルの音声言語を指定します。
- その右隣にある ボタンをクリックし、文字起こしの際に使用する AI モデルを指定します。
1 「Tiny」→ 75MB、「base」→ 142MB、「Small」→ 466MB、「Medium」→ 1.5GB、「Large」→ 3GB 程ある。
利用可能なモデル - モデルを選択すると、初回のみ「以下のリンクからモデルをダウンロードします。」というダイアログが表示されるので、「Download」ボタンをクリックします。
- モデルのダウンロードが実行されます。
- モデルのダウンロードが完了したら、 ボタンをクリックします。
- 音声の文字起こし処理が実行されるので、しばらく待ちます。
- 少し待つと、文字起こしされたテキストが下部の欄に一行ずつ表示されます。
テキストは、
- Start - 音声開始時間(時間 : 分 : 秒 : ミリ秒)
- End - 音声終了時間(時間 : 分 : 秒 : ミリ秒)
- Text - テキスト
- 貼り付け
- すべて選択
- 上に行を挿入
- 下に行を挿入
- 削除
- 開始時刻 -> 現在時刻 - 「Start」欄の再生時間と内蔵プレイヤーの再生時間を同期する
- 開始時刻 <- 現在時刻 - 内蔵プレイヤーで再生中の時間を、「Start」欄に貼り付ける
- 終了時刻 <- 現在時刻 - 内蔵プレイヤーで再生中の時間を、「End」欄に貼り付ける
- 読み込み中のメディアファイルは、上部の内蔵プレイヤーを使って再生することができます。
再生コントロールの右端にある ボタンをクリックすることで再生速度を変更することができるほか、下記手順により指定した区間をリピート再生することもできたりします。- シークバー等を使って再生開始地点としたい場面に移動し、右側にある ボタンをクリックします。
- 再生終了地点としたい場面に移動し、 ボタンをクリックします。
- 再生範囲を指定したら、その右側にある ボタンをクリックします。
- 以後、指定した区間がリピート再生されるようになります。
区間リピートを解除する時は、 ボタンをクリックします。
- 出力結果のテキストを SRT 形式の字幕ファイルとして保存する場合は、画面左側にある ボタンをクリックします。
- 「名前を付けて保存」ダイアログが立ち上がります。
あとは、ファイルの保存先フォルダとファイル名を指定すれば OK です。
ちなみに、CSV ファイルとして出力する時は、ファイルの種類を「Comma-Separated Values (*.csv)」に変えてから保存を行います。
- 画面右端にある ボタンをクリックし、「Batch processing」を選択します。
- 「Batch processing」というダイアログが表示されるので、右端にある ボタンをクリック → 文字起こしするメディアファイルが保存されているフォルダを選択します。
- 選択したフォルダ内にあるメディアファイルが、リスト表示されます。
- 準備が整ったら、左下にある「OK」ボタンをクリックします。
- 音声の文字起こし処理が実行されるので、しばらく待ちます。
- 少し待ち、「Batch processing」ダイアログが消えたら処理完了です。
元のメディアファイルと同じフォルダ内に、文字起こしされたテキストが出力されています。
KoeMill TOPへ |