KoeMill

Pocket つぶやくシェアツイートブックマーク 12

メディアファイルの音声内容を、自動＆手動で文字起こし！「KoeMill」。

KoeMill

スクリーンショット

3.08 / 5 （167 票）

制作者　メカ馬

対応　-

バージョン　0.9.0.3

更新日時　2023-12-17

ファイルサイズ　38.2 MB

公式
ミラー

AI を使用し、動画やサウンドファイルの音声内容を自動＆手動で文字起こしできるようにするソフト。
文字起こし AI “ Whisper ” を使用してメディアファイルの音声内容を文字起こしし、結果のテキストをスプレッドシートのような編集画面に出力できるようにしてくれます。
文字起こし結果を SRT 形式の字幕ファイル / TXT ファイル / CSV ファイルに書き出す機能や、メディアファイルを内蔵プレイヤーで再生しながら文字起こし作業を行う機能等も付いています。

「KoeMill」は、メディアファイルの音声を文字起こしすることができるソフトです。
WAV / MP3 / M4A / WMA 形式の音声ファイル、または、AVI / MP4 / M4V / WMV といった動画ファイルの音声を文字起こしすることができる音声書き起こしツールで、処理を自動と手動のハイブリッドで行えるところが大きな特徴。
文字起こしは、OpenAI の文字起こし AI “ Whisper ” を使用してワンクリックで実行することができるほか、文字起こしされたテキストをスプレッドシートのような画面で手動編集することも可能となっています。
さらに、文字起こし対象のメディアファイルを内蔵プレイヤーで再生しながら書き起こし作業を行うこともできるので、自動文字起こしで不備があった場合にも容易に修正を行えるようになっています。
尚、文字起こし結果のテキストは、SRT 形式の字幕ファイル、もしくは TXT / CSV ファイルとして書き出すことができ、保存した SRT ファイルは「KoeMill」で読み込んで再編集することもできたりします。

基本的な使い方は以下の通り。

使用バージョン : KoeMill 0.9.0.2

基本的な使い方
フォルダ内のメディアファイルを、まとめて文字起こしする

基本的な使い方

「KoeMill_Launcher.exe」を実行します。
メイン画面が表示されます。

まず、画面右端にあるボタンをクリックし、文字起こしを行うメディアファイルを選択します。
続いて、画面左側にあるボタンをクリックし、読み込んだメディアファイルの音声言語を指定します。
その右隣にあるボタンをクリックし、文字起こしの際に使用する AI モデルを指定します。

モデルは下のものほど音声認識の精度が良くなりますが、その分ファイルサイズも大きくなり、また文字起こし処理にかかる時間やメモリ使用量も多くなるので注意が必要です※1。
1 「Tiny」→ 75MB、「base」→ 142MB、「Small」→ 466MB、「Medium」→ 1.5GB、「Large」→ 3GB 程ある。
　利用可能なモデル
モデルを選択すると、初回のみ「以下のリンクからモデルをダウンロードします。」というダイアログが表示されるので、「Download」ボタンをクリックします。
モデルのダウンロードが実行されます。
モデルのダウンロードが完了したら、ボタンをクリックします。
音声の文字起こし処理が実行されるので、しばらく待ちます。
少し待つと、文字起こしされたテキストが下部の欄に一行ずつ表示されます。

テキストは、
- Start　-　音声開始時間（時間 : 分 : 秒 : ミリ秒）
- End　-　音声終了時間（時間 : 分 : 秒 : ミリ秒）
- Text　-　テキスト
といった情報ごとにカラム分けして表示され、各欄はクリックすることで編集することも可能となっています。

加えて、各欄を右クリックすることにより、
- 貼り付け
- すべて選択
- 上に行を挿入
- 下に行を挿入
- 削除
- 開始時刻 -> 現在時刻　-　「Start」欄の再生時間と内蔵プレイヤーの再生時間を同期する
- 開始時刻 <- 現在時刻　-　内蔵プレイヤーで再生中の時間を、「Start」欄に貼り付ける
- 終了時刻 <- 現在時刻　-　内蔵プレイヤーで再生中の時間を、「End」欄に貼り付ける
といった操作を行うこともできたりします。
読み込み中のメディアファイルは、上部の内蔵プレイヤーを使って再生することができます。
再生コントロールの右端にある　　ボタンをクリックすることで再生速度を変更することができるほか、下記手順により指定した区間をリピート再生することもできたりします。
1. シークバー等を使って再生開始地点としたい場面に移動し、右側にある　　ボタンをクリックします。
2. 再生終了地点としたい場面に移動し、　　ボタンをクリックします。
3. 再生範囲を指定したら、その右側にある　　ボタンをクリックします。
4. 以後、指定した区間がリピート再生されるようになります。
  区間リピートを解除する時は、　　ボタンをクリックします。
出力結果のテキストを SRT 形式の字幕ファイルとして保存する場合は、画面左側にある　　ボタンをクリックします。

テキストを TXT / CSV ファイルに書き出したい時は、画面右端にある　　ボタンをクリック →「Export」を選択します。
「名前を付けて保存」ダイアログが立ち上がります。

あとは、ファイルの保存先フォルダとファイル名を指定すれば OK です。
ちなみに、CSV ファイルとして出力する時は、ファイルの種類を「Comma-Separated Values (*.csv)」に変えてから保存を行います。

目次へ戻る

フォルダ内のメディアファイルを、まとめて文字起こしする

画面右端にある　　ボタンをクリックし、「Batch processing」を選択します。
「Batch processing」というダイアログが表示されるので、右端にあるボタンをクリック → 文字起こしするメディアファイルが保存されているフォルダを選択します。
選択したフォルダ内にあるメディアファイルが、リスト表示されます。

そのまま、文字起こしするファイルにチェックを入れ、「Output」欄にあるプルダウンメニューをクリック → 文字起こしされたテキストの保存形式を選択します。
準備が整ったら、左下にある「OK」ボタンをクリックします。
音声の文字起こし処理が実行されるので、しばらく待ちます。
少し待ち、「Batch processing」ダイアログが消えたら処理完了です。
元のメディアファイルと同じフォルダ内に、文字起こしされたテキストが出力されています。