WhisperはOpenAIが開発した音声認識AIモデルです。録音ファイルを入力するだけで、高精度な文字起こしを複数言語で自動生成できます。しかも完全無料でオープンソース。2026年現在も音声認識の精度では業界最高水準を誇ります。
本記事では2026年最新のWhisperの使い方・インストール方法・活用シーンを解説します。
この記事でわかること:
- WhisperとWhisper APIの違い
- ローカル環境でのWhisperの使い方
- WhisperをAPIで使う方法(有料)
- Whisperの活用シーンと注意点
Whisperとは?
OpenAIが2022年にオープンソースで公開した音声認識モデルです。99言語以上に対応し、日本語の認識精度も非常に高いと評価されています。
Whisperの主な特徴
- オープンソース・商用利用可能(MITライセンス)
- 日本語を含む99言語以上に対応
- 音声ファイルへのノイズに強い
- 翻訳機能付き(他言語の音声を英語テキストに変換)
WhisperとWhisper APIの違い
| 種類 | 費用 | セットアップ | 向いている人 |
|---|---|---|---|
| Whisper(ローカル) | 無料 | Python環境が必要 | エンジニア・大量処理 |
| Whisper API(OpenAI) | $0.006/分 | APIキーのみ | 非エンジニア・少量利用 |
| 各種ラッパーサービス | 無料〜有料 | ブラウザのみ | 技術知識なしで使いたい人 |
ローカルでのWhisperの使い方(無料)
ステップ1:環境準備
- Python 3.8以上をインストール
- pip install openai-whisper でインストール
- ffmpegをインストール(音声ファイル処理に必要)
ステップ2:音声ファイルの文字起こし
コマンドラインから whisper audio.mp3 --language Japanese を実行するだけで文字起こしが開始されます。出力は.txt・.srt・.vttなど複数フォーマットで保存されます。
ステップ3:モデルサイズの選択
| モデル | 精度 | 処理速度 | VRAMの目安 |
|---|---|---|---|
| tiny | 低 | 非常に速い | 1GB以下 |
| base | 中 | 速い | 1GB程度 |
| small | 高め | 普通 | 2GB程度 |
| medium | 高い | やや遅い | 5GB程度 |
| large | 最高 | 遅い | 10GB程度 |
一般的な用途にはsmallまたはmediumがおすすめです。
Whisper APIで使う方法(APIキー不要で始められる)
OpenAIのWhisper APIを使えば、Pythonコードを数行書くだけで音声ファイルを文字起こしできます。料金は1分あたり$0.006と非常に安価です。60分の会議録音でも約$0.36(約50円)という計算になります。
Whisperをノーコードで使えるツール
エンジニアでなくてもWhisperを活用できるサービスが増えています:
- Cockatoo:ブラウザにアップロードするだけで文字起こし
- Whisper Transcription(Mac App):MacのアプリからGUIで操作
- Notta・WITH TEAM:Whisperベースの日本語対応サービス
特にNottaは日本語精度が高く、無料プランでも月120分の文字起こしが可能です。Whisperの技術を使いたいけどセットアップが面倒な方におすすめです。
▶ 持ち歩けるAI文字起こし【Notta Memo】の詳細はこちら![]()
Whisperの主な活用シーン
- 会議・インタビューの議事録作成:1時間の会議録音を数分で文字起こし
- YouTube動画の字幕生成:動画ファイルから.srt字幕ファイルを自動生成
- ポッドキャストの文字起こし:音声コンテンツをブログ記事に転換
- 多言語翻訳:英語の会議音声を日本語テキストに自動変換
まとめ
WhisperはOpenAIが無料公開した音声認識AIの中でも精度・多言語対応・コストの三拍子が揃った優れたツールです。Pythonが使えるならローカルで無料運用、そうでない場合はAPIかラッパーサービスを活用することで、誰でも高精度な文字起こしを実現できます。
※本記事の情報は2026年3月時点のものです。料金・機能は変更になる場合があります。最新情報は公式サイトをご確認ください。