Whisper API 使い方【2026年最新】文字起こし完全ガイド

※本記事にはプロモーション（広告）が含まれています。

「音声ファイルをテキストに変換したい」「YouTubeの字幕を自動生成したい」「議事録を自動化したい」——そんな悩みを一気に解決するのが、OpenAIのWhisper APIです。

2026年現在、Whisper APIは日本語音声認識の精度が大幅に向上し、ビジネス現場や副業での活用が急速に広まっています。本記事では、Whisper APIの使い方を初心者でもわかるように手順付きで解説します。YouTubeやMP3ファイルからの日本語文字起こし方法も具体的に紹介します。

OpenAI Whisper APIとは？2026年最新版の特徴

Whisper APIは、OpenAIが提供する音声認識・文字起こしのクラウドAPIです。元々オープンソースとして公開されていた「Whisper」モデルをクラウド経由で手軽に利用できるようにしたもので、以下の特徴があります。

多言語対応：日本語・英語・中国語・韓国語など99以上の言語に対応
高精度な日本語認識：方言や専門用語にも強く、議事録作成に最適
最新モデル「whisper-1」：2026年現在も現役のwhisper-1モデルが利用可能
翻訳機能内蔵：音声を文字起こしするだけでなく英語への翻訳も可能
対応フォーマット：mp3、mp4、wav、m4a、webm、flac など幅広く対応

ChatGPTやGPT-4と同じOpenAIのAPIキーで利用できるため、ChatGPTをすでに活用している方なら追加の契約不要ですぐに始められます。

Whisper APIの料金・制限【2026年最新】

Whisper APIは従量課金制で、使った分だけ料金が発生します。

項目	内容
料金	$0.006 / 分（約0.9円/分）
最大ファイルサイズ	25MB
対応フォーマット	mp3, mp4, mpeg, mpga, m4a, wav, webm, flac, ogg
最大音声長	制限なし（25MB以内）

コスト感の目安：

1時間の会議音声 → 約54円（$0.36）
30分のYouTube動画 → 約27円（$0.18）
月100時間の処理 → 約5,400円（$36）

無料枠はありませんが、テスト利用なら数十円〜数百円程度で十分試せます。コストパフォーマンスは非常に高く、人力で議事録を作成するコストと比較すると圧倒的に安価です。

メモリ単価国内最安！シンVPS ／ XServer VPS for Windows Server

Whisper API セットアップから実行まで【ステップ解説】

Step 1：APIキーの取得

platform.openai.com にアクセス（OpenAIの開発者ポータル）
「API Keys」→「Create new secret key」をクリック
生成されたキーをメモ（再表示不可のため必ずコピー）

Step 2：Pythonライブラリのインストール

ターミナルで openai パッケージをインストールします。コマンドは pip install openai です。

Step 3：基本的な文字起こし実装

Pythonで以下の手順でWhisper APIを呼び出します：

from openai import OpenAI でクライアントを初期化
client.audio.transcriptions.create() メソッドで文字起こしを実行
引数に model="whisper-1" と language="ja" を指定（日本語精度UP）
戻り値の transcript.text に文字起こし結果が入る

重要：language="ja"を指定することで、日本語認識の精度が大幅に向上します。指定しない場合は自動判定ですが、日本語コンテンツには明示指定を推奨します。

Step 4：タイムスタンプ付き出力（議事録に最適）

response_format="verbose_json" と timestamp_granularities=["segment"] を追加することで、各発話にタイムスタンプ付きの出力が得られます。例：[0:00] こんにちは、今日の議題は... のような形式で出力されます。

YouTubeやMP3ファイルから日本語文字起こしする方法

YouTubeの動画を文字起こしする手順

YouTubeの音声を文字起こしするには、まず動画から音声ファイルを抽出します。yt-dlpというオープンソースツールが定番です。

pip install yt-dlp でインストール
コマンドラインで yt-dlp -x --audio-format mp3 -o "audio.%(ext)s" "YouTubeのURL" を実行
生成されたmp3ファイルをWhisper APIで処理

抽出したmp3ファイルを先ほどのWhisper APIコードで処理するだけです。1時間程度の動画なら通常25MB以内に収まります。

長い音声ファイルを分割して処理する場合

25MB超の大容量ファイルは事前分割が必要です。pydubライブラリ（pip install pydub）を使い、音声を10分ごとに分割してから各チャンクをAPIに送信します。結果のテキストを順番に結合すれば、長時間音声でも完全な文字起こしが完成します。

Whisper APIの実践活用事例・副業への応用

① AI議事録自動化サービス

Zoom/Meet の録音 → Whisper API → GPT-4.1で要約という流れで、「自動議事録サービス」が構築できます。クライアント向けに月額制で提供するSaaS副業として月5〜20万円の収益を上げている人も増えています。

② ポッドキャスト・動画の字幕生成

YouTubeやポッドキャストのSRT字幕ファイルを自動生成できます。動画制作者向けに字幕制作サービスを提供すれば、1本あたり1,000〜5,000円の報酬になります。

③ インタビュー書き起こし代行

ライターや編集者向けに「インタビュー音声の文字起こし」を自動化する副業です。従来は人力で1時間あたり3,000〜5,000円かかっていた作業が、APIコスト数十円で完了します。

④ 多言語展開への橋渡し

日本語音声を文字起こし → GPT-4.1やGemini 2.5 Proで英語に翻訳 → 海外市場向けコンテンツ生成、という自動パイプラインも構築可能です。

よくある質問（FAQ）

Q. Whisper APIとWhisperオープンソース版の違いは？

オープンソース版はローカル環境にインストールして無料で使えますが、高性能GPUが必要です。API版はクラウド処理なのでPCスペック不要・設定も簡単。月数時間程度の利用ならAPI版のコストは数百円以下に収まります。

Q. 日本語の認識精度はどの程度？

明瞭な音声であれば90〜95%以上の精度が期待できます。固有名詞や専門用語は誤認識が出ることがありますが、GPTに後処理させることで実用レベルに仕上げられます。

Q. 無料で試す方法は？

OpenAIの新規登録時に無料クレジット（$5程度）が付与される場合があります。また、DALL-E 3などOpenAIの他サービスと共通のクレジットのため、すでにOpenAIアカウントをお持ちなら残高確認をおすすめします。

Q. 個人情報・機密情報の取り扱いは？

送信した音声データはOpenAIのサーバーで処理されます。機密性の高い会議音声にはオープンソース版のローカル処理を検討してください。APIポリシー上、入力データはモデルの再学習に使用されないとされています。

まとめ：Whisper APIで文字起こし業務を自動化しよう

OpenAI Whisper APIは、分あたり約0.9円という低コストで高精度な日本語文字起こしを実現できる強力なツールです。

本記事のポイントをまとめます：

whisper-1モデルで99言語対応、日本語精度も高い
料金は$0.006/分（1時間の会議で約54円）
language="ja"指定で日本語認識精度UP
YouTube動画はyt-dlpで音声抽出→API処理の流れで自動化可能
議事録SaaS・字幕制作副業への応用が急増中

まずは短い音声ファイルで試してみてください。数十円のコストで体験できるので、ハードルは非常に低いです。AIツールの活用で仕事・副業を効率化したい方は、ChatGPT活用術の記事も合わせてご覧ください。

目次