ヒント

ChatGPTは音声を文字起こしできるか？【ライブテストと無料プロンプト付き】

Taka Shirasu



May 4, 2026

ChatGPTで音声ファイルを文字起こしできるのか、またはChatGPTでMP3をテキストに変換する方法をお探しではありませんか。答えはYesですが、いくつかの条件があります。音声ファイルのアップロードに対応した有料のChatGPTプランを利用していること、ファイルがMP3・WAV・M4A・WEBMなどのクリーンな形式であること、そして録音時間がChatGPTの処理ウィンドウに収まる長さであることが必要です。多くの方が想定する手順は次の通りです。

クリーンなMP3ファイルをChatGPTにアップロードします。
「文字起こし」「フィラーワードの削除」「要約」「翻訳」など、AIに何をさせたいかを明確に指示する詳細なプロンプトを入力します。
MP3ファイルを処理用に送信し、結果を待ちます。

このように、「ChatGPTはMP3からテキストへの変換ツールとして使えるか」という質問への最も短い答えは「はい、技術的には可能です」となります。ChatGPTはOpenAIのWhisperモデルを通じて音声テキスト変換ツールとして動作させることができます。ただし、ChatGPTは本質的にテキストベースの推論ツールであり、最新の拡張バージョンや音声ファイル対応が追加された後でも、実際にポッドキャストやインタビューの音声を文字起こしさせようとすると、すぐに以下のような制約が見えてきます。

チャットのサンドボックス内でWhisperに常にアクセスできるとは限らず、ローカルの文字起こしパッケージのインストールに数分間費やした挙句、最終的に諦めてしまうケースがあります。
話者識別（スピーカーダイアライゼーション）に対応していないため、複数人のインタビューはラベルなしの一塊のテキストとして返ってきます。
出力にタイムスタンプがないため、字幕作成、ポッドキャストのチャプター付け、録音からの引用には不向きです。
リアルタイムやライブ文字起こしに対応していないため、会議・ウェビナー・イベント中には使用できません。
同一処理での自動ライブ翻訳機能がないため、英語以外のファイルでは別途プロンプトと再処理が必要です。
チャット体験の中ではバッチ文字起こしやAPIワークフローが利用できないため、複数ファイルへのスケールが効きません。

本ガイドでは、ChatGPTを使ってMP3をテキストに変換する手順を解説し、実際のポッドキャストファイルでテストした結果をお見せします。そして、JotMeのような多言語対応ツールが必要になる場面、つまり音声ファイルの翻訳と文字起こしを200以上の言語で行う必要があるケースについても説明します。

ChatGPTでMP3をテキストに変換する方法

理屈の上では、ChatGPTを音声テキスト変換ツールとして使うワークフローは単純です。音声ファイルをアップロードし、プロンプトを書き、文字起こし結果を待つだけです。以下の3ステップは、すべてが順調に進んだ場合の理想的なフローを示しています。

ステップ1: MP3をChatGPTにアップロードする

ブラウザまたはデスクトップアプリでChatGPTを開き、チャットボックスのファイルアップロードアイコンをクリックして、文字起こししたいMP3ファイルを選択します。ChatGPTは有料のGPT-4oおよびGPT-5プランで、MP3、WAV、M4A、WEBMといった一般的な音声形式に対応しています。ファイルサイズの上限はサブスクリプションプランによって異なります。録音はできるだけクリーンに、可能であればモノラルチャンネルで、冒頭や末尾に長時間の無音区間がないものにしておくと、AIが混乱せずに処理できます。

ポッドキャストのMP3ファイルをChatGPTに文字起こし用にアップロードしている画面。

ステップ2: ChatGPTに詳細なプロンプトを与える

「これを文字起こしして」という単純なプロンプトでは、汎用的で雑然とした結果しか得られません。代わりに、欲しいフォーマット、必要なクリーンアップのレベル、要約や翻訳などの後続タスクを明確に説明する指示を与えましょう。ポッドキャスト用の優れたプロンプトの例は次のとおりです。

「私のポッドキャストのMP3ファイルをアップロードしました。句読点を含めて明瞭に文字起こしし、『えー』『あのー』などのフィラーワードを削除し、ブログ記事に貼り付けられるクリーンな読み物形式のトランスクリプトに整形してください。」

プロンプトが具体的であればあるほど、二度手間の編集なしに使える出力を得られる可能性が高まります

ステップ3: MP3ファイルを処理する

プロンプトと一緒にファイルを送信し、ChatGPTが音声を処理するのを待ちます。期待される動作としては、ChatGPTがファイルを認識し、バックグラウンドでOpenAIのWhisperモデルを実行し、短いファイルであれば1〜2分以内にチャットウィンドウにトランスクリプトを返します。そこからトランスクリプトをコピーしたり、要約をリクエストしたり、翻訳をフォローアッププロンプトとして依頼することができます。

しかし、現実の文字起こしと翻訳はこんなにシンプルではありません。実際のポッドキャストファイルでChatGPTをMP3テキスト変換ツールとしてテストしたところ、まったく異なる結末が待っていました。

ChatGPTで実際にMP3ファイルを処理してみた結果

マーケティング上の謳い文句ではなく、実際にChatGPTが音声を文字起こしできるかを確かめるため、私たちは Final Episode - 2.mp3 という実在のポッドキャストファイルをアップロードし、ChatGPTにテキストへの変換を依頼しました。セッション全体は3分26秒続きましたが、最終的にChatGPTはトランスクリプトを1行も生成できませんでした。以下のスクリーンショットは、その失敗の主要な瞬間を時系列で捉えたものです。

自信に満ちた書き出し

ChatGPTは完璧なワークフローを約束する形で始まりました。最初の応答はこうでした。

「音声を抽出し、長さと形式を確認したうえで、ローカルで文字起こしを実行します。長いファイルの場合はチャンクに分割し、テキストをきれいにつなぎ合わせます。」

これはまさに、ユーザーが「このツールは動くだろう」と思い込ませる類の自信あふれる回答です。しかしAIはアクティビティパネルに移動した直後、壁にぶつかります。

試行1: モジュール不足の認識

最初の試みは whispercpp というPythonモジュールを使うことでしたが、サンドボックスにはインストールされていませんでした。ChatGPTはモジュール不足を認識し、インストールタイムアウトの調整を検討し、pipでのインストールを試みました。インストールはタイムアウトしました。ここから先、3分間のセッション全体は連続するフォールバック試行となり、それぞれがチャット環境の別の制約を浮き彫りにしていきました。

試行2: OpenAI公式のWhisperモデルに手を伸ばす

最初のインストール失敗を受けて、ChatGPTはアプローチを切り替え、公式のWhisper Pythonパッケージである openai-whisper のインストールを試みました。その後、Whisper base モデルのロードを試みましたが、これにはOpenAIのAzure Blob Storageからモデル重みをダウンロードする必要があります。アクティビティパネルには、このステップで停滞している様子が表示されていました。

モデルのダウンロードは完了しませんでした。文字起こしタスク中、チャットのサンドボックスにはOpenAIのモデル重みサーバーへの外向き通信が許可されていないためです。これは、表面上の応答が「文字起こしは進行中」と表示し続ける一方で、アクティビティパネルの内部では静かに発生する失敗であり、ほとんどのユーザーには見えない部分です。

試行3: 時間コストの見積もり

セッション開始から約2分後、ChatGPTは「ワーキングモデルをロードできれば、フル文字起こしには約9.7分かかる」と見積もりました。

1本のポッドキャストファイルに9.7分というのは、決して高速なワークフローとは言えません。さらに重要なのは、この見積もりがChatGPTがまだ「どの文字起こしパッケージを実行できるか」を模索している最中に提示された点です。つまりこの見積もりは仮定の数字であり、実際の進捗バーではありません。チャットインターフェースからはユーザーにそれを判別する手段がありません。

試行4: APIキーを探す

次の動きは、サンドボックス環境内にOpenAI APIキーがないかを確認することでした。APIキーがあれば、ローカルでモデルを実行する代わりに、リモートサービスとしてWhisper APIを呼び出すことが可能になります。

チャット環境内にAPIキーは存在しませんでした。この時点で、ChatGPTはローカルインストール、ローカルモデルのロード、リモートAPIアクセスのすべてを使い果たしました。さらにPocketSphinx、Faster Whisper、Transformers、Speech_recognition などのフォールバックパッケージや、ffmpeg を使って無音区間を検出する回避策も簡単に検討しましたが、いずれも実際のトランスクリプトを生み出すことはありませんでした。

静かな白旗

3分以上の試行錯誤の末、ChatGPTはようやく、ユーザーが最初に聞くべきだった一言を口にしました。

「アップロードされた音声をモデルが処理できる可能性もありますが、私はここではテキストのみに制限されているため、直接利用できるツールがありません。」

この一文こそ、多くのユーザーにとってチャットインターフェース内で「ChatGPTは音声を文字起こしできるか」という問いに対する正直な答えです。見出しはYesと言い、マーケティングもYesと言い、最初の応答もYesと言います。しかしアクティビティパネルの奥の現実は、チャットサンドボックスがテキスト専用であり、音声ファイルは結局文字起こしされないということです。

最終状態

セッションは、アクティビティパネルがまだ「Thinking」状態で回転し続け、「Stopped thinking」のインジケータが表示され、「Quick answer」のプロンプトにはトランスクリプトが含まれていない、という状態で終了しました。

経過時間: 3分26秒

生成されたトランスクリプト: ゼロ

セッションの最終状態。トランスクリプトはなく、3分26秒が消えた。

締め切りに追われるポッドキャスター、まとめコンテンツを準備するイベント主催者、録音講義から学ぼうとする学習者にとって、これは実用的な文字起こしツールとは言えません。サンドボックスがたまたま協力的なときに、短くてシンプルなファイルでなんとか動くこともある研究用デモであり、そうでないときは静かに失敗します。

MP3テキスト変換ツールとしてのChatGPT代替案

実際のテストでChatGPTの制約を確認したうえで、音声を文字起こしするだけでなく、同一処理で200以上の言語へ翻訳もしてくれる代替ツールをお探しなら、JotMeの無料オンラインMP3テキスト変換ツールがより直接的な解決策となります。完全にブラウザ内で動作し、一般的な音声形式すべてに対応し、モデルのインストール試行やサンドボックスの失敗を待たされることなく、原文のトランスクリプトと並べて翻訳テキストを返します。

機能	ChatGPT（有料 GPT-4o / GPT-5）	JotMe（無料）
料金	月額 $20以上が必要	無料、アカウント登録不要
対応音声形式	MP3、WAV、M4A、WEBM	MP3、WAV、M4A、AAC、FLAC、OGG、OPUS、AIFF、CAF、WMA
対応言語数	約50言語（Whisperの可用性に依存）	200以上の言語と地域バリアント
同一処理での翻訳	別途プロンプトが必要	並列表示の翻訳を標準搭載
実際のポッドキャストファイルでの安定性	不安定（サンドボックスがWhisperをインストールできないことが多い）	安定したブラウザベースのパイプライン
リアルタイム / ライブ文字起こし	非対応	対応（JotMeライブツール経由）
セットアップ時間	サインイン → アップロード → プロンプト → インストール試行の待機	URLを開き、ファイルをドロップしてトランスクリプトを読むだけ
最適な用途	サンドボックスが協力的なときの、短い単一言語クリップ	多言語ポッドキャスト、インタビュー、会議、ボイスメモ

MP3テキスト変換ツールを無料で使う方法

JotMeの音声テキスト変換ツールは、「アップロード→対象言語を選択→翻訳されたトランスクリプトを読む」という単一のワークフローで構築されています。サインアップも有料プラン要件もPythonサンドボックスもありません。ほとんどの短いファイルなら全工程が1分以内に完了します。

ステップ1. Chrome、Edge、Brave、Safariなどの最新ブラウザで、JotMeの無料の音声テキスト翻訳ページにアクセスします。ページを開くと、上部にアップロード用インターフェースがすぐに表示されます。

‍

ステップ2. ターゲット言語のドロップダウンから、音声翻訳の対象言語を選択します。JotMeは200以上の言語に対応しており、スペイン語（ラテンアメリカ）、ポルトガル語（ブラジル）、フランス語（カナダ）、繁体字・簡体字中国語などの地域バリアントも含まれます。

ステップ3. 音声ファイルをドロップゾーンにドラッグするか、クリックして参照します。対応形式はMP3、WAV、M4A、AAC、FLAC、OGG、OPUS、AIFF、CAF、WMA で、WhatsAppの音声メモ、iPhoneの録音、Zoomの音声書き出し、標準的なポッドキャストファイルを網羅しています。

ステップ4. JotMeが表示する録音時間と対象言語を確認し、「Proceed」をクリックして変換を開始します。アップグレード勧誘もメール登録も、インストール手順もありません。

ステップ5. 並列表示ビューアーで翻訳されたテキストを読みます。原文のトランスクリプトが翻訳版の隣に表示されるため、音声を再生し直すことなく固有名詞、製品名、数字を確認できます。完了したら、必要なセグメントをコピーするか、トランスクリプト全体を書き出してください。

ChatGPTがWhisperパッケージのインストールに3分半を費やし、最終的に「テキスト専用です」と認めた一方、JotMeは同じMP3ファイルをブラウザタブ内で処理し、翻訳テキストを数秒で返します。多言語ポッドキャスト、外国語インタビュー、カスタマーサポートの音声メモ、イベント収録において、これは「動くツール」と「動こうとするだけのツール」の決定的な違いです。

ChatGPTの音声テキスト変換ワークフロー向けプロンプト集

ChatGPTがまれにファイルの文字起こしに成功する場合、出力の品質はほぼ完全にプロンプトに左右されます。曖昧なリクエストからは曖昧なトランスクリプトしか生まれません。具体的で役割を意識したプロンプトであれば、実用に近いドラフトが得られます。以下のプロンプトは、読者の方が実際に直面しがちな状況向けに書かれており、そのままChatGPTにコピーするか、お手元のファイルに合わせてアレンジしてご利用ください。

経営者・事業オーナー向けのChatGPTプロンプト

「5人の参加者がいる1時間の役員会議のMP3をアップロードしました。句読点を含めて音声を文字起こしし、『えー』『あのー』『まあ』などのフィラーワードを削除してください。その後、構造化された議事録として、言及された出席者リスト、最も重要な3つの決定事項、発言者が指名したアクションアイテム（担当者付き）、未解決のまま残された質問項目を含めてまとめてください。最終的な出力は明確なセクション見出しでフォーマットしてください。」

イベント主催者向けのChatGPTプロンプト

「昨日のマーケティングカンファレンスにおけるキーノートのMP3をアップロードしました。録音を文字起こししたうえで、以下の3つの派生コンテンツを作成してください。イベント主催者の視点で書かれた250語のLinkedInリキャップ投稿、推察可能であればタイムスタンプ付きの「印象的な発言10選」、プレスリリースに使える5項目のエグゼクティブサマリー。固有名詞はすべてそのまま保持し、確信が持てない企業名はフラグを立ててください。」

ウェビナーホスト向けのChatGPTプロンプト

「B2B営業戦略をテーマに開催した45分間のウェビナーのMP3をアップロードしました。音声を文字起こしし、フィラーワードや言い直しを整理したうえで、H2およびH3見出し、導入、そして読者に私の価格設定プレイブックのダウンロードを促すクロージングCTAを含む約1,200語の構造化されたブログ記事に変換してください。トーンは会話調を維持し、私が言及した具体例は原文通りに保持してください。」

学習者・研究者向けのChatGPTプロンプト

「マクロ経済政策に関する大学講義のMP3をアップロードしました。句読点を含めて録音を文字起こしし、学習用ノートを作成してください。冒頭に1段落の要約、主要概念の1行定義付きリスト、講義で言及されたすべての経済学者や理論の名称、講義内容に基づく5問の試験形式問題と模範解答を含めてください。」

外国語インタビューを扱うジャーナリスト向けのChatGPTプロンプト

「スタートアップ創業者へのスペイン語による20分間のインタビューMP3をアップロードしました。まず原文のスペイン語で音声を文字起こしし、続いて創業者のトーンと技術的な製品用語を保持したクリーンな英訳を生成してください。その後、プロフィール記事に掲載できそうな直接引用5件を、スペイン語原文と英訳を並列表示で抽出してください。」

カスタマーオペレーションチーム向けのChatGPTプロンプト

「カスタマーサポート通話のMP3をアップロードしました。音声を文字起こしし、顧客の主要な問題と提起されたすべての副次的な問題を特定し、通話開始時と終了時の顧客の感情を分類し、エージェントが提示した解決ステップをリスト化し、エージェントがより効果的にデエスカレートできた可能性のある場面にフラグを立ててください。出力は社内QAレビュー文書としてフォーマットしてください。」

結論

「ChatGPTは音声を文字起こしできるか」という問いに対する正直な答えは、「理論上はYes、実用上は不安定」です。Whisperモデルは存在し、音声アップロード機能も存在し、適切なプロンプトがあれば使えるトランスクリプトを生み出せることもあります。しかし本記事のライブテストが示したように、チャットのサンドボックスは文字起こし作業のために設計されておらず、1本のポッドキャストファイルのためにAIが「タスクを完了できません」と静かに認めるまで3分半のセッション時間を費やすことがあります。実際のワークフローの一部としてトランスクリプトを必要とするユーザーにとって、これは計画に組み込むには不確実性が大きすぎます。

専用設計された音声テキスト変換ツールは、この問題を別のアプローチで解決します。JotMeの無料MP3テキスト変換ツールは、一般的な音声形式すべてに対応し、完全にブラウザ内で動作し、翻訳機能を内蔵した200以上の言語をサポートし、検証しやすいよう原文と翻訳テキストを並列表示で返します。Pythonサンドボックスも、モデルインストールの試行も、APIキーの確認も、最後の静かな失敗の告白もありません。経営者、イベント主催者、ウェビナーホスト、学習者、ジャーナリスト、サポートチームにとって、これは多言語の録音と「実際に使えるテキスト」を結ぶ、より軽量で信頼性の高い経路です。

次に音声ファイルを扱う際は、ぜひ無料のMP3テキスト変換ツールをお試しください。MP3をドロップし、対象言語を選び、数秒で翻訳されたトランスクリプトをお読みいただけます。

よくある質問（FAQ）

ChatGPTで音声をテキストに変換できますか？

はい、ChatGPTはOpenAIのWhisperモデルを通じて、状況によっては音声をテキストに変換できます。ただし、チャットインターフェース内での体験は不安定です。有料のGPT-4oおよびGPT-5プランでは、MP3、WAV、M4A、WEBMファイルをアップロードでき、短くクリーンな録音であれば、ChatGPTがそれなりに使えるトランスクリプトを返してくれることもあります。

ChatGPTは音声を文字起こしできますか？

はい、ChatGPTは原理上は音声を文字起こしできます。OpenAIのWhisperモデルは利用可能な音声認識システムの中でも最強クラスのオープンモデルだからです。しかし実際には、チャットインターフェースがユーザーとモデルの間に一層の不確実性を加えます。リアルタイム文字起こしはなく、話者識別もなく、出力にタイムスタンプもありません。音声ファイルは、必要なPythonパッケージをインストールできないことがあるサンドボックス内で処理されます。これはまさに、本記事のライブテストで起きた状況です。

MP3をテキストに変換するにはどうすればよいですか？

MP3をテキストに変換する最も速い方法は、ブラウザベースの音声テキスト変換ツールを使うことです。最新のブラウザでJotMeの無料の音声テキスト翻訳を開き、ドロップダウンからトランスクリプトの言語を選び、MP3ファイルをドロップゾーンにドラッグして「Proceed」をクリックします。ツールが音声を文字起こしし、ソース言語を自動検出し、選択した言語に翻訳します。

最適なMP3テキスト変換ツールはどれですか？

ほとんどのユーザーにとって最適なMP3テキスト変換ツールはJotMeです。無料、ブラウザベース、多言語対応、そして実際の業務でアップロードされる形式全般において信頼性が高いためです。JotMeのMP3テキスト変換ツールは200以上の出力言語に対応し、MP3、WAV、M4A、AAC、FLAC、OGG、OPUS、AIFF、CAF、WMAファイルを受け付け、アカウントなしで動作し、検証しやすい並列レイアウトで翻訳テキストを返します。

どのAIがMP3を文字起こしできますか？

JotMeのAgentic AIは200以上の言語でMP3を文字起こしできます。そのほか、複数のAIシステムがMP3ファイルを文字起こし可能です。たとえばOpenAIのWhisper（ChatGPTの音声機能の基盤モデルであり、スタンドアロンのPythonパッケージおよびAPIとしても提供）、GoogleのSpeech-to-Text、Microsoft Azureの音声サービスなどは、強力な言語カバレッジを持つ競争力のあるエンタープライズ向け文字起こしを提供しています。

AIで音声を無料で文字起こしできますか？

はい、AIで音声を無料で文字起こしできます。JotMeの無料MP3テキスト変換ツールは、アカウント不要で200以上の言語に対応した音声ファイルの文字起こしと翻訳を行います。Whisperはオープンソースモデルとして無料で利用できますが、ご自身のマシンへのローカルインストールを伴うため、多くのユーザーには技術的な敷居が高いはずです。あらゆるブラウザで動作する無料・信頼性・多言語対応のMP3テキスト変換ワークフローをお探しなら、JotMeが最もシンプルな出発点となります。

ChatGPTはリアルタイムの音声文字起こしに対応していますか？

いいえ、ChatGPTはリアルタイムの音声文字起こしには対応していません。チャットインターフェースは、アップロード済みの音声ファイルを単発のジョブとして、アップロード完了後にのみ処理します。会議、ウェビナー、イベント中のライブ文字起こしには、同一セッション内で音声をストリーミングしてテキストを返す専用のライブ文字起こしツールが必要です。

ChatGPTの音声文字起こしは無料ですか？

いいえ、ChatGPTの音声文字起こしは無料ではありません。音声ファイルのアップロードには有料プラン（現在のGPT-4oまたはGPT-5ティア、月額 $20から）が必要です。無料ティアは音声添付を受け付けません。ブラウザで動作する無料のMP3テキスト変換ツールをお探しなら、JotMeがアカウントもサブスクリプションも不要で200以上の言語の音声を文字起こし・翻訳します。

ChatGPTの最大音声ファイルサイズはどれくらいですか？

ChatGPTは有料プランで音声アップロードを約25 MBに制限しており、これは通常20〜30分の圧縮済みMP3音声に相当します。長い録音はアップロード前に手動で分割する必要があり、特に長いファイルではトランスクリプトが返される前にチャットセッションの処理タイムアウトに達するケースが多くあります。JotMeのようなブラウザベースのコンバーターであれば、手動分割なしで長いファイルを処理できます。

ChatGPTは外国語の音声を文字起こしできますか？

ChatGPTはWhisperを通じて外国語音声の文字起こしを試みることができます。Whisperは約50言語に対応していますが、品質は不均一で、翻訳には別途プロンプトが必要です。たとえばスペイン語のインタビューを英語にする多言語ワークフローでは、JotMeのような専用ツールであれば原文の文字起こしと翻訳テキストを同一処理で生成し、検証用に2バージョンを並列表示します。

Last updated on

June 17, 2026

Try JotMe

Ask, translate, transcribe, and take notes, all in your meetings

Start for free

Browse all articles

クリーンなMP3ファイルをChatGPTにアップロードします。
「文字起こし」「フィラーワードの削除」「要約」「翻訳」など、AIに何をさせたいかを明確に指示する詳細なプロンプトを入力します。
MP3ファイルを処理用に送信し、結果を待ちます。

チャットのサンドボックス内でWhisperに常にアクセスできるとは限らず、ローカルの文字起こしパッケージのインストールに数分間費やした挙句、最終的に諦めてしまうケースがあります。
話者識別（スピーカーダイアライゼーション）に対応していないため、複数人のインタビューはラベルなしの一塊のテキストとして返ってきます。
出力にタイムスタンプがないため、字幕作成、ポッドキャストのチャプター付け、録音からの引用には不向きです。
リアルタイムやライブ文字起こしに対応していないため、会議・ウェビナー・イベント中には使用できません。
同一処理での自動ライブ翻訳機能がないため、英語以外のファイルでは別途プロンプトと再処理が必要です。
チャット体験の中ではバッチ文字起こしやAPIワークフローが利用できないため、複数ファイルへのスケールが効きません。