「リアルタイム文字起こし」という言葉、最近よく見かけるようになりました。録音すると同時に画面に文字が流れる、あの体験です。便利そうに聞こえますが、コードが書けないまま議事録AI「VoiLog」を作っている過程で、この言葉と現実のあいだに大きなギャップがあることに気づきました。今日は、「6分の録音に3分かかる現実」を受け入れたあとに見えた、議事録AIの体験設計について書きます。
建設業の現場管理10年、SaaS営業3年、そして個人開発者。会議や打ち合わせの議事録は、現場でもオフィスでもいつも面倒の中心にありました。理想は「会議が終わった瞬間に議事録が手元にある」状態です。VoiLogを作りながら、この理想と現実のあいだをどう埋めるかをずっと考えています。

「リアルタイム」という言葉が作る期待値
「リアルタイム文字起こし」と聞いたユーザーは、たいてい録音中に話し終わった瞬間、その文字が画面に出る状態を想像します。チャットの既読表示や、配信の同時字幕のような体験です。これは決して間違った期待ではありません。むしろ言葉どおりに受け取れば、そう解釈するのが普通です。
しかし実装側からすると、音声をテキストに変換するには「音声をモデルに渡す」「モデルが推論する」「結果を返す」という処理が必ず入ります。スマホで動かす場合、ここに数秒〜数十秒のラグが生まれます。私が試した範囲でも、6分20秒の録音をリアルタイム処理しようとすると、処理だけで約3分かかる場面がありました。つまり、録音の半分の時間が処理時間として上乗せされる感覚です。
「6分の録音に3分かかる」を、どう体験設計するか
この処理時間そのものは、スマホで動かす議事録AIの宿命に近いものです。クラウドに丸投げすれば速くなりますが、その代わりに通信料・電池消費・オフライン非対応というデメリットが付いてきます。VoiLogはオフラインで動く議事録AIを志向しているので、処理時間は構造上避けられません。
重要なのは「処理に3分かかる」事実そのものではなく、その3分のあいだにユーザーに何を体験してもらうかです。ここで気づいたのが、「リアルタイム」をあきらめて「終わってから整える」発想への切り替えでした。会議が終わってから3分後に、決定事項・宿題・持ち越しが3ブロックの議事録になって手元に届くなら、それは十分に速い体験です。会議中に画面を見つめて文字が流れるのを待つ必要は、本当はありません。

「録音するだけ」が、いちばん地味で強い
VoiLogが行き着いた訴求は「録音するだけ」です。会議中はマイクに集中して話を聞く。録音ボタンを押して、止めるだけ。あとはAIが議事録を組み立てて、手元に返してくる——この一連を、最後まで地味にやり切ることに振り切りました。
建設業の朝礼やKY活動、SaaS営業の対面・電話商談、現場での打ち合わせ。どれも会議中に画面を見つめている余裕はありません。手袋をしていたり、相手の表情を見ていたり、現場の動きを観察していたりします。だからこそ「会議が終わってから3分後に議事録が手元にある」体験のほうが、現場の動線に合います。建設現場での議事録の使われ方を観察した結果、この設計に落ち着きました。
「即時」を目指さない選択が、運用の安定を生む
リアルタイム文字起こしを諦めると、結果的にアプリ全体の安定性が上がります。録音は録音、文字起こしは文字起こし、議事録生成は議事録生成と、処理を分けることでそれぞれを最適化できます。録音中はマイクを安定して掴むことに集中し、終わってから音声を一気にテキスト化し、最後にAIが3ブロックの議事録を組み立てる——この分業が、結果としてユーザーの待ち時間も短くしました。
また、「即時」を目指さないことで電池消費とコストも抑えられます。会議中ずっとモデルを動かし続ければ電池はみるみる減り、月の課金も跳ね上がります。録音だけはローカルで、文字起こしと議事録生成だけが必要なときに走る——この設計が、月980円でAI機能フル開放・クレジット枯渇なしという料金プランを成立させる土台になっています。

言葉の期待値を、地味にズラしていく作業
「リアルタイム文字起こし」という言葉は、たぶんしばらくの間、議事録AIの世界に居続けます。便利そうに聞こえる強い言葉だからです。VoiLogの中ではこの言葉を使わず、代わりに「録音するだけ」「終わったころには議事録に」というフレーズを選んでいます。言葉の期待値と現実のギャップを、地味にゼロに近づけていく作業です。
個人開発者にとって、強い言葉で目を引くことは大事です。でも強い言葉ほど、現実とのギャップが大きくなったときの落差も大きい。「言ったとおりのことができる」を積み重ねるほうが、長期で見ると信頼につながると感じています。理想と現実のギャップを、言葉で大きく見せず、体験で地味に埋めていく——VoiLogを毎日触りながら、いまもこの線引きを微調整しています。
まとめ — 即時を諦めると、議事録AIの体験が整う
「リアルタイム文字起こし」という言葉に乗らず、「会議が終わってから3分後に議事録が手元にある」体験に振り切る。この発想転換が、VoiLogの設計を整え、料金プランを成立させ、現場の動線にも合いました。コードが書けないまま走り出した個人開発者でも、言葉と現実のギャップに気づいて選び直す勇気は持てます。あなたの議事録、まだ会議中に文字を追いかけていますか。
録音するだけで議事録になる「VoiLog」、月980円でAI機能フル開放、クレジット枯渇なし。会議が終わって3分後に、決定事項と宿題が手元にあります。今日から試してみてください。
📱 VoiLog アプリダウンロード(Android) → kensetudx.com
最新の開発実況は X @pckantanwork 、
個人開発の判断の裏側は note @voilog で発信中です。テスター(無料)も募集中です。