バイブコーディング2026年版：16ヶ月のデータが示す真実

まとめ

Andrej Karpathyが2025年2月2日に「バイブコーディング」という言葉を作った。2026年半ばには時代遅れの概念と自ら語り、新しいフレームワークへと移行している。

2025年7月のMETR研究によると、経験豊富な開発者はAIツールを使うと、24%の効率改善を見込んでいたにもかかわらず、実際には19%遅くなることが判明した。

2026年第1四半期に5つの独立した研究をまとめた調査によると、バイブコーディングで作成されたアプリの91.5%に少なくとも1つのセキュリティ脆弱性が存在する。

バイブコーディングが有効なケース：MVP開発、社内ツール、アイデアの迅速な検証を行う非開発者。

バイブコーディングが失敗するケース：専門家によるレビューなしに認証、決済、ユーザーデータを扱うあらゆる場面。

プロフェッショナルの進化形は「エージェントエンジニアリング」――同じツールを使いながらも、エンジニアがすべての差分を確認し、責任を持ち続けるアプローチだ。

2025年2月2日、Andrej Karpathyは後に「思いつきのツイート」と呼ぶことになる投稿をした。「バイブコーディングと呼べる新しいコーディングスタイルが生まれた。感覚に完全に身を委ね、指数関数的な成長を受け入れ、コードの存在すら忘れるスタイルだ」

このツイートはCollins Dictionaryの2025年「今年の言葉」に選ばれた。そこから生まれた市場は今や47億ドル規模にのぼる。主要ツールのひとつであるLovableは2026年半ばまでに年間経常収益2億ドル、評価額66億ドルを達成した。Y Combinatorの2025年冬バッチでは、スタートアップの25%がコードベースの95%をAI生成で運営していた。

16ヶ月という時間は、「これは機能するのか？」という問いを卒業して「データは何を示しているのか？」を問う段階に入るのに十分な期間だ。答えは、誇大宣伝よりも複雑で、批判よりも実用的で、そして当事者が誰かによって大きく異なる。

生産性の数字だけでは全体像は見えない

見出しになるような統計は簡単に見つかる。プロジェクト完成が55%速くなった、アプリ開発が5.8倍速くなった、開発者の74%が生産性向上を実感している、などだ。しかしこうしたまとめが一貫して省いているのが、2025年7月のMETR研究だ。

この研究では、経験豊富なソフトウェアエンジニアがAIコーディングツールを使った場合と使わなかった場合で実際のタスクをテストした。結果：AIアシスタンスを受けたエンジニアは、24%速くなると自信を持って予測していたにもかかわらず、19%遅くなった。予想と現実のギャップは43パーセントポイントも逆方向に開いた。

これはAIツールへの反論ではない。実際に恩恵を受ける人物像についてのシグナルだ。生産性向上は本物だが、その恩恵は非常に偏って分配されている。

経験3年以上のシニア開発者は、第三者が測定したタスクで40〜81%の効率改善を報告している
ジュニア開発者では統計的に有意なアウトプット改善は見られない
バイブコーディングのアクティブユーザーの63%を占める非開発者（プロダクトマネージャー、創業者、デザイナー）は全く異なるものを得ている：これまで持てなかったアクセス手段だ

METRの結果はAIツールの実態を理解すると腑に落ちる。AIツールは、明確に定義されたモジュール型タスクの摩擦を減らす。経験豊富なエンジニアは大半の時間をアーキテクチャ設計、デバッグ、判断に費やしており、コードを打ち込むことに費やしているわけではない。ボトルネックが「考えること」にあるとき、コードを書くスピードが上がっても意味はない。一方、以前はプロトタイプをまったく作れなかった創業者が、今は週末で作れるようになった。

このツールは確かに役立つ。しかし、すべての人に同じ形で役立つわけではない。

セキュリティ問題は偶発的ではなく構造的だ

脆弱性に関する統計は複数の独立した情報源から得られており、同じ結論に収束している。OX SecurityはAI生成コードの62%にセキュリティ上の欠陥があると報告している。SoftwareSeniが2026年第1四半期に5つの独立した研究を分析した結果、バイブコーディングで作成されたアプリの91.5%に少なくとも1つの脆弱性が存在することが判明した。Escape.techは公開されている5,600のバイブコーディングアプリをスキャンし、2,000件以上の深刻な脆弱性、400件以上の秘密情報の漏洩、そして本番環境で稼働中のシステムで175件の個人データ露出を記録した。

91.5%という数字は衝撃的に聞こえる。実際そうだ。しかし、ただ驚くよりもなぜそうなるのかを理解することの方が有益だ。

AIはプロンプトで求めたものを基にコードを生成する。「ユーザーアカウント付きのToDoアプリを作って」と書けば、AIは機能する認証を書く。しかし、SQLインジェクション対策、ログイン試行のレート制限、CSRFトークンは、明示的に指示しない限り追加されない。これらのセキュリティレイヤーは、その存在を知るためのドメイン知識が必要だ。

Escape.techはこのパターンを直接的に指摘している。バイブコーディングの失敗は構造的である傾向がある、つまりAIがそれを実装するよう指示されなかったために、セキュリティレイヤー全体が実装されていないということだ。これはAIが壊れたコードを書いたということではない。AIは求められたものをまさに書いた。欠けていた部分は、そもそも要求されなかったのだ。

これは何を聞けばいいかを知っている人間には修正可能だ。AIが自発的に対処してくれることを期待しても修正できない。

CodeRabbitの2025年12月の分析によると、AIが共同執筆したコードには、人間が書いたコードと比べて約1.7倍多くの「重大な」問題が含まれており、セキュリティ脆弱性の発生率は2.74倍高い。このデータは純粋なバイブコーディングアプリだけでなく、AIが支援するすべてのコードを対象としており、AIへの監督を減らすほど問題が増大することを示唆している。

ツールのスペクトラムを理解する

「バイブコーディング」はプロンプト駆動の開発全般の略語になっているが、これが混乱を招いている。ツールは全く異なるユーザーを対象としているからだ。

ノーコードAIビルダー（Lovable、Bolt.new、Replit Agent）は、欲しいものを平易な言葉で説明するだけでいい。プラットフォームがコードを生成し、ホスティングし、管理する。ユーザーは基礎となるファイルを見ることはない。非開発者向け、そしてアイデアの迅速な検証のために設計されている。

AIコードエディタ（Cursor、Windsurf、Claude Code）はプログラミングの知識を必要とする。開発環境内でコードを生成し、コミットする前にすべての変更を読んでレビューする。AIは非常に高速で、時に信頼性の低いコラボレーターであり、自律的なビルダーではない。

多くのチームが陥る失敗パターン：Lovableから始めて、動作するMVPの80%に到達し、その後、構築されたものの内側を理解しないまま本番システムに拡張しようとすること。ノーコードで生成されたコードベースは、長期的な保守性よりも生成ツールに最適化されたパターンを持つことが多い。

実践的な判断フレームワーク：

状況	アプローチ	開始ツール
今週末アイデアを検証したい	完全バイブコーディング	Lovable、Bolt.new
小チーム向けの社内ツール	監督付き生成	Cursor
実際のユーザーが使うSaaSプロダクト	エージェントエンジニアリング	CursorまたはClaude Code
認証、決済、またはユーザーデータ	AIアシスト付き人間主導	コードレビュー必須

Karpathyはすでに次のステージへ

この言葉を生み出した本人が、今は時代遅れと言っている。

Sequoia Ascent 2026でKarpathyは「エージェントエンジニアリング」と呼ぶフレームワークを発表した。彼の主張：2025年12月までにモデルの信頼性が十分に向上し、真のボトルネックがシフトした。今や問題はAIがコードを書けるかどうかではない。人間がAIが書いたシステムに対して意味のある監督を維持できるかどうかだ。

彼が引く区別：

バイブコーディングは底上げをする。 誰でも機能するものを作れる。コードの品質はKarpathyが「肥大化した、コピペだらけ、壊れやすい不自然な抽象化」と呼ぶことが多い。それでも動き、それは価値がある。ステークスが低いから低い説明責任も適切だ。

エージェントエンジニアリングは天井を引き上げる。 プロの開発者がAIエージェントをオーケストレートしながら、完全な説明責任を維持する。プロンプトを打つ前に仕様を設計し、マージ前に差分をレビューし、テストを書き、評価ループを構築し、権限を慎重に管理する。

講演で最も引用された言葉：「考えることは外注できるが、理解することは外注できない」

実践的に言えば、2つのアプローチの境界線はどのツールを使うかではない。AIがコードを生成した後に何をするかだ。Cursorを使っていてもすべての提案を読まずに受け入れる開発者はバイブコーディングをしている。生成されたすべての差分をジュニアエンジニアからのPRのように扱い、一行ずつ読み、説明できないものはマージしない開発者はエージェントエンジニアリングをしている。同じツール。異なる規律。

自分で必ず書くかレビューすべきもの

記録されている失敗パターンに基づいて、アプローチに関わらず本番環境へのリリース前に人間によるレビューが必要なカテゴリがある。

認証ロジック：パスワードハッシュ、セッション管理、トークン検証
決済処理：Webhookハンドリング、冪等性キー、エラー状態からの回復
ユーザー入力を含むデータベースクエリ：外部データからクエリを構築するコード
認可チェック：誰がどのレコードを読み、書き、削除できるか
シークレット管理：環境変数、APIキーのローテーション、トークンの保存

それ以外はすべて、レビュー付きのAI支援生成の合理的な候補だ。この5つのカテゴリは構造的な失敗が集中する場所だ。

よくある質問

非開発者はバイブコーディングで本番アプリを実際にリリースできるのか？

はい、「本番」が何を意味するかについての重要な区別を踏まえれば。5人が使う社内ツールは、5,000人の決済データを保存するコンシューマーアプリとは異なる。非開発者は前者のカテゴリを実際に構築してリリースすることに成功している。後者については、2026年のセキュリティ研究者の間でのコンセンサスは：バイブコーディングでアイデアを検証し、実際のユーザーの実際のデータを扱う前に、開発者がセキュリティ上重要な箇所を監査するということだ。

LovableとCursorの実際の違いは何か？

Lovableはコードを完全に抽象化する。説明すれば作ってくれて、リリースできる。ファイルに触れることはない。Cursorはコードエディタで、AIが書くスピードを上げてくれるが、コードベースの中にいて、すべての変更を読んでコミットするのは自分だ。正しい選択はどちらのレビューが良いかではなく、コードを読めるかどうかによる。開発者にはCursor。そうでない初心者にはLovableかBoltだ。

バイブコーディングは終わったのか？

実践として見ると終わっていない、主流だ。GitHubは新規コードの46%が今やAI生成だと報告している。経験豊富なエンジニアがこれらのツールで実際に行っていることを正確に表す言葉として見ると、廃れてきている。Karpathy自身がそこから離れた。ツールは同じだ。監督に対するプロフェッショナルの期待が変わったのだ。

バイブコーディングを始めるのにかかる費用は？

Lovableの有料プランは月25ドルから（2026年6月時点）。Cursor Proは月20ドル。Bolt.newには1日あたりのトークン数が限られた無料プランがある。Claude CodeはAPIの使用量ベースで、AnthropicのAPI経由での課金だ。MVPを開発するソロの創業者なら、低使用量で月50ドル以下に収まることが多い。大規模なコードベースでの本番ワークロードは、トークン集約的な操作をどれだけ使うかによって月200〜500ドルになることがある。