みなさん、こんにちは!業務ハックLabの「よう」です。 ゴールデンウィーク明け早々、Geminiの開発者向けアップデートが立て続けに届きました。「休み明けにいきなり破壊的変更の話か……」と思った方、気持ちはよくわかります!ただ、対応期限が迫っているものもあるので、今週はさっそく本題に入ります。
📅 2026年5月7日時点の情報です。
📌 今週の要点(TL;DR)
- Gemini: Interactions API (v1beta) に破壊的変更が確定。新スキーマ(
steps)のデフォルト化は2026年5月20日、レガシースキーマ削除は6月6日。 - Gemini: File Search がマルチモーダルRAGに対応(2026年5月5日発表)。
gemini-embedding-2で画像(PNG/JPEG)のネイティブ埋め込み検索が可能になり、テキスト+画像の統合ベクトル検索を実現。
Gemini(Google)
⚡ 注目: Interactions API 破壊的変更および新スキーマへの移行(更新)
Gemini Interactions API (v1beta) のレスポンス構造と出力フォーマット設定に2件の破壊的変更が導入される。outputs 配列が steps 配列に置き換えられ、response_format がポリモーフィック構造に刷新される。新スキーマは2026年5月20日にデフォルト化され、レガシースキーマは6月6日に完全削除される。
- リリース状態: Public Preview(v1beta)
- 新スキーマ デフォルト化: 2026-05-20
- レガシースキーマ 削除日: 2026-06-06
- 先行オプトイン方法: リクエストヘッダーに
Api-Revision: 2026-05-20を付与 - 廃止フィールド:
response_mime_type(response_formatのポリモーフィック構造に統合) - 参考: Interactions API: 破壊的変更の移行ガイド(2026 年 5 月)
今回の変更は、構造と設定の両方にまたがる2点セットです。
まず レスポンス構造の変更 から。これまでのフラットな outputs 配列が、構造化タイムライン形式の steps 配列に置き換えられとのこと。Interactions APIを使って会話ログや処理ステップを解析しているアプリケーションは、このフィールド名変更の影響を直接受けるみたいです。コードレビューの際は outputs という記述を全て洗い出しておいたほうがよさそうですね。
次に 出力フォーマット設定の刷新 です。response_format がポリモーフィック構造になり、従来の response_mime_type フィールドは廃止されるとのこと。JSONレスポンスの型を明示的に指定していたコードは書き換えが必要になるようです。
(5月20日まで約2週間。v1betaとはいえ本番利用しているプロダクトがあるなら、早めに対応を始めないと間に合わないですね)
移行の確認方法として、リクエストヘッダーに Api-Revision: 2026-05-20 を付与することで今すぐ新スキーマを先行確認できます。SDKをご利用の場合は、利用中のバージョンが新スキーマに対応しているか公式マイグレーションガイドで確認されることをおすすめします。
v1betaの段階であることを踏まえると、今後も同様の破壊的変更が入る可能性があります。Interactions APIを本番採用する場合は、変更追跡の仕組みを最初から設計に組み込んでおくことをおすすめします。
💡 活用アイデア: まず早めに Api-Revision: 2026-05-20 ヘッダーを使った新スキーマの先行テストを済ませ、公式マイグレーションガイドでSDKの対応状況を確認しておきましょう。Power Automate のカスタムコネクタ経由でInteractions APIを呼び出している場合は、「HTTP」アクションのヘッダー設定に Api-Revision: 2026-05-20 を追加するだけで新スキーマの動作確認ができます。6月6日の削除前に余裕を持って移行を完了させてください。
Gemini Interactions APIとは?
アップデートをまとめておいてなんですが僕自身、Gemini Interactions APIって何という感じだったのでちょっと調べてみました。
ひとことで言うと「AIとの会話・作業を、一つの流れとして管理できるAPI」です。
通常のGemini APIは「質問を投げて、答えを受け取る」という1回完結のやり取りですがInteractions APIはそれを拡張して、複数のやり取りや途中のツール使用(検索・コード実行など)をひとつの「インタラクション」としてまとめて管理できるようです。
今回の変更(outputs → steps)が何を意味するか
変更前は会話の結果だけが outputs という箱に入って返ってきていました。変更後は、AIが考えた過程・ツールを使った記録・最終回答が、すべて時系列の手順(steps)として整理されて返ってきます。
【変更前】outputs(結果だけ)
└── “東京の天気は晴れです”【変更後】steps(過程も全部)
├── step1: ユーザーの質問を受け取った
├── step2: Web検索を実行した(”東京 天気” で検索)
├── step3: 検索結果を取得した
└── step4: “東京の天気は晴れです” と回答した
File Search マルチモーダル検索対応(更新)
要点: Gemini File Search が2026年5月5日のアップデートでマルチモーダルRAGに対応した。gemini-embedding-2 モデルを使ったFile Search Storeを作成することで、テキストと画像を統合したベクトル検索が可能になり、PDFや技術資料に含まれる図・写真も検索・回答根拠として活用できるようになった。
仕様メモ:
- リリース状態: GA(2026年5月5日発表)
- 対応形式: PNG・JPEG(1リクエスト最大6枚)
- マルチモーダル埋め込みモデル:
gemini-embedding-2 - テキスト専用:
gemini-embedding-001(引き続き利用可能) - 追加機能: カスタムメタデータフィルタリング
- グラウンディングメタデータ: ページ番号および画像参照情報を含む
- 課金: インデックス作成時の埋め込み生成のみ課金対象。ストレージおよびクエリ時の埋め込み生成は無料
- 参考: ファイル検索
これまでのFile Searchはテキスト専用のベクトル検索でした。今回のアップデートで、PDFや技術マニュアルに含まれる 図・グラフ・写真といった画像情報も検索対象に含められる ようになりました。「テキストだけではドキュメントの内容を拾いきれない」という課題を感じていた方には、待望のアップデートです!
(製品カタログや業務マニュアルって、重要な情報が図の中にあることが多いんですよね。それがようやく検索できるようになった、という感覚です)
グラウンディングのメタデータにページ番号と画像参照情報が含まれるようになったことで、「この回答はドキュメントの何ページ目・どの画像をもとにしているか」が追跡できるようになりました。回答の根拠を明示したいエンタープライズ用途では、監査・説明責任の観点でも重要な強化です。
同時に追加されたカスタムメタデータフィルタリングを使えば、たとえば「2026年以降に更新された資料のみ」「製品カテゴリAに絞って検索」といった絞り込みも可能になります。大規模な社内ドキュメント基盤を構築する際の精度向上に直結する機能です。
💡 活用アイデア: 製品マニュアル・社内規定・技術仕様書など「図版が多い業務ドキュメント」のRAGシステム刷新に直接使えます。
今週の所感
今週のGeminiアップデートは「今すぐ動く必要があるもの」と「設計の可能性を広げるもの」が1本ずつ揃いました。
Interactions APIの破壊的変更は、5月20日まで残り約2週間 という切迫した状況です。v1betaだからと後回しにせず、今週中にSDKバージョンの確認と Api-Revision ヘッダーを使った先行テストを進めておくことを強くおすすめします。6月6日のレガシー削除後に慌てないためにも、余裕のあるうちに移行を完了させておきましょう。
File Searchのマルチモーダル対応は、RAGアーキテクチャの設計思想を変えるインパクトがありますね。「テキストのみのRAGに限界を感じていた」という方にとっては、試す価値のあるタイミングかもしれません。
ちょっと宣伝
Geminiですが単体で契約することもできますがGoogle Workspaceとの連携をするとさらに便利に利用できます。
まだGoogle Workspaceを利用したことが無い、興味あるけど契約を迷っているという方はこの機に個人検証環境を構築してみてはどうでしょうか?
過去記事でGoogle Workspace環境の初期構築手順をまとめてますのでこちらも是非見てみてください。
Google Workspace Business Standard 導入手順|個人開発者が検証環境を作る全プロセス
また記事内にもありますがライセンス購入する際に下記紹介リンク経由で申し込むと10%OFFになりますのでよかったら使ってください!
それでは皆さん、良い業務ハックライフを!


コメント