1. SentrySearch 是什麼
SentrySearch 是一個開源工具,利用 Gemini multimodal embedding 實現影片語意搜尋。你可以用自然語言描述想找的畫面,它會從大量影片素材中找到最匹配的片段。
運作流程
- 影片預處理:將影片切成 30 秒 chunks,解析度降至 480p,幀率降至 5fps(大幅降低處理成本)
- 向量化:每個 chunk 送入 Gemini Embedding 2,轉換成 768 維向量
- 本地儲存:向量存入本地 ChromaDB 向量資料庫
- 語意搜尋:使用者輸入文字 query,同樣轉成向量,透過最近鄰演算法找到最相似的影片片段
2. 底層技術邏輯
SentrySearch 的核心不是「截圖辨識」(OCR / 物件偵測),而是語意嵌入(Semantic Embedding)。這是理解這個工具價值的關鍵。
截圖辨識 vs 語意嵌入
截圖辨識方式(傳統)
- 每幀截圖 → 物件偵測(YOLO 等)→ 標記「有人、有書、有桌子」
- 或用 OCR 讀取畫面文字
- 搜尋方式是關鍵字匹配:搜「書」→ 找標記有「書」的幀
- 限制:只能搜到預定義的物件類別,無法理解場景語意
SentrySearch 語意嵌入方式
- 影片片段整體(不是單幀)→ Gemini 把「視覺意義」壓縮成向量
- 向量代表的不是「有什麼物件」,而是「這段影片在表達什麼」
- 搜尋是向量相似度:搜「學生開心地做手工」→ 找語意最接近的片段
- 能理解抽象概念:「氣氛緊張」「老師在鼓勵學生」
- 不需要預定義物件類別
用比喻說明
Gemini Embedding 2 的多模態特性
這項技術之所以可行,關鍵在於 Gemini Embedding 2 的多模態能力:
- 同一個向量空間可以放文字、圖片、影片 — 不同媒介的資料被映射到同一個 768 維空間
- 因此「文字描述」和「影片片段」能直接比較相似度,不需要中間轉換步驟
- 這是 2026 年 3 月才剛發布的新能力,在此之前沒有公開可用的影片級語意嵌入 API
3. 你的 Pipeline vs SentrySearch 比較
| 面向 | 目前 Pipeline(Whisper + LLM) | SentrySearch(Gemini Embedding) |
|---|---|---|
| 輸入來源 | 音訊(語音轉文字) | 視覺(影片畫面) |
| 理解維度 | 語言內容、語意、情緒 | 視覺場景、動作、氣氛 |
| 擅長場景 | 訪談、演講、對話 | 活動紀錄、B-Roll、無語音素材 |
| 搜尋方式 | 文字全文搜尋 / LLM 語意分析 | 向量語意相似度 |
| 最小單位 | 句子 / 段落(依語音斷句) | 30 秒影片片段 |
| 處理成本 | Whisper 本地免費 / API 低成本 | ~USD $2.50 / 小時素材 |
| 對 Talking Head 效果 | 極佳 語音內容豐富 | 有限 畫面變化小 |
| 對 B-Roll 效果 | 無效 無語音可分析 | 極佳 純視覺理解 |
| 輸出格式 | FCPXML(直接匯入剪輯軟體) | 時間碼 + 相似度分數 |
| 成熟度 | 已整合進工作流,穩定使用中 | 開源原型,Gemini Embedding 仍在 Preview |
4. 目前 Pipeline 的不足
4.1 無視覺理解
目前的 Whisper + LLM pipeline 完全基於音訊。畫面上發生什麼事 — 人的表情、動作、環境變化 — 完全不在分析範圍內。對於訪談類內容影響不大,但在活動紀錄、紀錄片素材中是重大盲區。
4.2 B-Roll 配對困難
剪輯時最耗時的環節之一:講到某個主題時,需要手動翻找對應的 B-Roll 畫面。目前 pipeline 無法協助這個步驟,因為 B-Roll 通常沒有語音。
4.3 無法處理非語音素材
活動紀錄中大量的環境鏡頭、空鏡、互動畫面,只要沒有人在說話,就完全無法被索引或搜尋。
4.4 素材導航效率低
面對數小時的活動素材,目前只能靠時間碼和記憶來找特定畫面。沒有「搜尋畫面內容」的能力,導致大量時間花在素材瀏覽上。
5. 整合方案
方案 A:加入視覺索引層
在現有 pipeline 的 Whisper 語音分析旁邊,平行加入 SentrySearch 的視覺索引。兩套索引獨立建立,搜尋時可以選擇「搜語音內容」或「搜畫面內容」。
方案 B:B-Roll 自動配對
利用 Whisper 分析出的訪談段落主題,自動用語意搜尋從 B-Roll 素材庫中找到最匹配的畫面。例如受訪者說到「孩子們在做手工」,自動找到拍攝孩子做手工的 B-Roll 片段。
方案 C:獨立搜尋工具
不整合進現有 pipeline,單獨部署 SentrySearch 作為素材搜尋工具。拍完活動後先跑索引,之後隨時可以用自然語言搜尋素材。
6. 實際工作場景影響
以圖書館活動拍攝為例(如大東藝術圖書館研習活動),比較導入前後的差異:
| 工作環節 | 導入前 | 導入後 |
|---|---|---|
| 找特定畫面 | 手動快轉瀏覽數小時素材,憑記憶和時間碼定位 | 輸入「老師示範摺紙」,直接跳到對應片段 |
| B-Roll 配對 | 聽到受訪者提到某個活動,手動從素材堆中翻找對應畫面 | 系統自動建議:「這段訪談提到手作,這 3 個 B-Roll 片段最匹配」 |
| 非語音素材管理 | 空鏡、環境鏡頭只能靠檔名和拍攝順序辨識 | 所有畫面都有語意索引,搜「安靜的閱讀角落」就能找到 |
| 粗剪時間 | 4-6 小時(大量時間花在瀏覽素材) | 預估 2-3 小時(搜尋取代瀏覽) |
| 素材復用 | 過去拍的素材很難再找到特定畫面,幾乎不復用 | 所有歷史素材都建立索引,隨時可跨專案搜尋 |
7. 風險與注意事項
| 風險項目 | 說明 | 影響程度 |
|---|---|---|
| Gemini Embedding 2 仍在 Preview | API 可能有 breaking changes、定價可能調整、服務穩定性尚未經過大規模驗證 | 中 |
| Talking Head 素材視覺區分度低 | 訪談鏡頭畫面幾乎不變(同一個人坐著說話),視覺向量的區分能力有限,這類素材仍應依賴語音分析 | 中 |
| 成本線性增長 | 每小時素材 ~$2.50,10 小時 = $25。大量素材的索引成本需要納入專案預算 | 低 |
| 多機位素材的挑戰 | 同一場景的不同角度會產生相似但不同的向量,搜尋結果可能出現大量近似重複 | 中 |
| 30 秒粒度限制 | 最小搜尋單位是 30 秒片段,無法精確到秒級定位,找到片段後仍需人工微調 | 低 |