SentrySearch 影片語意搜尋研究

1. SentrySearch 是什麼

SentrySearch 是一個開源工具，利用 Gemini multimodal embedding 實現影片語意搜尋。你可以用自然語言描述想找的畫面，它會從大量影片素材中找到最匹配的片段。

運作流程

影片預處理：將影片切成 30 秒 chunks，解析度降至 480p，幀率降至 5fps（大幅降低處理成本）
向量化：每個 chunk 送入 Gemini Embedding 2，轉換成 768 維向量
本地儲存：向量存入本地 ChromaDB 向量資料庫
語意搜尋：使用者輸入文字 query，同樣轉成向量，透過最近鄰演算法找到最相似的影片片段

成本參考

1 小時影片素材的索引成本約 USD $2.50（Gemini API 費用）。索引建立後，搜尋本身在本地執行，不再產生費用。

GitHub：github.com/ssrajadh/sentrysearch

2. 底層技術邏輯

SentrySearch 的核心不是「截圖辨識」（OCR / 物件偵測），而是語意嵌入（Semantic Embedding）。這是理解這個工具價值的關鍵。

截圖辨識 vs 語意嵌入

截圖辨識方式（傳統）

每幀截圖 → 物件偵測（YOLO 等）→ 標記「有人、有書、有桌子」
或用 OCR 讀取畫面文字
搜尋方式是關鍵字匹配：搜「書」→ 找標記有「書」的幀
限制：只能搜到預定義的物件類別，無法理解場景語意

SentrySearch 語意嵌入方式

影片片段整體（不是單幀）→ Gemini 把「視覺意義」壓縮成向量
向量代表的不是「有什麼物件」，而是「這段影片在表達什麼」
搜尋是向量相似度：搜「學生開心地做手工」→ 找語意最接近的片段
能理解抽象概念：「氣氛緊張」「老師在鼓勵學生」
不需要預定義物件類別

用比喻說明

截圖辨識 = 圖書館的關鍵字索引

搜「蘋果」→ 只找到標題或標籤有「蘋果」的書。搜不到內容在講蘋果但標題沒寫的書。

語意嵌入 = 圖書館員理解你要什麼

搜「健康飲食」→ 圖書館員會推薦關於蘋果、沙拉、營養學的書，因為她理解語意關聯，不只看標題字面。

Gemini Embedding 2 的多模態特性

這項技術之所以可行，關鍵在於 Gemini Embedding 2 的多模態能力：

同一個向量空間可以放文字、圖片、影片 — 不同媒介的資料被映射到同一個 768 維空間
因此「文字描述」和「影片片段」能直接比較相似度，不需要中間轉換步驟
這是 2026 年 3 月才剛發布的新能力，在此之前沒有公開可用的影片級語意嵌入 API

為什麼這很重要？

以前要做「用文字搜影片」，必須先把影片轉成文字描述（caption），再做文字對文字的搜尋。現在可以跳過這一步，直接在語意空間裡比較，保留了更多視覺資訊。

3. 你的 Pipeline vs SentrySearch 比較

面向	目前 Pipeline（Whisper + LLM）	SentrySearch（Gemini Embedding）
輸入來源	音訊（語音轉文字）	視覺（影片畫面）
理解維度	語言內容、語意、情緒	視覺場景、動作、氣氛
擅長場景	訪談、演講、對話	活動紀錄、B-Roll、無語音素材
搜尋方式	文字全文搜尋 / LLM 語意分析	向量語意相似度
最小單位	句子 / 段落（依語音斷句）	30 秒影片片段
處理成本	Whisper 本地免費 / API 低成本	~USD $2.50 / 小時素材
對 Talking Head 效果	極佳語音內容豐富	有限畫面變化小
對 B-Roll 效果	無效無語音可分析	極佳純視覺理解
輸出格式	FCPXML（直接匯入剪輯軟體）	時間碼 + 相似度分數
成熟度	已整合進工作流，穩定使用中	開源原型，Gemini Embedding 仍在 Preview

關鍵觀察

兩者是互補關係，不是取代關係。你的 Pipeline 處理「說了什麼」，SentrySearch 處理「看到什麼」。合在一起才是完整的影片理解。

4. 目前 Pipeline 的不足

4.1 無視覺理解

目前的 Whisper + LLM pipeline 完全基於音訊。畫面上發生什麼事 — 人的表情、動作、環境變化 — 完全不在分析範圍內。對於訪談類內容影響不大，但在活動紀錄、紀錄片素材中是重大盲區。

4.2 B-Roll 配對困難

剪輯時最耗時的環節之一：講到某個主題時，需要手動翻找對應的 B-Roll 畫面。目前 pipeline 無法協助這個步驟，因為 B-Roll 通常沒有語音。

4.3 無法處理非語音素材

活動紀錄中大量的環境鏡頭、空鏡、互動畫面，只要沒有人在說話，就完全無法被索引或搜尋。

4.4 素材導航效率低

面對數小時的活動素材，目前只能靠時間碼和記憶來找特定畫面。沒有「搜尋畫面內容」的能力，導致大量時間花在素材瀏覽上。

5. 整合方案

方案 A：加入視覺索引層

在現有 pipeline 的 Whisper 語音分析旁邊，平行加入 SentrySearch 的視覺索引。兩套索引獨立建立，搜尋時可以選擇「搜語音內容」或「搜畫面內容」。

適合：已經有穩定 pipeline 的情況，最小改動、最低風險。

方案 B：B-Roll 自動配對

利用 Whisper 分析出的訪談段落主題，自動用語意搜尋從 B-Roll 素材庫中找到最匹配的畫面。例如受訪者說到「孩子們在做手工」，自動找到拍攝孩子做手工的 B-Roll 片段。

適合：訪談 + B-Roll 的典型剪輯工作流，自動化程度最高。

方案 C：獨立搜尋工具

不整合進現有 pipeline，單獨部署 SentrySearch 作為素材搜尋工具。拍完活動後先跑索引，之後隨時可以用自然語言搜尋素材。

適合：先試水溫，驗證視覺搜尋對工作流的實際價值。

6. 實際工作場景影響

以圖書館活動拍攝為例（如大東藝術圖書館研習活動），比較導入前後的差異：

工作環節	導入前	導入後
找特定畫面	手動快轉瀏覽數小時素材，憑記憶和時間碼定位	輸入「老師示範摺紙」，直接跳到對應片段
B-Roll 配對	聽到受訪者提到某個活動，手動從素材堆中翻找對應畫面	系統自動建議：「這段訪談提到手作，這 3 個 B-Roll 片段最匹配」
非語音素材管理	空鏡、環境鏡頭只能靠檔名和拍攝順序辨識	所有畫面都有語意索引，搜「安靜的閱讀角落」就能找到
粗剪時間	4-6 小時（大量時間花在瀏覽素材）	預估 2-3 小時（搜尋取代瀏覽）
素材復用	過去拍的素材很難再找到特定畫面，幾乎不復用	所有歷史素材都建立索引，隨時可跨專案搜尋

7. 風險與注意事項

風險項目	說明	影響程度
Gemini Embedding 2 仍在 Preview	API 可能有 breaking changes、定價可能調整、服務穩定性尚未經過大規模驗證	中
Talking Head 素材視覺區分度低	訪談鏡頭畫面幾乎不變（同一個人坐著說話），視覺向量的區分能力有限，這類素材仍應依賴語音分析	中
成本線性增長	每小時素材 ~$2.50，10 小時 = $25。大量素材的索引成本需要納入專案預算	低
多機位素材的挑戰	同一場景的不同角度會產生相似但不同的向量，搜尋結果可能出現大量近似重複	中
30 秒粒度限制	最小搜尋單位是 30 秒片段，無法精確到秒級定位，找到片段後仍需人工微調	低

建議策略

先以方案 C（獨立搜尋工具）試水溫，用一個實際專案驗證效果。確認價值後再考慮整合進 pipeline。Gemini Embedding 2 正式 GA 前，不建議作為核心依賴。