SentrySearch 影片語意搜尋研究

← 首頁

1. SentrySearch 是什麼

SentrySearch 是一個開源工具,利用 Gemini multimodal embedding 實現影片語意搜尋。你可以用自然語言描述想找的畫面,它會從大量影片素材中找到最匹配的片段。

運作流程

  1. 影片預處理:將影片切成 30 秒 chunks,解析度降至 480p,幀率降至 5fps(大幅降低處理成本)
  2. 向量化:每個 chunk 送入 Gemini Embedding 2,轉換成 768 維向量
  3. 本地儲存:向量存入本地 ChromaDB 向量資料庫
  4. 語意搜尋:使用者輸入文字 query,同樣轉成向量,透過最近鄰演算法找到最相似的影片片段
成本參考
1 小時影片素材的索引成本約 USD $2.50(Gemini API 費用)。索引建立後,搜尋本身在本地執行,不再產生費用。

GitHub:github.com/ssrajadh/sentrysearch

2. 底層技術邏輯

SentrySearch 的核心不是「截圖辨識」(OCR / 物件偵測),而是語意嵌入(Semantic Embedding)。這是理解這個工具價值的關鍵。

截圖辨識 vs 語意嵌入

截圖辨識方式(傳統)

  • 每幀截圖 → 物件偵測(YOLO 等)→ 標記「有人、有書、有桌子」
  • 或用 OCR 讀取畫面文字
  • 搜尋方式是關鍵字匹配:搜「書」→ 找標記有「書」的幀
  • 限制:只能搜到預定義的物件類別,無法理解場景語意

SentrySearch 語意嵌入方式

  • 影片片段整體(不是單幀)→ Gemini 把「視覺意義」壓縮成向量
  • 向量代表的不是「有什麼物件」,而是「這段影片在表達什麼」
  • 搜尋是向量相似度:搜「學生開心地做手工」→ 找語意最接近的片段
  • 能理解抽象概念:「氣氛緊張」「老師在鼓勵學生」
  • 不需要預定義物件類別

用比喻說明

截圖辨識 = 圖書館的關鍵字索引

搜「蘋果」→ 只找到標題或標籤有「蘋果」的書。搜不到內容在講蘋果但標題沒寫的書。

語意嵌入 = 圖書館員理解你要什麼

搜「健康飲食」→ 圖書館員會推薦關於蘋果、沙拉、營養學的書,因為她理解語意關聯,不只看標題字面。

Gemini Embedding 2 的多模態特性

這項技術之所以可行,關鍵在於 Gemini Embedding 2 的多模態能力

  • 同一個向量空間可以放文字、圖片、影片 — 不同媒介的資料被映射到同一個 768 維空間
  • 因此「文字描述」和「影片片段」能直接比較相似度,不需要中間轉換步驟
  • 這是 2026 年 3 月才剛發布的新能力,在此之前沒有公開可用的影片級語意嵌入 API
為什麼這很重要?
以前要做「用文字搜影片」,必須先把影片轉成文字描述(caption),再做文字對文字的搜尋。現在可以跳過這一步,直接在語意空間裡比較,保留了更多視覺資訊。

3. 你的 Pipeline vs SentrySearch 比較

面向 目前 Pipeline(Whisper + LLM) SentrySearch(Gemini Embedding)
輸入來源 音訊(語音轉文字) 視覺(影片畫面)
理解維度 語言內容、語意、情緒 視覺場景、動作、氣氛
擅長場景 訪談、演講、對話 活動紀錄、B-Roll、無語音素材
搜尋方式 文字全文搜尋 / LLM 語意分析 向量語意相似度
最小單位 句子 / 段落(依語音斷句) 30 秒影片片段
處理成本 Whisper 本地免費 / API 低成本 ~USD $2.50 / 小時素材
對 Talking Head 效果 極佳 語音內容豐富 有限 畫面變化小
對 B-Roll 效果 無效 無語音可分析 極佳 純視覺理解
輸出格式 FCPXML(直接匯入剪輯軟體) 時間碼 + 相似度分數
成熟度 已整合進工作流,穩定使用中 開源原型,Gemini Embedding 仍在 Preview
關鍵觀察
兩者是互補關係,不是取代關係。你的 Pipeline 處理「說了什麼」,SentrySearch 處理「看到什麼」。合在一起才是完整的影片理解。

4. 目前 Pipeline 的不足

4.1 無視覺理解

目前的 Whisper + LLM pipeline 完全基於音訊。畫面上發生什麼事 — 人的表情、動作、環境變化 — 完全不在分析範圍內。對於訪談類內容影響不大,但在活動紀錄、紀錄片素材中是重大盲區。

4.2 B-Roll 配對困難

剪輯時最耗時的環節之一:講到某個主題時,需要手動翻找對應的 B-Roll 畫面。目前 pipeline 無法協助這個步驟,因為 B-Roll 通常沒有語音。

4.3 無法處理非語音素材

活動紀錄中大量的環境鏡頭、空鏡、互動畫面,只要沒有人在說話,就完全無法被索引或搜尋。

4.4 素材導航效率低

面對數小時的活動素材,目前只能靠時間碼和記憶來找特定畫面。沒有「搜尋畫面內容」的能力,導致大量時間花在素材瀏覽上。

5. 整合方案

方案 A:加入視覺索引層

在現有 pipeline 的 Whisper 語音分析旁邊,平行加入 SentrySearch 的視覺索引。兩套索引獨立建立,搜尋時可以選擇「搜語音內容」或「搜畫面內容」。

適合:已經有穩定 pipeline 的情況,最小改動、最低風險。

方案 B:B-Roll 自動配對

利用 Whisper 分析出的訪談段落主題,自動用語意搜尋從 B-Roll 素材庫中找到最匹配的畫面。例如受訪者說到「孩子們在做手工」,自動找到拍攝孩子做手工的 B-Roll 片段。

適合:訪談 + B-Roll 的典型剪輯工作流,自動化程度最高。

方案 C:獨立搜尋工具

不整合進現有 pipeline,單獨部署 SentrySearch 作為素材搜尋工具。拍完活動後先跑索引,之後隨時可以用自然語言搜尋素材。

適合:先試水溫,驗證視覺搜尋對工作流的實際價值。

6. 實際工作場景影響

以圖書館活動拍攝為例(如大東藝術圖書館研習活動),比較導入前後的差異:

工作環節 導入前 導入後
找特定畫面 手動快轉瀏覽數小時素材,憑記憶和時間碼定位 輸入「老師示範摺紙」,直接跳到對應片段
B-Roll 配對 聽到受訪者提到某個活動,手動從素材堆中翻找對應畫面 系統自動建議:「這段訪談提到手作,這 3 個 B-Roll 片段最匹配」
非語音素材管理 空鏡、環境鏡頭只能靠檔名和拍攝順序辨識 所有畫面都有語意索引,搜「安靜的閱讀角落」就能找到
粗剪時間 4-6 小時(大量時間花在瀏覽素材) 預估 2-3 小時(搜尋取代瀏覽)
素材復用 過去拍的素材很難再找到特定畫面,幾乎不復用 所有歷史素材都建立索引,隨時可跨專案搜尋

7. 風險與注意事項

風險項目 說明 影響程度
Gemini Embedding 2 仍在 Preview API 可能有 breaking changes、定價可能調整、服務穩定性尚未經過大規模驗證
Talking Head 素材視覺區分度低 訪談鏡頭畫面幾乎不變(同一個人坐著說話),視覺向量的區分能力有限,這類素材仍應依賴語音分析
成本線性增長 每小時素材 ~$2.50,10 小時 = $25。大量素材的索引成本需要納入專案預算
多機位素材的挑戰 同一場景的不同角度會產生相似但不同的向量,搜尋結果可能出現大量近似重複
30 秒粒度限制 最小搜尋單位是 30 秒片段,無法精確到秒級定位,找到片段後仍需人工微調
建議策略
先以方案 C(獨立搜尋工具)試水溫,用一個實際專案驗證效果。確認價值後再考慮整合進 pipeline。Gemini Embedding 2 正式 GA 前,不建議作為核心依賴。
本報告由 AI 輔助生成,內容僅供參考 — 2026-03-25