What Exists
仓库里已经有的能力
- S3 version-aware ingest 与幂等治理
- Step Functions Standard 异步 OCR / 抽取
- 多 embedding profile 与独立向量空间
- Query API / MCP Gateway 的语义召回
- CloudFront 私有文件交付链接
What Exists
What Is Missing
Runtime
版本化 ingest + 异步抽取 + 多 profile 向量空间。
Upload
Can connect to Cloudflare Pages Function or API Gateway.
{
"tenant_id": "tenant-demo",
"security_scope": [
"team-a"
],
"language": "zh",
"object_key": "uploads/document.pdf",
"file_name": "document.pdf"
}Query
Query API and MCP Gateway can share the same retrieval path.
{
"query": "Summarize the core ideas in this document.",
"tenant_id": "tenant-demo",
"security_scope": [
"team-a"
],
"top_k": 5,
"neighbor_expand": 1
}交给 OCR API 识别,再按页面、版面和邻接关系切分。
直接抽取正文和表格,去除图片,保留语义结构。
默认拆成 slide_text_chunk 与 slide_image_chunk,适合多模态检索。
按标题层级切分,避免把同一主题的上下文打碎。
Query Output
命中段落、邻居 chunk、CloudFront 链接都应该一起回来。
介绍了 S3 versioning、manifest bucket 和 object_state 的职责边界。
前后相邻 chunk 一并返回,避免只看单句命中造成语义断裂。
CloudFront signed URL 直接打开对应版本的源文件,而不是裸 S3 URL。