System Boundaries

模块边界与剩余工作

这套仓库已经把后端主链路拆成 ingest、extract、embed 和 query 四个职责。当前最缺的不是算法,而是前端上传代理、真实的状态可视化和更完整的交付流程。

Ingest Lambda

唯一对外入口,负责接收 S3 事件、执行版本化幂等校验,并启动 Step Functions。

Extract Lambda / State Machine

负责 OCR 提交、轮询、结果持久化、manifest 落盘,以及 embedding job 的分发。

Embed Lambda

按 embedding profile 消费队列,写入独立 S3 Vectors index,并回写 projection state。

Query Service

负责多 profile 召回、RRF 融合、neighbor 扩展和 latest_version_id 兜底校验。

Open Gaps

还没有完全落地的部分

主链路保持不变:S3 → OCR → Embedding → S3 Vectors。

返回控制台