Serverless Knowledge Base

企业级 MCP 知识库控制台

上传层只负责把文件送进 S3,后端再按 version_id 驱动 OCR、切片、embedding 和 S3 Vectors。 查询结果默认返回上下文和 CloudFront 签名链接,避免直接暴露底层 S3 URL。

PDF / 图片

交给 OCR API 识别,再按页面、版面和邻接关系切分。

DOCX

直接提取正文和表格,保留语义结构。

PPTX

默认拆成 slide_text_chunk 和 slide_image_chunk,适合多模态检索。

Markdown

按标题层级切分,避免把同一主题的上下文打碎。

Runtime

默认 serverless 链路

版本化 ingest、异步抽取和多 profile 向量空间。

01source bucket
02S3 Event Notification
03SQS ingest queue
04Ingest Lambda
05Step Functions Standard
06extract workflow lambdas
07manifest bucket
08SQS embed queue
09Embed Lambda
10SQS DLQ
11S3 Vectors
12MCP Gateway + CloudFront

What Exists

仓库中已经具备的能力

What Is Missing

当前还缺的关键模块

keyAccess
info

Encrypted with AES-256 before transit