先把 PDF、图片、表格和网页统一收进来
文档解析的第一步不是单纯上传文件,而是把不同来源、不同格式的材料整理进同一条解析链路。只有输入统一,后面的 OCR、版面理解和结构化输出才稳定。
文字层 / 扫描件 / 多页文件
发票、回单、证照、表单截图
Excel、PPT、Word、URL
来源记录、权限校验、任务排队和格式预处理在这里完成。
文件、URL 和批量材料进入同一任务队列
OCR、版面理解、表格拆分按材料类型调度
生成 Markdown、JSON、字段和证据位置
从 PDF、图片、扫描件、表格到网页,DocParser 输出可追溯的 Markdown、JSON 与字段结果,方便接入知识库、Agent、Skill 和现有业务系统。