增加测试脚本

This commit is contained in:
2025-12-30 16:19:58 +08:00
parent 4d35626b90
commit 8972246445
3 changed files with 143 additions and 49 deletions

View File

@@ -1,49 +1,21 @@
# wiki_crawler
本仓库主要用于存放和更新dify中wiki_crawler的代码节点的代码
本仓库主要用于存放wiki_crawler的代码
`git config --local user.email "qinggang.deng@dxc.com"`
核心依赖 `firecrawl` 和 阿里百炼 的api支持
## 节点返回值格式约定
完成wiki网页爬取和向量化与知识库查找
节点返回值统一采用json格式包含以下字段
- code状态码0失败1成功2警告
- msg状态描述用于提示调用方
- data返回数据json格式根据不同节点有不同的字段若失败则为null
## 当前状况
## 节点输入输出设计
1. 当前在我的电脑本地跑没部署看chenwei有没有空了教我往我们服务器上我自己买的学生服务器还没来得及放上去三月份到期
2. 这个demo后端只实现了功能没有auth相关的部分后续可以直接迁移chenwei那边gtco_ai开一个模块放进去
3. firecrawl的apikey我自己的免费试用apikey快用完了需要准备部署调查付费
4. 可演示但是还没有包装到可以向客户汇报的层次后续考虑直接用dify做一个工具包装集成到Done的bot里或者用chatflow直接包装里面用节点请求部署好的后端进行知识库查询
- start启动节点
- input
- input
- type: ['url''task_id'] # 根据输入类型对input进行处理
- output
- register注册节点涉及sql
- input
- url任务url
- output
- task_id任务id用于后续查询任务状态
- is_new_task是否为新任务1表示是0表示否
- pending_urls剩余待处理url涉及sql
- input
- task_id任务id
- limit最多返回的url数量默认值为10
- output
- urls: 剩余待处理url列表
- save_results保存处理结果涉及sql
- input
- task_id任务id
- results任务结果列表用于存入数据库
- output
- completed已入库url列表
- failed入库url列表
- warnings入库警告列表
- message消息节点前置一个变量聚合器不涉及sql操作
- input
- msgs各个节点的msg经过前置节点整合后统一输出
- output
- output整合消息之后输出给end
- end结束节点
- input
- message节点整合的
切割逻辑准确率定义归结资料测试设计mcp服务调用搜索逻辑问题分类流程架构设计场景假设
整理dify报错
包装mcp server