增加测试脚本

2025-12-30 16:19:58 +08:00
parent 4d35626b90
commit 8972246445
3 changed files with 143 additions and 49 deletions
--- a/README.md
+++ b/README.md
@@ -1,49 +1,21 @@
 # wiki_crawler

-本仓库主要用于存放和更新dify中wiki_crawler的代码节点的代码
+本仓库主要用于存放wiki_crawler的代码

-`git config --local user.email "qinggang.deng@dxc.com"`
+核心依赖 `firecrawl` 和 阿里百炼 的api支持

-## 节点返回值格式约定
+完成wiki网页爬取和向量化与知识库查找

-节点返回值统一采用json格式，包含以下字段：

- code：状态码，0失败，1成功，2警告
- msg：状态描述，用于提示调用方
- data：返回数据，json格式，根据不同节点有不同的字段，若失败则为null
+## 当前状况

-## 节点输入输出设计
+1. 当前在我的电脑本地跑，没部署，看chenwei有没有空了教我往我们服务器上，我自己买的学生服务器还没来得及放上去，三月份到期
+2. 这个demo后端只实现了功能没有auth相关的部分，后续可以直接迁移，chenwei那边gtco_ai开一个模块放进去
+3. firecrawl的apikey，我自己的免费试用apikey快用完了，需要准备部署，调查付费
+4. 可演示，但是还没有包装到可以向客户汇报的层次，后续考虑直接用dify做一个工具包装，集成到Done的bot里；或者用chatflow直接包装，里面用节点请求部署好的后端进行知识库查询

- start：启动节点
-  - input：
-    - input
-    - type: ['url'，'task_id'] # 根据输入类型对input进行处理
-  - output：无
- register：注册节点，涉及sql
-  - input：
-    - url：任务url
-  - output：
-    - task_id：任务id，用于后续查询任务状态
-    - is_new_task：是否为新任务，1表示是，0表示否
- pending_urls：剩余待处理url，涉及sql
-  - input：
-    - task_id：任务id
-    - limit：最多返回的url数量，默认值为10
-  - output：
-    - urls: 剩余待处理url列表
- save_results：保存处理结果，涉及sql
-  - input：
-    - task_id：任务id
-    - results：任务结果列表，用于存入数据库
-  - output：
-    - completed：已入库url列表
-    - failed：入库url列表
-    - warnings：入库警告列表
- message：消息节点，前置一个变量聚合器，不涉及sql操作
-  - input：
-    - msgs：各个节点的msg经过前置节点整合后统一输出
-  - output：
-    - output：整合消息之后输出给end
- end：结束节点
-  - input：
-    - message节点整合的
+切割逻辑，准确率定义，归结资料，测试设计，mcp服务调用，搜索逻辑，问题分类，流程架构设计，场景假设
+
+整理dify报错，
+
+包装mcp server