2025-12-18 14:37:39 +08:00
|
|
|
|
# wiki_crawler
|
|
|
|
|
|
|
2025-12-19 00:52:32 +08:00
|
|
|
|
本仓库主要用于存放和更新dify中wiki_crawler的代码节点的代码
|
2025-12-20 17:08:54 +08:00
|
|
|
|
|
2025-12-29 11:30:59 +08:00
|
|
|
|
`git config --local user.email "qinggang.deng@dxc.com"`
|
|
|
|
|
|
|
2025-12-19 00:52:32 +08:00
|
|
|
|
## 节点返回值格式约定
|
2025-12-20 17:08:54 +08:00
|
|
|
|
|
2025-12-19 00:52:32 +08:00
|
|
|
|
节点返回值统一采用json格式,包含以下字段:
|
2025-12-20 17:08:54 +08:00
|
|
|
|
|
2025-12-19 00:52:32 +08:00
|
|
|
|
- code:状态码,0失败,1成功,2警告
|
|
|
|
|
|
- msg:状态描述,用于提示调用方
|
|
|
|
|
|
- data:返回数据,json格式,根据不同节点有不同的字段,若失败则为null
|
|
|
|
|
|
|
|
|
|
|
|
## 节点输入输出设计
|
2025-12-20 17:08:54 +08:00
|
|
|
|
|
2025-12-19 00:52:32 +08:00
|
|
|
|
- start:启动节点
|
|
|
|
|
|
- input:
|
|
|
|
|
|
- input
|
|
|
|
|
|
- type: ['url','task_id'] # 根据输入类型对input进行处理
|
|
|
|
|
|
- output:无
|
2025-12-20 17:08:54 +08:00
|
|
|
|
- register:注册节点,涉及sql
|
2025-12-19 00:52:32 +08:00
|
|
|
|
- input:
|
|
|
|
|
|
- url:任务url
|
|
|
|
|
|
- output:
|
|
|
|
|
|
- task_id:任务id,用于后续查询任务状态
|
|
|
|
|
|
- is_new_task:是否为新任务,1表示是,0表示否
|
2025-12-20 17:08:54 +08:00
|
|
|
|
- pending_urls:剩余待处理url,涉及sql
|
2025-12-19 00:52:32 +08:00
|
|
|
|
- input:
|
|
|
|
|
|
- task_id:任务id
|
|
|
|
|
|
- limit:最多返回的url数量,默认值为10
|
|
|
|
|
|
- output:
|
2025-12-20 17:08:54 +08:00
|
|
|
|
- urls: 剩余待处理url列表
|
|
|
|
|
|
- save_results:保存处理结果,涉及sql
|
2025-12-19 00:52:32 +08:00
|
|
|
|
- input:
|
|
|
|
|
|
- task_id:任务id
|
|
|
|
|
|
- results:任务结果列表,用于存入数据库
|
|
|
|
|
|
- output:
|
|
|
|
|
|
- completed:已入库url列表
|
2025-12-20 17:08:54 +08:00
|
|
|
|
- failed:入库url列表
|
|
|
|
|
|
- warnings:入库警告列表
|
|
|
|
|
|
- message:消息节点,前置一个变量聚合器,不涉及sql操作
|
|
|
|
|
|
- input:
|
|
|
|
|
|
- msgs:各个节点的msg经过前置节点整合后统一输出
|
|
|
|
|
|
- output:
|
|
|
|
|
|
- output:整合消息之后输出给end
|
|
|
|
|
|
- end:结束节点
|
|
|
|
|
|
- input:
|
|
|
|
|
|
- message节点整合的
|