2025-12-18 14:37:39 +08:00
|
|
|
|
# wiki_crawler
|
|
|
|
|
|
|
2025-12-19 00:52:32 +08:00
|
|
|
|
本仓库主要用于存放和更新dify中wiki_crawler的代码节点的代码
|
|
|
|
|
|
## 节点返回值格式约定
|
|
|
|
|
|
节点返回值统一采用json格式,包含以下字段:
|
|
|
|
|
|
- code:状态码,0失败,1成功,2警告
|
|
|
|
|
|
- msg:状态描述,用于提示调用方
|
|
|
|
|
|
- data:返回数据,json格式,根据不同节点有不同的字段,若失败则为null
|
|
|
|
|
|
|
|
|
|
|
|
## 节点输入输出设计
|
|
|
|
|
|
- start:启动节点
|
|
|
|
|
|
- input:
|
|
|
|
|
|
- input
|
|
|
|
|
|
- type: ['url','task_id'] # 根据输入类型对input进行处理
|
|
|
|
|
|
- output:无
|
|
|
|
|
|
- register:注册节点
|
|
|
|
|
|
- input:
|
|
|
|
|
|
- url:任务url
|
|
|
|
|
|
- output:
|
|
|
|
|
|
- task_id:任务id,用于后续查询任务状态
|
|
|
|
|
|
- is_new_task:是否为新任务,1表示是,0表示否
|
|
|
|
|
|
- pending_urls:剩余待处理url
|
|
|
|
|
|
- input:
|
|
|
|
|
|
- task_id:任务id
|
|
|
|
|
|
- limit:最多返回的url数量,默认值为10
|
|
|
|
|
|
- output:
|
|
|
|
|
|
urls: 剩余待处理url列表
|
|
|
|
|
|
- save_results:保存处理结果
|
|
|
|
|
|
- input:
|
|
|
|
|
|
- task_id:任务id
|
|
|
|
|
|
- results:任务结果列表,用于存入数据库
|
|
|
|
|
|
- output:
|
|
|
|
|
|
- completed:已入库url列表
|
|
|
|
|
|
- failed:入库url列表
|
|
|
|
|
|
- warnings:入库警告列表
|