增加测试脚本

2025-12-30 16:19:58 +08:00
parent 4d35626b90
commit 8972246445
3 changed files with 143 additions and 49 deletions
--- a/README.md
+++ b/README.md
@@ -1,49 +1,21 @@
 # wiki_crawler
-本仓库主要用于存放和更新dify中wiki_crawler的代码节点的代码
+本仓库主要用于存放wiki_crawler的代码
-`git config --local user.email "qinggang.deng@dxc.com"`
+核心依赖 `firecrawl` 和 阿里百炼 的api支持
-## 节点返回值格式约定
+完成wiki网页爬取和向量化与知识库查找
 节点返回值统一采用json格式，包含以下字段：
- code：状态码，0失败，1成功，2警告
+## 当前状况
 - msg：状态描述，用于提示调用方
 - data：返回数据，json格式，根据不同节点有不同的字段，若失败则为null
-## 节点输入输出设计
+1. 当前在我的电脑本地跑，没部署，看chenwei有没有空了教我往我们服务器上，我自己买的学生服务器还没来得及放上去，三月份到期
 2. 这个demo后端只实现了功能没有auth相关的部分，后续可以直接迁移，chenwei那边gtco_ai开一个模块放进去
 3. firecrawl的apikey，我自己的免费试用apikey快用完了，需要准备部署，调查付费
 4. 可演示，但是还没有包装到可以向客户汇报的层次，后续考虑直接用dify做一个工具包装，集成到Done的bot里；或者用chatflow直接包装，里面用节点请求部署好的后端进行知识库查询
- start：启动节点
+切割逻辑，准确率定义，归结资料，测试设计，mcp服务调用，搜索逻辑，问题分类，流程架构设计，场景假设
-  - input：
+
-    - input
+整理dify报错，
-    - type: ['url'，'task_id'] # 根据输入类型对input进行处理
+
-  - output：无
+包装mcp server
 - register：注册节点，涉及sql
  - input：
    - url：任务url
  - output：
    - task_id：任务id，用于后续查询任务状态
    - is_new_task：是否为新任务，1表示是，0表示否
 - pending_urls：剩余待处理url，涉及sql
  - input：
    - task_id：任务id
    - limit：最多返回的url数量，默认值为10
  - output：
    - urls: 剩余待处理url列表
 - save_results：保存处理结果，涉及sql
  - input：
    - task_id：任务id
    - results：任务结果列表，用于存入数据库
  - output：
    - completed：已入库url列表
    - failed：入库url列表
    - warnings：入库警告列表
 - message：消息节点，前置一个变量聚合器，不涉及sql操作
  - input：
    - msgs：各个节点的msg经过前置节点整合后统一输出
  - output：
    - output：整合消息之后输出给end
 - end：结束节点
  - input：
    - message节点整合的
--- a/scripts/init_db.py
+++ b/scripts/init_db.py
@@ -1,8 +0,0 @@
 import random
 # 生成1536 8位随机向量
 def generate_random_vector(dim=1536):
    return [round(random.uniform(-1, 1), 8) for _ in range(dim)]
 data = [generate_random_vector() for _ in range(1000)]
 print(data[0])
--- a/scripts/rob.py
+++ b/scripts/rob.py
@@ -0,0 +1,130 @@
 import requests
 import json
 import dashscope
 from http import HTTPStatus
 from typing import List, Dict
 # ================= 配置区域 =================
 # 1. 设置 DashScope API Key (这里填入你提供的 Key)
 dashscope.api_key = "sk-8b091493de594c5e9eb42f12f1cc5805"
 # 2. 本地后端地址 (刚才写的 FastAPI)
 BACKEND_SEARCH_URL = "http://127.0.0.1:8000/api/v2/search"
 # 3. 选择模型 (qwen-turbo, qwen-plus, qwen-max)
 MODEL_NAME = dashscope.Generation.Models.qwen_plus
 # ===========================================
 class WikiBot:
    def __init__(self):
        self.history = [] #以此保存多轮对话上下文(可选)
    def search_knowledge_base(self, query: str, top_k: int = 5) -> List[Dict]:
        """调用本地后端接口检索相关知识"""
        try:
            payload = {
                "query": query,
                "limit": top_k
            }
            # 调用 /api/v2/search，后端会自动做 embedding
            resp = requests.post(BACKEND_SEARCH_URL, json=payload)
            if resp.status_code == 200:
                data = resp.json()
                if data.get("code") == 1:
                    return data.get("data", [])
            print(f"[Warning] 检索失败: {resp.text}")
            return []
        except Exception as e:
            print(f"[Error] 连接后端失败: {e}")
            return []
    def build_prompt(self, query: str, context_chunks: List[Dict]) -> str:
        """构建 RAG 提示词"""
        if not context_chunks:
            return f"用户问题：{query}\n\n当前知识库中没有找到相关信息，请直接告知用户无法回答。"
        # 拼接参考资料
        context_str = ""
        for idx, item in enumerate(context_chunks):
            # 这里把 source_url 也带上，方便 AI 引用来源
            source = item.get('source_url', '未知来源')
            content = item.get('content', '').strip()
            context_str += f"【参考资料 {idx+1}】(来源: {source}):\n{content}\n\n"
        # 系统提示词 (System Prompt)
        prompt = f"""你是一个专业的 Wiki 知识库助手。
 请严格根据下方的【参考上下文】来回答用户的【问题】。
 要求：
 1. 回答要准确、简洁，并整合不同参考资料中的信息。
 2. 如果【参考上下文】中包含答案，请用自己的话回答，并在句尾标注来源，例如 [参考资料 1]。
 3. 如果【参考上下文】与问题无关或不包含答案，请直接回答：“知识库中暂未收录相关信息”，不要编造答案。
 4. 保持回答格式清晰（可以使用 Markdown）。
 ====== 参考上下文 开始 ======
 {context_str}
 ====== 参考上下文 结束 ======
 用户问题：{query}
 """
        return prompt
    def chat(self, query: str):
        """主对话逻辑"""
        print(f"\n🔍 正在检索知识库...")
        # 1. 检索
        chunks = self.search_knowledge_base(query)
        print(f"✅ 找到 {len(chunks)} 条相关资料")
        # 2. 构建 Prompt
        prompt = self.build_prompt(query, chunks)
        # (可选) 调试时打印 prompt 看看给 AI 喂了什么
        # print(f"DEBUG PROMPT:\n{prompt}\n")
        print("🤖 Wiki助手正在思考...\n" + "-"*30)
        # 3. 调用 DashScope 生成 (流式输出)
        responses = dashscope.Generation.call(
            model=MODEL_NAME,
            messages=[
                {'role': 'system', 'content': 'You are a helpful assistant.'},
                {'role': 'user', 'content': prompt}
            ],
            result_format='message',  # 设置输出为 message 格式
            stream=True,              # 开启流式输出
            incremental_output=True   # 增量输出
        )
        full_content = ""
        for response in responses:
            if response.status_code == HTTPStatus.OK:
                text = response.output.choices[0]['message']['content']
                full_content += text
                print(text, end='', flush=True)
            else:
                print(f"\nRequest id: {response.request_id}, Status code: {response.status_code}, error code: {response.code}, error message: {response.message}")
        print("\n" + "-"*30 + "\n")
 # ================= 运行入口 =================
 if __name__ == "__main__":
    bot = WikiBot()
    print("✨ Wiki 知识库助手已启动 (输入 'q' 或 'exit' 退出)")
    print("⚠️  请确保后端服务 (main.py) 正在 localhost:8000 运行")
    while True:
        user_input = input("\n🙋 请输入问题: ").strip()
        if user_input.lower() in ['q', 'exit', 'quit']:
            print("再见！")
            break
        if not user_input:
            continue
        bot.chat(user_input)