编写未来计划表

This commit is contained in:
2026-01-13 17:42:19 +08:00
parent 36bc0cc08b
commit e1a94d4bc7
6 changed files with 71 additions and 11 deletions

View File

@@ -26,7 +26,7 @@
"mrr": [], # Mean Reciprocal Rank: 倒数排名分数,正确答案排得越靠前,分数越高
"latency": [] # 响应耗时
```
3. 搜索逻辑和问题分类目前参考一些主流的做法用户输入后先过一个LLM对问题进行拆分和分类然后传入对应的知识库参数task_id进行对应的检索
3. 搜索逻辑和问题分类:尚未实现,目前参考一些主流的做法用户输入后先过一个LLM对问题进行拆分和分类然后传入对应的知识库参数task_id进行对应的检索
4. RAG逻辑混合检索使用向量和关键词混合检索此处进行粗筛数据层返回后在业务层调用 gte-rerank 模型进行重排,最后返回请求
```python
@@ -34,8 +34,10 @@
keyword_score = func.ts_rank(self.db.chunks.c.content_tsvector, keyword_query) # 计算关键词相似度
final_score = (vector_score * 0.7 + func.coalesce(keyword_score, 0) * 0.3).label("score")# 计算最终分数
```
5. 产品面向爬虫获取完整wiki可无视robots.txt当前知识库存入和爬虫绑定强依赖markdown格式存入
5. 产品面向场景客户需求爬取几个文档并长期维护更新后续需要新增但是量相对不会太大firecrawl付费大概不会太贵。爬虫获取完整wiki可无视robots.txt当前知识库存入和爬虫绑定强依赖markdown格式存入
6. 后续开发添加旧wiki的更新维护功能。dify增加对后端的封装做一套搜索逻辑和问题分类的节点如果不好弄那还是迁回到后端后端只提供知识库的mcpbot调用mcp之后自行调用实现搜索和问题分类
对比其他检索方法的优势做一套评测机制标准评估最终LLM输出的准确度目前是知识库检索准确度
切割逻辑准确率定义归结资料测试设计mcp服务调用搜索逻辑问题分类流程架构设计场景假设