Files
ql_test/话术文档.md
2026-01-30 16:17:55 +08:00

8.0 KiB
Raw Blame History

话术文档

自我介绍

面试官您好我叫乔乐在上一家公司从事AI应用开发工程师。工作期间很好的将机器学习、深度学习、自然语言处理及大模型的知识与项目结合并落地。、

机器学习Machine Learning, ML 定义:让计算机从数据中自动学习规律与模式,构建预测或决策模型,无需显式编程规则。 核心思想通过算法如决策树、SVM、随机森林从标注/未标注数据中提取特征,优化损失函数以提升泛化能力。 典型应用:推荐系统(协同过滤)、信用风控、用户分群、传统图像分类(结合手工特征)。 关键点:依赖特征工程,适用于中小规模结构化数据,可解释性较强。 深度学习Deep Learning, DL 定义:机器学习的子领域,基于多层神经网络(深度架构),实现端到端的层次化特征自动学习。 核心思想通过CNN图像、RNN/LSTM序列、Transformer通用等架构从原始数据中逐层抽象高阶语义特征。 典型应用计算机视觉目标检测、语音识别、大语言模型LLM、AlphaGo。 关键点需大数据与强算力支撑自动特征提取能力突出可解释性弱于传统ML但性能在复杂任务中显著领先。 自然语言处理Natural Language Processing, NLP 定义:人工智能的应用分支,致力于让计算机理解、生成与推理人类语言。 核心任务:分词、实体识别、情感分析、机器翻译、问答系统、文本摘要。 技术演进: 规则时代(正则+词典)→ 统计学习HMM、CRF→ 深度学习Word2Vec、BERT→ 大模型时代LLM+RAG+Agent 典型应用:智能客服(如“智史通”历史问答)、搜索引擎、法律文书解析、舆情监控。 关键点当前主流技术深度依赖DL如Transformer需结合领域知识如历史/法律术语库)提升专业性;评估需兼顾准确性、流畅性与事实可信度。

我主要负责过的项目是做的一个项目叫做智史通它是一个专注于历史知识领域的智能问答系统为了提高历史知识获取的效率提高回答的专业性和准确性满足用户对历史知识的深度探索需求结合以上这些需求这个项目应运而生本质是基于MySQL数据库和RAG系统开发了一个智能历史问答助手。

项目分成两大部分第一部分是构建MySQL数据库第二部分是构建RAG系统。第一部分的作用是基于MySQL数据库根据用户的query进行BM25快速匹配并且将高频历史问答对缓存到Redis数据库进行效率的优化如果没有在MySQL数据库中匹配到答案则进入第二部分RAG检索系统为了再次提高效率首先设置了一个基于BERT模型的查询分类模块如果为通用型知识则直接送给LLM进行回答如果为专业历史咨询则走我们的RAG系统基于检索策略选择模块升级后的提示词与Milvus向量数据库进行混合检索稠密向量+稀疏向量再获取检索到的子块文档对应的父块文档将检索到的父文档进行一个BGE-Reranker重排序以达到一个精细化排序最后将这个最终版提示词和相似历史文档的拼接向量送给大模型进行最终回复。

项目实现的过程中,主要遇到了两个大的问题,通过检索器生成的历史知识答案不够准确,以及复杂历史问题的理解深度不足。

我们对检索策略选择进行了优化从单一检索器扩展到四种检索策略直接检索、HyDE、子查询检索、回溯问题检索对生成检索后的提示词模型进行了调整引入了历史领域专用的提示模板对向量嵌入模型进行了优化采用BGE-M3多功能嵌入模型提升历史文本的语义理解能力。

我主要负责了历史文档数据的获取、分析以及提取查询分类模型的选用及训练、BGE-M3词嵌入模型的选用以及部署在本地的模型的选用并构建整个RAG系统评估RAG系统性能。具体包括设计历史文档分块策略实现Milvus向量数据库的构建与优化开发多策略检索框架集成BGE-Reranker重排序模型以及建立系统性能评估指标体系。

团队法律专家1人 工程师2人前端1人测试运维1人。5人

技术栈描述

简历中技术栈简要描述

编程语言与基础

  • Python: 主要开发语言用于构建AI应用和后端服务

后端框架

  • FastAPI: 高性能异步Python Web框架用于构建API服务

    高性能:官方基准测试接近 Node.js/Go 水平(远超 Flask/Django

    适合高并发场景(如 AI 服务、实时接口)

    异步原生:全面支持 async/await,非阻塞 I/O

    高效处理数据库查询、外部 API 调用等耗时操作

    自动验证:基于 Pydantic 模型,自动校验请求/响应数据

    减少 40%+ 数据校验代码,杜绝类型错误

    依赖注入系统: 声明式依赖管理(如数据库会话、认证)

    代码解耦,测试友好,复用性强

    WebSocket 支持: 原生 WebSocket 路由

    轻松构建实时通信功能(如聊天、推送)

与 AI 技术栈深度契合 异步特性完美匹配模型推理(调用 DashScope/qwen3 时避免阻塞) Pydantic 模型直接对接 LangChain/BGE 输入输出结构

  • SQLAlchemy: Python SQL工具包和ORM支持异步操作

    数据库无关:切换 MySQL/PostgreSQL/SQLite 仅需改连接字符串 自动连接池:高效管理数据库连接,提升并发能力 防 SQL 注入:参数化查询内置安全机制 声明式模型:用 Python 类定义表结构迁移工具Alembic支持版本管理 与 Pydantic 无缝衔接FastAPI 项目中可直接将 ORM 模型转为 API 响应模型

  • PyMySQL: Python MySQL客户端库实现数据库连接

数据库技术

  • MySQL: 关系型数据库,用于存储结构化业务数据
  • Redis: 内存数据结构存储,用作缓存和会话管理
  • Milvus: 向量数据库专为AI应用设计支持高效向量相似性搜索

AI/ML框架与模型

  • Transformers: Hugging Face库提供预训练模型接口
  • PyTorch: 深度学习框架,用于模型训练和推理
  • LangChain: 构建基于大语言模型应用的框架
  • BGE-M3: 百度开发的多功能嵌入模型,支持稠密/稀疏向量混合检索
  • BGE-Reranker: 重排序模型,提升检索结果相关性
  • DashScope: 阿里云模型API服务提供通义千问等大模型访问
  • qwen3/gte-rerank-v2/text-embedding-v3: 通义实验室系列模型,用于生成、重排序和文本嵌入

RAG技术栈

  • RAG (Retrieval-Augmented Generation): 检索增强生成技术,结合检索与生成能力
  • Ragflow: RAG流程管理平台优化检索流程
  • GraphRAG: 基于知识图谱的RAG增强技术提升语义关联
  • BM25: 传统信息检索算法,常与向量检索结合使用

系统与部署

  • Docker: 容器化技术,用于应用部署和环境隔离
  • WebSocket: 实现服务端与客户端的实时双向通信
  • Prometheus: 监控系统,用于服务性能指标收集
  • JWT: JSON Web Token用于用户身份认证

前端技术

  • Vue3: 前端框架,用于构建用户界面
  • Node.js: JavaScript运行时支持前端工具链
  • HTML5/JavaScript: 基础Web技术构建交互式界面
  • Pinia: Vue状态管理库保持应用状态一致性

其他工具

  • deepdoc: 文档深度解析工具,提取结构化内容
  • Dify: 低代码LLM应用开发平台加速AI应用构建
  • laws: 法律文档处理工具,用于特定领域文本解析

这些技术栈共同构成了一个完整的AI应用开发生态涵盖从数据处理、模型集成到服务部署的全流程能力。