添加维达部署和迁移文档

2024-12-18 11:38:39 +08:00 · 2024-12-18 11:38:39 +08:00 · e847f0ce89
commit e847f0ce89
parent e70e2878c4
6 changed files with 392 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,2 @@
 # 忽略Docker镜像文件
 weida_knowledge_image.tar 
--- a/环境信息.md
+++ b/环境信息.md
@ -0,0 +1,29 @@
 # 维达问答系统环境信息
 ## 环境信息
 ### 硬件信息 
 1. **处理器**: 13th Gen Intel(R) Core(TM) i9-13900K  
 2. **运行内存**: RAM >= 16GB  
 3. **显卡**: 最低 NVIDIA GeForce 3090
 4. **显存**: 24G  
 5. **数据盘**: 1T  
 ### 操作系统
 - 宿主机：Ubuntu 20.04
 - 容器镜像：./weida_knowledge_image.tar
 ### 数据库(容器内)
 - 数据库：mysql
 - 端口：3306
 - 用户名：root
 - 密码：zaq12wsx@weida
 ### AI模型
 - 模型：chatglm4-6b
 - 模型地址：./GLM-4
 - 模型版本：v1.0
 - 模型类型：chatglm4-6b
 - 模型运行：nohup python api.py > server.log &
--- a/维达财务.md
+++ b/维达财务.md
@ -0,0 +1,137 @@
 ## 小维 AI 在财务领域的应用场景落地与大数据应用可行性分析  
 ---
 ### **1. 小维 AI 的当前能力与技术基础**  
 小维 AI 是九鑫自研的大语言模型（LLM），参数规模为 **6B**。尽管与主流通用模型（如 ChatGPT）相比，通用能力略有不足，但在**业务场景**中具备较高的可塑性与落地优势。  
 #### **当前已具备的核心能力**：  
 1. **文本问答与智能检索**  
   - 能基于内部知识库提供高效、准确的问答支持，适合处理结构化和非结构化文本数据。  
 2. **情感与语义分析**  
   - 能通过自然语言处理 (NLP) 技术分析用户需求，识别潜在情绪和信息。  
 3. **业务场景拓展性**  
   - 具备对特定场景（如 HR 场景）进行定制化训练的能力，能够实现针对性较强的 AI 应用。  
 4. **数据处理能力**  
   - 支持对文本数据的分析、分类和筛选。  
 ---
 ### **2. 财务领域的应用场景落地分析**  
 财务部门在企业运营中承担**数据密集型**和**决策驱动型**任务，小维 AI 可以通过自动化、智能化手段，优化流程、提高效率并提供决策支持。  
 #### **2.1 财务自动问答与知识管理**  
 - **应用场景**：  
   - 自动化回答财务常见问题，如报销流程、预算申请、费用科目分类等。  
   - 整合企业财务手册、政策文件，形成智能问答系统，随时提供精准解答。  
 - **技术实现**：  
   - 基于小维 AI 的问答能力，搭建**财务智能问答系统**，接入企业内部财务知识库。  
 - **效果**：  
   - 减轻财务人员的重复性工作，提高企业员工的使用效率和体验。  
 ---
 #### **2.2 智能报账与审核**  
 - **应用场景**：  
   - 自动审核报销单据和发票，检查数据的合规性和一致性。  
   - 识别不合规操作，如超出预算、重复报销等问题。  
 - **技术实现**：  
   - 利用 OCR（光学字符识别）技术与小维 AI 的文本解析能力，自动提取发票信息。  
   - 融合业务规则引擎与 LLM，执行审核判断并输出结果。  
 - **效果**：  
   - 降低财务审核压力，提高审核效率与准确率。  
 ---
 #### **2.3 财务数据分析与预测**  
 - **应用场景**：  
   - 进行企业财务数据的自动分析与可视化，包括预算执行、成本控制、现金流分析等。  
   - 基于历史数据，预测财务趋势，如支出超标预警、收入预测等。  
 - **技术实现**：  
   - 结合大数据分析与 AI 模型，通过历史数据训练实现趋势预测。  
   - 输出 BI（商业智能）报表，帮助财务部门进行决策支持。  
 - **效果**：  
   - 提供精准的数据分析和趋势预测，支持企业做出数据驱动的决策。  
 ---
 #### **2.4 财务风险识别与合规检查**  
 - **应用场景**：  
   - 识别财务风险，如异常支出、潜在违规操作、资金链断裂风险等。  
   - 进行实时合规检查，确保财务操作符合公司内部规定和外部政策。  
 - **技术实现**：  
   - 结合 AI 风险模型与规则引擎，自动检测异常数据并生成风险报告。  
   - 通过 NLP 技术解析政策文件，确保财务操作合规。  
 - **效果**：  
   - 实时发现潜在风险，降低企业财务管理的合规风险与经济损失。  
 ---
 #### **2.5 智能预算管理与优化**  
 - **应用场景**：  
   - 自动化生成预算报表，并实时追踪预算执行情况。  
   - 基于历史支出数据与企业战略目标，优化预算分配方案。  
 - **技术实现**：  
   - AI 模型通过数据分析，识别支出趋势并优化预算规划。  
   - 提供实时预算执行监控，生成动态分析报告。  
 - **效果**：  
   - 提高预算管理效率，确保资金使用的精准性和透明度。  
 ---
 ### **3. 财务领域大数据应用可行性**  
 #### **3.1 数据采集与整合**  
 - 整合企业财务系统、ERP 数据、报销单据等多源数据，形成统一的数据仓库。  
 - 支持结构化和非结构化数据的解析、存储和预处理。  
 #### **3.2 数据分析与建模**  
 - **建模目标**：  
   - 财务报表分析：通过大数据挖掘企业支出和收益的关键指标。  
   - 趋势预测建模：基于时间序列分析预测收入、支出和利润变化趋势。  
   - 异常检测模型：识别数据异常，支持风险管理。  
 - **分析工具**：  
   - 融合小维 AI 与传统数据挖掘算法（如回归分析、聚类分析等）。  
 #### **3.3 数据可视化与决策支持**  
 - 通过 BI 工具（如 Power BI、Tableau）可视化财务数据分析结果。  
 - 提供高层决策支持，包括趋势预测、成本优化建议和风险评估报告。  
 ---
 ### **4. 财务应用场景落地的技术优势与挑战**  
 #### **4.1 技术优势**  
 1. 小维 AI 可基于企业专属数据进行定制化训练，具备较强的业务适配性。  
 2. 提供**低成本部署**，通过本地化部署保障数据安全。  
 3. 可结合多种 AI 技术（OCR、机器学习等）和大数据分析工具，提供端到端解决方案。  
 #### **4.2 技术挑战**  
 1. **数据质量与标准化**：企业财务数据往往存在格式不统一、质量不高的问题，需进行预处理。  
 2. **模型准确性**：需要不断调优 AI 模型，以提高数据分析与风险检测的准确度。  
 3. **合规与安全性**：财务数据涉及敏感信息，需确保数据安全与合规性。  
 ---
 ### **5. 合作建议与实施路径**  
 #### **5.1 合作建议**  
 1. **技术咨询与业务共创**：梳理财务需求，提供定制化解决方案。  
 2. **快速 MVP 落地**：先行开发核心功能（如智能报账、问答系统）进行试点应用。  
 3. **数据分析与可视化**：结合现有财务数据，提供实时分析报告与决策支持。  
 #### **5.2 实施路径**  
 - **阶段 1**：需求调研与业务梳理。  
 - **阶段 2**：开发智能问答与报账功能，进行小规模试点。  
 - **阶段 3**：部署大数据分析平台，实现风险监测与趋势预测。  
 - **阶段 4**：逐步扩展功能，实现全面财务智能化管理。  
 ---
 ### **6. 总结**  
 小维 AI 在财务领域的应用场景广泛，包括**自动问答、智能审核、数据分析与风险预测**等方面，能够有效提升财务管理的效率与决策能力。同时，结合大数据分析，能够为企业提供数据驱动的财务战略支持。  
 通过逐步试点与功能扩展，九鑫的小维 AI 能够成为财务领域的智能助手，为企业实现**智能化、精准化、数据化**的财务管理提供有力支撑。
--- a/维达财务.pdf
+++ b/维达财务.pdf
--- a/维达迁移手册.md
+++ b/维达迁移手册.md
@ -0,0 +1,99 @@
 # 维达后台服务迁移指南
 ## 1. 迁移准备
 迁移前请确保以下资源已准备就绪：
 - 源服务器上的全部数据和代码
 - 目标服务器满足以下要求：
  - Docker环境已安装
  - 至少20GB可用磁盘空间
  - 至少8GB内存
  - 5103端口可用（或规划使用的其他端口）
 ## 2. 数据备份
 在源服务器上执行以下操作：
 1. 备份数据库
 ```bash
 docker exec weida_knowledge mysqldump -u root -p zaq12wsx@weida --all-databases > weida_backup.sql
 ```
 2. 备份向量库数据
 ```bash
 tar -czf qa_content.tar.gz /path/to/qa_content
 tar -czf qa_store.tar.gz /path/to/qa_store
 ```
 3. 备份服务代码
 ```bash
 tar -czf gpts.tar.gz /path/to/gpts
 ```
 ## 3. 数据迁移
 将以下文件传输至目标服务器：
 - weida_konwledge_image.tar (Docker镜像)
 - weida_backup.sql (数据库备份)
 - qa_content.tar.gz (向量库内容)
 - qa_store.tar.gz (向量库向量)
 - gpts.tar.gz (服务代码)
 - GLM-4目录 (AI模型)
 ## 4. 恢复部署
 1. 解压所有文件
 ```bash
 tar -xzf gpts.tar.gz
 tar -xzf qa_content.tar.gz -C /path/to/gpts/qa_content
 tar -xzf qa_store.tar.gz -C /path/to/gpts/qa_store
 ```
 2. 按照《维达部署手册》中的步骤执行部署：
   - 加载并运行Docker镜像
   - 恢复数据库
   - 启动服务
   - 启动AI模型
 ## 5. 验证迁移
 迁移完成后，请验证以下功能：
 1. 检查服务状态
 ```bash
 ps aux | grep mainserver.py
 ps aux | grep api.py
 ```
 2. 检查数据库连接
 ```bash
 mysql -u root -p
 ```
 3. 测试问答功能
   - 尝试上传新文档
   - 测试问答交互
   - 验证向量检索
 ## 6. 回滚方案
 如迁移过程中出现问题，准备以下回滚步骤：
 1. 停止新部署的服务
 ```bash
 docker stop weida_knowledge
 ```
 2. 恢复原有服务器的运行状态
 3. 记录失败原因，分析问题后重新制定迁移计划
 ## 7. 注意事项
 - 迁移前请确保源服务处于稳定状态
 - 建议在非业务高峰期进行迁移
 - 保留所有备份文件直至新环境稳定运行
 - 迁移过程中详细记录每个步骤的执行情况
 - 确保新环境的系统时间与源环境一致
--- a/维达部署手册.md
+++ b/维达部署手册.md
@ -0,0 +1,125 @@
 # 维达后台服务迁移文档
 ## 1. 概述
 问答服务由三部分组成：
 - 运行环境
 - 服务代码
 - AI模型
 本项目根目录组织如下：
 |文件/文件夹|内容|
 |--|--|
 |维达迁移文档.md|迁移文档|
 |weida_konwledge_image.tar|维达运行环境镜像|
 |gpts|服务代码目录|
 |GLM-4|AI模型目录|
 部署的时候需要将本文件夹所有内容拷贝到维达服务器，然后按下面步骤逐一运行。
 ## 2. 运行环境
 运行环境以docker容器的形式运行。主要包含：
 - 主系统： ubuntu 20.04
 - python环境：mini-conda
 - 数据库: mysql(docker 内部3306端口，root/zaq12wsx@weida) 
 - 各种其他环境（详见下表）
 |环境|状态|说明|
 |--|--|--| 
 |mysql|已部署|关系型数据库服务，存储问答对|
 |faiss-cpu|已部署|向量库，存储文本向量|
 |supervisord|已部署|管理和监控进程 |
 |conda|已部署|支持多种编程语言的包管理和环境管理系统|
 **启动镜像**
 ```bash
 docker load -i ./weida_knowledge_image.tar
 docker run -it -p 5103:5103 --name weida_knowledge -v ./gpts:/workspace/gpts ubuntu /bin/bash
 ```
 - 这里要注意端口映射。5103是一个例子，实际上要根据维达服务器的具体端口情况设置。
 - 路径映射也是同样的，要将本项目的根目录下的gpts全部映射过去。
 ## 2. 服务代码
 服务代码包含了文件上传、问答对拆分、知识库入库等操作，要用到几个自然语言处理模块（在拷贝到维达内部服务器时千万不能漏掉）。目录结构如下：
 |文件\/文件夹|内容|
 |--|--|
 |gpt_server|主项目目录|
 |qa_content|向量库内容目录|
 |qa_store|向量库向量目录|
 其中，gpt_server为项目主目录，其主要内容和结构如下：
 |文件文件夹|内容|
 |--|--|
 |mainserver.py|主服务入口文件|
 |supervisord.conf|托管后台配置文件|
 |GanymedNil|词向量化模型文件夹|
 |Helsinki-NLP|翻译模型文件夹|
 |nltk_data|自然语言处理包|
 ## 3. 开启服务
 ### 3.1 进入容器内部
 **以下操作均在容器内部进行**
 ```bash
 docker attach 容器ID
 # 检查mysql是否运行
 mysql -u root
 # 如果没有启动
 service mysql start
 # 检查代码路径是否正确映射进来
 cd /workspace/gpts/gpt_server
 ls
 ```
 如果检查通过，继续：
 ```bash
 #激活主服务环境
 conda activate weida_qa
 #运行主服务
 nohup python mainserver.py >server.log &
 ```
 最后在容器中按ctrl + p + q退出当前容器。**注意**：不能使用exit退出容器。
 ## 4. 启动AI模型
 ```bash
 cd /workspace/GLM-4
 conda activate glm4
 nohup python api.py > server.log &
 ```
 ## 5. 注意事项
 由于代码是放在宿主机而不是直接放在容器里的，而通过路径映射的宿主机代码路径和容器内部容器路径是实时同步的，因此查看日志不必登录容器。只需要在代码文件夹内查看即可。
 - server.log 主服务日志，用于记录与主服务相关的日志
 - 如果要重启整个服务，步骤如下
  1. 停止mainserver.py进程 ```ps aux | grep mainserver.py```, ```kill -0 进程号``` 
  2. 停止api.py进程 ```ps aux | grep api.py```, ```kill -0 进程号```
  3. 启动mainserver.py进程 ```nohup python mainserver.py >server.log &```
  4. 启动api.py进程 ```nohup python api.py > server.log &```
		`@ -0,0 +1,2 @@`
							`# 忽略Docker镜像文件`
							`weida_knowledge_image.tar`