├── .gitignore
├── README.assets
    ├── BM25检索算法的返回值.png
    ├── RAG请求历史记录-含问题重构.png
    ├── vllm_gpu_util参数支持.png
    ├── 不同vllm_gpu_util参数设置的显存占用.png
    ├── 大模型服务压力测试效果.png
    ├── 如何评价RAG的效果.png
    ├── 将RAG服务接入场景页面.png
    ├── 开启vllm的大模型推理服务.png
    └── 用于RAG的结构化数据.png
├── README.md
├── chat
    ├── babel.config.js
    ├── jsconfig.json
    ├── package.json
    ├── public
    │   ├── favicon.ico
    │   └── index.html
    ├── src
    │   ├── App.vue
    │   ├── assets
    │   │   ├── people.png
    │   │   └── robot.png
    │   ├── github
    │   │   ├── open-sans-v17-latin-ext_latin-700.woff2
    │   │   ├── open-sans-v17-latin-ext_latin-700italic.woff2
    │   │   ├── open-sans-v17-latin-ext_latin-italic.woff2
    │   │   └── open-sans-v17-latin-ext_latin-regular.woff2
    │   └── main.js
    └── vue.config.js
├── convert
    ├── data_convert_json
    │   ├── batch_docx_to_json.py
    │   ├── docx_to_json.py
    │   └── pdf_to_docx.py
    └── marker_parse_pdf
    │   ├── Dockerfile
    │   ├── README.md
    │   ├── benchmark.py
    │   ├── build.sh
    │   ├── chunk_convert.sh
    │   ├── convert.py
    │   ├── convert_single.py
    │   ├── data
    │       ├── .gitignore
    │       ├── examples
    │       │   ├── marker
    │       │   │   ├── multicolcnn.md
    │       │   │   ├── switch_transformers.md
    │       │   │   ├── thinkos.md
    │       │   │   └── thinkpython.md
    │       │   └── nougat
    │       │   │   ├── multicolcnn.md
    │       │   │   ├── switch_transformers.md
    │       │   │   ├── thinkos.md
    │       │   │   └── thinkpython.md
    │       ├── images
    │       │   ├── overall.png
    │       │   └── per_doc.png
    │       └── latex_to_md.sh
    │   ├── input
    │       └── input.pdf
    │   ├── marker
    │       ├── bbox.py
    │       ├── benchmark
    │       │   └── scoring.py
    │       ├── cleaners
    │       │   ├── bullets.py
    │       │   ├── code.py
    │       │   ├── equations.py
    │       │   ├── headers.py
    │       │   └── table.py
    │       ├── convert.py
    │       ├── debug
    │       │   └── data.py
    │       ├── extract_text.py
    │       ├── logger.py
    │       ├── markdown.py
    │       ├── models.py
    │       ├── ocr
    │       │   ├── page.py
    │       │   └── utils.py
    │       ├── ordering.py
    │       ├── postprocessors
    │       │   ├── editor.py
    │       │   └── t5.py
    │       ├── schema.py
    │       ├── segmentation.py
    │       └── settings.py
    │   ├── output
    │       ├── output.md
    │       └── output_meta.json
    │   ├── requirements.txt
    │   └── scripts
    │       ├── header.tex
    │       ├── install
    │           ├── apt-requirements.txt
    │           ├── brew-requirements.txt
    │           ├── ghostscript_install.sh
    │           └── tesseract_5_install.sh
    │       ├── markdown_to_pdf.sh
    │       └── verify_benchmark_scores.py
├── data
    ├── original_data
    │   ├── 中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx
    │   └── 国务院关于加强地方政府性债务管理的意见.docx
    └── preprocess_data
    │   ├── 中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.json
    │   └── 国务院关于加强地方政府性债务管理的意见.json
├── llm
    ├── llm_server.py
    ├── llmtuner
    │   ├── api
    │   │   ├── __init__.py
    │   │   ├── app.py
    │   │   ├── chat.py
    │   │   ├── common.py
    │   │   └── protocol.py
    │   ├── chat
    │   │   ├── __init__.py
    │   │   ├── base_engine.py
    │   │   ├── chat_model.py
    │   │   ├── hf_engine.py
    │   │   └── vllm_engine.py
    │   ├── data
    │   │   ├── __init__.py
    │   │   ├── aligner.py
    │   │   ├── collator.py
    │   │   ├── formatter.py
    │   │   ├── loader.py
    │   │   ├── parser.py
    │   │   ├── preprocess.py
    │   │   ├── template.py
    │   │   └── utils.py
    │   ├── extras
    │   │   ├── __init__.py
    │   │   ├── callbacks.py
    │   │   ├── constants.py
    │   │   ├── logging.py
    │   │   ├── misc.py
    │   │   ├── packages.py
    │   │   └── ploting.py
    │   ├── hparams
    │   │   ├── __init__.py
    │   │   ├── data_args.py
    │   │   ├── evaluation_args.py
    │   │   ├── finetuning_args.py
    │   │   ├── generating_args.py
    │   │   ├── model_args.py
    │   │   └── parser.py
    │   └── model
    │   │   ├── __init__.py
    │   │   ├── adapter.py
    │   │   ├── loader.py
    │   │   ├── patcher.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── attention.py
    │   │       ├── checkpointing.py
    │   │       ├── embedding.py
    │   │       ├── longlora.py
    │   │       ├── misc.py
    │   │       ├── mod.py
    │   │       ├── moe.py
    │   │       ├── quantization.py
    │   │       ├── rope.py
    │   │       ├── unsloth.py
    │   │       ├── valuehead.py
    │   │       └── visual.py
    ├── models
    │   ├── download_baichuan_model.py
    │   └── download_qwen_model.py
    ├── nginx_balance
    │   ├── Dockerfile
    │   ├── build.sh
    │   ├── nginx.conf
    │   ├── nginx_balance.conf
    │   └── proxy.conf
    └── test
    │   ├── llm_server_stress_test.py
    │   └── llm_server_test.py
├── rag
    ├── code.py
    ├── history
    │   └── history_session_id_001.json
    ├── log.py
    ├── rag_server.py
    ├── rag_solve.py
    ├── response.py
    └── test
    │   └── rag_test.py
└── retrieval
    ├── bge
        ├── bge_download_model.py
        ├── bge_index.py
        └── bge_retrieval.py
    ├── bm25
        ├── bm25_index.py
        ├── bm25_retrieval.py
        └── stop_words.txt
    ├── code.py
    ├── log.py
    ├── openai_embedding
        ├── openai_index.py
        └── openai_retrieval.py
    ├── response.py
    ├── retrieval_index.py
    ├── retrieval_server.py
    └── test
        └── retrieval_test.py


/.gitignore:
--------------------------------------------------------------------------------
1 | **/bge-large-zh-v1.5/
2 | **/.DS_Store
3 | **/.idea/
4 | **/__pycache__/
5 | **/node_modules/
6 | **/package-lock.json


--------------------------------------------------------------------------------
/README.assets/BM25检索算法的返回值.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/BM25检索算法的返回值.png


--------------------------------------------------------------------------------
/README.assets/RAG请求历史记录-含问题重构.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/RAG请求历史记录-含问题重构.png


--------------------------------------------------------------------------------
/README.assets/vllm_gpu_util参数支持.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/vllm_gpu_util参数支持.png


--------------------------------------------------------------------------------
/README.assets/不同vllm_gpu_util参数设置的显存占用.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/不同vllm_gpu_util参数设置的显存占用.png


--------------------------------------------------------------------------------
/README.assets/大模型服务压力测试效果.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/大模型服务压力测试效果.png


--------------------------------------------------------------------------------
/README.assets/如何评价RAG的效果.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/如何评价RAG的效果.png


--------------------------------------------------------------------------------
/README.assets/将RAG服务接入场景页面.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/将RAG服务接入场景页面.png


--------------------------------------------------------------------------------
/README.assets/开启vllm的大模型推理服务.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/开启vllm的大模型推理服务.png


--------------------------------------------------------------------------------
/README.assets/用于RAG的结构化数据.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/README.assets/用于RAG的结构化数据.png


--------------------------------------------------------------------------------
/chat/babel.config.js:
--------------------------------------------------------------------------------
1 | module.exports = {
2 |   presets: [
3 |     '@vue/cli-plugin-babel/preset'
4 |   ],
5 |   "plugins": ["@babel/plugin-transform-private-methods"]
6 | 
7 | }
8 | 


--------------------------------------------------------------------------------
/chat/jsconfig.json:
--------------------------------------------------------------------------------
 1 | {
 2 |   "compilerOptions": {
 3 |     "target": "es5",
 4 |     "module": "esnext",
 5 |     "baseUrl": "./",
 6 |     "moduleResolution": "node",
 7 |     "paths": {
 8 |       "@/*": [
 9 |         "src/*"
10 |       ]
11 |     },
12 |     "lib": [
13 |       "esnext",
14 |       "dom",
15 |       "dom.iterable",
16 |       "scripthost"
17 |     ]
18 |   }
19 | }
20 | 


--------------------------------------------------------------------------------
/chat/package.json:
--------------------------------------------------------------------------------
 1 | {
 2 |   "name": "chat",
 3 |   "version": "0.1.0",
 4 |   "private": true,
 5 |   "scripts": {
 6 |     "serve": "vue-cli-service serve",
 7 |     "build": "vue-cli-service build",
 8 |     "lint": "vue-cli-service lint"
 9 |   },
10 |   "dependencies": {
11 |     "axios": "^1.6.0",
12 |     "babel-loader": "^8.1.0",
13 |     "babel-runtime": "^6.26.0",
14 |     "core-js": "^3.8.3",
15 |     "github-markdown-css": "^5.4.0",
16 |     "iview": "^3.5.4",
17 |     "voice-input-button2": "^1.1.9",
18 |     "vue": "^2.6.14",
19 |     "vue-loader": "^17.3.1",
20 |     "vue-markdown": "^2.2.4"
21 |   },
22 |   "devDependencies": {
23 |     "@babel/core": "^7.12.16",
24 |     "@babel/eslint-parser": "^7.12.16",
25 |     "@vue/cli-plugin-babel": "~5.0.0",
26 |     "@vue/cli-plugin-eslint": "~5.0.0",
27 |     "@vue/cli-service": "~5.0.0",
28 |     "eslint": "^7.32.0",
29 |     "eslint-plugin-vue": "^8.0.3",
30 |     "vue-template-compiler": "^2.6.14"
31 |   },
32 |   "eslintConfig": {
33 |     "root": true,
34 |     "env": {
35 |       "node": true
36 |     },
37 |     "extends": [
38 |       "plugin:vue/essential",
39 |       "eslint:recommended"
40 |     ],
41 |     "parserOptions": {
42 |       "parser": "@babel/eslint-parser"
43 |     },
44 |     "rules": {}
45 |   },
46 |   "browserslist": [
47 |     "> 1%",
48 |     "last 2 versions",
49 |     "not dead"
50 |   ]
51 | }
52 | 


--------------------------------------------------------------------------------
/chat/public/favicon.ico:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/chat/public/favicon.ico


--------------------------------------------------------------------------------
/chat/public/index.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="">
 3 |   <head>
 4 |     <meta charset="utf-8">
 5 |     <meta http-equiv="X-UA-Compatible" content="IE=edge">
 6 |     <meta name="viewport" content="width=device-width,initial-scale=1.0">
 7 |     <link rel="icon" href="<%= BASE_URL %>favicon.ico">
 8 |     <title>大模型问答</title>
 9 |   </head>
10 |   <body>
11 |     <div id="app"></div>
12 |     <!-- built files will be auto injected -->
13 |   </body>
14 | </html>
15 | 


--------------------------------------------------------------------------------
/chat/src/assets/people.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/chat/src/assets/people.png


--------------------------------------------------------------------------------
/chat/src/assets/robot.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/chat/src/assets/robot.png


--------------------------------------------------------------------------------
/chat/src/github/open-sans-v17-latin-ext_latin-700.woff2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/chat/src/github/open-sans-v17-latin-ext_latin-700.woff2


--------------------------------------------------------------------------------
/chat/src/github/open-sans-v17-latin-ext_latin-700italic.woff2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/chat/src/github/open-sans-v17-latin-ext_latin-700italic.woff2


--------------------------------------------------------------------------------
/chat/src/github/open-sans-v17-latin-ext_latin-italic.woff2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/chat/src/github/open-sans-v17-latin-ext_latin-italic.woff2


--------------------------------------------------------------------------------
/chat/src/github/open-sans-v17-latin-ext_latin-regular.woff2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/chat/src/github/open-sans-v17-latin-ext_latin-regular.woff2


--------------------------------------------------------------------------------
/chat/src/main.js:
--------------------------------------------------------------------------------
 1 | import Vue from 'vue'
 2 | import App from './App.vue'
 3 | // 导入iview的js文件
 4 | import iView from 'iview'
 5 | // 导入iview的css文件
 6 | import 'iview/dist/styles/iview.css'
 7 | 
 8 | Vue.use(iView)
 9 | 
10 | 
11 | Vue.config.productionTip = false
12 | 
13 | new Vue({
14 |   render: h => h(App),
15 | }).$mount('#app')
16 | 


--------------------------------------------------------------------------------
/chat/vue.config.js:
--------------------------------------------------------------------------------
 1 | const { defineConfig } = require('@vue/cli-service')
 2 | module.exports = defineConfig({
 3 |   transpileDependencies: true,
 4 | })
 5 | 
 6 | module.exports = {
 7 |   devServer: {
 8 |     port: 5003,
 9 |   },
10 | }


--------------------------------------------------------------------------------
/convert/data_convert_json/batch_docx_to_json.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | import subprocess
 5 | 
 6 | if __name__ == '__main__':
 7 | 
 8 |     input_dir = "../../data/original_data"  # docx 文件目录
 9 |     output_dir = "../../data/preprocess_data_temp"  # json 结果输出目录
10 |     max_length = 500  # 切片大小
11 | 
12 |     os.makedirs(output_dir, exist_ok=True)
13 | 
14 |     for filename in os.listdir(input_dir):
15 |         if filename.endswith(".docx"):
16 |             docx_path = os.path.join(input_dir, filename)
17 |             output_filename = filename.replace(".docx", ".json")
18 |             output_path = os.path.join(output_dir, output_filename)
19 |             cmd = [
20 |                 "python3", "docx_to_json.py",
21 |                 "--docx_path", docx_path,
22 |                 "--output_path", output_path,
23 |                 "--max_length", str(max_length)
24 |             ]
25 |             subprocess.run(cmd)
26 | 
27 |     print("所有 docx 文件已成功转换为 json 文件。")
28 | 


--------------------------------------------------------------------------------
/convert/data_convert_json/docx_to_json.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | from docx import Document
 5 | import json
 6 | import argparse
 7 | 
 8 | parser = argparse.ArgumentParser(description="服务调用方法：python3 docx_to_json.py --docx_path 'xxx.docx' --output_path 'xxx.json' --max_length 500")
 9 | parser.add_argument("--docx_path", type=str, required=True, help="docx 文件地址")
10 | parser.add_argument("--output_path", type=str, required=True, help="结果输出地址")
11 | parser.add_argument("--max_length", default=500, type=int, help="切片大小")
12 | args = parser.parse_args()
13 | 
14 | docx = Document(args.docx_path)
15 | max_length = args.max_length
16 | 
17 | result = []
18 | current_text = ""
19 | 
20 | for paragraph in docx.paragraphs:
21 |     section = paragraph.text.strip()
22 |     if not current_text or len(current_text) + len(section) + 1 <= max_length:
23 |         current_text += " " + section
24 |     else:
25 |         result.append({
26 |             "file_name": os.path.basename(args.docx_path),
27 |             "part_content": current_text.strip()
28 |         })
29 |         current_text = section
30 | 
31 | if current_text:
32 |     result.append({
33 |         "file_name": os.path.basename(args.docx_path),
34 |         "part_content": current_text.strip()
35 |     })
36 | 
37 | output_dir = os.path.dirname(args.output_path)
38 | if not os.path.exists(output_dir):
39 |     os.makedirs(output_dir)
40 | 
41 | with open(args.output_path, "w", encoding="utf-8") as file:
42 |     json.dump(result, file, ensure_ascii=False, indent=2)
43 | 
44 | print(f"{args.docx_path} 处理完成")
45 | 


--------------------------------------------------------------------------------
/convert/data_convert_json/pdf_to_docx.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | from pdf2docx import Converter
 5 | import argparse
 6 | 
 7 | parser = argparse.ArgumentParser(description="服务调用方法：python3 pdf_to_docx.py --pdf_path 'xxx.pdf' --docx_path 'xxx.docx'")
 8 | parser.add_argument("--pdf_path", type=str, required=True, help="要解析的 PDF 文件地址")
 9 | parser.add_argument("--docx_path", type=str, required=True, help="解析后的 DOCX 文件输出地址")
10 | args = parser.parse_args()
11 | 
12 | docx_dir = os.path.dirname(args.docx_path)
13 | if not os.path.exists(docx_dir):
14 |     os.makedirs(docx_dir)
15 | 
16 | try:
17 |     # 初始化转换器并转换 PDF 到 DOCX
18 |     cv = Converter(args.pdf_path)
19 |     cv.convert(args.docx_path)  # 默认转换所有页面
20 |     cv.close()
21 |     print("PDF 文件已成功转换为 DOCX 格式。")
22 | except Exception as e:
23 |     print(f"转换过程中发生错误：{str(e)}")
24 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/Dockerfile:
--------------------------------------------------------------------------------
 1 | # 基于python3.9镜像创建新镜像
 2 | FROM python:3.9
 3 | # 创建容器内部目录
 4 | RUN mkdir /code
 5 | # 将项目复制到内部目录
 6 | ADD . /code/
 7 | # 切换到工作目录
 8 | WORKDIR /code
 9 | # 安装项目依赖
10 | RUN pip install -r requirements.txt
11 | # 安装vim命令
12 | RUN apt-get update && apt-get install vim -y  


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/benchmark.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import tempfile
  3 | import time
  4 | from collections import defaultdict
  5 | 
  6 | from tqdm import tqdm
  7 | 
  8 | from marker.convert import convert_single_pdf
  9 | from marker.logger import configure_logging
 10 | from marker.models import load_all_models
 11 | from marker.ordering import load_ordering_model
 12 | from marker.segmentation import load_layout_model
 13 | from marker.cleaners.equations import load_nougat_model
 14 | from marker.benchmark.scoring import score_text
 15 | from marker.extract_text import naive_get_text
 16 | import json
 17 | import os
 18 | import subprocess
 19 | import shutil
 20 | import fitz as pymupdf
 21 | from marker.settings import settings
 22 | from tabulate import tabulate
 23 | 
 24 | configure_logging()
 25 | 
 26 | 
 27 | def nougat_prediction(pdf_filename, batch_size=1):
 28 |     out_dir = tempfile.mkdtemp()
 29 |     subprocess.run(["nougat", pdf_filename, "-o", out_dir, "--no-skipping", "--recompute", "--batchsize", str(batch_size)], check=True)
 30 |     md_file = os.listdir(out_dir)[0]
 31 |     with open(os.path.join(out_dir, md_file), "r") as f:
 32 |         data = f.read()
 33 |     shutil.rmtree(out_dir)
 34 |     return data
 35 | 
 36 | 
 37 | if __name__ == "__main__":
 38 |     parser = argparse.ArgumentParser(description="Benchmark PDF to MD conversion.  Needs source pdfs, and a refernece folder with the correct markdown.")
 39 |     parser.add_argument("in_folder", help="Input PDF files")
 40 |     parser.add_argument("reference_folder", help="Reference folder with reference markdown files")
 41 |     parser.add_argument("out_file", help="Output filename")
 42 |     parser.add_argument("--nougat", action="store_true", help="Run nougat and compare", default=False)
 43 |     # Nougat batch size 1 uses about as much VRAM as default marker settings
 44 |     parser.add_argument("--nougat_batch_size", type=int, default=1, help="Batch size to use for nougat when making predictions.")
 45 |     parser.add_argument("--marker_parallel_factor", type=int, default=1, help="How much to multiply default parallel OCR workers and model batch sizes by.")
 46 |     parser.add_argument("--md_out_path", type=str, default=None, help="Output path for generated markdown files")
 47 |     args = parser.parse_args()
 48 | 
 49 |     methods = ["naive", "marker"]
 50 |     if args.nougat:
 51 |         methods.append("nougat")
 52 | 
 53 |     model_lst = load_all_models()
 54 | 
 55 |     scores = defaultdict(dict)
 56 |     benchmark_files = os.listdir(args.in_folder)
 57 |     benchmark_files = [b for b in benchmark_files if b.endswith(".pdf")]
 58 |     times = defaultdict(dict)
 59 |     pages = defaultdict(int)
 60 | 
 61 |     for fname in tqdm(benchmark_files):
 62 |         md_filename = fname.rsplit(".", 1)[0] + ".md"
 63 | 
 64 |         reference_filename = os.path.join(args.reference_folder, md_filename)
 65 |         with open(reference_filename, "r") as f:
 66 |             reference = f.read()
 67 | 
 68 |         pdf_filename = os.path.join(args.in_folder, fname)
 69 |         doc = pymupdf.open(pdf_filename)
 70 |         pages[fname] = len(doc)
 71 | 
 72 |         for method in methods:
 73 |             start = time.time()
 74 |             if method == "marker":
 75 |                 full_text, out_meta = convert_single_pdf(pdf_filename, model_lst, parallel_factor=args.marker_parallel_factor)
 76 |             elif method == "nougat":
 77 |                 full_text = nougat_prediction(pdf_filename, batch_size=args.nougat_batch_size)
 78 |             elif method == "naive":
 79 |                 full_text = naive_get_text(doc)
 80 |             else:
 81 |                 raise ValueError(f"Unknown method {method}")
 82 | 
 83 |             times[method][fname] = time.time() - start
 84 | 
 85 |             score = score_text(full_text, reference)
 86 |             scores[method][fname] = score
 87 | 
 88 |             if args.md_out_path:
 89 |                 md_out_filename = f"{method}_{md_filename}"
 90 |                 with open(os.path.join(args.md_out_path, md_out_filename), "w+") as f:
 91 |                     f.write(full_text)
 92 | 
 93 |     total_pages = sum(pages.values())
 94 |     with open(args.out_file, "w+") as f:
 95 |         write_data = defaultdict(dict)
 96 |         for method in methods:
 97 |             total_time = sum(times[method].values())
 98 |             file_stats = {
 99 |                 fname:
100 |                 {
101 |                     "time": times[method][fname],
102 |                     "score": scores[method][fname],
103 |                     "pages": pages[fname]
104 |                 }
105 | 
106 |                 for fname in benchmark_files
107 |             }
108 |             write_data[method] = {
109 |                 "files": file_stats,
110 |                 "avg_score": sum(scores[method].values()) / len(scores[method]),
111 |                 "time_per_page": total_time / total_pages,
112 |                 "time_per_doc": total_time / len(scores[method])
113 |             }
114 | 
115 |         json.dump(write_data, f, indent=4)
116 | 
117 |     summary_table = []
118 |     score_table = []
119 |     score_headers = benchmark_files
120 |     for method in methods:
121 |         summary_table.append([method, write_data[method]["avg_score"], write_data[method]["time_per_page"], write_data[method]["time_per_doc"]])
122 |         score_table.append([method, *[write_data[method]["files"][h]["score"] for h in score_headers]])
123 | 
124 |     print(tabulate(summary_table, headers=["Method", "Average Score", "Time per page", "Time per document"]))
125 |     print("")
126 |     print("Scores by file")
127 |     print(tabulate(score_table, headers=["Method", *score_headers]))
128 | 
129 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/build.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | base_path=$(cd `dirname $0`; pwd)
4 | input_path="${base_path}/input"
5 | output_path="${base_path}/output"
6 | 
7 | docker build -t marker-image .                                  
8 | docker run -itd --name marker -v ${input_path}:/code/input -v ${output_path}:/code/output marker-image:latest  
9 | docker update marker --restart=always                           


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/chunk_convert.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | 
 3 | trap 'pkill -P $$' SIGINT
 4 | 
 5 | # Check if NUM_DEVICES is set
 6 | if [[ -z "$NUM_DEVICES" ]]; then
 7 |     echo "Please set the NUM_DEVICES environment variable."
 8 |     exit 1
 9 | fi
10 | 
11 | if [[ -z "$NUM_WORKERS" ]]; then
12 |     echo "Please set the NUM_WORKERS environment variable."
13 |     exit 1
14 | fi
15 | 
16 | 
17 | # Get input folder and output folder from args
18 | if [[ -z "$1" ]]; then
19 |     echo "Please provide an input folder."
20 |     exit 1
21 | fi
22 | 
23 | if [[ -z "$2" ]]; then
24 |     echo "Please provide an output folder."
25 |     exit 1
26 | fi
27 | 
28 | INPUT_FOLDER=$1
29 | OUTPUT_FOLDER=$2
30 | 
31 | # Loop from 0 to NUM_DEVICES and run the Python script in parallel
32 | for (( i=0; i<$NUM_DEVICES; i++ )); do
33 |     DEVICE_NUM=$i
34 |     export DEVICE_NUM
35 |     export NUM_DEVICES
36 |     export NUM_WORKERS
37 |     echo "Running convert.py on GPU $DEVICE_NUM"
38 |     cmd="CUDA_VISIBLE_DEVICES=$DEVICE_NUM python convert.py $INPUT_FOLDER $OUTPUT_FOLDER --num_chunks $NUM_DEVICES --chunk_idx $DEVICE_NUM --workers $NUM_WORKERS"
39 |     [[ -n "$METADATA_FILE" ]] && cmd="$cmd --metadata_file $METADATA_FILE"
40 |     [[ -n "$MIN_LENGTH" ]] && cmd="$cmd --min_length $MIN_LENGTH"
41 |     eval $cmd &
42 | 
43 |     sleep 5
44 | done
45 | 
46 | # Wait for all background processes to finish
47 | wait
48 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/convert.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import os
  3 | from typing import Dict, Optional
  4 | 
  5 | import ray
  6 | from tqdm import tqdm
  7 | import math
  8 | 
  9 | from marker.convert import convert_single_pdf, get_length_of_text
 10 | from marker.models import load_all_models
 11 | from marker.settings import settings
 12 | from marker.logger import configure_logging
 13 | import traceback
 14 | import json
 15 | 
 16 | configure_logging()
 17 | 
 18 | 
 19 | @ray.remote(num_cpus=settings.RAY_CORES_PER_WORKER, num_gpus=.05 if settings.CUDA else 0)
 20 | def process_single_pdf(fname: str, out_folder: str, model_refs, metadata: Optional[Dict] = None, min_length: Optional[int] = None):
 21 |     out_filename = fname.rsplit(".", 1)[0] + ".md"
 22 |     out_filename = os.path.join(out_folder, os.path.basename(out_filename))
 23 |     out_meta_filename = out_filename.rsplit(".", 1)[0] + "_meta.json"
 24 |     if os.path.exists(out_filename):
 25 |         return
 26 |     try:
 27 |         # Skip trying to convert files that don't have a lot of embedded text
 28 |         # This can indicate that they were scanned, and not OCRed properly
 29 |         # Usually these files are not recent/high-quality
 30 |         if min_length:
 31 |             length = get_length_of_text(fname)
 32 |             if length < min_length:
 33 |                 return
 34 | 
 35 |         full_text, out_metadata = convert_single_pdf(fname, model_refs, metadata=metadata)
 36 |         if len(full_text.strip()) > 0:
 37 |             with open(out_filename, "w+", encoding='utf-8') as f:
 38 |                 f.write(full_text)
 39 |             with open(out_meta_filename, "w+") as f:
 40 |                 f.write(json.dumps(out_metadata, indent=4))
 41 |         else:
 42 |             print(f"Empty file: {fname}.  Could not convert.")
 43 |     except Exception as e:
 44 |         print(f"Error converting {fname}: {e}")
 45 |         print(traceback.format_exc())
 46 | 
 47 | 
 48 | if __name__ == "__main__":
 49 |     parser = argparse.ArgumentParser(description="Convert multiple pdfs to markdown.")
 50 |     parser.add_argument("in_folder", help="Input folder with pdfs.")
 51 |     parser.add_argument("out_folder", help="Output folder")
 52 |     parser.add_argument("--chunk_idx", type=int, default=0, help="Chunk index to convert")
 53 |     parser.add_argument("--num_chunks", type=int, default=1, help="Number of chunks being processed in parallel")
 54 |     parser.add_argument("--max", type=int, default=None, help="Maximum number of pdfs to convert")
 55 |     parser.add_argument("--workers", type=int, default=5, help="Number of worker processes to use")
 56 |     parser.add_argument("--metadata_file", type=str, default=None, help="Metadata json file to use for filtering")
 57 |     parser.add_argument("--min_length", type=int, default=None, help="Minimum length of pdf to convert")
 58 | 
 59 |     args = parser.parse_args()
 60 | 
 61 |     in_folder = os.path.abspath(args.in_folder)
 62 |     out_folder = os.path.abspath(args.out_folder)
 63 |     files = [os.path.join(in_folder, f) for f in os.listdir(in_folder)]
 64 |     os.makedirs(out_folder, exist_ok=True)
 65 | 
 66 |     # Handle chunks if we're processing in parallel
 67 |     # Ensure we get all files into a chunk
 68 |     chunk_size = math.ceil(len(files) / args.num_chunks)
 69 |     start_idx = args.chunk_idx * chunk_size
 70 |     end_idx = start_idx + chunk_size
 71 |     files_to_convert = files[start_idx:end_idx]
 72 | 
 73 |     # Limit files converted if needed
 74 |     if args.max:
 75 |         files_to_convert = files_to_convert[:args.max]
 76 | 
 77 |     metadata = {}
 78 |     if args.metadata_file:
 79 |         metadata_file = os.path.abspath(args.metadata_file)
 80 |         with open(metadata_file, "r") as f:
 81 |             metadata = json.load(f)
 82 | 
 83 |     total_processes = min(len(files_to_convert), args.workers)
 84 | 
 85 |     ray.init(
 86 |         num_cpus=total_processes,
 87 |         num_gpus=1 if settings.CUDA else 0,
 88 |         storage=settings.RAY_CACHE_PATH,
 89 |         _temp_dir=settings.RAY_CACHE_PATH,
 90 |         dashboard_host=settings.RAY_DASHBOARD_HOST,
 91 |         log_to_driver=settings.DEBUG
 92 |     )
 93 | 
 94 |     model_lst = load_all_models()
 95 |     model_refs = ray.put(model_lst)
 96 | 
 97 |     # Dynamically set GPU allocation per task based on GPU ram
 98 |     gpu_frac = settings.VRAM_PER_TASK / settings.INFERENCE_RAM if settings.CUDA else 0
 99 | 
100 |     print(f"Converting {len(files_to_convert)} pdfs in chunk {args.chunk_idx + 1}/{args.num_chunks} with {total_processes} processes, and storing in {out_folder}")
101 |     futures = [
102 |         process_single_pdf.options(num_gpus=gpu_frac).remote(
103 |             filename,
104 |             out_folder,
105 |             model_refs,
106 |             metadata=metadata.get(os.path.basename(filename)),
107 |             min_length=args.min_length
108 |         ) for filename in files_to_convert
109 |     ]
110 | 
111 |     # Run all ray conversion tasks
112 |     progress_bar = tqdm(total=len(futures))
113 |     while len(futures) > 0:
114 |         finished, futures = ray.wait(
115 |             futures, timeout=7.0
116 |         )
117 |         finished_lst = ray.get(finished)
118 |         if isinstance(finished_lst, list):
119 |             progress_bar.update(len(finished_lst))
120 |         else:
121 |             progress_bar.update(1)
122 | 
123 |     # Shutdown ray to free resources
124 |     ray.shutdown()


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/convert_single.py:
--------------------------------------------------------------------------------
 1 | import argparse
 2 | 
 3 | from marker.convert import convert_single_pdf
 4 | from marker.logger import configure_logging
 5 | from marker.models import load_all_models
 6 | from marker.settings import settings
 7 | import json
 8 | 
 9 | configure_logging()
10 | 
11 | 
12 | if __name__ == "__main__":
13 |     parser = argparse.ArgumentParser()
14 |     parser.add_argument("filename", help="PDF file to parse")
15 |     parser.add_argument("output", help="Output file name")
16 |     parser.add_argument("--max_pages", type=int, default=None, help="Maximum number of pages to parse")
17 |     parser.add_argument("--parallel_factor", type=int, default=1, help="How much to multiply default parallel OCR workers and model batch sizes by.")
18 |     args = parser.parse_args()
19 | 
20 |     fname = args.filename
21 |     model_lst = load_all_models()
22 |     full_text, out_meta = convert_single_pdf(fname, model_lst, max_pages=args.max_pages, parallel_factor=args.parallel_factor)
23 | 
24 |     with open(args.output, "w+", encoding='utf-8') as f:
25 |         f.write(full_text)
26 | 
27 |     out_meta_filename = args.output.rsplit(".", 1)[0] + "_meta.json"
28 |     with open(out_meta_filename, "w+") as f:
29 |         f.write(json.dumps(out_meta, indent=4))


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/data/.gitignore:
--------------------------------------------------------------------------------
1 | latex
2 | pdfs
3 | references


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/data/images/overall.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/convert/marker_parse_pdf/data/images/overall.png


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/data/images/per_doc.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/convert/marker_parse_pdf/data/images/per_doc.png


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/data/latex_to_md.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | 
 3 | # List all .tex files in the latex folder
 4 | FILES=$(find latex -name "*.tex")
 5 | 
 6 | for f in $FILES
 7 | do
 8 |   echo "Processing $f file..."
 9 |   base_name=$(basename "$f" .tex)
10 |   out_file="references/${base_name}.md"
11 | 
12 |   pandoc --wrap=none --no-highlight --strip-comments=true -s "$f" -t plain -o "$out_file"
13 |   # Replace non-breaking spaces
14 |   sed -i .bak 's/ / /g' "$out_file"
15 |   sed -i .bak 's/ / /g' "$out_file"
16 |   sed -i .bak 's/ / /g' "$out_file"
17 |   sed -i .bak 's/ / /g' "$out_file"
18 |   # Remove .bak file
19 |   rm "$out_file.bak"
20 | done
21 | 
22 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/input/input.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/convert/marker_parse_pdf/input/input.pdf


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/bbox.py:
--------------------------------------------------------------------------------
 1 | import fitz as pymupdf
 2 | 
 3 | def should_merge_blocks(box1, box2, tol=5):
 4 |     # Within tol y px, and to the right within tol px
 5 |     merge = [
 6 |         box2[0] > box1[0], # After in the x coordinate
 7 |         abs(box2[1] - box1[1]) < tol, # Within tol y px
 8 |         abs(box2[3] - box1[3]) < tol, # Within tol y px
 9 |         abs(box2[0] - box1[2]) < tol, # Within tol x px
10 |     ]
11 |     return all(merge)
12 | 
13 | 
14 | def merge_boxes(box1, box2):
15 |     return (min(box1[0], box2[0]), min(box1[1], box2[1]), max(box2[2], box1[2]), max(box1[3], box2[3]))
16 | 
17 | 
18 | def boxes_intersect(box1, box2):
19 |     # Box1 intersects box2
20 |     return box1[0] < box2[2] and box1[2] > box2[0] and box1[1] < box2[3] and box1[3] > box2[1]
21 | 
22 | 
23 | def boxes_intersect_pct(box1, box2, pct=.9):
24 |     # determine the coordinates of the intersection rectangle
25 |     x_left = max(box1[0], box2[0])
26 |     y_top = max(box1[1], box2[1])
27 |     x_right = min(box1[2], box2[2])
28 |     y_bottom = min(box1[3], box2[3])
29 | 
30 |     if x_right < x_left or y_bottom < y_top:
31 |         return 0.0
32 | 
33 |     # The intersection of two axis-aligned bounding boxes is always an
34 |     # axis-aligned bounding box
35 |     intersection_area = (x_right - x_left) * (y_bottom - y_top)
36 | 
37 |     # compute the area of both AABBs
38 |     bb1_area = (box1[2] - box1[0]) * (box1[3] - box1[1])
39 |     bb2_area = (box2[2] - box2[0]) * (box2[3] - box2[1])
40 | 
41 |     iou = intersection_area / float(bb1_area + bb2_area - intersection_area)
42 |     return iou > pct
43 | 
44 | 
45 | def multiple_boxes_intersect(box1, boxes):
46 |     for box2 in boxes:
47 |         if boxes_intersect(box1, box2):
48 |             return True
49 |     return False
50 | 
51 | 
52 | def box_contained(box1, box2):
53 |     # Box1 inside box2
54 |     return box1[0] > box2[0] and box1[1] > box2[1] and box1[2] < box2[2] and box1[3] < box2[3]
55 | 
56 | 
57 | def unnormalize_box(bbox, width, height):
58 |     return [
59 |         width * (bbox[0] / 1000),
60 |         height * (bbox[1] / 1000),
61 |         width * (bbox[2] / 1000),
62 |         height * (bbox[3] / 1000),
63 |     ]
64 | 
65 | 
66 | def correct_rotation(bbox, page):
67 |     #bbox base is (x0, y0, x1, y1)
68 |     rotation = page.rotation
69 |     if rotation == 0:
70 |         return bbox
71 | 
72 |     tl = pymupdf.Point(bbox[0], bbox[1]) * page.rotation_matrix
73 |     br = pymupdf.Point(bbox[2], bbox[3]) * page.rotation_matrix
74 |     if rotation == 90:
75 |         bbox = [br[0], tl[1], tl[0], br[1]]
76 |     elif rotation == 180:
77 |         bbox = [br[0], br[1], tl[0], tl[1]]
78 |     elif rotation == 270:
79 |         bbox = [tl[0], br[1], br[0], tl[1]]
80 | 
81 |     return bbox


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/benchmark/scoring.py:
--------------------------------------------------------------------------------
 1 | import math
 2 | 
 3 | from rapidfuzz import fuzz, distance
 4 | import re
 5 | 
 6 | CHUNK_MIN_CHARS = 25
 7 | 
 8 | 
 9 | def tokenize(text):
10 |     # Combined pattern
11 |     pattern = r'([^\w\s\d\'])|([\w\']+)|(\d+)|(\n+)|( +)'
12 |     result = re.findall(pattern, text)
13 |     # Flatten the result and filter out empty strings
14 |     flattened_result = [item for sublist in result for item in sublist if item]
15 |     return flattened_result
16 | 
17 | 
18 | def chunk_text(text):
19 |     chunks = text.split("\n")
20 |     chunks = [c for c in chunks if c.strip() and len(c) > CHUNK_MIN_CHARS]
21 |     return chunks
22 | 
23 | 
24 | def overlap_score(hypothesis_chunks, reference_chunks):
25 |     length_modifier = len(hypothesis_chunks) / len(reference_chunks)
26 |     search_distance = max(len(reference_chunks) // 5, 10)
27 |     chunk_scores = []
28 |     chunk_weights = []
29 |     for i, hyp_chunk in enumerate(hypothesis_chunks):
30 |         max_score = 0
31 |         chunk_weight = 1
32 |         i_offset = int(i * length_modifier)
33 |         chunk_range = range(max(0, i_offset-search_distance), min(len(reference_chunks), i_offset+search_distance))
34 |         for j in chunk_range:
35 |             ref_chunk = reference_chunks[j]
36 |             score = fuzz.ratio(hyp_chunk, ref_chunk, score_cutoff=30) / 100
37 |             if score > max_score:
38 |                 max_score = score
39 |                 chunk_weight = math.sqrt(len(ref_chunk))
40 |         chunk_scores.append(max_score)
41 |         chunk_weights.append(chunk_weight)
42 |     chunk_scores = [chunk_scores[i] * chunk_weights[i] for i in range(len(chunk_scores))]
43 |     return chunk_scores, chunk_weights
44 | 
45 | 
46 | def score_text(hypothesis, reference):
47 |     # Returns a 0-1 alignment score
48 |     hypothesis_chunks = chunk_text(hypothesis)
49 |     reference_chunks = chunk_text(reference)
50 |     chunk_scores, chunk_weights = overlap_score(hypothesis_chunks, reference_chunks)
51 |     return sum(chunk_scores) / sum(chunk_weights)


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/cleaners/bullets.py:
--------------------------------------------------------------------------------
1 | import re
2 | 
3 | 
4 | def replace_bullets(text):
5 |     # Replace bullet characters with a -
6 |     bullet_pattern = r"(^|[\n ])[•●○■▪▫–—]( )"
7 |     replaced_string = re.sub(bullet_pattern, r"\1-\2", text)
8 |     return replaced_string
9 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/cleaners/code.py:
--------------------------------------------------------------------------------
  1 | from marker.schema import Span, Line, Page
  2 | import re
  3 | from typing import List
  4 | import fitz as pymupdf
  5 | 
  6 | 
  7 | def is_code_linelen(lines, thresh=60):
  8 |     # Decide based on chars per newline threshold
  9 |     total_alnum_chars = sum(len(re.findall(r'\w', line.prelim_text)) for line in lines)
 10 |     total_newlines = max(len(lines) - 1, 1)
 11 | 
 12 |     if total_alnum_chars == 0:
 13 |         return False
 14 | 
 15 |     ratio = total_alnum_chars / total_newlines
 16 |     return ratio < thresh
 17 | 
 18 | 
 19 | def comment_count(lines):
 20 |     pattern = re.compile(r"^(//|#|'|--|/\*|'''|\"\"\"|--\[\[|<!--|%|%{|\(\*)")
 21 |     return sum([1 for line in lines if pattern.match(line)])
 22 | 
 23 | 
 24 | def identify_code_blocks(blocks: List[Page]):
 25 |     code_block_count = 0
 26 |     font_info = None
 27 |     for p in blocks:
 28 |         stats = p.get_font_stats()
 29 |         if font_info is None:
 30 |             font_info = stats
 31 |         else:
 32 |             font_info += stats
 33 |     try:
 34 |         most_common_font = font_info.most_common(1)[0][0]
 35 |     except IndexError:
 36 |         print(f"Could not find most common font")
 37 |         most_common_font = None
 38 | 
 39 |     last_block = None
 40 |     for page in blocks:
 41 |         try:
 42 |             min_start = page.get_min_line_start()
 43 |         except IndexError:
 44 |             continue
 45 | 
 46 |         for block in page.blocks:
 47 |             if block.most_common_block_type() != "Text":
 48 |                 last_block = block
 49 |                 continue
 50 | 
 51 |             is_indent = []
 52 |             line_fonts = []
 53 |             for line in block.lines:
 54 |                 fonts = [span.font for span in line.spans]
 55 |                 line_fonts += fonts
 56 |                 line_start = line.bbox[0]
 57 |                 if line_start > min_start:
 58 |                     is_indent.append(True)
 59 |                 else:
 60 |                     is_indent.append(False)
 61 |             comment_lines = comment_count([line.prelim_text for line in block.lines])
 62 |             is_code = [
 63 |                 len(block.lines) > 3,
 64 |                 sum([f != most_common_font for f in line_fonts]) > len(line_fonts) * .8,  # At least 80% of the fonts are not the most common, since code usually uses a different font from the main body text
 65 |                 is_code_linelen(block.lines),
 66 |                 (
 67 |                     sum(is_indent) > len(block.lines) * .2
 68 |                     or
 69 |                     comment_lines > len(block.lines) * .2
 70 |                  ), # 20% lines indented or 20% of the lines are comments
 71 |             ]
 72 | 
 73 |             # Check if previous block is code, and this block is indented
 74 |             is_code_prev = [
 75 |                 last_block and last_block.most_common_block_type() == "Code",
 76 |                 sum(is_indent) >= len(block.lines) * .8 # At least 80% indented
 77 |             ]
 78 | 
 79 |             if all(is_code) or all(is_code_prev):
 80 |                 code_block_count += 1
 81 |                 block.set_block_type("Code")
 82 | 
 83 |             last_block = block
 84 |     return code_block_count
 85 | 
 86 | 
 87 | def indent_blocks(blocks: List[Page]):
 88 |     span_counter = 0
 89 |     for page in blocks:
 90 |         for block in page.blocks:
 91 |             block_types = [span.block_type for line in block.lines for span in line.spans]
 92 |             if "Code" not in block_types:
 93 |                 continue
 94 | 
 95 |             lines = []
 96 |             min_left = 1000  # will contain x- coord of column 0
 97 |             col_width = 0  # width of 1 char
 98 |             for line in block.lines:
 99 |                 text = ""
100 |                 min_left = min(line.bbox[0], min_left)
101 |                 for span in line.spans:
102 |                     if col_width == 0 and len(span.text) > 0:
103 |                         col_width = (span.bbox[2] - span.bbox[0]) / len(span.text)
104 |                     text += span.text
105 |                 lines.append((pymupdf.Rect(line.bbox), text))
106 | 
107 |             block_text = ""
108 |             blank_line = False
109 |             for line in lines:
110 |                 text = line[1]
111 |                 prefix = " " * int((line[0].x0 - min_left) / col_width)
112 |                 current_line_blank = len(text.strip()) == 0
113 |                 if blank_line and current_line_blank:
114 |                     # Don't put multiple blank lines in a row
115 |                     continue
116 | 
117 |                 block_text += prefix + text + "\n"
118 |                 blank_line = current_line_blank
119 | 
120 |             new_span = Span(
121 |                 text=block_text,
122 |                 bbox=block.bbox,
123 |                 color=block.lines[0].spans[0].color,
124 |                 span_id=f"{span_counter}_fix_code",
125 |                 font=block.lines[0].spans[0].font,
126 |                 block_type="Code"
127 |             )
128 |             span_counter += 1
129 |             block.lines = [Line(spans=[new_span], bbox=block.bbox)]


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/cleaners/headers.py:
--------------------------------------------------------------------------------
  1 | import re
  2 | from collections import Counter, defaultdict
  3 | from itertools import chain
  4 | from thefuzz import fuzz
  5 | 
  6 | from sklearn.cluster import DBSCAN
  7 | import numpy as np
  8 | 
  9 | from marker.schema import Page, FullyMergedBlock
 10 | from typing import List, Tuple
 11 | 
 12 | 
 13 | def filter_common_elements(lines, page_count):
 14 |     text = [s.text for line in lines for s in line.spans if len(s.text) > 4]
 15 |     counter = Counter(text)
 16 |     common = [k for k, v in counter.items() if v > page_count * .6]
 17 |     bad_span_ids = [s.span_id for line in lines for s in line.spans if s.text in common]
 18 |     return bad_span_ids
 19 | 
 20 | 
 21 | def filter_header_footer(all_page_blocks, max_selected_lines=2):
 22 |     first_lines = []
 23 |     last_lines = []
 24 |     for page in all_page_blocks:
 25 |         nonblank_lines = page.get_nonblank_lines()
 26 |         first_lines.extend(nonblank_lines[:max_selected_lines])
 27 |         last_lines.extend(nonblank_lines[-max_selected_lines:])
 28 | 
 29 |     bad_span_ids = filter_common_elements(first_lines, len(all_page_blocks))
 30 |     bad_span_ids += filter_common_elements(last_lines, len(all_page_blocks))
 31 |     return bad_span_ids
 32 | 
 33 | 
 34 | def categorize_blocks(all_page_blocks: List[Page]):
 35 |     spans = list(chain.from_iterable([p.get_nonblank_spans() for p in all_page_blocks]))
 36 |     X = np.array(
 37 |         [(*s.bbox, len(s.text)) for s in spans]
 38 |     )
 39 | 
 40 |     dbscan = DBSCAN(eps=.1, min_samples=5)
 41 |     dbscan.fit(X)
 42 |     labels = dbscan.labels_
 43 |     label_chars = defaultdict(int)
 44 |     for i, label in enumerate(labels):
 45 |         label_chars[label] += len(spans[i].text)
 46 | 
 47 |     most_common_label = None
 48 |     most_chars = 0
 49 |     for i in label_chars.keys():
 50 |         if label_chars[i] > most_chars:
 51 |             most_common_label = i
 52 |             most_chars = label_chars[i]
 53 | 
 54 |     labels = [0 if label == most_common_label else 1 for label in labels]
 55 |     bad_span_ids = [spans[i].span_id for i in range(len(spans)) if labels[i] == 1]
 56 | 
 57 |     return bad_span_ids
 58 | 
 59 | 
 60 | def replace_leading_trailing_digits(string, replacement):
 61 |     string = re.sub(r'^\d+', replacement, string)
 62 |     string = re.sub(r'\d+$', replacement, string)
 63 |     return string
 64 | 
 65 | 
 66 | def find_overlap_elements(lst: List[Tuple[str, int]], string_match_thresh=.9, min_overlap=.05) -> List[int]:
 67 |     # Initialize a list to store the elements that meet the criteria
 68 |     result = []
 69 |     titles = [l[0] for l in lst]
 70 | 
 71 |     for i, (str1, id_num) in enumerate(lst):
 72 |         overlap_count = 0  # Count the number of elements that overlap by at least 80%
 73 | 
 74 |         for j, str2 in enumerate(titles):
 75 |             if i != j and fuzz.ratio(str1, str2) >= string_match_thresh * 100:
 76 |                 overlap_count += 1
 77 | 
 78 |         # Check if the element overlaps with at least 50% of other elements
 79 |         if overlap_count >= max(3.0, len(lst) * min_overlap):
 80 |             result.append(id_num)
 81 | 
 82 |     return result
 83 | 
 84 | 
 85 | def filter_common_titles(merged_blocks: List[FullyMergedBlock]) -> List[FullyMergedBlock]:
 86 |     titles = []
 87 |     for i, block in enumerate(merged_blocks):
 88 |         if block.block_type in ["Title", "Section-header"]:
 89 |             text = block.text
 90 |             if text.strip().startswith("#"):
 91 |                 text = re.sub(r'#+', '', text)
 92 |             text = text.strip()
 93 |             # Remove page numbers from start/end
 94 |             text = replace_leading_trailing_digits(text, "").strip()
 95 |             titles.append((text, i))
 96 | 
 97 |     bad_block_ids = find_overlap_elements(titles)
 98 | 
 99 |     new_blocks = []
100 |     for i, block in enumerate(merged_blocks):
101 |         if i in bad_block_ids:
102 |             continue
103 |         new_blocks.append(block)
104 | 
105 |     return new_blocks
106 | 
107 | 
108 | 
109 | 
110 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/cleaners/table.py:
--------------------------------------------------------------------------------
 1 | from marker.bbox import merge_boxes
 2 | from marker.schema import Line, Span, Block, Page
 3 | from copy import deepcopy
 4 | from tabulate import tabulate
 5 | from typing import List
 6 | import re
 7 | import textwrap
 8 | 
 9 | 
10 | def merge_table_blocks(blocks: List[Page]):
11 |     current_lines = []
12 |     current_bbox = None
13 |     for page in blocks:
14 |         new_page_blocks = []
15 |         pnum = page.pnum
16 |         for block in page.blocks:
17 |             if block.most_common_block_type() != "Table":
18 |                 if len(current_lines) > 0:
19 |                     new_block = Block(
20 |                         lines=deepcopy(current_lines),
21 |                         pnum=pnum,
22 |                         bbox=current_bbox
23 |                     )
24 |                     new_page_blocks.append(new_block)
25 |                     current_lines = []
26 |                     current_bbox = None
27 | 
28 |                 new_page_blocks.append(block)
29 |                 continue
30 | 
31 |             current_lines.extend(block.lines)
32 |             if current_bbox is None:
33 |                 current_bbox = block.bbox
34 |             else:
35 |                 current_bbox = merge_boxes(current_bbox, block.bbox)
36 | 
37 |         if len(current_lines) > 0:
38 |             new_block = Block(
39 |                 lines=deepcopy(current_lines),
40 |                 pnum=pnum,
41 |                 bbox=current_bbox
42 |             )
43 |             new_page_blocks.append(new_block)
44 |             current_lines = []
45 |             current_bbox = None
46 | 
47 |         page.blocks = new_page_blocks
48 | 
49 | 
50 | def create_new_tables(blocks: List[Page]):
51 |     table_idx = 0
52 |     dot_pattern = re.compile(r'(\s*\.\s*){4,}')
53 |     dot_multiline_pattern = re.compile(r'.*(\s*\.\s*){4,}.*', re.DOTALL)
54 | 
55 |     for page in blocks:
56 |         for block in page.blocks:
57 |             if block.most_common_block_type() != "Table" or len(block.lines) < 3:
58 |                 continue
59 | 
60 |             table_rows = []
61 |             y_coord = None
62 |             row = []
63 |             for line in block.lines:
64 |                 for span in line.spans:
65 |                     if y_coord != span.y_start:
66 |                         if len(row) > 0:
67 |                             table_rows.append(row)
68 |                             row = []
69 |                         y_coord = span.y_start
70 | 
71 |                     text = span.text
72 |                     if dot_multiline_pattern.match(text):
73 |                         text = dot_pattern.sub(' ', text)
74 |                     row.append(text)
75 |             if len(row) > 0:
76 |                 table_rows.append(row)
77 | 
78 |             # Don't render tables if they will be too large
79 |             if max([len("".join(r)) for r in table_rows]) > 300 or len(table_rows[0]) > 8 or len(table_rows[0]) < 2:
80 |                 continue
81 | 
82 |             new_text = tabulate(table_rows, headers="firstrow", tablefmt="github")
83 |             new_span = Span(
84 |                 bbox=block.bbox,
85 |                 span_id=f"{table_idx}_fix_table",
86 |                 font="Table",
87 |                 color=0,
88 |                 block_type="Table",
89 |                 text=new_text
90 |             )
91 |             new_line = Line(
92 |                 bbox=block.bbox,
93 |                 spans=[new_span]
94 |             )
95 |             block.lines = [new_line]
96 |             table_idx += 1
97 |     return table_idx


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/debug/data.py:
--------------------------------------------------------------------------------
 1 | import base64
 2 | import json
 3 | import os
 4 | import zlib
 5 | from typing import List
 6 | 
 7 | from marker.schema import Page
 8 | from marker.settings import settings
 9 | from PIL import Image
10 | import io
11 | 
12 | 
13 | def dump_nougat_debug_data(doc, images, converted_spans):
14 |     if not settings.DEBUG_DATA_FOLDER or settings.DEBUG_LEVEL == 0:
15 |         return
16 | 
17 |     if len(images) == 0:
18 |         return
19 | 
20 |     # We attempted one conversion per image
21 |     assert len(converted_spans) == len(images)
22 | 
23 |     data_lines = []
24 |     for idx, (image, converted_span) in enumerate(zip(images, converted_spans)):
25 |         if converted_span is None:
26 |             continue
27 |         # Image is a BytesIO object
28 |         pil_image = Image.open(image)
29 |         img_bytes = io.BytesIO()
30 |         pil_image.save(img_bytes, format="WEBP", lossless=True)
31 |         b64_image = base64.b64encode(img_bytes.getvalue()).decode("utf-8")
32 |         data_lines.append({
33 |             "image": b64_image,
34 |             "text": converted_span.text,
35 |             "bbox": converted_span.bbox
36 |         })
37 | 
38 |     # Remove extension from doc name
39 |     doc_base = os.path.basename(doc.name).rsplit(".", 1)[0]
40 | 
41 |     debug_file = os.path.join(settings.DEBUG_DATA_FOLDER, f"{doc_base}_equations.json")
42 |     with open(debug_file, "w+") as f:
43 |         json.dump(data_lines, f)
44 | 
45 | 
46 | def dump_bbox_debug_data(doc, blocks: List[Page]):
47 |     if not settings.DEBUG_DATA_FOLDER or settings.DEBUG_LEVEL < 2:
48 |         return
49 | 
50 |     # Remove extension from doc name
51 |     doc_base = os.path.basename(doc.name).rsplit(".", 1)[0]
52 | 
53 |     debug_file = os.path.join(settings.DEBUG_DATA_FOLDER, f"{doc_base}_bbox.json")
54 |     debug_data = []
55 |     for idx, page_blocks in enumerate(blocks):
56 |         page = doc[idx]
57 | 
58 |         pix = page.get_pixmap(dpi=settings.NOUGAT_DPI, annots=False, clip=page_blocks.bbox)
59 |         png = pix.pil_tobytes(format="PNG")
60 |         png_image = Image.open(io.BytesIO(png))
61 |         width, height = png_image.size
62 |         max_dimension = 6000
63 |         if width > max_dimension or height > max_dimension:
64 |             scaling_factor = min(max_dimension / width, max_dimension / height)
65 |             png_image = png_image.resize((int(width * scaling_factor), int(height * scaling_factor)), Image.ANTIALIAS)
66 | 
67 |         img_bytes = io.BytesIO()
68 |         png_image.save(img_bytes, format="WEBP", lossless=True, quality=100)
69 |         b64_image = base64.b64encode(img_bytes.getvalue()).decode("utf-8")
70 | 
71 |         page_data = page_blocks.model_dump()
72 |         page_data["image"] = b64_image
73 |         debug_data.append(page_data)
74 | 
75 |     with open(debug_file, "w+") as f:
76 |         json.dump(debug_data, f)
77 | 
78 | 
79 | 
80 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/logger.py:
--------------------------------------------------------------------------------
 1 | import logging
 2 | import fitz as pymupdf
 3 | import warnings
 4 | 
 5 | 
 6 | def configure_logging():
 7 |     logging.basicConfig(level=logging.WARNING)
 8 | 
 9 |     logging.getLogger('pdfminer').setLevel(logging.ERROR)
10 |     logging.getLogger('PIL').setLevel(logging.ERROR)
11 |     logging.getLogger('fitz').setLevel(logging.ERROR)
12 |     logging.getLogger('ocrmypdf').setLevel(logging.ERROR)
13 |     pymupdf.TOOLS.mupdf_display_errors(False)
14 |     warnings.simplefilter(action='ignore', category=FutureWarning)


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/models.py:
--------------------------------------------------------------------------------
 1 | from marker.cleaners.equations import load_nougat_model
 2 | from marker.ordering import load_ordering_model
 3 | from marker.postprocessors.editor import load_editing_model
 4 | from marker.segmentation import load_layout_model
 5 | 
 6 | 
 7 | def load_all_models():
 8 |     edit = load_editing_model()
 9 |     order = load_ordering_model()
10 |     layout = load_layout_model()
11 |     nougat = load_nougat_model()
12 |     model_lst = [nougat, layout, order, edit]
13 |     return model_lst
14 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/ocr/page.py:
--------------------------------------------------------------------------------
 1 | import io
 2 | from typing import List, Optional
 3 | 
 4 | import fitz as pymupdf
 5 | import ocrmypdf
 6 | from spellchecker import SpellChecker
 7 | 
 8 | from marker.ocr.utils import detect_bad_ocr
 9 | from marker.schema import Block
10 | from marker.settings import settings
11 | 
12 | ocrmypdf.configure_logging(verbosity=ocrmypdf.Verbosity.quiet)
13 | 
14 | 
15 | def ocr_entire_page(page, lang: str, spellchecker: Optional[SpellChecker] = None) -> List[Block]:
16 |     if settings.OCR_ENGINE == "tesseract":
17 |         return ocr_entire_page_tess(page, lang, spellchecker)
18 |     elif settings.OCR_ENGINE == "ocrmypdf":
19 |         return ocr_entire_page_ocrmp(page, lang, spellchecker)
20 |     else:
21 |         raise ValueError(f"Unknown OCR engine {settings.OCR_ENGINE}")
22 | 
23 | 
24 | def ocr_entire_page_tess(page, lang: str, spellchecker: Optional[SpellChecker] = None) -> List[Block]:
25 |     try:
26 |         full_tp = page.get_textpage_ocr(flags=settings.TEXT_FLAGS, dpi=settings.OCR_DPI, full=True, language=lang)
27 |         blocks = page.get_text("dict", sort=True, flags=settings.TEXT_FLAGS, textpage=full_tp)["blocks"]
28 |         full_text = page.get_text("text", sort=True, flags=settings.TEXT_FLAGS, textpage=full_tp)
29 | 
30 |         if len(full_text) == 0:
31 |             return []
32 | 
33 |         # Check if OCR worked. If it didn't, return empty list
34 |         # OCR can fail if there is a scanned blank page with some faint text impressions, for example
35 |         if detect_bad_ocr(full_text, spellchecker):
36 |             return []
37 |     except RuntimeError:
38 |         return []
39 |     return blocks
40 | 
41 | 
42 | def ocr_entire_page_ocrmp(page, lang: str, spellchecker: Optional[SpellChecker] = None) -> List[Block]:
43 |     # Use ocrmypdf to get OCR text for the whole page
44 |     src = page.parent  # the page's document
45 |     blank_doc = pymupdf.open()  # make temporary 1-pager
46 |     blank_doc.insert_pdf(src, from_page=page.number, to_page=page.number, annots=False, links=False)
47 |     pdfbytes = blank_doc.tobytes()
48 |     inbytes = io.BytesIO(pdfbytes)  # transform to BytesIO object
49 |     outbytes = io.BytesIO()  # let ocrmypdf store its result pdf here
50 |     ocrmypdf.ocr(
51 |         inbytes,
52 |         outbytes,
53 |         language=lang,
54 |         output_type="pdf",
55 |         redo_ocr=None if settings.OCR_ALL_PAGES else True,
56 |         force_ocr=True if settings.OCR_ALL_PAGES else None,
57 |         progress_bar=False,
58 |         optimize=False,
59 |         fast_web_view=1e6,
60 |         skip_big=15, # skip images larger than 15 megapixels
61 |         tesseract_timeout=settings.TESSERACT_TIMEOUT,
62 |         tesseract_non_ocr_timeout=settings.TESSERACT_TIMEOUT,
63 |     )
64 |     ocr_pdf = pymupdf.open("pdf", outbytes.getvalue())  # read output as fitz PDF
65 |     blocks = ocr_pdf[0].get_text("dict", sort=True, flags=settings.TEXT_FLAGS)["blocks"]
66 |     full_text = ocr_pdf[0].get_text("text", sort=True, flags=settings.TEXT_FLAGS)
67 | 
68 |     # Make sure the original pdf/epub/mobi bbox and the ocr pdf bbox are the same
69 |     assert page.bound() == ocr_pdf[0].bound()
70 | 
71 |     if len(full_text) == 0:
72 |         return []
73 | 
74 |     if detect_bad_ocr(full_text, spellchecker):
75 |         return []
76 | 
77 |     return blocks
78 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/ocr/utils.py:
--------------------------------------------------------------------------------
 1 | from typing import Optional
 2 | 
 3 | from nltk import wordpunct_tokenize
 4 | from spellchecker import SpellChecker
 5 | from marker.settings import settings
 6 | import re
 7 | 
 8 | 
 9 | def detect_bad_ocr(text, spellchecker: Optional[SpellChecker], misspell_threshold=.7, space_threshold=.6, newline_threshold=.5, alphanum_threshold=.4):
10 |     if len(text) == 0:
11 |         # Assume OCR failed if we have no text
12 |         return True
13 | 
14 |     words = wordpunct_tokenize(text)
15 |     words = [w for w in words if w.strip()]
16 |     alpha_words = [word for word in words if word.isalnum()]
17 | 
18 |     if spellchecker:
19 |         misspelled = spellchecker.unknown(alpha_words)
20 |         if len(misspelled) > len(alpha_words) * misspell_threshold:
21 |             return True
22 | 
23 |     spaces = len(re.findall(r'\s+', text))
24 |     alpha_chars = len(re.sub(r'\s+', '', text))
25 |     if spaces / (alpha_chars + spaces) > space_threshold:
26 |         return True
27 | 
28 |     newlines = len(re.findall(r'\n+', text))
29 |     non_newlines = len(re.sub(r'\n+', '', text))
30 |     if newlines / (newlines + non_newlines) > newline_threshold:
31 |         return True
32 | 
33 |     if alphanum_ratio(text) < alphanum_threshold: # Garbled text
34 |         return True
35 | 
36 |     invalid_chars = len([c for c in text if c in settings.INVALID_CHARS])
37 |     if invalid_chars > max(3.0, len(text) * .02):
38 |         return True
39 | 
40 |     return False
41 | 
42 | 
43 | def font_flags_decomposer(flags):
44 |     """Make font flags human readable."""
45 |     l = []
46 |     if flags & 2 ** 0:
47 |         l.append("superscript")
48 |     if flags & 2 ** 1:
49 |         l.append("italic")
50 |     if flags & 2 ** 2:
51 |         l.append("serifed")
52 |     else:
53 |         l.append("sans")
54 |     if flags & 2 ** 3:
55 |         l.append("monospaced")
56 |     else:
57 |         l.append("proportional")
58 |     if flags & 2 ** 4:
59 |         l.append("bold")
60 |     return "_".join(l)
61 | 
62 | 
63 | def alphanum_ratio(text):
64 |     text = text.replace(" ", "")
65 |     text = text.replace("\n", "")
66 |     alphanumeric_count = sum([1 for c in text if c.isalnum()])
67 | 
68 |     if len(text) == 0:
69 |         return 1
70 | 
71 |     ratio = alphanumeric_count / len(text)
72 |     return ratio
73 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/ordering.py:
--------------------------------------------------------------------------------
  1 | from copy import deepcopy
  2 | from typing import List
  3 | 
  4 | import torch
  5 | import sys, os
  6 | 
  7 | from marker.extract_text import convert_single_page
  8 | from transformers import LayoutLMv3ForSequenceClassification, LayoutLMv3Processor
  9 | from PIL import Image
 10 | import io
 11 | 
 12 | from marker.schema import Page
 13 | from marker.settings import settings
 14 | 
 15 | processor = LayoutLMv3Processor.from_pretrained(settings.ORDERER_MODEL_NAME)
 16 | 
 17 | 
 18 | def load_ordering_model():
 19 |     model = LayoutLMv3ForSequenceClassification.from_pretrained(
 20 |         settings.ORDERER_MODEL_NAME,
 21 |         torch_dtype=settings.MODEL_DTYPE,
 22 |     ).to(settings.TORCH_DEVICE)
 23 |     model.eval()
 24 |     return model
 25 | 
 26 | 
 27 | def get_inference_data(page, page_blocks: Page):
 28 |     bboxes = deepcopy([block.bbox for block in page_blocks.blocks])
 29 |     words = ["."] * len(bboxes)
 30 | 
 31 |     pix = page.get_pixmap(dpi=settings.LAYOUT_DPI, annots=False, clip=page_blocks.bbox)
 32 |     png = pix.pil_tobytes(format="PNG")
 33 |     rgb_image = Image.open(io.BytesIO(png)).convert("RGB")
 34 | 
 35 |     page_box = page_blocks.bbox
 36 |     pwidth = page_blocks.width
 37 |     pheight = page_blocks.height
 38 | 
 39 |     for box in bboxes:
 40 |         if box[0] < page_box[0]:
 41 |             box[0] = page_box[0]
 42 |         if box[1] < page_box[1]:
 43 |             box[1] = page_box[1]
 44 |         if box[2] > page_box[2]:
 45 |             box[2] = page_box[2]
 46 |         if box[3] > page_box[3]:
 47 |             box[3] = page_box[3]
 48 | 
 49 |         box[0] = int(box[0] / pwidth * 1000)
 50 |         box[1] = int(box[1] / pheight * 1000)
 51 |         box[2] = int(box[2] / pwidth * 1000)
 52 |         box[3] = int(box[3] / pheight * 1000)
 53 | 
 54 |     return rgb_image, bboxes, words
 55 | 
 56 | 
 57 | def batch_inference(rgb_images, bboxes, words, model):
 58 |     encoding = processor(
 59 |         rgb_images,
 60 |         text=words,
 61 |         boxes=bboxes,
 62 |         return_tensors="pt",
 63 |         truncation=True,
 64 |         padding="max_length",
 65 |         max_length=128
 66 |     )
 67 | 
 68 |     if settings.CUDA:
 69 |         encoding["pixel_values"] = encoding["pixel_values"].to(torch.bfloat16)
 70 | 
 71 |     with torch.inference_mode():
 72 |         for k in ["bbox", "input_ids", "pixel_values", "attention_mask"]:
 73 |             encoding[k] = encoding[k].to(settings.TORCH_DEVICE)
 74 |         outputs = model(**encoding)
 75 |         logits = outputs.logits
 76 | 
 77 |     predictions = logits.argmax(-1).squeeze().tolist()
 78 |     if isinstance(predictions, int):
 79 |         predictions = [predictions]
 80 |     predictions = [model.config.id2label[p] for p in predictions]
 81 |     return predictions
 82 | 
 83 | 
 84 | def add_column_counts(doc, doc_blocks, model, batch_size):
 85 |     for i in range(0, len(doc_blocks), batch_size):
 86 |         batch = range(i, min(i + batch_size, len(doc_blocks)))
 87 |         rgb_images = []
 88 |         bboxes = []
 89 |         words = []
 90 |         for pnum in batch:
 91 |             page = doc[pnum]
 92 |             rgb_image, page_bboxes, page_words = get_inference_data(page, doc_blocks[pnum])
 93 |             rgb_images.append(rgb_image)
 94 |             bboxes.append(page_bboxes)
 95 |             words.append(page_words)
 96 | 
 97 |         predictions = batch_inference(rgb_images, bboxes, words, model)
 98 |         for pnum, prediction in zip(batch, predictions):
 99 |             doc_blocks[pnum].column_count = prediction
100 | 
101 | 
102 | def order_blocks(doc, doc_blocks: List[Page], model, batch_size=settings.ORDERER_BATCH_SIZE):
103 |     add_column_counts(doc, doc_blocks, model, batch_size)
104 | 
105 |     for page_blocks in doc_blocks:
106 |         if page_blocks.column_count > 1:
107 |             # Resort blocks based on position
108 |             split_pos = page_blocks.x_start + page_blocks.width / 2
109 |             left_blocks = []
110 |             right_blocks = []
111 |             for block in page_blocks.blocks:
112 |                 if block.x_start <= split_pos:
113 |                     left_blocks.append(block)
114 |                 else:
115 |                     right_blocks.append(block)
116 |             page_blocks.blocks = left_blocks + right_blocks
117 |     return doc_blocks
118 | 
119 | 
120 | 
121 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/postprocessors/editor.py:
--------------------------------------------------------------------------------
  1 | from collections import defaultdict, Counter
  2 | from itertools import chain
  3 | from typing import Optional
  4 | 
  5 | from transformers import AutoTokenizer
  6 | from marker.settings import settings
  7 | import torch
  8 | import torch.nn.functional as F
  9 | from marker.postprocessors.t5 import T5ForTokenClassification, byt5_tokenize
 10 | 
 11 | tokenizer = AutoTokenizer.from_pretrained(settings.EDITOR_MODEL_NAME)
 12 | 
 13 | 
 14 | def load_editing_model():
 15 |     if not settings.ENABLE_EDITOR_MODEL:
 16 |         return None
 17 | 
 18 |     model = T5ForTokenClassification.from_pretrained(
 19 |             settings.EDITOR_MODEL_NAME,
 20 |             torch_dtype=settings.MODEL_DTYPE,
 21 |         ).to(settings.TORCH_DEVICE)
 22 |     model.eval()
 23 | 
 24 |     model.config.label2id = {
 25 |         "equal": 0,
 26 |         "delete": 1,
 27 |         "newline-1": 2,
 28 |         "space-1": 3,
 29 |     }
 30 |     model.config.id2label = {v: k for k, v in model.config.label2id.items()}
 31 |     return model
 32 | 
 33 | 
 34 | def edit_full_text(text: str, model: Optional[T5ForTokenClassification], batch_size: int = settings.EDITOR_BATCH_SIZE):
 35 |     if not model:
 36 |         return text, {}
 37 | 
 38 |     tokenized = byt5_tokenize(text, settings.EDITOR_MAX_LENGTH)
 39 |     input_ids = tokenized["input_ids"]
 40 |     char_token_lengths = tokenized["char_token_lengths"]
 41 | 
 42 |     # Run model
 43 |     token_masks = []
 44 |     for i in range(0, len(input_ids), batch_size):
 45 |         batch_input_ids = tokenized["input_ids"][i: i + batch_size]
 46 |         batch_input_ids = torch.tensor(batch_input_ids, device=model.device)
 47 |         batch_attention_mask = tokenized["attention_mask"][i: i + batch_size]
 48 |         batch_attention_mask = torch.tensor(batch_attention_mask, device=model.device)
 49 |         with torch.inference_mode():
 50 |             predictions = model(batch_input_ids, attention_mask=batch_attention_mask)
 51 | 
 52 |         logits = predictions.logits.cpu()
 53 | 
 54 |         # If the max probability is less than a threshold, we assume it's a bad prediction
 55 |         # We want to be conservative to not edit the text too much
 56 |         probs = F.softmax(logits, dim=-1)
 57 |         max_prob = torch.max(probs, dim=-1)
 58 |         cutoff_prob = max_prob.values < settings.EDITOR_CUTOFF_THRESH
 59 |         labels = logits.argmax(-1)
 60 |         labels[cutoff_prob] = model.config.label2id["equal"]
 61 |         labels = labels.squeeze().tolist()
 62 |         if len(labels) == settings.EDITOR_MAX_LENGTH:
 63 |             labels = [labels]
 64 |         labels = list(chain.from_iterable(labels))
 65 |         token_masks.extend(labels)
 66 | 
 67 |     # List of characters in the text
 68 |     flat_input_ids = list(chain.from_iterable(input_ids))
 69 | 
 70 |     # Strip special tokens 0,1.  Keep unknown token, although it should never be used
 71 |     assert len(token_masks) == len(flat_input_ids)
 72 |     token_masks = [mask for mask, token in zip(token_masks, flat_input_ids) if token >= 2]
 73 | 
 74 |     assert len(token_masks) == len(list(text.encode("utf-8")))
 75 | 
 76 |     edit_stats = defaultdict(int)
 77 |     out_text = []
 78 |     start = 0
 79 |     for i, char in enumerate(text):
 80 |         char_token_length = char_token_lengths[i]
 81 |         masks = token_masks[start: start + char_token_length]
 82 |         labels = [model.config.id2label[mask] for mask in masks]
 83 |         if all(l == "delete" for l in labels):
 84 |             # If we delete whitespace, roll with it, otherwise ignore
 85 |             if char.strip():
 86 |                 out_text.append(char)
 87 |             else:
 88 |                 edit_stats["delete"] += 1
 89 |         elif labels[0] == "newline-1":
 90 |             out_text.append("\n")
 91 |             out_text.append(char)
 92 |             edit_stats["newline-1"] += 1
 93 |         elif labels[0] == "space-1":
 94 |             out_text.append(" ")
 95 |             out_text.append(char)
 96 |             edit_stats["space-1"] += 1
 97 |         else:
 98 |             out_text.append(char)
 99 |             edit_stats["equal"] += 1
100 | 
101 |         start += char_token_length
102 | 
103 |     out_text = "".join(out_text)
104 |     return out_text, edit_stats
105 | 
106 | 
107 | 
108 | 
109 | 
110 | 
111 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/postprocessors/t5.py:
--------------------------------------------------------------------------------
  1 | from transformers import T5Config, T5PreTrainedModel
  2 | import torch
  3 | from torch import nn
  4 | from copy import deepcopy
  5 | from typing import Optional, Tuple, Union, List
  6 | from itertools import chain
  7 | 
  8 | from transformers.modeling_outputs import TokenClassifierOutput
  9 | from transformers.models.t5.modeling_t5 import T5Stack
 10 | from transformers.utils.model_parallel_utils import get_device_map, assert_device_map
 11 | 
 12 | 
 13 | def byt5_tokenize(text: str, max_length: int, pad_token_id: int = 0):
 14 |     byte_codes = []
 15 |     for char in text:
 16 |         # Add 3 to account for special tokens
 17 |         byte_codes.append([byte + 3 for byte in char.encode('utf-8')])
 18 | 
 19 |     tokens = list(chain.from_iterable(byte_codes))
 20 |     # Map each token to the character it represents
 21 |     char_token_lengths = [len(b) for b in byte_codes]
 22 | 
 23 |     batched_tokens = []
 24 |     attention_mask = []
 25 |     for i in range(0, len(tokens), max_length):
 26 |         batched_tokens.append(tokens[i:i + max_length])
 27 |         attention_mask.append([1] * len(batched_tokens[-1]))
 28 | 
 29 |     # Pad last item
 30 |     if len(batched_tokens[-1]) < max_length:
 31 |         batched_tokens[-1] += [pad_token_id] * (max_length - len(batched_tokens[-1]))
 32 |         attention_mask[-1] += [0] * (max_length - len(attention_mask[-1]))
 33 | 
 34 |     return {"input_ids": batched_tokens, "attention_mask": attention_mask, "char_token_lengths": char_token_lengths}
 35 | 
 36 | 
 37 | 
 38 | 
 39 | # From https://github.com/osainz59/t5-encoder
 40 | class T5ForTokenClassification(T5PreTrainedModel):
 41 |     _keys_to_ignore_on_load_missing = [r"encoder.embed_tokens.weight"]
 42 | 
 43 |     def __init__(self, config: T5Config):
 44 |         super().__init__(config)
 45 |         self.model_dim = config.d_model
 46 | 
 47 |         self.shared = nn.Embedding(config.vocab_size, config.d_model)
 48 | 
 49 |         encoder_config = deepcopy(config)
 50 |         encoder_config.is_decoder = False
 51 |         encoder_config.is_encoder_decoder = False
 52 |         encoder_config.use_cache = False
 53 |         self.encoder = T5Stack(encoder_config, self.shared)
 54 | 
 55 |         classifier_dropout = (
 56 |             config.classifier_dropout if hasattr(config, 'classifier_dropout') else config.dropout_rate
 57 |         )
 58 |         self.dropout = nn.Dropout(classifier_dropout)
 59 |         self.classifier = nn.Linear(config.d_model, config.num_labels)
 60 | 
 61 |         # Initialize weights and apply final processing
 62 |         self.post_init()
 63 | 
 64 |         # Model parallel
 65 |         self.model_parallel = False
 66 |         self.device_map = None
 67 | 
 68 | 
 69 |     def parallelize(self, device_map=None):
 70 |         self.device_map = (
 71 |             get_device_map(len(self.encoder.block), range(torch.cuda.device_count()))
 72 |             if device_map is None
 73 |             else device_map
 74 |         )
 75 |         assert_device_map(self.device_map, len(self.encoder.block))
 76 |         self.encoder.parallelize(self.device_map)
 77 |         self.classifier.to(self.encoder.first_device)
 78 |         self.model_parallel = True
 79 | 
 80 |     def deparallelize(self):
 81 |         self.encoder.deparallelize()
 82 |         self.encoder = self.encoder.to("cpu")
 83 |         self.classifier = self.classifier.to("cpu")
 84 |         self.model_parallel = False
 85 |         self.device_map = None
 86 |         torch.cuda.empty_cache()
 87 | 
 88 |     def get_input_embeddings(self):
 89 |         return self.shared
 90 | 
 91 |     def set_input_embeddings(self, new_embeddings):
 92 |         self.shared = new_embeddings
 93 |         self.encoder.set_input_embeddings(new_embeddings)
 94 | 
 95 |     def get_encoder(self):
 96 |         return self.encoder
 97 | 
 98 |     def _prune_heads(self, heads_to_prune):
 99 |         for layer, heads in heads_to_prune.items():
100 |             self.encoder.block[layer].layer[0].SelfAttention.prune_heads(heads)
101 | 
102 |     def forward(
103 |         self,
104 |         input_ids: Optional[torch.LongTensor] = None,
105 |         attention_mask: Optional[torch.FloatTensor] = None,
106 |         head_mask: Optional[torch.FloatTensor] = None,
107 |         inputs_embeds: Optional[torch.FloatTensor] = None,
108 |         labels: Optional[torch.LongTensor] = None,
109 |         output_attentions: Optional[bool] = None,
110 |         output_hidden_states: Optional[bool] = None,
111 |         return_dict: Optional[bool] = None,
112 |     ) -> Union[Tuple[torch.FloatTensor], TokenClassifierOutput]:
113 |         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
114 | 
115 |         outputs = self.encoder(
116 |             input_ids=input_ids,
117 |             attention_mask=attention_mask,
118 |             inputs_embeds=inputs_embeds,
119 |             head_mask=head_mask,
120 |             output_attentions=output_attentions,
121 |             output_hidden_states=output_hidden_states,
122 |             return_dict=return_dict,
123 |         )
124 | 
125 |         sequence_output = outputs[0]
126 | 
127 |         sequence_output = self.dropout(sequence_output)
128 |         logits = self.classifier(sequence_output)
129 | 
130 |         loss = None
131 | 
132 |         if not return_dict:
133 |             output = (logits,) + outputs[2:]
134 |             return ((loss,) + output) if loss is not None else output
135 | 
136 |         return TokenClassifierOutput(
137 |             loss=loss,
138 |             logits=logits,
139 |             hidden_states=outputs.hidden_states,
140 |             attentions=outputs.attentions
141 |         )


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/marker/settings.py:
--------------------------------------------------------------------------------
  1 | import os
  2 | from typing import Optional, List, Dict
  3 | 
  4 | from dotenv import find_dotenv
  5 | from pydantic import computed_field
  6 | from pydantic_settings import BaseSettings
  7 | import fitz as pymupdf
  8 | import torch
  9 | 
 10 | 
 11 | class Settings(BaseSettings):
 12 |     # General
 13 |     TORCH_DEVICE: str = "cpu"
 14 |     INFERENCE_RAM: int = 40 # How much VRAM each GPU has (in GB).
 15 |     VRAM_PER_TASK: float = 2.5 # How much VRAM to allocate per task (in GB).  Peak marker VRAM usage is around 3GB, but avg across workers is lower.
 16 |     DEFAULT_LANG: str = "English" # Default language we assume files to be in, should be one of the keys in TESSERACT_LANGUAGES
 17 | 
 18 |     SUPPORTED_FILETYPES: Dict = {
 19 |         "application/pdf": "pdf",
 20 |         "application/epub+zip": "epub",
 21 |         "application/x-mobipocket-ebook": "mobi",
 22 |         "application/vnd.ms-xpsdocument": "xps",
 23 |         "application/x-fictionbook+xml": "fb2"
 24 |     }
 25 | 
 26 |     # PyMuPDF
 27 |     TEXT_FLAGS: int = pymupdf.TEXTFLAGS_DICT & ~pymupdf.TEXT_PRESERVE_LIGATURES & ~pymupdf.TEXT_PRESERVE_IMAGES
 28 | 
 29 |     # OCR
 30 |     INVALID_CHARS: List[str] = [chr(0xfffd), "�"]
 31 |     OCR_DPI: int = 400
 32 |     TESSDATA_PREFIX: str = ""
 33 |     TESSERACT_LANGUAGES: Dict = {
 34 |         "English": "eng",
 35 |         "Spanish": "spa",
 36 |         "Portuguese": "por",
 37 |         "French": "fra",
 38 |         "German": "deu",
 39 |         "Russian": "rus",
 40 |         "Chinese": "chi_sim",
 41 |         "Japanese": "jpn",
 42 |         "Korean": "kor",
 43 |         "Hindi": "hin",
 44 |     }
 45 |     TESSERACT_TIMEOUT: int = 20 # When to give up on OCR
 46 |     SPELLCHECK_LANGUAGES: Dict = {
 47 |         "English": "en",
 48 |         "Spanish": "es",
 49 |         "Portuguese": "pt",
 50 |         "French": "fr",
 51 |         "German": "de",
 52 |         "Russian": "ru",
 53 |         "Chinese": None,
 54 |         "Japanese": None,
 55 |         "Korean": None,
 56 |         "Hindi": None,
 57 |     }
 58 |     OCR_ALL_PAGES: bool = False # Run OCR on every page even if text can be extracted
 59 |     OCR_PARALLEL_WORKERS: int = 2 # How many CPU workers to use for OCR
 60 |     OCR_ENGINE: str = "ocrmypdf" # Which OCR engine to use, either "tesseract" or "ocrmypdf".  Ocrmypdf is higher quality, but slower.
 61 | 
 62 |     # Nougat model
 63 |     NOUGAT_MODEL_MAX: int = 512 # Max inference length for nougat
 64 |     NOUGAT_TOKEN_BUFFER: int = 256 # Number of tokens to buffer above max for nougat
 65 |     NOUGAT_HALLUCINATION_WORDS: List[str] = [
 66 |         "[MISSING_PAGE_POST]",
 67 |         "## References\n",
 68 |         "**Figure Captions**\n",
 69 |         "Footnote",
 70 |         "\par\par\par",
 71 |         "## Chapter",
 72 |         "Fig.",
 73 |         "particle",
 74 |         "[REPEATS]",
 75 |         "[TRUNCATED]",
 76 |         "### ",
 77 |         "effective field strength",
 78 |         "\Phi_{\rm eff}",
 79 |         "\mathbf{\mathbf"
 80 |     ]
 81 |     NOUGAT_DPI: int = 96 # DPI to render images at, matches default settings for nougat
 82 |     NOUGAT_MODEL_NAME: str = "0.1.0-small" # Name of the model to use
 83 |     NOUGAT_BATCH_SIZE: int = 6 if TORCH_DEVICE == "cuda" else 1 # Batch size for nougat, don't batch on cpu
 84 | 
 85 |     # Layout model
 86 |     BAD_SPAN_TYPES: List[str] = ["Caption", "Footnote", "Page-footer", "Page-header", "Picture"]
 87 |     LAYOUT_MODEL_MAX: int = 512
 88 |     LAYOUT_CHUNK_OVERLAP: int = 64
 89 |     LAYOUT_DPI: int = 96
 90 |     LAYOUT_MODEL_NAME: str = "vikp/layout_segmenter"
 91 |     LAYOUT_BATCH_SIZE: int = 8 # Max 512 tokens means high batch size
 92 | 
 93 |     # Ordering model
 94 |     ORDERER_BATCH_SIZE: int = 32 # This can be high, because max token count is 128
 95 |     ORDERER_MODEL_NAME: str = "vikp/column_detector"
 96 | 
 97 |     # Final editing model
 98 |     EDITOR_BATCH_SIZE: int = 4
 99 |     EDITOR_MAX_LENGTH: int = 1024
100 |     EDITOR_MODEL_NAME: str = "vikp/pdf_postprocessor_t5"
101 |     ENABLE_EDITOR_MODEL: bool = False # The editor model can create false positives
102 |     EDITOR_CUTOFF_THRESH: float = 0.9 # Ignore predictions below this probability
103 | 
104 |     # Ray
105 |     RAY_CACHE_PATH: Optional[str] = None # Where to save ray cache
106 |     RAY_DASHBOARD_HOST: str = "127.0.0.1"
107 |     RAY_CORES_PER_WORKER: int = 1 # How many cpu cores to allocate per worker
108 | 
109 |     # Debug
110 |     DEBUG: bool = False # Enable debug logging
111 |     DEBUG_DATA_FOLDER: Optional[str] = None
112 |     DEBUG_LEVEL: int = 0 # 0 to 2, 2 means log everything
113 | 
114 |     @computed_field
115 |     @property
116 |     def CUDA(self) -> bool:
117 |         return "cuda" in self.TORCH_DEVICE
118 | 
119 |     @computed_field
120 |     @property
121 |     def MODEL_DTYPE(self) -> torch.dtype:
122 |         return torch.bfloat16 if self.CUDA else torch.float32
123 | 
124 |     class Config:
125 |         env_file = find_dotenv("local.env")
126 |         extra = "ignore"
127 | 
128 | 
129 | settings = Settings()


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/output/output_meta.json:
--------------------------------------------------------------------------------
 1 | {
 2 |     "language": "English",
 3 |     "filetype": "pdf",
 4 |     "toc": [],
 5 |     "pages": 15,
 6 |     "ocr_stats": {
 7 |         "ocr_pages": 0,
 8 |         "ocr_failed": 0,
 9 |         "ocr_success": 0
10 |     },
11 |     "block_stats": {
12 |         "header_footer": 0,
13 |         "code": 0,
14 |         "table": 9,
15 |         "equations": {
16 |             "successful_ocr": 0,
17 |             "unsuccessful_ocr": 0,
18 |             "equations": 0
19 |         }
20 |     },
21 |     "postprocess_stats": {
22 |         "edit": {}
23 |     }
24 | }


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/requirements.txt:
--------------------------------------------------------------------------------
 1 | scikit-learn == 1.3.2
 2 | Pillow == 10.1.0
 3 | pytesseract == 0.3.10
 4 | PyMuPDF == 1.23.5
 5 | pymupdf-fonts == 1.0.5
 6 | pydantic == 2.4.2
 7 | pydantic-settings == 2.0.3
 8 | nougat-ocr == 0.1.17
 9 | transformers == 4.34.1
10 | numpy == 1.26.1
11 | python-dotenv == 1.0.0
12 | torch == 2.1.1
13 | ray == 2.7.1
14 | tqdm == 4.66.1
15 | tabulate == 0.9.0
16 | thefuzz == 0.20.0
17 | python-magic == 0.4.27
18 | pyspellchecker == 0.7.2
19 | ftfy == 6.1.1
20 | nltk == 3.8.1
21 | ocrmypdf == 15.4.0
22 | bitsandbytes == 0.41.2.post2
23 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/scripts/header.tex:
--------------------------------------------------------------------------------
1 | \usepackage{bbm}


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/scripts/install/apt-requirements.txt:
--------------------------------------------------------------------------------
 1 | tesseract-ocr
 2 | libtesseract-dev
 3 | libmagic1
 4 | ocrmypdf
 5 | tesseract-ocr-eng
 6 | tesseract-ocr-deu
 7 | tesseract-ocr-por
 8 | tesseract-ocr-spa
 9 | tesseract-ocr-rus
10 | tesseract-ocr-fra
11 | tesseract-ocr-chi-sim
12 | tesseract-ocr-jpn
13 | tesseract-ocr-kor
14 | tesseract-ocr-hin


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/scripts/install/brew-requirements.txt:
--------------------------------------------------------------------------------
1 | ocrmypdf
2 | libmagic
3 | tesseract
4 | tesseract-lang


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/scripts/install/ghostscript_install.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | 
 3 | wget https://github.com/ArtifexSoftware/ghostpdl-downloads/releases/download/gs10012/ghostscript-10.01.2.tar.gz
 4 | tar -xvf ghostscript-10.01.2.tar.gz
 5 | cd ghostscript-10.01.2
 6 | ./configure
 7 | sudo make install
 8 | cd ..
 9 | sudo rm -rf ghostscript-10.01.2
10 | rm ghostscript-10.01.2.tar.gz


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/scripts/install/tesseract_5_install.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | 
 3 | sudo apt-get install apt-transport-https
 4 | echo "deb https://notesalexp.org/tesseract-ocr5/$(lsb_release -cs)/ $(lsb_release -cs) main" \
 5 | | sudo tee /etc/apt/sources.list.d/notesalexp.list > /dev/null
 6 | sudo apt-get update -oAcquire::AllowInsecureRepositories=true
 7 | sudo apt-get install notesalexp-keyring -oAcquire::AllowInsecureRepositories=true
 8 | sudo apt-get update
 9 | sudo apt-get install tesseract-ocr
10 | 


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/scripts/markdown_to_pdf.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | # This will convert a markdown file generated by marker back into a pdf
 3 | # This is an example of how to work with the markdown output
 4 | 
 5 | if [ $# -ne 2 ]; then
 6 |     echo "Usage: $0 <input.md> <output.pdf>"
 7 |     exit 1
 8 | fi
 9 | 
10 | pandoc $1 -o $2 --pdf-engine=xelatex --include-in-header=header.tex


--------------------------------------------------------------------------------
/convert/marker_parse_pdf/scripts/verify_benchmark_scores.py:
--------------------------------------------------------------------------------
 1 | import json
 2 | import argparse
 3 | 
 4 | 
 5 | def verify_scores(file_path):
 6 |     with open(file_path, 'r') as file:
 7 |         data = json.load(file)
 8 | 
 9 |     multicolcnn_score = data["marker"]["files"]["multicolcnn.pdf"]["score"]
10 |     switch_trans_score = data["marker"]["files"]["switch_trans.pdf"]["score"]
11 | 
12 |     if multicolcnn_score <= 0.4 or switch_trans_score <= 0.4:
13 |         raise ValueError("One or more scores are below the required threshold of 0.4")
14 | 
15 | 
16 | if __name__ == "__main__":
17 |     parser = argparse.ArgumentParser(description="Verify benchmark scores")
18 |     parser.add_argument("file_path", type=str, help="Path to the json file")
19 |     args = parser.parse_args()
20 |     verify_scores(args.file_path)
21 | 


--------------------------------------------------------------------------------
/data/original_data/中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/data/original_data/中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx


--------------------------------------------------------------------------------
/data/original_data/国务院关于加强地方政府性债务管理的意见.docx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/data/original_data/国务院关于加强地方政府性债务管理的意见.docx


--------------------------------------------------------------------------------
/data/preprocess_data/中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.json:
--------------------------------------------------------------------------------
 1 | [
 2 |   {
 3 |     "file_name": "中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx",
 4 |     "part_content": "一、总体要求和基本原则\n（一）总体要求。以习近平新时代中国特色社会主义思想为指导，全面贯彻党的十九大和十九届二中、三中全会精神，认真落实党中央、国务院决策部署，坚决打好防范化解重大风险攻坚战。坚持以供给侧结构性改革为主线不动摇，坚持结构性去杠杆的基本思路，按照坚定、可控、有序、适度要求，进一步健全地方政府举债融资机制，推进专项债券管理改革，在较大幅度增加专项债券规模基础上，加强宏观政策协调配合，保持市场流动性合理充裕，做好专项债券发行及项目配套融资工作，促进经济运行在合理区间。\n（二）基本原则\n——坚持疏堵结合。坚持用改革的办法解决发展中的矛盾和问题，把“开大前门”和“严堵后门”协调起来，在严控地方政府隐性债务（以下简称隐性债务）、坚决遏制隐性债务增量、坚决不走无序举债搞建设之路的同时，加大逆周期调节力度，厘清政府和市场边界，鼓励依法依规市场化融资，增加有效投资，促进宏观经济良性循环，提升经济社会发展质量和可持续性。\n——坚持协同配合。科学实施政策“组合拳”，加强财政、货币、投资等政策协同配合。积极的财政政策要加力提效，充分发挥专项债券作用，支持有一定收益但难以商业化合规融资的重大公益性项目（以下简称重大项目）。稳健的货币政策要松紧适度，配合做好专项债券发行及项目配套融资，引导金融机构加强金融服务，按商业化原则依法合规保障重大项目合理融资需求。\n——坚持突出重点。切实选准选好专项债券项目，集中资金支持重大在建工程建设和补短板并带动扩大消费，优先解决必要在建项目后续融资，尽快形成实物工作量，防止形成“半拉子”工程。\n——坚持防控风险。始终从长期大势认识当前形势，坚持推动高质量发展，坚持举债要同偿债能力相匹配。专项债券必须用于有一定收益的重大项目，融资规模要保持与项目收益相平衡。地方政府加强专项债券风险防控和项目管理，金融机构按商业化原则独立审批、审慎决策，坚决防控风险。\n——坚持稳定预期。既要强化宏观政策逆周期调节，主动预调微调，也要坚持稳中求进工作总基调，精准把握宏观调控的度，稳定和提振市场预期。必须坚持结构性去杠杆的改革方向，坚决不搞“大水漫灌”。对举借隐性债务上新项目、铺新摊子的要坚决问责、终身问责、倒查责任。"
 5 |   },
 6 |   {
 7 |     "file_name": "中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx",
 8 |     "part_content": "二、支持做好专项债券项目融资工作\n（一）合理明确金融支持专项债券项目标准。发挥专项债券带动作用和金融机构市场化融资优势，依法合规推进专项债券支持的重大项目建设。对没有收益的重大项目，通过统筹财政预算资金和地方政府一般债券予以支持。对有一定收益且收益全部属于政府性基金收入的重大项目，由地方政府发行专项债券融资；收益兼有政府性基金收入和其他经营性专项收入（以下简称专项收入，包括交通票款收入等），且偿还专项债券本息后仍有剩余专项收入的重大项目，可以由有关企业法人项目单位（以下简称项目单位）根据剩余专项收入情况向金融机构市场化融资。\n（二）精准聚焦重点领域和重大项目。鼓励地方政府和金融机构依法合规使用专项债券和其他市场化融资方式，重点支持京津冀协同发展、长江经济带发展、“一带一路”建设、粤港澳大湾区建设、长三角区域一体化发展、推进海南全面深化改革开放等重大战略和乡村振兴战略，以及推进棚户区改造等保障性安居工程、易地扶贫搬迁后续扶持、自然灾害防治体系建设、铁路、收费公路、机场、水利工程、生态环保、医疗健康、水电气热等公用事业、城镇基础设施、农业农村基础设施等领域以及其他纳入“十三五”规划符合条件的重大项目建设。\n（三）积极鼓励金融机构提供配套融资支持。对于实行企业化经营管理的项目，鼓励和引导银行机构以项目贷款等方式支持符合标准的专项债券项目。鼓励保险机构为符合标准的中长期限专项债券项目提供融资支持。允许项目单位发行公司信用类债券，支持符合标准的专项债券项目。\n（四）允许将专项债券作为符合条件的重大项目资本金。对于专项债券支持、符合中央重大决策部署、具有较大示范带动效应的重大项目，主要是国家重点支持的铁路、国家高速公路和支持推进国家重大战略的地方高速公路、供电、供气项目，在评估项目收益偿还专项债券本息后专项收入具备融资条件的，允许将部分专项债券作为一定比例的项目资本金，但不得超越项目收益实际水平过度融资。地方政府要按照一一对应原则，将专项债券严格落实到实体政府投资项目，不得将专项债券作为政府投资基金、产业投资基金等各类股权基金的资金来源，不得通过设立壳公司、多级子公司等中间环节注资，避免层层嵌套、层层放大杠杆。\n（五）确保落实到期债务偿还责任。省级政府对专项债券依法承担全部偿还责任。组合使用专项债券和市场化融资的项目，项目收入实行分账管理。项目对应的政府性基金收入和用于偿还专项债券的专项收入及时足额缴入国库，纳入政府性基金预算管理，确保专项债券还本付息资金安全；项目单位依法对市场化融资承担全部偿还责任，在银行开立监管账户，将市场化融资资金以及项目对应可用于偿还市场化融资的专项收入，及时足额归集至监管账户，保障市场化融资到期偿付。市场化转型尚未完成、存量隐性债务尚未化解完毕的融资平台公司不得作为项目单位。严禁项目单位以任何方式新增隐性债务。"
 9 |   },
10 |   {
11 |     "file_name": "中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx",
12 |     "part_content": "三、进一步完善专项债券管理及配套措施\n（一）大力做好专项债券项目推介。地方政府通过印发项目清单、集中公告等方式，加大向金融机构推介符合标准专项债券项目力度。金融管理部门积极配合地方政府工作，组织和协调金融机构参与。金融机构按照商业化原则、自主自愿予以支持，加快专项债券推介项目落地。\n（二）保障专项债券项目融资与偿债能力相匹配。地方政府、项目单位和金融机构加强对重大项目融资论证和风险评估，充分论证项目预期收益和融资期限及还本付息的匹配度，合理编制项目预期收益与融资平衡方案，反映项目全生命周期和年度收支平衡情况，使项目预期收益覆盖专项债券及市场化融资本息。需要金融机构市场化融资支持的，地方政府指导项目单位比照开展工作，向金融机构全面真实及时披露审批融资所需信息，准确反映偿还专项债券本息后的专项收入，使项目对应可用于偿还市场化融资的专项收入与市场化融资本息相平衡。金融机构严格按商业化原则审慎做好项目合规性和融资风险审核，在偿还专项债券本息后的专项收入确保市场化融资偿债来源的前提下，对符合条件的重大项目予以支持，自主决策是否提供融资及具体融资数量并自担风险。\n（三）强化信用评级和差别定价。推进全国统一的地方政府债务信息公开平台建设，由地方政府定期公开债务限额、余额、债务率、偿债率以及经济财政状况、债券发行、存续期管理等信息，形成地方政府债券统计数据库，支持市场机构独立评级，根据政府债务实际风险水平，合理形成市场化的信用利差。加快建立地方政府信用评级体系，加强地方政府债务风险评估和预警结果在金融监管等方面的应用。\n（四）提升地方政府债券发行定价市场化程度。坚持地方政府债券市场化发行，进一步减少行政干预和窗口指导，不得通过财政存款和国库现金管理操作等手段变相干预债券发行定价，促进债券发行利率合理反映地区差异和项目差异。严禁地方政府及其部门通过金融机构排名、财政资金存放、设立信贷目标等方式，直接或间接向金融机构施压。\n（五）丰富地方政府债券投资群体。落实完善相关政策，推动地方政府债券通过商业银行柜台在本地区范围内向个人和中小机构投资者发售，扩大对个人投资者发售量，提高商业银行柜台发售比例。鼓励和引导商业银行、保险公司、基金公司、社会保险基金等机构投资者和个人投资者参与投资地方政府债券。合理确定地方政府债券柜台发售的定价机制，增强对个人投资者的吸引力。适时研究储蓄式地方政府债券。指导金融机构积极参与地方政府债券发行认购，鼓励资管产品等非法人投资者增加地方政府债券投资。积极利用证券交易所提高非金融机构和个人投资地方政府债券的便利性。推出地方政府债券交易型开放式指数基金，通过“债券通”等机制吸引更多境外投资者投资。推动登记结算机构等债券市场基础设施互联互通。\n（六）合理提高长期专项债券期限比例。专项债券期限原则上与项目期限相匹配，并统筹考虑投资者需求、到期债务分布等因素科学确定，降低期限错配风险，防止资金闲置。逐步提高长期债券发行占比，对于铁路、城际交通、收费公路、水利工程等建设和运营期限较长的重大项目，鼓励发行10年期以上的长期专项债券，更好匹配项目资金需求和期限。组合使用专项债券和市场化融资的项目，专项债券、市场化融资期限与项目期限保持一致。合理确定再融资专项债券期限，原则上与同一项目剩余期限相匹配，避免频繁发债增加成本。完善专项债券本金偿还方式，在到期一次性偿还本金方式基础上，鼓励专项债券发行时采取本金分期偿还方式，既确保分期项目收益用于偿债，又平滑债券存续期内偿债压力。\n（七）加快专项债券发行使用进度。地方政府要根据提前下达的部分新增专项债务限额，结合国务院批准下达的后续专项债券额度，抓紧启动新增债券发行。金融机构按市场化原则配合地方政府做好专项债券发行工作。对预算拟安排新增专项债券的项目通过先行调度库款的办法，加快项目建设进度，债券发行后及时回补。各地要均衡专项债券发行时间安排，力争当年9月底前发行完毕，尽早发挥资金使用效益。"
13 |   },
14 |   {
15 |     "file_name": "中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx",
16 |     "part_content": "四、依法合规推进重大项目融资\n（一）支持重大项目市场化融资。对于部分实行企业化经营管理且有经营性收益的基础设施项目，包括已纳入国家和省市县级政府及部门印发的“十三五”规划并按规定权限完成审批或核准程序的项目，以及发展改革部门牵头提出的其他补短板重大项目，金融机构可按照商业化原则自主决策，在不新增隐性债务前提下给予融资支持，保障项目合理资金需求。\n（二）合理保障必要在建项目后续融资。在严格依法解除违法违规担保关系基础上，对存量隐性债务中的必要在建项目，允许融资平台公司在不扩大建设规模和防范风险前提下与金融机构协商继续融资。鼓励地方政府合法合规增信，通过补充有效抵质押物或由第三方担保机构（含政府出资的融资担保公司）担保等方式，保障债权人合法权益。\n（三）多渠道筹集重大项目资本金。鼓励地方政府通过统筹预算收入、上级转移支付、结转结余资金，以及按规定动用预算稳定调节基金等渠道筹集重大项目资本金。允许各地使用财政建设补助资金、中央预算内投资作为重大项目资本金，鼓励将发行地方政府债券后腾出的财力用于重大项目资本金。"
17 |   },
18 |   {
19 |     "file_name": "中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx",
20 |     "part_content": "五、加强组织保障\n（一）严格落实工作责任。财政部、国家发展改革委和金融管理部门等按职责分工和本通知要求，抓紧组织落实相关工作。省级政府对组合使用专项债券和市场化融资的项目建立事前评审和批准机制，对允许专项债券作为资本金的项目要重点评估论证，加强督促检查。地方各级政府负责组织制定本级专项债券项目预期收益与融资平衡方案，客观评估项目预期收益和资产价值。金融机构按照商业化原则自主决策，在不新增隐性债务前提下给予融资支持。\n（二）加强部门监管合作。在地方党委和政府领导下，建立财政、金融管理、发展改革等部门协同配合机制，健全专项债券项目安排协调机制，加强地方财政、发展改革等部门与金融单位之间的沟通衔接，支持做好专项债券发行及项目配套融资工作。财政部门及时向当地发展改革、金融管理部门及金融机构提供有关专项债券项目安排信息、存量隐性债务中的必要在建项目信息等。发展改革部门按职责分工做好建设项目审批或核准工作。金融管理部门指导金融机构做好补短板重大项目和有关专项债券项目配套融资工作。\n（三）推进债券项目公开。地方各级政府按照有关规定，加大地方政府债券信息公开力度，依托全国统一的集中信息公开平台，加快推进专项债券项目库公开，全面详细公开专项债券项目信息，对组合使用专项债券和市场化融资的项目以及将专项债券作为资本金的项目要单独公开，支持金融机构开展授信风险评估，让信息“多跑路”、金融机构“少跑腿”。进一步发挥主承销商作用，不断加强专项债券信息公开和持续监管工作。出现更换项目单位等重大事项的，应当第一时间告知债权人。金融机构加强专项债券项目信息应用，按照商业化原则自主决策，及时遴选符合条件的项目予以支持；需要补充信息的，地方政府及其相关部门要给予配合。\n（四）建立正向激励机制。研究建立正向激励机制，将做好专项债券发行及项目配套融资工作、加快专项债券发行使用进度与全年专项债券额度分配挂钩，对专项债券发行使用进度较快的地区予以适当倾斜支持。适当提高地方政府债券作为信贷政策支持再贷款担保品的质押率，进一步提高金融机构持有地方政府债券的积极性。\n（五）依法合规予以免责。既要强化责任意识，谁举债谁负责、谁融资谁负责，从严整治举债乱象，也要明确政策界限，允许合法合规融资行为，避免各方因担心被问责而不作为。对金融机构依法合规支持专项债券项目配套融资，以及依法合规支持已纳入国家和省市县级政府及部门印发的“十三五”规划并按规定权限完成审批或核准程序的项目，发展改革部门牵头提出的其他补短板重大项目，凡偿债资金来源为经营性收入、不新增隐性债务的，不认定为隐性债务问责情形。对金融机构支持存量隐性债务中的必要在建项目后续融资且不新增隐性债务的，也不认定为隐性债务问责情形。\n（六）强化跟踪评估监督。地方各级政府、地方金融监管部门、金融机构动态跟踪政策执行情况，总结经验做法，梳理存在问题，及时研究提出政策建议。国务院有关部门要加强政策解读和宣传培训，按职责加大政策执行情况监督力度，尤其要对将专项债券作为资本金的项目加强跟踪评估，重大事项及时按程序请示报告。"
21 |   }
22 | ]
23 | 


--------------------------------------------------------------------------------
/data/preprocess_data/国务院关于加强地方政府性债务管理的意见.json:
--------------------------------------------------------------------------------
 1 | [
 2 |   {
 3 |     "file_name": "国务院关于加强地方政府性债务管理的意见.docx",
 4 |     "part_content": "一、总体要求\n（一）指导思想。以邓小平理论、“三个代表”重要思想、科学发展观为指导，全面贯彻落实党的十八大、十八届三中全会精神，按照党中央、国务院决策部署，建立“借、用、还”相统一的地方政府性债务管理机制，有效发挥地方政府规范举债的积极作用，切实防范化解财政金融风险，促进国民经济持续健康发展。\n　　（二）基本原则。\n　　疏堵结合。修明渠、堵暗道，赋予地方政府依法适度举债融资权限，加快建立规范的地方政府举债融资机制。同时，坚决制止地方政府违法违规举债。\n　　分清责任。明确政府和企业的责任，政府债务不得通过企业举借，企业债务不得推给政府偿还，切实做到谁借谁还、风险自担。政府与社会资本合作的，按约定规则依法承担相关责任。\n　　规范管理。对地方政府债务实行规模控制，严格限定政府举债程序和资金用途，把地方政府债务分门别类纳入全口径预算管理，实现“借、用、还”相统一。\n　　防范风险。牢牢守住不发生区域性和系统性风险的底线，切实防范和化解财政金融风险。\n　　稳步推进。加强债务管理，既要积极推进，又要谨慎稳健。在规范管理的同时，要妥善处理存量债务，确保在建项目有序推进。"
 5 |   },
 6 |   {
 7 |     "file_name": "国务院关于加强地方政府性债务管理的意见.docx",
 8 |     "part_content": "二、加快建立规范的地方政府举债融资机制\n（一）赋予地方政府依法适度举债权限。经国务院批准，省、自治区、直辖市政府可以适度举借债务，市县级政府确需举借债务的由省、自治区、直辖市政府代为举借。明确划清政府与企业界限，政府债务只能通过政府及其部门举借，不得通过企事业单位等举借。\n　　（二）建立规范的地方政府举债融资机制。地方政府举债采取政府债券方式。没有收益的公益性事业发展确需政府举借一般债务的，由地方政府发行一般债券融资，主要以一般公共预算收入偿还。有一定收益的公益性事业发展确需政府举借专项债务的，由地方政府通过发行专项债券融资，以对应的政府性基金或专项收入偿还。\n　　（三）推广使用政府与社会资本合作模式。鼓励社会资本通过特许经营等方式，参与城市基础设施等有一定收益的公益性事业投资和运营。政府通过特许经营权、合理定价、财政补贴等事先公开的收益约定规则，使投资者有长期稳定收益。投资者按照市场化原则出资，按约定规则独自或与政府共同成立特别目的公司建设和运营合作项目。投资者或特别目的公司可以通过银行贷款、企业债、项目收益债券、资产证券化等市场化方式举债并承担偿债责任。政府对投资者或特别目的公司按约定规则依法承担特许经营权、合理定价、财政补贴等相关责任，不承担投资者或特别目的公司的偿债责任。\n　　（四）加强政府或有债务监管。剥离融资平台公司政府融资职能，融资平台公司不得新增政府债务。地方政府新发生或有债务，要严格限定在依法担保的范围内，并根据担保合同依法承担相关责任。地方政府要加强对或有债务的统计分析和风险防控，做好相关监管工作。"
 9 |   },
10 |   {
11 |     "file_name": "国务院关于加强地方政府性债务管理的意见.docx",
12 |     "part_content": "三、对地方政府债务实行规模控制和预算管理\n（一）对地方政府债务实行规模控制。地方政府债务规模实行限额管理，地方政府举债不得突破批准的限额。地方政府一般债务和专项债务规模纳入限额管理，由国务院确定并报全国人大或其常委会批准，分地区限额由财政部在全国人大或其常委会批准的地方政府债务规模内根据各地区债务风险、财力状况等因素测算并报国务院批准。\n　　（二）严格限定地方政府举债程序和资金用途。地方政府在国务院批准的分地区限额内举借债务，必须报本级人大或其常委会批准。地方政府不得通过企事业单位等举借债务。地方政府举借债务要遵循市场化原则。建立地方政府信用评级制度，逐步完善地方政府债券市场。地方政府举借的债务，只能用于公益性资本支出和适度归还存量债务，不得用于经常性支出。\n　　（三）把地方政府债务分门别类纳入全口径预算管理。地方政府要将一般债务收支纳入一般公共预算管理，将专项债务收支纳入政府性基金预算管理，将政府与社会资本合作项目中的财政补贴等支出按性质纳入相应政府预算管理。地方政府各部门、各单位要将债务收支纳入部门和单位预算管理。或有债务确需地方政府或其部门、单位依法承担偿债责任的，偿债资金要纳入相应预算管理。"
13 |   },
14 |   {
15 |     "file_name": "国务院关于加强地方政府性债务管理的意见.docx",
16 |     "part_content": "四、控制和化解地方政府性债务风险\n（一）建立地方政府性债务风险预警机制。财政部根据各地区一般债务、专项债务、或有债务等情况，测算债务率、新增债务率、偿债率、逾期债务率等指标，评估各地区债务风险状况，对债务高风险地区进行风险预警。列入风险预警范围的债务高风险地区，要积极采取措施，逐步降低风险。债务风险相对较低的地区，要合理控制债务余额的规模和增长速度。\n　　（二）建立债务风险应急处置机制。要硬化预算约束，防范道德风险，地方政府对其举借的债务负有偿还责任，中央政府实行不救助原则。各级政府要制定应急处置预案，建立责任追究机制。地方政府出现偿债困难时，要通过控制项目规模、压缩公用经费、处置存量资产等方式，多渠道筹集资金偿还债务。地方政府难以自行偿还债务时，要及时上报，本级和上级政府要启动债务风险应急处置预案和责任追究机制，切实化解债务风险，并追究相关人员责任。\n　　（三）严肃财经纪律。建立对违法违规融资和违规使用政府性债务资金的惩罚机制，加大对地方政府性债务管理的监督检查力度。地方政府及其所属部门不得在预算之外违法违规举借债务，不得以支持公益性事业发展名义举借债务用于经常性支出或楼堂馆所建设，不得挪用债务资金或改变既定资金用途；对企业的注资、财政补贴等行为必须依法合规，不得违法为任何单位和个人的债务以任何方式提供担保；不得违规干预金融机构等正常经营活动，不得强制金融机构等提供政府性融资。地方政府要进一步规范土地出让管理，坚决制止违法违规出让土地及融资行为。"
17 |   },
18 |   {
19 |     "file_name": "国务院关于加强地方政府性债务管理的意见.docx",
20 |     "part_content": "五、完善配套制度\n（一）完善债务报告和公开制度。完善地方政府性债务统计报告制度，加快建立权责发生制的政府综合财务报告制度，全面反映政府的资产负债情况。对于中央出台的重大政策措施如棚户区改造等形成的政府性债务，应当单独统计、单独核算、单独检查、单独考核。建立地方政府性债务公开制度，加强政府信用体系建设。各地区要定期向社会公开政府性债务及其项目建设情况，自觉接受社会监督。\n　　（二）建立考核问责机制。把政府性债务作为一个硬指标纳入政绩考核。明确责任落实，各省、自治区、直辖市政府要对本地区地方政府性债务负责任。强化教育和考核，纠正不正确的政绩导向。对脱离实际过度举债、违法违规举债或担保、违规使用债务资金、恶意逃废债务等行为，要追究相关责任人责任。\n　　（三）强化债权人约束。金融机构等不得违法违规向地方政府提供融资，不得要求地方政府违法违规提供担保。金融机构等购买地方政府债券要符合监管规定，向属于政府或有债务举借主体的企业法人等提供融资要严格规范信贷管理，切实加强风险识别和风险管理。金融机构等违法违规提供政府性融资的，应自行承担相应损失，并按照商业银行法、银行业监督管理法等法律法规追究相关机构和人员的责任。"
21 |   },
22 |   {
23 |     "file_name": "国务院关于加强地方政府性债务管理的意见.docx",
24 |     "part_content": "六、妥善处理存量债务和在建项目后续融资\n（一）抓紧将存量债务纳入预算管理。以2013年政府性债务审计结果为基础，结合审计后债务增减变化情况，经债权人与债务人共同协商确认，对地方政府性债务存量进行甄别。对地方政府及其部门举借的债务，相应纳入一般债务和专项债务。对企事业单位举借的债务，凡属于政府应当偿还的债务，相应纳入一般债务和专项债务。地方政府将甄别后的政府存量债务逐级汇总上报国务院批准后，分类纳入预算管理。纳入预算管理的债务原有债权债务关系不变，偿债资金要按照预算管理要求规范管理。\n　　（二）积极降低存量债务利息负担。对甄别后纳入预算管理的地方政府存量债务，各地区可申请发行地方政府债券置换，以降低利息负担，优化期限结构，腾出更多资金用于重点项目建设。\n　　（三）妥善偿还存量债务。处置到期存量债务要遵循市场规则，减少行政干预。对项目自身运营收入能够按时还本付息的债务，应继续通过项目收入偿还。对项目自身运营收入不足以还本付息的债务，可以通过依法注入优质资产、加强经营管理、加大改革力度等措施，提高项目盈利能力，增强偿债能力。地方政府应指导和督促有关债务举借单位加强财务管理、拓宽偿债资金渠道、统筹安排偿债资金。对确需地方政府偿还的债务，地方政府要切实履行偿债责任，必要时可以处置政府资产偿还债务。对确需地方政府履行担保或救助责任的债务，地方政府要切实依法履行协议约定，作出妥善安排。有关债务举借单位和连带责任人要按照协议认真落实偿债责任，明确偿债时限，按时还本付息，不得单方面改变原有债权债务关系，不得转嫁偿债责任和逃废债务。对确已形成损失的存量债务，债权人应按照商业化原则承担相应责任和损失。\n　　（四）确保在建项目后续融资。地方政府要统筹各类资金，优先保障在建项目续建和收尾。对使用债务资金的在建项目，原贷款银行等要重新进行审核，凡符合国家有关规定的项目，要继续按协议提供贷款，推进项目建设；对在建项目确实没有其他建设资金来源的，应主要通过政府与社会资本合作模式和地方政府债券解决后续融资。"
25 |   },
26 |   {
27 |     "file_name": "国务院关于加强地方政府性债务管理的意见.docx",
28 |     "part_content": "七、加强组织领导\n各地区、各部门要高度重视，把思想和行动统一到党中央、国务院决策部署上来。地方政府要切实担负起加强地方政府性债务管理、防范化解财政金融风险的责任，结合实际制定具体方案，政府主要负责人要作为第一责任人，认真抓好政策落实。要建立地方政府性债务协调机制，统筹加强地方政府性债务管理。财政部门作为地方政府性债务归口管理部门，要完善债务管理制度，充实债务管理力量，做好债务规模控制、债券发行、预算管理、统计分析和风险监控等工作；发展改革部门要加强政府投资计划管理和项目审批，从严审批债务风险较高地区的新开工项目；金融监管部门要加强监管、正确引导，制止金融机构等违法违规提供融资；审计部门要依法加强对地方政府性债务的审计监督，促进完善债务管理制度，防范风险，规范管理，提高资金使用效益。各地区、各部门要切实履行职责，加强协调配合，全面做好加强地方政府性债务管理各项工作，确保政策贯彻落实到位。"
29 |   }
30 | ]
31 | 


--------------------------------------------------------------------------------
/llm/llm_server.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | 
 5 | import uvicorn
 6 | 
 7 | from llmtuner.api.app import create_app
 8 | from llmtuner.chat import ChatModel
 9 | 
10 | 
11 | def main():
12 |     chat_model = ChatModel()
13 |     app = create_app(chat_model)
14 |     api_host = os.environ.get("API_HOST", "0.0.0.0")
15 |     api_port = int(os.environ.get("API_PORT", "5000"))
16 |     print("Visit http://localhost:{}/docs for API document.".format(api_port))
17 |     uvicorn.run(app, host=api_host, port=api_port)
18 | 
19 | 
20 | if __name__ == "__main__":
21 |     main()
22 | 


--------------------------------------------------------------------------------
/llm/llmtuner/api/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/llm/llmtuner/api/__init__.py


--------------------------------------------------------------------------------
/llm/llmtuner/api/app.py:
--------------------------------------------------------------------------------
  1 | import os
  2 | from contextlib import asynccontextmanager
  3 | from typing import Optional
  4 | 
  5 | from typing_extensions import Annotated
  6 | 
  7 | from ..chat import ChatModel
  8 | from ..extras.misc import torch_gc
  9 | from ..extras.packages import is_fastapi_available, is_starlette_available, is_uvicorn_available
 10 | from .chat import (
 11 |     create_chat_completion_response,
 12 |     create_score_evaluation_response,
 13 |     create_stream_chat_completion_response,
 14 | )
 15 | from .protocol import (
 16 |     ChatCompletionRequest,
 17 |     ChatCompletionResponse,
 18 |     ModelCard,
 19 |     ModelList,
 20 |     ScoreEvaluationRequest,
 21 |     ScoreEvaluationResponse,
 22 | )
 23 | 
 24 | 
 25 | if is_fastapi_available():
 26 |     from fastapi import Depends, FastAPI, HTTPException, status
 27 |     from fastapi.middleware.cors import CORSMiddleware
 28 |     from fastapi.security.http import HTTPAuthorizationCredentials, HTTPBearer
 29 | 
 30 | 
 31 | if is_starlette_available():
 32 |     from sse_starlette import EventSourceResponse
 33 | 
 34 | 
 35 | if is_uvicorn_available():
 36 |     import uvicorn
 37 | 
 38 | 
 39 | @asynccontextmanager
 40 | async def lifespan(app: "FastAPI"):  # collects GPU memory
 41 |     yield
 42 |     torch_gc()
 43 | 
 44 | 
 45 | def create_app(chat_model: "ChatModel") -> "FastAPI":
 46 |     app = FastAPI(lifespan=lifespan)
 47 |     app.add_middleware(
 48 |         CORSMiddleware,
 49 |         allow_origins=["*"],
 50 |         allow_credentials=True,
 51 |         allow_methods=["*"],
 52 |         allow_headers=["*"],
 53 |     )
 54 |     api_key = os.environ.get("API_KEY", None)
 55 |     security = HTTPBearer(auto_error=False)
 56 | 
 57 |     async def verify_api_key(auth: Annotated[Optional[HTTPAuthorizationCredentials], Depends(security)]):
 58 |         if api_key and (auth is None or auth.credentials != api_key):
 59 |             raise HTTPException(status_code=status.HTTP_401_UNAUTHORIZED, detail="Invalid API key.")
 60 | 
 61 |     @app.get(
 62 |         "/v1/models",
 63 |         response_model=ModelList,
 64 |         status_code=status.HTTP_200_OK,
 65 |         dependencies=[Depends(verify_api_key)],
 66 |     )
 67 |     async def list_models():
 68 |         model_card = ModelCard(id="gpt-3.5-turbo")
 69 |         return ModelList(data=[model_card])
 70 | 
 71 |     @app.post(
 72 |         "/v1/chat/completions",
 73 |         response_model=ChatCompletionResponse,
 74 |         status_code=status.HTTP_200_OK,
 75 |         dependencies=[Depends(verify_api_key)],
 76 |     )
 77 |     async def create_chat_completion(request: ChatCompletionRequest):
 78 |         if not chat_model.engine.can_generate:
 79 |             raise HTTPException(status_code=status.HTTP_405_METHOD_NOT_ALLOWED, detail="Not allowed")
 80 | 
 81 |         if request.stream:
 82 |             generate = create_stream_chat_completion_response(request, chat_model)
 83 |             return EventSourceResponse(generate, media_type="text/event-stream")
 84 |         else:
 85 |             return await create_chat_completion_response(request, chat_model)
 86 | 
 87 |     @app.post(
 88 |         "/v1/score/evaluation",
 89 |         response_model=ScoreEvaluationResponse,
 90 |         status_code=status.HTTP_200_OK,
 91 |         dependencies=[Depends(verify_api_key)],
 92 |     )
 93 |     async def create_score_evaluation(request: ScoreEvaluationRequest):
 94 |         if chat_model.engine.can_generate:
 95 |             raise HTTPException(status_code=status.HTTP_405_METHOD_NOT_ALLOWED, detail="Not allowed")
 96 | 
 97 |         return await create_score_evaluation_response(request, chat_model)
 98 | 
 99 |     return app
100 | 
101 | 
102 | def run_api() -> None:
103 |     chat_model = ChatModel()
104 |     app = create_app(chat_model)
105 |     api_host = os.environ.get("API_HOST", "0.0.0.0")
106 |     api_port = int(os.environ.get("API_PORT", "8000"))
107 |     print("Visit http://localhost:{}/docs for API document.".format(api_port))
108 |     uvicorn.run(app, host=api_host, port=api_port)
109 | 


--------------------------------------------------------------------------------
/llm/llmtuner/api/common.py:
--------------------------------------------------------------------------------
 1 | import json
 2 | from typing import TYPE_CHECKING, Any, Dict
 3 | 
 4 | 
 5 | if TYPE_CHECKING:
 6 |     from pydantic import BaseModel
 7 | 
 8 | 
 9 | def dictify(data: "BaseModel") -> Dict[str, Any]:
10 |     try:  # pydantic v2
11 |         return data.model_dump(exclude_unset=True)
12 |     except AttributeError:  # pydantic v1
13 |         return data.dict(exclude_unset=True)
14 | 
15 | 
16 | def jsonify(data: "BaseModel") -> str:
17 |     try:  # pydantic v2
18 |         return json.dumps(data.model_dump(exclude_unset=True), ensure_ascii=False)
19 |     except AttributeError:  # pydantic v1
20 |         return data.json(exclude_unset=True, ensure_ascii=False)
21 | 


--------------------------------------------------------------------------------
/llm/llmtuner/api/protocol.py:
--------------------------------------------------------------------------------
  1 | import time
  2 | from enum import Enum, unique
  3 | from typing import Any, Dict, List, Optional, Union
  4 | 
  5 | from pydantic import BaseModel, Field
  6 | from typing_extensions import Literal
  7 | 
  8 | 
  9 | @unique
 10 | class Role(str, Enum):
 11 |     USER = "user"
 12 |     ASSISTANT = "assistant"
 13 |     SYSTEM = "system"
 14 |     FUNCTION = "function"
 15 |     TOOL = "tool"
 16 | 
 17 | 
 18 | @unique
 19 | class Finish(str, Enum):
 20 |     STOP = "stop"
 21 |     LENGTH = "length"
 22 |     TOOL = "tool_calls"
 23 | 
 24 | 
 25 | class ModelCard(BaseModel):
 26 |     id: str
 27 |     object: Literal["model"] = "model"
 28 |     created: int = Field(default_factory=lambda: int(time.time()))
 29 |     owned_by: Literal["owner"] = "owner"
 30 | 
 31 | 
 32 | class ModelList(BaseModel):
 33 |     object: Literal["list"] = "list"
 34 |     data: List[ModelCard] = []
 35 | 
 36 | 
 37 | class Function(BaseModel):
 38 |     name: str
 39 |     arguments: str
 40 | 
 41 | 
 42 | class FunctionDefinition(BaseModel):
 43 |     name: str
 44 |     description: str
 45 |     parameters: Dict[str, Any]
 46 | 
 47 | 
 48 | class FunctionAvailable(BaseModel):
 49 |     type: Literal["function", "code_interpreter"] = "function"
 50 |     function: Optional[FunctionDefinition] = None
 51 | 
 52 | 
 53 | class FunctionCall(BaseModel):
 54 |     id: str
 55 |     type: Literal["function"] = "function"
 56 |     function: Function
 57 | 
 58 | 
 59 | class ChatMessage(BaseModel):
 60 |     role: Role
 61 |     content: Optional[str] = None
 62 |     tool_calls: Optional[List[FunctionCall]] = None
 63 | 
 64 | 
 65 | class ChatCompletionMessage(BaseModel):
 66 |     role: Optional[Role] = None
 67 |     content: Optional[str] = None
 68 |     tool_calls: Optional[List[FunctionCall]] = None
 69 | 
 70 | 
 71 | class ChatCompletionRequest(BaseModel):
 72 |     model: str
 73 |     messages: List[ChatMessage]
 74 |     tools: Optional[List[FunctionAvailable]] = None
 75 |     do_sample: bool = True
 76 |     temperature: Optional[float] = None
 77 |     top_p: Optional[float] = None
 78 |     n: int = 1
 79 |     max_tokens: Optional[int] = None
 80 |     stop: Optional[Union[str, List[str]]] = None
 81 |     stream: bool = False
 82 | 
 83 | 
 84 | class ChatCompletionResponseChoice(BaseModel):
 85 |     index: int
 86 |     message: ChatCompletionMessage
 87 |     finish_reason: Finish
 88 | 
 89 | 
 90 | class ChatCompletionStreamResponseChoice(BaseModel):
 91 |     index: int
 92 |     delta: ChatCompletionMessage
 93 |     finish_reason: Optional[Finish] = None
 94 | 
 95 | 
 96 | class ChatCompletionResponseUsage(BaseModel):
 97 |     prompt_tokens: int
 98 |     completion_tokens: int
 99 |     total_tokens: int
100 | 
101 | 
102 | class ChatCompletionResponse(BaseModel):
103 |     id: str
104 |     object: Literal["chat.completion"] = "chat.completion"
105 |     created: int = Field(default_factory=lambda: int(time.time()))
106 |     model: str
107 |     choices: List[ChatCompletionResponseChoice]
108 |     usage: ChatCompletionResponseUsage
109 | 
110 | 
111 | class ChatCompletionStreamResponse(BaseModel):
112 |     id: str
113 |     object: Literal["chat.completion.chunk"] = "chat.completion.chunk"
114 |     created: int = Field(default_factory=lambda: int(time.time()))
115 |     model: str
116 |     choices: List[ChatCompletionStreamResponseChoice]
117 | 
118 | 
119 | class ScoreEvaluationRequest(BaseModel):
120 |     model: str
121 |     messages: List[str]
122 |     max_length: Optional[int] = None
123 | 
124 | 
125 | class ScoreEvaluationResponse(BaseModel):
126 |     id: str
127 |     object: Literal["score.evaluation"] = "score.evaluation"
128 |     model: str
129 |     scores: List[float]
130 | 


--------------------------------------------------------------------------------
/llm/llmtuner/chat/__init__.py:
--------------------------------------------------------------------------------
1 | from .base_engine import BaseEngine
2 | from .chat_model import ChatModel
3 | 
4 | 
5 | __all__ = ["BaseEngine", "ChatModel"]
6 | 


--------------------------------------------------------------------------------
/llm/llmtuner/chat/base_engine.py:
--------------------------------------------------------------------------------
 1 | from abc import ABC, abstractmethod
 2 | from dataclasses import dataclass
 3 | from typing import TYPE_CHECKING, Any, AsyncGenerator, Dict, List, Literal, Optional, Sequence, Union
 4 | 
 5 | 
 6 | if TYPE_CHECKING:
 7 |     from numpy.typing import NDArray
 8 |     from transformers import PreTrainedModel, PreTrainedTokenizer
 9 |     from vllm import AsyncLLMEngine
10 | 
11 |     from ..data import Template
12 |     from ..hparams import DataArguments, FinetuningArguments, GeneratingArguments, ModelArguments
13 | 
14 | 
15 | @dataclass
16 | class Response:
17 |     response_text: str
18 |     response_length: int
19 |     prompt_length: int
20 |     finish_reason: Literal["stop", "length"]
21 | 
22 | 
23 | class BaseEngine(ABC):
24 |     model: Union["PreTrainedModel", "AsyncLLMEngine"]
25 |     tokenizer: "PreTrainedTokenizer"
26 |     can_generate: bool
27 |     template: "Template"
28 |     generating_args: Dict[str, Any]
29 | 
30 |     @abstractmethod
31 |     def __init__(
32 |         self,
33 |         model_args: "ModelArguments",
34 |         data_args: "DataArguments",
35 |         finetuning_args: "FinetuningArguments",
36 |         generating_args: "GeneratingArguments",
37 |     ) -> None: ...
38 | 
39 |     @abstractmethod
40 |     async def start(
41 |         self,
42 |     ) -> None: ...
43 | 
44 |     @abstractmethod
45 |     async def chat(
46 |         self,
47 |         messages: Sequence[Dict[str, str]],
48 |         system: Optional[str] = None,
49 |         tools: Optional[str] = None,
50 |         image: Optional["NDArray"] = None,
51 |         **input_kwargs,
52 |     ) -> List["Response"]: ...
53 | 
54 |     @abstractmethod
55 |     async def stream_chat(
56 |         self,
57 |         messages: Sequence[Dict[str, str]],
58 |         system: Optional[str] = None,
59 |         tools: Optional[str] = None,
60 |         image: Optional["NDArray"] = None,
61 |         **input_kwargs,
62 |     ) -> AsyncGenerator[str, None]: ...
63 | 
64 |     @abstractmethod
65 |     async def get_scores(
66 |         self,
67 |         batch_input: List[str],
68 |         **input_kwargs,
69 |     ) -> List[float]: ...
70 | 


--------------------------------------------------------------------------------
/llm/llmtuner/chat/chat_model.py:
--------------------------------------------------------------------------------
  1 | import asyncio
  2 | from threading import Thread
  3 | from typing import TYPE_CHECKING, Any, AsyncGenerator, Dict, Generator, List, Optional, Sequence
  4 | 
  5 | from ..extras.misc import torch_gc
  6 | from ..hparams import get_infer_args
  7 | from .hf_engine import HuggingfaceEngine
  8 | from .vllm_engine import VllmEngine
  9 | 
 10 | 
 11 | if TYPE_CHECKING:
 12 |     from numpy.typing import NDArray
 13 | 
 14 |     from .base_engine import BaseEngine, Response
 15 | 
 16 | 
 17 | def _start_background_loop(loop: asyncio.AbstractEventLoop) -> None:
 18 |     asyncio.set_event_loop(loop)
 19 |     loop.run_forever()
 20 | 
 21 | 
 22 | class ChatModel:
 23 |     def __init__(self, args: Optional[Dict[str, Any]] = None) -> None:
 24 |         model_args, data_args, finetuning_args, generating_args = get_infer_args(args)
 25 |         if model_args.infer_backend == "huggingface":
 26 |             self.engine: "BaseEngine" = HuggingfaceEngine(model_args, data_args, finetuning_args, generating_args)
 27 |         elif model_args.infer_backend == "vllm":
 28 |             self.engine: "BaseEngine" = VllmEngine(model_args, data_args, finetuning_args, generating_args)
 29 |         else:
 30 |             raise NotImplementedError("Unknown backend: {}".format(model_args.infer_backend))
 31 | 
 32 |         self._loop = asyncio.new_event_loop()
 33 |         self._thread = Thread(target=_start_background_loop, args=(self._loop,), daemon=True)
 34 |         self._thread.start()
 35 |         asyncio.run_coroutine_threadsafe(self.engine.start(), self._loop)
 36 | 
 37 |     def chat(
 38 |         self,
 39 |         messages: Sequence[Dict[str, str]],
 40 |         system: Optional[str] = None,
 41 |         tools: Optional[str] = None,
 42 |         image: Optional["NDArray"] = None,
 43 |         **input_kwargs,
 44 |     ) -> List["Response"]:
 45 |         task = asyncio.run_coroutine_threadsafe(self.achat(messages, system, tools, image, **input_kwargs), self._loop)
 46 |         return task.result()
 47 | 
 48 |     async def achat(
 49 |         self,
 50 |         messages: Sequence[Dict[str, str]],
 51 |         system: Optional[str] = None,
 52 |         tools: Optional[str] = None,
 53 |         image: Optional["NDArray"] = None,
 54 |         **input_kwargs,
 55 |     ) -> List["Response"]:
 56 |         return await self.engine.chat(messages, system, tools, image, **input_kwargs)
 57 | 
 58 |     def stream_chat(
 59 |         self,
 60 |         messages: Sequence[Dict[str, str]],
 61 |         system: Optional[str] = None,
 62 |         tools: Optional[str] = None,
 63 |         image: Optional["NDArray"] = None,
 64 |         **input_kwargs,
 65 |     ) -> Generator[str, None, None]:
 66 |         generator = self.astream_chat(messages, system, tools, image, **input_kwargs)
 67 |         while True:
 68 |             try:
 69 |                 task = asyncio.run_coroutine_threadsafe(generator.__anext__(), self._loop)
 70 |                 yield task.result()
 71 |             except StopAsyncIteration:
 72 |                 break
 73 | 
 74 |     async def astream_chat(
 75 |         self,
 76 |         messages: Sequence[Dict[str, str]],
 77 |         system: Optional[str] = None,
 78 |         tools: Optional[str] = None,
 79 |         image: Optional["NDArray"] = None,
 80 |         **input_kwargs,
 81 |     ) -> AsyncGenerator[str, None]:
 82 |         async for new_token in self.engine.stream_chat(messages, system, tools, image, **input_kwargs):
 83 |             yield new_token
 84 | 
 85 |     def get_scores(
 86 |         self,
 87 |         batch_input: List[str],
 88 |         **input_kwargs,
 89 |     ) -> List[float]:
 90 |         task = asyncio.run_coroutine_threadsafe(self.aget_scores(batch_input, **input_kwargs), self._loop)
 91 |         return task.result()
 92 | 
 93 |     async def aget_scores(
 94 |         self,
 95 |         batch_input: List[str],
 96 |         **input_kwargs,
 97 |     ) -> List[float]:
 98 |         return await self.engine.get_scores(batch_input, **input_kwargs)
 99 | 
100 | 
101 | def run_chat() -> None:
102 |     try:
103 |         import platform
104 | 
105 |         if platform.system() != "Windows":
106 |             import readline  # noqa: F401
107 |     except ImportError:
108 |         print("Install `readline` for a better experience.")
109 | 
110 |     chat_model = ChatModel()
111 |     messages = []
112 |     print("Welcome to the CLI application, use `clear` to remove the history, use `exit` to exit the application.")
113 | 
114 |     while True:
115 |         try:
116 |             query = input("\nUser: ")
117 |         except UnicodeDecodeError:
118 |             print("Detected decoding error at the inputs, please set the terminal encoding to utf-8.")
119 |             continue
120 |         except Exception:
121 |             raise
122 | 
123 |         if query.strip() == "exit":
124 |             break
125 | 
126 |         if query.strip() == "clear":
127 |             messages = []
128 |             torch_gc()
129 |             print("History has been removed.")
130 |             continue
131 | 
132 |         messages.append({"role": "user", "content": query})
133 |         print("Assistant: ", end="", flush=True)
134 | 
135 |         response = ""
136 |         for new_text in chat_model.stream_chat(messages):
137 |             print(new_text, end="", flush=True)
138 |             response += new_text
139 |         print()
140 |         messages.append({"role": "assistant", "content": response})
141 | 


--------------------------------------------------------------------------------
/llm/llmtuner/data/__init__.py:
--------------------------------------------------------------------------------
 1 | from .collator import PairwiseDataCollatorWithPadding
 2 | from .loader import get_dataset
 3 | from .template import Template, get_template_and_fix_tokenizer, templates
 4 | from .utils import Role, split_dataset
 5 | 
 6 | 
 7 | __all__ = [
 8 |     "PairwiseDataCollatorWithPadding",
 9 |     "get_dataset",
10 |     "Template",
11 |     "get_template_and_fix_tokenizer",
12 |     "templates",
13 |     "Role",
14 |     "split_dataset",
15 | ]
16 | 


--------------------------------------------------------------------------------
/llm/llmtuner/data/collator.py:
--------------------------------------------------------------------------------
 1 | from dataclasses import dataclass
 2 | from typing import Any, Dict, List, Sequence, Tuple
 3 | 
 4 | import torch
 5 | from transformers import DataCollatorForSeq2Seq
 6 | 
 7 | 
 8 | @dataclass
 9 | class PairwiseDataCollatorWithPadding(DataCollatorForSeq2Seq):
10 |     r"""
11 |     Data collator for pairwise data.
12 |     """
13 | 
14 |     def _pad_labels(self, batch: torch.Tensor, positions: List[Tuple[int, int]]) -> torch.Tensor:
15 |         r"""
16 |         Masks out the input ids except for the responses.
17 |         """
18 |         padded_labels = []
19 |         for feature, (prompt_len, answer_len) in zip(batch, positions):
20 |             if self.tokenizer.padding_side == "left":
21 |                 start, end = feature.size(0) - answer_len, feature.size(0)
22 |             else:
23 |                 start, end = prompt_len, prompt_len + answer_len
24 |             padded_tensor = self.label_pad_token_id * torch.ones_like(feature)
25 |             padded_tensor[start:end] = feature[start:end]
26 |             padded_labels.append(padded_tensor)
27 |         return torch.stack(padded_labels, dim=0).contiguous()  # in contiguous memory
28 | 
29 |     def __call__(self, features: Sequence[Dict[str, Any]]) -> Dict[str, torch.Tensor]:
30 |         r"""
31 |         Pads batched data to the longest sequence in the batch.
32 | 
33 |         We generate 2 * n examples where the first n examples represent chosen examples and
34 |         the last n examples represent rejected examples.
35 |         """
36 |         concatenated_features = []
37 |         label_positions = []
38 |         for key in ("chosen_ids", "rejected_ids"):
39 |             for feature in features:
40 |                 prompt_len, answer_len = len(feature["prompt_ids"]), len(feature[key])
41 |                 concatenated_features.append(
42 |                     {
43 |                         "input_ids": feature["prompt_ids"] + feature[key],
44 |                         "attention_mask": [1] * (prompt_len + answer_len),
45 |                     }
46 |                 )
47 |                 label_positions.append((prompt_len, answer_len))
48 | 
49 |         batch = super().__call__(concatenated_features)
50 |         batch["labels"] = self._pad_labels(batch["input_ids"], label_positions)
51 |         return batch
52 | 


--------------------------------------------------------------------------------
/llm/llmtuner/data/parser.py:
--------------------------------------------------------------------------------
  1 | import json
  2 | import os
  3 | from dataclasses import dataclass
  4 | from typing import TYPE_CHECKING, Any, Dict, List, Literal, Optional
  5 | 
  6 | from ..extras.constants import DATA_CONFIG
  7 | from ..extras.misc import use_modelscope
  8 | 
  9 | 
 10 | if TYPE_CHECKING:
 11 |     from ..hparams import DataArguments
 12 | 
 13 | 
 14 | @dataclass
 15 | class DatasetAttr:
 16 |     r"""
 17 |     Dataset attributes.
 18 |     """
 19 | 
 20 |     """ basic configs """
 21 |     load_from: Literal["hf_hub", "ms_hub", "script", "file"]
 22 |     dataset_name: str
 23 |     """ extra configs """
 24 |     subset: Optional[str] = None
 25 |     folder: Optional[str] = None
 26 |     ranking: bool = False
 27 |     formatting: Literal["alpaca", "sharegpt"] = "alpaca"
 28 |     """ columns """
 29 |     system: Optional[str] = None
 30 |     images: Optional[str] = None
 31 |     """ columns for the alpaca format """
 32 |     prompt: Optional[str] = "instruction"
 33 |     query: Optional[str] = "input"
 34 |     response: Optional[str] = "output"
 35 |     history: Optional[str] = None
 36 |     """ columns for the sharegpt format """
 37 |     messages: Optional[str] = "conversations"
 38 |     tools: Optional[str] = None
 39 |     """ tags for the sharegpt format """
 40 |     role_tag: Optional[str] = "from"
 41 |     content_tag: Optional[str] = "value"
 42 |     user_tag: Optional[str] = "human"
 43 |     assistant_tag: Optional[str] = "gpt"
 44 |     observation_tag: Optional[str] = "observation"
 45 |     function_tag: Optional[str] = "function_call"
 46 |     system_tag: Optional[str] = "system"
 47 | 
 48 |     def __repr__(self) -> str:
 49 |         return self.dataset_name
 50 | 
 51 |     def set_attr(self, key: str, obj: Dict[str, Any], default: Optional[Any] = None) -> None:
 52 |         setattr(self, key, obj.get(key, default))
 53 | 
 54 | 
 55 | def get_dataset_list(data_args: "DataArguments") -> List["DatasetAttr"]:
 56 |     if data_args.dataset is not None:
 57 |         dataset_names = [ds.strip() for ds in data_args.dataset.split(",")]
 58 |     else:
 59 |         dataset_names = []
 60 | 
 61 |     if data_args.dataset_dir == "ONLINE":
 62 |         dataset_info = None
 63 |     else:
 64 |         try:
 65 |             with open(os.path.join(data_args.dataset_dir, DATA_CONFIG), "r") as f:
 66 |                 dataset_info = json.load(f)
 67 |         except Exception as err:
 68 |             if len(dataset_names) != 0:
 69 |                 raise ValueError(
 70 |                     "Cannot open {} due to {}.".format(os.path.join(data_args.dataset_dir, DATA_CONFIG), str(err))
 71 |                 )
 72 |             dataset_info = None
 73 | 
 74 |     if data_args.interleave_probs is not None:
 75 |         data_args.interleave_probs = [float(prob.strip()) for prob in data_args.interleave_probs.split(",")]
 76 | 
 77 |     dataset_list: List[DatasetAttr] = []
 78 |     for name in dataset_names:
 79 |         if dataset_info is None:
 80 |             load_from = "ms_hub" if use_modelscope() else "hf_hub"
 81 |             dataset_attr = DatasetAttr(load_from, dataset_name=name)
 82 |             dataset_list.append(dataset_attr)
 83 |             continue
 84 | 
 85 |         if name not in dataset_info:
 86 |             raise ValueError("Undefined dataset {} in {}.".format(name, DATA_CONFIG))
 87 | 
 88 |         has_hf_url = "hf_hub_url" in dataset_info[name]
 89 |         has_ms_url = "ms_hub_url" in dataset_info[name]
 90 | 
 91 |         if has_hf_url or has_ms_url:
 92 |             if (use_modelscope() and has_ms_url) or (not has_hf_url):
 93 |                 dataset_attr = DatasetAttr("ms_hub", dataset_name=dataset_info[name]["ms_hub_url"])
 94 |             else:
 95 |                 dataset_attr = DatasetAttr("hf_hub", dataset_name=dataset_info[name]["hf_hub_url"])
 96 |         elif "script_url" in dataset_info[name]:
 97 |             dataset_attr = DatasetAttr("script", dataset_name=dataset_info[name]["script_url"])
 98 |         else:
 99 |             dataset_attr = DatasetAttr("file", dataset_name=dataset_info[name]["file_name"])
100 | 
101 |         dataset_attr.set_attr("subset", dataset_info[name])
102 |         dataset_attr.set_attr("folder", dataset_info[name])
103 |         dataset_attr.set_attr("ranking", dataset_info[name], default=False)
104 |         dataset_attr.set_attr("formatting", dataset_info[name], default="alpaca")
105 | 
106 |         if "columns" in dataset_info[name]:
107 |             column_names = ["system", "images"]
108 |             if dataset_attr.formatting == "alpaca":
109 |                 column_names.extend(["prompt", "query", "response", "history"])
110 |             else:
111 |                 column_names.extend(["messages", "tools"])
112 | 
113 |             for column_name in column_names:
114 |                 dataset_attr.set_attr(column_name, dataset_info[name]["columns"])
115 | 
116 |         if dataset_attr.formatting == "sharegpt" and "tags" in dataset_info[name]:
117 |             tag_names = (
118 |                 "role_tag",
119 |                 "content_tag",
120 |                 "user_tag",
121 |                 "assistant_tag",
122 |                 "observation_tag",
123 |                 "function_tag",
124 |                 "system_tag",
125 |             )
126 |             for tag in tag_names:
127 |                 dataset_attr.set_attr(tag, dataset_info[name]["tags"])
128 | 
129 |         dataset_list.append(dataset_attr)
130 | 
131 |     return dataset_list
132 | 


--------------------------------------------------------------------------------
/llm/llmtuner/data/utils.py:
--------------------------------------------------------------------------------
 1 | from enum import Enum, unique
 2 | from typing import TYPE_CHECKING, Dict, List, Tuple, Union
 3 | 
 4 | from datasets import concatenate_datasets, interleave_datasets
 5 | 
 6 | from ..extras.logging import get_logger
 7 | 
 8 | 
 9 | if TYPE_CHECKING:
10 |     from datasets import Dataset, IterableDataset
11 |     from transformers import Seq2SeqTrainingArguments
12 | 
13 |     from llmtuner.hparams import DataArguments
14 | 
15 | 
16 | logger = get_logger(__name__)
17 | 
18 | 
19 | @unique
20 | class Role(str, Enum):
21 |     USER = "user"
22 |     ASSISTANT = "assistant"
23 |     SYSTEM = "system"
24 |     FUNCTION = "function"
25 |     OBSERVATION = "observation"
26 | 
27 | 
28 | def infer_max_len(source_len: int, target_len: int, max_len: int, reserved_label_len: int) -> Tuple[int, int]:
29 |     max_target_len = int(max_len * (target_len / (source_len + target_len)))
30 |     max_target_len = max(max_target_len, reserved_label_len)
31 |     max_source_len = max_len - min(max_target_len, target_len)
32 |     return max_source_len, max_target_len
33 | 
34 | 
35 | def merge_dataset(
36 |     all_datasets: List[Union["Dataset", "IterableDataset"]],
37 |     data_args: "DataArguments",
38 |     training_args: "Seq2SeqTrainingArguments",
39 | ) -> Union["Dataset", "IterableDataset"]:
40 |     if len(all_datasets) == 1:
41 |         return all_datasets[0]
42 |     elif data_args.mix_strategy == "concat":
43 |         if data_args.streaming:
44 |             logger.warning("The samples between different datasets will not be mixed in streaming mode.")
45 |         return concatenate_datasets(all_datasets)
46 |     elif data_args.mix_strategy.startswith("interleave"):
47 |         if not data_args.streaming:
48 |             logger.warning("We recommend using `mix_strategy=concat` in non-streaming mode.")
49 |         return interleave_datasets(
50 |             datasets=all_datasets,
51 |             probabilities=data_args.interleave_probs,
52 |             seed=training_args.seed,
53 |             stopping_strategy="first_exhausted" if data_args.mix_strategy.endswith("under") else "all_exhausted",
54 |         )
55 |     else:
56 |         raise ValueError("Unknown mixing strategy.")
57 | 
58 | 
59 | def split_dataset(
60 |     dataset: Union["Dataset", "IterableDataset"], data_args: "DataArguments", training_args: "Seq2SeqTrainingArguments"
61 | ) -> Dict[str, "Dataset"]:
62 |     if training_args.do_train:
63 |         if data_args.val_size > 1e-6:  # Split the dataset
64 |             if data_args.streaming:
65 |                 dataset = dataset.shuffle(buffer_size=data_args.buffer_size, seed=training_args.seed)
66 |                 val_set = dataset.take(int(data_args.val_size))
67 |                 train_set = dataset.skip(int(data_args.val_size))
68 |                 return {"train_dataset": train_set, "eval_dataset": val_set}
69 |             else:
70 |                 val_size = int(data_args.val_size) if data_args.val_size > 1 else data_args.val_size
71 |                 dataset = dataset.train_test_split(test_size=val_size, seed=training_args.seed)
72 |                 return {"train_dataset": dataset["train"], "eval_dataset": dataset["test"]}
73 |         else:
74 |             if data_args.streaming:
75 |                 dataset = dataset.shuffle(buffer_size=data_args.buffer_size, seed=training_args.seed)
76 |             return {"train_dataset": dataset}
77 |     else:  # do_eval or do_predict
78 |         return {"eval_dataset": dataset}
79 | 


--------------------------------------------------------------------------------
/llm/llmtuner/extras/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/llm/llmtuner/extras/__init__.py


--------------------------------------------------------------------------------
/llm/llmtuner/extras/logging.py:
--------------------------------------------------------------------------------
 1 | import logging
 2 | import os
 3 | import sys
 4 | from concurrent.futures import ThreadPoolExecutor
 5 | 
 6 | from .constants import RUNNING_LOG
 7 | 
 8 | 
 9 | class LoggerHandler(logging.Handler):
10 |     r"""
11 |     Logger handler used in Web UI.
12 |     """
13 | 
14 |     def __init__(self, output_dir: str) -> None:
15 |         super().__init__()
16 |         formatter = logging.Formatter(
17 |             fmt="%(asctime)s - %(levelname)s - %(name)s - %(message)s", datefmt="%m/%d/%Y %H:%M:%S"
18 |         )
19 |         self.setLevel(logging.INFO)
20 |         self.setFormatter(formatter)
21 | 
22 |         os.makedirs(output_dir, exist_ok=True)
23 |         self.running_log = os.path.join(output_dir, RUNNING_LOG)
24 |         if os.path.exists(self.running_log):
25 |             os.remove(self.running_log)
26 | 
27 |         self.thread_pool = ThreadPoolExecutor(max_workers=1)
28 | 
29 |     def _write_log(self, log_entry: str) -> None:
30 |         with open(self.running_log, "a", encoding="utf-8") as f:
31 |             f.write(log_entry + "\n\n")
32 | 
33 |     def emit(self, record) -> None:
34 |         if record.name == "httpx":
35 |             return
36 | 
37 |         log_entry = self.format(record)
38 |         self.thread_pool.submit(self._write_log, log_entry)
39 | 
40 |     def close(self) -> None:
41 |         self.thread_pool.shutdown(wait=True)
42 |         return super().close()
43 | 
44 | 
45 | def get_logger(name: str) -> logging.Logger:
46 |     r"""
47 |     Gets a standard logger with a stream hander to stdout.
48 |     """
49 |     formatter = logging.Formatter(
50 |         fmt="%(asctime)s - %(levelname)s - %(name)s - %(message)s", datefmt="%m/%d/%Y %H:%M:%S"
51 |     )
52 |     handler = logging.StreamHandler(sys.stdout)
53 |     handler.setFormatter(formatter)
54 | 
55 |     logger = logging.getLogger(name)
56 |     logger.setLevel(logging.INFO)
57 |     logger.addHandler(handler)
58 | 
59 |     return logger
60 | 
61 | 
62 | def reset_logging() -> None:
63 |     r"""
64 |     Removes basic config of root logger. (unused in script)
65 |     """
66 |     root = logging.getLogger()
67 |     list(map(root.removeHandler, root.handlers))
68 |     list(map(root.removeFilter, root.filters))
69 | 


--------------------------------------------------------------------------------
/llm/llmtuner/extras/packages.py:
--------------------------------------------------------------------------------
 1 | import importlib.metadata
 2 | import importlib.util
 3 | from typing import TYPE_CHECKING
 4 | 
 5 | from packaging import version
 6 | 
 7 | 
 8 | if TYPE_CHECKING:
 9 |     from packaging.version import Version
10 | 
11 | 
12 | def _is_package_available(name: str) -> bool:
13 |     return importlib.util.find_spec(name) is not None
14 | 
15 | 
16 | def _get_package_version(name: str) -> "Version":
17 |     try:
18 |         return version.parse(importlib.metadata.version(name))
19 |     except Exception:
20 |         return version.parse("0.0.0")
21 | 
22 | 
23 | def is_fastapi_available():
24 |     return _is_package_available("fastapi")
25 | 
26 | 
27 | def is_flash_attn2_available():
28 |     return _is_package_available("flash_attn") and _get_package_version("flash_attn") > version.parse("2.0.0")
29 | 
30 | 
31 | def is_galore_available():
32 |     return _is_package_available("galore_torch")
33 | 
34 | 
35 | def is_gradio_available():
36 |     return _is_package_available("gradio")
37 | 
38 | 
39 | def is_jieba_available():
40 |     return _is_package_available("jieba")
41 | 
42 | 
43 | def is_matplotlib_available():
44 |     return _is_package_available("matplotlib")
45 | 
46 | 
47 | def is_nltk_available():
48 |     return _is_package_available("nltk")
49 | 
50 | 
51 | def is_pillow_available():
52 |     return _is_package_available("PIL")
53 | 
54 | 
55 | def is_requests_available():
56 |     return _is_package_available("requests")
57 | 
58 | 
59 | def is_rouge_available():
60 |     return _is_package_available("rouge_chinese")
61 | 
62 | 
63 | def is_sdpa_available():
64 |     return _get_package_version("torch") > version.parse("2.1.1")
65 | 
66 | 
67 | def is_starlette_available():
68 |     return _is_package_available("sse_starlette")
69 | 
70 | 
71 | def is_uvicorn_available():
72 |     return _is_package_available("uvicorn")
73 | 
74 | 
75 | def is_vllm_available():
76 |     return _is_package_available("vllm")
77 | 


--------------------------------------------------------------------------------
/llm/llmtuner/extras/ploting.py:
--------------------------------------------------------------------------------
 1 | import json
 2 | import math
 3 | import os
 4 | from typing import Any, Dict, List
 5 | 
 6 | from transformers.trainer import TRAINER_STATE_NAME
 7 | 
 8 | from .logging import get_logger
 9 | from .packages import is_matplotlib_available
10 | 
11 | 
12 | if is_matplotlib_available():
13 |     import matplotlib.figure
14 |     import matplotlib.pyplot as plt
15 | 
16 | 
17 | logger = get_logger(__name__)
18 | 
19 | 
20 | def smooth(scalars: List[float]) -> List[float]:
21 |     r"""
22 |     EMA implementation according to TensorBoard.
23 |     """
24 |     last = scalars[0]
25 |     smoothed = []
26 |     weight = 1.8 * (1 / (1 + math.exp(-0.05 * len(scalars))) - 0.5)  # a sigmoid function
27 |     for next_val in scalars:
28 |         smoothed_val = last * weight + (1 - weight) * next_val
29 |         smoothed.append(smoothed_val)
30 |         last = smoothed_val
31 |     return smoothed
32 | 
33 | 
34 | def gen_loss_plot(trainer_log: List[Dict[str, Any]]) -> "matplotlib.figure.Figure":
35 |     plt.close("all")
36 |     plt.switch_backend("agg")
37 |     fig = plt.figure()
38 |     ax = fig.add_subplot(111)
39 |     steps, losses = [], []
40 |     for log in trainer_log:
41 |         if log.get("loss", None):
42 |             steps.append(log["current_steps"])
43 |             losses.append(log["loss"])
44 | 
45 |     ax.plot(steps, losses, color="#1f77b4", alpha=0.4, label="original")
46 |     ax.plot(steps, smooth(losses), color="#1f77b4", label="smoothed")
47 |     ax.legend()
48 |     ax.set_xlabel("step")
49 |     ax.set_ylabel("loss")
50 |     return fig
51 | 
52 | 
53 | def plot_loss(save_dictionary: os.PathLike, keys: List[str] = ["loss"]) -> None:
54 |     plt.switch_backend("agg")
55 |     with open(os.path.join(save_dictionary, TRAINER_STATE_NAME), "r", encoding="utf-8") as f:
56 |         data = json.load(f)
57 | 
58 |     for key in keys:
59 |         steps, metrics = [], []
60 |         for i in range(len(data["log_history"])):
61 |             if key in data["log_history"][i]:
62 |                 steps.append(data["log_history"][i]["step"])
63 |                 metrics.append(data["log_history"][i][key])
64 | 
65 |         if len(metrics) == 0:
66 |             logger.warning(f"No metric {key} to plot.")
67 |             continue
68 | 
69 |         plt.figure()
70 |         plt.plot(steps, metrics, color="#1f77b4", alpha=0.4, label="original")
71 |         plt.plot(steps, smooth(metrics), color="#1f77b4", label="smoothed")
72 |         plt.title("training {} of {}".format(key, save_dictionary))
73 |         plt.xlabel("step")
74 |         plt.ylabel(key)
75 |         plt.legend()
76 |         figure_path = os.path.join(save_dictionary, "training_{}.png".format(key.replace("/", "_")))
77 |         plt.savefig(figure_path, format="png", dpi=100)
78 |         print("Figure saved at:", figure_path)
79 | 


--------------------------------------------------------------------------------
/llm/llmtuner/hparams/__init__.py:
--------------------------------------------------------------------------------
 1 | from .data_args import DataArguments
 2 | from .evaluation_args import EvaluationArguments
 3 | from .finetuning_args import FinetuningArguments
 4 | from .generating_args import GeneratingArguments
 5 | from .model_args import ModelArguments
 6 | from .parser import get_eval_args, get_infer_args, get_train_args
 7 | 
 8 | 
 9 | __all__ = [
10 |     "DataArguments",
11 |     "EvaluationArguments",
12 |     "FinetuningArguments",
13 |     "GeneratingArguments",
14 |     "ModelArguments",
15 |     "get_eval_args",
16 |     "get_infer_args",
17 |     "get_train_args",
18 | ]
19 | 


--------------------------------------------------------------------------------
/llm/llmtuner/hparams/data_args.py:
--------------------------------------------------------------------------------
  1 | from dataclasses import dataclass, field
  2 | from typing import Literal, Optional
  3 | 
  4 | 
  5 | @dataclass
  6 | class DataArguments:
  7 |     r"""
  8 |     Arguments pertaining to what data we are going to input our model for training and evaluation.
  9 |     """
 10 | 
 11 |     template: Optional[str] = field(
 12 |         default=None,
 13 |         metadata={"help": "Which template to use for constructing prompts in training and inference."},
 14 |     )
 15 |     dataset: Optional[str] = field(
 16 |         default=None,
 17 |         metadata={"help": "The name of provided dataset(s) to use. Use commas to separate multiple datasets."},
 18 |     )
 19 |     dataset_dir: str = field(
 20 |         default="data",
 21 |         metadata={"help": "Path to the folder containing the datasets."},
 22 |     )
 23 |     split: str = field(
 24 |         default="train",
 25 |         metadata={"help": "Which dataset split to use for training and evaluation."},
 26 |     )
 27 |     cutoff_len: int = field(
 28 |         default=1024,
 29 |         metadata={"help": "The cutoff length of the tokenized inputs in the dataset."},
 30 |     )
 31 |     reserved_label_len: int = field(
 32 |         default=1,
 33 |         metadata={"help": "The minimum cutoff length reserved for the tokenized labels in the dataset."},
 34 |     )
 35 |     train_on_prompt: bool = field(
 36 |         default=False,
 37 |         metadata={"help": "Whether to disable the mask on the prompt or not."},
 38 |     )
 39 |     streaming: bool = field(
 40 |         default=False,
 41 |         metadata={"help": "Enable dataset streaming."},
 42 |     )
 43 |     buffer_size: int = field(
 44 |         default=16384,
 45 |         metadata={"help": "Size of the buffer to randomly sample examples from in dataset streaming."},
 46 |     )
 47 |     mix_strategy: Literal["concat", "interleave_under", "interleave_over"] = field(
 48 |         default="concat",
 49 |         metadata={"help": "Strategy to use in dataset mixing (concat/interleave) (undersampling/oversampling)."},
 50 |     )
 51 |     interleave_probs: Optional[str] = field(
 52 |         default=None,
 53 |         metadata={"help": "Probabilities to sample data from datasets. Use commas to separate multiple datasets."},
 54 |     )
 55 |     overwrite_cache: bool = field(
 56 |         default=False,
 57 |         metadata={"help": "Overwrite the cached training and evaluation sets."},
 58 |     )
 59 |     preprocessing_num_workers: Optional[int] = field(
 60 |         default=None,
 61 |         metadata={"help": "The number of processes to use for the pre-processing."},
 62 |     )
 63 |     max_samples: Optional[int] = field(
 64 |         default=None,
 65 |         metadata={"help": "For debugging purposes, truncate the number of examples for each dataset."},
 66 |     )
 67 |     eval_num_beams: Optional[int] = field(
 68 |         default=None,
 69 |         metadata={"help": "Number of beams to use for evaluation. This argument will be passed to `model.generate`"},
 70 |     )
 71 |     ignore_pad_token_for_loss: bool = field(
 72 |         default=True,
 73 |         metadata={
 74 |             "help": "Whether or not to ignore the tokens corresponding to padded labels in the loss computation."
 75 |         },
 76 |     )
 77 |     val_size: float = field(
 78 |         default=0.0,
 79 |         metadata={"help": "Size of the development set, should be an integer or a float in range `[0,1)`."},
 80 |     )
 81 |     packing: Optional[bool] = field(
 82 |         default=None,
 83 |         metadata={
 84 |             "help": "Whether or not to pack the sequences in training. Will automatically enable in pre-training."
 85 |         },
 86 |     )
 87 |     tokenized_path: Optional[str] = field(
 88 |         default=None,
 89 |         metadata={"help": "Path to save or load the tokenized datasets."},
 90 |     )
 91 | 
 92 |     def __post_init__(self):
 93 |         if self.reserved_label_len >= self.cutoff_len:
 94 |             raise ValueError("`reserved_label_len` must be smaller than `cutoff_len`.")
 95 | 
 96 |         if self.streaming and self.val_size > 1e-6 and self.val_size < 1:
 97 |             raise ValueError("Streaming mode should have an integer val size.")
 98 | 
 99 |         if self.streaming and self.max_samples is not None:
100 |             raise ValueError("`max_samples` is incompatible with `streaming`.")
101 | 


--------------------------------------------------------------------------------
/llm/llmtuner/hparams/evaluation_args.py:
--------------------------------------------------------------------------------
 1 | import os
 2 | from dataclasses import dataclass, field
 3 | from typing import Literal, Optional
 4 | 
 5 | from datasets import DownloadMode
 6 | 
 7 | 
 8 | @dataclass
 9 | class EvaluationArguments:
10 |     r"""
11 |     Arguments pertaining to specify the evaluation parameters.
12 |     """
13 | 
14 |     task: str = field(
15 |         metadata={"help": "Name of the evaluation task."},
16 |     )
17 |     task_dir: str = field(
18 |         default="evaluation",
19 |         metadata={"help": "Path to the folder containing the evaluation datasets."},
20 |     )
21 |     batch_size: int = field(
22 |         default=4,
23 |         metadata={"help": "The batch size per GPU for evaluation."},
24 |     )
25 |     seed: int = field(
26 |         default=42,
27 |         metadata={"help": "Random seed to be used with data loaders."},
28 |     )
29 |     lang: Literal["en", "zh"] = field(
30 |         default="en",
31 |         metadata={"help": "Language used at evaluation."},
32 |     )
33 |     n_shot: int = field(
34 |         default=5,
35 |         metadata={"help": "Number of examplars for few-shot learning."},
36 |     )
37 |     save_dir: Optional[str] = field(
38 |         default=None,
39 |         metadata={"help": "Path to save the evaluation results."},
40 |     )
41 |     download_mode: DownloadMode = field(
42 |         default=DownloadMode.REUSE_DATASET_IF_EXISTS,
43 |         metadata={"help": "Download mode used for the evaluation datasets."},
44 |     )
45 | 
46 |     def __post_init__(self):
47 |         if self.save_dir is not None and os.path.exists(self.save_dir):
48 |             raise ValueError("`save_dir` already exists, use another one.")
49 | 


--------------------------------------------------------------------------------
/llm/llmtuner/hparams/generating_args.py:
--------------------------------------------------------------------------------
 1 | from dataclasses import asdict, dataclass, field
 2 | from typing import Any, Dict
 3 | 
 4 | 
 5 | @dataclass
 6 | class GeneratingArguments:
 7 |     r"""
 8 |     Arguments pertaining to specify the decoding parameters.
 9 |     """
10 | 
11 |     do_sample: bool = field(
12 |         default=True,
13 |         metadata={"help": "Whether or not to use sampling, use greedy decoding otherwise."},
14 |     )
15 |     temperature: float = field(
16 |         default=0.95,
17 |         metadata={"help": "The value used to modulate the next token probabilities."},
18 |     )
19 |     top_p: float = field(
20 |         default=0.7,
21 |         metadata={
22 |             "help": "The smallest set of most probable tokens with probabilities that add up to top_p or higher are kept."
23 |         },
24 |     )
25 |     top_k: int = field(
26 |         default=50,
27 |         metadata={"help": "The number of highest probability vocabulary tokens to keep for top-k filtering."},
28 |     )
29 |     num_beams: int = field(
30 |         default=1,
31 |         metadata={"help": "Number of beams for beam search. 1 means no beam search."},
32 |     )
33 |     max_length: int = field(
34 |         default=1024,
35 |         metadata={"help": "The maximum length the generated tokens can have. It can be overridden by max_new_tokens."},
36 |     )
37 |     max_new_tokens: int = field(
38 |         default=1024,
39 |         metadata={"help": "The maximum numbers of tokens to generate, ignoring the number of tokens in the prompt."},
40 |     )
41 |     repetition_penalty: float = field(
42 |         default=1.0,
43 |         metadata={"help": "The parameter for repetition penalty. 1.0 means no penalty."},
44 |     )
45 |     length_penalty: float = field(
46 |         default=1.0,
47 |         metadata={"help": "Exponential penalty to the length that is used with beam-based generation."},
48 |     )
49 | 
50 |     def to_dict(self) -> Dict[str, Any]:
51 |         args = asdict(self)
52 |         if args.get("max_new_tokens", -1) > 0:
53 |             args.pop("max_length", None)
54 |         else:
55 |             args.pop("max_new_tokens", None)
56 |         return args
57 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/__init__.py:
--------------------------------------------------------------------------------
 1 | from .loader import load_config, load_model, load_tokenizer
 2 | from .utils.misc import find_all_linear_modules
 3 | from .utils.valuehead import load_valuehead_params
 4 | 
 5 | 
 6 | __all__ = [
 7 |     "load_config",
 8 |     "load_model",
 9 |     "load_tokenizer",
10 |     "load_valuehead_params",
11 |     "find_all_linear_modules",
12 | ]
13 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/patcher.py:
--------------------------------------------------------------------------------
  1 | from types import MethodType
  2 | from typing import TYPE_CHECKING, Any, Dict
  3 | 
  4 | import torch
  5 | from peft import PeftModel
  6 | from transformers import PreTrainedModel, PreTrainedTokenizerBase
  7 | from transformers.integrations import is_deepspeed_zero3_enabled
  8 | 
  9 | from ..extras.logging import get_logger
 10 | from ..extras.misc import infer_optim_dtype
 11 | from .utils.attention import configure_attn_implementation, print_attn_implementation
 12 | from .utils.checkpointing import prepare_model_for_training
 13 | from .utils.embedding import resize_embedding_layer
 14 | from .utils.longlora import configure_longlora
 15 | from .utils.moe import add_z3_leaf_module, configure_moe
 16 | from .utils.quantization import configure_quantization
 17 | from .utils.rope import configure_rope
 18 | from .utils.valuehead import prepare_valuehead_model
 19 | from .utils.visual import autocast_projector_dtype, configure_hidden_size
 20 | 
 21 | 
 22 | if TYPE_CHECKING:
 23 |     from transformers import PretrainedConfig, PreTrainedTokenizer
 24 |     from trl import AutoModelForCausalLMWithValueHead
 25 | 
 26 |     from ..hparams import ModelArguments
 27 | 
 28 | 
 29 | logger = get_logger(__name__)
 30 | 
 31 | 
 32 | def patch_tokenizer(tokenizer: "PreTrainedTokenizer") -> None:
 33 |     if "PreTrainedTokenizerBase" not in str(tokenizer._pad.__func__):
 34 |         tokenizer._pad = MethodType(PreTrainedTokenizerBase._pad, tokenizer)
 35 | 
 36 | 
 37 | def patch_config(
 38 |     config: "PretrainedConfig",
 39 |     tokenizer: "PreTrainedTokenizer",
 40 |     model_args: "ModelArguments",
 41 |     init_kwargs: Dict[str, Any],
 42 |     is_trainable: bool,
 43 | ) -> None:
 44 |     if model_args.compute_dtype is None:  # priority: bf16 > fp16 > fp32
 45 |         model_args.compute_dtype = infer_optim_dtype(model_dtype=getattr(config, "torch_dtype", None))
 46 | 
 47 |     configure_attn_implementation(config, model_args)
 48 |     configure_rope(config, model_args, is_trainable)
 49 |     configure_longlora(config, model_args, is_trainable)
 50 |     configure_quantization(config, tokenizer, model_args, init_kwargs)
 51 |     configure_moe(config, model_args, is_trainable)
 52 |     configure_hidden_size(config)
 53 | 
 54 |     if model_args.use_cache and not is_trainable:
 55 |         setattr(config, "use_cache", True)
 56 |         logger.info("Using KV cache for faster generation.")
 57 | 
 58 |     if getattr(config, "model_type", None) == "qwen":
 59 |         setattr(config, "use_flash_attn", model_args.flash_attn)
 60 |         for dtype_name, dtype in [("fp16", torch.float16), ("bf16", torch.bfloat16), ("fp32", torch.float32)]:
 61 |             setattr(config, dtype_name, model_args.compute_dtype == dtype)
 62 | 
 63 |     if getattr(config, "model_type", None) == "qwen2" and is_trainable and model_args.flash_attn:
 64 |         setattr(config, "use_cache", False)  # qwen2 does not support use_cache when using flashattn
 65 | 
 66 |     init_kwargs["torch_dtype"] = model_args.compute_dtype
 67 |     if not is_deepspeed_zero3_enabled():
 68 |         init_kwargs["low_cpu_mem_usage"] = model_args.low_cpu_mem_usage
 69 |         if init_kwargs["low_cpu_mem_usage"]:
 70 |             if "device_map" not in init_kwargs and model_args.device_map:
 71 |                 init_kwargs["device_map"] = model_args.device_map
 72 | 
 73 |             if init_kwargs["device_map"] == "auto":
 74 |                 init_kwargs["offload_folder"] = model_args.offload_folder
 75 | 
 76 | 
 77 | def patch_model(
 78 |     model: "PreTrainedModel",
 79 |     tokenizer: "PreTrainedTokenizer",
 80 |     model_args: "ModelArguments",
 81 |     is_trainable: bool,
 82 |     add_valuehead: bool,
 83 | ) -> None:
 84 |     gen_config = model.generation_config  # check and fix generation config
 85 |     if not gen_config.do_sample and (
 86 |         (gen_config.temperature is not None and gen_config.temperature != 1.0)
 87 |         or (gen_config.top_p is not None and gen_config.top_p != 1.0)
 88 |         or (gen_config.typical_p is not None and gen_config.typical_p != 1.0)
 89 |     ):
 90 |         gen_config.do_sample = True
 91 | 
 92 |     if "GenerationMixin" not in str(model.generate.__func__):
 93 |         model.generate = MethodType(PreTrainedModel.generate, model)
 94 | 
 95 |     if add_valuehead:
 96 |         prepare_valuehead_model(model)
 97 | 
 98 |     if model_args.resize_vocab:
 99 |         resize_embedding_layer(model, tokenizer)
100 | 
101 |     if model_args.visual_inputs:
102 |         autocast_projector_dtype(model, model_args)
103 | 
104 |     if is_trainable:
105 |         prepare_model_for_training(model, model_args)
106 |         add_z3_leaf_module(model)
107 | 
108 |     if not model_args.use_unsloth:
109 |         print_attn_implementation(model.config)
110 | 
111 |     try:
112 |         model.add_model_tags(["llama-factory"])
113 |     except Exception:
114 |         logger.warning("Cannot properly tag the model.")
115 | 
116 | 
117 | def patch_valuehead_model(model: "AutoModelForCausalLMWithValueHead") -> None:
118 |     def tie_weights(self: "AutoModelForCausalLMWithValueHead") -> None:
119 |         if isinstance(self.pretrained_model, PreTrainedModel):
120 |             self.pretrained_model.tie_weights()
121 | 
122 |     def get_input_embeddings(self: "AutoModelForCausalLMWithValueHead") -> torch.nn.Module:
123 |         if isinstance(self.pretrained_model, PreTrainedModel):
124 |             return self.pretrained_model.get_input_embeddings()
125 | 
126 |     def create_or_update_model_card(self: "AutoModelForCausalLMWithValueHead", output_dir: str) -> None:
127 |         if isinstance(self.pretrained_model, PeftModel):
128 |             self.pretrained_model.create_or_update_model_card(output_dir)
129 | 
130 |     ignore_modules = [name for name, _ in model.named_parameters() if "pretrained_model" in name]
131 |     setattr(model, "_keys_to_ignore_on_save", ignore_modules)
132 |     setattr(model, "tie_weights", MethodType(tie_weights, model))
133 |     setattr(model, "get_input_embeddings", MethodType(get_input_embeddings, model))
134 |     setattr(model, "create_or_update_model_card", MethodType(create_or_update_model_card, model))
135 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Logistic98/rag-omni/363cab52079cce6620a3394823a57991e087590a/llm/llmtuner/model/utils/__init__.py


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/attention.py:
--------------------------------------------------------------------------------
 1 | from typing import TYPE_CHECKING
 2 | 
 3 | from ...extras.logging import get_logger
 4 | from ...extras.packages import is_flash_attn2_available, is_sdpa_available
 5 | 
 6 | 
 7 | if TYPE_CHECKING:
 8 |     from transformers import PretrainedConfig
 9 | 
10 |     from ...hparams import ModelArguments
11 | 
12 | 
13 | logger = get_logger(__name__)
14 | 
15 | 
16 | def configure_attn_implementation(config: "PretrainedConfig", model_args: "ModelArguments") -> None:
17 |     if model_args.flash_attn == "auto":
18 |         return
19 | 
20 |     elif model_args.flash_attn == "off":
21 |         requested_attn_implementation = "eager"
22 | 
23 |     elif model_args.flash_attn == "sdpa":
24 |         if not is_sdpa_available():
25 |             logger.warning("Torch>=2.1.1 is required for SDPA attention.")
26 |             return
27 | 
28 |         requested_attn_implementation = "sdpa"
29 |     elif model_args.flash_attn == "fa2":
30 |         if not is_flash_attn2_available():
31 |             logger.warning("FlashAttention-2 is not installed.")
32 |             return
33 | 
34 |         requested_attn_implementation = "flash_attention_2"
35 |     else:
36 |         raise NotImplementedError("Unknown attention type: {}".format(model_args.flash_attn))
37 | 
38 |     if getattr(config, "model_type", None) == "internlm2":  # special case for custom models
39 |         setattr(config, "attn_implementation", requested_attn_implementation)
40 |     else:
41 |         setattr(config, "_attn_implementation", requested_attn_implementation)
42 | 
43 | 
44 | def print_attn_implementation(config: "PretrainedConfig") -> None:
45 |     if getattr(config, "model_type", None) == "internlm2":  # special case for custom models
46 |         attn_implementation = getattr(config, "attn_implementation", None)
47 |     else:
48 |         attn_implementation = getattr(config, "_attn_implementation", None)
49 | 
50 |     if attn_implementation == "flash_attention_2":
51 |         logger.info("Using FlashAttention-2 for faster training and inference.")
52 |     elif attn_implementation == "sdpa":
53 |         logger.info("Using torch SDPA for faster training and inference.")
54 |     else:
55 |         logger.info("Using vanilla Attention implementation.")
56 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/checkpointing.py:
--------------------------------------------------------------------------------
 1 | import inspect
 2 | from functools import partial
 3 | from types import MethodType
 4 | from typing import TYPE_CHECKING, Any, Dict, Optional, Tuple
 5 | 
 6 | import torch
 7 | 
 8 | from ...extras.constants import LAYERNORM_NAMES
 9 | from ...extras.logging import get_logger
10 | 
11 | 
12 | if TYPE_CHECKING:
13 |     from transformers import PreTrainedModel
14 | 
15 |     from ...hparams import ModelArguments
16 | 
17 | 
18 | logger = get_logger(__name__)
19 | 
20 | 
21 | def _gradient_checkpointing_enable(
22 |     self: "PreTrainedModel", gradient_checkpointing_kwargs: Optional[Dict[str, Any]] = None
23 | ) -> None:
24 |     r"""
25 |     Activates gradient checkpointing for the current model.
26 | 
27 |     Modification of the original method to enable gradient checkpointing for block-wise optimizer.
28 |     """
29 |     from torch.utils.checkpoint import checkpoint
30 | 
31 |     if not self.supports_gradient_checkpointing:
32 |         raise ValueError("{} does not support gradient checkpointing.".format(self.__class__.__name__))
33 | 
34 |     if gradient_checkpointing_kwargs is None:
35 |         gradient_checkpointing_kwargs = {"use_reentrant": True}
36 | 
37 |     gradient_checkpointing_func = partial(checkpoint, **gradient_checkpointing_kwargs)
38 | 
39 |     def custom_gradient_checkpointing_func(func, *args, **kwargs):
40 |         module: "torch.nn.Module" = func.__self__
41 | 
42 |         if any(param.requires_grad for param in module.parameters()):
43 |             for arg in args:
44 |                 if torch.is_tensor(arg) and torch.is_floating_point(arg):
45 |                     arg.requires_grad_(True)
46 | 
47 |         return gradient_checkpointing_func(func, *args, **kwargs)
48 | 
49 |     if "value" in inspect.signature(self._set_gradient_checkpointing).parameters:  # old GC format
50 |         self.apply(partial(self._set_gradient_checkpointing, value=True))
51 |         self.enable_input_require_grads()
52 |         logger.warning("You are using the old GC format, some features (e.g. BAdam) will be invalid.")
53 |     else:  # have already enabled input require gradients
54 |         self._set_gradient_checkpointing(enable=True, gradient_checkpointing_func=custom_gradient_checkpointing_func)
55 | 
56 | 
57 | def _fp32_forward_post_hook(
58 |     module: "torch.nn.Module", args: Tuple["torch.Tensor"], output: "torch.Tensor"
59 | ) -> "torch.Tensor":
60 |     return output.to(torch.float32)
61 | 
62 | 
63 | def prepare_model_for_training(
64 |     model: "PreTrainedModel", model_args: "ModelArguments", output_layer_name: str = "lm_head"
65 | ) -> None:
66 |     r"""
67 |     Includes:
68 |         (1) cast the layernorm in fp32
69 |         (2) make output embedding layer require grads
70 |         (3) add the upcasting of the lm_head in fp32
71 |     Inspired by: https://github.com/huggingface/peft/blob/v0.7.1/src/peft/utils/other.py#L72
72 |     """
73 |     if model_args.upcast_layernorm:
74 |         logger.info("Upcasting layernorm weights in float32.")
75 |         for name, param in model.named_parameters():
76 |             if param.ndim == 1 and any(ln_name in name for ln_name in LAYERNORM_NAMES):
77 |                 param.data = param.data.to(torch.float32)
78 | 
79 |     if not model_args.disable_gradient_checkpointing:
80 |         if not getattr(model, "supports_gradient_checkpointing", False):
81 |             logger.warning("Current model does not support gradient checkpointing.")
82 |         else:
83 |             # use_reentrant=False might increase VRAM usage (have not been empirically verified yet)
84 |             # According to: https://github.com/huggingface/transformers/issues/28339
85 |             model.gradient_checkpointing_enable = MethodType(_gradient_checkpointing_enable, model)
86 |             model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={"use_reentrant": True})
87 |             setattr(model.config, "use_cache", False)  # turn off when gradient checkpointing is enabled
88 |             logger.info("Gradient checkpointing enabled.")
89 | 
90 |     if hasattr(model, output_layer_name) and model_args.upcast_lmhead_output:
91 |         logger.info("Upcasting lm_head outputs in float32.")
92 |         output_layer = getattr(model, output_layer_name)
93 |         if isinstance(output_layer, torch.nn.Linear) and output_layer.weight.dtype != torch.float32:
94 |             output_layer.register_forward_hook(_fp32_forward_post_hook)
95 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/embedding.py:
--------------------------------------------------------------------------------
 1 | import math
 2 | from contextlib import nullcontext
 3 | from typing import TYPE_CHECKING
 4 | 
 5 | import torch
 6 | from transformers.integrations import is_deepspeed_zero3_enabled
 7 | 
 8 | from ...extras.logging import get_logger
 9 | 
10 | 
11 | if TYPE_CHECKING:
12 |     from transformers import PreTrainedModel, PreTrainedTokenizer
13 | 
14 | 
15 | logger = get_logger(__name__)
16 | 
17 | 
18 | def _noisy_mean_initialization(embed_weight: torch.Tensor, num_new_tokens: int) -> None:
19 |     embedding_dim = embed_weight.size(1)
20 |     avg_weight = embed_weight[:-num_new_tokens].mean(dim=0, keepdim=True)
21 |     noise_weight = torch.empty_like(embed_weight[-num_new_tokens:])
22 |     noise_weight.normal_(mean=0, std=(1.0 / math.sqrt(embedding_dim)))
23 |     embed_weight[-num_new_tokens:] = avg_weight + noise_weight
24 | 
25 | 
26 | def resize_embedding_layer(model: "PreTrainedModel", tokenizer: "PreTrainedTokenizer") -> None:
27 |     r"""
28 |     Resize token embeddings.
29 |     """
30 |     if is_deepspeed_zero3_enabled():
31 |         import deepspeed  # type: ignore
32 | 
33 |         params = [model.get_input_embeddings().weight]
34 |         if model.get_output_embeddings() is not None and not model.config.tie_word_embeddings:
35 |             params.append(model.get_output_embeddings().weight)
36 | 
37 |         context_maybe_zero3 = deepspeed.zero.GatheredParameters(params, modifier_rank=0)
38 |     else:
39 |         context_maybe_zero3 = nullcontext()
40 | 
41 |     with context_maybe_zero3:
42 |         current_embedding_size = model.get_input_embeddings().weight.size(0)
43 | 
44 |     if len(tokenizer) > current_embedding_size:
45 |         if getattr(model, "quantization_method", None):
46 |             raise ValueError("Cannot resize embedding layers of a quantized model.")
47 | 
48 |         if not isinstance(model.get_output_embeddings(), torch.nn.Linear):
49 |             raise ValueError("Current model does not support resizing embedding layers.")
50 | 
51 |         model.resize_token_embeddings(len(tokenizer), pad_to_multiple_of=64)
52 |         with context_maybe_zero3:
53 |             new_embedding_size = model.get_input_embeddings().weight.size(0)
54 |             num_new_tokens = new_embedding_size - current_embedding_size
55 |             _noisy_mean_initialization(model.get_input_embeddings().weight.data, num_new_tokens)
56 |             _noisy_mean_initialization(model.get_output_embeddings().weight.data, num_new_tokens)
57 | 
58 |         logger.info("Resized token embeddings from {} to {}.".format(current_embedding_size, new_embedding_size))
59 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/misc.py:
--------------------------------------------------------------------------------
 1 | from typing import TYPE_CHECKING, List
 2 | 
 3 | import torch
 4 | 
 5 | from ...extras.logging import get_logger
 6 | from .quantization import QuantizationMethod
 7 | 
 8 | 
 9 | if TYPE_CHECKING:
10 |     from transformers import PretrainedConfig, PreTrainedModel, PreTrainedTokenizer
11 | 
12 | 
13 | logger = get_logger(__name__)
14 | 
15 | 
16 | def find_all_linear_modules(model: "PreTrainedModel") -> List[str]:
17 |     r"""
18 |     Finds all available modules to apply lora or galore.
19 |     """
20 |     quantization_method = getattr(model, "quantization_method", None)
21 |     if quantization_method is None:
22 |         linear_cls = torch.nn.Linear
23 |     elif quantization_method == QuantizationMethod.BITS_AND_BYTES:
24 |         import bitsandbytes as bnb
25 | 
26 |         linear_cls = bnb.nn.Linear4bit if getattr(model, "is_loaded_in_4bit", False) else bnb.nn.Linear8bitLt
27 |     else:
28 |         raise ValueError("Finding linear modules for {} models is not supported.".format(quantization_method))
29 | 
30 |     output_layer_names = ["lm_head"]
31 |     if model.config.model_type == "chatglm":
32 |         output_layer_names.append("output_layer")
33 |     elif model.config.model_type == "internlm2":
34 |         output_layer_names.append("output")
35 | 
36 |     module_names = set()
37 |     for name, module in model.named_modules():
38 |         if isinstance(module, linear_cls) and not any(output_layer in name for output_layer in output_layer_names):
39 |             module_names.add(name.split(".")[-1])
40 | 
41 |     logger.info("Found linear modules: {}".format(",".join(module_names)))
42 |     return list(module_names)
43 | 
44 | 
45 | def find_expanded_modules(model: "PreTrainedModel", target_modules: List[str], num_layer_trainable: int) -> List[str]:
46 |     r"""
47 |     Finds the modules in the expanded blocks to apply lora.
48 |     """
49 |     num_layers = getattr(model.config, "num_hidden_layers", None)
50 |     if not num_layers:
51 |         raise ValueError("Model was not supported.")
52 | 
53 |     if num_layers % num_layer_trainable != 0:
54 |         raise ValueError(
55 |             "`num_layers` {} should be divisible by `num_layer_trainable` {}.".format(num_layers, num_layer_trainable)
56 |         )
57 | 
58 |     stride = num_layers // num_layer_trainable
59 |     trainable_layer_ids = range(stride - 1, num_layers + stride - 1, stride)
60 |     trainable_layers = [".{:d}.".format(idx) for idx in trainable_layer_ids]
61 |     module_names = []
62 |     for name, _ in model.named_modules():
63 |         if any(target_module in name for target_module in target_modules) and any(
64 |             trainable_layer in name for trainable_layer in trainable_layers
65 |         ):
66 |             module_names.append(name)
67 | 
68 |     logger.info("Apply lora to layers: {}".format(",".join(map(str, trainable_layer_ids))))
69 |     return module_names
70 | 
71 | 
72 | def register_autoclass(config: "PretrainedConfig", model: "PreTrainedModel", tokenizer: "PreTrainedTokenizer"):
73 |     if "AutoConfig" in getattr(config, "auto_map", {}):
74 |         config.__class__.register_for_auto_class()
75 |     if "AutoModelForCausalLM" in getattr(config, "auto_map", {}):
76 |         model.__class__.register_for_auto_class()
77 |     if "AutoTokenizer" in tokenizer.init_kwargs.get("auto_map", {}):
78 |         tokenizer.__class__.register_for_auto_class()
79 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/mod.py:
--------------------------------------------------------------------------------
 1 | from typing import TYPE_CHECKING
 2 | 
 3 | from ...extras.constants import MOD_SUPPORTED_MODELS
 4 | 
 5 | 
 6 | if TYPE_CHECKING:
 7 |     from transformers import PretrainedConfig, PreTrainedModel
 8 | 
 9 |     from ...hparams import ModelArguments
10 | 
11 | 
12 | def load_mod_pretrained_model(**init_kwargs) -> "PreTrainedModel":
13 |     from MoD import AutoMoDModelForCausalLM
14 | 
15 |     return AutoMoDModelForCausalLM.from_pretrained(**init_kwargs)
16 | 
17 | 
18 | def convert_pretrained_model_to_mod(
19 |     model: "PreTrainedModel", config: "PretrainedConfig", model_args: "ModelArguments"
20 | ) -> "PreTrainedModel":
21 |     from MoD import apply_mod_to_hf
22 | 
23 |     if getattr(config, "model_type", None) not in MOD_SUPPORTED_MODELS:
24 |         raise ValueError("Current model is not supported by mixture-of-depth.")
25 | 
26 |     model = apply_mod_to_hf(model)
27 |     model = model.to(model_args.compute_dtype)
28 |     return model
29 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/moe.py:
--------------------------------------------------------------------------------
 1 | from typing import TYPE_CHECKING
 2 | 
 3 | from transformers.integrations import is_deepspeed_zero3_enabled
 4 | from transformers.utils.versions import require_version
 5 | 
 6 | 
 7 | if TYPE_CHECKING:
 8 |     from transformers import PretrainedConfig, PreTrainedModel
 9 | 
10 |     from ...hparams import ModelArguments
11 | 
12 | 
13 | def add_z3_leaf_module(model: "PreTrainedModel") -> None:
14 |     r"""
15 |     Sets module as a leaf module to skip partitioning in deepspeed zero3.
16 |     """
17 |     if not is_deepspeed_zero3_enabled():
18 |         return
19 | 
20 |     require_version("deepspeed>=0.13.0", "To fix: pip install deepspeed>=0.13.0")
21 |     from deepspeed.utils import set_z3_leaf_modules  # type: ignore
22 | 
23 |     if getattr(model.config, "model_type", None) == "mixtral":
24 |         from transformers.models.mixtral.modeling_mixtral import MixtralSparseMoeBlock
25 | 
26 |         set_z3_leaf_modules(model, [MixtralSparseMoeBlock])
27 | 
28 |     if getattr(model.config, "model_type", None) == "qwen2moe":
29 |         from transformers.models.qwen2_moe.modeling_qwen2_moe import Qwen2MoeSparseMoeBlock
30 | 
31 |         set_z3_leaf_modules(model, [Qwen2MoeSparseMoeBlock])
32 | 
33 |     if getattr(model.config, "model_type", None) == "jamba":
34 |         from transformers.models.jamba.modeling_jamba import JambaSparseMoeBlock
35 | 
36 |         set_z3_leaf_modules(model, [JambaSparseMoeBlock])
37 | 
38 |     if getattr(model.config, "model_type", None) == "dbrx":
39 |         from transformers.models.dbrx.modeling_dbrx import DbrxFFN
40 | 
41 |         set_z3_leaf_modules(model, [DbrxFFN])
42 | 
43 | 
44 | def configure_moe(config: "PretrainedConfig", model_args: "ModelArguments", is_trainable: bool) -> None:
45 |     if model_args.moe_aux_loss_coef is not None:
46 |         if getattr(config, "model_type", None) in ["jamba", "mixtral", "qwen2_moe"]:
47 |             setattr(config, "router_aux_loss_coef", model_args.moe_aux_loss_coef)
48 | 
49 |         elif getattr(config, "model_type", None) == "deepseek":
50 |             setattr(config, "aux_loss_alpha", model_args.moe_aux_loss_coef)
51 | 
52 |     if getattr(config, "model_type", None) in ["dbrx", "jamba", "mixtral", "qwen2_moe"]:
53 |         setattr(config, "output_router_logits", is_trainable)
54 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/rope.py:
--------------------------------------------------------------------------------
 1 | import math
 2 | from typing import TYPE_CHECKING
 3 | 
 4 | from ...extras.logging import get_logger
 5 | 
 6 | 
 7 | if TYPE_CHECKING:
 8 |     from transformers import PretrainedConfig
 9 | 
10 |     from ...hparams import ModelArguments
11 | 
12 | 
13 | logger = get_logger(__name__)
14 | 
15 | 
16 | def configure_rope(config: "PretrainedConfig", model_args: "ModelArguments", is_trainable: bool) -> None:
17 |     if model_args.rope_scaling is None:
18 |         return
19 | 
20 |     if not hasattr(config, "rope_scaling"):
21 |         logger.warning("Current model does not support RoPE scaling.")
22 |         return
23 | 
24 |     if is_trainable:
25 |         if model_args.rope_scaling == "dynamic":
26 |             logger.warning(
27 |                 "Dynamic NTK scaling may not work well with fine-tuning. "
28 |                 "See: https://github.com/huggingface/transformers/pull/24653"
29 |             )
30 | 
31 |         current_max_length = getattr(config, "max_position_embeddings", None)
32 |         if current_max_length and model_args.model_max_length > current_max_length:
33 |             logger.info(
34 |                 "Enlarge max model length from {} to {}.".format(current_max_length, model_args.model_max_length)
35 |             )
36 |             setattr(config, "max_position_embeddings", model_args.model_max_length)
37 |             scaling_factor = float(math.ceil(model_args.model_max_length / current_max_length))
38 |         else:
39 |             logger.warning("Input length is smaller than max length. Consider increase input length.")
40 |             scaling_factor = 1.0
41 |     else:
42 |         scaling_factor = 2.0
43 | 
44 |     setattr(config, "rope_scaling", {"type": model_args.rope_scaling, "factor": scaling_factor})
45 |     logger.info(
46 |         "Using {} scaling strategy and setting scaling factor to {}".format(model_args.rope_scaling, scaling_factor)
47 |     )
48 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/unsloth.py:
--------------------------------------------------------------------------------
 1 | from typing import TYPE_CHECKING, Any, Dict, Optional
 2 | 
 3 | from ...extras.logging import get_logger
 4 | from ...extras.misc import get_current_device
 5 | 
 6 | 
 7 | if TYPE_CHECKING:
 8 |     from transformers import PretrainedConfig, PreTrainedModel
 9 | 
10 |     from ...hparams import ModelArguments
11 | 
12 | 
13 | logger = get_logger(__name__)
14 | 
15 | 
16 | def _get_unsloth_kwargs(
17 |     config: "PretrainedConfig", model_name_or_path: str, model_args: "ModelArguments"
18 | ) -> Dict[str, Any]:
19 |     return {
20 |         "model_name": model_name_or_path,
21 |         "max_seq_length": model_args.model_max_length or 4096,
22 |         "dtype": model_args.compute_dtype,
23 |         "load_in_4bit": model_args.quantization_bit == 4,
24 |         "token": model_args.hf_hub_token,
25 |         "device_map": {"": get_current_device()},
26 |         "rope_scaling": getattr(config, "rope_scaling", None),
27 |         "fix_tokenizer": False,
28 |         "trust_remote_code": True,
29 |         "use_gradient_checkpointing": "unsloth",
30 |     }
31 | 
32 | 
33 | def load_unsloth_pretrained_model(
34 |     config: "PretrainedConfig", model_args: "ModelArguments"
35 | ) -> Optional["PreTrainedModel"]:
36 |     r"""
37 |     Optionally loads pretrained model with unsloth. Used in training.
38 |     """
39 |     from unsloth import FastLanguageModel
40 | 
41 |     unsloth_kwargs = _get_unsloth_kwargs(config, model_args.model_name_or_path, model_args)
42 |     try:
43 |         model, _ = FastLanguageModel.from_pretrained(**unsloth_kwargs)
44 |     except NotImplementedError:
45 |         logger.warning("Unsloth does not support model type {}.".format(getattr(config, "model_type", None)))
46 |         model = None
47 |         model_args.use_unsloth = False
48 | 
49 |     return model
50 | 
51 | 
52 | def get_unsloth_peft_model(
53 |     model: "PreTrainedModel", model_args: "ModelArguments", peft_kwargs: Dict[str, Any]
54 | ) -> "PreTrainedModel":
55 |     r"""
56 |     Gets the peft model for the pretrained model with unsloth. Used in training.
57 |     """
58 |     from unsloth import FastLanguageModel
59 | 
60 |     unsloth_peft_kwargs = {
61 |         "model": model,
62 |         "max_seq_length": model_args.model_max_length,
63 |         "use_gradient_checkpointing": "unsloth",
64 |     }
65 |     return FastLanguageModel.get_peft_model(**peft_kwargs, **unsloth_peft_kwargs)
66 | 
67 | 
68 | def load_unsloth_peft_model(
69 |     config: "PretrainedConfig", model_args: "ModelArguments", is_trainable: bool
70 | ) -> "PreTrainedModel":
71 |     r"""
72 |     Loads peft model with unsloth. Used in both training and inference.
73 |     """
74 |     from unsloth import FastLanguageModel
75 | 
76 |     unsloth_kwargs = _get_unsloth_kwargs(config, model_args.adapter_name_or_path[0], model_args)
77 |     try:
78 |         if not is_trainable:
79 |             unsloth_kwargs["use_gradient_checkpointing"] = False
80 | 
81 |         model, _ = FastLanguageModel.from_pretrained(**unsloth_kwargs)
82 |     except NotImplementedError:
83 |         raise ValueError("Unsloth does not support model type {}.".format(getattr(config, "model_type", None)))
84 | 
85 |     if not is_trainable:
86 |         FastLanguageModel.for_inference(model)
87 | 
88 |     return model
89 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/valuehead.py:
--------------------------------------------------------------------------------
 1 | from typing import TYPE_CHECKING, Dict
 2 | 
 3 | import torch
 4 | from transformers.utils import cached_file
 5 | 
 6 | from ...extras.constants import V_HEAD_SAFE_WEIGHTS_NAME, V_HEAD_WEIGHTS_NAME
 7 | from ...extras.logging import get_logger
 8 | 
 9 | 
10 | if TYPE_CHECKING:
11 |     from transformers import PreTrainedModel
12 | 
13 |     from ...hparams import ModelArguments
14 | 
15 | 
16 | logger = get_logger(__name__)
17 | 
18 | 
19 | def load_valuehead_params(path_or_repo_id: str, model_args: "ModelArguments") -> Dict[str, torch.Tensor]:
20 |     r"""
21 |     Loads value head parameters from Hugging Face Hub or local disk.
22 | 
23 |     Returns: dict with keys `v_head.summary.weight` and `v_head.summary.bias`.
24 |     """
25 |     kwargs = {"path_or_repo_id": path_or_repo_id, "cache_dir": model_args.cache_dir, "token": model_args.hf_hub_token}
26 | 
27 |     try:
28 |         from safetensors import safe_open
29 | 
30 |         vhead_file = cached_file(filename=V_HEAD_SAFE_WEIGHTS_NAME, **kwargs)
31 |         with safe_open(vhead_file, framework="pt", device="cpu") as f:
32 |             return {key: f.get_tensor(key) for key in f.keys()}
33 |     except Exception as err:
34 |         logger.info("Failed to load {}: {}".format(V_HEAD_SAFE_WEIGHTS_NAME, str(err)))
35 | 
36 |     try:
37 |         vhead_file = cached_file(filename=V_HEAD_WEIGHTS_NAME, **kwargs)
38 |         return torch.load(vhead_file, map_location="cpu")
39 |     except Exception as err:
40 |         logger.info("Failed to load {}: {}".format(V_HEAD_WEIGHTS_NAME, str(err)))
41 | 
42 |     logger.info("Provided path ({}) does not contain value head weights.".format(path_or_repo_id))
43 |     logger.info("Ignore these messages if you are not resuming the training of a value head model.")
44 |     return None
45 | 
46 | 
47 | def prepare_valuehead_model(model: "PreTrainedModel") -> None:
48 |     if getattr(model.config, "model_type", None) == "llava":
49 |         setattr(model, "lm_head", model.language_model.get_output_embeddings())
50 |         setattr(model, "_keys_to_ignore_on_save", ["lm_head.weight"])
51 | 
52 |     if getattr(model.config, "model_type", None) == "chatglm":
53 |         setattr(model, "lm_head", model.transformer.output_layer)
54 |         setattr(model, "_keys_to_ignore_on_save", ["lm_head.weight"])
55 | 
56 |     if getattr(model.config, "model_type", None) == "internlm2":
57 |         setattr(model, "lm_head", model.output)
58 |         setattr(model, "_keys_to_ignore_on_save", ["lm_head.weight"])
59 | 


--------------------------------------------------------------------------------
/llm/llmtuner/model/utils/visual.py:
--------------------------------------------------------------------------------
 1 | from typing import TYPE_CHECKING, Tuple
 2 | 
 3 | import torch
 4 | 
 5 | from ...extras.logging import get_logger
 6 | 
 7 | 
 8 | if TYPE_CHECKING:
 9 |     from transformers import PretrainedConfig, PreTrainedModel
10 | 
11 |     from ...hparams import ModelArguments
12 | 
13 | 
14 | logger = get_logger(__name__)
15 | 
16 | 
17 | def configure_hidden_size(config: "PretrainedConfig") -> None:
18 |     if getattr(config, "model_type", None) == "llava":
19 |         setattr(config, "hidden_size", getattr(config.text_config, "hidden_size", None))
20 | 
21 | 
22 | def autocast_projector_dtype(
23 |     model: "PreTrainedModel", model_args: "ModelArguments", mm_projector_name: str = "multi_modal_projector"
24 | ) -> None:
25 |     def _mm_projector_forward_post_hook(
26 |         module: "torch.nn.Module", args: Tuple["torch.Tensor"], output: "torch.Tensor"
27 |     ) -> "torch.Tensor":
28 |         return output.to(model_args.compute_dtype)
29 | 
30 |     if hasattr(model, mm_projector_name) and getattr(model.config, "quantization_method", None):
31 |         logger.info("Casting multimodal projector outputs in {}.".format(model_args.compute_dtype))
32 |         mm_projector: "torch.nn.Module" = getattr(model, mm_projector_name)
33 |         mm_projector.register_forward_hook(_mm_projector_forward_post_hook)
34 | 


--------------------------------------------------------------------------------
/llm/models/download_baichuan_model.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | from huggingface_hub import snapshot_download
 5 | 
 6 | # 设置代理
 7 | # os.environ['http_proxy'] = 'http://127.0.0.1:7890'
 8 | # os.environ['https_proxy'] = 'http://127.0.0.1:7890'
 9 | 
10 | # 模型仓库的标识
11 | repo_id = "baichuan-inc/Baichuan2-13B-Chat"
12 | 
13 | # 下载模型到指定目录
14 | local_dir = "./Baichuan2-13B-Chat"
15 | 
16 | # 检查目录是否存在，如果不存在则创建
17 | if not os.path.exists(local_dir):
18 |     os.makedirs(local_dir)
19 | 
20 | snapshot_download(repo_id=repo_id, local_dir=local_dir)


--------------------------------------------------------------------------------
/llm/models/download_qwen_model.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | from huggingface_hub import snapshot_download
 5 | 
 6 | # 设置代理
 7 | # os.environ['http_proxy'] = 'http://127.0.0.1:7890'
 8 | # os.environ['https_proxy'] = 'http://127.0.0.1:7890'
 9 | 
10 | # 模型仓库的标识
11 | repo_id = "Qwen/Qwen1.5-0.5B"
12 | 
13 | # 下载模型到指定目录
14 | local_dir = "./Qwen1.5-0.5B"
15 | 
16 | # 检查目录是否存在，如果不存在则创建
17 | if not os.path.exists(local_dir):
18 |     os.makedirs(local_dir)
19 | 
20 | snapshot_download(repo_id=repo_id, local_dir=local_dir)


--------------------------------------------------------------------------------
/llm/nginx_balance/Dockerfile:
--------------------------------------------------------------------------------
1 | # 设置基础镜像
2 | FROM nginx
3 | 
4 | # 放置nginx配置
5 | COPY nginx.conf /etc/nginx/nginx.conf
6 | COPY nginx_balance.conf /etc/nginx/conf.d/nginx_balance.conf
7 | COPY proxy.conf /etc/nginx


--------------------------------------------------------------------------------
/llm/nginx_balance/build.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | docker build -t 'nginx_balance_image' .
4 | docker run -itd --name nginx_balance -h nginx_balance -p 5000:5000 nginx_balance_image
5 | docker update nginx_balance --restart=always


--------------------------------------------------------------------------------
/llm/nginx_balance/nginx.conf:
--------------------------------------------------------------------------------
 1 | user  root;
 2 | worker_processes  auto;
 3 | 
 4 | error_log  /var/log/nginx/error.log notice;
 5 | pid        /var/run/nginx.pid;
 6 | 
 7 | 
 8 | events {
 9 |     worker_connections  1024;
10 | }
11 | 
12 | 
13 | http {
14 |     include       /etc/nginx/mime.types;
15 |     default_type  application/octet-stream;
16 | 
17 |     log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
18 |                       '$status $body_bytes_sent "$http_referer" '
19 |                       '"$http_user_agent" "$http_x_forwarded_for"';
20 | 
21 |     access_log  /var/log/nginx/access.log  main;
22 | 
23 |     sendfile        on;
24 |     #tcp_nopush     on;
25 | 
26 |     keepalive_timeout  65;
27 | 
28 |     #gzip  on;
29 | 
30 |     include /etc/nginx/conf.d/*.conf;
31 | }
32 | 


--------------------------------------------------------------------------------
/llm/nginx_balance/nginx_balance.conf:
--------------------------------------------------------------------------------
 1 | upstream nginx_balance {
 2 |         server 127.0.0.1:4999 weight=1 max_fails=1 fail_timeout=10s;
 3 |         server 127.0.0.1:4998 weight=1 max_fails=1 fail_timeout=10s;
 4 |         server 127.0.0.1:4997 weight=1 max_fails=1 fail_timeout=10s;
 5 | }
 6 | server {
 7 |     listen       5000;
 8 |     server_name  127.0.0.1;
 9 |     location ~* ^(/) {
10 |         gzip on;
11 |         gzip_vary on;
12 | 	    gzip_min_length 1k;
13 | 	    gzip_buffers 16 16k;
14 |         gzip_http_version 1.1;
15 |         gzip_comp_level 9;
16 |         gzip_types text/plain application/javascript application/x-javascript text/css text/xml text/javascript application/json;
17 |         proxy_pass http://nginx_balance;
18 |         client_max_body_size    48m;
19 |         # 添加proxy_next_upstream指令，实现失败时的自动跳转
20 |         proxy_next_upstream error timeout http_500 http_502 http_503 http_504;
21 |         include proxy.conf;
22 |     }
23 | }


--------------------------------------------------------------------------------
/llm/nginx_balance/proxy.conf:
--------------------------------------------------------------------------------
 1 | proxy_connect_timeout 900s;
 2 | proxy_send_timeout 900;
 3 | proxy_read_timeout 900;
 4 | proxy_buffer_size 32k;
 5 | proxy_buffers 4 64k;
 6 | proxy_busy_buffers_size 128k;
 7 | proxy_redirect off;
 8 | proxy_hide_header Vary;
 9 | proxy_set_header Accept-Encoding '';
10 | proxy_set_header Referer $http_referer;
11 | proxy_set_header Cookie $http_cookie;
12 | proxy_set_header Host $host;
13 | proxy_set_header X-Real-IP $remote_addr;
14 | proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
15 | proxy_set_header X-Forwarded-Proto $scheme;
16 | 


--------------------------------------------------------------------------------
/llm/test/llm_server_stress_test.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import threading
 4 | import requests
 5 | import json
 6 | 
 7 | 
 8 | def send_post_request(url, payload):
 9 |     """
10 |     向指定的URL发送POST请求。
11 |     """
12 |     headers = {
13 |         "accept": "application/json",
14 |         "Content-Type": "application/json"
15 |     }
16 | 
17 |     updated_payload = {
18 |         "model": "qwen-1.5-0.5b",
19 |         "messages": [
20 |             {
21 |                 "role": "user",
22 |                 "content": payload["prompt"]
23 |             }
24 |         ],
25 |         "tools": [
26 |             {
27 |                 "type": "function",
28 |                 "function": {
29 |                     "name": "string",
30 |                     "description": "string",
31 |                     "parameters": {}
32 |                 }
33 |             }
34 |         ],
35 |         "temperature": 0,
36 |         "top_p": 0,
37 |         "n": 1,
38 |         "max_tokens": 0,
39 |         "stream": False
40 |     }
41 | 
42 |     response = requests.post(url, headers=headers, data=json.dumps(updated_payload))
43 |     try:
44 |         response_json = response.json()
45 |         print(response_json)
46 |     except ValueError:
47 |         print("Response could not be decoded as JSON:", response.text)
48 | 
49 | 
50 | def threaded_requests(url, payload, num_threads, total_requests):
51 |     """
52 |     创建并启动多线程以达到指定的请求总量。
53 |     """
54 |     rounds = (total_requests + num_threads - 1) // num_threads  # 计算需要的轮数
55 |     for _ in range(rounds):
56 |         threads = []
57 |         for _ in range(num_threads):
58 |             if total_requests <= 0:
59 |                 break  # 如果已经达到请求总量，停止创建新线程
60 |             thread = threading.Thread(target=send_post_request, args=(url, payload))
61 |             thread.start()
62 |             threads.append(thread)
63 |             total_requests -= 1
64 | 
65 |         for thread in threads:
66 |             thread.join()
67 | 
68 | 
69 | if __name__ == '__main__':
70 |     api_url = 'http://127.0.0.1:5000/v1/chat/completions'
71 |     payload = {
72 |         "prompt": "解释一下量子计算"
73 |     }
74 |     num_threads = 50       # 线程数
75 |     total_requests = 100   # 总请求数
76 | 
77 |     threaded_requests(api_url, payload, num_threads, total_requests)


--------------------------------------------------------------------------------
/llm/test/llm_server_test.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import json
 4 | import requests
 5 | 
 6 | 
 7 | def send_post_request(url, payload):
 8 |     """
 9 |     向指定的URL发送POST请求。
10 |     """
11 |     headers = {
12 |         "accept": "application/json",
13 |         "Content-Type": "application/json"
14 |     }
15 | 
16 |     updated_payload = {
17 |         "model": "qwen-1.5-0.5b",
18 |         "messages": [
19 |             {
20 |                 "role": "user",
21 |                 "content": payload["prompt"]
22 |             }
23 |         ],
24 |         "tools": [
25 |             {
26 |                 "type": "function",
27 |                 "function": {
28 |                     "name": "string",
29 |                     "description": "string",
30 |                     "parameters": {}
31 |                 }
32 |             }
33 |         ],
34 |         "temperature": 0,
35 |         "top_p": 0,
36 |         "n": 1,
37 |         "max_tokens": 0,
38 |         "stream": False
39 |     }
40 | 
41 |     response = requests.post(url, headers=headers, data=json.dumps(updated_payload))
42 |     try:
43 |         response_json = response.json()
44 |         print(response_json)
45 |     except ValueError:
46 |         print("Response could not be decoded as JSON:", response.text)
47 | 
48 | 
49 | if __name__ == '__main__':
50 |     api_url = 'http://127.0.0.1:5000/v1/chat/completions'
51 |     payload = {
52 |         "prompt": "解释一下量子计算"
53 |     }
54 |     send_post_request(api_url, payload)
55 | 
56 | 


--------------------------------------------------------------------------------
/rag/code.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | 
 4 | class ResponseCode(object):
 5 |     SUCCESS = 200
 6 |     PARAM_FAIL = 400
 7 |     BUSINESS_FAIL = 500
 8 | 
 9 | 
10 | class ResponseMessage(object):
11 |     SUCCESS = "请求成功"
12 |     PARAM_FAIL = "参数校验失败"
13 |     BUSINESS_FAIL = "业务处理失败"


--------------------------------------------------------------------------------
/rag/log.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import logging
 4 | 
 5 | logger = logging.getLogger(__name__)
 6 | formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 7 | 
 8 | # 输出到控制台
 9 | console = logging.StreamHandler()
10 | console.setLevel(logging.INFO)
11 | console.setFormatter(formatter)
12 | logger.addHandler(console)
13 | 
14 | # 输出到文件
15 | logger.setLevel(level=logging.INFO)
16 | handler = logging.FileHandler("./rag_server.log")
17 | handler.setLevel(logging.INFO)
18 | handler.setFormatter(formatter)
19 | logger.addHandler(handler)


--------------------------------------------------------------------------------
/rag/rag_server.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import argparse
  4 | import json
  5 | import time
  6 | import os
  7 | from flask import Flask, jsonify
  8 | from flask_cors import CORS
  9 | from pre_request import Rule, pre
 10 | 
 11 | from rag_solve import LLMService, History, get_knowledge_based_answer
 12 | from response import ResponseCode, ResponseMessage
 13 | from log import logger
 14 | 
 15 | # 解析启动参数
 16 | parser = argparse.ArgumentParser(description="启动参数")
 17 | parser.add_argument('--api_url', type=str, default="https://api.openai.com/v1/chat/completions", help="LLM API URL")
 18 | parser.add_argument('--api_key', type=str, help="LLM API Key")
 19 | parser.add_argument('--model', type=str, help="LLM模型名称")
 20 | parser.add_argument('--port', type=int, default=5002, help="启动的端口号，默认5002")
 21 | parser.add_argument('--retrieval_url', type=str, default="http://127.0.0.1:5001/api/rag/retrieval", help="检索服务的URL")
 22 | args = parser.parse_args()
 23 | 
 24 | # 初始化参数
 25 | api_url = args.api_url
 26 | api_key = args.api_key
 27 | model = args.model
 28 | port = args.port
 29 | retrieval_url = args.retrieval_url
 30 | 
 31 | # 初始化LLM服务
 32 | llm = LLMService(url=api_url, api_key=api_key, model=model)
 33 | 
 34 | # 初始化历史消息
 35 | session_histories = {}
 36 | 
 37 | # 创建一个服务
 38 | app = Flask(__name__)
 39 | CORS(app, supports_credentials=True)
 40 | 
 41 | """
 42 | # 基于RAG的LLM对话服务
 43 | """
 44 | @app.route("/api/rag/summary", methods=["POST"])
 45 | def get_bot_response():
 46 |     global session_histories, llm
 47 | 
 48 |     # 获取请求数据
 49 |     rule = {
 50 |         "user_prompt": Rule(type=str, required=True),
 51 |         "session_id": Rule(type=str, required=True)
 52 |     }
 53 |     try:
 54 |         params = pre.parse(rule=rule)
 55 |     except Exception as e:
 56 |         logger.error(e)
 57 |         fail_response = dict(code=ResponseCode.PARAM_FAIL, msg=ResponseMessage.PARAM_FAIL, data=None)
 58 |         logger.error(fail_response)
 59 |         response = jsonify(fail_response)
 60 |         response.data = json.dumps(fail_response, ensure_ascii=False, indent=4)
 61 |         return response
 62 | 
 63 |     user_prompt = params["user_prompt"]
 64 |     session_id = params["session_id"]
 65 | 
 66 |     # 获取对话历史，如果有的话
 67 |     if session_id in session_histories:
 68 |         history_obj = session_histories[session_id]["history"]
 69 |         session_histories[session_id]["last_access_time"] = time.time()
 70 |     else:
 71 |         history_obj = History(session_id)
 72 |         session_histories[session_id] = {
 73 |             "history": history_obj,
 74 |             "last_access_time": time.time(),
 75 |         }
 76 | 
 77 |     # 如果用户超过一个小时没有交互，则删除该用户的对话历史
 78 |     max_idle_time = 60 * 60
 79 |     for sid, session_data in session_histories.copy().items():
 80 |         idle_time = time.time() - session_data["last_access_time"]
 81 |         if idle_time > max_idle_time:
 82 |             del session_histories[sid]
 83 | 
 84 |     # 清空对话历史
 85 |     if user_prompt == "$清空对话历史":
 86 |         history_obj.history = []
 87 |         history_file_path = f'./history/history_{session_id}.json'
 88 |         if os.path.exists(history_file_path):
 89 |             os.remove(history_file_path)
 90 |         success_response = dict(code=ResponseCode.SUCCESS, msg=ResponseMessage.SUCCESS, data="已清空对话历史")
 91 |         logger.info(success_response)
 92 |         response = jsonify(success_response)
 93 |         response.data = json.dumps(success_response, ensure_ascii=False, indent=4)
 94 |         if session_id in session_histories:
 95 |             del session_histories[session_id]
 96 |         return response
 97 | 
 98 |     # 获取知识库回答
 99 |     try:
100 |         answer = get_knowledge_based_answer(
101 |             query=user_prompt, history_obj=history_obj, url_retrieval=retrieval_url, llm=llm
102 |         )
103 |         success_response = dict(code=ResponseCode.SUCCESS, msg=ResponseMessage.SUCCESS, data=answer)
104 |         logger.info(success_response)
105 |         response = jsonify(success_response)
106 |         response.data = json.dumps(success_response, ensure_ascii=False, indent=4)
107 |         return response
108 |     except Exception as e:
109 |         logger.error(e)
110 |         fail_response = dict(code=ResponseCode.BUSINESS_FAIL, msg=ResponseMessage.BUSINESS_FAIL, data=None)
111 |         logger.error(fail_response)
112 |         response = jsonify(fail_response)
113 |         response.data = json.dumps(fail_response, ensure_ascii=False, indent=4)
114 |         return response
115 | 
116 | 
117 | if __name__ == '__main__':
118 |     # 解决中文乱码问题
119 |     app.config['JSON_AS_ASCII'] = False
120 |     # 启动服务，指定主机和端口
121 |     app.run(host='0.0.0.0', port=port, debug=False, threaded=True)
122 | 


--------------------------------------------------------------------------------
/rag/rag_solve.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import requests
  4 | import json
  5 | import os
  6 | import logging
  7 | from time import sleep
  8 | 
  9 | # 全局参数
 10 | RETRIEVAL_TOP_K = 5
 11 | LLM_HISTORY_LEN = 30
 12 | UNRELATED_RESPONSE = "很抱歉，检索库内不存在与问题相关的参考材料，以下是大模型直接生成的结果："
 13 | 
 14 | logging.basicConfig(level=logging.INFO)
 15 | 
 16 | 
 17 | class LLMService:
 18 |     def __init__(self, url, api_key, model):
 19 |         self.url = url
 20 |         self.headers = {
 21 |             "Authorization": f"Bearer {api_key}",
 22 |             "Content-Type": "application/json"
 23 |         }
 24 |         self.model = model
 25 | 
 26 |     def __call__(self, messages: list) -> str:
 27 |         data = {
 28 |             "model": self.model,
 29 |             "messages": messages
 30 |         }
 31 |         response = requests.post(self.url, headers=self.headers, json=data)
 32 |         try:
 33 |             response.raise_for_status()
 34 |             return response.json()["choices"][0]["message"]["content"]
 35 |         except requests.exceptions.JSONDecodeError as e:
 36 |             logging.error(f"Error decoding JSON: {e}")
 37 |             logging.error(f"Response content: {response.text}")
 38 |             raise
 39 |         except requests.exceptions.RequestException as e:
 40 |             logging.error(f"Request error: {e}")
 41 |             raise
 42 | 
 43 | 
 44 | class History:
 45 |     def __init__(self, session_id):
 46 |         self.session_id = session_id
 47 |         self.history = []
 48 | 
 49 | 
 50 | def get_docs(question: str, url: str, top_k=RETRIEVAL_TOP_K, retries=3):
 51 |     params = {"question": question, "top_k": top_k}
 52 |     for attempt in range(retries):
 53 |         try:
 54 |             response = requests.get(url, params=params)
 55 |             response.raise_for_status()
 56 |             try:
 57 |                 docs_response = response.json()
 58 |                 docs = [doc["part_content"] for doc in docs_response["data"]]
 59 |                 return docs
 60 |             except requests.exceptions.JSONDecodeError as e:
 61 |                 logging.error(f"Error decoding JSON: {e}")
 62 |                 logging.error(f"Response content: {response.text}")
 63 |                 if attempt < retries - 1:
 64 |                     sleep(2 ** attempt)
 65 |                 else:
 66 |                     raise
 67 |         except Exception as e:
 68 |             logging.error(f"Error in get_docs: {e}")
 69 |             if attempt < retries - 1:
 70 |                 sleep(2 ** attempt)
 71 |             else:
 72 |                 raise
 73 | 
 74 | 
 75 | def get_knowledge_based_answer(query, history_obj, url_retrieval, llm):
 76 |     global RETRIEVAL_TOP_K, UNRELATED_RESPONSE
 77 | 
 78 |     if len(history_obj.history) > LLM_HISTORY_LEN:
 79 |         history_obj.history = history_obj.history[-LLM_HISTORY_LEN:]
 80 | 
 81 |     # 重构问题
 82 |     if len(history_obj.history) > 0:
 83 |         rewrite_question_input = history_obj.history.copy()
 84 |         rewrite_question_input.append(
 85 |             {
 86 |                 "role": "user",
 87 |                 "content": f"""请基于对话历史，对后续问题进行补全重构。如果后续问题与历史相关，你必须结合语境将代词替换为相应的指代内容，让它的提问更加明确；否则直接返回原始的后续问题。
 88 |                 注意：请不要对后续问题做任何回答和解释。
 89 | 
 90 |                 历史对话：{json.dumps(history_obj.history, ensure_ascii=False)}
 91 |                 后续问题：{query}
 92 | 
 93 |                 修改后的后续问题："""
 94 |             }
 95 |         )
 96 |         new_query = llm(rewrite_question_input).strip()
 97 |         if "请不要对后续问题做任何回答和解释" in new_query:
 98 |             new_query = query
 99 |     else:
100 |         new_query = query
101 | 
102 |     # 获取相关文档
103 |     docs = get_docs(new_query, url_retrieval, RETRIEVAL_TOP_K)
104 |     doc_string = "\n".join([json.dumps(doc, ensure_ascii=False) for doc in docs])
105 | 
106 |     # 判断文档与重构后的问题是否相关
107 |     relevance_check_input = [
108 |         {"role": "system", "content": "你是一个帮助判断内容是否相关的助手。"},
109 |         {"role": "user", "content": f"问题：{new_query}\n文档：{doc_string}\n请判断这些文档是否与问题相关，如果相关，请返回'相关'，否则返回'无关'。"}
110 |     ]
111 |     relevance_response = llm(relevance_check_input).strip()
112 | 
113 |     if "无关" in relevance_response:
114 |         # 使用重构的问题调用大模型
115 |         direct_response_input = [{"role": "user", "content": new_query}]
116 |         direct_response = llm(direct_response_input)
117 |         response = f"{UNRELATED_RESPONSE}\n\n{direct_response}"
118 |     else:
119 |         history_obj.history.append(
120 |             {
121 |                 "role": "user",
122 |                 "content": f"请基于参考，回答问题，并给出参考依据：\n问题：\n{query}\n参考：\n{doc_string}\n答案："
123 |             }
124 |         )
125 |         response = llm(history_obj.history)
126 |         history_obj.history[-1] = {"role": "user", "content": query}
127 |         history_obj.history.append({"role": "assistant", "content": response})
128 | 
129 |     # 保存history
130 |     current_dir = os.path.dirname(os.path.abspath(__file__))
131 |     history_dir = os.path.join(current_dir, 'history')
132 |     os.makedirs(history_dir, exist_ok=True)
133 |     history_file_path = os.path.join(history_dir, f'history_{history_obj.session_id}.json')
134 | 
135 |     if not os.path.exists(history_file_path):
136 |         with open(history_file_path, "w", encoding="utf-8") as file:
137 |             json.dump([], file, ensure_ascii=False, indent=2)
138 | 
139 |     with open(history_file_path, "r", encoding="utf-8") as file:
140 |         data = json.load(file)
141 |     data.append({"query": query, "new_query": new_query, "docs": docs, "response": response})
142 |     with open(history_file_path, "w", encoding="utf-8") as file:
143 |         json.dump(data, file, ensure_ascii=False, indent=2)
144 | 
145 |     return {"response": response, "docs": docs}
146 | 


--------------------------------------------------------------------------------
/rag/response.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | from code import ResponseMessage, ResponseCode
 4 | 
 5 | 
 6 | class ResMsg(object):
 7 |     """
 8 |     封装响应文本
 9 |     """
10 |     def __init__(self, data=None, code=ResponseCode.SUCCESS, msg=ResponseMessage.SUCCESS):
11 |         self._data = data
12 |         self._msg = msg
13 |         self._code = code
14 | 
15 |     def update(self, code=None, data=None, msg=None):
16 |         """
17 |         更新默认响应文本
18 |         :param code:响应状态码
19 |         :param data: 响应数据
20 |         :param msg: 响应消息
21 |         :return:
22 |         """
23 |         if code is not None:
24 |             self._code = code
25 |         if data is not None:
26 |             self._data = data
27 |         if msg is not None:
28 |             self._msg = msg
29 | 
30 |     def add_field(self, name=None, value=None):
31 |         """
32 |         在响应文本中加入新的字段，方便使用
33 |         :param name: 变量名
34 |         :param value: 变量值
35 |         :return:
36 |         """
37 |         if name is not None and value is not None:
38 |             self.__dict__[name] = value
39 | 
40 |     @property
41 |     def data(self):
42 |         """
43 |         输出响应文本内容
44 |         :return:
45 |         """
46 |         body = self.__dict__
47 |         body["data"] = body.pop("_data")
48 |         body["msg"] = body.pop("_msg")
49 |         body["code"] = body.pop("_code")
50 |         return body
51 | 
52 | 
53 | 


--------------------------------------------------------------------------------
/rag/test/rag_test.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import requests
 4 | import json
 5 | 
 6 | 
 7 | def get_summary(url, user_prompt, session_id):
 8 |     headers = {
 9 |         "Content-Type": "application/json"
10 |     }
11 |     data = {
12 |         "user_prompt": user_prompt,
13 |         "session_id": session_id
14 |     }
15 | 
16 |     response = requests.post(url, headers=headers, data=json.dumps(data))
17 |     return response.json()
18 | 
19 | 
20 | if __name__ == "__main__":
21 |     url = "http://127.0.0.1:5002/api/rag/summary"
22 |     session_id = "session_id_001"
23 | 
24 |     user_prompt_1 = "简要总结一下国家对于地方政府性债务管理的意见"
25 |     response_1 = get_summary(url, user_prompt_1, session_id)
26 |     print("第一个问题的回复:")
27 |     print(response_1)
28 | 
29 |     user_prompt_2 = "再详细一些"
30 |     response_2 = get_summary(url, user_prompt_2, session_id)
31 |     print("第二个问题的回复:")
32 |     print(response_2)


--------------------------------------------------------------------------------
/retrieval/bge/bge_download_model.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | from transformers import AutoTokenizer, AutoModel
 5 | from transformers.utils import logging
 6 | 
 7 | # 设置代理
 8 | # os.environ['http_proxy'] = 'http://127.0.0.1:7890'
 9 | # os.environ['https_proxy'] = 'http://127.0.0.1:7890'
10 | 
11 | # 配置 transformers 日志
12 | logging.set_verbosity_info()
13 | 
14 | 
15 | def download_and_save_model(model_name, save_directory):
16 |     # 下载模型和分词器
17 |     tokenizer = AutoTokenizer.from_pretrained(model_name)
18 |     model = AutoModel.from_pretrained(model_name)
19 |     # 保存模型和分词器
20 |     tokenizer.save_pretrained(save_directory)
21 |     model.save_pretrained(save_directory)
22 |     print(f"模型和分词器已保存到 {save_directory}")
23 | 
24 | 
25 | if __name__ == '__main__':
26 |     model_name = 'BAAI/bge-large-zh-v1.5'
27 |     save_directory = './bge-large-zh-v1.5'
28 |     download_and_save_model(model_name, save_directory)
29 | 


--------------------------------------------------------------------------------
/retrieval/bge/bge_index.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import os
  4 | import json
  5 | import numpy as np
  6 | from tqdm import trange
  7 | from transformers import AutoTokenizer, AutoModel
  8 | import torch
  9 | import uuid
 10 | 
 11 | 
 12 | class BGEIndexer:
 13 |     def __init__(self, file_paths, old_index_path=None):
 14 |         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 15 |         current_dir = os.path.dirname(os.path.abspath(__file__))
 16 |         self.model_path = os.path.join(current_dir, 'bge-large-zh-v1.5')
 17 |         self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)
 18 |         self.model = AutoModel.from_pretrained(self.model_path).to(self.device)
 19 |         self.old_index_path = old_index_path
 20 |         self.data_list = self.load_data(file_paths)
 21 |         self.embeddings_list = self.generate_embeddings()
 22 |         self.cuda_oom_flag = False
 23 | 
 24 |     def load_data(self, file_paths):
 25 |         data_list = []
 26 |         for file_path in file_paths:
 27 |             with open(file_path, "r", encoding="utf-8") as f:
 28 |                 data = json.load(f)
 29 |             data_list.extend(data)
 30 |         return data_list
 31 | 
 32 |     def generate_embeddings(self):
 33 |         embeddings_list = []
 34 |         batch_size = 4
 35 |         has_switched_to_cpu = False
 36 |         for i in trange(0, len(self.data_list), batch_size):
 37 |             batch_texts = [item['part_content'] for item in self.data_list[i:i + batch_size]]
 38 |             inputs = self.tokenizer(batch_texts, return_tensors='pt', padding=True, truncation=True, max_length=512).to(
 39 |                 self.device)
 40 |             try:
 41 |                 with torch.no_grad():
 42 |                     outputs = self.model(**inputs)
 43 |                 embeddings = outputs.last_hidden_state.mean(dim=1).to('cpu').numpy()
 44 |             except RuntimeError as e:
 45 |                 if 'CUDA out of memory' in str(e):
 46 |                     if not has_switched_to_cpu:
 47 |                         print("CUDA out of memory. Switching to CPU for this batch.")
 48 |                         has_switched_to_cpu = True
 49 |                     torch.cuda.empty_cache()
 50 |                     inputs = inputs.to('cpu')
 51 |                     self.model.to('cpu')
 52 |                     with torch.no_grad():
 53 |                         outputs = self.model(**inputs)
 54 |                     embeddings = outputs.last_hidden_state.mean(dim=1).numpy()
 55 |                     self.model.to(self.device)
 56 |                 else:
 57 |                     raise e
 58 |             embeddings_list.extend(embeddings)
 59 |             torch.cuda.empty_cache()
 60 |         return np.array(embeddings_list)
 61 | 
 62 |     def _load_old_index(self):
 63 |         if not self.old_index_path or not os.path.exists(self.old_index_path):
 64 |             return None, None
 65 |         data = np.load(self.old_index_path, allow_pickle=True)
 66 |         old_embeddings_list = data['embeddings_list']
 67 |         old_data_list_json = data['data_list'].item()
 68 |         old_data_list = json.loads(old_data_list_json)
 69 |         return old_data_list, old_embeddings_list
 70 | 
 71 |     def _merge_indexes(self, old_data_list, old_embeddings_list):
 72 |         if old_data_list is None or old_embeddings_list is None:
 73 |             return self.data_list, self.embeddings_list
 74 |         new_data_list = old_data_list + self.data_list
 75 |         new_embeddings_list = np.vstack((old_embeddings_list, self.embeddings_list))
 76 |         return new_data_list, new_embeddings_list
 77 | 
 78 |     def build_index(self, output_path, index_name=None):
 79 |         if not os.path.exists(output_path):
 80 |             os.makedirs(output_path)
 81 |         if not index_name:
 82 |             index_name = str(uuid.uuid4())
 83 |         index_file = os.path.join(output_path, f'{index_name}.npz')
 84 | 
 85 |         old_data_list, old_embeddings_list = self._load_old_index()
 86 |         merged_data_list, merged_embeddings_list = self._merge_indexes(old_data_list, old_embeddings_list)
 87 | 
 88 |         data_list_json = json.dumps(merged_data_list, ensure_ascii=False, indent=4)
 89 |         np.savez(index_file, embeddings_list=merged_embeddings_list, data_list=data_list_json)
 90 |         print(f"Index saved to {index_file}")
 91 | 
 92 | 
 93 | if __name__ == '__main__':
 94 |     index_name = "bge_index"  # 定义索引名（如果不指定则自动使用uuid生成）
 95 |     output_path = "./index"   # 定义索引的存储路径
 96 | 
 97 |     # 用一个文件构建初始索引
 98 |     file_paths = [
 99 |         "../../data/preprocess_data/国务院关于加强地方政府性债务管理的意见.json"
100 |     ]
101 |     indexer = BGEIndexer(file_paths)
102 |     indexer.build_index(output_path, index_name=index_name)
103 | 
104 |     # 用另一个文件和旧索引增量构建新索引
105 |     file_paths = [
106 |         "../../data/preprocess_data/中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.json"
107 |     ]
108 |     old_index_path = os.path.join(output_path, f'{index_name}.npz')
109 |     indexer = BGEIndexer(file_paths, old_index_path)
110 |     indexer.build_index(output_path, index_name=index_name)
111 | 


--------------------------------------------------------------------------------
/retrieval/bge/bge_retrieval.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | import json
 5 | import numpy as np
 6 | from transformers import AutoTokenizer, AutoModel
 7 | import torch
 8 | import faiss
 9 | 
10 | 
11 | class BGERetrieval:
12 |     def __init__(self, index_file):
13 |         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
14 |         current_dir = os.path.dirname(os.path.abspath(__file__))
15 |         self.model_path = os.path.join(current_dir, 'bge-large-zh-v1.5')
16 |         self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)
17 |         self.model = AutoModel.from_pretrained(self.model_path)
18 |         self.data_list, self.embeddings_list = self.load_index(index_file)
19 |         self.faiss_index = self.build_faiss_index()
20 | 
21 |     def load_index(self, index_file):
22 |         data = np.load(index_file, allow_pickle=True)
23 |         embeddings_list = data['embeddings_list']
24 |         data_list_json = data['data_list'].item()
25 |         data_list = json.loads(data_list_json)
26 |         return data_list, embeddings_list
27 | 
28 |     def build_faiss_index(self):
29 |         faiss_index = faiss.IndexFlatIP(self.embeddings_list.shape[1])
30 |         faiss_index.add(self.embeddings_list)
31 |         return faiss_index
32 | 
33 |     def search(self, query, top_k=-1):
34 |         inputs = self.tokenizer(query, return_tensors='pt', padding=True, truncation=True, max_length=512).to(self.device)
35 |         with torch.no_grad():
36 |             outputs = self.model(**inputs)
37 |         query_emb = outputs.last_hidden_state.mean(dim=1).to('cpu').numpy()
38 |         if top_k == -1:
39 |             top_k = len(self.data_list)
40 |         score, rank = self.faiss_index.search(query_emb, top_k)
41 |         rank = rank[0]
42 |         score = score[0]
43 |         results = [
44 |             {
45 |                 "file_name": self.data_list[rank[i]]["file_name"],
46 |                 "part_content": self.data_list[rank[i]]["part_content"],
47 |                 "score": float(score[i])
48 |             }
49 |             for i in range(top_k)
50 |         ]
51 |         return results
52 | 
53 | 
54 | if __name__ == '__main__':
55 |     index_file = "./index/bge_index.npz"
56 |     query_text = "国务院对于地方政府性债务管理的意见"
57 |     top_k = -1  # 可以设置为任意正整数，或者-1表示不限制
58 |     retriever = BGERetrieval(index_file)
59 |     results = retriever.search(query_text, top_k)
60 |     print(json.dumps(results, ensure_ascii=False, indent=4))
61 | 


--------------------------------------------------------------------------------
/retrieval/bm25/bm25_retrieval.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import os
  4 | import jieba
  5 | import logging
  6 | import json
  7 | 
  8 | jieba.setLogLevel(log_level=logging.INFO)
  9 | 
 10 | 
 11 | class BM25Param(object):
 12 |     def __init__(self, f, df, idf, length, avg_length, docs_list, line_length_list, k1=1.5, k2=1.0, b=0.75):
 13 |         self.f = f
 14 |         self.df = df
 15 |         self.k1 = k1
 16 |         self.k2 = k2
 17 |         self.b = b
 18 |         self.idf = idf
 19 |         self.length = length
 20 |         self.avg_length = avg_length
 21 |         self.docs_list = docs_list
 22 |         self.line_length_list = line_length_list
 23 | 
 24 |     def __str__(self):
 25 |         return f"k1:{self.k1}, k2:{self.k2}, b:{self.b}"
 26 | 
 27 | 
 28 | class BM25Retrieval(object):
 29 |     def __init__(self, index_path):
 30 |         self.index_path = index_path
 31 |         self.param: BM25Param = self._load_param()
 32 |         self._stop_words = self._load_stop_words()
 33 | 
 34 |     def _load_stop_words(self):
 35 |         current_dir = os.path.dirname(os.path.abspath(__file__))
 36 |         stop_words_path = os.path.join(current_dir, 'stop_words.txt')
 37 |         if not os.path.exists(stop_words_path):
 38 |             raise Exception(f"system stop words: {stop_words_path} not found")
 39 |         stop_words = []
 40 |         with open(stop_words_path, 'r', encoding='utf8') as reader:
 41 |             for line in reader:
 42 |                 line = line.strip()
 43 |                 stop_words.append(line)
 44 |         return stop_words
 45 | 
 46 |     def _load_param(self):
 47 |         if not os.path.exists(self.index_path):
 48 |             raise Exception(f"Index file {self.index_path} not found")
 49 |         with open(self.index_path, 'r', encoding='utf8') as f:
 50 |             data = json.load(f)
 51 |             param = BM25Param(**data)
 52 |         param.length = len(param.f)
 53 |         return param
 54 | 
 55 |     def _cal_similarity(self, words, index):
 56 |         score = 0
 57 |         for word in words:
 58 |             if word not in self.param.f[index]:
 59 |                 continue
 60 |             molecular = self.param.idf[word] * self.param.f[index][word] * (self.param.k1 + 1)
 61 |             denominator = self.param.f[index][word] + self.param.k1 * (1 - self.param.b +
 62 |                                                                        self.param.b * self.param.line_length_list[
 63 |                                                                            index] /
 64 |                                                                        self.param.avg_length)
 65 |             score += molecular / denominator
 66 |         return score
 67 | 
 68 |     def search(self, query: str, top_k: int = -1):
 69 |         if top_k != -1 and top_k <= 0:
 70 |             raise ValueError("top_k should be -1 or a positive integer")
 71 | 
 72 |         words = [word for word in jieba.lcut(query) if word and word not in self._stop_words]
 73 |         score_list = []
 74 |         for index in range(len(self.param.f)):
 75 |             if index >= len(self.param.f):
 76 |                 raise IndexError(f"Index {index} is out of range for parameter f")
 77 |             score = self._cal_similarity(words, index)
 78 |             score_list.append((self.param.docs_list[index], score))
 79 | 
 80 |         score_list.sort(key=lambda x: -x[1])
 81 |         if top_k != -1:
 82 |             score_list = score_list[:top_k]
 83 | 
 84 |         result = [
 85 |             {
 86 |                 "file_name": doc["file_name"],
 87 |                 "part_content": doc["part_content"],
 88 |                 "score": score
 89 |             }
 90 |             for doc, score in score_list
 91 |         ]
 92 |         return result
 93 | 
 94 | 
 95 | if __name__ == '__main__':
 96 |     index_path = "./index/bm25_index.json"
 97 |     bm25 = BM25Retrieval(index_path)
 98 |     query_content = "国务院对于地方政府性债务管理的意见"
 99 |     top_k = 5  # 可以设置为任意正整数，或者-1表示不限制
100 |     result = bm25.search(query_content, top_k)
101 |     print(json.dumps(result, ensure_ascii=False, indent=4))
102 | 


--------------------------------------------------------------------------------
/retrieval/code.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | 
 4 | class ResponseCode(object):
 5 |     SUCCESS = 200
 6 |     PARAM_FAIL = 400
 7 |     BUSINESS_FAIL = 500
 8 | 
 9 | 
10 | class ResponseMessage(object):
11 |     SUCCESS = "请求成功"
12 |     PARAM_FAIL = "参数校验失败"
13 |     BUSINESS_FAIL = "业务处理失败"


--------------------------------------------------------------------------------
/retrieval/log.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import logging
 4 | 
 5 | logger = logging.getLogger(__name__)
 6 | formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 7 | 
 8 | # 输出到控制台
 9 | console = logging.StreamHandler()
10 | console.setLevel(logging.INFO)
11 | console.setFormatter(formatter)
12 | logger.addHandler(console)
13 | 
14 | # 输出到文件
15 | logger.setLevel(level=logging.INFO)
16 | handler = logging.FileHandler("./retrieval_server.log")
17 | handler.setLevel(logging.INFO)
18 | handler.setFormatter(formatter)
19 | logger.addHandler(handler)


--------------------------------------------------------------------------------
/retrieval/openai_embedding/openai_index.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import os
  4 | import json
  5 | import pickle
  6 | import uuid
  7 | 
  8 | from langchain_community.vectorstores import FAISS
  9 | from langchain_openai import OpenAIEmbeddings
 10 | 
 11 | 
 12 | class OpenAIIndexer:
 13 |     def __init__(self, file_paths, openai_api_base, openai_api_key, embedding_model="text-embedding-3-large", old_index_path=None):
 14 |         self.embedding_model = self.create_embedding_model(openai_api_base, openai_api_key, embedding_model)
 15 |         self.old_index_path = old_index_path
 16 |         self.new_data_list, self.new_content, self.new_metadata = self.load_data(file_paths)
 17 | 
 18 |         if self.old_index_path and os.path.exists(self.old_index_path):
 19 |             self.old_data_list, self.old_content, self.old_metadata = self.load_existing_data()
 20 |             self.data_list = self.old_data_list + self.new_data_list
 21 |             self.content = self.old_content + self.new_content
 22 |             self.metadata = self.old_metadata + self.new_metadata
 23 |         else:
 24 |             self.data_list, self.content, self.metadata = self.new_data_list, self.new_content, self.new_metadata
 25 | 
 26 |         self.faiss_vectorstore = self.generate_embedding()
 27 | 
 28 |     def create_embedding_model(self, openai_api_base, openai_api_key, embedding_model):
 29 |         return {
 30 |             "openai_api_key": openai_api_key,
 31 |             "openai_api_base": openai_api_base,
 32 |             "model": embedding_model
 33 |         }
 34 | 
 35 |     def load_data(self, file_paths):
 36 |         """读取数据文件"""
 37 |         data_list = []
 38 |         content_list = []
 39 |         metadata_list = []
 40 |         for file_path in file_paths:
 41 |             with open(file_path, "r", encoding="utf-8") as f:
 42 |                 data = json.load(f)
 43 |             for item in data:
 44 |                 item['file_name'] = os.path.basename(file_path)
 45 |                 data_list.append(item)
 46 |                 content_list.append(item['part_content'])
 47 |                 metadata_list.append({'file_name': os.path.basename(file_path)})
 48 |         return data_list, content_list, metadata_list
 49 | 
 50 |     def generate_embedding(self):
 51 |         embedding_model_instance = OpenAIEmbeddings(**self.embedding_model)
 52 |         return FAISS.from_texts(self.content, embedding_model_instance, metadatas=self.metadata)
 53 | 
 54 |     def get_index_folder(self, output_path, index_name):
 55 |         return os.path.join(output_path, index_name)
 56 | 
 57 |     def load_existing_data(self):
 58 |         index_folder = self.old_index_path
 59 |         embedding_path = os.path.join(index_folder, 'embeddings')
 60 | 
 61 |         with open(os.path.join(embedding_path, 'index.faiss'), 'rb') as f:
 62 |             index = pickle.load(f)
 63 | 
 64 |         with open(os.path.join(embedding_path, 'docstore.pkl'), 'rb') as f:
 65 |             docstore = pickle.load(f)
 66 | 
 67 |         with open(os.path.join(embedding_path, 'index_to_docstore_id.pkl'), 'rb') as f:
 68 |             index_to_docstore_id = pickle.load(f)
 69 | 
 70 |         embedding_model_instance = OpenAIEmbeddings(**self.embedding_model)
 71 |         faiss_vectorstore = FAISS(
 72 |             index=index,
 73 |             embedding_function=embedding_model_instance,
 74 |             docstore=docstore,
 75 |             index_to_docstore_id=index_to_docstore_id
 76 |         )
 77 | 
 78 |         with open(os.path.join(index_folder, 'content.pkl'), 'rb') as file:
 79 |             content = pickle.load(file)
 80 | 
 81 |         with open(os.path.join(index_folder, 'metadata.pkl'), 'rb') as file:
 82 |             metadata = pickle.load(file)
 83 | 
 84 |         # 重新构造数据列表
 85 |         data_list = [{'part_content': c, 'metadata': m} for c, m in zip(content, metadata)]
 86 |         return data_list, content, metadata
 87 | 
 88 |     def build_index(self, output_path, index_name=None):
 89 |         if not index_name:
 90 |             index_name = str(uuid.uuid4())
 91 |         index_folder = self.get_index_folder(output_path, index_name)
 92 |         os.makedirs(index_folder, exist_ok=True)
 93 |         embedding_path = os.path.join(index_folder, 'embeddings')
 94 |         os.makedirs(embedding_path, exist_ok=True)
 95 | 
 96 |         with open(os.path.join(embedding_path, 'index.faiss'), 'wb') as f:
 97 |             pickle.dump(self.faiss_vectorstore.index, f)
 98 | 
 99 |         with open(os.path.join(embedding_path, 'docstore.pkl'), 'wb') as f:
100 |             pickle.dump(self.faiss_vectorstore.docstore, f)
101 | 
102 |         with open(os.path.join(embedding_path, 'index_to_docstore_id.pkl'), 'wb') as f:
103 |             pickle.dump(self.faiss_vectorstore.index_to_docstore_id, f)
104 | 
105 |         with open(os.path.join(index_folder, 'embedding_model_params.pkl'), 'wb') as file:
106 |             pickle.dump(self.embedding_model, file)
107 | 
108 |         with open(os.path.join(index_folder, 'content.pkl'), 'wb') as file:
109 |             pickle.dump(self.content, file)
110 | 
111 |         with open(os.path.join(index_folder, 'metadata.pkl'), 'wb') as file:
112 |             pickle.dump(self.metadata, file)
113 | 
114 |         print(f"Index saved to {index_folder}")
115 | 
116 | 
117 | if __name__ == '__main__':
118 |     index_name = "openai_index"  # 定义索引名（如果不指定则自动使用uuid生成）
119 |     output_path = "./index"  # 定义索引的存储路径
120 |     openai_api_base = "https://api.openai.com/v1"
121 |     openai_api_key = "sk-xxx"
122 | 
123 |     # 用一个文件构建初始索引
124 |     file_paths = [
125 |         "../../data/preprocess_data/国务院关于加强地方政府性债务管理的意见.json"
126 |     ]
127 |     indexer = OpenAIIndexer(file_paths, openai_api_base, openai_api_key)
128 |     indexer.build_index(output_path, index_name)
129 | 
130 |     # 用另一个文件和旧索引增量构建新索引
131 |     new_file_paths = [
132 |         "../../data/preprocess_data/中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.json"
133 |     ]
134 |     old_index_path = os.path.join(output_path, index_name)
135 |     indexer = OpenAIIndexer(new_file_paths, openai_api_base, openai_api_key, old_index_path=old_index_path)
136 |     indexer.build_index(output_path, index_name)
137 | 


--------------------------------------------------------------------------------
/retrieval/openai_embedding/openai_retrieval.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import os
 4 | import pickle
 5 | from langchain_community.vectorstores import FAISS
 6 | from langchain_openai import OpenAIEmbeddings
 7 | import json
 8 | 
 9 | 
10 | class OpenAIRetrieval:
11 |     def __init__(self, index_folder):
12 |         self.embedding_model_params = self.load_embedding_model_params(index_folder)
13 |         self.embedding_model = OpenAIEmbeddings(**self.embedding_model_params)
14 |         self.faiss_vectorstore, self.content, self.metadata = self.load_data(index_folder)
15 | 
16 |     def load_embedding_model_params(self, index_folder):
17 |         embedding_model_path = os.path.join(index_folder, 'embedding_model_params.pkl')
18 |         if not os.path.exists(embedding_model_path):
19 |             raise FileNotFoundError(f"Embedding model params file not found: {embedding_model_path}")
20 |         with open(embedding_model_path, 'rb') as file:
21 |             embedding_model_params = pickle.load(file)
22 |         return embedding_model_params
23 | 
24 |     def load_data(self, index_folder):
25 |         embedding_path = os.path.join(index_folder, 'embeddings')
26 |         index_file = os.path.join(embedding_path, 'index.faiss')
27 |         docstore_file = os.path.join(embedding_path, 'docstore.pkl')
28 |         index_to_docstore_id_file = os.path.join(embedding_path, 'index_to_docstore_id.pkl')
29 | 
30 |         if not os.path.exists(index_file):
31 |             raise FileNotFoundError(f"FAISS index file not found: {index_file}")
32 |         if not os.path.exists(docstore_file):
33 |             raise FileNotFoundError(f"Docstore file not found: {docstore_file}")
34 |         if not os.path.exists(index_to_docstore_id_file):
35 |             raise FileNotFoundError(f"Index to docstore ID file not found: {index_to_docstore_id_file}")
36 | 
37 |         with open(index_file, 'rb') as f:
38 |             index = pickle.load(f)
39 |         with open(docstore_file, 'rb') as f:
40 |             docstore = pickle.load(f)
41 |         with open(index_to_docstore_id_file, 'rb') as f:
42 |             index_to_docstore_id = pickle.load(f)
43 | 
44 |         embedding_model_instance = OpenAIEmbeddings(**self.embedding_model_params)
45 |         faiss_vectorstore = FAISS(
46 |             index=index,
47 |             embedding_function=embedding_model_instance,
48 |             docstore=docstore,
49 |             index_to_docstore_id=index_to_docstore_id
50 |         )
51 | 
52 |         content_file = os.path.join(index_folder, 'content.pkl')
53 |         metadata_file = os.path.join(index_folder, 'metadata.pkl')
54 | 
55 |         if not os.path.exists(content_file):
56 |             raise FileNotFoundError(f"Content file not found: {content_file}")
57 |         if not os.path.exists(metadata_file):
58 |             raise FileNotFoundError(f"Metadata file not found: {metadata_file}")
59 | 
60 |         with open(content_file, 'rb') as file:
61 |             content = pickle.load(file)
62 |         with open(metadata_file, 'rb') as file:
63 |             metadata = pickle.load(file)
64 |         return faiss_vectorstore, content, metadata
65 | 
66 |     def search(self, query, top_k=5):
67 |         results = self.faiss_vectorstore.similarity_search(query, k=len(self.content))
68 |         # 如果 top_k 为 -1，则返回所有结果
69 |         if top_k == -1:
70 |             top_k = len(results)
71 |         results = results[:top_k]
72 |         search_results = []
73 |         for item in results:
74 |             result = {
75 |                 "file_name": item.metadata['file_name'],
76 |                 "part_content": item.page_content
77 |             }
78 |             search_results.append(result)
79 |         return search_results
80 | 
81 | 
82 | if __name__ == '__main__':
83 |     index_folder = "./index/openai_index"
84 |     query_text = "国务院对于地方政府性债务管理的意见"
85 |     top_k = 5  # 可以设置为任意正整数，或者-1表示不限制
86 |     openai_retriever = OpenAIRetrieval(index_folder)
87 |     results = openai_retriever.search(query_text, top_k=top_k)
88 |     print(json.dumps(results, ensure_ascii=False, indent=4))
89 | 


--------------------------------------------------------------------------------
/retrieval/response.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | from code import ResponseMessage, ResponseCode
 4 | 
 5 | 
 6 | class ResMsg(object):
 7 |     """
 8 |     封装响应文本
 9 |     """
10 |     def __init__(self, data=None, code=ResponseCode.SUCCESS, msg=ResponseMessage.SUCCESS):
11 |         self._data = data
12 |         self._msg = msg
13 |         self._code = code
14 | 
15 |     def update(self, code=None, data=None, msg=None):
16 |         """
17 |         更新默认响应文本
18 |         :param code:响应状态码
19 |         :param data: 响应数据
20 |         :param msg: 响应消息
21 |         :return:
22 |         """
23 |         if code is not None:
24 |             self._code = code
25 |         if data is not None:
26 |             self._data = data
27 |         if msg is not None:
28 |             self._msg = msg
29 | 
30 |     def add_field(self, name=None, value=None):
31 |         """
32 |         在响应文本中加入新的字段，方便使用
33 |         :param name: 变量名
34 |         :param value: 变量值
35 |         :return:
36 |         """
37 |         if name is not None and value is not None:
38 |             self.__dict__[name] = value
39 | 
40 |     @property
41 |     def data(self):
42 |         """
43 |         输出响应文本内容
44 |         :return:
45 |         """
46 |         body = self.__dict__
47 |         body["data"] = body.pop("_data")
48 |         body["msg"] = body.pop("_msg")
49 |         body["code"] = body.pop("_code")
50 |         return body
51 | 
52 | 
53 | 


--------------------------------------------------------------------------------
/retrieval/retrieval_index.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import argparse
 4 | import logging
 5 | from bge.bge_index import BGEIndexer
 6 | from bm25.bm25_index import BM25Indexer
 7 | from openai_embedding.openai_index import OpenAIIndexer
 8 | 
 9 | 
10 | # 配置日志
11 | logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
12 | 
13 | if __name__ == '__main__':
14 |     parser = argparse.ArgumentParser(description="构建索引的参数")
15 |     parser.add_argument('--file_paths', type=str, nargs='+', required=True, help="JSON知识文件路径（支持一个或多个文件路径）")
16 |     parser.add_argument('--algorithm', type=str, choices=['BM25', 'BGE', 'OpenAI'], required=True, help="索引算法：目前仅支持BM25、BGE、OpenAI")
17 |     parser.add_argument('--api_base_url', type=str, default="https://api.openai.com/v1", help="LLM API Base URL")
18 |     parser.add_argument('--api_key', type=str, help="LLM API Key")
19 |     parser.add_argument('--output_path', type=str, required=True, help="索引存储路径")
20 |     parser.add_argument('--index_name', type=str, required=False, help="索引名（可选，如果不指定则自动使用UUID生成）")
21 |     parser.add_argument('--old_index_path', type=str, required=False, help="旧索引路径（可选，传递旧索引则增量构建）")
22 |     args = parser.parse_args()
23 | 
24 |     file_paths = args.file_paths
25 |     algorithm = args.algorithm
26 |     api_base_url = args.api_base_url
27 |     api_key = args.api_key
28 |     output_path = args.output_path
29 |     index_name = args.index_name
30 |     old_index_path = args.old_index_path
31 | 
32 |     try:
33 |         if algorithm == 'BGE':
34 |             logging.info("开始构建BGE索引...")
35 |             indexer = BGEIndexer(file_paths, old_index_path)
36 |             indexer.build_index(output_path, index_name)
37 |             logging.info("BGE索引构建成功")
38 |         elif algorithm == 'BM25':
39 |             logging.info("开始构建BM25索引...")
40 |             indexer = BM25Indexer(file_paths, old_index_path)
41 |             indexer.build_index(output_path, index_name)
42 |             logging.info("BM25索引构建成功")
43 |         elif algorithm == 'OpenAI':
44 |             logging.info("开始构建OpenAI索引...")
45 |             indexer = OpenAIIndexer(file_paths, api_base_url, api_key, old_index_path=old_index_path)
46 |             indexer.build_index(output_path, index_name)
47 |             logging.info("OpenAI索引构建成功")
48 |         else:
49 |             raise ValueError("Unsupported algorithm. Please choose either 'BM25' 'BGE' or 'OpenAI'.")
50 |     except Exception as e:
51 |         logging.error(f"索引构建失败: {e}")
52 |         raise
53 | 


--------------------------------------------------------------------------------
/retrieval/retrieval_server.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import argparse
 4 | import json
 5 | from flask import Flask, jsonify
 6 | from flask_cors import CORS
 7 | from pre_request import pre, Rule
 8 | 
 9 | from log import logger
10 | from response import ResponseCode, ResponseMessage
11 | from bm25.bm25_retrieval import BM25Retrieval
12 | from bge.bge_retrieval import BGERetrieval
13 | from openai_embedding.openai_retrieval import OpenAIRetrieval
14 | 
15 | # 解析启动参数
16 | parser = argparse.ArgumentParser(description="启动参数")
17 | parser.add_argument('--index_path', type=str, required=True, help="索引路径")
18 | parser.add_argument('--algorithm', type=str, choices=['BM25', 'BGE', 'OpenAI'], required=True, help="检索算法：目前仅支持BM25、BGE、OpenAI")
19 | parser.add_argument('--port', type=int, default=5001, help="启动的端口号，默认5001")
20 | args = parser.parse_args()
21 | 
22 | index_path = args.index_path
23 | retrieval_algorithm = args.algorithm
24 | port = args.port
25 | 
26 | # 创建一个服务
27 | app = Flask(__name__)
28 | CORS(app, supports_credentials=True)
29 | 
30 | # 初始化检索算法
31 | if retrieval_algorithm == 'BM25':
32 |     search_engine = BM25Retrieval(index_path)
33 | elif retrieval_algorithm == 'BGE':
34 |     search_engine = BGERetrieval(index_path)
35 | elif retrieval_algorithm == 'OpenAI':
36 |     search_engine = OpenAIRetrieval(index_path)
37 | else:
38 |     raise ValueError("Unsupported retrieval algorithm")
39 | 
40 | """
41 | # 检索算法服务
42 | """
43 | @app.route(rule='/api/rag/retrieval', methods=['GET'])
44 | def retrieval():
45 | 
46 |     # 参数校验
47 |     rule = {
48 |         "question": Rule(type=str, required=True),
49 |         "top_k": Rule(type=int, required=True, gte=-1, custom=lambda x: x == -1 or x > 0)
50 |     }
51 |     try:
52 |         params = pre.parse(rule=rule)
53 |     except Exception as e:
54 |         logger.error(e)
55 |         fail_response = dict(code=ResponseCode.PARAM_FAIL, msg=ResponseMessage.PARAM_FAIL, data=None)
56 |         logger.error(fail_response)
57 |         response = jsonify(fail_response)
58 |         response.data = json.dumps(fail_response, ensure_ascii=False, indent=4)
59 |         return response
60 | 
61 |     # 获取参数
62 |     question = params.get("question")
63 |     top_k = params.get("top_k")
64 | 
65 |     # 业务处理模块
66 |     try:
67 |         results = search_engine.search(question, top_k)
68 |     except Exception as e:
69 |         logger.error(e)
70 |         fail_response = dict(code=ResponseCode.BUSINESS_FAIL, msg=ResponseMessage.BUSINESS_FAIL, data=None)
71 |         logger.error(fail_response)
72 |         response = jsonify(fail_response)
73 |         response.data = json.dumps(fail_response, ensure_ascii=False, indent=4)
74 |         return response
75 | 
76 |     # 成功的结果返回，格式化JSON
77 |     success_response = dict(code=ResponseCode.SUCCESS, msg=ResponseMessage.SUCCESS, data=results)
78 |     logger.info(success_response)
79 |     response = jsonify(success_response)
80 |     response.data = json.dumps(success_response, ensure_ascii=False, indent=4)
81 |     return response
82 | 
83 | 
84 | if __name__ == '__main__':
85 |     # 解决中文乱码问题
86 |     app.config['JSON_AS_ASCII'] = False
87 |     # 启动服务，指定主机和端口
88 |     app.run(host='0.0.0.0', port=port, debug=False, threaded=True)
89 | 


--------------------------------------------------------------------------------
/retrieval/test/retrieval_test.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | import requests
 4 | 
 5 | 
 6 | def retrieval_test(url, params):
 7 |     r = requests.get(url, params=params)
 8 |     print(r.text)
 9 | 
10 | 
11 | if __name__ == '__main__':
12 |     url = 'http://{0}:{1}/api/rag/retrieval'.format("127.0.0.1", "5001")
13 |     params = {'question': "国务院对于地方政府性债务管理的意见", 'top_k': 3}
14 |     retrieval_test(url, params)
15 | 
16 | 
17 | 


--------------------------------------------------------------------------------