├── .gitignore
├── Crawler
    ├── README.md
    ├── download_cmd_generation.py
    ├── download_jukin_video_id.py
    ├── parallel_download_VATEX.py
    └── parallel_download_jukin.py
├── README.md
├── pyproject.toml
└── valley
    ├── configs
        ├── deepspeed
        │   ├── config_zero2.json
        │   ├── config_zero3.json
        │   └── config_zero3_offload.json
        └── experiment
        │   ├── valley_stage1.yaml
        │   ├── valley_stage2.yaml
        │   ├── valley_stage2_lora.yaml
        │   └── valley_stage2_zero3.yaml
    ├── constants.py
    ├── conversation.py
    ├── data
        ├── dataset.py
        └── video_transform.py
    ├── inference
        ├── run_valley.py
        ├── run_valley_conv.py
        └── run_valley_llamma_v2.py
    ├── logo
        ├── demo.GIF
        ├── demo_screenshot.jpg
        └── lama_with_valley.jpeg
    ├── model
        ├── apply_delta.py
        ├── make_delta.py
        └── valley_model.py
    ├── serve
        ├── __init__.py
        ├── cli.py
        ├── controller.py
        ├── examples
        │   ├── images
        │   │   ├── c790e7358b6f9de50ccfc78d2fba1b97.jpg
        │   │   └── f4cefeeb3f10a2afb4bb077a415f9fb8.jpg
        │   └── videos
        │   │   ├── aa5dbc3a110f410bb02572408b0fb778.mp4
        │   │   └── dc52388394cc9f692d16a95d9833ca07.mp4
        ├── gateway
        │   ├── README.md
        │   └── nginx.conf
        ├── gradio_css.py
        ├── gradio_patch.py
        ├── gradio_web_server_video.py
        ├── model_worker.py
        ├── register_worker.py
        └── test_message.py
    ├── train
        ├── train.py
        ├── train.sh
        └── trainner.py
    ├── util
        ├── config.py
        ├── data_util.py
        └── decode_img.py
    └── utils.py


/.gitignore:
--------------------------------------------------------------------------------
1 | *-conv.json
2 | *.log
3 | **/__pycache__
4 | **.egg-info
5 | weight
6 | serve_images
7 | wandb


--------------------------------------------------------------------------------
/Crawler/README.md:
--------------------------------------------------------------------------------
 1 | # Download Video from VATEX and Jukinmedia
 2 | first, cd into the Crawler folder
 3 | ```shell
 4 | cd Crawler
 5 | ```
 6 | ## VATEX
 7 | run the following script to generate the download cmd string to a file
 8 | ```shell
 9 | python download_cmd_generation.py --video_path [VIDEO SAVE FOLDER] --ann_file [VATEX ANNOTATION FILE PATH] --output_filename [CMD FILE OUTPUT PATH]
10 | ```
11 | 
12 | Then run following script to download the video from Youtube.(**PS: This script calls the youtube video download tool [yt-dlp](https://github.com/yt-dlp/yt-dlp)**. You need to install it first)
13 | 
14 | ```shell
15 | python parallel_download_VATEX.py --num_process 32 --cmd_file [THE FILE YOU GENERATE FROM LAST STEP]
16 | ```
17 | 
18 | ## Jukin Media
19 | Run the following script to generate the video_id and video information from jukinmedia to a file.
20 | ```shell
21 | python download_jukin_video_id.py --savefolder [THE VIDEO INFO SAVEFOLDER]
22 | ```
23 | 
24 | Run the folowing script to download the video
25 | ```shell
26 | python parallel_download_jukin.py --save_dir [VIDEO SAVE FOLDER] --input_file [THE FILE YOU GENERATE FROM LAST STEP] --num_process 5
27 | ```
28 | 


--------------------------------------------------------------------------------
/Crawler/download_cmd_generation.py:
--------------------------------------------------------------------------------
 1 | ''' usage: generate command script to download youtube video
 2 | '''
 3 | from argparse import ArgumentParser
 4 | import glob
 5 | import json
 6 | import os
 7 | 
 8 | def crosscheck_videos(video_path, ann_file):
 9 |     # Get existing videos
10 |     existing_vids = glob.glob("%s/*.mp4" % video_path)
11 |     for idx, vid in enumerate(existing_vids):
12 |         basename = os.path.basename(vid).split(".mp4")[0]
13 |         if len(basename) == 13:
14 |             existing_vids[idx] = basename[2:]
15 |         elif len(basename) == 11:
16 |             existing_vids[idx] = basename
17 |         else:
18 |             raise RuntimeError("Unknown filename format: %s", vid)
19 |     # Read an get video IDs from annotation file
20 |     with open(ann_file, "r") as fobj:
21 |         anet_v_1_0 = json.load(fobj)
22 |     if 'VATEX' in video_path:
23 |         all_vids = list(set(['_'.join(item['videoID'].split('_')[:-2]) for item in anet_v_1_0]))
24 |     else:
25 |         raise ValueError('Not VATEX form data, you need to cumtomize the code.')
26 |     non_existing_videos = []
27 |     for vid in all_vids:
28 |         if vid in existing_vids:
29 |             continue
30 |         else:
31 |             non_existing_videos.append(vid)
32 |     return non_existing_videos
33 | 
34 | def main(args):
35 |     non_existing_videos = crosscheck_videos(args.video_path, args.ann_file)
36 |     filename = os.path.join(args.video_path, "v_%s.mp4")
37 |     cmd_base = "yt-dlp --merge-output-format mp4 "
38 |     cmd_base += '"https://www.youtube.com/watch?v=%s" '
39 |     cmd_base += '-o "%s" ' % filename 
40 |     cmd_base += '|| mv "%s.part" "%s"' % (filename,filename)
41 |     with open(args.output_filename, "w") as fobj:
42 |         for vid in non_existing_videos:
43 |             cmd = cmd_base % (vid, vid, vid, vid)
44 |             fobj.write("%s\n" % cmd)
45 | 
46 | if __name__ == "__main__":
47 |     parser = ArgumentParser(description="Script to double check video content.")
48 |     parser.add_argument("--video_path", required=True, help="Where are located the videos? (Full path)")
49 |     parser.add_argument("--ann_file", required=True, help="Where is the annotation file?")
50 |     parser.add_argument("--output_filename", default='./VATEX/cmd_list.txt',required=True, help="Output script location.")
51 |     args = parser.parse_args()
52 |     main(args)
53 | 


--------------------------------------------------------------------------------
/Crawler/download_jukin_video_id.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import json as js
 3 | import math
 4 | from argparse import ArgumentParser
 5 | 
 6 | def main(args):
 7 |     headers = {
 8 |         "X-Algolia-Api-Key": "a6099f9d3771d6ceb142321ac5273d16",
 9 |         "X-Algolia-Application-Id": "XSWHBQ6C6E",
10 |         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
11 |     }
12 |     category_number = {
13 |     "Fails": 10000,  "Pets": 10000,  "Awesome": 9507,  "Wildlife": 8896,  "Humor": 6493,  "Talent": 5471,
14 |     "DIY": 2569,  "Uplifting": 2431,  "Newsworthy": 1957,  "Cute": 1952,  "Parenting": 1880,  "Weather": 1630,
15 |     "Fitness": 1385,  "Family": 1296,  "Art": 1154,  "Food": 1116,  "Crashes": 980,  "Sports": 947,  "Vehicles": 439,
16 |     "Lifestyle": 370,  "Nature": 330,  "Travel": 294,  "Crime": 161,  "Paranormal": 115,  "RecordSetter": 3,  "Nitro Circus": 1
17 |     }
18 | 
19 |     sum_data = 0
20 |     for key in category_number:
21 |         sum_data+=category_number[key]
22 |     print('number of all vid: ',sum_data)
23 | 
24 |     result_number = dict()
25 |     for category in category_number:
26 |         page_number = math.ceil(category_number[category]/1000)
27 |         data = []
28 |         for i in range(page_number):
29 |             json_data = {"query":"","userToken":"guest","hitsPerPage":1000,"page":i,"facets":["category"],"facetFilters":[["category:"+category]]}
30 |             a = requests.post("https://xswhbq6c6e-2.algolianet.com/1/indexes/public_lp/query", headers=headers, json=json_data
31 |             )
32 |             data+=js.loads(a.content)['hits']
33 |             result_number[category] = data
34 | 
35 | 
36 |     js.dump(result_number,open(args.savefolder+'/'+'jukin-100k.json','w'))
37 | 
38 | if __name__ == "__main__":
39 |     parser = ArgumentParser(description="Script to parallel download jukinmedia video")
40 |     parser.add_argument("--savefolder", default='./jukinmedia',)
41 |     args = parser.parse_args()
42 |     main(args)


--------------------------------------------------------------------------------
/Crawler/parallel_download_VATEX.py:
--------------------------------------------------------------------------------
 1 | from argparse import ArgumentParser
 2 | from multiprocessing import Pool
 3 | import subprocess
 4 | from tqdm import tqdm
 5 | def download(cmd):
 6 |     try:
 7 |        subprocess.run(cmd, shell=True, capture_output=True)
 8 |     except:
 9 |         pass
10 | def main(args):
11 |     cmd_list = open(args.cmd_file,'r').readlines()
12 |     pbar = tqdm(total=len(cmd_list))
13 |     pbar.set_description('download')
14 |     update = lambda *args: pbar.update()
15 |     p = Pool(int(args.num_process))  # 指定进程池中的进程数
16 |     for i, cmd in enumerate(cmd_list):
17 |         p.apply_async(download, args = (cmd.strip(),), callback=update)
18 | 
19 |     print('Waiting for all subprocesses done...')
20 |     p.close()
21 |     p.join() 
22 |     print('All subprocesses done.')
23 |     
24 | if __name__ == "__main__":
25 |     parser = ArgumentParser(description="Script to parallel downloads videos")
26 |     parser.add_argument("--num_process", default=32,)
27 |     parser.add_argument("--cmd_file", default='./VATEX/cmd_list.txt',)
28 |     args = parser.parse_args()
29 |     main(args)


--------------------------------------------------------------------------------
/Crawler/parallel_download_jukin.py:
--------------------------------------------------------------------------------
  1 | from argparse import ArgumentParser
  2 | import json as js
  3 | from concurrent.futures import ThreadPoolExecutor
  4 | import time
  5 | import math
  6 | import sys
  7 | import time
  8 | from concurrent.futures import ThreadPoolExecutor
  9 | import threading
 10 | from pathlib import Path
 11 | import requests
 12 | class ThreadPool:
 13 |     def __init__(self, max_thread_num=5):
 14 |         # 记录全部线程是否已经结束
 15 |         self.over = False
 16 |         # 记录所有的子线程完成后的返回值
 17 |         self.results = []
 18 |  
 19 |         # 子线程函数体
 20 |         self.func = None
 21 |         # 需要传进子线程的参数，数组中每一个元素都是一个元组
 22 |         # 例如有一个函数定义add(a,b)，返回a和b的和
 23 |         # 则数组表现为[(1,2),(3,10),...]
 24 |         # 可以依据数组中的每一个元组建立一个线程
 25 |         self.args_list = None
 26 |         # 需要完成的任务的数量，获取自参数数组的长度
 27 |         self.task_num = 0
 28 |         # 线程池同时容纳的最大线程数，默认为5
 29 |         self.max_thread_num = max_thread_num
 30 |         # 初始化线程池
 31 |         self.pool = ThreadPoolExecutor(max_workers=max_thread_num)
 32 |         self.cond = threading.Condition()
 33 |  
 34 |     # 设置线程池中执行任务的各项参数
 35 |     def set_tasks(self, func, args_list):
 36 |         # 需要完成的任务的数量，获取自参数数组的长度
 37 |         self.task_num = len(args_list)
 38 |         # 参数数组
 39 |         self.args_list = args_list
 40 |         # 线程中执行的函数体
 41 |         self.func = func
 42 |  
 43 |     # 显示进度条，用以查看所有任务的完成进度
 44 |     @staticmethod
 45 |     def show_process(desc_text, curr, total):
 46 |         proc = math.ceil(curr / total * 100)
 47 |         show_line = '\r' + desc_text + ':' + '>' * proc \
 48 |                     + ' ' * (100 - proc) + '[%s%%]' % proc \
 49 |                     + '[%s/%s]' % (curr, total)
 50 |         sys.stdout.write(show_line)
 51 |         sys.stdout.flush()
 52 |         time.sleep(0.1)
 53 |  
 54 |     # 线程完成后的回调，功能有3
 55 |     # 1:监控所有任务的完成进度
 56 |     # 2:收集任务完成后的结果
 57 |     # 3.继续向线程池中添加新的任务
 58 |     def get_result(self, future):
 59 |         # 监控线程完成进度
 60 |         self.show_process('任务完成进度', self.task_num - len(self.args_list), self.task_num)
 61 |         # 将函数处理的返回值添加到结果集合当中，若没有返回值，则future.result()的值是None
 62 |         self.results.append(future.result())
 63 |         # 若参数数组中含有元素，则说明还有后续的任务
 64 |         if len(self.args_list):
 65 |             # 提取出将要执行的一个任务的参数
 66 |             args = self.args_list.pop()
 67 |             # 向线程池中提交一个新任务，第一个参数是函数体，第二个参数是执行函数时所需要的各项参数
 68 |             task = self.pool.submit(self.func, *args)
 69 |             # 绑定任务完成后的回调
 70 |             task.add_done_callback(self.get_result)
 71 |         else:
 72 |             # 若结果的数量与任务的数量相等，则说明所有的任务已经完成
 73 |             if self.task_num == len(self.results):
 74 |                 print('\n', '任务完成')
 75 |                 # 获取锁
 76 |                 self.cond.acquire()
 77 |                 # 通知
 78 |                 self.cond.notify()
 79 |                 # 释放锁
 80 |                 self.cond.release()
 81 |             return
 82 |  
 83 |     def _start_tasks(self):
 84 |         # 向线程池中添加到最大数量的线程
 85 |         for i in range(self.max_thread_num):
 86 |             # 作出所有任务是否已经完成的判断，原因如下：
 87 |             # 如果直接向线程池提交巨大数量的任务，线程池会创建任务队列，占用大量内存
 88 |             # 为减少创建任务队列的巨大开销，本类中所有子线程在完成后的回调中，会向线程池中提交新的任务
 89 |             # 循环往复，直到所有任务全部完成，而任务队列几乎不存在
 90 |             # 1：当提交的任务数量小于线程池容纳的最大线程数，在本循环中，必会出现所有任务已经提交的情况
 91 |             # 2：当函数执行速度非常快的时候，也会出现所有任务已经提交的情况
 92 |  
 93 |             # 如果参数数组中还有元素，则说明没有到达线程池的上限
 94 |             if len(self.args_list):
 95 |                 # 取出一组参数，同时删除该任务
 96 |                 args = self.args_list.pop()
 97 |                 # 向线程池中提交新的任务
 98 |                 task = self.pool.submit(self.func, *args)
 99 |                 # 绑定任务完成后的回调
100 |                 task.add_done_callback(self.get_result)
101 |             # 所有任务已经全部提交，跳出循环
102 |             else:
103 |                 break
104 |  
105 |     # 获取最终所有线程完成后的处理结果
106 |     def final_results(self):
107 |         # 开始执行所有任务
108 |         self._start_tasks()
109 |         # 获取结果时，会有两种情况
110 |         # 所有的任务都已经完成了，直接返回结果就行
111 |         if self.task_num == len(self.results):
112 |             return self.results
113 |         # 线程池中还有未完成的线程，只有当线程池中的任务全部结束才能够获取到最终的结果
114 |         # 这种情况会在线程池容量过大或者线程极度耗时时才会出现
115 |         else:
116 |             # 获取锁
117 |             self.cond.acquire()
118 |             # 阻塞当前线程，等待通知
119 |             self.cond.wait()
120 |             # 已经获取到通知，释放锁
121 |             self.cond.release()
122 |             # 返回结果集
123 |             return self.results
124 | # 参数times用来模拟网络请求的时间
125 | 
126 | def download(save_dir,jmId):
127 |     headers = {
128 |     "X-Algolia-Api-Key": "a6099f9d3771d6ceb142321ac5273d16",
129 |     "X-Algolia-Application-Id": "XSWHBQ6C6E",
130 |     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
131 |     }
132 |     response = requests.post('https://www.jukinmedia.com/api/public/video/downloadVideo/'+jmId,headers=headers)
133 |     video_response = requests.get(js.loads(response.content)['url'])
134 |     f = open(save_dir/('v_'+str(jmId)+'.mp4'),'wb')
135 |     f.write(video_response.content)
136 |     f.close()
137 |     print('{} succeed!'.format(jmId))
138 | 
139 | def check_already(save_dir, args_list):
140 |     already_file = list(map(lambda x:x.name.split('.')[0].split('_')[1],Path(save_dir).rglob('*.mp4')))
141 |     result = []
142 |     for _, arg in args_list:
143 |         if arg not in already_file:
144 |             result.append((_,arg))
145 |     print('already {}, left {}'.format(len(already_file), len(result)))
146 |     return result
147 | 
148 | 
149 | def main(args):
150 |     input_file_path = Path(args.input_file)
151 |     all_data = js.load(open(input_file_path,'r'))
152 |     
153 |     Path(args.save_dir).mkdir(exist_ok=True, parents=True)
154 |     tp = ThreadPool(args.num_process)
155 |     args_list = []
156 |     for cat in all_data:
157 |         args_list+=all_data[cat]
158 |     args_list = [(args.save_dir,data['jmId']) for data in args_list]
159 |     args_list = check_already(args.save_dir,args_list)
160 |     tp.set_tasks(download, args_list)
161 |     # 获取每个线程执行的结果
162 |     res = tp.final_results()
163 |     
164 | if __name__ == "__main__":
165 |     parser = ArgumentParser(description="Script to parallel downloads videos")
166 |     parser.add_argument("--save_dir", required=True,)
167 |     parser.add_argument("--input_file", default='./jukinmedia/jukin-100k.json',)
168 |     parser.add_argument("--num_process", type = int, default=5)
169 |     args = parser.parse_args()
170 |     main(args)
171 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
  1 | # ⛰️Valley: Video Assistant with Large Language model Enhanced abilitY
  2 | Understanding Complex Videos Relying on Large Language and Vision Models
  3 | [[Project Page](https://valley-vl.github.io/)] [[Paper](https://arxiv.org/pdf/2306.07207.pdf)]
  4 | The online demo is no longer available, because we released the code for offline demo deployment
  5 | 
  6 | 
  7 | 
  8 | **Video Assistant with Large Language model Enhanced abilitY** <br>
  9 | [Ruipu Luo*](https://github.com/RupertLuo), [Ziwang Zhao*](), [Min Yang*](https://github.com/feymanpriv) (*Equal Contribution)
 10 | 
 11 | <p align="center">
 12 |     <img src="valley/logo/lama_with_valley.jpeg" width="100%"><br>
 13 |     Generated by <a href="https://stablecog.com/">stablecog</a> via "A cute llama with valley"
 14 | </p>
 15 | 
 16 | [![Code License](https://img.shields.io/badge/Code%20License-Apache_2.0-green.svg)](https://github.com/tatsu-lab/stanford_alpaca/blob/main/LICENSE)
 17 | [![Data License](https://img.shields.io/badge/Data%20License-CC%20By%20NC%204.0-red.svg)](https://github.com/tatsu-lab/stanford_alpaca/blob/main/DATA_LICENSE)
 18 | **Usage and License Notices**: The data, code and checkpoint is intended and licensed for research use only. They are also restricted to uses that follow the license agreement of LLaMA, Vicuna and GPT-4. The dataset is CC BY NC 4.0 (allowing only non-commercial use) and models trained using the dataset should not be used outside of research purposes.
 19 | 
 20 | ## Release
 21 | - [24/12/24] 🔥🔥🔥🔥 [**Valley 2.0**](https://github.com/bytedance/Valley) is now available which is based on Qwen2.5!!! We strongly recommend using Valley 2.0, which has better code usability and better performance in image understanding and video understanding. **DOWNLOAD and TRY!** \[[code](https://github.com/bytedance/Valley)\]| \[[model](https://huggingface.co/bytedance-research/Valley-Eagle-7B)\]
 22 | - [24/02/21] 🔥 **Important!!** Due to my previous preprocessing error, the actual valley_instruct data set did not have 65K, and the actual number was 65k. This data error has now been fixed. The link is at [Valley-Instruct-65k](https://huggingface.co/datasets/luoruipu1/Valley-Instruct-65k). And we provide a script ```get_jukinmedia_videourl.py``` to get the url of jukinmedia video. Please see huggingface’s repo for details.
 23 | - [8/14] 🫧 We released the Chinese version of Valley! Now its 7B and 13b weights are available at [Chinese-Valley7B-V1](https://huggingface.co/Zhaoziwang/chinese_valley7b_v1) and [Chinese-Valley13B-V1](https://huggingface.co/Zhaoziwang/chinese_valley13b_v1).
 24 | - [8/10] 🫧 Realeased pretrain stage weight of 13b and 7b ,[Valley2-7b-pretrain](https://huggingface.co/luoruipu1/Valley2-7b-pretrain/), [valley-13b-pretrain](https://huggingface.co/luoruipu1/valley-13b-pretrain).
 25 | - [8/8] 🫧 We released the self-collected and expanded instruction fine-tuning dataset ([Valley-Instruct-65K](https://huggingface.co/datasets/luoruipu1/Valley-Instruct-65K)).
 26 | - [8/7]  🫧 We released [Valley2-7b](https://huggingface.co/luoruipu1/Valley2-7b), It replaces Vicuna with Llama 2.
 27 | - [7/23] 🫧 We modified the our training code to make it easier to train valley and also support the training of lora.
 28 | - [7/5]  🫧 Release training code for valley, and upload our pretraining data.
 29 | - [6/21] 🫧 upload offline demo code.
 30 | - [6/14] 🫧 build a share link ~[[demo]()]~.
 31 | - [6/13] 🫧 We uploaded model weight of [Valley-13b-v1-delta](https://huggingface.co/luoruipu1/valley-13b-v1-delta).
 32 | - [6/12] 🫧 We released Valley: Video Assistant with Large Language model Enhanced abilitY.  Checkout the [paper](https://arxiv.org/pdf/2306.07207.pdf).
 33 | 
 34 | ## Install
 35 | 1. Clone this repository and navigate to Valley folder
 36 | ```
 37 | git clone https://github.com/RupertLuo/Valley.git
 38 | cd Valley
 39 | ```
 40 | 2. Install Package
 41 | ```
 42 | conda create -n valley python=3.10 -y
 43 | conda activate valley
 44 | pip install --upgrade pip
 45 | pip install -e .
 46 | ```
 47 | ## Data
 48 | In the pretrain stage, we use the data from [LLaVA-CC3M-Pretrain-595K](https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain) and the [Valley-webvid2M-Pretrain-703K](https://huggingface.co/datasets/luoruipu1/Valley-webvid2M-Pretrain-703K) collected and filtered by ourselves. The acquisition of picture and video data can refer to [LLAVA]( https://llava-vl.github.io/) and [Webvid](https://github.com/m-bain/webvid)
 49 | 
 50 | In the finetune stage, we use the data from [LLaVA-instruct-150K](https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K), [VideoChat-instruct-11K](https://github.com/OpenGVLab/InternVideo/tree/main/Data/instruction_data) and our self-collected [Valley-Instruct-65K](https://huggingface.co/datasets/luoruipu1/Valley-Instruct-65K). For the images and videos of the first two parts, please refer to their official website. Here we describe how we obtain the data we collect ourselves ([Valley-Instruct-65K](https://huggingface.co/datasets/luoruipu1/Valley-Instruct-65K)).
 51 | 
 52 | 1. Part of Valley-Instruct-65K is collected from the open source dataset [VATEX](https://eric-xw.github.io/vatex-website/explore.html), which contains about 20k downloadable videos. You can download the original annotation file ("ava_vatex_training_v1.0.json") from its official website. Its video comes from YouTube, and now there are many open source tools that can download YouTube videos by video id. We provide a tool to download its videos, the tool is located in the [Crawler](./Crawler/) folder, please read the tool's [Readme.md](./Crawler/README.md) to use it.
 53 | 2. Another part of Valley-Instruct-65K is collected from a video site, named [JukinMedia](https://www.jukinmedia.com/). It contains a wide variety of videos.  We also provide a tool to download jukinmedia videos and its high quality descriptions, the tool is located in the [Crawler](./Crawler/) folder, please read the tool's [Readme.md](./Crawler/README.md) to use it.
 54 | 
 55 | 
 56 | ## ValleyWeight
 57 | ### Valley 13b v1
 58 | We release [Valley-13b-v1](https://huggingface.co/luoruipu1/valley-13b-v1-delta) delta weights weights to comply with the LLaMA model license. You can apply this delta weights to original LLaMA model weight through the instructions blew:
 59 | 
 60 | 1. Get the original LLaMA weights in the huggingface format by following the instructions structions [here](https://huggingface.co/docs/transformers/main/model_doc/llama).
 61 | 2. Use the following scripts to get Valley weights by applying our delta ([13b-v1](https://huggingface.co/luoruipu1/valley-13b-v1-delta)).
 62 | ```bash
 63 | python3 valley/model/apply_delta.py \
 64 |     --base /path/to/llama-13b \
 65 |     --target /output/path/to/Valley-13B-v1 \
 66 |     --delta /path/to/valley-13b-v1-delta
 67 | ```
 68 | ### Valley2 7b
 69 | For the Valley2-7b model, we provide direct weights, the address is [here](https://huggingface.co/luoruipu1/Valley2-7b)
 70 | 
 71 | ### Chinese Valley 13b
 72 | We now support **Chinese valley**. We use "BelleGroup/BELLE-LLaMA-EXT-13B" as LLM backbone, and  "OFA-Sys/chinese-clip-vit-large-patch14" for visual backbone, the address is [here](https://huggingface.co/Zhaoziwang/chinese_valley_v1).
 73 | 
 74 | ### Pretrain Weight
 75 | We provide [13b](https://huggingface.co/luoruipu1/valley-13b-pretrain) and [7b](https://huggingface.co/luoruipu1/Valley2-7b-pretrain/) pre-trained weights so that people can fine-tune directly on our pre-trained weights with their own fine-tuning data.
 76 | 
 77 | ## Web UI
 78 | <p align="center">
 79 |     <img src="valley/logo/demo.GIF" width="100%"><br>
 80 | </p>
 81 | 
 82 | The framework of this webUI comes from [LLaVA](https://github.com/haotian-liu/LLaVA) and [FastChat](https://github.com/lm-sys/FastChat), we modified a part of the code to make this demo support the input of video and images.
 83 | #### launch a controller
 84 | ```bsah
 85 | python valley/serve/controller.py
 86 | ```
 87 | #### launch a model worker
 88 | ```bsah
 89 | python valley/serve/model_worker.py --model-path /path/to/valley-13b-v1
 90 | ```
 91 | Ps: At present, only single card mode is supported to load the model, and at least 30G of video memory is required, so the graphics card needs at least one Tesla V100.
 92 | #### launch a gradio demo
 93 | ```bash
 94 | python valley/serve/gradio_web_server_video.py --share
 95 | ```
 96 | 
 97 | 
 98 | ## Inference Valley in Command Line
 99 | We now update inference code which is more convient, and supports input in the form of openai api.
100 | 
101 | Inference CLI
102 | ```
103 | python3 inference/run_valley.py --model-name [PATH TO VALLEY WEIGHT] --video_file [PATH TO VIDEO] --quary [YOUR QUERY ON THE VIDEO]
104 | ```
105 | 
106 | Inference Chinese Valley
107 | ```
108 | python3 inference/run_valley.py --model-name [PATH TO CHINESE VALLEY WEIGHT] --video_file [PATH TO VIDEO] --query [YOUR QUERY ON THE VIDEO] --system-prompt "你是大型语言视觉助手 Chinese-Valley。你能够理解用户提供的视觉内容或视频，并使用自然语言协助用户完成各种任务。请仔细按照人类的指令进行回答，并详细解释你的答案。"
109 | ```
110 | 
111 | Inference in code
112 | 
113 | - You can utilize the code located at [valley/inference/run_valley_llamma_v2.py](valley/inference/run_valley_llamma_v2.py) to run inference on a video. All that's required is a video path
114 | 
115 | ```bash
116 | python valley/inference/run_valley_llamma_v2.py --video_file <path-to-video-file>
117 | ```
118 | 
119 | - luoruipu1/Valley2-7b is used in the provided code.
120 | 
121 | ## Train Valley Step By Step
122 | 
123 | Inspired by LLAVA, we adopt a two-stage training method. The pre-training stage uses the [Valley-webvid2M-Pretrain-703K](https://huggingface.co/datasets/luoruipu1/Valley-webvid2M-Pretrain-703K) and [LLaVA-CC3M-Pretrain-595K](https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain).  And fine-tune stage uses [LLaVA-instruct-150K](https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K) ,  [VideoChat-instruct-11K](https://github.com/OpenGVLab/InternVideo/tree/main/Data/instruction_data)  and [Valley-Instruct-65K](https://huggingface.co/datasets/luoruipu1/Valley-Instruct-65K)
124 | 
125 | We modified our code for training valley and managed the model hyperparameters with yaml files. Run the following two scripts to perform valley training.
126 | 
127 | ### Pretrain
128 | The llm backbone that currently supports pre-training is Llama(7b,13b), vicuna(7b,13b), stable-vicuna(13b), Llama2(chat-7b, chat-13b). You need to download these open source language model weights yourself and convert them to the huggingface format.
129 | ```shell
130 | bash valley/train/train.sh valley/configs/experiment/valley_stage1.yaml
131 | ```
132 | 
133 | #### Finetune
134 | 
135 | ```shell
136 | bash valley/train/train.sh valley/configs/experiment/valley_stage2.yaml
137 | ```
138 | 
139 | 
140 | 
141 | ## Acknowledgement
142 | 
143 | - [LLaVA](https://github.com/haotian-liu/LLaVA) & [MOSS](https://github.com/OpenLMLab/MOSS): Thanks to these two repositories for providing high-quality code, our code is based on them.
144 | ## Citation
145 | If the project is helpful to your research, please consider citing our paper as follows
146 | 
147 | ```bibtex
148 | @misc{luo2023valley,
149 |       title={Valley: Video Assistant with Large Language model Enhanced abilitY},
150 |       author={Ruipu Luo and Ziwang Zhao and Min Yang and Junwei Dong and Minghui Qiu and Pengcheng Lu and Tao Wang and Zhongyu Wei},
151 |       year={2023},
152 |       eprint={2306.07207},
153 |       archivePrefix={arXiv},
154 |       primaryClass={cs.CV}
155 | }
156 | ```
157 | 


--------------------------------------------------------------------------------
/pyproject.toml:
--------------------------------------------------------------------------------
 1 | [build-system]
 2 | requires = ["setuptools>=61.0"]
 3 | build-backend = "setuptools.build_meta"
 4 | 
 5 | [project]
 6 | name = "valley"
 7 | version = "0.1.0"
 8 | description = "A video assistant towards instruction tuning"
 9 | readme = "README.md"
10 | requires-python = ">=3.8"
11 | classifiers = [
12 |     "Programming Language :: Python :: 3",
13 |     "License :: OSI Approved :: Apache Software License",
14 | ]
15 | dependencies = [
16 |     "accelerate", "einops", "fastapi", "gradio==3.23", "markdown2[all]", "numpy",
17 |     "requests", "sentencepiece", "tokenizers==0.12.1",
18 |     "torch", "torchvision", "uvicorn",
19 |     "transformers@git+https://github.com/huggingface/transformers.git@cae78c46", 
20 |     "ninja", "decord","einops","scikit-image","opencv-python-headless","peft",
21 |     "deepspeed", "prettytable","wandb"
22 | ]
23 | 
24 | [project.urls]
25 | "Bug Tracker" = "https://github.com/RupertLuo/Valley/issues"
26 | 
27 | [tool.setuptools.packages.find]
28 | exclude = ["assets*", "benchmark*", "docs", "dist*", "playground*", "scripts*", "tests*"]
29 | 
30 | [tool.wheel]
31 | exclude = ["assets*", "benchmark*", "docs", "dist*", "playground*", "scripts*", "tests*"]


--------------------------------------------------------------------------------
/valley/configs/deepspeed/config_zero2.json:
--------------------------------------------------------------------------------
 1 | {
 2 |     "fp16": {
 3 |         "enabled": "auto",
 4 |         "loss_scale": 0,
 5 |         "loss_scale_window": 1000,
 6 |         "initial_scale_power": 16,
 7 |         "hysteresis": 2,
 8 |         "min_loss_scale": 1
 9 |     },
10 |     "bf16": {
11 |         "enabled": "auto"
12 |     },
13 | 
14 |     "zero_optimization": {
15 |         "stage": 2,
16 |         "allgather_partitions": true,
17 |         "allgather_bucket_size": 5e8,
18 |         "overlap_comm": true,
19 |         "reduce_scatter": true,
20 |         "reduce_bucket_size": 5e8,
21 |         "contiguous_gradients": true
22 |     },
23 | 
24 |     "gradient_accumulation_steps": "auto",
25 |     "gradient_clipping": "auto",
26 |     "steps_per_print": 2000,
27 |     "train_batch_size": "auto",
28 |     "train_micro_batch_size_per_gpu": "auto",
29 |     "wall_clock_breakdown": false
30 | }


--------------------------------------------------------------------------------
/valley/configs/deepspeed/config_zero3.json:
--------------------------------------------------------------------------------
 1 | {
 2 |     "fp16": {
 3 |         "enabled": "auto",
 4 |         "loss_scale": 0,
 5 |         "loss_scale_window": 1000,
 6 |         "initial_scale_power": 16,
 7 |         "hysteresis": 2,
 8 |         "min_loss_scale": 1
 9 |     },
10 |     "bf16": {
11 |         "enabled": "auto"
12 |     },
13 |     "train_micro_batch_size_per_gpu": "auto",
14 |     "train_batch_size": "auto",
15 |     "gradient_accumulation_steps": "auto",
16 |     "zero_optimization": {
17 |         "stage": 3,
18 |         "overlap_comm": true,
19 |         "contiguous_gradients": true,
20 |         "sub_group_size": 1e9,
21 |         "reduce_bucket_size": "auto",
22 |         "stage3_prefetch_bucket_size": "auto",
23 |         "stage3_param_persistence_threshold": "auto",
24 |         "stage3_max_live_parameters": 1e9,
25 |         "stage3_max_reuse_distance": 1e9,
26 |         "stage3_gather_16bit_weights_on_model_save": true
27 |     }
28 | }


--------------------------------------------------------------------------------
/valley/configs/deepspeed/config_zero3_offload.json:
--------------------------------------------------------------------------------
 1 | {
 2 |     "fp16": {
 3 |       "enabled": "auto",
 4 |       "loss_scale": 0,
 5 |       "loss_scale_window": 1000,
 6 |       "initial_scale_power": 16,
 7 |       "hysteresis": 2,
 8 |       "min_loss_scale": 1
 9 |     },
10 |     "bf16": {
11 |       "enabled": "auto"
12 |     },
13 |     "optimizer": {
14 |       "type": "AdamW",
15 |       "params": {
16 |         "lr": "auto",
17 |         "betas": "auto",
18 |         "eps": "auto",
19 |         "weight_decay": "auto"
20 |       }
21 |     },
22 |     "scheduler": {
23 |       "type": "WarmupLR",
24 |       "params": {
25 |         "warmup_min_lr": "auto",
26 |         "warmup_max_lr": "auto",
27 |         "warmup_num_steps": "auto"
28 |       }
29 |     },
30 |     "zero_optimization": {
31 |       "stage": 3,
32 |       "offload_optimizer": {
33 |         "device": "cpu",
34 |         "pin_memory": true
35 |       },
36 |       "offload_param": {
37 |         "device": "cpu",
38 |         "pin_memory": true
39 |       },
40 |       "overlap_comm": true,
41 |       "contiguous_gradients": true,
42 |       "sub_group_size": 1e9,
43 |       "reduce_bucket_size": "auto",
44 |       "stage3_prefetch_bucket_size": "auto",
45 |       "stage3_param_persistence_threshold": "auto",
46 |       "stage3_max_live_parameters": 1e9,
47 |       "stage3_max_reuse_distance": 1e9,
48 |       "gather_16bit_weights_on_model_save": true
49 |     },
50 |     "gradient_accumulation_steps": "auto",
51 |     "gradient_clipping": "auto",
52 |     "train_batch_size": "auto",
53 |     "train_micro_batch_size_per_gpu": "auto",
54 |     "steps_per_print": 1e5,
55 |     "wall_clock_breakdown": false
56 |   }


--------------------------------------------------------------------------------
/valley/configs/experiment/valley_stage1.yaml:
--------------------------------------------------------------------------------
 1 | model_name_or_path: Path/to/opensource/LLM
 2 | data_path: Path/to/LLaVA-CC3M-Pretrain-595K/chat.json
 3 | image_folder: Path/to/LLaVA-CC3M-Pretrain-595K/image_new
 4 | video_data_path: Path/to/webvid_703K/chat.json
 5 | video_folder: Path/to/webvid_703K/videos
 6 | output_dir: Path/to/model/out/dir
 7 | # experiment name
 8 | project_name: valley
 9 | run_name: valley_stage1
10 | 
11 | # Whether to make the system prompt a mask in the label, and others do not mask
12 | only_mask_system: False
13 | # system prompt style
14 | conv_mode: v1
15 | # wether freeze backbone
16 | freeze_backbone: True
17 | # wether tune multimodal projection layer
18 | tune_mm_mlp_adapter: True
19 | # wether lora
20 | lora: False
21 | # wether multimodal
22 | is_multimodal: True
23 | 
24 | num_train_epochs: 1
25 | per_device_train_batch_size: 16
26 | save_strategy: steps
27 | save_steps: 2400
28 | learning_rate: 2e-3
29 | gradient_checkpointing: True
30 | 
31 | # wether do fast epoch
32 | fast_epoch: False
33 | 
34 | vision_tower: openai/clip-vit-large-patch14
35 | mm_vision_select_layer: -2
36 | mm_use_im_start_end: True
37 | lazy_preprocess: True
38 | bf16: False
39 | fp16: True
40 | tf32: False
41 | per_device_eval_batch_size: 1
42 | gradient_accumulation_steps: 1
43 | evaluation_strategy: "no"
44 | save_total_limit: 1 
45 | weight_decay: 0.
46 | warmup_ratio: 0.03 
47 | lr_scheduler_type: cosine
48 | logging_steps: 1 
49 | model_max_length: 2048 
50 | adam_beta1: 0.9 
51 | adam_beta2: 0.95 
52 | deepspeed: valley/configs/deepspeed/config_zero2.json
53 | report_to: wandb


--------------------------------------------------------------------------------
/valley/configs/experiment/valley_stage2.yaml:
--------------------------------------------------------------------------------
 1 | model_name_or_path:  Path/ to/ pretrain/ valley/ from/ stage1
 2 | data_path:  Path/ to/ LLaVA-Instruct-150K/ llava_instruct_150k.json
 3 | image_folder:  Path/ to/ COCO/ train2014
 4 | video_data_path: /Path/ to/ Valley-Instruct/ valley_instruct_73k.json
 5 | video_folder:  Path/ to/ Valley-Instruct/ videos
 6 | output_dir: Model/ Output/ path
 7 | prediction_file_name: Model/ Output/ path/ eval_result.jsonl # evaluation file output path
 8 | # experiment name
 9 | project_name: valley
10 | run_name: valley_stage2
11 | # Whether to make the system prompt a mask in the label, and others do not mask
12 | only_mask_system: False
13 | # system prompt style
14 | conv_mode: v1
15 | # wether freeze backbone
16 | freeze_backbone: False
17 | # wether tune multimodal projection layer
18 | tune_mm_mlp_adapter: True
19 | # wether lora
20 | lora: False
21 | # wether multimodal
22 | is_multimodal: True
23 | 
24 | num_train_epochs: 3
25 | per_device_train_batch_size: 1
26 | per_device_eval_batch_size: 1 # must 1
27 | save_strategy: steps
28 | save_steps: 3000
29 | evaluation_strategy: 'no'
30 | eval_steps: 3000
31 | eval_num: 600
32 | use_legacy_prediction_loop: True
33 | predict_with_generate: True
34 | prediction_loss_only: False
35 | generation_max_length: 1536
36 | learning_rate: 2e-5
37 | gradient_checkpointing: True
38 | 
39 | # wether do fast epoch
40 | fast_epoch: False
41 | 
42 | vision_tower: openai/clip-vit-large-patch14
43 | mm_vision_select_layer: -2
44 | mm_use_im_start_end: True
45 | lazy_preprocess: True
46 | bf16: True
47 | fp16: False
48 | tf32: False
49 | gradient_accumulation_steps: 1
50 | weight_decay: 0.
51 | warmup_ratio: 0.03 
52 | lr_scheduler_type: cosine
53 | logging_steps: 1 
54 | model_max_length: 2048 
55 | deepspeed: valley/configs/deepspeed/config_zero2.json
56 | report_to: wandb


--------------------------------------------------------------------------------
/valley/configs/experiment/valley_stage2_lora.yaml:
--------------------------------------------------------------------------------
 1 | model_name_or_path:  Path/ to/ pretrain/ valley/ from/ stage1
 2 | data_path:  Path/ to/ LLaVA-Instruct-150K/ llava_instruct_150k.json
 3 | image_folder:  Path/ to/ COCO/ train2014
 4 | video_data_path: /Path/ to/ Valley-Instruct/ valley_instruct_73k.json
 5 | video_folder:  Path/ to/ Valley-Instruct/ videos
 6 | output_dir: Model/ Output/ path
 7 | prediction_file_name: Model/ Output/ path/ eval_result.jsonl # evaluation file output path
 8 | # experiment name
 9 | project_name: valley
10 | run_name: valley_stage2_lora
11 | # Whether to make the system prompt a mask in the label, and others do not mask
12 | only_mask_system: False
13 | # system prompt style
14 | conv_mode: v1
15 | # wether freeze backbone
16 | freeze_backbone: False
17 | # wether tune multimodal projection layer
18 | tune_mm_mlp_adapter: True
19 | # wether lora
20 | lora: True
21 | # wether multimodal
22 | is_multimodal: True
23 | 
24 | num_train_epochs: 3
25 | per_device_train_batch_size: 4
26 | save_strategy: 'no'
27 | lora_save_strategy: steps # if do lora training, turn on this button, to only save lora weight. support ['steps','epochs','no']
28 | save_steps: 5000
29 | learning_rate: 5e-4
30 | gradient_checkpointing: True
31 | 
32 | # wether do fast epoch
33 | fast_epoch: False
34 | 
35 | vision_tower: openai/clip-vit-large-patch14
36 | mm_vision_select_layer: -2
37 | mm_use_im_start_end: True
38 | lazy_preprocess: True
39 | bf16: False
40 | fp16: True
41 | tf32: False
42 | per_device_eval_batch_size: 1
43 | gradient_accumulation_steps: 1
44 | evaluation_strategy: "no"
45 | save_total_limit: 3
46 | weight_decay: 0.
47 | warmup_ratio: 0.03 
48 | lr_scheduler_type: cosine
49 | logging_steps: 1 
50 | model_max_length: 2048 
51 | adam_beta1: 0.9 
52 | adam_beta2: 0.95 
53 | deepspeed: valley/configs/deepspeed/config_zero2.json
54 | report_to: wandb


--------------------------------------------------------------------------------
/valley/configs/experiment/valley_stage2_zero3.yaml:
--------------------------------------------------------------------------------
 1 | model_name_or_path:  Path/ to/ pretrain/ valley/ from/ stage1
 2 | data_path:  Path/ to/ LLaVA-Instruct-150K/ llava_instruct_150k.json
 3 | image_folder:  Path/ to/ COCO/ train2014
 4 | video_data_path: /Path/ to/ Valley-Instruct/ valley_instruct_73k.json
 5 | video_folder:  Path/ to/ Valley-Instruct/ videos
 6 | output_dir: Model/ Output/ path
 7 | prediction_file_name: Model/ Output/ path/ eval_result.jsonl  # evaluation file output path
 8 | # experiment name
 9 | project_name: valley2
10 | run_name: valley_stage2_zero3
11 | # Whether to make the system prompt a mask in the label, and others do not mask
12 | only_mask_system: False
13 | # system prompt style
14 | conv_mode: v1
15 | # wether freeze backbone
16 | freeze_backbone: False
17 | # wether tune multimodal projection layer
18 | tune_mm_mlp_adapter: True
19 | # wether freeze multimodal projection layer
20 | freeze_mm_mlp_adapter: False
21 | # wether lora
22 | lora: False
23 | # wether multimodal
24 | is_multimodal: True
25 | 
26 | num_train_epochs: 3
27 | per_device_train_batch_size: 1 # zero3 must 1
28 | per_device_eval_batch_size: 1 # must 1
29 | save_strategy: steps
30 | save_steps: 3000
31 | evaluation_strategy: "no"
32 | eval_steps: 3000
33 | eval_num: 600
34 | use_legacy_prediction_loop: True
35 | predict_with_generate: True
36 | prediction_loss_only: False
37 | generation_max_length: 1536
38 | learning_rate: 2e-5
39 | gradient_checkpointing: True
40 | 
41 | # wether do fast epoch
42 | fast_epoch: False
43 | 
44 | vision_tower: openai/clip-vit-large-patch14
45 | mm_vision_select_layer: -2
46 | mm_use_im_start_end: True
47 | lazy_preprocess: True
48 | bf16: False
49 | fp16: True
50 | tf32: False
51 | gradient_accumulation_steps: 1
52 | weight_decay: 0.
53 | warmup_ratio: 0.03 
54 | lr_scheduler_type: cosine
55 | logging_steps: 1 
56 | model_max_length: 2048 
57 | deepspeed: valley/configs/deepspeed/config_zero3.json
58 | report_to: wandb


--------------------------------------------------------------------------------
/valley/constants.py:
--------------------------------------------------------------------------------
1 | CONTROLLER_HEART_BEAT_EXPIRATION = 30
2 | WORKER_HEART_BEAT_INTERVAL = 15
3 | 
4 | LOGDIR = "."
5 | 


--------------------------------------------------------------------------------
/valley/conversation.py:
--------------------------------------------------------------------------------
  1 | import dataclasses
  2 | from enum import auto, Enum
  3 | from typing import List, Tuple
  4 | import base64
  5 | 
  6 | class SeparatorStyle(Enum):
  7 |     """Different separator style."""
  8 |     SINGLE = auto()
  9 |     TWO = auto()
 10 | 
 11 | 
 12 | @dataclasses.dataclass
 13 | class Conversation:
 14 |     """A class that keeps all conversation history."""
 15 |     system: str
 16 |     roles: List[str]
 17 |     messages: List[List[str]]
 18 |     offset: int
 19 |     sep_style: SeparatorStyle = SeparatorStyle.SINGLE
 20 |     sep: str = "###"
 21 |     sep2: str = None
 22 |     mode: str = None
 23 |     skip_next: bool = False
 24 | 
 25 |     def get_prompt(self):
 26 |         if self.sep_style == SeparatorStyle.SINGLE:
 27 |             ret = self.system + self.sep
 28 |             for role, message in self.messages:
 29 |                 if message:
 30 |                     if type(message) is tuple:
 31 |                         message, _, _ = message
 32 |                     ret += role + ": " + message + self.sep
 33 |                 else:
 34 |                     ret += role + ":"
 35 |             return ret
 36 |         elif self.sep_style == SeparatorStyle.TWO:
 37 |             seps = [self.sep, self.sep2]
 38 |             ret = self.system + seps[0]
 39 |             for i, (role, message) in enumerate(self.messages):
 40 |                 if message:
 41 |                     if type(message) is tuple:
 42 |                         message, _, _ = message
 43 |                     ret += role + ": " + message + seps[i % 2]
 44 |                 else:
 45 |                     ret += role + ":"
 46 |             return ret
 47 |         else:
 48 |             raise ValueError(f"Invalid style: {self.sep_style}")
 49 | 
 50 |     def append_message(self, role, message):
 51 |         self.messages.append([role, message])
 52 |     
 53 |     
 54 |     def get_video(self,):
 55 |         videos = []
 56 |         path_list = []
 57 |         for i, (role, msg) in enumerate(self.messages[self.offset:]):
 58 |             if i % 2 == 0:
 59 |                 if type(msg) is tuple:
 60 |                     msg, video_path, image_process_mode = msg
 61 |                     path_list.append(video_path)
 62 |                     with open(video_path, "rb") as videoFile:
 63 |                         video_b64_str = base64.b64encode(videoFile.read())
 64 |                     videos.append(video_b64_str)
 65 |         return videos, path_list
 66 |     def get_images(self, return_pil=False):
 67 |         images = []
 68 |         for i, (role, msg) in enumerate(self.messages[self.offset:]):
 69 |             if i % 2 == 0:
 70 |                 if type(msg) is tuple:
 71 |                     import base64
 72 |                     from io import BytesIO
 73 |                     from PIL import Image
 74 |                     msg, image_list, image_process_mode = msg
 75 |                     if type(image_list) is not list:
 76 |                         image_list = [image_list]
 77 |                     for image in image_list:
 78 |                         if image_process_mode == "Pad":
 79 |                             def expand2square(pil_img, background_color=(122, 116, 104)):
 80 |                                 width, height = pil_img.size
 81 |                                 if width == height:
 82 |                                     return pil_img
 83 |                                 elif width > height:
 84 |                                     result = Image.new(pil_img.mode, (width, width), background_color)
 85 |                                     result.paste(pil_img, (0, (width - height) // 2))
 86 |                                     return result
 87 |                                 else:
 88 |                                     result = Image.new(pil_img.mode, (height, height), background_color)
 89 |                                     result.paste(pil_img, ((height - width) // 2, 0))
 90 |                                     return result
 91 |                             image = expand2square(image)
 92 |                         elif image_process_mode == "Crop":
 93 |                             pass
 94 |                         elif image_process_mode == "Resize":
 95 |                             image = image.resize((224, 224))
 96 |                         else:
 97 |                             raise ValueError(f"Invalid image_process_mode: {image_process_mode}")
 98 |                         max_hw, min_hw = max(image.size), min(image.size)
 99 |                         aspect_ratio = max_hw / min_hw
100 |                         max_len, min_len = 800, 400
101 |                         shortest_edge = int(min(max_len / aspect_ratio, min_len, min_hw))
102 |                         longest_edge = int(shortest_edge * aspect_ratio)
103 |                         W, H = image.size
104 |                         if H > W:
105 |                             H, W = longest_edge, shortest_edge
106 |                         else:
107 |                             H, W = shortest_edge, longest_edge
108 |                         image = image.resize((W, H))
109 |                         if return_pil:
110 |                             images.append(image)
111 |                         else:
112 |                             buffered = BytesIO()
113 |                             image.save(buffered, format="JPEG")
114 |                             img_b64_str = base64.b64encode(buffered.getvalue()).decode()
115 |                             images.append(img_b64_str)
116 |         return images
117 | 
118 |     def to_gradio_chatbot(self):
119 |         ret = []
120 |         for i, (role, msg) in enumerate(self.messages[self.offset:]):
121 |             if i % 2 == 0:
122 |                 if type(msg) is tuple:
123 |                     import base64
124 |                     from io import BytesIO
125 |                     msg, image, image_process_mode = msg
126 |                     img_str = ''
127 |                     max_hw, min_hw = max(image.size), min(image.size)
128 |                     aspect_ratio = max_hw / min_hw
129 |                     max_len, min_len = 800, 400
130 |                     shortest_edge = int(min(max_len / aspect_ratio, min_len, min_hw))
131 |                     longest_edge = int(shortest_edge * aspect_ratio)
132 |                     W, H = image.size
133 |                     if H > W:
134 |                         H, W = longest_edge, shortest_edge
135 |                     else:
136 |                         H, W = shortest_edge, longest_edge
137 |                     image = image.resize((W, H))
138 |                     # image = image.resize((224, 224))
139 |                     buffered = BytesIO()
140 |                     image.save(buffered, format="JPEG")
141 |                     img_b64_str = base64.b64encode(buffered.getvalue()).decode()
142 |                     img_str = img_str+f'<img src="data:image/png;base64,{img_b64_str}" alt="user upload image" />'
143 |                     msg = msg.replace('<image>', '')+img_str
144 |                     ret.append([msg, None])
145 |                 else:
146 |                     ret.append([msg, None])
147 |             else:
148 |                 ret[-1][-1] = msg
149 |         return ret
150 | 
151 |     def video_to_gradio_chatbot(self):
152 |         ret = []
153 |         for i, (role, msg) in enumerate(self.messages[self.offset:]):
154 |             if i % 2 == 0:
155 |                 if type(msg) is tuple:
156 |                     
157 |                     msg, video, image_process_mode = msg
158 |                     with open(video, "rb") as videoFile:
159 |                         video_b64_str = base64.b64encode(videoFile.read()).decode("utf-8") 
160 |                     img_str = ''
161 |                     img_str = img_str+f'''<video controls align="left" style="height: 200px;" src="data:video/mp4;base64,{video_b64_str}">
162 |                                             The “video” tag is not supported by your browser. Click [here] to download the video file.
163 |                                             </video>'''
164 |                     msg = msg.replace('<video>', '')+img_str
165 |                     ret.append([msg, None])
166 |                 else:
167 |                     ret.append([msg, None])
168 |             else:
169 |                 ret[-1][-1] = msg
170 |         return ret
171 | 
172 |     def copy(self):
173 |         return Conversation(
174 |             system=self.system,
175 |             roles=self.roles,
176 |             messages=[[x, y] for x, y in self.messages],
177 |             offset=self.offset,
178 |             sep_style=self.sep_style,
179 |             sep=self.sep,
180 |             sep2=self.sep2)
181 | 
182 |     def dict(self):
183 |         if len(self.get_images()) > 0:
184 |             return {
185 |                 "system": self.system,
186 |                 "roles": self.roles,
187 |                 "messages": [[x, y[0] if type(y) is tuple else y] for x, y in self.messages],
188 |                 "offset": self.offset,
189 |                 "sep": self.sep,
190 |                 "sep2": self.sep2,
191 |             }
192 |         return {
193 |             "system": self.system,
194 |             "roles": self.roles,
195 |             "messages": self.messages,
196 |             "offset": self.offset,
197 |             "sep": self.sep,
198 |             "sep2": self.sep2,
199 |         }
200 | conv_v1_2 = Conversation(
201 |     system="A chat between a curious human and an artificial intelligence assistant. "
202 |            "The assistant gives helpful, detailed, and polite answers to the human's questions.",
203 |     roles=("Human", "Assistant"),
204 |     messages=(
205 |     ),
206 |     offset=0,
207 |     sep_style=SeparatorStyle.SINGLE,
208 |     sep="###",
209 | )
210 | 
211 | simple_conv_video = Conversation(
212 |     system="You are Valley, a large language and vision assistant trained by ByteDance."
213 |            "You are able to understand the visual content or video that the user provides, and assist the user with a variety of tasks using natural language."
214 |            "Follow the instructions carefully and explain your answers in detail.",
215 |     roles=("Human", "Assistant"),
216 |     messages=(
217 |         ("Human", "Hi!"),
218 |         ("Assistant", "Hi there!  How can I help you today?\n")
219 |     ),
220 |     offset=2,
221 |     sep_style=SeparatorStyle.SINGLE,
222 |     sep="###",
223 | )
224 | default_conversation = simple_conv_video
225 | conv_templates = {
226 |     "v1":conv_v1_2,
227 |     "multimodal_video":simple_conv_video,
228 | }


--------------------------------------------------------------------------------
/valley/data/dataset.py:
--------------------------------------------------------------------------------
  1 | import json
  2 | from torch.utils.data import Dataset
  3 | from PIL import Image
  4 | import random
  5 | import os
  6 | import torch
  7 | import json
  8 | import logging
  9 | import transformers
 10 | from typing import Dict, Sequence
 11 | from dataclasses import dataclass
 12 | from valley.util.config import *
 13 | from valley.util.data_util import preprocess, preprocess_multimodal_multiimage, load_video
 14 | import copy
 15 | import random
 16 | 
 17 | class HybridDataset(Dataset):
 18 |     """Dataset for supervised fine-tuning."""
 19 | 
 20 |     def __init__(self, data_path: str, video_path: str,
 21 |                  tokenizer: transformers.PreTrainedTokenizer,
 22 |                  multimodal_cfg: dict, **kwargs):
 23 |         super(HybridDataset, self).__init__()
 24 |         logging.warning("Loading data...")
 25 |         if multimodal_cfg['fast_epoch']:
 26 |             list_data_dict = json.load(open(data_path, "r"))[0:10]
 27 |             if video_path is not None:
 28 |                 list_video_dict = json.load(open(video_path, 'r'))[0:10]
 29 |             else:
 30 |                 list_video_dict = []
 31 |             if multimodal_cfg['use_fashion']:
 32 |                 list_fashion_dict = json.load(
 33 |                     open(kwargs['fashion_data_path']))[0:100]
 34 |         else:
 35 |             list_data_dict = json.load(open(data_path, "r"))
 36 |             if video_path is not None:
 37 |                 list_video_dict = json.load(open(video_path, 'r'))
 38 |             else:
 39 |                 list_video_dict = []
 40 |             if multimodal_cfg['use_fashion']:
 41 |                 list_fashion_dict = json.load(
 42 |                     open(kwargs['fashion_data_path']))
 43 |         logging.warning("Formatting inputs...Skip in lazy mode")
 44 |         self.tokenizer = tokenizer
 45 |         self.list_data_dict = list_video_dict+list_data_dict + \
 46 |             list_fashion_dict if multimodal_cfg['use_fashion'] else list_video_dict + list_data_dict
 47 |         # self.list_data_dict = list_data_dict
 48 |         random.shuffle(self.list_data_dict)
 49 |         self.multimodal_cfg = multimodal_cfg
 50 |         self.header_mode = multimodal_cfg['conv_mode']
 51 | 
 52 | 
 53 |     def __len__(self):
 54 |         return len(self.list_data_dict)
 55 | 
 56 |     def __getitem__(self, i) -> Dict[str, torch.Tensor]:
 57 |         sources = self.list_data_dict[i]
 58 | 
 59 |         try:
 60 |             if isinstance(i, int):
 61 |                 sources = [sources]
 62 |             assert len(
 63 |                 sources) == 1, "Don't know why it is wrapped to a list"  # FIXME
 64 |             if 'image' in sources[0]:
 65 |                 processor = self.multimodal_cfg['image_processor']
 66 |                 # multi image preprocess
 67 |                 if isinstance(self.list_data_dict[i]['image'], list):
 68 |                     image_file_lsit = self.list_data_dict[i]['image']  # 全部图片
 69 |                     image = [Image.open(image_file)
 70 |                              for image_file in image_file_lsit]
 71 |                     image = processor.preprocess(image, return_tensors='pt')[
 72 |                         'pixel_values']
 73 |                     # FIXME: 14 is hardcoded patch size
 74 |                     cur_token_len = (image[0].shape[1] //
 75 |                                      14) * (image[0].shape[2]//14)
 76 |                     sources = preprocess_multimodal_multiimage(
 77 |                         copy.deepcopy([e["conversations"] for e in sources]),
 78 |                         self.multimodal_cfg, cur_token_len, image.shape[0]
 79 |                     )
 80 |                 else:
 81 |                     image_file = self.list_data_dict[i]['image']
 82 |                     image_folder = self.multimodal_cfg['image_folder']
 83 |                     if 'train2014' in image_folder:
 84 |                         image_file = 'COCO_train2014_'+image_file
 85 |                     image = Image.open(os.path.join(image_folder, image_file))
 86 |                     if self.multimodal_cfg['image_aspect_ratio'] == 'keep':
 87 |                         max_hw, min_hw = max(image.size), min(image.size)
 88 |                         aspect_ratio = max_hw / min_hw
 89 |                         max_len, min_len = 448, 224
 90 |                         shortest_edge = int(
 91 |                             min(max_len / aspect_ratio, min_len))
 92 |                         image = processor.preprocess(image, return_tensors='pt', do_center_crop=False, size={
 93 |                                                      "shortest_edge": shortest_edge})['pixel_values'][0]
 94 |                     else:
 95 |                         image = processor.preprocess(image, return_tensors='pt')[
 96 |                             'pixel_values'][0]
 97 |                     if self.multimodal_cfg['multi_image']:
 98 |                         image = image.unsqueeze(0)
 99 |                     if len(image.shape) == 3:
100 |                         # FIXME: 14 is hardcoded patch size
101 |                         cur_token_len = (
102 |                             image.shape[1]//14) * (image.shape[2]//14)
103 |                     elif len(image.shape) == 4:
104 |                         # FIXME: 14 is hardcoded patch size
105 |                         cur_token_len = (
106 |                             image.shape[2]//14) * (image.shape[3]//14)
107 |                     sources = preprocess_multimodal_multiimage(
108 |                         copy.deepcopy([e["conversations"] for e in sources]),
109 |                         self.multimodal_cfg, cur_token_len, image.shape[0])
110 |             elif 'video' in sources[0]:
111 |                 video_file = self.list_data_dict[i]['video'] if '.mp4' in self.list_data_dict[
112 |                     i]['video'] else self.list_data_dict[i]['video']+'.mp4'
113 |                 if 'source' in self.list_data_dict[i]:
114 |                     video_file_source = self.list_data_dict[i]['source']
115 |                     video_folder = self.multimodal_cfg['video_folder'] + \
116 |                         '/'+video_file_source
117 |                 else:
118 |                     video_folder = self.multimodal_cfg['video_folder'] + \
119 |                         '/'+'webvid'
120 |                 video = load_video(video_folder+'/' + video_file)
121 |                 # print(video.shape)
122 |                 video = video.permute(1, 0, 2, 3)
123 |                 # FIXME: 14 is hardcoded patch size
124 |                 cur_token_len = (video[0].shape[1]//14) * \
125 |                     (video[0].shape[2]//14)
126 |                 sources = preprocess_multimodal_multiimage(
127 |                     copy.deepcopy([e["conversations"] for e in sources]),
128 |                     self.multimodal_cfg, cur_token_len, video.shape[0]
129 |                 )
130 |             else:
131 |                 sources = copy.deepcopy([e["conversations"] for e in sources])
132 |             data_dict = preprocess(
133 |                 sources,
134 |                 self.tokenizer, self.header_mode)
135 |             if isinstance(i, int):
136 |                 data_dict = dict(input_ids=data_dict["input_ids"][0],
137 |                                  labels=data_dict["labels"][0])
138 | 
139 |             # image exist in the data
140 |             if 'image' in self.list_data_dict[i]:
141 |                 data_dict['image'] = image
142 |             elif 'video' in self.list_data_dict[i]:
143 |                 data_dict['image'] = video
144 |             elif self.multimodal_cfg['is_multimodal']:
145 |                 # image does not exist in the data, but the model is multimodal
146 |                 crop_size = self.multimodal_cfg['image_processor'].crop_size
147 |                 data_dict['image'] = torch.zeros(
148 |                     3, crop_size['height'], crop_size['width'])
149 |             return data_dict
150 |         except Exception as e:
151 |             print(e)
152 |             print(self.list_data_dict[i]['id'])
153 |             return ('fail', sources)
154 | 
155 | 
156 | @dataclass
157 | class DataCollatorForSupervisedDataset(object):
158 |     """Collate examples for supervised fine-tuning."""
159 | 
160 |     tokenizer: transformers.PreTrainedTokenizer
161 | 
162 | 
163 |     def __call__(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]:
164 |         instances_no_error = []
165 |         for ins in instances:
166 |             if type(ins) != tuple:
167 |                 instances_no_error.append(ins)
168 |         instances = instances_no_error
169 |         input_ids, labels = tuple([instance[key] for instance in instances]
170 |                                   for key in ("input_ids", "labels"))
171 |         input_ids = torch.nn.utils.rnn.pad_sequence(
172 |             input_ids,
173 |             batch_first=True,
174 |             padding_value=self.tokenizer.pad_token_id)
175 |         # print(input_ids.shape)
176 |         labels = torch.nn.utils.rnn.pad_sequence(labels,
177 |                                                  batch_first=True,
178 |                                                  padding_value=IGNORE_INDEX)
179 |         batch = dict(
180 |             input_ids=input_ids,
181 |             labels=labels,
182 |             attention_mask=input_ids.ne(self.tokenizer.pad_token_id),
183 |         )
184 | 
185 |         if 'image' in instances[0]:
186 |             images = [instance['image'].half() for instance in instances]
187 |             if all(x is not None and x.shape == images[0].shape for x in images):
188 |                 batch['images'] = torch.stack(images)
189 |             else:
190 |                 batch['images'] = images
191 | 
192 |         return batch
193 | 
194 | 
195 | def make_video_supervised_data_module(tokenizer: transformers.PreTrainedTokenizer,
196 |                                       data_args) -> Dict:
197 |     """Make dataset and collator for supervised fine-tuning."""
198 |     train_dataset = HybridDataset(
199 |         data_args.data_path,
200 |         data_args.video_data_path,
201 |         tokenizer,
202 |         dict(
203 |             conv_mode=data_args.conv_mode,
204 |             fast_epoch=data_args.fast_epoch,
205 |             use_fashion=data_args.use_fashion,
206 |             multi_image=data_args.multi_image,
207 |             num_image=data_args.num_image,
208 |             is_multimodal=data_args.is_multimodal,
209 |             image_token_len=data_args.image_token_len,
210 |             image_folder=data_args.image_folder,
211 |             video_folder=data_args.video_folder,
212 |             image_aspect_ratio=data_args.image_aspect_ratio,
213 |             use_im_start_end=getattr(
214 |                 data_args, 'mm_use_im_start_end', False),
215 |             image_processor=getattr(data_args, 'image_processor', None)), fashion_data_path=data_args.fashion_data_path)
216 | 
217 |     data_collator = DataCollatorForSupervisedDataset(tokenizer=tokenizer)
218 |     return dict(train_dataset=train_dataset,
219 |                 eval_dataset=None,
220 |                 data_collator=data_collator)
221 | 
222 | if __name__ == '__main__':
223 |     pass


--------------------------------------------------------------------------------
/valley/inference/run_valley.py:
--------------------------------------------------------------------------------
 1 | import argparse
 2 | import torch
 3 | from transformers import AutoTokenizer
 4 | from valley.model.valley_model import ValleyLlamaForCausalLM
 5 | import torch
 6 | import os
 7 | from valley.utils import disable_torch_init
 8 | import os
 9 | import logging
10 | from valley.util.config import *
11 | from peft import PeftModel, PeftConfig
12 | DEFAULT_SYSTEM = '''You are Valley, a large language and vision assistant trained by ByteDance. You are able to understand the visual content or video that the user provides, and assist the user with a variety of tasks using natural language. Follow the instructions carefully and explain your answers in detail.'''
13 | def init_vision_token(model,tokenizer):
14 |     vision_config = model.get_model().vision_tower.config
15 |     vision_config.im_start_token, vision_config.im_end_token = tokenizer.convert_tokens_to_ids([DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN])
16 |     vision_config.vi_start_token, vision_config.vi_end_token = tokenizer.convert_tokens_to_ids([DEFAULT_VI_START_TOKEN, DEFAULT_VI_END_TOKEN])
17 |     vision_config.vi_frame_token = tokenizer.convert_tokens_to_ids(DEFAULT_VIDEO_FRAME_TOKEN)
18 |     vision_config.im_patch_token = tokenizer.convert_tokens_to_ids([DEFAULT_IMAGE_PATCH_TOKEN])[0]
19 | 
20 | def main(args):
21 |     disable_torch_init()
22 |     device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
23 |     model_name = os.path.expanduser(args.model_name)
24 |     
25 |     print('load model')
26 |     if 'lora' in model_name:
27 |         config = PeftConfig.from_pretrained(model_name)
28 |         if 'config.json' in os.listdir(model_name):
29 |             model_old = ValleyLlamaForCausalLM.from_pretrained(model_name)
30 |         else:
31 |             model_old = ValleyLlamaForCausalLM.from_pretrained(config.base_model_name_or_path)
32 |         print('load lora model')
33 |         model = PeftModel.from_pretrained(model_old, model_name)
34 |         model = model.merge_and_unload().half()
35 |         tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)
36 |         tokenizer.padding_side = 'left'
37 |         print("load end")
38 |     else:
39 |         model = ValleyLlamaForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
40 |         tokenizer = AutoTokenizer.from_pretrained(args.model_name)
41 |     init_vision_token(model,tokenizer)
42 |     print('load end')
43 |     model = model.to(device)
44 |     model.eval()
45 | 
46 |     message = [ {"role":'system','content':args.system_prompt if args.system_prompt  else DEFAULT_SYSTEM},
47 |                 # {"role":"user", "content": 'Hi!'},
48 |                 # {"role":"assistent", "content": 'Hi there! How can I help you today?'},
49 |                 {"role":"user", "content": args.query}]
50 |     
51 |     gen_kwargs = dict(
52 |         do_sample=False,
53 |         temperature=0.2,
54 |         max_new_tokens=1024,
55 |     )
56 |     response = model.completion(tokenizer, args.video_file, message, gen_kwargs, device)
57 |     print(response)
58 | 
59 | if __name__ == "__main__":
60 |     parser = argparse.ArgumentParser()
61 |     parser.add_argument("--model-name", type=str, default="../../checkpoints/stable-valley-13b-v1")
62 |     parser.add_argument("--query", type=str, required=False,default="Describe this video concisely.\n<video>")
63 |     parser.add_argument("--video-file", type=str, required=False,default="valley/serve/examples/videos/dc52388394cc9f692d16a95d9833ca07.mp4")
64 |     parser.add_argument("--vision-tower", type=str, default=None)
65 |     parser.add_argument("--system-prompt", type=str, default="")
66 |     args = parser.parse_args()
67 |     main(args)
68 | 
69 |     
70 | 
71 | 


--------------------------------------------------------------------------------
/valley/inference/run_valley_conv.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import torch
  3 | import sys
  4 | sys.path.append('./valley')
  5 | from transformers import LlamaTokenizer
  6 | from valley.model.valley_model import ValleyLlamaForCausalLM
  7 | import torch
  8 | import os
  9 | from valley.utils import disable_torch_init
 10 | from transformers import CLIPImageProcessor
 11 | import os
 12 | import random
 13 | from conversation import conv_templates, SeparatorStyle
 14 | from util.config import DEFAULT_IMAGE_PATCH_TOKEN, DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN, DEFAULT_IMAGE_TOKEN, DEFAULT_VIDEO_TOKEN, DEFAULT_VIDEO_FRAME_TOKEN, DEFAULT_VI_START_TOKEN, DEFAULT_VI_END_TOKEN
 15 | from util.data_util import  KeywordsStoppingCriteria
 16 | import decord
 17 | from torchvision import transforms
 18 | from data import video_transform
 19 | import numpy as np
 20 | from pathlib import Path
 21 | from PIL import Image
 22 | from constants import SHELL_UI_HEADER
 23 | def load_video(path,image_processor):
 24 |     if os.path.isfile(path):
 25 |         video_reader = decord.VideoReader(path, num_threads=1, ctx=decord.cpu(0))
 26 |         decord.bridge.set_bridge('torch')
 27 |         video_len = len(video_reader)
 28 |         video = video_reader.get_batch(np.linspace(0, video_len - 1, 8).astype(np.int_)).byte()#8, height,width,3
 29 |         video = video.permute(3, 0, 1, 2) # 3 x 8 x height x width
 30 |         input_mean = [0.48145466, 0.4578275, 0.40821073]
 31 |         input_std = [0.26862954, 0.26130258, 0.27577711]
 32 |         crop_size, scale_size = 224, 256
 33 |         trans = transforms.Compose([
 34 |             video_transform.TensorToNumpy(),
 35 |             video_transform.Resize(scale_size),
 36 |             video_transform.CenterCrop(crop_size),
 37 |             video_transform.ClipToTensor(channel_nb=3),
 38 |             video_transform.Normalize(mean=input_mean, std=input_std)
 39 |         ])
 40 |         video = trans(video)
 41 |     else:
 42 |         video_frames = list(Path(path).rglob('*'))
 43 |         video_frames = [Image.open(path) for path in video_frames]
 44 |         if len(video_frames) >8:
 45 |             video_frames = [video_frames[i] for i in np.linspace(0, len(video_frames) - 1, 8).astype(np.int_)]
 46 |         # if 1 <= video_frames[0].size[1]/video_frames[0].size[0]:
 47 |         #     min_length = min(video_frames[0].size)
 48 |         #     resize = transforms.Resize([min_length,min_length])
 49 |         #     video_frames = [resize(frame) for frame in video_frames]
 50 |         #     test_frame = video_frames[0]
 51 |         video = image_processor.preprocess(video_frames, return_tensors='pt')['pixel_values']
 52 |         video = video.permute(1,0, 2, 3)
 53 |     return video
 54 | def assistant_out(model,conv,tokenizer,input_ids,image_tensor):
 55 | 
 56 |     stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
 57 |     keywords = [stop_str]
 58 |     stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)
 59 |     keywords = ['###']
 60 |     stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)
 61 |     with torch.inference_mode():
 62 |         output_ids = model.generate(
 63 |             input_ids,
 64 |             images=image_tensor.unsqueeze(0).half().cuda(),# 1,8,3,224,224
 65 |             do_sample=True,
 66 |             temperature=0.2,
 67 |             max_new_tokens=1024,
 68 |             stopping_criteria=[stopping_criteria])
 69 |     input_token_len = input_ids.shape[1]
 70 |     n_diff_input_output = (input_ids != output_ids[:, :input_token_len]).sum().item()
 71 |     if n_diff_input_output > 0:
 72 |         print(f'[Warning] {n_diff_input_output} output_ids are not the same as the input_ids')
 73 |     outputs = tokenizer.batch_decode(output_ids[:, input_token_len:], skip_special_tokens=True)
 74 | 
 75 |     out = outputs[0]
 76 |     while True:
 77 |         cur_len = len(out)
 78 |         out = out.strip()
 79 |         for pattern in ['###', 'Assistant:', 'Response:','LLaVA:']:
 80 |             if out.startswith(pattern):
 81 |                 out = out[len(pattern):].strip()
 82 |         if len(out) == cur_len:
 83 |             break
 84 |     try:
 85 |         index = out.index(conv.sep)
 86 |     except ValueError:
 87 |         out += conv.sep
 88 |         index = out.index(conv.sep)
 89 | 
 90 |     out = out[:index].strip()
 91 |     string_out = out.replace('\n','') + '\n'
 92 |     return string_out
 93 | 
 94 | def inference(args):
 95 |     
 96 |     random.seed(42)
 97 | 
 98 |     disable_torch_init()
 99 |     device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
100 |     # device = torch.device('cpu')
101 |     model_name = os.path.expanduser(args.model_name)
102 |     tokenizer = LlamaTokenizer.from_pretrained(args.model_name)
103 |     
104 |     # load model
105 | 
106 |     print('load model')
107 |     model = ValleyLlamaForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
108 |     print('load end')
109 | 
110 |     
111 |     
112 |     model.model.multi_image = True
113 |     model.model.multi_image_mode = 'concatenate'
114 |     # if torch.cuda.is_available():
115 |     # model = model.to('cuda:'+str(this_rank_gpu_index))
116 |     model = model.to(device)
117 |     image_processor = CLIPImageProcessor.from_pretrained(model.config.mm_vision_tower, torch_dtype=torch.float16)
118 | 
119 |     mm_use_im_start_end = getattr(model.config, "mm_use_im_start_end", False)
120 |     tokenizer.add_tokens([DEFAULT_IMAGE_PATCH_TOKEN], special_tokens=True)
121 |     if mm_use_im_start_end:
122 |         tokenizer.add_tokens([DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN], special_tokens=True)
123 | 
124 |     
125 |     vision_tower = model.get_model().vision_tower   
126 |     vision_tower.to(device, dtype=torch.float16)
127 |     vision_config = vision_tower.config
128 |     vision_config.im_patch_token = tokenizer.convert_tokens_to_ids([DEFAULT_IMAGE_PATCH_TOKEN])[0]
129 |     vision_config.use_im_start_end = mm_use_im_start_end
130 |     if mm_use_im_start_end:
131 |         vision_config.im_start_token, vision_config.im_end_token = tokenizer.convert_tokens_to_ids([DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN])
132 |         vision_config.vi_start_token, vision_config.vi_end_token = tokenizer.convert_tokens_to_ids([DEFAULT_VI_START_TOKEN, DEFAULT_VI_END_TOKEN])
133 |         vision_config.vi_frame_token = tokenizer.convert_tokens_to_ids(DEFAULT_VIDEO_FRAME_TOKEN)
134 |     image_token_len = (vision_config.image_size // vision_config.patch_size) ** 2
135 | 
136 |     
137 |     video_path = ''
138 |     os.system('cls' if os.name == 'nt' else 'clear')
139 |     print(SHELL_UI_HEADER)
140 |     while True:
141 |         try:
142 |             if not video_path:
143 |                 video_path = input("Assistant: please input video path. path: ")
144 |                 if video_path == '':
145 |                     video_path = args.video_file
146 |                 print()
147 |                 video = load_video(video_path,image_processor) # 3, 8, 224, 224
148 |                 video = video.permute(1,0,2,3)# 8,3,224,224
149 |                 video_length = video.shape[0]
150 |                 test_image = video[0]
151 |                 image_tensor = video.to(device)
152 |                 conv = conv_templates[args.conv_mode].copy()
153 |             
154 |             qs = input("human:     ")
155 |             print()
156 |             if qs == 'change video':
157 |                 video_path = input("Assistant: please input video path. path: ")
158 |                 print()
159 |                 video = load_video(video_path,image_processor) # 3, 8, 224, 224
160 |                 video = video.permute(1,0,2,3)# 8,3,224,224
161 |                 video_length = video.shape[0]
162 |                 test_image = video[0]
163 |                 image_tensor = video.to(device)
164 |                 conv = conv_templates[args.conv_mode].copy()
165 |                 qs = input("human:     ")
166 |                 print()
167 |             if qs == 'quit':
168 |                 break
169 | 
170 |             if not conv.has_video:
171 |                 if mm_use_im_start_end:
172 |                     qs = qs + '\n' + DEFAULT_IM_START_TOKEN + DEFAULT_IMAGE_PATCH_TOKEN * image_token_len + DEFAULT_IM_END_TOKEN + DEFAULT_VI_START_TOKEN + DEFAULT_VIDEO_FRAME_TOKEN * video_length + DEFAULT_VI_END_TOKEN
173 |                 else:
174 |                     qs = qs + '\n' + DEFAULT_IMAGE_PATCH_TOKEN * image_token_len
175 |                 conv.has_video = True
176 |             
177 |             conv.append_message(conv.roles[0], qs)
178 |             prompt = conv.get_prompt()
179 |             inputs = tokenizer([prompt])
180 | 
181 |             # load video
182 |             
183 |             input_ids = torch.as_tensor(inputs.input_ids).cuda()
184 |             responce = assistant_out(model,conv,tokenizer,input_ids,image_tensor)
185 |             conv.append_message(conv.roles[1], responce)
186 |             print('Assistant: '+responce.strip()+'\n')
187 |         except Exception as e:
188 |             print('Assistant: '+str(e)+'\n')
189 | def gather_result(args):
190 |     num_worker = args.world_size
191 |     with open(args.out_path,'a+') as f:
192 |         for i in range(num_worker):
193 |             with open(args.out_path+".worker_"+str(i),'r') as tf:
194 |                 tmp_result = tf.readlines()
195 |             f.writelines(tmp_result)
196 |             os.remove(args.out_path+".worker_"+str(i))
197 |     
198 | 
199 | 
200 | 
201 | if __name__ == "__main__":
202 |     parser = argparse.ArgumentParser()
203 |     parser.add_argument("--model-name", type=str, default="../checkpoints/stable-valley-13b-v1/")
204 |     parser.add_argument("--query", type=str, required=False,default="Describe the following video concisely.")
205 |     parser.add_argument("--video_file", type=str, required=False,default="/mnt/bn/luoruipu-disk/LLaVa-personal/save_images/live_frame/1")
206 |     parser.add_argument("--vision-tower", type=str, default=None)
207 |     parser.add_argument("--conv-mode", type=str, default="v1")
208 |     args = parser.parse_args()
209 | 
210 |     # os.environ["CUDA_VISIBLE_DEVICES"] = cfg.gpu_ids
211 |     inference(args)
212 | 
213 |     
214 | 
215 | 


--------------------------------------------------------------------------------
/valley/inference/run_valley_llamma_v2.py:
--------------------------------------------------------------------------------
 1 | import argparse
 2 | from transformers import AutoTokenizer
 3 | from valley.model.valley_model import ValleyLlamaForCausalLM
 4 | import torch
 5 | from enum import Enum
 6 | 
 7 | from valley.util.config import (
 8 |     DEFAULT_IMAGE_PATCH_TOKEN,
 9 |     DEFAULT_IM_START_TOKEN,
10 |     DEFAULT_IM_END_TOKEN,
11 |     DEFAULT_VIDEO_FRAME_TOKEN,
12 |     DEFAULT_VI_START_TOKEN,
13 |     DEFAULT_VI_END_TOKEN,
14 |     DEFAULT_VIDEO_TOKEN,
15 | )
16 | 
17 | 
18 | class ModelPath(Enum):
19 |     Valley2_7b = "luoruipu1/Valley2-7b"
20 | 
21 | 
22 | parser = argparse.ArgumentParser(description="Process some video.")
23 | parser.add_argument("video_file", type=str, help="The path to the video file")
24 | args = parser.parse_args()
25 | video_file = args.video_file
26 | 
27 | 
28 | def init_vision_token(model, tokenizer):
29 |     vision_config = model.get_model().vision_tower.config
30 |     (
31 |         vision_config.im_start_token,
32 |         vision_config.im_end_token,
33 |     ) = tokenizer.convert_tokens_to_ids([DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN])
34 |     (
35 |         vision_config.vi_start_token,
36 |         vision_config.vi_end_token,
37 |     ) = tokenizer.convert_tokens_to_ids([DEFAULT_VI_START_TOKEN, DEFAULT_VI_END_TOKEN])
38 |     vision_config.vi_frame_token = tokenizer.convert_tokens_to_ids(
39 |         DEFAULT_VIDEO_FRAME_TOKEN
40 |     )
41 |     vision_config.im_patch_token = tokenizer.convert_tokens_to_ids(
42 |         [DEFAULT_IMAGE_PATCH_TOKEN]
43 |     )[0]
44 | 
45 | 
46 | device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
47 | # input the query
48 | query = f"{DEFAULT_VIDEO_TOKEN} Describe the video concisely."
49 | 
50 | # input the system prompt
51 | system_prompt = "You are Valley, a large language and vision assistant trained by ByteDance. You are able to understand the visual content or video that the user provides, and assist the user with a variety of tasks using natural language. Follow the instructions carefully and explain your answers in detail."
52 | 
53 | 
54 | model_path = ModelPath.Valley2_7b
55 | # pulls model from HF given path
56 | model = ValleyLlamaForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16)
57 | 
58 | 
59 | tokenizer = AutoTokenizer.from_pretrained(model_path)
60 | 
61 | init_vision_token(model, tokenizer)
62 | 
63 | model = model.to(device)
64 | model.eval()
65 | 
66 | 
67 | # we support openai format input
68 | message = [
69 |     {"role": "system", "content": system_prompt},
70 |     {"role": "user", "content": "Hi!"},
71 |     {"role": "assistent", "content": "Hi there! How can I help you today?"},
72 |     {"role": "user", "content": query},
73 | ]
74 | 
75 | gen_kwargs = dict(
76 |     do_sample=True,
77 |     temperature=0.2,
78 |     max_new_tokens=1024,
79 | )
80 | 
81 | 
82 | response = model.completion(tokenizer, video_file, message, gen_kwargs, device)
83 | 
84 | 


--------------------------------------------------------------------------------
/valley/logo/demo.GIF:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/logo/demo.GIF


--------------------------------------------------------------------------------
/valley/logo/demo_screenshot.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/logo/demo_screenshot.jpg


--------------------------------------------------------------------------------
/valley/logo/lama_with_valley.jpeg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/logo/lama_with_valley.jpeg


--------------------------------------------------------------------------------
/valley/model/apply_delta.py:
--------------------------------------------------------------------------------
 1 | """
 2 | Usage:
 3 | python3 -m fastchat.model.apply_delta --base ~/model_weights/llama-7b --target ~/model_weights/vicuna-7b --delta lmsys/vicuna-7b-delta
 4 | """
 5 | import argparse
 6 | 
 7 | import torch
 8 | from tqdm import tqdm
 9 | from transformers import AutoTokenizer, AutoModelForCausalLM
10 | from valley import ValleyLlamaForCausalLM
11 | 
12 | 
13 | def apply_delta(base_model_path, target_model_path, delta_path):
14 |     print("Loading base model")
15 |     base = AutoModelForCausalLM.from_pretrained(
16 |         base_model_path, torch_dtype=torch.float16, low_cpu_mem_usage=True)
17 | 
18 |     print("Loading delta")
19 |     delta = ValleyLlamaForCausalLM.from_pretrained(delta_path, torch_dtype=torch.float16, low_cpu_mem_usage=True)
20 |     delta_tokenizer = AutoTokenizer.from_pretrained(delta_path)
21 | 
22 |     print("Applying delta")
23 |     for name, param in tqdm(delta.state_dict().items(), desc="Applying delta"):
24 |         if name not in base.state_dict():
25 |             assert name in ['model.mm_projector.weight', 'model.mm_projector.bias'] or 'vision_tower' in name, f'{name} not in base model'
26 |             continue
27 |         if param.data.shape == base.state_dict()[name].shape:
28 |             param.data += base.state_dict()[name]
29 |         else:
30 |             assert name in ['model.embed_tokens.weight', 'lm_head.weight'], \
31 |                 f'{name} dimension mismatch: {param.data.shape} vs {base.state_dict()[name].shape}'
32 |             bparam = base.state_dict()[name]
33 |             param.data[:bparam.shape[0], :bparam.shape[1]] += bparam
34 | 
35 |     print("Saving target model")
36 |     delta.save_pretrained(target_model_path)
37 |     delta_tokenizer.save_pretrained(target_model_path)
38 | 
39 | 
40 | if __name__ == "__main__":
41 |     parser = argparse.ArgumentParser()
42 |     parser.add_argument("--base-model-path", type=str, required=True)
43 |     parser.add_argument("--target-model-path", type=str, required=True)
44 |     parser.add_argument("--delta-path", type=str, required=True)
45 | 
46 |     args = parser.parse_args()
47 | 
48 |     apply_delta(args.base_model_path, args.target_model_path, args.delta_path)
49 | 


--------------------------------------------------------------------------------
/valley/model/make_delta.py:
--------------------------------------------------------------------------------
 1 | """
 2 | Usage:
 3 | python3 make_delta --base ~/model_weights/llama-7b --target ~/model_weights/llava-7b --delta ~/model_weights/llava-7b-delta --hub-repo-id liuhaotian/llava-7b-delta
 4 | """
 5 | import argparse
 6 | 
 7 | import torch
 8 | from tqdm import tqdm
 9 | from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
10 | from valley import ValleyLlamaForCausalLM
11 | 
12 | def make_delta(base_model_path, target_model_path, delta_path, hub_repo_id):
13 |     print("Loading base model")
14 |     base = AutoModelForCausalLM.from_pretrained(
15 |         base_model_path, torch_dtype=torch.float16, low_cpu_mem_usage=True)
16 | 
17 |     print("Loading target model")
18 |     target = ValleyLlamaForCausalLM.from_pretrained(target_model_path, torch_dtype=torch.float16, low_cpu_mem_usage=True)
19 | 
20 |     print("Calculating delta")
21 |     for name, param in tqdm(target.state_dict().items(), desc="Calculating delta"):
22 |         if name not in base.state_dict():
23 |             assert name in ['model.mm_projector.weight', 'model.mm_projector.bias'] or 'vision_tower' in name, f'{name} not in base model'
24 |             continue
25 |         if param.data.shape == base.state_dict()[name].shape:
26 |             param.data -= base.state_dict()[name]
27 |         else:
28 |             assert name in ['model.embed_tokens.weight', 'lm_head.weight'], f'{name} dimension mismatch: {param.data.shape} vs {base.state_dict()[name].shape}'
29 |             bparam = base.state_dict()[name]
30 |             param.data[:bparam.shape[0], :bparam.shape[1]] -= bparam
31 | 
32 |     print("Saving delta")
33 |     if hub_repo_id:
34 |         kwargs = {"push_to_hub": True, "repo_id": hub_repo_id, "use_auth_token":"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"}
35 |     else:
36 |         kwargs = {}
37 |     target.save_pretrained(delta_path, **kwargs)
38 |     target_tokenizer = AutoTokenizer.from_pretrained(target_model_path)
39 |     target_tokenizer.save_pretrained(delta_path, **kwargs)
40 | 
41 | 
42 | if __name__ == "__main__":
43 |     parser = argparse.ArgumentParser()
44 |     parser.add_argument("--base-model-path", type=str, default = None)
45 |     parser.add_argument("--target-model-path", type=str,default = None)
46 |     parser.add_argument("--delta-path", type=str, default=None)
47 |     parser.add_argument("--hub-repo-id", type=str, default=None)
48 |     args = parser.parse_args()
49 | 
50 |     make_delta(args.base_model_path, args.target_model_path, args.delta_path, args.hub_repo_id)
51 | 


--------------------------------------------------------------------------------
/valley/serve/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/serve/__init__.py


--------------------------------------------------------------------------------
/valley/serve/cli.py:
--------------------------------------------------------------------------------
  1 | """
  2 | Usage:
  3 | python3 -m fastchat.serve.cli --model ~/model_weights/llama-7b
  4 | """
  5 | import argparse
  6 | import time
  7 | 
  8 | import torch
  9 | from transformers import AutoTokenizer, AutoModelForCausalLM
 10 | 
 11 | from valley.conversation import conv_templates, SeparatorStyle
 12 | 
 13 | 
 14 | @torch.inference_mode()
 15 | def generate_stream(tokenizer, model, params, device,
 16 |                     context_len=2048, stream_interval=2):
 17 |     """Adapted from fastchat/serve/model_worker.py::generate_stream"""
 18 | 
 19 |     prompt = params["prompt"]
 20 |     l_prompt = len(prompt)
 21 |     temperature = float(params.get("temperature", 1.0))
 22 |     max_new_tokens = int(params.get("max_new_tokens", 256))
 23 |     stop_str = params.get("stop", None)
 24 | 
 25 |     input_ids = tokenizer(prompt).input_ids
 26 |     output_ids = list(input_ids)
 27 | 
 28 |     max_src_len = context_len - max_new_tokens - 8
 29 |     input_ids = input_ids[-max_src_len:]
 30 | 
 31 |     for i in range(max_new_tokens):
 32 |         if i == 0:
 33 |             out = model(
 34 |                 torch.as_tensor([input_ids], device=device), use_cache=True)
 35 |             logits = out.logits
 36 |             past_key_values = out.past_key_values
 37 |         else:
 38 |             attention_mask = torch.ones(
 39 |                 1, past_key_values[0][0].shape[-2] + 1, device=device)
 40 |             out = model(input_ids=torch.as_tensor([[token]], device=device),
 41 |                         use_cache=True,
 42 |                         attention_mask=attention_mask,
 43 |                         past_key_values=past_key_values)
 44 |             logits = out.logits
 45 |             past_key_values = out.past_key_values
 46 | 
 47 |         last_token_logits = logits[0][-1]
 48 |         if temperature < 1e-4:
 49 |             token = int(torch.argmax(last_token_logits))
 50 |         else:
 51 |             probs = torch.softmax(last_token_logits / temperature, dim=-1)
 52 |             token = int(torch.multinomial(probs, num_samples=1))
 53 | 
 54 |         output_ids.append(token)
 55 | 
 56 |         if token == tokenizer.eos_token_id:
 57 |             stopped = True
 58 |         else:
 59 |             stopped = False
 60 | 
 61 |         if i % stream_interval == 0 or i == max_new_tokens - 1 or stopped:
 62 |             output = tokenizer.decode(output_ids, skip_special_tokens=True)
 63 |             pos = output.rfind(stop_str, l_prompt)
 64 |             if pos != -1:
 65 |                 output = output[:pos]
 66 |                 stopped = True
 67 |             yield output
 68 | 
 69 |         if stopped:
 70 |             break
 71 | 
 72 |     del past_key_values
 73 | 
 74 | 
 75 | def main(args):
 76 |     model_name = args.model_name
 77 |     num_gpus = args.num_gpus
 78 | 
 79 |     # Model
 80 |     if args.device == "cuda":
 81 |         kwargs = {"torch_dtype": torch.float16}
 82 |         if num_gpus == "auto":
 83 |             kwargs["device_map"] = "auto"
 84 |         else:
 85 |             num_gpus = int(num_gpus)
 86 |             if num_gpus != 1:
 87 |                 kwargs.update({
 88 |                     "device_map": "auto",
 89 |                     "max_memory": {i: "13GiB" for i in range(num_gpus)},
 90 |                 })
 91 |     elif args.device == "cpu":
 92 |         kwargs = {}
 93 |     else:
 94 |         raise ValueError(f"Invalid device: {args.device}")
 95 | 
 96 |     tokenizer = AutoTokenizer.from_pretrained(model_name)
 97 |     model = AutoModelForCausalLM.from_pretrained(model_name,
 98 |         low_cpu_mem_usage=True, **kwargs)
 99 | 
100 |     if args.device == "cuda" and num_gpus == 1:
101 |         model.cuda()
102 | 
103 |     # Chat
104 |     conv = conv_templates[args.conv_template].copy()
105 |     while True:
106 |         try:
107 |             inp = input(f"{conv.roles[0]}: ")
108 |         except EOFError:
109 |             inp = ""
110 |         if not inp:
111 |             print("exit...")
112 |             break
113 | 
114 |         conv.append_message(conv.roles[0], inp)
115 |         conv.append_message(conv.roles[1], None)
116 |         prompt = conv.get_prompt()
117 | 
118 |         params = {
119 |             "model": model_name,
120 |             "prompt": prompt,
121 |             "temperature": args.temperature,
122 |             "max_new_tokens": args.max_new_tokens,
123 |             "stop": conv.sep if conv.sep_style == SeparatorStyle.SINGLE else conv.sep2,
124 |         }
125 | 
126 |         print(f"{conv.roles[1]}: ", end="", flush=True)
127 |         pre = 0
128 |         for outputs in generate_stream(tokenizer, model, params, args.device):
129 |             outputs = outputs[len(prompt) + 1:].strip()
130 |             outputs = outputs.split(" ")
131 |             now = len(outputs)
132 |             if now - 1 > pre:
133 |                 print(" ".join(outputs[pre:now-1]), end=" ", flush=True)
134 |                 pre = now - 1
135 |         print(" ".join(outputs[pre:]), flush=True)
136 | 
137 |         conv.messages[-1][-1] = " ".join(outputs)
138 | 
139 |         if args.debug:
140 |             print("\n", {"prompt": prompt, "outputs": outputs}, "\n")
141 | 
142 | 
143 | if __name__ == "__main__":
144 |     parser = argparse.ArgumentParser()
145 |     parser.add_argument("--model-name", type=str, default="facebook/opt-350m")
146 |     parser.add_argument("--num-gpus", type=str, default="1")
147 |     parser.add_argument("--device", type=str, choices=["cuda", "cpu"], default="cuda")
148 |     parser.add_argument("--conv-template", type=str, default="v1")
149 |     parser.add_argument("--temperature", type=float, default=0.7)
150 |     parser.add_argument("--max-new-tokens", type=int, default=512)
151 |     parser.add_argument("--debug", action="store_true")
152 |     args = parser.parse_args()
153 |     main(args)
154 | 


--------------------------------------------------------------------------------
/valley/serve/controller.py:
--------------------------------------------------------------------------------
  1 | """
  2 | A controller manages distributed workers.
  3 | It sends worker addresses to clients.
  4 | """
  5 | import argparse
  6 | import asyncio
  7 | import dataclasses
  8 | from enum import Enum, auto
  9 | import json
 10 | import logging
 11 | import time
 12 | from typing import List, Union
 13 | import threading
 14 | 
 15 | from fastapi import FastAPI, Request
 16 | from fastapi.responses import StreamingResponse
 17 | import numpy as np
 18 | import requests
 19 | import uvicorn
 20 | 
 21 | from valley.constants import CONTROLLER_HEART_BEAT_EXPIRATION
 22 | from valley.utils import build_logger, server_error_msg
 23 | 
 24 | 
 25 | logger = build_logger("controller", "controller.log")
 26 | 
 27 | 
 28 | class DispatchMethod(Enum):
 29 |     LOTTERY = auto()
 30 |     SHORTEST_QUEUE = auto()
 31 | 
 32 |     @classmethod
 33 |     def from_str(cls, name):
 34 |         if name == "lottery":
 35 |             return cls.LOTTERY
 36 |         elif name == "shortest_queue":
 37 |             return cls.SHORTEST_QUEUE
 38 |         else:
 39 |             raise ValueError(f"Invalid dispatch method")
 40 | 
 41 | 
 42 | @dataclasses.dataclass
 43 | class WorkerInfo:
 44 |     model_names: List[str]
 45 |     speed: int
 46 |     queue_length: int
 47 |     check_heart_beat: bool
 48 |     last_heart_beat: str
 49 | 
 50 | 
 51 | def heart_beat_controller(controller):
 52 |     while True:
 53 |         time.sleep(CONTROLLER_HEART_BEAT_EXPIRATION)
 54 |         controller.remove_stable_workers_by_expiration()
 55 | 
 56 | 
 57 | class Controller:
 58 |     def __init__(self, dispatch_method: str):
 59 |         # Dict[str -> WorkerInfo]
 60 |         self.worker_info = {}
 61 |         self.dispatch_method = DispatchMethod.from_str(dispatch_method)
 62 | 
 63 |         self.heart_beat_thread = threading.Thread(
 64 |             target=heart_beat_controller, args=(self,))
 65 |         self.heart_beat_thread.start()
 66 | 
 67 |         logger.info("Init controller")
 68 | 
 69 |     def register_worker(self, worker_name: str, check_heart_beat: bool,
 70 |                         worker_status: dict):
 71 |         if worker_name not in self.worker_info:
 72 |             logger.info(f"Register a new worker: {worker_name}")
 73 |         else:
 74 |             logger.info(f"Register an existing worker: {worker_name}")
 75 | 
 76 |         if not worker_status:
 77 |             worker_status = self.get_worker_status(worker_name)
 78 |         if not worker_status:
 79 |             return False
 80 | 
 81 |         self.worker_info[worker_name] = WorkerInfo(
 82 |             worker_status["model_names"], worker_status["speed"], worker_status["queue_length"],
 83 |             check_heart_beat, time.time())
 84 | 
 85 |         logger.info(f"Register done: {worker_name}, {worker_status}")
 86 |         return True
 87 | 
 88 |     def get_worker_status(self, worker_name: str):
 89 |         try:
 90 |             r = requests.post(worker_name + "/worker_get_status", timeout=5)
 91 |         except requests.exceptions.RequestException as e:
 92 |             logger.error(f"Get status fails: {worker_name}, {e}")
 93 |             return None
 94 | 
 95 |         if r.status_code != 200:
 96 |             logger.error(f"Get status fails: {worker_name}, {r}")
 97 |             return None
 98 | 
 99 |         return r.json()
100 | 
101 |     def remove_worker(self, worker_name: str):
102 |         del self.worker_info[worker_name]
103 | 
104 |     def refresh_all_workers(self):
105 |         old_info = dict(self.worker_info)
106 |         self.worker_info = {}
107 | 
108 |         for w_name, w_info in old_info.items():
109 |             if not self.register_worker(w_name, w_info.check_heart_beat, None):
110 |                 logger.info(f"Remove stale worker: {w_name}")
111 | 
112 |     def list_models(self):
113 |         model_names = set()
114 | 
115 |         for w_name, w_info in self.worker_info.items():
116 |             model_names.update(w_info.model_names)
117 | 
118 |         return list(model_names)
119 | 
120 |     def get_worker_address(self, model_name: str):
121 |         if self.dispatch_method == DispatchMethod.LOTTERY:
122 |             worker_names = []
123 |             worker_speeds = []
124 |             for w_name, w_info in self.worker_info.items():
125 |                 if model_name in w_info.model_names:
126 |                     worker_names.append(w_name)
127 |                     worker_speeds.append(w_info.speed)
128 |             worker_speeds = np.array(worker_speeds, dtype=np.float32)
129 |             norm = np.sum(worker_speeds)
130 |             if norm < 1e-4:
131 |                 return ""
132 |             worker_speeds = worker_speeds / norm
133 |             if True:  # Directly return address
134 |                 pt = np.random.choice(np.arange(len(worker_names)),
135 |                     p=worker_speeds)
136 |                 worker_name = worker_names[pt]
137 |                 return worker_name
138 | 
139 |             # Check status before returning
140 |             while True:
141 |                 pt = np.random.choice(np.arange(len(worker_names)),
142 |                     p=worker_speeds)
143 |                 worker_name = worker_names[pt]
144 | 
145 |                 if self.get_worker_status(worker_name):
146 |                     break
147 |                 else:
148 |                     self.remove_worker(worker_name)
149 |                     worker_speeds[pt] = 0
150 |                     norm = np.sum(worker_speeds)
151 |                     if norm < 1e-4:
152 |                         return ""
153 |                     worker_speeds = worker_speeds / norm
154 |                     continue
155 |             return worker_name
156 |         elif self.dispatch_method == DispatchMethod.SHORTEST_QUEUE:
157 |             worker_names = []
158 |             worker_qlen = []
159 |             for w_name, w_info in self.worker_info.items():
160 |                 if model_name in w_info.model_names:
161 |                     worker_names.append(w_name)
162 |                     worker_qlen.append(w_info.queue_length / w_info.speed)
163 |             if len(worker_names) == 0:
164 |                 return ""
165 |             min_index = np.argmin(worker_qlen)
166 |             w_name = worker_names[min_index]
167 |             self.worker_info[w_name].queue_length += 1
168 |             logger.info(f"names: {worker_names}, queue_lens: {worker_qlen}, ret: {w_name}")
169 |             return w_name
170 |         else:
171 |             raise ValueError(f"Invalid dispatch method: {self.dispatch_method}")
172 | 
173 |     def receive_heart_beat(self, worker_name: str, queue_length: int):
174 |         if worker_name not in self.worker_info:
175 |             logger.info(f"Receive unknown heart beat. {worker_name}")
176 |             return False
177 | 
178 |         self.worker_info[worker_name].queue_length = queue_length
179 |         self.worker_info[worker_name].last_heart_beat = time.time()
180 |         logger.info(f"Receive heart beat. {worker_name}")
181 |         return True
182 | 
183 |     def remove_stable_workers_by_expiration(self):
184 |         expire = time.time() - CONTROLLER_HEART_BEAT_EXPIRATION
185 |         to_delete = []
186 |         for worker_name, w_info in self.worker_info.items():
187 |             if w_info.check_heart_beat and w_info.last_heart_beat < expire:
188 |                 to_delete.append(worker_name)
189 | 
190 |         for worker_name in to_delete:
191 |             self.remove_worker(worker_name)
192 | 
193 |     def worker_api_generate_stream(self, params):
194 |         worker_addr = self.get_worker_address(params["model"])
195 |         if not worker_addr:
196 |             logger.info(f"no worker: {params['model']}")
197 |             ret = {
198 |                 "text": server_error_msg,
199 |                 "error_code": 2,
200 |             }
201 |             yield json.dumps(ret).encode() + b"\0"
202 | 
203 |         try:
204 |             response = requests.post(worker_addr + "/worker_generate_stream",
205 |                 json=params, stream=True, timeout=5)
206 |             for chunk in response.iter_lines(decode_unicode=False, delimiter=b"\0"):
207 |                 if chunk:
208 |                     yield chunk + b"\0"
209 |         except requests.exceptions.RequestException as e:
210 |             logger.info(f"worker timeout: {worker_addr}")
211 |             ret = {
212 |                 "text": server_error_msg,
213 |                 "error_code": 3,
214 |             }
215 |             yield json.dumps(ret).encode() + b"\0"
216 | 
217 | 
218 |     # Let the controller act as a worker to achieve hierarchical
219 |     # management. This can be used to connect isolated sub networks.
220 |     def worker_api_get_status(self):
221 |         model_names = set()
222 |         speed = 0
223 |         queue_length = 0
224 | 
225 |         for w_name in self.worker_info:
226 |             worker_status = self.get_worker_status(w_name)
227 |             if worker_status is not None:
228 |                 model_names.update(worker_status["model_names"])
229 |                 speed += worker_status["speed"]
230 |                 queue_length += worker_status["queue_length"]
231 | 
232 |         return {
233 |             "model_names": list(model_names),
234 |             "speed": speed,
235 |             "queue_length": queue_length,
236 |         }
237 | 
238 | 
239 | app = FastAPI()
240 | 
241 | 
242 | @app.post("/register_worker")
243 | async def register_worker(request: Request):
244 |     data = await request.json()
245 |     controller.register_worker(
246 |         data["worker_name"], data["check_heart_beat"],
247 |         data.get("worker_status", None))
248 | 
249 | 
250 | @app.post("/refresh_all_workers")
251 | async def refresh_all_workers():
252 |     models = controller.refresh_all_workers()
253 | 
254 | 
255 | @app.post("/list_models")
256 | async def list_models():
257 |     models = controller.list_models()
258 |     return {"models": models}
259 | 
260 | 
261 | @app.post("/get_worker_address")
262 | async def get_worker_address(request: Request):
263 |     data = await request.json()
264 |     addr = controller.get_worker_address(data["model"])
265 |     return {"address": addr}
266 | 
267 | 
268 | @app.post("/receive_heart_beat")
269 | async def receive_heart_beat(request: Request):
270 |     data = await request.json()
271 |     exist = controller.receive_heart_beat(
272 |         data["worker_name"], data["queue_length"])
273 |     return {"exist": exist}
274 | 
275 | 
276 | @app.post("/worker_generate_stream")
277 | async def worker_api_generate_stream(request: Request):
278 |     params = await request.json()
279 |     generator = controller.worker_api_generate_stream(params)
280 |     return StreamingResponse(generator)
281 | 
282 | 
283 | @app.post("/worker_get_status")
284 | async def worker_api_get_status(request: Request):
285 |     return controller.worker_api_get_status()
286 | 
287 | 
288 | if __name__ == "__main__":
289 |     parser = argparse.ArgumentParser()
290 |     parser.add_argument("--host", type=str, default="0.0.0.0")
291 |     parser.add_argument("--port", type=int, default=20000)
292 |     parser.add_argument("--dispatch-method", type=str, choices=[
293 |         "lottery", "shortest_queue"], default="shortest_queue")
294 |     args = parser.parse_args()
295 |     logger.info(f"args: {args}")
296 | 
297 |     controller = Controller(args.dispatch_method)
298 |     uvicorn.run(app, host=args.host, port=args.port, log_level="info")
299 | 


--------------------------------------------------------------------------------
/valley/serve/examples/images/c790e7358b6f9de50ccfc78d2fba1b97.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/serve/examples/images/c790e7358b6f9de50ccfc78d2fba1b97.jpg


--------------------------------------------------------------------------------
/valley/serve/examples/images/f4cefeeb3f10a2afb4bb077a415f9fb8.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/serve/examples/images/f4cefeeb3f10a2afb4bb077a415f9fb8.jpg


--------------------------------------------------------------------------------
/valley/serve/examples/videos/aa5dbc3a110f410bb02572408b0fb778.mp4:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/serve/examples/videos/aa5dbc3a110f410bb02572408b0fb778.mp4


--------------------------------------------------------------------------------
/valley/serve/examples/videos/dc52388394cc9f692d16a95d9833ca07.mp4:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/RupertLuo/Valley/83d794f1a18d1f5990528e4289068b9013eab5bc/valley/serve/examples/videos/dc52388394cc9f692d16a95d9833ca07.mp4


--------------------------------------------------------------------------------
/valley/serve/gateway/README.md:
--------------------------------------------------------------------------------
 1 | # fastchat Nginx Gateway
 2 | 
 3 | ## Purpose of the Gateway
 4 | 
 5 | The Nginx gateway serves the following purposes:
 6 | 
 7 | 1. Protects Gradio servers by acting as a firewall.
 8 | 2. Facilitates dynamic mounting and unmounting of Gradio servers.
 9 | 3. Provides load balancing for Gradio servers.
10 | 4. Offers additional security features, such as total connection limit.
11 | 5. Reduces attack surface by requiring only a single public port to be exposed for serving.
12 | 
13 | ## Deployment and Updating of the Gateway
14 | 
15 | ### Installing Nginx
16 | 
17 | On Debian-based distributions (e.g., Ubuntu):
18 | 
19 | ```bash
20 | sudo apt update
21 | sudo apt install nginx
22 | ```
23 | On Red Hat-based distributions (e.g., CentOS, Fedora):
24 | 
25 | ```bash
26 | sudo yum install epel-release
27 | sudo yum install nginx
28 | ```
29 | 
30 | ### Deployment
31 | 
32 | Copy `nginx.conf` to `/etc/nginx/nginx.conf` (need sudo permission).
33 | 
34 | Replace the port number 7860 in `server localhost:7860` with the port where you deploy the Gradio web server.
35 | 
36 | Modify `upstream websocket` to configure Gradio servers behind the gateway.
37 | 
38 | Lastly, update Nginx.
39 | 
40 | 
41 | ### HTTPS Deployment with a Public Domain URL
42 | 
43 | Make sure you obtain the HTTPS certificate and the private key used to generate the certificate.
44 | 
45 | Fill the addresses to your certificate and private key in the `[PATH_TO_SSL_CERT]` and `[PATH_TO_PRIVATE_KEY]` fields.
46 | 
47 | If you have your own domain url to serve the chatbot, replace the chat.lmsys.org url with your own domain url.
48 | 
49 | ### Updating
50 | 
51 | Every time when `/etc/nginx/nginx.conf` is modified, you need to update the Nginx service:
52 | 
53 | ```bash
54 | sudo nginx -t  # check `/etc/nginx/nginx.conf`
55 | sudo systemctl reload nginx  # restart Nginx service to load the new config
56 | sudo systemctl status nginx  # check the status of the Nginx service. It should be active (running).
57 | ```
58 | 


--------------------------------------------------------------------------------
/valley/serve/gateway/nginx.conf:
--------------------------------------------------------------------------------
 1 | user www-data;
 2 | worker_processes auto;
 3 | pid /run/nginx.pid;
 4 | include /etc/nginx/modules-enabled/*.conf;
 5 | 
 6 | events {
 7 |         worker_connections 1024;  # maximum number of connections that a worker process can handle concurrently
 8 |         # multi_accept on;  # enabling multi_accept can help improve performance under high load, but may increase the number of simultaneous connections that a worker process can handle
 9 | 
10 | }
11 | 
12 | http {
13 |         ##
14 |         # Basic Settings
15 |         ##
16 | 
17 |         sendfile on;  # enable sendfile for performance optimization
18 |         tcp_nopush on;  # enable TCP no-pushing
19 |         tcp_nodelay on;  # enable TCP no-delay
20 |         keepalive_timeout 65;  # sets the timeout for keep-alive connections
21 |         types_hash_max_size 2048;  # maximum size of the types hash table
22 |         # server_tokens off;  # disable server token (i.e., server signature) in response headers to improve security
23 | 
24 |         # server_names_hash_bucket_size 64;
25 |         # server_name_in_redirect off;
26 | 
27 |         include /etc/nginx/mime.types;  # include MIME types file
28 |         default_type application/octet-stream;  # default MIME type for unknown file types
29 | 
30 |         ##
31 |         # SSL Settings
32 |         ##
33 | 
34 |         ssl_protocols TLSv1.2;  # specify SSL/TLS protocols to use
35 |         ssl_prefer_server_ciphers on;  # prefer server ciphers over client ciphers
36 | 
37 |         ##
38 |         # Logging Settings
39 |         ##
40 | 
41 |         access_log /var/log/nginx/access.log;  # path to access log file
42 |         error_log /var/log/nginx/error.log;  # path to error log file
43 | 
44 |         ##
45 |         # Gzip Settings
46 |         ##
47 |         gzip on;  # enable Gzip compression
48 | 
49 |         ##
50 |         # Virtual Host Configs
51 |         ##
52 | 
53 |         include /etc/nginx/conf.d/*.conf;  # include all configuration files in conf.d directory
54 |         include /etc/nginx/sites-enabled/*;  # include all enabled sites configuration files
55 | 
56 |         # WebSocket Proxy: https://www.nginx.com/blog/websocket-nginx/
57 |         map $http_upgrade $connection_upgrade {
58 |                 default upgrade;
59 |                 '' close;
60 |         }
61 | 
62 |         upstream websocket {
63 |                 ip_hash; # load balancing by IP to guarantee session persistence
64 |                 server localhost:7860;  # The port should be the gradio web server port
65 |                 # server localhost:7861;  # extra gradio server if more than one
66 |         }
67 | 
68 |         limit_conn_status 429;
69 |         limit_conn_zone $binary_remote_addr zone=perip:10m;  # limit number of connections per IP
70 |         limit_conn_zone $server_name zone=perserver:10m;  # limit number of connections per server
71 | 
72 |         server {
73 |                 listen 443 ssl;  # the listening port of our server
74 | 		        ssl_certificate [PATH_TO_SSL_CERT];
75 | 		        ssl_certificate_key [PATH_TO_PRIVATE_KEY];
76 | 		        server_name chat.lmsys.org; # replace the url with your own domain url
77 |                 limit_conn perserver 1024;  # connections per server
78 |                 location / {
79 |                         proxy_pass http://websocket;  # proxy all requests to the defined upstream server
80 |                         limit_conn perip 5;  # connections per IP
81 |                         proxy_set_header Host $host;  # set the Host header for the upstream server
82 |                         proxy_set_header X-Real-IP $remote_addr;  # set the client IP address as the real IP for the upstream server
83 |                         proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;  # set the client IP addresses in the X-Forwarded-For header
84 |                         proxy_http_version 1.1;  # use HTTP version 1.1 for upstream communication
85 |                         proxy_set_header Upgrade $http_upgrade;
86 |                         proxy_set_header Connection "Upgrade";  # set the Connection header to Upgrade to enable WebSocket communication
87 |                 }
88 |         }
89 | 	
90 | 	# the following block routes all HTTP traffic to HTTPS via nginx
91 | 	server {
92 | 		listen 80;
93 | 		server_name chat.lmsys.org;
94 | 		return 301 https://chat.lmsys.org$request_uri;
95 | 	}
96 | 
97 | }
98 | 


--------------------------------------------------------------------------------
/valley/serve/gradio_css.py:
--------------------------------------------------------------------------------
 1 | code_highlight_css = (
 2 | """
 3 | #chatbot .hll { background-color: #ffffcc }
 4 | #chatbot .c { color: #408080; font-style: italic }
 5 | #chatbot .err { border: 1px solid #FF0000 }
 6 | #chatbot .k { color: #008000; font-weight: bold }
 7 | #chatbot .o { color: #666666 }
 8 | #chatbot .ch { color: #408080; font-style: italic }
 9 | #chatbot .cm { color: #408080; font-style: italic }
10 | #chatbot .cp { color: #BC7A00 }
11 | #chatbot .cpf { color: #408080; font-style: italic }
12 | #chatbot .c1 { color: #408080; font-style: italic }
13 | #chatbot .cs { color: #408080; font-style: italic }
14 | #chatbot .gd { color: #A00000 }
15 | #chatbot .ge { font-style: italic }
16 | #chatbot .gr { color: #FF0000 }
17 | #chatbot .gh { color: #000080; font-weight: bold }
18 | #chatbot .gi { color: #00A000 }
19 | #chatbot .go { color: #888888 }
20 | #chatbot .gp { color: #000080; font-weight: bold }
21 | #chatbot .gs { font-weight: bold }
22 | #chatbot .gu { color: #800080; font-weight: bold }
23 | #chatbot .gt { color: #0044DD }
24 | #chatbot .kc { color: #008000; font-weight: bold }
25 | #chatbot .kd { color: #008000; font-weight: bold }
26 | #chatbot .kn { color: #008000; font-weight: bold }
27 | #chatbot .kp { color: #008000 }
28 | #chatbot .kr { color: #008000; font-weight: bold }
29 | #chatbot .kt { color: #B00040 }
30 | #chatbot .m { color: #666666 }
31 | #chatbot .s { color: #BA2121 }
32 | #chatbot .na { color: #7D9029 }
33 | #chatbot .nb { color: #008000 }
34 | #chatbot .nc { color: #0000FF; font-weight: bold }
35 | #chatbot .no { color: #880000 }
36 | #chatbot .nd { color: #AA22FF }
37 | #chatbot .ni { color: #999999; font-weight: bold }
38 | #chatbot .ne { color: #D2413A; font-weight: bold }
39 | #chatbot .nf { color: #0000FF }
40 | #chatbot .nl { color: #A0A000 }
41 | #chatbot .nn { color: #0000FF; font-weight: bold }
42 | #chatbot .nt { color: #008000; font-weight: bold }
43 | #chatbot .nv { color: #19177C }
44 | #chatbot .ow { color: #AA22FF; font-weight: bold }
45 | #chatbot .w { color: #bbbbbb }
46 | #chatbot .mb { color: #666666 }
47 | #chatbot .mf { color: #666666 }
48 | #chatbot .mh { color: #666666 }
49 | #chatbot .mi { color: #666666 }
50 | #chatbot .mo { color: #666666 }
51 | #chatbot .sa { color: #BA2121 }
52 | #chatbot .sb { color: #BA2121 }
53 | #chatbot .sc { color: #BA2121 }
54 | #chatbot .dl { color: #BA2121 }
55 | #chatbot .sd { color: #BA2121; font-style: italic }
56 | #chatbot .s2 { color: #BA2121 }
57 | #chatbot .se { color: #BB6622; font-weight: bold }
58 | #chatbot .sh { color: #BA2121 }
59 | #chatbot .si { color: #BB6688; font-weight: bold }
60 | #chatbot .sx { color: #008000 }
61 | #chatbot .sr { color: #BB6688 }
62 | #chatbot .s1 { color: #BA2121 }
63 | #chatbot .ss { color: #19177C }
64 | #chatbot .bp { color: #008000 }
65 | #chatbot .fm { color: #0000FF }
66 | #chatbot .vc { color: #19177C }
67 | #chatbot .vg { color: #19177C }
68 | #chatbot .vi { color: #19177C }
69 | #chatbot .vm { color: #19177C }
70 | #chatbot .il { color: #666666 }
71 | """)
72 | #.highlight  { background: #f8f8f8; }
73 | 
74 | 


--------------------------------------------------------------------------------
/valley/serve/gradio_patch.py:
--------------------------------------------------------------------------------
  1 | """
  2 | Adopted from https://github.com/gradio-app/gradio/blob/main/gradio/components.py
  3 | Fix a markdown render problem.
  4 | """
  5 | from __future__ import annotations
  6 | 
  7 | from gradio.components import *
  8 | from markdown2 import Markdown
  9 | 
 10 | 
 11 | class _Keywords(Enum):
 12 |     NO_VALUE = "NO_VALUE"  # Used as a sentinel to determine if nothing is provided as a argument for `value` in `Component.update()`
 13 |     FINISHED_ITERATING = "FINISHED_ITERATING"  # Used to skip processing of a component's value (needed for generators + state)
 14 | 
 15 | 
 16 | @document("style")
 17 | class Chatbot(Changeable, Selectable, IOComponent, JSONSerializable):
 18 |     """
 19 |     Displays a chatbot output showing both user submitted messages and responses. Supports a subset of Markdown including bold, italics, code, and images.
 20 |     Preprocessing: this component does *not* accept input.
 21 |     Postprocessing: expects function to return a {List[Tuple[str | None | Tuple, str | None | Tuple]]}, a list of tuples with user message and response messages. Messages should be strings, tuples, or Nones. If the message is a string, it can include Markdown. If it is a tuple, it should consist of (string filepath to image/video/audio, [optional string alt text]). Messages that are `None` are not displayed.
 22 | 
 23 |     Demos: chatbot_simple, chatbot_multimodal
 24 |     """
 25 | 
 26 |     def __init__(
 27 |         self,
 28 |         value: List[Tuple[str | None, str | None]] | Callable | None = None,
 29 |         color_map: Dict[str, str] | None = None,  # Parameter moved to Chatbot.style()
 30 |         *,
 31 |         label: str | None = None,
 32 |         every: float | None = None,
 33 |         show_label: bool = True,
 34 |         visible: bool = True,
 35 |         elem_id: str | None = None,
 36 |         elem_classes: List[str] | str | None = None,
 37 |         **kwargs,
 38 |     ):
 39 |         """
 40 |         Parameters:
 41 |             value: Default value to show in chatbot. If callable, the function will be called whenever the app loads to set the initial value of the component.
 42 |             label: component name in interface.
 43 |             every: If `value` is a callable, run the function 'every' number of seconds while the client connection is open. Has no effect otherwise. Queue must be enabled. The event can be accessed (e.g. to cancel it) via this component's .load_event attribute.
 44 |             show_label: if True, will display label.
 45 |             visible: If False, component will be hidden.
 46 |             elem_id: An optional string that is assigned as the id of this component in the HTML DOM. Can be used for targeting CSS styles.
 47 |             elem_classes: An optional list of strings that are assigned as the classes of this component in the HTML DOM. Can be used for targeting CSS styles.
 48 |         """
 49 |         if color_map is not None:
 50 |             warnings.warn(
 51 |                 "The 'color_map' parameter has been deprecated.",
 52 |             )
 53 |         #self.md = utils.get_markdown_parser()
 54 |         self.md = Markdown(extras=["fenced-code-blocks", "tables", "break-on-newline"])
 55 |         self.select: EventListenerMethod
 56 |         """
 57 |         Event listener for when the user selects message from Chatbot.
 58 |         Uses event data gradio.SelectData to carry `value` referring to text of selected message, and `index` tuple to refer to [message, participant] index.
 59 |         See EventData documentation on how to use this event data.
 60 |         """
 61 | 
 62 |         IOComponent.__init__(
 63 |             self,
 64 |             label=label,
 65 |             every=every,
 66 |             show_label=show_label,
 67 |             visible=visible,
 68 |             elem_id=elem_id,
 69 |             elem_classes=elem_classes,
 70 |             value=value,
 71 |             **kwargs,
 72 |         )
 73 | 
 74 |     def get_config(self):
 75 |         return {
 76 |             "value": self.value,
 77 |             "selectable": self.selectable,
 78 |             **IOComponent.get_config(self),
 79 |         }
 80 | 
 81 |     @staticmethod
 82 |     def update(
 83 |         value: Any | Literal[_Keywords.NO_VALUE] | None = _Keywords.NO_VALUE,
 84 |         label: str | None = None,
 85 |         show_label: bool | None = None,
 86 |         visible: bool | None = None,
 87 |     ):
 88 |         updated_config = {
 89 |             "label": label,
 90 |             "show_label": show_label,
 91 |             "visible": visible,
 92 |             "value": value,
 93 |             "__type__": "update",
 94 |         }
 95 |         return updated_config
 96 | 
 97 |     def _process_chat_messages(
 98 |         self, chat_message: str | Tuple | List | Dict | None
 99 |     ) -> str | Dict | None:
100 |         if chat_message is None:
101 |             return None
102 |         elif isinstance(chat_message, (tuple, list)):
103 |             mime_type = processing_utils.get_mimetype(chat_message[0])
104 |             return {
105 |                 "name": chat_message[0],
106 |                 "mime_type": mime_type,
107 |                 "alt_text": chat_message[1] if len(chat_message) > 1 else None,
108 |                 "data": None,  # These last two fields are filled in by the frontend
109 |                 "is_file": True,
110 |             }
111 |         elif isinstance(
112 |             chat_message, dict
113 |         ):  # This happens for previously processed messages
114 |             return chat_message
115 |         elif isinstance(chat_message, str):
116 |             #return self.md.render(chat_message)
117 |             return str(self.md.convert(chat_message))
118 |         else:
119 |             raise ValueError(f"Invalid message for Chatbot component: {chat_message}")
120 | 
121 |     def postprocess(
122 |         self,
123 |         y: List[
124 |             Tuple[str | Tuple | List | Dict | None, str | Tuple | List | Dict | None]
125 |         ],
126 |     ) -> List[Tuple[str | Dict | None, str | Dict | None]]:
127 |         """
128 |         Parameters:
129 |             y: List of tuples representing the message and response pairs. Each message and response should be a string, which may be in Markdown format.  It can also be a tuple whose first element is a string filepath or URL to an image/video/audio, and second (optional) element is the alt text, in which case the media file is displayed. It can also be None, in which case that message is not displayed.
130 |         Returns:
131 |             List of tuples representing the message and response. Each message and response will be a string of HTML, or a dictionary with media information.
132 |         """
133 |         if y is None:
134 |             return []
135 |         processed_messages = []
136 |         for message_pair in y:
137 |             assert isinstance(
138 |                 message_pair, (tuple, list)
139 |             ), f"Expected a list of lists or list of tuples. Received: {message_pair}"
140 |             assert (
141 |                 len(message_pair) == 2
142 |             ), f"Expected a list of lists of length 2 or list of tuples of length 2. Received: {message_pair}"
143 |             processed_messages.append(
144 |                 (
145 |                     #self._process_chat_messages(message_pair[0]),
146 |                     '<pre style="font-family: var(--font)">' +
147 |                     message_pair[0] + "</pre>",
148 |                     self._process_chat_messages(message_pair[1]),
149 |                 )
150 |             )
151 |         return processed_messages
152 | 
153 |     def style(self, height: int | None = None, **kwargs):
154 |         """
155 |         This method can be used to change the appearance of the Chatbot component.
156 |         """
157 |         if height is not None:
158 |             self._style["height"] = height
159 |         if kwargs.get("color_map") is not None:
160 |             warnings.warn("The 'color_map' parameter has been deprecated.")
161 | 
162 |         Component.style(
163 |             self,
164 |             **kwargs,
165 |         )
166 |         return self
167 | 
168 | 
169 | 


--------------------------------------------------------------------------------
/valley/serve/gradio_web_server_video.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import datetime
  3 | import json
  4 | import os
  5 | import time
  6 | import gradio as gr
  7 | import requests
  8 | from valley.conversation import default_conversation, conv_templates
  9 | from valley.constants import LOGDIR
 10 | from valley.utils import build_logger, server_error_msg, violates_moderation, moderation_msg
 11 | from valley.serve.gradio_patch import Chatbot as grChatbot
 12 | from valley.serve.gradio_css import code_highlight_css
 13 | import hashlib
 14 | import base64
 15 | 
 16 | logger = build_logger("gradio_web_server", "gradio_web_server.log")
 17 | 
 18 | headers = {"User-Agent": "Valley Client"}
 19 | 
 20 | no_change_btn = gr.Button.update()
 21 | enable_btn = gr.Button.update(interactive=True)
 22 | disable_btn = gr.Button.update(interactive=False)
 23 | 
 24 | priority = {
 25 |     "vicuna-13b": "aaaaaaa",
 26 |     "koala-13b": "aaaaaab",
 27 | }
 28 | 
 29 | 
 30 | def get_conv_log_filename():
 31 |     t = datetime.datetime.now()
 32 |     name = os.path.join(LOGDIR, f"{t.year}-{t.month:02d}-{t.day:02d}-conv.json")
 33 |     return name
 34 | 
 35 | 
 36 | def get_model_list():
 37 |     ret = requests.post(args.controller_url + "/refresh_all_workers")
 38 |     assert ret.status_code == 200
 39 |     ret = requests.post(args.controller_url + "/list_models")
 40 |     models = ret.json()["models"]
 41 |     models.sort(key=lambda x: priority.get(x, x))
 42 |     logger.info(f"Models: {models}")
 43 |     return models
 44 | 
 45 | 
 46 | get_window_url_params = """
 47 | function() {
 48 |     const params = new URLSearchParams(window.location.search);
 49 |     url_params = Object.fromEntries(params);
 50 |     console.log(url_params);
 51 |     return url_params;
 52 |     }
 53 | """
 54 | 
 55 | 
 56 | def load_demo(url_params, request: gr.Request):
 57 |     logger.info(f"load_demo. ip: {request.client.host}. params: {url_params}")
 58 | 
 59 |     dropdown_update = gr.Dropdown.update(visible=True)
 60 |     if "model" in url_params:
 61 |         model = url_params["model"]
 62 |         if model in models:
 63 |             dropdown_update = gr.Dropdown.update(
 64 |                 value=model, visible=True)
 65 | 
 66 |     state = default_conversation.copy()
 67 |     return (state,
 68 |             dropdown_update,
 69 |             gr.Chatbot.update(visible=True),
 70 |             gr.Textbox.update(visible=True),
 71 |             gr.Button.update(visible=True),
 72 |             gr.Row.update(visible=True),
 73 |             gr.Accordion.update(visible=True))
 74 | 
 75 | 
 76 | def load_demo_refresh_model_list(request: gr.Request):
 77 |     logger.info(f"load_demo. ip: {request.client.host}")
 78 |     models = get_model_list()
 79 |     state = default_conversation.copy()
 80 |     return (state, gr.Dropdown.update(
 81 |                choices=models,
 82 |                value=models[0] if len(models) > 0 else ""),
 83 |             gr.Chatbot.update(visible=True),
 84 |             gr.Textbox.update(visible=True),
 85 |             gr.Button.update(visible=True),
 86 |             gr.Row.update(visible=True),
 87 |             gr.Accordion.update(visible=True))
 88 | 
 89 | 
 90 | def vote_last_response(state, vote_type, model_selector, request: gr.Request):
 91 |     with open(get_conv_log_filename(), "a") as fout:
 92 |         data = {
 93 |             "tstamp": round(time.time(), 4),
 94 |             "type": vote_type,
 95 |             "model": model_selector,
 96 |             "state": state.dict(),
 97 |             "ip": request.client.host,
 98 |         }
 99 |         fout.write(json.dumps(data) + "\n")
100 | 
101 | 
102 | def upvote_last_response(state, model_selector, request: gr.Request):
103 |     logger.info(f"upvote. ip: {request.client.host}")
104 |     vote_last_response(state, "upvote", model_selector, request)
105 |     return ("",) + (disable_btn,) * 3
106 | 
107 | 
108 | def downvote_last_response(state, model_selector, request: gr.Request):
109 |     logger.info(f"downvote. ip: {request.client.host}")
110 |     vote_last_response(state, "downvote", model_selector, request)
111 |     return ("",) + (disable_btn,) * 3
112 | 
113 | 
114 | def flag_last_response(state, model_selector, request: gr.Request):
115 |     logger.info(f"flag. ip: {request.client.host}")
116 |     vote_last_response(state, "flag", model_selector, request)
117 |     return ("",) + (disable_btn,) * 3
118 | 
119 | 
120 | def regenerate(state, image_process_mode, request: gr.Request):
121 |     logger.info(f"regenerate. ip: {request.client.host}")
122 |     state.messages[-1][-1] = None
123 |     prev_human_msg = state.messages[-2]
124 |     if type(prev_human_msg[1]) in (tuple, list):
125 |         prev_human_msg[1] = (*prev_human_msg[1][:2], image_process_mode)
126 |     state.skip_next = False
127 |     return (state, state.video_to_gradio_chatbot() if state.mode == 'video' else state.to_gradio_chatbot(), "", None) + (disable_btn,) * 5
128 | 
129 | 
130 | def clear_history(request: gr.Request):
131 |     logger.info(f"clear_history. ip: {request.client.host}")
132 |     state = default_conversation.copy()
133 |     return (state, state.video_to_gradio_chatbot(), "", None) + (disable_btn,) * 5
134 | 
135 | 
136 | def add_text(state, text, video, image, image_process_mode, request: gr.Request):
137 |     logger.info(f"add_text. ip: {request.client.host}. len: {len(text)}")
138 |     if len(text) <= 0 and video is None:
139 |         state.skip_next = True
140 |         return (state, state.video_to_gradio_chatbot(), "", None) + (no_change_btn,) * 5
141 |     if args.moderate:
142 |         flagged = violates_moderation(text)
143 |         if flagged:
144 |             state.skip_next = True
145 |             return (state, state.video_to_gradio_chatbot(), moderation_msg, None) + (
146 |                 no_change_btn,) * 5
147 | 
148 |     text = text[:1536]  # Hard cut-off
149 |     if video is not None:
150 |         text = text[:2048-256-4-8]  # Hard cut-off for images
151 |         if '<video>' not in text:
152 |             text = text + '\n<video>'
153 |         text = (text, video, image_process_mode)
154 |         state = default_conversation.copy()
155 |         state.mode = 'video'
156 |     elif image is not None:
157 |         text = text[:2048-256-4-8]  # Hard cut-off for images
158 |         if '<image>' not in text:
159 |             text = text + '\n<image>'
160 |         text = (text, image, image_process_mode)
161 |         state = default_conversation.copy()
162 |         state.mode = 'image'
163 |     state.append_message(state.roles[0], text)
164 |     state.append_message(state.roles[1], None)
165 |     state.skip_next = False
166 |     
167 |     return (state, state.video_to_gradio_chatbot() if state.mode == 'video' else state.to_gradio_chatbot(), "", None,None) + (disable_btn,) * 2
168 | 
169 | 
170 | 
171 | def post_process_code(code):
172 |     sep = "\n```"
173 |     if sep in code:
174 |         blocks = code.split(sep)
175 |         if len(blocks) % 2 == 1:
176 |             for i in range(1, len(blocks), 2):
177 |                 blocks[i] = blocks[i].replace("\\_", "_")
178 |         code = sep.join(blocks)
179 |     return code
180 | 
181 | 
182 | def http_bot(state, model_selector, temperature, max_new_tokens, request: gr.Request):
183 |     logger.info(f"http_bot. ip: {request.client.host}")
184 |     start_tstamp = time.time()
185 |     model_name = model_selector
186 | 
187 |     if state.skip_next:
188 |         # This generate call is skipped due to invalid inputs
189 |         yield (state, state.video_to_gradio_chatbot()) + (no_change_btn,) * 5
190 |         return
191 |     mode = state.mode
192 |     if len(state.messages) == state.offset + 2:
193 |         # First round of conversation
194 |         if "stable" in model_name.lower() and 'fashion' not in model_name.lower() and mode == 'video':
195 |             template_name = "multimodal_video"
196 |         elif "stable" in model_name.lower() and 'fashion' not in model_name.lower() and mode == 'image':
197 |             template_name = "multimodal"
198 |         else:
199 |             template_name = "multimodal_video"
200 |         new_state = conv_templates[template_name].copy()
201 |         new_state.append_message(new_state.roles[0], state.messages[-2][1])
202 |         new_state.append_message(new_state.roles[1], None)
203 |         new_state.mode = mode
204 |         state = new_state
205 | 
206 |     # Query worker address
207 |     controller_url = args.controller_url
208 |     ret = requests.post(controller_url + "/get_worker_address",
209 |             json={"model": model_name})
210 |     worker_addr = ret.json()["address"]
211 |     logger.info(f"model_name: {model_name}, worker_addr: {worker_addr}")
212 | 
213 |     # No available worker
214 |     if worker_addr == "":
215 |         state.messages[-1][-1] = server_error_msg
216 |         if mode == "video":
217 |             yield (state, state.video_to_gradio_chatbot(), disable_btn, disable_btn, disable_btn, enable_btn, enable_btn)
218 |             return
219 |         else:
220 |             yield (state, state.to_gradio_chatbot(), disable_btn, disable_btn, disable_btn, enable_btn, enable_btn)
221 | 
222 |     # Construct prompt
223 |     prompt = state.get_prompt()
224 |     if mode == 'video':
225 |         all_videos, path_list = state.get_video()
226 |         all_video_hash = [hashlib.md5(image).hexdigest() for image in all_videos]
227 |         for video, hash in zip(all_videos, all_video_hash):
228 |             t = datetime.datetime.now()
229 |             filename = os.path.join(LOGDIR, "serve_images", f"{t.year}-{t.month:02d}-{t.day:02d}", f"{hash}.mp4")
230 |             if not os.path.isfile(filename):
231 |                 os.makedirs(os.path.dirname(filename), exist_ok=True)
232 |                 fh = open(filename, "wb")
233 |                 fh.write(base64.b64decode(video))
234 |                 fh.close()
235 |         # Make requests
236 |         pload = {
237 |             "model": model_name,
238 |             "prompt": prompt,
239 |             "temperature": float(temperature),
240 |             "max_new_tokens": min(int(max_new_tokens), 1536),
241 |             "stop":state.sep,
242 |             "videos": f'List of {len(all_videos)} videos: {all_video_hash}',
243 |         }
244 |         logger.info(f"==== request ====\n{pload}")
245 |         pload['videos'] = path_list
246 |     elif mode == 'image':
247 |         all_images = state.get_images(return_pil=True)
248 |         all_image_hash = [hashlib.md5(image.tobytes()).hexdigest() for image in all_images]
249 |         for image, hash in zip(all_images, all_image_hash):
250 |             t = datetime.datetime.now()
251 |             filename = os.path.join(LOGDIR, "serve_images", f"{t.year}-{t.month:02d}-{t.day:02d}", f"{hash}.jpg")
252 |             if not os.path.isfile(filename):
253 |                 os.makedirs(os.path.dirname(filename), exist_ok=True)
254 |                 image.save(filename)
255 |         # Make requests
256 |         pload = {
257 |             "model": model_name,
258 |             "prompt": prompt,
259 |             "temperature": float(temperature),
260 |             "max_new_tokens": min(int(max_new_tokens), 1536),
261 |             "stop": state.sep,
262 |             "images": f'List of {len(state.get_images())} images: {all_image_hash}',
263 |         }
264 |         logger.info(f"==== request ====\n{pload}")
265 | 
266 |         pload['images'] = state.get_images()
267 | 
268 |     
269 | 
270 |     state.messages[-1][-1] = "▌"
271 |     yield (state, state.video_to_gradio_chatbot() if mode == 'video' else state.to_gradio_chatbot()) + (disable_btn,) * 2
272 | 
273 |     try:
274 |         # Stream output
275 |         response = requests.post(worker_addr + "/worker_generate_stream",
276 |             headers=headers, json=pload, stream=False, timeout=10)
277 |         # print(response)
278 |         for chunk in response.iter_lines(decode_unicode=False, delimiter=b"\0"):
279 |             if chunk:
280 |                 data = json.loads(chunk.decode())
281 |                 if data["error_code"] == 0:
282 |                     output = data["text"][len(prompt):].strip()
283 |                     output = post_process_code(output)
284 |                     state.messages[-1][-1] = output + "▌"
285 |                 else:
286 |                     output = data["text"] + f" (error_code: {data['error_code']})"
287 |                     state.messages[-1][-1] = output
288 |                     return
289 |     except requests.exceptions.RequestException as e:
290 |         state.messages[-1][-1] = server_error_msg
291 |         yield (state, state.video_to_gradio_chatbot() if mode == 'video' else state.to_gradio_chatbot()) + (enable_btn, enable_btn)
292 |         return
293 | 
294 |     state.messages[-1][-1] = state.messages[-1][-1][:-1]
295 |     yield (state, state.video_to_gradio_chatbot() if mode == 'video' else state.to_gradio_chatbot()) + (enable_btn,) * 2
296 | 
297 |     finish_tstamp = time.time()
298 |     logger.info(f"{output}")
299 | 
300 |     # with open(get_conv_log_filename(), "a") as fout:
301 |     #     data = {
302 |     #         "tstamp": round(finish_tstamp, 4),
303 |     #         "type": "chat",
304 |     #         "model": model_name,
305 |     #         "start": round(start_tstamp, 4),
306 |     #         "finish": round(start_tstamp, 4),
307 |     #         "state": state.dict(),
308 |     #         "images": all_image_hash,
309 |     #         "ip": request.client.host,
310 |     #     }
311 |     #     fout.write(json.dumps(data) + "\n")
312 | 
313 | title_markdown = ("""
314 | # ⛰️VALLEY
315 | """)
316 | 
317 | 
318 | 
319 | css = code_highlight_css + """
320 | pre {
321 |     white-space: pre-wrap;       /* Since CSS 2.1 */
322 |     white-space: -moz-pre-wrap;  /* Mozilla, since 1999 */
323 |     white-space: -pre-wrap;      /* Opera 4-6 */
324 |     white-space: -o-pre-wrap;    /* Opera 7 */
325 |     word-wrap: break-word;       /* Internet Explorer 5.5+ */
326 | }
327 | """
328 | 
329 | 
330 | def build_demo(embed_mode):
331 |     textbox = gr.Textbox(show_label=False,
332 |         placeholder="Enter text and press ENTER", visible=False).style(container=False)
333 |     with gr.Blocks(title="VALLEY", theme=gr.themes.Base(), css=css) as demo:
334 |         state = gr.State()
335 | 
336 |         if not embed_mode:
337 |             gr.Markdown(title_markdown)
338 |         # with gr.Row():
339 |         #     imagebox = gr.Image(type='pil',source='upload')
340 |         #     imagebox1 = gr.Image(type='pil',source='upload')
341 |         #     imagebox2 = gr.Image(type='pil')
342 |         #     imagebox3 = gr.Image(type='pil')
343 |         with gr.Row():
344 |             with gr.Column(scale=3):
345 |                 with gr.Row(elem_id="model_selector_row"):
346 |                     model_selector = gr.Dropdown(
347 |                         choices=models,
348 |                         value=models[0] if len(models) > 0 else "",
349 |                         interactive=True,
350 |                         show_label=False).style(container=False)
351 |                 with gr.Tab("Video"):
352 |                     videobox = gr.Video(label = "input video")
353 |                     videobox.style(height=300)
354 |                     image_process_mode = gr.Radio(
355 |                         # ["Crop", "Resize", "Pad"],
356 |                         value="Crop",
357 |                         label="Preprocess for non-square image")
358 | 
359 |                     cur_dir = os.path.dirname(os.path.abspath(__file__))
360 |                     gr.Examples(examples=[
361 |                         ["valley/serve/examples/videos/aa5dbc3a110f410bb02572408b0fb778.mp4", "Describe the following video concisely."],
362 |                         ["valley/serve/examples/videos/dc52388394cc9f692d16a95d9833ca07.mp4", "Describe the following video concisely."],
363 |                     ], inputs=[videobox, textbox])
364 |                 with gr.Tab("Image"):
365 |                     imagebox = gr.Image(type="pil")
366 |                     image_process_mode = gr.Radio(
367 |                         # ["Crop", "Resize", "Pad"],
368 |                         value="Crop",
369 |                         label="Preprocess for non-square image")
370 |                     gr.Examples(examples=[
371 |                         ["valley/serve/examples/images/c790e7358b6f9de50ccfc78d2fba1b97.jpg", "Describe the image"],
372 |                         ["valley/serve/examples/images/f4cefeeb3f10a2afb4bb077a415f9fb8.jpg", "Describe the image"],
373 |                     ], inputs=[imagebox, textbox])
374 | 
375 |                 with gr.Accordion("Parameters", open=False, visible=False) as parameter_row:
376 |                     temperature = gr.Slider(minimum=0.0, maximum=1.0, value=0.2, step=0.1, interactive=True, label="Temperature",)
377 |                     max_output_tokens = gr.Slider(minimum=0, maximum=1024, value=512, step=64, interactive=True, label="Max output tokens",)
378 | 
379 |             with gr.Column(scale=6):
380 |                 chatbot = grChatbot(elem_id="chatbot", label="VALLEY Chatbot", visible=False).style(height=550)
381 |                 with gr.Row():
382 |                     with gr.Column(scale=8):
383 |                         textbox.render()
384 |                     with gr.Column(scale=1, min_width=60):
385 |                         submit_btn = gr.Button(value="Submit", visible=False)
386 |                 with gr.Row(visible=False) as button_row:
387 |                     regenerate_btn = gr.Button(value="🔄  Regenerate", interactive=False)
388 |                     clear_btn = gr.Button(value="🗑️  Clear history", interactive=False)
389 | 
390 |         url_params = gr.JSON(visible=False)
391 | 
392 |         # Register listeners
393 |         btn_list = [regenerate_btn, clear_btn]
394 |         # upvote_btn.click(upvote_last_response,
395 |         #     [state, model_selector], [textbox, upvote_btn, downvote_btn, flag_btn])
396 |         # downvote_btn.click(downvote_last_response,
397 |         #     [state, model_selector], [textbox, upvote_btn, downvote_btn, flag_btn])
398 |         # flag_btn.click(flag_last_response,
399 |         #     [state, model_selector], [textbox, upvote_btn, downvote_btn, flag_btn])
400 |         regenerate_btn.click(regenerate, [state, image_process_mode],
401 |             [state, chatbot, textbox, videobox] + btn_list).then(
402 |             http_bot, [state, model_selector, temperature, max_output_tokens],
403 |             [state, chatbot] + btn_list)
404 |         clear_btn.click(clear_history, None, [state, chatbot, textbox, videobox] + btn_list)
405 | 
406 |         textbox.submit(add_text, [state, textbox, videobox, imagebox, image_process_mode], [state, chatbot, textbox, videobox, imagebox] + btn_list
407 |             ).then(http_bot, [state, model_selector, temperature, max_output_tokens],
408 |                    [state, chatbot] + btn_list)
409 |         submit_btn.click(add_text, [state, textbox, videobox, imagebox, image_process_mode], [state, chatbot, textbox, videobox, imagebox] + btn_list
410 |             ).then(http_bot, [state, model_selector, temperature, max_output_tokens], [state, chatbot] + btn_list)
411 | 
412 |         if args.model_list_mode == "once":
413 |             demo.load(load_demo, [url_params], [state, model_selector,
414 |                 chatbot, textbox, submit_btn, button_row, parameter_row],
415 |                 _js=get_window_url_params)
416 |         elif args.model_list_mode == "reload":
417 |             demo.load(load_demo_refresh_model_list, None, [state, model_selector,
418 |                 chatbot, textbox, submit_btn, button_row, parameter_row])
419 |         else:
420 |             raise ValueError(f"Unknown model list mode: {args.model_list_mode}")
421 | 
422 |     return demo
423 | 
424 | 
425 | if __name__ == "__main__":
426 |     parser = argparse.ArgumentParser()
427 |     parser.add_argument("--host", type=str, default="0.0.0.0")
428 |     parser.add_argument("--port", type=int)
429 |     parser.add_argument("--controller-url", type=str, default="http://localhost:20000")
430 |     parser.add_argument("--concurrency-count", type=int, default=8)
431 |     parser.add_argument("--model-list-mode", type=str, default="once",
432 |         choices=["once", "reload"])
433 |     parser.add_argument("--share", action="store_true")
434 |     parser.add_argument("--moderate", action="store_true")
435 |     parser.add_argument("--embed", action="store_true")
436 |     args = parser.parse_args()
437 |     logger.info(f"args: {args}")
438 | 
439 |     models = get_model_list()
440 | 
441 |     logger.info(args)
442 |     demo = build_demo(args.embed)
443 |     demo.queue(concurrency_count=args.concurrency_count, status_update_rate=2,
444 |                api_open=False).launch(
445 |         server_name=args.host, server_port=args.port, share=args.share)


--------------------------------------------------------------------------------
/valley/serve/model_worker.py:
--------------------------------------------------------------------------------
  1 | """
  2 | A model worker executes the model.
  3 | """
  4 | import argparse
  5 | import asyncio
  6 | import dataclasses
  7 | import logging
  8 | import json
  9 | import time
 10 | from typing import List, Union
 11 | import threading
 12 | import uuid
 13 | from valley.utils import disable_torch_init
 14 | from fastapi import FastAPI, Request, BackgroundTasks
 15 | from fastapi.responses import StreamingResponse
 16 | import requests
 17 | from transformers import AutoTokenizer, AutoModelForCausalLM
 18 | import torch
 19 | import uvicorn
 20 | from functools import partial
 21 | import sys
 22 | sys.path.append('./valley')
 23 | from constants import WORKER_HEART_BEAT_INTERVAL
 24 | from util.config import DEFAULT_IMAGE_PATCH_TOKEN, DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN, DEFAULT_IMAGE_TOKEN, DEFAULT_VIDEO_TOKEN, DEFAULT_VIDEO_FRAME_TOKEN, DEFAULT_VI_START_TOKEN, DEFAULT_VI_END_TOKEN
 25 | from utils import (build_logger, server_error_msg,
 26 |     pretty_print_semaphore)
 27 | from valley.model.valley_model import ValleyLlamaForCausalLM
 28 | from transformers import CLIPImageProcessor, CLIPVisionModel
 29 | import decord
 30 | from torchvision import transforms
 31 | from data import video_transform
 32 | import numpy as np
 33 | 
 34 | GB = 1 << 30
 35 | 
 36 | worker_id = str(uuid.uuid4())[:6]
 37 | logger = build_logger("model_worker", f"model_worker_{worker_id}.log")
 38 | global_counter = 0
 39 | 
 40 | model_semaphore = None
 41 | 
 42 | 
 43 | 
 44 | def heart_beat_worker(controller):
 45 | 
 46 |     while True:
 47 |         time.sleep(WORKER_HEART_BEAT_INTERVAL)
 48 |         controller.send_heart_beat()
 49 | 
 50 | 
 51 | def load_model(model_path, model_name, num_gpus):
 52 |     if num_gpus == 1:
 53 |         kwargs = {}
 54 |     else:
 55 |         kwargs = {
 56 |             "device_map": "auto",
 57 |             "max_memory": {i: "13GiB" for i in range(num_gpus)},
 58 |         }
 59 |     disable_torch_init()
 60 |     tokenizer = AutoTokenizer.from_pretrained(model_path)
 61 |     model = ValleyLlamaForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16)
 62 |     # for multi image
 63 |     model.model.multi_image = True
 64 |     model.model.multi_image_mode = 'concatenate'
 65 | 
 66 |     # for image encoder
 67 |     image_processor = CLIPImageProcessor.from_pretrained(model.config.mm_vision_tower, torch_dtype=torch.float16)
 68 | 
 69 |     mm_use_im_start_end = getattr(model.config, "mm_use_im_start_end", False)
 70 |     tokenizer.add_tokens([DEFAULT_IMAGE_PATCH_TOKEN], special_tokens=True)
 71 |     if mm_use_im_start_end:
 72 |         tokenizer.add_tokens([DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN], special_tokens=True)
 73 | 
 74 |     vision_tower = model.get_model().vision_tower
 75 |     # if vision_tower.device.type == 'meta':
 76 |     #     vision_tower = CLIPVisionModel.from_pretrained(vision_tower.config._name_or_path, torch_dtype=torch.float16, low_cpu_mem_usage=True).cuda()
 77 |     #     model.get_model().vision_tower = vision_tower
 78 |     # else:
 79 |     vision_tower.to(device='cuda', dtype=torch.float16)
 80 |     vision_config = vision_tower.config
 81 |     vision_config.im_patch_token = tokenizer.convert_tokens_to_ids([DEFAULT_IMAGE_PATCH_TOKEN])[0]
 82 |     vision_config.use_im_start_end = mm_use_im_start_end
 83 |     if mm_use_im_start_end:
 84 |         vision_config.im_start_token, vision_config.im_end_token = tokenizer.convert_tokens_to_ids([DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN])
 85 | 
 86 |     if num_gpus == 1:
 87 |         model.cuda()
 88 | 
 89 |     if hasattr(model.config, "max_sequence_length"):
 90 |         context_len = model.config.max_sequence_length
 91 |     else:
 92 |         context_len = 2048
 93 | 
 94 |     return tokenizer, model, image_processor, context_len
 95 | 
 96 | 
 97 | class ModelWorker:
 98 |     def __init__(self, controller_addr, worker_addr,
 99 |                  worker_id, no_register,
100 |                  model_path, model_name,
101 |                  keep_aspect_ratio,
102 |                  num_gpus):
103 |         self.controller_addr = controller_addr
104 |         self.worker_addr = worker_addr
105 |         self.worker_id = worker_id
106 |         if model_path.endswith("/"):
107 |             model_path = model_path[:-1]
108 |         if model_name is None:
109 |             model_paths = model_path.split("/")
110 |             if model_paths[-1].startswith('checkpoint-'):
111 |                 self.model_name = model_paths[-2] + "_" + model_paths[-1]
112 |             else:
113 |                 self.model_name = model_paths[-1]
114 |         else:
115 |             self.model_name = model_name
116 | 
117 |         logger.info(f"Loading the model {self.model_name} on worker {worker_id} ...")
118 |         self.keep_aspect_ratio = keep_aspect_ratio
119 |         self.tokenizer, self.model, self.image_processor, self.context_len = load_model(
120 |             model_path, self.model_name, num_gpus)
121 |         self.is_multimodal = 'valley' in model_path.lower()
122 | 
123 |         if not no_register:
124 |             self.register_to_controller()
125 |             self.heart_beat_thread = threading.Thread(
126 |                 target=heart_beat_worker, args=(self,))
127 |             self.heart_beat_thread.start()
128 | 
129 |     def register_to_controller(self):
130 |         logger.info("Register to controller")
131 | 
132 |         url = self.controller_addr + "/register_worker"
133 |         data = {
134 |             "worker_name": self.worker_addr,
135 |             "check_heart_beat": True,
136 |             "worker_status": self.get_status()
137 |         }
138 |         r = requests.post(url, json=data)
139 |         assert r.status_code == 200
140 | 
141 |     def send_heart_beat(self):
142 |         logger.info(f"Send heart beat. Models: {[self.model_name]}. "
143 |                     f"Semaphore: {pretty_print_semaphore(model_semaphore)}. "
144 |                     f"global_counter: {global_counter}")
145 | 
146 |         url = self.controller_addr + "/receive_heart_beat"
147 | 
148 |         while True:
149 |             try:
150 |                 ret = requests.post(url, json={
151 |                     "worker_name": self.worker_addr,
152 |                     "queue_length": self.get_queue_length()}, timeout=5)
153 |                 exist = ret.json()["exist"]
154 |                 break
155 |             except requests.exceptions.RequestException as e:
156 |                 logger.error(f"heart beat error: {e}")
157 |             time.sleep(5)
158 | 
159 |         if not exist:
160 |             self.register_to_controller()
161 | 
162 |     def get_queue_length(self):
163 |         if model_semaphore is None:
164 |             return 0
165 |         else:
166 |             return args.limit_model_concurrency - model_semaphore._value + (len(
167 |                 model_semaphore._waiters) if model_semaphore._waiters is not None else 0)
168 | 
169 |     def get_status(self):
170 |         return {
171 |             "model_names": [self.model_name],
172 |             "speed": 1,
173 |             "queue_length": self.get_queue_length(),
174 |         }
175 | 
176 |     @torch.inference_mode()
177 |     def generate_stream(self, params):
178 |         tokenizer, model, image_processor = self.tokenizer, self.model, self.image_processor
179 |         prompt = params["prompt"]
180 |         ori_prompt = prompt
181 |         images = params.get("images", None)
182 |         if images is not None and len(images) > 0 and self.is_multimodal:
183 |             from PIL import Image
184 |             from io import BytesIO
185 |             import base64
186 |             assert type(images) is list
187 |             if len(images) > 0:
188 |                 # assert len(images) == 1, "Only support one image for now"
189 |                 images = [Image.open(BytesIO(base64.b64decode(image))) for image in images]
190 |                 assert len(images) == prompt.count(DEFAULT_IMAGE_TOKEN), "Number of images does not match number of <image> tokens in prompt"
191 | 
192 |                 if self.keep_aspect_ratio:
193 |                     new_images = []
194 |                     for image_idx, image in enumerate(images):
195 |                         max_hw, min_hw = max(image.size), min(image.size)
196 |                         aspect_ratio = max_hw / min_hw
197 |                         max_len, min_len = 448, 224
198 |                         shortest_edge = int(min(max_len / aspect_ratio, min_len))
199 |                         image = image_processor.preprocess(image, return_tensors='pt', do_center_crop=False, size={"shortest_edge": shortest_edge})['pixel_values'][0]
200 |                         new_images.append(image.to(self.model.device, dtype=torch.float16))
201 |                         # replace the image token with the image patch token in the prompt (each occurrence)
202 |                         cur_token_len = (image.shape[1]//14) * (image.shape[2]//14)
203 |                         replace_token = DEFAULT_IMAGE_PATCH_TOKEN * cur_token_len
204 |                         if getattr(self.model.config, 'mm_use_im_start_end', False):
205 |                             replace_token = DEFAULT_IM_START_TOKEN + replace_token + DEFAULT_IM_END_TOKEN
206 |                         prompt = prompt.replace(DEFAULT_IMAGE_TOKEN, replace_token, 1)
207 |                     images = new_images
208 |                 else:
209 |                     images = image_processor(images, return_tensors='pt')['pixel_values']
210 |                     images = images.to(self.model.device, dtype=torch.float16)
211 |                     replace_token = DEFAULT_IMAGE_PATCH_TOKEN * 256    # HACK: 256 is the max image token length hacked
212 |                     if getattr(self.model.config, 'mm_use_im_start_end', False):
213 |                         replace_token = DEFAULT_IM_START_TOKEN + replace_token + DEFAULT_IM_END_TOKEN + DEFAULT_VI_START_TOKEN + DEFAULT_VIDEO_FRAME_TOKEN * 1 + DEFAULT_VI_END_TOKEN
214 |                     prompt = prompt.replace(DEFAULT_IMAGE_TOKEN, replace_token)
215 |             else:
216 |                 images = None
217 |             image_args = {"images": images.unsqueeze(0)}
218 |         else:
219 |             images = None
220 |             image_args = {}
221 | 
222 |         l_prompt = len(prompt)
223 |         temperature = float(params.get("temperature", 1.0))
224 |         max_new_tokens = min(int(params.get("max_new_tokens", 256)), 1024)
225 |         stop_str = params.get("stop", None)
226 |         stop_idx = None
227 |         if stop_str is not None:
228 |             stop_idx = tokenizer(stop_str).input_ids
229 |             if len(stop_idx) == 1:
230 |                 stop_idx = stop_idx[0]
231 |             else:
232 |                 stop_idx = None
233 | 
234 |         input_ids = tokenizer(prompt).input_ids
235 |         output_ids = list(input_ids)
236 |         pred_ids = []
237 | 
238 |         max_src_len = self.context_len - max_new_tokens - 8
239 |         input_ids = input_ids[-max_src_len:]
240 |         
241 |         print(input_ids)
242 |         past_key_values = None
243 |         for i in range(max_new_tokens):
244 |             if i == 0:
245 |                 out = model(
246 |                     torch.as_tensor([input_ids]).cuda(),
247 |                     use_cache=True,
248 |                     **image_args)
249 |                 logits = out.logits
250 |                 past_key_values = out.past_key_values
251 |             else:
252 |                 attention_mask = torch.ones(
253 |                     1, past_key_values[0][0].shape[-2] + 1, device="cuda")
254 |                 out = model(input_ids=torch.as_tensor([[token]], device="cuda"),
255 |                             use_cache=True,
256 |                             attention_mask=attention_mask,
257 |                             past_key_values=past_key_values)
258 |                 logits = out.logits
259 |                 past_key_values = out.past_key_values
260 | 
261 |             last_token_logits = logits[0][-1]
262 |             if temperature < 1e-4:
263 |                 token = int(torch.argmax(last_token_logits))
264 |             else:
265 |                 probs = torch.softmax(last_token_logits / temperature, dim=-1)
266 |                 token = int(torch.multinomial(probs, num_samples=1))
267 | 
268 |             output_ids.append(token)
269 |             pred_ids.append(token)
270 | 
271 |             if stop_idx is not None and token == stop_idx:
272 |                 stopped = True
273 |             elif token == tokenizer.eos_token_id:
274 |                 stopped = True
275 |             else:
276 |                 stopped = False
277 | 
278 |             if i % args.stream_interval == 0 or i == max_new_tokens - 1 or stopped:
279 |                 cur_out = tokenizer.decode(pred_ids, skip_special_tokens=True)
280 |                 pos = cur_out.rfind(stop_str)
281 |                 if pos != -1:
282 |                     cur_out = cur_out[:pos]
283 |                     stopped = True
284 |                 output = ori_prompt + cur_out
285 | 
286 |                 ret = {
287 |                     "text": output,
288 |                     "error_code": 0,
289 |                 }
290 |                 # logger.info(f"==== request ====\n{ret}")
291 |                 yield json.dumps(ret).encode() + b"\0"
292 | 
293 |             if stopped:
294 |                 logger.info(f"==== request ====\n{ret}")
295 |                 break
296 | 
297 |         if past_key_values is not None:
298 |             del past_key_values
299 |     def load_video(self, path):
300 |         video_reader = decord.VideoReader(path, num_threads=1, ctx=decord.cpu(0))
301 |         decord.bridge.set_bridge('torch')
302 |         video_len = len(video_reader)
303 |         video = video_reader.get_batch(np.linspace(0, video_len - 1, 8).astype(np.int_)).byte()
304 |         video = video.permute(3, 0, 1, 2) # 3 x 8 x height x width
305 | 
306 | 
307 |         input_mean = [0.48145466, 0.4578275, 0.40821073]
308 |         input_std = [0.26862954, 0.26130258, 0.27577711]
309 |         crop_size, scale_size = 224, 256
310 |         trans = transforms.Compose([
311 |             video_transform.TensorToNumpy(),
312 |             video_transform.Resize(scale_size),
313 |             video_transform.CenterCrop(crop_size),
314 |             video_transform.ClipToTensor(channel_nb=3),
315 |             video_transform.Normalize(mean=input_mean, std=input_std)
316 |         ])
317 | 
318 |         video = trans(video)
319 |         return video
320 |     @torch.inference_mode()
321 |     def generate_video_stream(self, params):
322 |         tokenizer, model, image_processor = self.tokenizer, self.model, self.image_processor
323 |         prompt = params["prompt"]
324 |         ori_prompt = prompt
325 |         videos = params.get("videos", None)
326 |         if videos is not None and len(videos) > 0 and self.is_multimodal:
327 | 
328 |             assert type(videos) is list
329 |             if len(videos) > 0:
330 |                 assert len(videos) == 1, "Only support one image for now"
331 |                 logger.info('load video from '+str(videos))
332 |                 videos = [self.load_video(video) for video in videos]
333 |                 assert len(videos) == prompt.count(DEFAULT_VIDEO_TOKEN), "Number of video does not match number of <video> tokens in prompt"
334 | 
335 |                 videos = videos[0]
336 |                 videos = videos.to(self.model.device, dtype=torch.float16)
337 |                 videos = videos.permute(1,0,2,3)
338 |                 replace_token = DEFAULT_IMAGE_PATCH_TOKEN * 256    # HACK: 256 is the max image token length hacked
339 |                 if getattr(self.model.config, 'mm_use_im_start_end', False):
340 |                     replace_token = DEFAULT_IM_START_TOKEN + replace_token + DEFAULT_IM_END_TOKEN + DEFAULT_VI_START_TOKEN + DEFAULT_VIDEO_FRAME_TOKEN * videos.shape[0] + DEFAULT_VI_END_TOKEN
341 |                 prompt = prompt.replace(DEFAULT_VIDEO_TOKEN, replace_token)
342 |                 print(prompt)
343 |             else:
344 |                 videos = None
345 |             video_args = {"images": videos.unsqueeze(0)}
346 |             print(videos.unsqueeze(0).shape)
347 |         else:
348 |             videos = None
349 |             video_args = {}
350 | 
351 |         l_prompt = len(prompt)
352 |         temperature = float(params.get("temperature", 1.0))
353 |         max_new_tokens = min(int(params.get("max_new_tokens", 256)), 1024)
354 |         stop_str = params.get("stop", None)
355 |         stop_idx = None
356 |         if stop_str is not None:
357 |             stop_idx = tokenizer(stop_str).input_ids
358 |             if len(stop_idx) == 1:
359 |                 stop_idx = stop_idx[0]
360 |             else:
361 |                 stop_idx = None
362 |         # print(prompt)
363 |         input_ids = tokenizer(prompt).input_ids
364 |         output_ids = list(input_ids)
365 |         pred_ids = []
366 | 
367 |         max_src_len = self.context_len - max_new_tokens - 8
368 |         input_ids = input_ids[-max_src_len:]
369 |         
370 |         past_key_values = None
371 |         for i in range(max_new_tokens):
372 |             if i == 0:
373 |                 out = model(
374 |                     torch.as_tensor([input_ids]).cuda(),
375 |                     use_cache=True,
376 |                     **video_args)
377 |                 logits = out.logits
378 |                 past_key_values = out.past_key_values
379 |             else:
380 |                 attention_mask = torch.ones(
381 |                     1, past_key_values[0][0].shape[-2] + 1, device="cuda")
382 |                 out = model(input_ids=torch.as_tensor([[token]], device="cuda"),
383 |                             use_cache=True,
384 |                             attention_mask=attention_mask,
385 |                             past_key_values=past_key_values)
386 |                 logits = out.logits
387 |                 past_key_values = out.past_key_values
388 | 
389 |             last_token_logits = logits[0][-1]
390 |             if temperature < 1e-4:
391 |                 token = int(torch.argmax(last_token_logits))
392 |             else:
393 |                 probs = torch.softmax(last_token_logits / temperature, dim=-1)
394 |                 token = int(torch.multinomial(probs, num_samples=1))
395 | 
396 |             output_ids.append(token)
397 |             pred_ids.append(token)
398 | 
399 |             if stop_idx is not None and token == stop_idx:
400 |                 stopped = True
401 |             elif token == tokenizer.eos_token_id:
402 |                 stopped = True
403 |             else:
404 |                 stopped = False
405 | 
406 |             if i % args.stream_interval == 0 or i == max_new_tokens - 1 or stopped:
407 |                 cur_out = tokenizer.decode(pred_ids, skip_special_tokens=True)
408 |                 pos = cur_out.rfind(stop_str)
409 |                 if pos != -1:
410 |                     cur_out = cur_out[:pos]
411 |                     stopped = True
412 |                 output = ori_prompt + cur_out
413 | 
414 |                 ret = {
415 |                     "text": output,
416 |                     "error_code": 0,
417 |                 }
418 |                 # logger.info(f"==== request ====\n{ret}")
419 |                 yield json.dumps(ret).encode() + b"\0"
420 | 
421 |             if stopped:
422 |                 logger.info(f"==== request ====\n{ret}")
423 |                 break
424 | 
425 |         if past_key_values is not None:
426 |             del past_key_values
427 | 
428 |     def generate_stream_gate(self, params):
429 |         try:
430 |             if 'videos' not in params:
431 |                 for x in self.generate_stream(params):
432 |                     yield x
433 |             else:
434 |                 for x in self.generate_video_stream(params):
435 |                     yield x
436 |         except ValueError as e:
437 |             print("Caught ValueError:", e)
438 |             ret = {
439 |                 "text": server_error_msg,
440 |                 "error_code": 1,
441 |             }
442 |             yield json.dumps(ret).encode() + b"\0"
443 |         except torch.cuda.CudaError as e:
444 |             print("Caught torch.cuda.CudaError:", e)
445 |             ret = {
446 |                 "text": server_error_msg,
447 |                 "error_code": 1,
448 |             }
449 |             yield json.dumps(ret).encode() + b"\0"
450 | 
451 | 
452 | app = FastAPI()
453 | 
454 | 
455 | def release_model_semaphore(fn=None):
456 |     model_semaphore.release()
457 |     if fn is not None:
458 |         fn()
459 | 
460 | 
461 | @app.post("/worker_generate_stream")
462 | async def generate_stream(request: Request):
463 |     global model_semaphore, global_counter
464 |     global_counter += 1
465 |     params = await request.json()
466 | 
467 |     if model_semaphore is None:
468 |         model_semaphore = asyncio.Semaphore(args.limit_model_concurrency)
469 |     await model_semaphore.acquire()
470 |     worker.send_heart_beat()
471 |     generator = worker.generate_stream_gate(params)
472 |     background_tasks = BackgroundTasks()
473 |     background_tasks.add_task(partial(release_model_semaphore, fn=worker.send_heart_beat))
474 |     return StreamingResponse(generator, background=background_tasks)
475 | 
476 | 
477 | @app.post("/worker_get_status")
478 | async def get_status(request: Request):
479 |     return worker.get_status()
480 | 
481 | 
482 | if __name__ == "__main__":
483 |     parser = argparse.ArgumentParser()
484 |     parser.add_argument("--host", type=str, default="0.0.0.0")
485 |     parser.add_argument("--port", type=int, default=39999)
486 |     parser.add_argument("--worker-address", type=str,
487 |         default="http://localhost:39999")
488 |     parser.add_argument("--controller-address", type=str,
489 |         default="http://localhost:20000")
490 |     parser.add_argument("--model-path", type=str, default="")
491 |     parser.add_argument("--model-name", type=str)
492 |     parser.add_argument("--multi-modal", action="store_true", help="Multimodal mode is automatically detected with model name, please make sure `valley` is included in the model path.")
493 |     parser.add_argument("--keep-aspect-ratio", action="store_true")
494 |     parser.add_argument("--num-gpus", type=int, default=1)
495 |     parser.add_argument("--limit-model-concurrency", type=int, default=5)
496 |     parser.add_argument("--stream-interval", type=int, default=2)
497 |     parser.add_argument("--no-register", action="store_true")
498 |     args = parser.parse_args()
499 |     logger.info(f"args: {args}")
500 | 
501 |     if args.multi_modal:
502 |         logger.warning("Multimodal mode is automatically detected with model name, please make sure `valley` is included in the model path.")
503 | 
504 |     worker = ModelWorker(args.controller_address,
505 |                          args.worker_address,
506 |                          worker_id,
507 |                          args.no_register,
508 |                          args.model_path,
509 |                          args.model_name,
510 |                          args.keep_aspect_ratio,
511 |                          args.num_gpus)
512 |     uvicorn.run(app, host=args.host, port=args.port, log_level="info")
513 | 


--------------------------------------------------------------------------------
/valley/serve/register_worker.py:
--------------------------------------------------------------------------------
 1 | """
 2 | Manually register workers.
 3 | 
 4 | Usage:
 5 | python3 -m fastchat.serve.register_worker --controller http://localhost:21001 --worker-name http://localhost:21002
 6 | """
 7 | 
 8 | import argparse
 9 | 
10 | import requests
11 | 
12 | if __name__ == "__main__":
13 |     parser = argparse.ArgumentParser()
14 |     parser.add_argument("--controller-address", type=str)
15 |     parser.add_argument("--worker-name", type=str)
16 |     parser.add_argument("--check-heart-beat", action="store_true")
17 |     args = parser.parse_args()
18 | 
19 |     url = args.controller_address + "/register_worker"
20 |     data = {
21 |         "worker_name": args.worker_name,
22 |         "check_heart_beat": args.check_heart_beat,
23 |         "worker_status": None,
24 |     }
25 |     r = requests.post(url, json=data)
26 |     assert r.status_code == 200
27 | 


--------------------------------------------------------------------------------
/valley/serve/test_message.py:
--------------------------------------------------------------------------------
 1 | import argparse
 2 | import json
 3 | 
 4 | import requests
 5 | 
 6 | from llava.conversation import default_conversation
 7 | 
 8 | 
 9 | def main():
10 |     if args.worker_address:
11 |         worker_addr = args.worker_address
12 |     else:
13 |         controller_addr = args.controller_address
14 |         ret = requests.post(controller_addr + "/refresh_all_workers")
15 |         ret = requests.post(controller_addr + "/list_models")
16 |         models = ret.json()["models"]
17 |         models.sort()
18 |         print(f"Models: {models}")
19 | 
20 |         ret = requests.post(controller_addr + "/get_worker_address",
21 |             json={"model": args.model_name})
22 |         worker_addr = ret.json()["address"]
23 |         print(f"worker_addr: {worker_addr}")
24 | 
25 |     if worker_addr == "":
26 |         return
27 | 
28 |     conv = default_conversation.copy()
29 |     conv.append_message(conv.roles[0], args.message)
30 |     prompt = conv.get_prompt()
31 | 
32 |     headers = {"User-Agent": "LLaVA Client"}
33 |     pload = {
34 |         "model": args.model_name,
35 |         "prompt": prompt,
36 |         "max_new_tokens": args.max_new_tokens,
37 |         "temperature": 0.7,
38 |         "stop": conv.sep,
39 |     }
40 |     response = requests.post(worker_addr + "/worker_generate_stream", headers=headers,
41 |             json=pload, stream=True)
42 | 
43 |     print(prompt.replace(conv.sep, "\n"), end="")
44 |     for chunk in response.iter_lines(chunk_size=8192, decode_unicode=False, delimiter=b"\0"):
45 |         if chunk:
46 |             data = json.loads(chunk.decode("utf-8"))
47 |             output = data["text"].split(conv.sep)[-1]
48 |             print(output, end="\r")
49 |     print("")
50 | 
51 | 
52 | if __name__ == "__main__":
53 |     parser = argparse.ArgumentParser()
54 |     parser.add_argument("--controller-address", type=str, default="http://localhost:21001")
55 |     parser.add_argument("--worker-address", type=str)
56 |     parser.add_argument("--model-name", type=str, default="facebook/opt-350m")
57 |     parser.add_argument("--max-new-tokens", type=int, default=32)
58 |     parser.add_argument("--message", type=str, default=
59 |         "Tell me a story with more than 1000 words.")
60 |     args = parser.parse_args()
61 | 
62 |     main()
63 | 


--------------------------------------------------------------------------------
/valley/train/train.py:
--------------------------------------------------------------------------------
  1 | import pathlib
  2 | from peft import get_peft_model, LoraConfig, TaskType
  3 | import torch
  4 | import transformers
  5 | from transformers import Trainer, TrainerCallback
  6 | from valley.train.trainner import LLMCallback
  7 | from valley.model.valley_model import ValleyLlamaForCausalLM
  8 | from valley.util.data_util import smart_tokenizer_and_embedding_resize, safe_save_model_for_hf_trainer
  9 | from valley.data.dataset import make_video_supervised_data_module
 10 | from valley.util.config import *
 11 | import argparse
 12 | from dataclasses import dataclass, field
 13 | from typing import Optional
 14 | import os
 15 | from valley.utils import print_trainable_params
 16 | 
 17 | 
 18 | os.environ['NCCL_DEBUG']=''
 19 | @dataclass
 20 | class ModelArguments:
 21 |     model_name_or_path: Optional[str] = field(default="facebook/opt-125m")
 22 |     vision_tower: Optional[str] = field(default=None)
 23 |     mm_vision_select_layer: Optional[int] = field(default=-1)   # default to the last layer
 24 |     pretrain_mm_mlp_adapter: Optional[str] = field(default=None)
 25 |     mm_use_im_start_end: bool = field(default=False)
 26 |     tune_llm_layer: str=field(default= None)
 27 |     patch_pooling_method: str=field(default='mean')# v1
 28 |     use_patch_importance_pooling: bool=field(default=False)# v2
 29 |     use_delta_transformer: bool=field(default=False)# v3
 30 | 
 31 | 
 32 | @dataclass
 33 | class DataArguments:
 34 |     data_path: str = field(default=None,
 35 |                            metadata={"help": "Path to the training data."})
 36 |     fashion_data_path: str = field(default = None,
 37 |                             metadata={"help": "Path to the new construct training data."})
 38 |     video_data_path:str = field(default = None,
 39 |                             metadata={"help": "Path to the video training data."})
 40 |     lazy_preprocess: bool = False
 41 |     is_multimodal: bool = False
 42 |     sep_image_conv_front: bool = False
 43 |     image_token_len: int = 0
 44 |     eval_num: int = 400
 45 |     image_folder: Optional[str] = field(default=None)
 46 |     video_folder: Optional[str] = field(default=None)
 47 |     fashion_image_folder: Optional[str] = field(default=None)
 48 |     image_aspect_ratio: str = 'square'
 49 |     num_image: int=field(default=4)
 50 |     multi_image: bool=field(default=True)
 51 |     multi_image_mode: str=field(default='concatenate')
 52 |     use_fashion: bool = field(default=False)
 53 |     fast_epoch: bool = field(default=False)
 54 |     conv_mode:str = field(default = 'v1')
 55 |     only_mask_system: str = field(default= True)
 56 |     project_name: str = field(default='valley')
 57 | 
 58 | @dataclass
 59 | class TrainingArguments(transformers.Seq2SeqTrainingArguments):
 60 |     cache_dir: Optional[str] = field(default=None)
 61 |     optim: str = field(default="adamw_torch")
 62 |     remove_unused_columns: bool = field(default=False)
 63 |     freeze_mm_mlp_adapter: bool = field(default=False)
 64 |     freeze_backbone: bool = field(default=False)
 65 |     tune_mm_mlp_adapter: bool = field(default=False)
 66 |     tune_patch_pooling_matrix: bool = field(default=False)
 67 |     force_fsdp: bool = field(default=False)
 68 |     vis_lora: bool = field(default=False)
 69 |     lora_lr: float = field(default=None)
 70 |     lora_save_strategy: str=field(default = 'no')
 71 |     prediction_file_name: Optional[str] = field(
 72 |         default=None,
 73 |         metadata={"help": ("The `prediction_file_name` to be use for output results")},
 74 |     )
 75 |     model_max_length: int = field(
 76 |         default=512,
 77 |         metadata={
 78 |             "help":
 79 |             "Maximum sequence length. Sequences will be right padded (and possibly truncated)."
 80 |         },
 81 |     )
 82 |     deepspeed: str = field(default=None)
 83 |     output_dir: str = field(default='./checkpoints')
 84 |     lora:str = field(default=False)
 85 | 
 86 | def train(args):
 87 |     
 88 |     parser = transformers.HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
 89 |     model_args, data_args, training_args = parser.parse_yaml_file(args.conf,allow_extra_keys=True)
 90 |     training_args.learning_rate = float(training_args.learning_rate)
 91 |     os.environ['WANDB_PROJECT'] = data_args.project_name
 92 | 
 93 |     model = ValleyLlamaForCausalLM.from_pretrained(
 94 |         model_args.model_name_or_path,
 95 |         cache_dir=training_args.cache_dir,
 96 |     )
 97 |     tokenizer = transformers.AutoTokenizer.from_pretrained(
 98 |         model_args.model_name_or_path,
 99 |         cache_dir=training_args.cache_dir,
100 |         model_max_length=training_args.model_max_length,
101 |         padding_side="right",
102 |         use_fast=False,
103 |     )
104 |     if tokenizer.pad_token is None:
105 |         smart_tokenizer_and_embedding_resize(
106 |             special_tokens_dict=dict(pad_token=DEFAULT_PAD_TOKEN),
107 |             tokenizer=tokenizer,
108 |             model=model,
109 |         )
110 |     if "llama" in model_args.model_name_or_path:
111 |         tokenizer.add_special_tokens({
112 |             "eos_token": DEFAULT_EOS_TOKEN,
113 |             "bos_token": DEFAULT_BOS_TOKEN,
114 |             "unk_token": DEFAULT_UNK_TOKEN,
115 |         })
116 | 
117 |     tokenizer.add_tokens([DEFAULT_VIDEO_FRAME_TOKEN,
118 |                           DEFAULT_VI_START_TOKEN,
119 |                           DEFAULT_VI_END_TOKEN], 
120 |                           special_tokens=True)
121 | 
122 |     if model_args.vision_tower is not None:
123 |         model_vision_dict = model.get_model().initialize_vision_modules(
124 |             vision_tower=model_args.vision_tower,
125 |             mm_vision_select_layer=model_args.mm_vision_select_layer,
126 |             pretrain_mm_mlp_adapter=model_args.pretrain_mm_mlp_adapter,
127 |             use_patch_importance_pooling = model_args.use_patch_importance_pooling,
128 |             use_delta_transformer = model_args.use_delta_transformer
129 |         )
130 |         dtype = torch.float32
131 |         if training_args.fp16:
132 |             dtype = torch.float16
133 |         if training_args.bf16:
134 |             dtype = torch.bfloat16
135 |         model.get_model().vision_tower.to(dtype=dtype, device=training_args.device)
136 |         vision_config = model_vision_dict['vision_config']
137 | 
138 |         data_args.image_token_len = model_vision_dict['image_token_len']
139 |         data_args.image_processor = model_vision_dict['image_processor']
140 |         data_args.is_multimodal = True
141 | 
142 |         
143 | 
144 |         model.config.mm_use_im_start_end = data_args.mm_use_im_start_end = model_args.mm_use_im_start_end
145 |         vision_config.use_im_start_end = training_args.use_im_start_end = model_args.mm_use_im_start_end
146 |         model.config.sep_image_conv_front = data_args.sep_image_conv_front
147 |         model.initialize_vision_tokenizer(tokenizer=tokenizer)
148 | 
149 | 
150 |     if training_args.freeze_backbone:
151 |         model.model.requires_grad_(False)
152 | 
153 |     if training_args.lora:
154 |         target_modules=['model.layers.'+str(i)+'.'+ k for i in range(40) for k in ["self_attn.q_proj", "self_attn.k_proj", "self_attn.v_proj", "self_attn.o_proj", "mlp.gate_proj","mlp.down_proj","mlp.up_proj"]]
155 |         peft_config = LoraConfig(
156 |             task_type=TaskType.CAUSAL_LM, inference_mode=False, r=16, lora_alpha=32, lora_dropout=0.05, target_modules=target_modules
157 |         )
158 |         if hasattr(model, "enable_input_require_grads"):
159 |             model.enable_input_require_grads()
160 |         model = get_peft_model(model, peft_config)
161 |         model.print_trainable_parameters()
162 |     
163 |     model.config.tune_mm_mlp_adapter = training_args.tune_mm_mlp_adapter = training_args.tune_mm_mlp_adapter
164 |     if training_args.tune_mm_mlp_adapter:
165 |         for p in model.get_model().mm_projector.parameters():
166 |             p.requires_grad = True
167 |         model.get_model().orig_embeds_params = [model.get_input_embeddings().weight.data.clone().to(device=training_args.device)]
168 |         for p in model.get_input_embeddings().parameters():
169 |             p.requires_grad = True
170 |         for p in model.get_output_embeddings().parameters():
171 |             p.requires_grad = False
172 |     
173 |     model.config.freeze_mm_mlp_adapter = training_args.freeze_mm_mlp_adapter
174 |     if training_args.freeze_mm_mlp_adapter:
175 |         for p in model.get_model().mm_projector.parameters():
176 |             p.requires_grad = False
177 |     
178 |     
179 | 
180 |     data_module = make_video_supervised_data_module(tokenizer=tokenizer,
181 |                                             data_args=data_args)
182 |     if training_args.lora:
183 |         callback_class =  LLMCallback
184 |     else:
185 |         callback_class =  TrainerCallback
186 | 
187 |     
188 |     trainer = Trainer(model=model,
189 |                     tokenizer=tokenizer,
190 |                     args=training_args,
191 |                     callbacks=[callback_class],
192 |                     **data_module, 
193 |                     )
194 | 
195 |     print_trainable_params(model)
196 | 
197 |     if list(pathlib.Path(training_args.output_dir).glob("checkpoint-*")):
198 |         # Lora model is not support this resume branch, make sure your lora out_dir is empty.
199 |         print('resume')
200 |         trainer.train(resume_from_checkpoint=True)
201 |     else:
202 |         trainer.train()
203 |     
204 |     trainer.save_state()
205 |     safe_save_model_for_hf_trainer(trainer=trainer,
206 |                                    output_dir=training_args.output_dir)
207 | 
208 | 
209 | if __name__ == "__main__":
210 |     parser = argparse.ArgumentParser()
211 |     parser.add_argument("--conf", type=str,
212 |                         default="valley/configs/experiment/valley_debug.yaml")
213 |     args = parser.parse_args()
214 |     train(args)
215 | 


--------------------------------------------------------------------------------
/valley/train/train.sh:
--------------------------------------------------------------------------------
1 | torchrun --nproc_per_node 8 --nnodes 1 --node_rank=0 --master_addr 10.192.24.78 --master_port 10404 valley/train/train.py --conf $1


--------------------------------------------------------------------------------
/valley/train/trainner.py:
--------------------------------------------------------------------------------
  1 | import copy
  2 | import json
  3 | import os
  4 | import math
  5 | import numpy as np
  6 | from transformers import (
  7 |     TrainerCallback,
  8 |     TrainingArguments,
  9 | )
 10 | from torch import nn
 11 | import datasets
 12 | from functools import partial
 13 | from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Tuple, Union
 14 | from torch.utils.data import DataLoader, Dataset
 15 | from transformers import Seq2SeqTrainer, is_datasets_available, PreTrainedModel
 16 | from transformers.deepspeed import is_deepspeed_zero3_enabled
 17 | from transformers.trainer_callback import TrainerControl, TrainerState
 18 | from transformers.training_args import TrainingArguments
 19 | from transformers.tokenization_utils_base import PreTrainedTokenizerBase
 20 | from valley.utils import get_logger
 21 | import torch.distributed as dist
 22 | from transformers.trainer_utils import EvalPrediction
 23 | import torch
 24 | import re
 25 | from valley.util.data_util import  KeywordsStoppingCriteria
 26 | from transformers.data.data_collator import DataCollator
 27 | import evaluate
 28 | logger = get_logger("Trainer")
 29 | 
 30 | class LLMCallback(TrainerCallback):
 31 |     "A callback that output infomation and do some operators"
 32 | 
 33 |     
 34 |     def output_log(self, args: TrainingArguments, state: TrainerState):
 35 |         def loss_log(data):
 36 |             try:
 37 |                 loss_ = data["loss"]
 38 |                 learning_rate_ = data["learning_rate"]
 39 |                 step_ = data["step"]
 40 |                 loss_log_str = f"step: {step_:<8} || learning_rate: {learning_rate_:<25} || loss: {loss_:<10}"
 41 |             except:
 42 |                 loss_log_str = json.dumps(data)
 43 |             return loss_log_str
 44 | 
 45 |         output_file = os.path.join(args.output_dir, "trainer.log")
 46 |         log_history = map(loss_log, state.log_history)
 47 |         with open(output_file, "w") as f:
 48 |             for line in log_history:
 49 |                 f.write(line + "\n")
 50 | 
 51 |     def on_step_end(
 52 |         self,
 53 |         args: TrainingArguments,
 54 |         state: TrainerState,
 55 |         control: TrainerControl,
 56 |         **kwargs,
 57 |     ):
 58 |         # TODO: support deepspeed zero3 save extra weights not all llm weights
 59 |         if args.lora_save_strategy == 'steps' and state.global_step%args.save_steps == 0:
 60 |             self.output_log(args, state)
 61 |             peft_str = "peft"
 62 |             model_ = kwargs["model"]
 63 |             save_number = str(state.global_step)
 64 |             if (
 65 |                 args.lora
 66 |                 and peft_str in str(type(model_))
 67 |                 and not is_deepspeed_zero3_enabled()
 68 |             ):
 69 |                 # if model is peft-based, save the extra weights, zero3 not supprot
 70 |                 epoch = "steps_" + save_number
 71 |                 output_dir = os.path.join(args.output_dir, epoch)
 72 |                 os.makedirs(output_dir, exist_ok=True)
 73 |                 model_.save_pretrained(output_dir)
 74 |             if (
 75 |                 args.lora
 76 |                 and peft_str in str(type(model_))
 77 |                 and args.tune_mm_mlp_adapter
 78 |                 and not is_deepspeed_zero3_enabled()
 79 |             ):
 80 |                 epoch = "steps_" + save_number
 81 |                 output_dir = os.path.join(args.output_dir, epoch)
 82 |                 os.makedirs(output_dir, exist_ok=True)
 83 |                 model_.base_model.model.save_pretrained(output_dir)
 84 |                 
 85 |         return super().on_step_end(args, state, control, **kwargs)
 86 |     
 87 |     def on_epoch_end(
 88 |         self,
 89 |         args: TrainingArguments,
 90 |         state: TrainerState,
 91 |         control: TrainerControl,
 92 |         **kwargs,
 93 |     ):
 94 |         # TODO: support deepspeed zero3 save extra weights not all llm weights
 95 |         if args.lora_save_strategy == 'epoch' :
 96 |             self.output_log(args, state)
 97 |             peft_str = "peft"
 98 |             model_ = kwargs["model"]
 99 |             save_number = str(state.global_step)
100 |             if (
101 |                 args.lora
102 |                 and peft_str in str(type(model_))
103 |                 and not is_deepspeed_zero3_enabled()
104 |             ):
105 |                 # if model is peft-based, save the extra weights, zero3 not supprot
106 |                 epoch = "epoch_" + save_number
107 |                 output_dir = os.path.join(args.output_dir, epoch)
108 |                 os.makedirs(output_dir, exist_ok=True)
109 |                 model_.save_pretrained(output_dir)
110 |             if (
111 |                 args.lora
112 |                 and peft_str in str(type(model_))
113 |                 and args.tune_mm_mlp_adapter
114 |                 and not is_deepspeed_zero3_enabled()
115 |             ):
116 |                 epoch = "epoch_" + save_number
117 |                 output_dir = os.path.join(args.output_dir, epoch)
118 |                 os.makedirs(output_dir, exist_ok=True)
119 |                 model_.base_model.model.save_pretrained(output_dir)
120 |         return super().on_epoch_end(args, state, control, **kwargs)
121 | 
122 |     def merge_files(self, prediction_file_name):
123 |         from pathlib import Path
124 |         old_files = list(Path(prediction_file_name).parent.glob('*.worker*'))
125 |         prediction_file_name = '.'.join(str(old_files[0]).split('.')[:-1])
126 |         metrics = []
127 |         with open(prediction_file_name, "w") as writer:
128 |             for file_name in old_files:
129 |                 with open(file_name, "r") as reader:
130 |                     for line in reader:
131 |                         metrics.append(torch.tensor(self.compute_dev_metric(json.loads(line))))
132 |                         writer.write(f"{line}")
133 |             metrics = torch.mean(torch.stack(metrics, dim = 1 ),dim=1)
134 |             bleu, rouge1, rouge2, rougeL, rougeLsum, bert_score_precision, bert_score_recall, bert_score_f1 = metrics.numpy().tolist()
135 |         with open(prediction_file_name.replace('.jsonl','_metric.txt'), "w") as metric_writer:
136 |             metric_str = json.dumps([bleu, rouge1, rouge2, rougeL, rougeLsum, bert_score_precision, bert_score_recall, bert_score_f1])
137 |             metric_writer.write(metric_str)
138 |         for file in old_files:
139 |             os.system(f"rm {file}")
140 |         return dict(bleu = bleu, 
141 |                     rouge1 = rouge1, 
142 |                     rouge2 = rouge2, 
143 |                     rougeL = rougeL, 
144 |                     rougeLsum = rougeLsum, 
145 |                     bert_score_precision = bert_score_precision, 
146 |                     bert_score_recall = bert_score_recall, 
147 |                     bert_score_f1 = bert_score_recall)
148 | 
149 |     def compute_dev_metric(self,d):
150 |         bert_score = d['bert_score']
151 |         metric_score = d['metric_score']
152 |         bleu = sum([metric['bleu'] for metric in metric_score])/len(metric_score) if len(metric_score)!= 0 else 0
153 |         rouge1 = sum([metric['rouge1'] for metric in metric_score])/len(metric_score)if len(metric_score)!= 0 else 0
154 |         rouge2 = sum([metric['rouge2'] for metric in metric_score])/len(metric_score)if len(metric_score)!= 0 else 0
155 |         rougeL = sum([metric['rougeL'] for metric in metric_score])/len(metric_score)if len(metric_score)!= 0 else 0
156 |         rougeLsum = sum([metric['rougeLsum'] for metric in metric_score])/len(metric_score)if len(metric_score)!= 0 else 0
157 |         bert_score_precision = sum(bert_score['precision'])/len(bert_score['precision']) if len(bert_score['precision'])!= 0 else 0
158 |         bert_score_recall = sum(bert_score['recall'])/len(bert_score['recall']) if len(bert_score['recall'])!= 0 else 0
159 |         bert_score_f1 = sum(bert_score['precision'])/len(bert_score['precision']) if len(bert_score['precision'])!= 0 else 0
160 |         return bleu, rouge1, rouge2, rougeL, rougeLsum, bert_score_precision, bert_score_recall, bert_score_f1 
161 | 
162 |     def on_evaluate(
163 |         self,
164 |         args: TrainingArguments,
165 |         state: TrainerState,
166 |         control: TrainerControl,
167 |         **kwargs,
168 |     ):
169 |         if dist.get_rank() == 0:
170 |             # due to multiprocess, just do evaluation in rank 0
171 |             metric = self.merge_files(args.prediction_file_name)
172 |             kwargs['metrics'].update(metric)
173 |             control.should_log = True
174 |         else:
175 |             control.should_log = False
176 |         return super().on_evaluate(args, state, control, **kwargs)
177 | 
178 |     def on_predict(
179 |         self,
180 |         args: TrainingArguments,
181 |         state: TrainerState,
182 |         control: TrainerControl,
183 |         metrics,
184 |         **kwargs,
185 |     ):
186 |         if dist.get_rank() == 0:
187 |                 # due to multiprocess, just do evaluation in rank 0
188 |             self.merge_files(args.prediction_file_name)
189 | 
190 |         return super().on_predict(args, state, control, metrics, **kwargs)
191 |     
192 | 
193 | class ValleyTrainer(Seq2SeqTrainer):
194 |     def __init__(self,
195 |         model: Union[PreTrainedModel, nn.Module] = None,
196 |         args: TrainingArguments = None,
197 |         data_collator: Optional[DataCollator] = None,
198 |         train_dataset: Optional[Dataset] = None,
199 |         eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] = None,
200 |         tokenizer: Optional[PreTrainedTokenizerBase] = None,
201 |         model_init: Optional[Callable[[], PreTrainedModel]] = None,
202 |         compute_metrics: Optional[Callable[[EvalPrediction], Dict]] = None,
203 |         callbacks: Optional[List[TrainerCallback]] = None,
204 |         optimizers: Tuple[torch.optim.Optimizer, torch.optim.lr_scheduler.LambdaLR] = (None, None),
205 |         preprocess_logits_for_metrics: Optional[Callable[[torch.Tensor, torch.Tensor], torch.Tensor]] = None,):
206 | 
207 |         self.clf_metrics = evaluate.combine(["bleu", "rouge"])
208 |         self.bertscore = evaluate.load("bertscore")
209 | 
210 |         super().__init__(model, args, data_collator, train_dataset, eval_dataset, tokenizer, model_init, compute_metrics, callbacks, optimizers, preprocess_logits_for_metrics,)
211 |     
212 |     def log(self, logs: Dict[str, float], eval = False) -> None:
213 |         """
214 |         Log `logs` on the various objects watching training.
215 | 
216 |         Subclass and override this method to inject custom behavior.
217 | 
218 |         Args:
219 |             logs (`Dict[str, float]`):
220 |                 The values to log.
221 |         """
222 |         if not eval:
223 |             if self.state.epoch is not None:
224 |                 logs["epoch"] = round(self.state.epoch, 2)
225 | 
226 |             # logs['lora_lr'] = self.optimizer.param_groups[0]['lr']
227 |             # logs['other_lr'] = self.optimizer.param_groups[1]['lr']
228 |             output = {**logs, **{"step": self.state.global_step}}
229 |             self.state.log_history.append(output)
230 |             self.control = self.callback_handler.on_log(self.args, self.state, self.control, logs)
231 |         else:
232 |             if self.state.epoch is not None:
233 |                 logs["epoch"] = round(self.state.epoch, 2)
234 |             self.state.log_history.append(output)
235 |             self.control = self.callback_handler.on_log(self.args, self.state, self.control, logs)
236 | 
237 |     def create_optimizer(self,):
238 |         if self.args.lora and self.args.tune_mm_mlp_adapter:
239 |             from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS
240 |             from transformers.trainer_pt_utils import get_parameter_names
241 |             decay_parameters = get_parameter_names(self.model, ALL_LAYERNORM_LAYERS)
242 |             decay_parameters = [name for name in decay_parameters if "bias" not in name]
243 |             optimizer_grouped_parameters = [
244 |                 {
245 |                     "params": [
246 |                         p for n, p in self.model.named_parameters() if ('lora' in n and p.requires_grad)
247 |                     ],
248 |                     "weight_decay": self.args.weight_decay,
249 |                     'lr': float(self.args.lora_lr) if self.args.lora_lr else self.args.learning_rate
250 |                 },
251 |                 {
252 |                     "params": [
253 |                         p for n, p in self.model.named_parameters() if (n in decay_parameters and 'lora' not in n and p.requires_grad)
254 |                     ],
255 |                     "weight_decay": self.args.weight_decay,
256 |                 },
257 |                 {
258 |                     "params": [
259 |                         p for n, p in self.model.named_parameters() if (n not in decay_parameters and p.requires_grad)
260 |                     ],
261 |                     "weight_decay": 0.0,
262 |                 },
263 |             ]
264 |             optimizer_cls, optimizer_kwargs = ValleyTrainer.get_optimizer_cls_and_kwargs(self.args)
265 |             self.optimizer = optimizer_cls(optimizer_grouped_parameters, **optimizer_kwargs)
266 |         else:
267 |             self.optimizer = super().create_optimizer()
268 |         return self.optimizer
269 | 
270 |     def evaluate(
271 |         self,
272 |         eval_dataset: Optional[Dataset] = None,
273 |         ignore_keys: Optional[List[str]] = None,
274 |         metric_key_prefix: str = "eval",
275 |         **gen_kwargs,
276 |     ) -> Dict[str, float]:
277 |         results = super().evaluate(
278 |             eval_dataset, ignore_keys, metric_key_prefix, **gen_kwargs
279 |         )
280 |         if dist.get_rank() == 0:
281 |             # due to multiprocess, just do evaluation in rank 0
282 |             # print(results)
283 |             self.log(results)
284 |         return results
285 | 
286 | 
287 |     def prediction_step(
288 |         self,
289 |         model: torch.nn.Module,
290 |         inputs: Dict[str, torch.Tensor],
291 |         prediction_loss_only: bool,
292 |         ignore_keys: Optional[List[str]] = None,
293 |     ) -> Tuple[float, torch.Tensor, torch.Tensor]:
294 |         """
295 |         Perform an evaluation step on `model` using `inputs`.
296 | 
297 |         Subclass and override to inject custom behavior.
298 | 
299 |         Args:
300 |             model (`nn.Module`):
301 |                 The model to evaluate.
302 |             inputs (`Dict[str, Union[torch.Tensor, Any]]`):
303 |                 The inputs and targets of the model.
304 | 
305 |                 The dictionary will be unpacked before being fed to the model. Most models expect the targets under the
306 |                 argument `labels`. Check your model's documentation for all accepted arguments.
307 |             prediction_loss_only (`bool`):
308 |                 Whether or not to return the loss only.
309 | 
310 |         Return:
311 |             Tuple[Optional[float], Optional[torch.Tensor], Optional[torch.Tensor]]: A tuple with the loss, logits and
312 |             labels (each being optional).
313 |         """
314 |         # logger.info(f"rank: {dist.get_rank()}-{inputs['input_ids'].size()}-{inputs['ground_truth_labels'].size()}")
315 | 
316 |         # evalset is format as input_ids, labels, and label_index, labels represent each turn converation length, and label_index is assistent reponse index
317 |         # inputs:{ 'input_ids', 'attention_mask', 'labels', 'images', 'label_index' }
318 |         
319 |         if not self.args.predict_with_generate or prediction_loss_only:
320 |             return super().prediction_step(
321 |                 model,
322 |                 inputs,
323 |                 prediction_loss_only=prediction_loss_only,
324 |                 ignore_keys=ignore_keys,
325 |             )
326 |         
327 |         turn_number = len(inputs['label_index'][0])
328 |         inputs['labels'] = tuple(inputs['labels'][0].numpy().tolist())
329 |         input_ids_split = torch.split(inputs['input_ids'], inputs['labels'], dim = 1)
330 | 
331 |         system_input_id = input_ids_split[0]
332 |         # human input list, and the last item is <s>###, need to be ignore
333 |         
334 |         human_input_id_list = [input_id for i,input_id in enumerate(input_ids_split) if i%2==1]
335 |         begin_ids = human_input_id_list[-1]
336 |         human_input_id_list = human_input_id_list[:-1]
337 |         response_input_id_list = [input_id for i,input_id in enumerate(input_ids_split) if i%2==0 and i!=0]
338 |         assert len(human_input_id_list) == len(response_input_id_list)
339 |         if len(response_input_id_list)>5:
340 |             kwargs = {"device": self.args.device}
341 |             generated_tokens = torch.tensor([1]).to(**kwargs)
342 |             loss = None
343 |             labels = None
344 |             return loss, generated_tokens, labels
345 |         last_id = system_input_id
346 | 
347 |         generated_tokens = []
348 |         gd_truth_tokens = []
349 |         for turn_index in range(turn_number):
350 |             input_ids = torch.concat([last_id, human_input_id_list[turn_index], begin_ids],dim=1)
351 |             if input_ids.shape[1] > self.args.generation_max_length:
352 |                 gd_truth_this_turn = response_input_id_list[turn_index][:,1:]
353 |                 gd_truth_tokens.append(gd_truth_this_turn[0])
354 |                 generated_tokens.append(torch.tensor([0]))
355 |                 continue
356 |             inputs = dict(
357 |                 input_ids = input_ids,
358 |                 attention_mask = torch.ones_like(input_ids),
359 |                 images = inputs['images']
360 |             )
361 |             inputs = self._prepare_inputs(inputs)
362 | 
363 |             # XXX: adapt synced_gpus for fairscale as well
364 |             # Priority (handled in generate):
365 |             # gen_kwargs > model.generation_config > default GenerationConfig()
366 |             gen_kwargs = self._gen_kwargs.copy()
367 |             if (
368 |                 gen_kwargs.get("max_length") is None
369 |                 and gen_kwargs.get("max_new_tokens") is None
370 |             ):
371 |                 gen_kwargs["max_length"] = self.model.config.max_length
372 |             gen_kwargs["num_beams"] = (
373 |                 gen_kwargs["num_beams"]
374 |                 if gen_kwargs.get("num_beams") is not None
375 |                 else self.model.config.num_beams
376 |             )
377 |             default_synced_gpus = True if is_deepspeed_zero3_enabled() else False
378 |             gen_kwargs["synced_gpus"] = (
379 |                 gen_kwargs["synced_gpus"]
380 |                 if gen_kwargs.get("synced_gpus") is not None
381 |                 else default_synced_gpus
382 |             )
383 | 
384 |             gen_kwargs['stopping_criteria'] =  [KeywordsStoppingCriteria(['###'], self.tokenizer, inputs['input_ids'])]
385 |             outputs = self.model.generate(**inputs, **gen_kwargs, return_dict_in_generate=True)
386 |             # because upper code has implement the begin token, so don't need to add ,so [input_ids.shape[1]:-1]
387 |             outputs_ids = outputs.sequences[:,input_ids.shape[1]:]
388 |             gd_truth_this_turn = response_input_id_list[turn_index][:,1:]
389 |             gd_truth_tokens.append(gd_truth_this_turn[0])
390 |             generated_tokens.append(outputs_ids[0])
391 |             # add generate token to tail of last id
392 |             last_id = torch.concat([input_ids,outputs_ids.cpu()],dim=1)
393 | 
394 |         self._output_generate_results(
395 |             generated_tokens, gd_truth_tokens
396 |         )
397 |         kwargs = {"device": self.args.device}
398 |         generated_tokens = torch.tensor([1]).to(**kwargs)
399 |         loss = None
400 |         labels = None
401 |         return loss, generated_tokens, labels
402 | 
403 |     def _pad_tensors_to_max_len(self, tensor, max_length):
404 |         return super()._pad_tensors_to_max_len(tensor, max_length)
405 | 
406 |     def decode(self, token_list):
407 |         ignore_tokens = [
408 |             self.tokenizer.bos_token,
409 |             self.tokenizer.eos_token,
410 |             self.tokenizer.pad_token,
411 |             "\n",
412 |             # "\x20",
413 |         ]
414 |         sub_re = re.compile("|".join(ignore_tokens))
415 |         return list(map(lambda x: sub_re.sub("", self.tokenizer.decode(x)), token_list))
416 | 
417 |     def _output_generate_results(
418 |         self,
419 |         generated_tokens,
420 |         gd_truth
421 |     ):
422 |         """output the greneted results to target file
423 | 
424 |         Parameters
425 |         ----------
426 |         generated_tokens : List
427 |             generated tokens
428 |         gd_truth : List
429 |             the ground truth, by default None
430 |         Returns
431 |         ----------
432 |         _type_
433 |             _description_
434 |         """
435 |         generate_response_list = []
436 |         gd_truth_list = []
437 |         metric_score = []
438 |         for generate_str,gd_truth_str in zip(generated_tokens,gd_truth):
439 |             try:
440 |                 generate_response_list.append(self.tokenizer.decode(generate_str))
441 |                 gd_truth_list.append(self.tokenizer.decode(gd_truth_str))
442 |                 if generate_response_list[-1].strip() == "":
443 |                     generate_response_list[-1] = 'aaaaaaaaaa'
444 |                 metric_score.append(self.clf_metrics.compute(predictions=[generate_response_list[-1]], references=[gd_truth_list[-1]]))
445 |             except:
446 |                 print(generate_response_list[-1])
447 |                 continue
448 |         bert_score = self.bertscore.compute(predictions=generate_response_list, references=gd_truth_list, lang='en')
449 |         
450 |         assert len(generate_response_list) == len(gd_truth_list)
451 | 
452 |         json_arr = []
453 |         
454 |         json_arr.append(
455 |             dict(
456 |                 generate_response=generate_response_list,
457 |                 ground_truth=gd_truth_list,
458 |                 bert_score = bert_score,
459 |                 metric_score = metric_score
460 |             )
461 |         )
462 | 
463 |         self.jsonl_write(json_arr)
464 | 
465 |     def jsonl_write(self, json_arr: Dict[str, str]):
466 |         """jsonl write
467 | 
468 |         Parameters
469 |         ----------
470 |         json_arr : Dict[str, str]
471 |             json dict list
472 |         output_file : str
473 |             the output file
474 |         """
475 |         rank = dist.get_rank()
476 |         json_str_arr = map(json.dumps, json_arr)
477 |         global_step = 'step'+str(self.state.global_step)
478 |         path = self.args.prediction_file_name.split('/')
479 |         path[-1] = global_step + '_' + path[-1]
480 |         path = '/'.join(path)
481 |         output_file = path.replace(".jsonl", f".jsonl.worker{rank}")
482 |         if not os.path.exists(os.path.dirname(output_file)):
483 |             os.makedirs(os.path.dirname(output_file), exist_ok=True)
484 |         with open(output_file, "a") as writer:
485 |             for line in json_str_arr:
486 |                 writer.write(f"{line}\n")
487 | 


--------------------------------------------------------------------------------
/valley/util/config.py:
--------------------------------------------------------------------------------
 1 | IGNORE_INDEX = -100
 2 | DEFAULT_PAD_TOKEN = "[PAD]"
 3 | DEFAULT_EOS_TOKEN = "</s>"
 4 | DEFAULT_BOS_TOKEN = "</s>"
 5 | DEFAULT_UNK_TOKEN = "<unk>"
 6 | DEFAULT_IMAGE_TOKEN = "<image>"
 7 | DEFAULT_IMAGE_PATCH_TOKEN = "<im_patch>"
 8 | DEFAULT_IM_START_TOKEN = "<im_start>"
 9 | DEFAULT_IM_END_TOKEN = "<im_end>"
10 | DEFAULT_VIDEO_TOKEN = "<video>"
11 | DEFAULT_VIDEO_FRAME_TOKEN = "<vi_frame>"
12 | DEFAULT_VI_START_TOKEN = "<vi_start>"
13 | DEFAULT_VI_END_TOKEN = "<vi_end>"


--------------------------------------------------------------------------------
/valley/util/data_util.py:
--------------------------------------------------------------------------------
  1 | import torch
  2 | from transformers import StoppingCriteria
  3 | from typing import Dict, Sequence
  4 | from valley import conversation as conversation_lib
  5 | import transformers
  6 | from valley.util.config import *
  7 | import copy
  8 | from torchvision import transforms
  9 | from valley.data import video_transform
 10 | import decord
 11 | import os
 12 | import numpy as np
 13 | from pathlib import Path
 14 | from PIL import Image
 15 | 
 16 | 
 17 | def collate_wrapper(batch):
 18 |     image_list = [b[0] for b in batch]
 19 |     prompt_list = [b[2] for b in batch]
 20 |     # input_ids = pad_sequence(prompt_list, padding_value = 0, batch_first = True)
 21 |     conv_list = [b[3] for b in batch]
 22 |     label_list = [b[1] for b in batch]
 23 |     return prompt_list, image_list, conv_list, label_list
 24 | 
 25 | 
 26 | def collate_process_image_text(batch, tokenizer, image_processor):
 27 |     batch_prompt, batch_image, conv_list, label_list = batch
 28 |     batch_prompt = tokenizer(batch_prompt, padding=True)
 29 |     input_ids, attention_mask = batch_prompt.input_ids, batch_prompt.attention_mask
 30 |     input_ids = torch.as_tensor(input_ids)
 31 |     attention_mask = torch.as_tensor(attention_mask)
 32 |     videos = []
 33 |     for this_batch_images in batch_image:
 34 |         video = image_processor.preprocess(
 35 |             this_batch_images, return_tensors='pt')['pixel_values']
 36 |         videos.append(video)
 37 |     return input_ids, attention_mask, videos, conv_list, label_list
 38 | 
 39 | 
 40 | class KeywordsStoppingCriteria(StoppingCriteria):
 41 |     def __init__(self, keywords, tokenizer, input_ids):
 42 |         self.keywords = keywords
 43 |         self.tokenizer = tokenizer
 44 |         self.start_len = None
 45 |         self.input_ids = input_ids
 46 | 
 47 |     def __call__(self, output_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
 48 |         if self.start_len is None:
 49 |             self.start_len = self.input_ids.shape[1]
 50 |         else:
 51 |             outputs = self.tokenizer.batch_decode(
 52 |                 output_ids[:, self.start_len:], skip_special_tokens=True)[0]
 53 |             for keyword in self.keywords:
 54 |                 if keyword in outputs:
 55 |                     return True
 56 |         return False
 57 | 
 58 | # for finetune
 59 | 
 60 | 
 61 | def safe_save_model_for_hf_trainer(trainer: transformers.Trainer,
 62 |                                    output_dir: str):
 63 |     """Collects the state dict and dump to disk."""
 64 |     
 65 |     if trainer.args.lora:
 66 |         if trainer.args.should_save: 
 67 |             trainer.model.save_pretrained(output_dir)
 68 |         
 69 |     else:
 70 |         if trainer.deepspeed:
 71 |             print('saving deepspeed model...')
 72 |             torch.cuda.synchronize()
 73 |             trainer.save_model(output_dir)
 74 |             return
 75 |         
 76 |         state_dict = trainer.model.state_dict()
 77 |         if trainer.args.should_save:
 78 |             cpu_state_dict = {
 79 |                 key: value.cpu()
 80 |                 for key, value in state_dict.items()
 81 |             }
 82 |             del state_dict
 83 |             trainer._save(output_dir, state_dict=cpu_state_dict)  # noqa
 84 | 
 85 | 
 86 | def smart_tokenizer_and_embedding_resize(
 87 |     special_tokens_dict: Dict,
 88 |     tokenizer: transformers.PreTrainedTokenizer,
 89 |     model: transformers.PreTrainedModel,
 90 | ):
 91 |     """Resize tokenizer and embedding.
 92 | 
 93 |     Note: This is the unoptimized version that may make your embedding size not be divisible by 64.
 94 |     """
 95 |     num_new_tokens = tokenizer.add_special_tokens(special_tokens_dict)
 96 |     model.resize_token_embeddings(len(tokenizer))
 97 | 
 98 |     if num_new_tokens > 0:
 99 |         input_embeddings = model.get_input_embeddings().weight.data
100 |         output_embeddings = model.get_output_embeddings().weight.data
101 | 
102 |         input_embeddings_avg = input_embeddings[:-num_new_tokens].mean(
103 |             dim=0, keepdim=True)
104 |         output_embeddings_avg = output_embeddings[:-num_new_tokens].mean(
105 |             dim=0, keepdim=True)
106 | 
107 |         input_embeddings[-num_new_tokens:] = input_embeddings_avg
108 |         output_embeddings[-num_new_tokens:] = output_embeddings_avg
109 | 
110 | 
111 | def _tokenize_fn(strings: Sequence[str],
112 |                  tokenizer: transformers.PreTrainedTokenizer) -> Dict:
113 |     """Tokenize a list of strings."""
114 |     tokenized_list = [
115 |         tokenizer(
116 |             text,
117 |             return_tensors="pt",
118 |             padding="longest",
119 |             max_length=tokenizer.model_max_length,
120 |             truncation=True,
121 |         ) for text in strings
122 |     ]
123 |     input_ids = labels = [
124 |         tokenized.input_ids[0] for tokenized in tokenized_list
125 |     ]
126 |     input_ids_lens = labels_lens = [
127 |         tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item()
128 |         for tokenized in tokenized_list
129 |     ]
130 |     return dict(
131 |         input_ids=input_ids,
132 |         labels=labels,
133 |         input_ids_lens=input_ids_lens,
134 |         labels_lens=labels_lens,
135 |     )
136 | 
137 | 
138 | def _mask_targets(target, tokenized_lens, speakers, only_mask_system):
139 |     # cur_idx = 0
140 |     cur_idx = tokenized_lens[0]
141 |     tokenized_lens = tokenized_lens[1:]
142 |     target[:cur_idx] = IGNORE_INDEX
143 |     if not only_mask_system:
144 |         for tokenized_len, speaker in zip(tokenized_lens, speakers):
145 |             if speaker == "human":
146 |                 target[cur_idx+2:cur_idx + tokenized_len] = IGNORE_INDEX
147 |             cur_idx += tokenized_len
148 | 
149 | 
150 | def _add_speaker_and_signal(header, source, get_conversation=True):
151 |     """Add speaker and start/end signal on each round."""
152 |     BEGIN_SIGNAL = "### "
153 |     END_SIGNAL = "\n"
154 |     conversation = header
155 |     for sentence in source:
156 |         from_str = sentence["from"]
157 |         if from_str.lower() == "human":
158 |             from_str = conversation_lib.default_conversation.roles[0]
159 |         elif from_str.lower() == "gpt":
160 |             from_str = conversation_lib.default_conversation.roles[1]
161 |         else:
162 |             from_str = 'unknown'
163 |         sentence["value"] = (BEGIN_SIGNAL + from_str + ": " +
164 |                              sentence["value"] + END_SIGNAL)
165 |         if get_conversation:
166 |             conversation += sentence["value"]
167 |     conversation += BEGIN_SIGNAL
168 |     return conversation
169 | 
170 | 
171 | def preprocess_multimodal(
172 |     sources: Sequence[str],
173 |     multimodal_cfg: dict,
174 |     cur_token_len: int,
175 | ) -> Dict:
176 |     is_multimodal = multimodal_cfg['is_multimodal']
177 |     # image_token_len = multimodal_cfg['image_token_len']
178 |     image_token_len = cur_token_len
179 |     if not is_multimodal:
180 |         return sources
181 | 
182 |     for source in sources:
183 |         for sentence in source:
184 |             replace_token = DEFAULT_IMAGE_PATCH_TOKEN * image_token_len
185 |             if multimodal_cfg['use_im_start_end']:
186 |                 replace_token = DEFAULT_IM_START_TOKEN + replace_token + DEFAULT_IM_END_TOKEN
187 |             sentence["value"] = sentence["value"].replace(
188 |                 DEFAULT_IMAGE_TOKEN, replace_token)
189 | 
190 |     return sources
191 | 
192 | 
193 | def preprocess_multimodal_multiimage(
194 |     sources: Sequence[str],
195 |     multimodal_cfg: dict,
196 |     cur_token_len: int,
197 |     num_image: int
198 | ) -> Dict:
199 |     is_multimodal = multimodal_cfg['is_multimodal']
200 |     # image_token_len = multimodal_cfg['image_token_len']
201 |     image_token_len = cur_token_len
202 |     if not is_multimodal:
203 |         return sources
204 | 
205 |     for source in sources:
206 |         for sentence in source:
207 |             if multimodal_cfg['use_im_start_end']:
208 |                 replace_token = DEFAULT_IM_START_TOKEN + DEFAULT_IMAGE_PATCH_TOKEN * \
209 |                     image_token_len + DEFAULT_IM_END_TOKEN
210 |                 replace_token = replace_token + DEFAULT_VI_START_TOKEN + \
211 |                     DEFAULT_VIDEO_FRAME_TOKEN * num_image + DEFAULT_VI_END_TOKEN
212 |             sentence["value"] = sentence["value"].replace(
213 |                 DEFAULT_IMAGE_TOKEN, replace_token)
214 |             sentence["value"] = sentence["value"].replace(
215 |                 DEFAULT_VIDEO_TOKEN, replace_token)
216 |     return sources
217 | 
218 | 
219 | def preprocess(
220 |     sources: Sequence[str],
221 |     tokenizer: transformers.PreTrainedTokenizer, conv_mode, only_mask_system = False
222 | ) -> Dict:
223 |     """
224 |     Given a list of sources, each is a conversation list. This transform:
225 |     1. Add signal '### ' at the beginning each sentence, with end signal '\n';
226 |     2. Concatenate conversations together;
227 |     3. Tokenize the concatenated conversation;
228 |     4. Make a deepcopy as the target. Mask human words with IGNORE_INDEX.
229 |     """
230 |     # add end signal and concatenate together
231 |     conversations = []
232 |     for source in sources:
233 |         header = f"{conversation_lib.conv_templates[conv_mode].system}\n\n"
234 |         conversation = _add_speaker_and_signal(header, source)
235 |         conversations.append(conversation)
236 |     # tokenize conversations
237 |     conversations_tokenized = _tokenize_fn(conversations, tokenizer)
238 |     input_ids = conversations_tokenized["input_ids"]
239 |     targets = copy.deepcopy(input_ids)
240 |     for target, source in zip(targets, sources):
241 |         tokenized_lens = _tokenize_fn([header] + [s["value"] for s in source],
242 |                                       tokenizer)["input_ids_lens"]
243 |         speakers = [sentence["from"] for sentence in source]
244 |         _mask_targets(target, tokenized_lens, speakers, only_mask_system)
245 | 
246 |     return dict(input_ids=input_ids, labels=targets)
247 | 
248 | 
249 | def load_video(
250 |         path,
251 |         image_processer = None,
252 |         frame_mode='fixed',
253 |         fixed_frame_number=8,
254 |         fps_number=0.5,
255 |         frame_process_method='centercrop',
256 | ):
257 |     if os.path.isfile(path):
258 |         video_reader = decord.VideoReader(
259 |             path, num_threads=1, ctx=decord.cpu(0))
260 |         decord.bridge.set_bridge('torch')
261 |         video_len = len(video_reader)
262 | 
263 |         if frame_mode == 'fixed':
264 |             video = video_reader.get_batch(np.linspace(
265 |                 0, video_len - 1, fixed_frame_number).astype(np.int_)).byte()  # 8, height,width,3
266 |             video = video.permute(3, 0, 1, 2)  # 3 x 8 x height x width
267 |         elif frame_mode == 'fps':
268 |             fps_offset = int(round(video_reader.get_avg_fps())/fps_number)
269 |             video = video_reader.get_batch(
270 |                 range(0, video_len, fps_offset)).byte()
271 |             video = video.permute(3, 0, 1, 2)  # 3 x 8 x height x width
272 |         input_mean = [0.48145466, 0.4578275, 0.40821073] # Consistent with clilp preprocessing
273 |         input_std = [0.26862954, 0.26130258, 0.27577711] #Consistent with clilp preprocessing
274 |         crop_size, scale_size = 224, 256
275 |         trans = transforms.Compose([
276 |             video_transform.TensorToNumpy(),
277 |             video_transform.Resize(scale_size),
278 |             video_transform.CenterCrop(crop_size),
279 |             video_transform.ClipToTensor(channel_nb=3),
280 |             video_transform.Normalize(mean=input_mean, std=input_std)
281 |         ])
282 |         video = trans(video)
283 |     else:
284 |         video_frames = list(Path(path).rglob('*'))
285 |         if frame_mode == 'fixed':
286 |             video_frames = [video_frames[i] for i in np.linspace(
287 |                 0, len(video_frames) - 1, fixed_frame_number).astype(np.int_)]
288 |         elif frame_mode == 'fps':
289 |             raise ValueError('Input folder is not support this frame mode')
290 |         else:
291 |             raise ValueError('Frame mode is only support "fps" or "fixed"')
292 |         video_frames = [Image.open(str(path)) for path in video_frames]
293 | 
294 |         if frame_process_method == 'resize':
295 |             min_length = min(video_frames[0].size)
296 |             resize = transforms.Resize([min_length, min_length])
297 |             video_frames = [resize(frame) for frame in video_frames]
298 |             # test_frame = video_frames[0]
299 | 
300 |         video = image_processer.preprocess(
301 |             video_frames, return_tensors='pt')['pixel_values']
302 |         video = video.permute(1, 0, 2, 3)
303 |     return video
304 | 


--------------------------------------------------------------------------------
/valley/util/decode_img.py:
--------------------------------------------------------------------------------
 1 | import json
 2 | import os
 3 | import base64
 4 | from PIL import Image
 5 | import random
 6 | import io
 7 | 
 8 | 
 9 | def image_preprocess(image_str):
10 |     image = _load_image(b64_decode(image_str))
11 | 
12 |     return image
13 | 
14 | 
15 | def b64_decode(string):
16 |     if isinstance(string, str):
17 |         string = string.encode()
18 |     return base64.decodebytes(string)
19 | 
20 | 
21 | def _load_image(buffer):
22 |     img = Image.open(io.BytesIO(buffer))
23 |     img = img.convert('RGB')
24 |     return img
25 | 
26 | 
27 | path = 'datas/GB_val.txt'  # 测试集路径
28 | save_path = 'datas/gambling/'  # 保存路径
29 | 
30 | if not os.path.exists(save_path):
31 |     os.mkdir(save_path)
32 | 
33 | with open(path, 'r') as f:
34 |     lines = f.readlines()
35 | 
36 | for idx, ex in enumerate(lines):
37 |     data = json.loads(ex)
38 |     # print(data.keys())  TODO: 看看有哪些字段，选择一些保存
39 |     title = data['title']
40 |     # asr = data['asr']
41 |     merge_ocr = data['merge_ocr']
42 |     # product_title = data['product_title']
43 |     # video_desp = data['video_desp']
44 |     gt_label = data['gt_label']
45 |     video_frame = data['video_frame']
46 |     # text = {'asr': asr, 'merge_ocr': merge_ocr, 'product_title': product_title, 'video_desp': video_desp,
47 |     #         'gt_label': gt_label}
48 |     text = {'merge_ocr': merge_ocr, 'title': title, 'gt_label': gt_label}
49 |     with open(os.path.join(save_path, f'{idx}.json'), 'w') as f:
50 |         f.write(json.dumps(text, indent=4))
51 | 
52 |     for i, video in enumerate(video_frame):
53 |         if random.random() < 0.5:
54 |             image = image_preprocess(video)
55 |             image.save(os.path.join(save_path, f'{idx}_{i}.jpg'), quality=95)
56 | 
57 |     if idx > 50:
58 |         break
59 | 


--------------------------------------------------------------------------------
/valley/utils.py:
--------------------------------------------------------------------------------
  1 | import datetime
  2 | import logging
  3 | import logging.handlers
  4 | import os
  5 | import sys
  6 | import requests
  7 | 
  8 | from valley.constants import LOGDIR
  9 | import re
 10 | server_error_msg = "**NETWORK ERROR DUE TO HIGH TRAFFIC. PLEASE REGENERATE OR REFRESH THIS PAGE.**"
 11 | moderation_msg = "YOUR INPUT VIOLATES OUR CONTENT MODERATION GUIDELINES. PLEASE TRY AGAIN."
 12 | 
 13 | handler = None
 14 | import logging
 15 | import sys
 16 | 
 17 | import torch.distributed as dist
 18 | from prettytable import PrettyTable
 19 | 
 20 | 
 21 | 
 22 | def print_trainable_params(model):
 23 |     if dist.get_rank() == 0:
 24 |         trainable_params = [k for k,v in model.named_parameters() if v.requires_grad]
 25 |         trainable_params_group = {}
 26 |         for para in trainable_params:
 27 |             layer_num = re.findall(r'layers.(\d+)\.',para)
 28 |             if layer_num:
 29 |                 cur_layer = int(layer_num[0])
 30 |                 if para.replace('layers.'+layer_num[0],'layers.*') not in trainable_params_group:
 31 |                     trainable_params_group[para.replace('layers.'+layer_num[0],'layers.*')] = layer_num[0]
 32 |                 elif cur_layer > int(trainable_params_group[para.replace('layers.'+layer_num[0],'layers.*')]):
 33 |                     trainable_params_group[para.replace('layers.'+layer_num[0],'layers.*')] = layer_num[0]
 34 |                     
 35 |             else:
 36 |                 trainable_params_group[para] = '0'
 37 |         table = PrettyTable(['Parameter Name','Max Layer Number'])
 38 |         for key in trainable_params_group.keys():
 39 |             table.add_row([key, str(int(trainable_params_group[key])+1)])
 40 |         
 41 |         print(table)
 42 |         total_num = sum([v.numel() for k,v in model.named_parameters()])
 43 |         trainable_num = sum([v.numel() for k,v in model.named_parameters() if v.requires_grad])
 44 |         print('Total: {:.2f}M'.format(total_num/1e6), ' Trainable: {:.2f}M'.format(trainable_num/1e6))
 45 | 
 46 | def rank_zero_info(content: str, logger, print_type: str = "info"):
 47 |     output_method = getattr(logger, print_type)
 48 |     if dist.get_rank() == 0:
 49 |         output_method(content)
 50 | 
 51 | 
 52 | def get_logger(name: str):
 53 |     # logger initialize
 54 |     logger = logging.getLogger(name)
 55 |     logger.setLevel(logging.INFO)
 56 |     # handler
 57 |     handler = logging.StreamHandler(sys.stdout)
 58 |     handler.setLevel(logging.INFO)
 59 |     # formatter
 60 |     formatter = logging.Formatter(
 61 |         "%(asctime)s - %(name)s - %(levelname)s - %(message)s"
 62 |     )
 63 |     handler.setFormatter(formatter)
 64 |     # add handler
 65 |     logger.addHandler(handler)
 66 | 
 67 |     return logger
 68 | 
 69 | 
 70 | def build_logger(logger_name, logger_filename):
 71 |     global handler
 72 | 
 73 |     formatter = logging.Formatter(
 74 |         fmt="%(asctime)s | %(levelname)s | %(name)s | %(message)s",
 75 |         datefmt="%Y-%m-%d %H:%M:%S",
 76 |     )
 77 | 
 78 |     # Set the format of root handlers
 79 |     if not logging.getLogger().handlers:
 80 |         logging.basicConfig(level=logging.INFO)
 81 |     logging.getLogger().handlers[0].setFormatter(formatter)
 82 | 
 83 |     # Redirect stdout and stderr to loggers
 84 |     stdout_logger = logging.getLogger("stdout")
 85 |     stdout_logger.setLevel(logging.INFO)
 86 |     sl = StreamToLogger(stdout_logger, logging.INFO)
 87 |     sys.stdout = sl
 88 | 
 89 |     stderr_logger = logging.getLogger("stderr")
 90 |     stderr_logger.setLevel(logging.ERROR)
 91 |     sl = StreamToLogger(stderr_logger, logging.ERROR)
 92 |     sys.stderr = sl
 93 | 
 94 |     # Get logger
 95 |     logger = logging.getLogger(logger_name)
 96 |     logger.setLevel(logging.INFO)
 97 | 
 98 |     # Add a file handler for all loggers
 99 |     if handler is None:
100 |         os.makedirs(LOGDIR, exist_ok=True)
101 |         filename = os.path.join(LOGDIR, logger_filename)
102 |         handler = logging.handlers.TimedRotatingFileHandler(
103 |             filename, when='D', utc=True)
104 |         handler.setFormatter(formatter)
105 | 
106 |         for name, item in logging.root.manager.loggerDict.items():
107 |             if isinstance(item, logging.Logger):
108 |                 item.addHandler(handler)
109 | 
110 |     return logger
111 | 
112 | 
113 | class StreamToLogger(object):
114 |     """
115 |     Fake file-like stream object that redirects writes to a logger instance.
116 |     """
117 |     def __init__(self, logger, log_level=logging.INFO):
118 |         self.terminal = sys.stdout
119 |         self.logger = logger
120 |         self.log_level = log_level
121 |         self.linebuf = ''
122 | 
123 |     def __getattr__(self, attr):
124 |         return getattr(self.terminal, attr)
125 | 
126 |     def write(self, buf):
127 |         temp_linebuf = self.linebuf + buf
128 |         self.linebuf = ''
129 |         for line in temp_linebuf.splitlines(True):
130 |             # From the io.TextIOWrapper docs:
131 |             #   On output, if newline is None, any '\n' characters written
132 |             #   are translated to the system default line separator.
133 |             # By default sys.stdout.write() expects '\n' newlines and then
134 |             # translates them so this is still cross platform.
135 |             if line[-1] == '\n':
136 |                 self.logger.log(self.log_level, line.rstrip())
137 |             else:
138 |                 self.linebuf += line
139 | 
140 |     def flush(self):
141 |         if self.linebuf != '':
142 |             self.logger.log(self.log_level, self.linebuf.rstrip())
143 |         self.linebuf = ''
144 | 
145 | 
146 | def disable_torch_init():
147 |     """
148 |     Disable the redundant torch default initialization to accelerate model creation.
149 |     """
150 |     import torch
151 |     setattr(torch.nn.Linear, "reset_parameters", lambda self: None)
152 |     setattr(torch.nn.LayerNorm, "reset_parameters", lambda self: None)
153 | 
154 | 
155 | def violates_moderation(text):
156 |     """
157 |     Check whether the text violates OpenAI moderation API.
158 |     """
159 |     url = "https://api.openai.com/v1/moderations"
160 |     headers = {"Content-Type": "application/json",
161 |                "Authorization": "Bearer " + os.environ["OPENAI_API_KEY"]}
162 |     text = text.replace("\n", "")
163 |     data = "{" + '"input": ' + f'"{text}"' + "}"
164 |     data = data.encode("utf-8")
165 |     try:
166 |         ret = requests.post(url, headers=headers, data=data, timeout=5)
167 |         flagged = ret.json()["results"][0]["flagged"]
168 |     except requests.exceptions.RequestException as e:
169 |         flagged = False
170 |     except KeyError as e:
171 |         flagged = False
172 | 
173 |     return flagged
174 | 
175 | 
176 | def pretty_print_semaphore(semaphore):
177 |     if semaphore is None:
178 |         return "None"
179 |     return f"Semaphore(value={semaphore._value}, locked={semaphore.locked()})"
180 | 


--------------------------------------------------------------------------------