Witllm/qwen/demo.py

import torch
from modelscope import snapshot_download
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
from transformers import AutoConfig

from modeling_qwen import QWenLMHeadModel
from modeling_qwen import QwenRunner

seed = 4321
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)

model_dir = snapshot_download("qwen/Qwen-1_8B-Chat")
# model_dir = "/home/colin/.cache/modelscope/hub/qwen/Qwen-1_8B-Chat"

config, kwargs = AutoConfig.from_pretrained(
    "./",
    return_unused_kwargs=True,
    trust_remote_code=True,
    code_revision=None,
    _commit_hash=None,
)
model = QWenLMHeadModel(config)

print(model)

tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = model.from_pretrained(model_dir).cuda()

model = model.eval()
# model = model.train()  # control by @torch.no_grad()

# 可指定不同的生成长度、top_p等相关超参
# model.generation_config = GenerationConfig.from_pretrained(
#     model_dir, trust_remote_code=True
# )

runner = QwenRunner(model)

# 第一轮对话
response, history, decode_tokens = runner.Chat(tokenizer, "东南亚国家日本的首都是什么市", "")
print(decode_tokens)
# <|im_start|>system
# You are a helpful assistant.<|im_end|>
# <|im_start|>user
# 东南亚国家日本的首都是什么市<|im_end|>
# <|im_start|>assistant
# 日本的首都东京。<|im_end|><|endoftext|>

# 第二轮对话

response, history, decode_tokens = runner.Chat(tokenizer, "给我讲一个年轻人奋斗创业最终取得成功的故事。", "")
print(decode_tokens)

if decode_tokens.split("\n")[-2] != """这个故事告诉我们，只要我们有决心和毅力，就一定能够克服困难，实现我们的梦想。<|im_end|>""":
    raise ()
Add qwen files. 2024-01-03 21:03:27 +08:00			`import torch`
Add qwen and refine folders. 2024-01-03 20:26:26 +08:00			`from modelscope import snapshot_download`
			`from transformers import AutoModelForCausalLM, AutoTokenizer`
			`from transformers.generation import GenerationConfig`
Add qwen files. 2024-01-03 21:03:27 +08:00			`from transformers import AutoConfig`

			`from modeling_qwen import QWenLMHeadModel`
Refine model of qwen and add runner. 2024-01-21 12:45:56 +08:00			`from modeling_qwen import QwenRunner`
Add qwen files. 2024-01-03 21:03:27 +08:00
			`seed = 4321`
			`torch.manual_seed(seed)`
			`torch.cuda.manual_seed_all(seed)`
Add qwen and refine folders. 2024-01-03 20:26:26 +08:00
Update qwen demo.py 2024-01-05 11:49:35 +08:00			`model_dir = snapshot_download("qwen/Qwen-1_8B-Chat")`
			`# model_dir = "/home/colin/.cache/modelscope/hub/qwen/Qwen-1_8B-Chat"`
Add qwen and refine folders. 2024-01-03 20:26:26 +08:00
Add qwen files. 2024-01-03 21:03:27 +08:00			`config, kwargs = AutoConfig.from_pretrained(`
Remote return_dict config. Remove unuse files. 2024-01-07 17:28:15 +08:00			`"./",`
Add qwen files. 2024-01-03 21:03:27 +08:00			`return_unused_kwargs=True,`
			`trust_remote_code=True,`
			`code_revision=None,`
			`_commit_hash=None,`
			`)`
			`model = QWenLMHeadModel(config)`

Refine chat output format. 2024-01-10 19:35:46 +08:00			`print(model)`

Add qwen and refine folders. 2024-01-03 20:26:26 +08:00			`tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)`
PreTrainedModel to mm.Module 2024-01-20 20:04:45 +08:00			`model = model.from_pretrained(model_dir).cuda()`
Refine model of qwen for long sequence in eval. 2024-01-19 14:54:48 +08:00
Refine model of qwen. 2024-01-20 20:47:26 +08:00			`model = model.eval()`
			`# model = model.train() # control by @torch.no_grad()`
Add qwen and refine folders. 2024-01-03 20:26:26 +08:00
			`# 可指定不同的生成长度、top_p等相关超参`
Remote return_dict config. Remove unuse files. 2024-01-07 17:28:15 +08:00			`# model.generation_config = GenerationConfig.from_pretrained(`
			`# model_dir, trust_remote_code=True`
			`# )`
Add qwen and refine folders. 2024-01-03 20:26:26 +08:00
Refine model of qwen and add runner. 2024-01-21 12:45:56 +08:00			`runner = QwenRunner(model)`

Add qwen and refine folders. 2024-01-03 20:26:26 +08:00			`# 第一轮对话`
Refine model of qwen and add runner. 2024-01-21 12:45:56 +08:00			`response, history, decode_tokens = runner.Chat(tokenizer, "东南亚国家日本的首都是什么市", "")`
Refine chat output format. 2024-01-10 19:35:46 +08:00			`print(decode_tokens)`
Refine qwen model. 2024-01-13 16:50:25 +08:00			`# <\|im_start\|>system`
			`# You are a helpful assistant.<\|im_end\|>`
			`# <\|im_start\|>user`
Refine modeling and demo. 2024-01-14 17:21:14 +08:00			`# 东南亚国家日本的首都是什么市<\|im_end\|>`
Refine qwen model. 2024-01-13 16:50:25 +08:00			`# <\|im_start\|>assistant`
Refine modeling and demo. 2024-01-14 17:21:14 +08:00			`# 日本的首都东京。<\|im_end\|><\|endoftext\|>`

			`# 第二轮对话`
Refine model of qwen and add runner. 2024-01-21 12:45:56 +08:00
			`response, history, decode_tokens = runner.Chat(tokenizer, "给我讲一个年轻人奋斗创业最终取得成功的故事。", "")`
PreTrainedModel to mm.Module 2024-01-20 20:04:45 +08:00			`print(decode_tokens)`
Refine qwen model. 2024-01-13 16:50:25 +08:00
Refine model of qwen. 2024-01-21 02:33:55 +08:00			`if decode_tokens.split("\n")[-2] != """这个故事告诉我们，只要我们有决心和毅力，就一定能够克服困难，实现我们的梦想。<\|im_end\|>""":`
			`raise ()`