辅助工具

ollama

Linux：

# linux 安装脚本。
curl -fsSL https://ollama.com/install.sh | sh

# 配置host为0.0.0.0
sudo systemctl edit ollama.service

# 随后写入 并保存
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_MODELS=/data/storage/ollama"
Environment="OLLAMA_KEEP_ALIVE=1h"
Environment="OLLAMA_CONTEXT_LENGTH=8192"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="CUDA_VISIBLE_DEVICES=1,0"


# 随后执行
sudo systemctl daemon-reload
sudo systemctl restart ollama

# 修改ollama模型存储路径
# 原始存储路径在/usr/share/ollama，进去之后可以看到实际就是一个
# 用户home目录的结构，所以直接修改ollama的home路径就行了
# -m 说是将老的home目录中的内容移动到新的路径，但是我还没试过。
sudo usermod -m -d /home/ollama ollama

# 查看运行状态
sudo systemctl status ollama

# Ollama 查看模型运行情况
ollama ps

自定义模型默认上下文长度

# 创建一个Modelfile，举个例子:
tee qwen3.5:9b-q8_0-128k.Modelfile <<EOF
FROM qwen3.5:9b-q8_0
PARAMETER num_ctx 131072
EOF

# 导入，
# 这样启动qwen3.5:9b-q8_0-128k模型的时候就默认128k的上下文长度了
# 同时不影响默认的上下文长度
ollama create qwen3.5:9b-q8_0-128k -f "./qwen3.5:9b-q8_0-128k.Modelfile"

huggingface

# 配置镜像站
export HF_ENDPOINT=https://hf-mirror.com

# 下载模型
hf download <repoid> <remote-path> --local-dir <local-path>

xinference

目前看起来可以host的模型种类非常多，比vllm兼容性要强一些。