辅助工具
ollama
Linux:
# linux 安装脚本。
curl -fsSL https://ollama.com/install.sh | sh
# 配置host为0.0.0.0
sudo systemctl edit ollama.service
# 随后写入 并保存
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_MODELS=/data/storage/ollama"
Environment="OLLAMA_KEEP_ALIVE=1h"
Environment="OLLAMA_CONTEXT_LENGTH=8192"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="CUDA_VISIBLE_DEVICES=1,0"
# 随后执行
sudo systemctl daemon-reload
sudo systemctl restart ollama
# 修改ollama模型存储路径
# 原始存储路径在/usr/share/ollama,进去之后可以看到实际就是一个
# 用户home目录的结构,所以直接修改ollama的home路径就行了
# -m 说是将老的home目录中的内容移动到新的路径,但是我还没试过。
sudo usermod -m -d /home/ollama ollama
# 查看运行状态
sudo systemctl status ollama
# Ollama 查看模型运行情况
ollama ps自定义模型默认上下文长度
# 创建一个Modelfile,举个例子:
tee qwen3.5:9b-q8_0-128k.Modelfile <<EOF
FROM qwen3.5:9b-q8_0
PARAMETER num_ctx 131072
EOF
# 导入,
# 这样启动qwen3.5:9b-q8_0-128k模型的时候就默认128k的上下文长度了
# 同时不影响默认的上下文长度
ollama create qwen3.5:9b-q8_0-128k -f "./qwen3.5:9b-q8_0-128k.Modelfile"huggingface
# 配置镜像站
export HF_ENDPOINT=https://hf-mirror.com
# 下载模型
hf download <repoid> <remote-path> --local-dir <local-path>xinference
目前看起来可以host的模型种类非常多,比vllm兼容性要强一些。