我最近花了几千块钱的价格,就成功运行了deepseek-r1:32b的量化模型,而且看起来效果还不错。用来学习和做一些简单的本地任务,还是很不错的选择。下面是使用 ollama 运行 deepseek-r1:32b 的 Q4_K_M 量化模型的效果,问题下面这样一个比较简单的问题:
三个不同的正整数加起来等于24,最大的数是9,那么最小的数是多少?
实测效果如下,这种简单的问题,还是能回答对,只是启动和思考过程比较长。虽然跟满血模型的效果没法比,但是在处理一些特定任务的情况下,还是能够胜任。后面也会基于不同参数的模型做一些应用探索。
注意:视频是加速了的,实际token输出是这个速度的1/3左右。
所运行的环境是自己家中的学习环境,显卡是一块前些年买的tesla p40的骨灰级显卡,性能比较差,但配备了24G的大显存。我的学习环境主要配置如下。
CPU: AMD 7K62
显卡:Nvidia Tesla P40
内存:128GB
操作系统:Debian-11
当时买这张P40显卡的时候,价格在一千左右,如果配上X99平台的E5神U,性价比直接拉满,是个人学习研究不错的选择。只可惜最近deepseek爆火,大家学习热情高涨,骨灰级的P40价格好像都涨到两千多了,真可谓:淘金者无所得,卖铲人皆富贵。
一、ollama的安装
Ollama 下载:https://ollama.com/download
Ollama 官方主页:https://ollama.com
Ollama 官方 GitHub 源代码仓库:https://github.com/ollama/ollama/
方式一、快速安装
如果你能够正常访问github,那么安装ollama非常简单,直接运行官方的安装脚本即可。
|
|
方式二、镜像下载地址安装
方式一中的安装脚本中,有一部分需要从github下载ollama安装包的操作,这部分操作由于网络问题,你很可能无法直接完成。如果遇到这样的情况,可以通过下面的步骤来进行安装。
1、下载安装脚本
|
|
2、从镜像站点下载安装文件
下面这个网站提供了很多github的发行文件下载,可以通过该镜像站点下载(2025-02-17亲测可用)。
|
|
实测下载速度还挺快的。
提示
如果你是amd的显卡,还需要下载ollama-linux-amd64-rocm.tgz,在第四步还需要将:
https://ollama.com/download/ollama-linux-${ARCH}-rocm.tgz${VER_PARAM}
替换为本地下载到的文件的路径。
3、校验文件(可选)
因为是从第三方下载的文件,如果对安全性要求较高,可以校验一下所下载文件是否与官方文件内容一致。
|
|
比较sha256值是否与官方的值一致,官方的sha256值可以在发布的文件中找到。
查看该文件,可以看到校验值与本地计算的sha256值一致,说明文件未被篡改过。
当然,如果你能够正常下载官方的sha256sum.txt,你也应该能够下载安装包。所以这一步可以根据实际情况来看需不需要来进行校验。
4、进行安装
替换安装文件中github下载路径为本地文件路径,然后执行安装脚本进行安装。
把下面github下载路径替换为本地文件路径,
|
|
替换为:
|
|
其中 /home/liwenbo/ollama-linux-amd64.tgz 是你在第2步下载的ollama安装文件的路径。修改完成后是类似下面这样的:
然后执行安装程序即可。
|
|
二、ollama参数配置
2.1 更改模型文件地址
1、修改ollama.service, 增加环境变量OLLAMA_MODELS来指定模型文件的存放地址。
|
|
2、在 [Service] 部分下添加一行新的环境变量 Environment,如下所示
|
|
3、重载配置并重启 Ollama 服务
|
|
2.2 更改监听地址
1、修改ollama.service, 增加环境变量OLLAMA_HOST来指定监听的地址和端口。
|
|
2、在 [Service] 部分下添加一行新的环境变量 Environment,如下所示
|
|
注意:
a. 请谨慎使用0.0.0.0地址,该地址表示所有网络可以访问该服务,如果仅在内网使用,请设置为内网地址。
b. 可能需要配置防火墙规则来允许所设定的端口外部能够访问。
3、重载配置并重启 Ollama 服务
|
|
提示:
如果你上面两个都需要修改,直接添加两条 Environment=“xxx” 的配置信息即可,如下所示。
|
|
三、ollama更新和卸载
3.1 更新
方式一、通过shell 脚本更新 Ollama
|
|
方式二、下载 Ollama 二进制文件
|
|
3.2 卸载
步骤一、删除 Ollama 服务
|
|
步骤二、删除 Ollama 二进制文件
从 bin 目录中删除 Ollama 二进制文件:/usr/local/bin
,/usr/bin
,/bin
|
|
步骤三、删除下载的模型和 Ollama 服务用户和组
|
|
四、ollama使用
最常用的ollama命令非常简单,经常使用的命令就是下面一些。
4.1 拉取镜像
使用 ollama pull
命令,拉取模型镜像,拉取完之后并不会运行。例如:
|
|
提示:
不知道是我网络问题还是ollama的内部设定,下载的时候刚开始速度很快,然后会慢慢降下来,ctrl+c中断后再下载,速度又会升上去。
4.2 运行镜像
使用 ollama run
命令,拉取并运行模型,如果模型已经拉取到本地,则直接运行。否则先拉取模型,然后运行。例如:
|
|
4.3 查看模型列表
使用 ollama ls
命令,查看本地存在的模型。
|
|
4.4 查看正在运行的模型
通过 ollama ps
命令,查看正在运行的模型。
|
|
4.5 ollama后台运行
可以使用 nohup 让ollama在后台运行,命令如下:
|
|
也可以新建一个名为 ollama-run.sh 的shell文件,这样以后不用每次输入上述命令了。
|
|
使用方式如下:
|
|
4.6 结束正在运行的ollama模型
ollama低版本中,好像没有结束运行模型的命令,需要先查询出进程的ID,然后kill掉。
较新版本的ollama中,增加了 ollama stop 命令,可以通过该命令结束运行中的模型。例如:
|
|
4.7 删除模型
使用 ollama rm MODEL_NAME
来删除一个本地模型。例如:
|
|