Llama.cppをGPUを使用して実行してみた - SEが最近起こったことを書くブログ

llama-cpp-pythonをGPUも活用して実行してみたので、動かし方をメモ

ポイント

GPUを使うために環境変数に以下をセットする

CMAKE_ARGS="-DLLAMA_CUDA=on"
FORCE_CMAKE=1

n_gpu_layersにGPUにオフロードされるモデルのレイヤー数を設定。7Bは32、13Bは40が最大レイヤー数

llm =Llama(model_path="<ggufをダウンロードしたパス>", n_gpu_layers=32)

コード全体

!wget ＜GGUFのURL＞
!CMAKE_ARGS="-DLLAMA_CUDA=on" FORCE_CMAKE=1 pip install llama-cpp-python
from llama_cpp import Llama
import ctypes
llm =Llama(model_path="<ggufをダウンロードしたパス>", n_gpu_layers=32)
prompt = f"""
# 利用するモデルに対応する形式でプロンプトを作成
"""
output = llm(prompt,max_tokens=1024)
output["choices"][0]["text"]

参考記事

github.com

note.com