SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

Llama.cppをGPUを使用して実行してみた

llama-cpp-pythonGPUも活用して実行してみたので、 動かし方をメモ

ポイント

GPUを使うために環境変数に以下をセットする

CMAKE_ARGS="-DLLAMA_CUDA=on"
FORCE_CMAKE=1

n_gpu_layersにGPUにオフロードされるモデルのレイヤー数を設定。7Bは32、13Bは40が最大レイヤー数

llm =Llama(model_path="<ggufをダウンロードしたパス>", n_gpu_layers=32)

コード全体

!wget <GGUFのURL>
!CMAKE_ARGS="-DLLAMA_CUDA=on" FORCE_CMAKE=1 pip install llama-cpp-python
from llama_cpp import Llama
import ctypes
llm =Llama(model_path="<ggufをダウンロードしたパス>", n_gpu_layers=32)
prompt = f"""
# 利用するモデルに対応する形式でプロンプトを作成
"""
output = llm(prompt,max_tokens=1024)
output["choices"][0]["text"]

参考記事

github.com

note.com

note.com