llama-cpp-pythonをGPUも活用して実行してみたので、 動かし方をメモ
ポイント
CMAKE_ARGS="-DLLAMA_CUDA=on" FORCE_CMAKE=1
n_gpu_layersにGPUにオフロードされるモデルのレイヤー数を設定。7Bは32、13Bは40が最大レイヤー数
llm =Llama(model_path="<ggufをダウンロードしたパス>", n_gpu_layers=32)
コード全体
!wget <GGUFのURL> !CMAKE_ARGS="-DLLAMA_CUDA=on" FORCE_CMAKE=1 pip install llama-cpp-python from llama_cpp import Llama import ctypes llm =Llama(model_path="<ggufをダウンロードしたパス>", n_gpu_layers=32) prompt = f""" # 利用するモデルに対応する形式でプロンプトを作成 """ output = llm(prompt,max_tokens=1024) output["choices"][0]["text"]