日本語ローカルLLMまとめ※作成中 - SEが最近起こったことを書くブログ

日本語ローカルLLMの情報をこの記事にまとめ中です。 ※2023年10月31日現在の情報を記入したつもりですが、正確性は保証できません。

まとめ
lightblue/karasu-7B-chat-plus-unleashed
lightblue/qarasu-14B-chat-plus-unleashed
rinna/nekomata-14b-instruction
tokyotech-llm/Swallow-70b-instruct-hf
pfnet/plamo-13b-instruct
cyberagent/calm2-7b-chat
stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b
stabilityai/japanese-stablelm-instruct-beta-70b
rinna/youri-7b-instruction
stockmark/stockmark-13b-instruct
stabilityai/japanese-stablelm-instruct-gamma-7b
stabilityai/japanese-stablelm-3b-4e1t-instruct
llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
stabilityai/japanese-stablelm-instruct-alpha-7b-v2
pfnet/plamo-13b
elyza/ELYZA-japanese-Llama-2-7b-instruct
matsuo-lab/weblab-10b-instruction-sft
stabilityai/japanese-stablelm-base-alpha-7b
stabilityai/japanese-stablelm-instruct-alpha-7b
stabilityai/japanese-stablelm-instruct-alpha-7b-v2
line-corporation/japanese-large-lm-3.6b
stockmark/gpt-neox-japanese-1.4b
rinna/bilingual-gpt-neox-4b-instruction-ppo
rinna/japanese-gpt-neox-3.6b-instruction-ppo
cyberagent/open-calm-7b
日本語LLMのリーダーボード
- Nejumi LLMリーダーボード
- JP Language Model Evaluation Harness
- The Rakuda Ranking of Japanese AI

まとめ

モデル名	ライセンス	モデルアーキテクチャ	商用利用	リリース
lightblue/karasu-7B-chat-plus-unleashed	Apache v2.0	Mistral 7B	〇	KarasuとQarasu：最先端の日本語LLMオープンソースチャットボット｜Peter Devine
lightblue/qarasu-14B-chat-plus-unleashed	Apache v2.0	qwen	〇	KarasuとQarasu：最先端の日本語LLMオープンソースチャットボット｜Peter Devine
elyza/ELYZA-japanese-Llama-2-13b-fast-instruct	llama2	Llama2	〇	130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました（商用利用可）｜ELYZA, Inc.
rinna/nekomata-14b-instruction	Qwen	Qwen	〇	rinna、Qwenの日本語継続事前学習モデル「Nekomata」シリーズを公開｜rinna株式会社
tokyotech-llm/Swallow-70b-instruct-hf	llama2	Llama2	〇	Swallow
pfnet/plamo-13b-instruct	Apache v2.0	Decoderonlyの言語モデル		〇指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました - Preferred Networks Research & Development
cyberagent/calm2-7b-chat	Apache v2.0	Llama2	Transformerベースの言語モデル	〇\|独自の日本語LLM（大規模言語モデル）のバージョン2を一般公開 ―32,000トークン対応の商用利用可能なチャットモデルを提供― \| 株式会社サイバーエージェント
stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b	llama2	Llama2	〇	日本語大規模言語モデル「Japanese Stable LM Beta」シリーズをリリースしました — Stability AI Japan
stabilityai/japanese-stablelm-instruct-beta-70b	llama2	Llama2	〇	日本語大規模言語モデル「Japanese Stable LM Beta」シリーズをリリースしました — Stability AI Japan
rinna/youri-7b-instruction	llama2	Llama2	〇	rinna、Llama 2の日本語継続事前学習モデル「Youri 7B」を公開｜rinna株式会社
stockmark/stockmark-13b-instruct	CC BY-NC-SA	Llama2	×	Instruction Tuningを行なった130億パラメータの日本語LLMの公開：Stockmark-13b-instruct - Stockmark Tech Blog
stabilityai/japanese-stablelm-instruct-gamma-7b	Apache v2.0	Mistral-7B-v0.1	〇	日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan
stabilityai/japanese-stablelm-3b-4e1t-instruct	Apache v2.0	Decoderonlyの言語モデル	〇	日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan
llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0	Apache v2.0	Transformerベースの言語モデル	〇	130億パラメータの大規模言語モデル「LLM-jp-13B」を構築～NII主宰LLM勉強会（LLM-jp）の初期の成果をアカデミアや産業界の研究開発に資するために公開～ - 国立情報学研究所 / National Institute of Informatics
stabilityai/japanese-stablelm-instruct-alpha-7b-v2	Apache v2.0	GPT-NeoX	〇	stabilityai/japanese-stablelm-instruct-alpha-7b-v2 · Hugging Face
pfnet/plamo-13b	Apache v2.0	Llama 1を改良	〇	PLaMo-13Bを公開しました - Preferred Networks Research & Development
elyza/ELYZA-japanese-Llama-2-7b-instruct	llama2	Llama 2	〇	Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました｜ELYZA, Inc.
matsuo-lab/weblab-10b-instruction-sft	cc-by-nc-4.0	GPTNeoX	×	東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”を公開 ―公開済みの日本語大規模言語モデルで最高水準―｜プレスリリース \| UTokyo-Eng
stabilityai/japanese-stablelm-base-alpha-7b	apache-2.0	GPTNeoX	〇	日本語言語モデル「Japanese StableLM Alpha」をリリースしました — Stability AI Japan
stabilityai/japanese-stablelm-instruct-alpha-7b	JAPANESE STABLELM RESEARCH LICENSE AGREEMENT	GPTNeoX	×	日本語言語モデル「Japanese StableLM Alpha」をリリースしました — Stability AI Japan
stabilityai/japanese-stablelm-instruct-alpha-7b-v2	apache-2.0	GPTNeoX	〇	商用利用可能な「Japanese StableLM Instruct Alpha 7B v2」をリリースしました — Stability AI Japan
line-corporation/japanese-large-lm-3.6b	apache-2.0	GPTNeoX	〇	36億パラメータの日本語言語モデルを公開しました
stockmark/gpt-neox-japanese-1.4b	mit	GPTNeoX	〇	最近の話題にも詳しい14億パラメータの日本語LLMの公開 - Stockmark Tech Blog
rinna/bilingual-gpt-neox-4b-instruction-ppo	mit	GPTNeoX	〇	rinna、日英バイリンガル大規模言語モデルをオープンソースで公開｜rinna株式会社
rinna/japanese-gpt-neox-3.6b-instruction-ppo	mit	GPTNeoX	〇	rinna、人間の評価を利用したGPT言語モデルの強化学習に成功｜rinna株式会社
cyberagent/open-calm-7b	cc-by-sa-4.0	GPTNeoX	〇	サイバーエージェント、最大68億パラメータの日本語LLM（大規模言語モデル）を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供― \| 株式会社サイバーエージェント

lightblue/karasu-7B-chat-plus-unleashed

学習データ
- 事前学習　~7B
  - 青空文庫
  - 日本法令データセット
  - J日本語Wikipedia
  - CulturaXの日本語サブセットの中で.lg.jp、.go.jp、.ac.jpドメインのウェブスクレイピングから取得したデータ (Any documents with same first 25 characters were de-duplicated)
  - 英語のUltrachat200K-gen (So that it doesn't forget English and chatting ability learned in the base checkpoint)
- 指示チューニング
  - Chain-of-Thought Orcaスタイルのデータセット（約4万例） (非公開)
  - RAGベースの質問応答データセット（約25万例） (非公開)
  - カテゴリーベースのプロンプト応答データセット（約25万例） (非公開)
  - OASST（日本語の会話のみ）
  - ShareGPT（日本語の会話のみ）
  - augmxnt/ultra-orca-boros-en-ja-v1 (['airoboros', 'slimorca', 'ultrafeedback', 'airoboros_ja_new'] only)

lightblue/qarasu-14B-chat-plus-unleashed

学習データ
- Chain-of-Thought Orcaスタイルのデータセット（約4万例） (非公開)
- RAGベースの質問応答データセット（約25万例） (非公開)
- カテゴリーベースのプロンプト応答データセット（約25万例） (非公開)
- OASST（日本語の会話のみ）
- ShareGPT（日本語の会話のみ）
- augmxnt/ultra-orca-boros-en-ja-v1 (['airoboros', 'slimorca', 'ultrafeedback', 'airoboros_ja_new'] only)

rinna/nekomata-14b-instruction

学習データ
- 事前学習データ 66B
  - Japanese CC-100
  - Japanese C4
  - Japanese OSCAR
  - The Pile
  - Wikipedia
  - rinna curated Japanese dataset
- 指示チューニング
  - Databricks Dolly data
  - Japanese Databricks Dolly data
  - FLAN Instruction Tuning data and its Japanese translation
  - Izumi lab LLM Japanese dataset
    - 次のセクションを利用
      - alt
      - aozora-txt
      - CourseraParallel
      - ParaNatCom
      - Tab-delimited_Bilingual_Sentence_Pairs
      - tanaka-corpus
      - wikinews
      - wordnet
      - yasashi-japanese

tokyotech-llm/Swallow-70b-instruct-hf

学習データ
- 事前学習
  - Japanese Wikipedia
  - RefinedWeb
  - Swallow Corpus
  - The Pile
- 指示チューニング
  - Anthropic HH-RLHF
  - Databricks Dolly 15-k
  - OpenAssistant Conversations Dataset

pfnet/plamo-13b-instruct

学習データ
- 事前学習
  - 英語
    - RedPajamaからbooks3を抜いたデータセット
    - 割合
      - 87.7%
  - 日本語
    - mc4
    - 割合
      - 12.0%
  - wikipeda
    - 割合
      - 0.3%
- 指示チューニング
  - databricks-dolly-15k (日本語翻訳したデータ)
  - Anthropic HH-RLHF (日本語翻訳したデータ, subset)
  - OpenAssistant Conversations Dataset (日本語翻訳したデータ, oasst1)
  - Wikinews subset of Izumi-lab llm-japanese-dataset

cyberagent/calm2-7b-chat

学習データ
- 事前学習データ　1.3Tトークン
  - 公開されている日本語と英語のデータセット

stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b

学習データ
- 事前学習データ 100B
  - Japanese/English Wikipedia
  - Japanese mc4
  - Japanese CC-100
  - Japanese OSCAR
  - SlimPajama (excluding the Books3 subset)
- 指示チューニング
  - 以下を日本語訳したデータ
    - Anthropic HH-RLHF
    - Databricks Dolly 15-k
    - OpenAssistant Conversations Dataset

stabilityai/japanese-stablelm-instruct-beta-70b

学習データ
- 事前学習データ 100B
  - Japanese/English Wikipedia
  - Japanese mc4
  - Japanese CC-100
  - Japanese OSCAR
  - SlimPajama (excluding the Books3 subset)
- 指示チューニング
  - 以下を日本語訳したデータ
    - Anthropic HH-RLHF
    - Databricks Dolly 15-k
    - OpenAssistant Conversations Dataset

rinna/youri-7b-instruction

学習データ
- 事前学習データ 40B
  - Japanese CC-100
  - Japanese C4
  - Japanese OSCAR
  - The Pile
  - Wikipedia
  - rinna curated Japanese dataset
- 指示チューニング
  - Databricks Dolly data
  - Japanese Databricks Dolly data
  - FLAN Instruction Tuning data and its Japanese translation
  - Izumi lab LLM Japanese dataset
    - 次のセクションを利用
      - alt
      - aozora-txt
      - CourseraParallel
      - ParaNatCom
      - Tab-delimited_Bilingual_Sentence_Pairs
      - tanaka-corpus
      - wikinews
      - wordnet
      - yasashi-japanese

stockmark/stockmark-13b-instruct

学習データ
- 事前学習(日本語データ) 220Bトークン
  - Stockmark Web Corpus (非公開データ)：9.1 B
  - 特許： 34.8 B
  - Wikipedia： 1.0 B
  - CC100： 10.9 B
  - mC4： 53.2 B
  - CommonCrawl (次のスナップショット: 2023-23, 2022-49, 2022-21, 2021-21)： 112.9 B
- 指示チューニング
  - databricks-dolly-15k-ja：データ数15015※英語のデータセットを日本語に翻訳
  - oasst-89k-ja：データ数88838※英語のデータセットを日本語に翻訳
  - alpaca_ja：データ数51716※英語のデータセットを日本語に翻訳
  - LLMのための日本語インストラクションデータ作成プロジェクト：データ数1003※日本語データ

stabilityai/japanese-stablelm-instruct-gamma-7b

学習データ
- 事前学習※約100Bトークン
  - Japanese/English Wikipedia
  - Japanese mc4
  - Japanese CC-100
  - Japanese OSCAR
  - SlimPajama without the Books3 subset
- 指示チューニング
  - Japanese translation of the Databricks Dolly-15k dataset
  - Japanese translation of the subset of the Anthropic HH dataset
  - Wikinews subset of the izumi-lab/llm-japanese-dataset

stabilityai/japanese-stablelm-3b-4e1t-instruct

学習データ
- 継続学習※約100Bトークン
  - Japanese/English Wikipedia
  - Japanese mc4
  - Japanese CC-100
  - Japanese OSCAR
  - SlimPajama without the Books3 subset
- 指示チューニング
  - Japanese translation of the Databricks Dolly-15k dataset
  - Japanese translation of the subset of the Anthropic HH dataset
  - Wikinews subset of the izumi-lab/llm-japanese-dataset

llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0

学習データ
- 以下のデータで事前学習
  - 学習データ量　約300Bトークン
    - 日本語約145Bトークン：
      - 日本語mC4：136B
      - 日本語Wikipedia：15B
    - 英語約145B
      - 英語Pile：135B
      - 英語Wikipedia：5B
    - プログラムコード約10Bトークン
- 指示チューニング
  - jasters
  - databricks-dolly-15k：Deeplで翻訳したデータ
  - OpenAssistant Conversations Dataset：Deeplで翻訳したデータ

stabilityai/japanese-stablelm-instruct-alpha-7b-v2

学習データ
- 以下のデータの組み合わせ
  - Japanese translation of the Databricks Dolly-15k dataset
  - Japanese translation of the subset of the Anthropic HH dataset
  - Wikinews subset of the izumi-lab/llm-japanese-dataset

pfnet/plamo-13b

学習データ
- 英語
  - RedPajamaからbooks3を抜いたデータセット
  - 割合
    - 87.7%
- 日本語
  - mc4
  - 割合
    - 12.0%
- wikipeda
  - 割合
    - 0.3%

elyza/ELYZA-japanese-Llama-2-7b-instruct

学習データ
- ELYZA独自の高品質な指示データセット

matsuo-lab/weblab-10b-instruction-sft

学習データ
- 事前学習(600Bトークン)
  - The PileおよびJapanese-mC4
- ファインチューニング
  - Alpaca (English)
  - Alpaca (Japanese translation)
  - Flan 2021 (English)
  - Flan CoT (English)
  - Flan Dialog (English)

stabilityai/japanese-stablelm-base-alpha-7b

学習データ
- ウェブを中心とした大規模なデータ(750Bトークン)
  - Japanese/English Wikipedia
  - Japanese mc4
  - Japanese CC-100
  - Japanese OSCAR
  - RedPajama
- 学習データは主に日本語と英語、それに加えソースコードが約2%含まれる
- 学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれている

stabilityai/japanese-stablelm-instruct-alpha-7b

学習データ
- stabilityai/japanese-stablelm-base-alpha-7bを追加学習
  - 複数のオープンデータセットを利用
    - Japanese translation of the Stanfored Alpaca dataset
    - Japanese translation of the Databricks Dolly-15k dataset
    - Japanese translation of the subset of the Anthropic HH dataset
    - Wikinews subset of the izumi-lab/llm-japanese-dataset

stabilityai/japanese-stablelm-instruct-alpha-7b-v2

学習データ
- stabilityai/japanese-stablelm-base-alpha-7bを追加学習
  - 複数のオープンデータセットを利用
    - Japanese translation of the Databricks Dolly-15k dataset
    - Japanese translation of the subset of the Anthropic HH dataset
    - Wikinews subset of the izumi-lab/llm-japanese-dataset

line-corporation/japanese-large-lm-3.6b

学習データ
- LINE独自の大規模日本語Webコーパス(650GB)
  - C4, CC-100, and Oscarなどのオープンデータセット
  - 独自にクロールしたウェブテキストも含む

stockmark/gpt-neox-japanese-1.4b

学習データ(20Bトークン)
- CC100の日本語サブセット(10.5Bトークン)
- Wikipediaの日本語版(0.88Bトークン)
- 2023年6月までの独自の日本語Webデータ(8.6Bトークン)

rinna/bilingual-gpt-neox-4b-instruction-ppo

学習データ
- オープンデータセット(英語56%、日本語33%、ソースコード11%)
- 事前学習(524Bトークン)
  - Japanese CC-100
  - Japanese C4
  - The Pile
  - Redpajama
  - Wikipedia
- ファインチューニング
  - Anthropic HH RLHF data and its Japanese translation
  - FLAN Instruction Tuning data and its Japanese translation
- RLHF
  - CarperAI/trlx

rinna/japanese-gpt-neox-3.6b-instruction-ppo

学習データ
- 事前学習データ(312.5B)
  - Japanese CC-100
  - Japanese C4
  - Japanese Wikipedia t
- ファインチューニング
  - 以下を日本語訳したデータ
    - Anthropic HH RLHF data
    - FLAN Instruction Tuning data
    - Stanford Human Preferences Dataset
- RLHF
  - CarperAI/trlx