SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

日本語ローカルLLMまとめ※作成中

日本語ローカルLLMの情報をこの記事にまとめ中です。 ※2023年10月31日現在の情報を記入したつもりですが、正確性は保証できません。

まとめ

モデル名 ライセンス モデルアーキテクチャ 商用利用 リリース
lightblue/karasu-7B-chat-plus-unleashed Apache v2.0 Mistral 7B KarasuとQarasu:最先端の日本語LLMオープンソースチャットボット|Peter Devine
lightblue/qarasu-14B-chat-plus-unleashed Apache v2.0 qwen KarasuとQarasu:最先端の日本語LLMオープンソースチャットボット|Peter Devine
elyza/ELYZA-japanese-Llama-2-13b-fast-instruct llama2 Llama2 130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました(商用利用可)|ELYZA, Inc.
rinna/nekomata-14b-instruction Qwen Qwen rinna、Qwenの日本語継続事前学習モデル「Nekomata」シリーズを公開|rinna株式会社
tokyotech-llm/Swallow-70b-instruct-hf llama2 Llama2 Swallow
pfnet/plamo-13b-instruct Apache v2.0 Decoderonlyの言語モデル 指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました - Preferred Networks Research & Development
cyberagent/calm2-7b-chat Apache v2.0 Llama2 Transformerベースの言語モデル 〇|独自の日本語LLM(大規模言語モデル)のバージョン2を一般公開 ―32,000トークン対応の商用利用可能なチャットモデルを提供― | 株式会社サイバーエージェント
stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b llama2 Llama2 日本語大規模言語モデル「Japanese Stable LM Beta」シリーズをリリースしました — Stability AI Japan
stabilityai/japanese-stablelm-instruct-beta-70b llama2 Llama2 日本語大規模言語モデル「Japanese Stable LM Beta」シリーズをリリースしました — Stability AI Japan
rinna/youri-7b-instruction llama2 Llama2 rinna、Llama 2の日本語継続事前学習モデル「Youri 7B」を公開|rinna株式会社
stockmark/stockmark-13b-instruct CC BY-NC-SA Llama2 × Instruction Tuningを行なった130億パラメータの日本語LLMの公開:Stockmark-13b-instruct - Stockmark Tech Blog
stabilityai/japanese-stablelm-instruct-gamma-7b Apache v2.0 Mistral-7B-v0.1 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan
stabilityai/japanese-stablelm-3b-4e1t-instruct Apache v2.0 Decoderonlyの言語モデル 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました — Stability AI Japan
llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0 Apache v2.0 Transformerベースの言語モデル 130億パラメータの大規模言語モデル「LLM-jp-13B」を構築~NII主宰LLM勉強会(LLM-jp)の初期の成果をアカデミアや産業界の研究開発に資するために公開~ - 国立情報学研究所 / National Institute of Informatics
stabilityai/japanese-stablelm-instruct-alpha-7b-v2 Apache v2.0 GPT-NeoX stabilityai/japanese-stablelm-instruct-alpha-7b-v2 · Hugging Face
pfnet/plamo-13b Apache v2.0 Llama 1を改良 PLaMo-13Bを公開しました - Preferred Networks Research & Development
elyza/ELYZA-japanese-Llama-2-7b-instruct llama2 Llama 2 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.
matsuo-lab/weblab-10b-instruction-sft cc-by-nc-4.0 GPTNeoX × 東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の 大規模言語モデル“Weblab-10B”を公開 ―公開済みの日本語大規模言語モデルで最高水準―|プレスリリース | UTokyo-Eng
stabilityai/japanese-stablelm-base-alpha-7b apache-2.0 GPTNeoX 日本語言語モデル「Japanese StableLM Alpha」をリリースしました — Stability AI Japan
stabilityai/japanese-stablelm-instruct-alpha-7b JAPANESE STABLELM RESEARCH LICENSE AGREEMENT GPTNeoX × 日本語言語モデル「Japanese StableLM Alpha」をリリースしました — Stability AI Japan
stabilityai/japanese-stablelm-instruct-alpha-7b-v2 apache-2.0 GPTNeoX 商用利用可能な「Japanese StableLM Instruct Alpha 7B v2」をリリースしました — Stability AI Japan
line-corporation/japanese-large-lm-3.6b apache-2.0 GPTNeoX 36億パラメータの日本語言語モデルを公開しました
stockmark/gpt-neox-japanese-1.4b mit GPTNeoX 最近の話題にも詳しい14億パラメータの日本語LLMの公開 - Stockmark Tech Blog
rinna/bilingual-gpt-neox-4b-instruction-ppo mit GPTNeoX rinna、日英バイリンガル大規模言語モデルをオープンソースで公開|rinna株式会社
rinna/japanese-gpt-neox-3.6b-instruction-ppo mit GPTNeoX rinna、人間の評価を利用したGPT言語モデルの強化学習に成功|rinna株式会社
cyberagent/open-calm-7b cc-by-sa-4.0 GPTNeoX サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供― | 株式会社サイバーエージェント

lightblue/karasu-7B-chat-plus-unleashed

  • 学習データ
    • 事前学習 ~7B
    • 指示チューニング
      • Chain-of-Thought Orcaスタイルのデータセット(約4万例) (非公開)
      • RAGベースの質問応答データセット(約25万例) (非公開)
      • カテゴリーベースのプロンプト応答データセット(約25万例) (非公開)
      • OASST(日本語の会話のみ)
      • ShareGPT(日本語の会話のみ)
      • augmxnt/ultra-orca-boros-en-ja-v1 (['airoboros', 'slimorca', 'ultrafeedback', 'airoboros_ja_new'] only)

lightblue/qarasu-14B-chat-plus-unleashed

  • 学習データ
    • Chain-of-Thought Orcaスタイルのデータセット(約4万例) (非公開)
    • RAGベースの質問応答データセット(約25万例) (非公開)
    • カテゴリーベースのプロンプト応答データセット(約25万例) (非公開)
    • OASST(日本語の会話のみ)
    • ShareGPT(日本語の会話のみ)
    • augmxnt/ultra-orca-boros-en-ja-v1 (['airoboros', 'slimorca', 'ultrafeedback', 'airoboros_ja_new'] only)

rinna/nekomata-14b-instruction

  • 学習データ
    • 事前学習データ 66B
      • Japanese CC-100
      • Japanese C4
      • Japanese OSCAR
      • The Pile
      • Wikipedia
      • rinna curated Japanese dataset
    • 指示チューニング
      • Databricks Dolly data
      • Japanese Databricks Dolly data
      • FLAN Instruction Tuning data and its Japanese translation
      • Izumi lab LLM Japanese dataset
        • 次のセクションを利用
          • alt
          • aozora-txt
          • CourseraParallel
          • ParaNatCom
          • Tab-delimited_Bilingual_Sentence_Pairs
          • tanaka-corpus
          • wikinews
          • wordnet
          • yasashi-japanese

tokyotech-llm/Swallow-70b-instruct-hf

  • 学習データ
    • 事前学習
    • 指示チューニング
      • Anthropic HH-RLHF
      • Databricks Dolly 15-k
      • OpenAssistant Conversations Dataset

pfnet/plamo-13b-instruct

  • 学習データ
    • 事前学習
      • 英語
        • RedPajamaからbooks3を抜いたデータセット
        • 割合
          • 87.7%
      • 日本語
        • mc4
        • 割合
          • 12.0%
      • wikipeda
        • 割合
          • 0.3%
    • 指示チューニング
      • databricks-dolly-15k (日本語翻訳したデータ)
      • Anthropic HH-RLHF (日本語翻訳したデータ, subset)
      • OpenAssistant Conversations Dataset (日本語翻訳したデータ, oasst1)
      • Wikinews subset of Izumi-lab llm-japanese-dataset

cyberagent/calm2-7b-chat

  • 学習データ

stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b

  • 学習データ
    • 事前学習データ 100B
      • Japanese/English Wikipedia
      • Japanese mc4
      • Japanese CC-100
      • Japanese OSCAR
      • SlimPajama (excluding the Books3 subset)
    • 指示チューニング
      • 以下を日本語訳したデータ
        • Anthropic HH-RLHF
        • Databricks Dolly 15-k
        • OpenAssistant Conversations Dataset

stabilityai/japanese-stablelm-instruct-beta-70b

  • 学習データ
    • 事前学習データ 100B
      • Japanese/English Wikipedia
      • Japanese mc4
      • Japanese CC-100
      • Japanese OSCAR
      • SlimPajama (excluding the Books3 subset)
    • 指示チューニング
      • 以下を日本語訳したデータ
        • Anthropic HH-RLHF
        • Databricks Dolly 15-k
        • OpenAssistant Conversations Dataset

rinna/youri-7b-instruction

  • 学習データ
    • 事前学習データ 40B
      • Japanese CC-100
      • Japanese C4
      • Japanese OSCAR
      • The Pile
      • Wikipedia
      • rinna curated Japanese dataset
    • 指示チューニング
      • Databricks Dolly data
      • Japanese Databricks Dolly data
      • FLAN Instruction Tuning data and its Japanese translation
      • Izumi lab LLM Japanese dataset
        • 次のセクションを利用
          • alt
          • aozora-txt
          • CourseraParallel
          • ParaNatCom
          • Tab-delimited_Bilingual_Sentence_Pairs
          • tanaka-corpus
          • wikinews
          • wordnet
          • yasashi-japanese

stockmark/stockmark-13b-instruct

  • 学習データ
    • 事前学習(日本語データ) 220Bトーク
      • Stockmark Web Corpus (非公開データ):9.1 B
      • 特許: 34.8 B
      • Wikipedia: 1.0 B
      • CC100: 10.9 B
      • mC4: 53.2 B
      • CommonCrawl (次のスナップショット: 2023-23, 2022-49, 2022-21, 2021-21): 112.9 B
    • 指示チューニング
      • databricks-dolly-15k-ja:データ数15015※英語のデータセットを日本語に翻訳
      • oasst-89k-ja:データ数88838※英語のデータセットを日本語に翻訳
      • alpaca_ja:データ数51716※英語のデータセットを日本語に翻訳
      • LLMのための日本語インストラクションデータ作成プロジェクト:データ数1003※日本語データ

stabilityai/japanese-stablelm-instruct-gamma-7b

  • 学習データ
    • 事前学習※約100Bトーク
      • Japanese/English Wikipedia
      • Japanese mc4
      • Japanese CC-100
      • Japanese OSCAR
      • SlimPajama without the Books3 subset
    • 指示チューニング
      • Japanese translation of the Databricks Dolly-15k dataset
      • Japanese translation of the subset of the Anthropic HH dataset
      • Wikinews subset of the izumi-lab/llm-japanese-dataset

stabilityai/japanese-stablelm-3b-4e1t-instruct

  • 学習データ
    • 継続学習※約100Bトーク
      • Japanese/English Wikipedia
      • Japanese mc4
      • Japanese CC-100
      • Japanese OSCAR
      • SlimPajama without the Books3 subset
    • 指示チューニング
      • Japanese translation of the Databricks Dolly-15k dataset
      • Japanese translation of the subset of the Anthropic HH dataset
      • Wikinews subset of the izumi-lab/llm-japanese-dataset

llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0

  • 学習データ
    • 以下のデータで事前学習
    • 指示チューニング
      • jasters
      • databricks-dolly-15k:Deeplで翻訳したデータ
      • OpenAssistant Conversations Dataset:Deeplで翻訳したデータ

stabilityai/japanese-stablelm-instruct-alpha-7b-v2

  • 学習データ
    • 以下のデータの組み合わせ
      • Japanese translation of the Databricks Dolly-15k dataset
      • Japanese translation of the subset of the Anthropic HH dataset
      • Wikinews subset of the izumi-lab/llm-japanese-dataset

pfnet/plamo-13b

  • 学習データ
    • 英語
      • RedPajamaからbooks3を抜いたデータセット
      • 割合
        • 87.7%
    • 日本語
      • mc4
      • 割合
        • 12.0%
    • wikipeda
      • 割合
        • 0.3%

elyza/ELYZA-japanese-Llama-2-7b-instruct

  • 学習データ

matsuo-lab/weblab-10b-instruction-sft

  • 学習データ
    • 事前学習(600Bトークン)
      • The PileおよびJapanese-mC4
    • ファインチューニング
      • Alpaca (English)
      • Alpaca (Japanese translation)
      • Flan 2021 (English)
      • Flan CoT (English)
      • Flan Dialog (English)

stabilityai/japanese-stablelm-base-alpha-7b

  • 学習データ
    • ウェブを中心とした大規模なデータ(750Bトークン)
      • Japanese/English Wikipedia
      • Japanese mc4
      • Japanese CC-100
      • Japanese OSCAR
      • RedPajama
    • 学習データは主に日本語と英語、それに加えソースコードが約2%含まれる
    • 学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれている

stabilityai/japanese-stablelm-instruct-alpha-7b

  • 学習データ
    • stabilityai/japanese-stablelm-base-alpha-7bを追加学習
      • 複数のオープンデータセットを利用
        • Japanese translation of the Stanfored Alpaca dataset
        • Japanese translation of the Databricks Dolly-15k dataset
        • Japanese translation of the subset of the Anthropic HH dataset
        • Wikinews subset of the izumi-lab/llm-japanese-dataset

stabilityai/japanese-stablelm-instruct-alpha-7b-v2

  • 学習データ
    • stabilityai/japanese-stablelm-base-alpha-7bを追加学習
      • 複数のオープンデータセットを利用
        • Japanese translation of the Databricks Dolly-15k dataset
        • Japanese translation of the subset of the Anthropic HH dataset
        • Wikinews subset of the izumi-lab/llm-japanese-dataset

line-corporation/japanese-large-lm-3.6b

  • 学習データ
    • LINE独自の大規模日本語Webコーパス(650GB)
      • C4, CC-100, and Oscarなどのオープンデータセット
      • 独自にクロールしたウェブテキストも含む

stockmark/gpt-neox-japanese-1.4b

rinna/bilingual-gpt-neox-4b-instruction-ppo

  • 学習データ
    • オープンデータセット(英語56%、日本語33%、ソースコード11%)
    • 事前学習(524Bトークン)
    • ファインチューニング
      • Anthropic HH RLHF data and its Japanese translation
      • FLAN Instruction Tuning data and its Japanese translation
    • RLHF
      • CarperAI/trlx

rinna/japanese-gpt-neox-3.6b-instruction-ppo

  • 学習データ
    • 事前学習データ(312.5B)
      • Japanese CC-100
      • Japanese C4
      • Japanese Wikipedia t
    • ファインチューニング
      • 以下を日本語訳したデータ
        • Anthropic HH RLHF data
        • FLAN Instruction Tuning data
        • Stanford Human Preferences Dataset
    • RLHF
      • CarperAI/trlx

cyberagent/open-calm-7b

  • 学習データ

日本語LLMのリーダーボード

Nejumi LLMリーダーボード

wandb.ai

  • Weights & Biases社が公開
  • JGLUEを用いて精度評価
  • リリース
  • Stability AI社が実施しているタスクよりも厳しい条件で実施している

JP Language Model Evaluation Harness

github.com

  • Stability AI社が公開
  • JGLUEを用いて精度評価

The Rakuda Ranking of Japanese AI

yuzuai.jp

  • YuzuAIというコミュニティが公開
  • 以下のデータセットで評価している
  • 2つのモデルの出力をGPT-4に渡し、評価している