- 構成図を描く際に気をつけていること
- MiniGPT-4のAPIを実装する。 プログラムでマルチモーダルを自由に操作する。
- キャッチアップ速度が速い #とは
- Azureにおける IPv4アドレス枯渇との戦い方
- 自動運転のための大規模なVisual QAデータセット・AutoScenesQAの作成
- Google Colab で Fuyu-8B を試す
- llm-jpをColabで試す
- 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました
- LangChain の Step-back Prompting を試す
- LCEL (LangChain Expression Language) 入門
- icoxfog417/llm-token-counter
- LLMの開発は難しい?簡単?Stability AIの現場から
- turingmotors/openlenda
- LLMのプロンプト技術まとめ
- LLM in Production #2 LLMの勘所 -コスト・精度・パフォーマンス-
- Japanese-stablelm-base-gamma-7b の8Bit量子化GGUF版をLlamaで動かす
- ローカルLLMのリリース年表
- Google Colab で Stockmark-13B を試す
- ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開
- 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討
- 大規模言語モデルにおいて、「知識は全結合層に蓄積される」という仮説についての文献調査
- Microsoft Azure における大規模言語モデルの学習とファインチューニング
- 業務で使える一歩進んだPython使いになるために
- AWSで生成系AIの活用がはかどる3つの理由
構成図を描く際に気をつけていること
MiniGPT-4のAPIを実装する。 プログラムでマルチモーダルを自由に操作する。
- MiniGPT-4のAPIを実装した記事
キャッチアップ速度が速い #とは
- 学ぶための方法はいろいろある
- 学ぶことにより、適切なやり方はバラバラ
- ひとつのやり方にこだわると、効率が悪くなる
Azureにおける IPv4アドレス枯渇との戦い方
- IPアドレスが足りなくなることの対策として、公開/非公開ネットワークに分ける
- 公開/非公開ネットワーク間でNAT/プロキシする
自動運転のための大規模なVisual QAデータセット・AutoScenesQAの作成
- nuScenesという自動運転用のデータセットをベースに「車載カメラから撮影した 6 方向の画像(1 フレーム)」と「その画像に対応した QA のペア」を作成した
- LLM とルールベースのロジックを駆使して、全て自動で生成
Google Colab で Fuyu-8B を試す
- 「Google Colab」で「Fuyu-8B」を試した記事
llm-jpをColabで試す
- 日本語 LLM「llm-jp」を試した記事
日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました
- 日本語タスクを用いた性能評価において、同等サイズのモデルで最高水準の性能を発揮している
- モデルはすべて商用利用可能な Apache 2.0 ライセンスにて公開している
- 英語モデルとして制作・公開された大規模言語モデル「Stable LM 3B-4E1T」「Mistral-7B-v0.1」を元にしている
LangChain の Step-back Prompting を試す
- 「LangChain」の「Step-back Prompting」を試した記事
LCEL (LangChain Expression Language) 入門
- 「LCEL」(LangChain Expression Language)のはじめ方をまとめた記事
- 「LCEL」(LangChain Expression Language)は、チェーンを簡単に記述するための宣言型の手法
- 新しいアプリケーションを構築するときは「LCEL」を使用することが推奨されている
icoxfog417/llm-token-counter
- Anthropic Claude、OpenAIのそれぞれで分割したときのトークン数を確認できるアプリ
LLMの開発は難しい?簡単?Stability AIの現場から
- LLM開発する際に何をすべきかを項目ごとに解説されている動画
- 事前学習
- ファインチューニング
turingmotors/openlenda
- Turingで開発している信号認識モデル
LLMのプロンプト技術まとめ
- すぐに使えそうなプロンプトの工夫やフレームワークについて有名なものをまとめた記事
LLM in Production #2 LLMの勘所 -コスト・精度・パフォーマンス-
llm-in-production.connpass.com
- 様々な会社がLLMプロダクト開発の勘所を発表している
- 当日発表された資料
Japanese-stablelm-base-gamma-7b の8Bit量子化GGUF版をLlamaで動かす
ローカルLLMのリリース年表
- 「ローカルLLM」のリリース年表をまとめた記事
Google Colab で Stockmark-13B を試す
- 「Google Colab」で「Stockmark-13B」を試した記事
ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開
- ストックマーク社がビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開した
- 合計2200億トークンの日本語のテキストデータにより事前学習が行われた
- ストックマーク社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いられた
- モデルのアーキテクチャーは130億パラメータのLlama2
大規模言語モデルのFine-tuningによるドメイン知識獲得の検討
- 「機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組んだ記事
- 取り組んだ内容
- aMA2-7B-chat、LLaMA2-13B-chatにおいてLoRAのランクの大きさやデータ数を変えながらQLoRAによるInstruction Tuning
- 全てのモジュールの重みを学習対象にしたときに対して、Attention層(Q、K、V)を除いた場合と全結合層(Linear Layer、up projection、down projection、gate projection)を除いた場合の比較
- 知識の習得をFine-tuningで実現したい場合に、LLaMA2-7b-chatを用いてInstruction TuningとAddtional Trainingの順番や割合をどのようにすべきかについての検証
大規模言語モデルにおいて、「知識は全結合層に蓄積される」という仮説についての文献調査
- 「Knowledge Neurons in Pretrained Transformers」の論文を調査した記事
Microsoft Azure における大規模言語モデルの学習とファインチューニング
- Microsoft Azure を使った OSS の大規模言語モデル (LLM) の学習やファインチューニングを実現するための考慮点、インフラストラクチャー構成、最適化手法などを紹介された動画
- 資料の場所
業務で使える一歩進んだPython使いになるために
- 業務での開発でPythonを利用する難しさ
- 業務での問題を解決するための5つのツールの紹介
AWSで生成系AIの活用がはかどる3つの理由
- AWS の生成系 AI 戦略を品ぞろえ、コスト効率、実装のしやすさの 3 つの観点から紹介したスライド