SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年10月23日の週に気になった記事などまとめ

構成図を描く際に気をつけていること

tech.nri-net.com

MiniGPT-4のAPIを実装する。 プログラムでマルチモーダルを自由に操作する。

note.com

  • MiniGPT-4のAPIを実装した記事

キャッチアップ速度が速い #とは

speakerdeck.com

  • 学ぶための方法はいろいろある
  • 学ぶことにより、適切なやり方はバラバラ
    • ひとつのやり方にこだわると、効率が悪くなる

Azureにおける IPv4アドレス枯渇との戦い方

speakerdeck.com

  • IPアドレスが足りなくなることの対策として、公開/非公開ネットワークに分ける
    • 公開/非公開ネットワーク間でNAT/プロキシする

自動運転のための大規模なVisual QAデータセット・AutoScenesQAの作成

zenn.dev

  • nuScenesという自動運転用のデータセットをベースに「車載カメラから撮影した 6 方向の画像(1 フレーム)」と「その画像に対応した QA のペア」を作成した
    • LLM とルールベースのロジックを駆使して、全て自動で生成

Google Colab で Fuyu-8B を試す

note.com

  • Google Colab」で「Fuyu-8B」を試した記事

llm-jpをColabで試す

note.com

  • 日本語 LLM「llm-jp」を試した記事

日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました

ja.stability.ai

  • 日本語タスクを用いた性能評価において、同等サイズのモデルで最高水準の性能を発揮している
  • モデルはすべて商用利用可能な Apache 2.0 ライセンスにて公開している
  • 英語モデルとして制作・公開された大規模言語モデル「Stable LM 3B-4E1T」「Mistral-7B-v0.1」を元にしている
    • これらのモデルに対し、日本語を主としたデータを用いて更に事前学習を行うことで、日本語の能力を追加している
    • 継続事前学習は Wikipedia, mC4, CC-100, OSCAR, SlimPajama(Books3を除く)等の日本語と英語データを利用し、のべ約1000億トークンで行われた

LangChain の Step-back Prompting を試す

note.com

  • 「LangChain」の「Step-back Prompting」を試した記事

LCEL (LangChain Expression Language) 入門

note.com

  • 「LCEL」(LangChain Expression Language)のはじめ方をまとめた記事
  • 「LCEL」(LangChain Expression Language)は、チェーンを簡単に記述するための宣言型の手法
  • 新しいアプリケーションを構築するときは「LCEL」を使用することが推奨されている

icoxfog417/llm-token-counter

huggingface.co

  • Anthropic Claude、OpenAIのそれぞれで分割したときのトークン数を確認できるアプリ

LLMの開発は難しい?簡単?Stability AIの現場から

www.youtube.com

  • LLM開発する際に何をすべきかを項目ごとに解説されている動画
    • 事前学習
    • ファインチューニング

turingmotors/openlenda

github.com

  • Turingで開発している信号認識モデル

LLMのプロンプト技術まとめ

qiita.com

  • すぐに使えそうなプロンプトの工夫やフレームワークについて有名なものをまとめた記事

LLM in Production #2 LLMの勘所 -コスト・精度・パフォーマンス-

llm-in-production.connpass.com

  • 様々な会社がLLMプロダクト開発の勘所を発表している
  • 当日発表された資料

speakerdeck.com

speakerdeck.com

speakerdeck.com

speakerdeck.com

Japanese-stablelm-base-gamma-7b の8Bit量子化GGUF版をLlamaで動かす

note.com

  • Japanese-stablelm-base-gamma-7b 8Bit量子化 GGUF版コードをllama-cpp-pythonを使って作ってみた記事

ローカルLLMのリリース年表

note.com

  • 「ローカルLLM」のリリース年表をまとめた記事

Google Colab で Stockmark-13B を試す

note.com

  • Google Colab」で「Stockmark-13B」を試した記事

ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

tech.stockmark.co.jp

  • ストックマーク社がビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開した
  • 合計2200億トークンの日本語のテキストデータにより事前学習が行われた
    • ストックマーク社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いられた
  • モデルのアーキテクチャーは130億パラメータのLlama2

大規模言語モデルのFine-tuningによるドメイン知識獲得の検討

tech.preferred.jp

  • 機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組んだ記事
  • 取り組んだ内容
    • aMA2-7B-chat、LLaMA2-13B-chatにおいてLoRAのランクの大きさやデータ数を変えながらQLoRAによるInstruction Tuning
    • 全てのモジュールの重みを学習対象にしたときに対して、Attention層(Q、K、V)を除いた場合と全結合層(Linear Layer、up projection、down projection、gate projection)を除いた場合の比較
    • 知識の習得をFine-tuningで実現したい場合に、LLaMA2-7b-chatを用いてInstruction TuningとAddtional Trainingの順番や割合をどのようにすべきかについての検証

大規模言語モデルにおいて、「知識は全結合層に蓄積される」という仮説についての文献調査

note.com

  • 「Knowledge Neurons in Pretrained Transformers」の論文を調査した記事

Microsoft Azure における大規模言語モデルの学習とファインチューニング

www.youtube.com

業務で使える一歩進んだPython使いになるために

speakerdeck.com

  • 業務での開発でPythonを利用する難しさ
  • 業務での問題を解決するための5つのツールの紹介

AWSで生成系AIの活用がはかどる3つの理由 

speakerdeck.com

  • AWS の生成系 AI 戦略を品ぞろえ、コスト効率、実装のしやすさの 3 つの観点から紹介したスライド