SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年4月15日の週に気になった記事などまとめ

ゼロから始める自作LLM

note.com

小さなLLMを多数組み合わせることで、単一の巨大モデルに匹敵する可能性

ai-data-base.com

コンテナ使うならAzureで決まり!個人的推しサービスのAzure Container Appsを語る_

www.docswell.com

  • Azure Container AppsはVNETのみに公開もできる
  • 0個にスケールインして課金を止めることもできる
  • ジョブ型のアプリケーションも実行可能

ML system design: 300 case studies to learn from

www.evidentlyai.com

GUIと日本語環境が使えるお手軽Docker環境の使い方

zenn.dev

  • Webtopを使うとDockerコンテナ内でGUIを扱うことができる

blog.google

Heron-Bench: 日本語Vision&Languageモデルの性能評価ベンチマークの公開

zenn.dev

  • Vision Language Model (VLM) のベンチマーク「Heron-Bench」を解説した記事
  • GPT-4を審判としてスコアを算出する

Introducing OpenAI Japan

openai.com

  • OpenAIが日本にオフィスを作る
  • 日本語に最適化したGPT-4のカスタムモデルを提供する予定

OpenAIからBatch APIがリリースされた

https://platform.openai.com/docs/api-reference/batch/create

  • リクエストを24時間以内に実行する
  • APIの価格が50% off

LangChain で Cohere Reranker を試す

note.com

Cohere Compass - 新マルチアスペクト埋め込みモデル

note.com

  • マルチアスペクトデータとは、複数の概念と関係を持つデータ
  • Cohere Compassでは、データをJSONに変換してから埋込出力に変換する

kotoba-tech/kotoba-whisper-v1.0

huggingface.co

  • Whisperlarge-v3と同じぐらい高精度でかつ、6.3倍の高速なモデルがリリースされた

Idefics2 の概要

note.com

  • 「Idefics2」は、テキストと画像を入力し、テキストを出力するマルチモーダルモデル
  • 「Idefics1」からOCR機能が大幅に強化された

API Gatewayを使ってgpt-4からの回答をストリームレスポンスさせる

speakerdeck.com

  • WebSocketを使ってストリーム的にデータの返却をする

饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

note.com

  • 「Japanese-Starling-ChatV-7B」は他の7Bモデルに比べて高い推論能力や文章理解を示すが、その最もシンプルな特徴は「出力テキストの長さ」

Anthropic’s Claude 3 Opus model is now available on Amazon Bedrock

aws.amazon.com

  • Claude3 OpusがBedrockで利用できるようになった

Google Colab で idefics2 を試す

note.com

Announcing the Public Preview of Azure Change Analysis New Portal Experience

techcommunity.microsoft.com

  • Azureですべてのリソースから変更があったリソースをリスト化できるようになった

aiindex.stanford.edu

生成AIによるプロダクトと生産性向上の舞台裏@2024.04.16

speakerdeck.com

  • LLMは応答速度は使い方やモデルによっては時間がかかる場合があるため、早く応答を返すことが求められる C向けサービスでは工夫が必要
  • モデルサイズが大きなモデルはまだ高い
  • 出力内容のコントロールが難しい
  • プロダクト施策では学びながら少しずつ許容範囲を広げる

Evolutionary Optimization of Model Merging Recipes

speakerdeck.com

  • モデルマージのアプローチ2つと進化的モデルマージの結果について説明したスライド

Google Colab で Idefics2 のファインチューニングを試す

note.com

【次世代動画生成】Open-Sora徹底解説【OSS版Sora?】

zenn.dev

  • Open-Soraは Latte と PixArt-αがベース
    • LatteはDiTを使った動画生成モデルのOSS
    • PixArt-αは、DiTを使った画像生成モデルのOSS
  • 動画データを洗剤空間に落とし込むために、StabilityAIの「sd-vae-ft-mse-original」を使用
  • Open-SoraはテキストエンコーダーにCLIPではなくT5を使って居rう

Microsoft の AI 技術 をベースに構成される Craft Functions Copilot

tech.plaid.co.jp

  • GPT3.5 turbo でフォーマットを整えたうえで、AI Searchから検索する
  • System MessageとFew-shot Learningを利用して、プロンプトを改善している
  • JSONモードを利用することでプログラム内で活用しやすいアウトプットさせている

子を持つエンジニアとして。父娘で過ごす、かけがえのない時間を大切にするためにつくった約束事とは

levtech.jp

Mergoo: LLMの効率的なマージと微調整のためのライブラリ (MoE, Mixture of Adapters)

sc-bakushu.hatenablog.com

  • Mergooを利用すると複数のオープンソースLLMを簡単に統合できる
  • 様々なマージ方法を適用できる

1BitLLMの実力を見る

note.com

  • 1bitLLM/bitnet_b1_58-3Bの動かしたかたを紹介した記事

生成AIによる自動評価(LLM-as-a-Judge)のメリットと最新手法をご紹介

www.brainpad.co.jp

  • 確率ベース評価はLLMの回答の生成尤度を評価指標として利用するアプローチ
    • 評価用LLMを用いて、プロンプトの入力(命令文やサンプルを含む評価基の入力)を条件付きとしたときの出力の条件付き生成確率(または生成尤度)をトークンごとに計算し、その加重平均を評価スコアとする手法
  • リッカートスタイルの評価は、オープンエンドの物語生成と敵対的攻撃の2タスクにおいて、人間の専門家とLLMの両方が生成文を5段階評価し比較する
    • 評価は、文法、文章のまとまり、話自体の楽しさ、プロンプトとの関連性の4観点からそれぞれ実施され品質が数値化される

Assistants APIのV2がリリースされた

https://platform.openai.com/docs/assistants/whats-new

  • Retrieval対象のファイルを10,000個まで登録できるようになった
  • トークン数の最大をコントロールできるようになった

ざっくり理解するベクトル検索

speakerdeck.com

  • 最近傍探索
    • 厳密な最近傍を求められるが遅い
  • 近似最近傍探索
    • 厳密ではなく近似的な解を高速に探索
    • アルゴリズム
      • ツリーを使う手法
      • グラフを使う手法
      • ハッシュを使う手法

        SFTTrainer と TrainingArguments を使ってバッチ数を小さくしてステップを少なくした学習コードの解説

hamaruki.com

Supervised Fine-tuning Trainer (SFT) 入門

hamaruki.com

  • SFTTrainer と TrainingArguments を使って、限られたリソースでも効率的に言語モデルをファインチューニングする方法を解説した記事

LLM差分マージしてみた

zenn.dev

  • nekomata-14b + qarasu-14b-chat - Qwen-14Bのモデルマージを実施した記事

CRYPTREC 暗号技術ガイドライン(軽量暗号)2023 年度版

https://www.cryptrec.go.jp/report/cryptrec-gl-2006-2023.pdf

Google Colab で Llama 3 を試す

note.com

llama-cpp-python と gradio で command-r-plus を動かす

gist.github.com

Meta Llama 3の紹介

note.com

  • Llama 3の開発において、新しい高品質の人間による評価データセットが開発された
    • この評価データセットには、アドバイスを求める、ブレインストーミング、分類、クローズドクエスチョンの回答、コーディング、クリエイティブライティング、抽出、キャラクターやペルソナの役割を演じる、オープンクエスチョンの回答、推論、書き換え、要約の12の主要なユースケースをカバーする1,800のプロンプトが含まれる
  • Llama 3ではコンテキストの長さは8,192トーク
  • Llama 3では128Kトークンの語彙を持つトークナイザーを使用
  • Llama 3は、すべて公開されているソースから収集された15T以上のトークンで事前学習されている

言語処理技術セミナー2023「ChatGPTにできること・できないこと」(坂口慶祐先生)

www.youtube.com

Meta Llama 3 models are now available in Amazon SageMaker JumpStart

aws.amazon.com

進化的アルゴリズムをもちいたChatVector加算の最適化

note.com

  • 進化的アルゴリズムをもちいて各layerの加算比率の最適化を測る際に、指標となる評価軸が必要
    • この記事では、ELYZA-tasks-100の最初の10件をGPT-4-turboで評価したものを指標としている

A Survey on Retrieval-Augmented Text Generation for Large Language Models

arxiv.org

BitNetLLMの罠(学習に失敗した話)

note.com

[04/13~04/19] 生成AI Weekly News

note.com

ChatGPT for IT Service Management (IT Pro)

speakerdeck.com

今さら聞けない!? AWSの生成AIサービス Amazon Bedrock入門!

speakerdeck.com

  • langchain-awsパッケージが登場した

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

note.com

  • 自動挿入系のタグや日付、webでやたらと多発するキーワード類を削除
    • ノイズ除去をしないデータを学習したモデルは、句点(。)のあとに、日付や[送料無料]のような、無意味な出力をする悪いクセがある

「AI事業者ガイドライン(第1.0版)」を取りまとめました

www.meti.go.jp

  • AI の安全安心な活用が促進されるよう、我が国における AI ガバナンスの統一的な指針を示すガイドライン
  • 添付資料にhowが記載されている

LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告 一部、直感に反する複雑な結果も

ai-data-base.com

雑に思考を整理する技術と効能

speakerdeck.com

  • 溜めると書けなくなるから小出しにする
  • 雑な思考の吐き出しは心の安定につながる
  • フィードバッグをもらえる場所に書く
  • 自分がうまくできていないことを書く
  • スマホで書くと思考のスピードを落とし、ちょうどよい
    • 思いついたワードや文章をスマホで雑に書くだけ
  • タイトルは最後に決める
  • なるべくポジティブに変換する
  • 背伸びをしすぎずに、考えを淡々と吐き出すのが大事

小さい計算コストでスマートにLLMをチューニング!-Hugging Face PEFT入門(前編)

zenn.dev

  • LoRAの問題点として、モデルが特定のパターンを学習する必要があるタスクに対して、その他のFine Tuning手法より精度が劣る場合がある

Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~

tech-blog.abeja.asia

  • istral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習するコードを紹介した記事

cl-nagoya/auto-wiki-qa

huggingface.co

llama.cpp:iMatrix量子化は日本語性能にどう影響するか?

sc-bakushu.hatenablog.com

  • 4bitの量子化では"iMatrix"による効果がはっきりあらわれる
  • 3bit以下の低bit量子化では性能が大幅に劣化する
  • 同じトークンが連続して止まらなくなったり、文章が意味もなく冗長になるのは低bit量子化でよく見る現象

Azure OpenAI Serviceのプロンプトエンジニアリング入門

speakerdeck.com

  • 異なる情報ソースの区切りに「---」を使うことができる

On Your Data を超えていく!

speakerdeck.com

  • 初心者はLogic AppsなどのiPaaSを使うとよい
  • 精度が低くても戦えるようにUXを追求する
  • LLMや検索サービスにラベルを付けさせる

生成AIなんでも展示会:全36枠パンフレット(参加前情報)

note.com

Google Colab で Llama 3 のファインチューニングを試す

note.com

kagglehub を使った大規模言語モデル gemma のファインチューニングとモデル共有

hamaruki.com

ipynb2md.ipynb

github.com

いちばんやさしいローカル LLM

note.com

  • Ollamaを用いて、ローカル環境で LLM を実行するまでを紹介する記事
  • quantkit を使って量子化モデルを作成する方法も紹介されている

サーバーレスの次はなんなんだ

zenn.dev