SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年4月15日の週に気になった記事などまとめ

ゼロから始める自作LLM

note.com

小さなLLMを多数組み合わせることで、単一の巨大モデルに匹敵する可能性

ai-data-base.com

コンテナ使うならAzureで決まり!個人的推しサービスのAzure Container Appsを語る_

www.docswell.com

  • Azure Container AppsはVNETのみに公開もできる
  • 0個にスケールインして課金を止めることもできる
  • ジョブ型のアプリケーションも実行可能

ML system design: 300 case studies to learn from

www.evidentlyai.com

GUIと日本語環境が使えるお手軽Docker環境の使い方

zenn.dev

  • Webtopを使うとDockerコンテナ内でGUIを扱うことができる

blog.google

Heron-Bench: 日本語Vision&Languageモデルの性能評価ベンチマークの公開

zenn.dev

  • Vision Language Model (VLM) のベンチマーク「Heron-Bench」を解説した記事
  • GPT-4を審判としてスコアを算出する

Introducing OpenAI Japan

openai.com

  • OpenAIが日本にオフィスを作る
  • 日本語に最適化したGPT-4のカスタムモデルを提供する予定

OpenAIからBatch APIがリリースされた

https://platform.openai.com/docs/api-reference/batch/create

  • リクエストを24時間以内に実行する
  • APIの価格が50% off

LangChain で Cohere Reranker を試す

note.com

Cohere Compass - 新マルチアスペクト埋め込みモデル

note.com

  • マルチアスペクトデータとは、複数の概念と関係を持つデータ
  • Cohere Compassでは、データをJSONに変換してから埋込出力に変換する

kotoba-tech/kotoba-whisper-v1.0

huggingface.co

  • Whisperlarge-v3と同じぐらい高精度でかつ、6.3倍の高速なモデルがリリースされた

Idefics2 の概要

note.com

  • 「Idefics2」は、テキストと画像を入力し、テキストを出力するマルチモーダルモデル
  • 「Idefics1」からOCR機能が大幅に強化された

API Gatewayを使ってgpt-4からの回答をストリームレスポンスさせる

speakerdeck.com

  • WebSocketを使ってストリーム的にデータの返却をする

饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

note.com

  • 「Japanese-Starling-ChatV-7B」は他の7Bモデルに比べて高い推論能力や文章理解を示すが、その最もシンプルな特徴は「出力テキストの長さ」

Anthropic’s Claude 3 Opus model is now available on Amazon Bedrock

aws.amazon.com

  • Claude3 OpusがBedrockで利用できるようになった

Google Colab で idefics2 を試す

note.com

Announcing the Public Preview of Azure Change Analysis New Portal Experience

techcommunity.microsoft.com

  • Azureですべてのリソースから変更があったリソースをリスト化できるようになった

aiindex.stanford.edu

生成AIによるプロダクトと生産性向上の舞台裏@2024.04.16

speakerdeck.com

  • LLMは応答速度は使い方やモデルによっては時間がかかる場合があるため、早く応答を返すことが求められる C向けサービスでは工夫が必要
  • モデルサイズが大きなモデルはまだ高い
  • 出力内容のコントロールが難しい
  • プロダクト施策では学びながら少しずつ許容範囲を広げる

Evolutionary Optimization of Model Merging Recipes

speakerdeck.com

  • モデルマージのアプローチ2つと進化的モデルマージの結果について説明したスライド

Google Colab で Idefics2 のファインチューニングを試す

note.com

【次世代動画生成】Open-Sora徹底解説【OSS版Sora?】

zenn.dev

  • Open-Soraは Latte と PixArt-αがベース
    • LatteはDiTを使った動画生成モデルのOSS
    • PixArt-αは、DiTを使った画像生成モデルのOSS
  • 動画データを洗剤空間に落とし込むために、StabilityAIの「sd-vae-ft-mse-original」を使用
  • Open-SoraはテキストエンコーダーにCLIPではなくT5を使って居rう

Microsoft の AI 技術 をベースに構成される Craft Functions Copilot

tech.plaid.co.jp

  • GPT3.5 turbo でフォーマットを整えたうえで、AI Searchから検索する
  • System MessageとFew-shot Learningを利用して、プロンプトを改善している
  • JSONモードを利用することでプログラム内で活用しやすいアウトプットさせている

子を持つエンジニアとして。父娘で過ごす、かけがえのない時間を大切にするためにつくった約束事とは

levtech.jp

Mergoo: LLMの効率的なマージと微調整のためのライブラリ (MoE, Mixture of Adapters)

sc-bakushu.hatenablog.com

  • Mergooを利用すると複数のオープンソースLLMを簡単に統合できる
  • 様々なマージ方法を適用できる

1BitLLMの実力を見る

note.com

  • 1bitLLM/bitnet_b1_58-3Bの動かしたかたを紹介した記事

生成AIによる自動評価(LLM-as-a-Judge)のメリットと最新手法をご紹介

www.brainpad.co.jp

  • 確率ベース評価はLLMの回答の生成尤度を評価指標として利用するアプローチ
    • 評価用LLMを用いて、プロンプトの入力(命令文やサンプルを含む評価基の入力)を条件付きとしたときの出力の条件付き生成確率(または生成尤度)をトークンごとに計算し、その加重平均を評価スコアとする手法
  • リッカートスタイルの評価は、オープンエンドの物語生成と敵対的攻撃の2タスクにおいて、人間の専門家とLLMの両方が生成文を5段階評価し比較する
    • 評価は、文法、文章のまとまり、話自体の楽しさ、プロンプトとの関連性の4観点からそれぞれ実施され品質が数値化される

Assistants APIのV2がリリースされた

https://platform.openai.com/docs/assistants/whats-new

  • Retrieval対象のファイルを10,000個まで登録できるようになった
  • トークン数の最大をコントロールできるようになった

ざっくり理解するベクトル検索

speakerdeck.com

  • 最近傍探索
    • 厳密な最近傍を求められるが遅い
  • 近似最近傍探索
    • 厳密ではなく近似的な解を高速に探索
    • アルゴリズム
      • ツリーを使う手法
      • グラフを使う手法
      • ハッシュを使う手法

        SFTTrainer と TrainingArguments を使ってバッチ数を小さくしてステップを少なくした学習コードの解説

hamaruki.com

Supervised Fine-tuning Trainer (SFT) 入門

hamaruki.com

  • SFTTrainer と TrainingArguments を使って、限られたリソースでも効率的に言語モデルをファインチューニングする方法を解説した記事

LLM差分マージしてみた

zenn.dev

  • nekomata-14b + qarasu-14b-chat - Qwen-14Bのモデルマージを実施した記事

CRYPTREC 暗号技術ガイドライン(軽量暗号)2023 年度版

https://www.cryptrec.go.jp/report/cryptrec-gl-2006-2023.pdf

Google Colab で Llama 3 を試す

note.com

llama-cpp-python と gradio で command-r-plus を動かす

gist.github.com

Meta Llama 3の紹介

note.com

  • Llama 3の開発において、新しい高品質の人間による評価データセットが開発された
    • この評価データセットには、アドバイスを求める、ブレインストーミング、分類、クローズドクエスチョンの回答、コーディング、クリエイティブライティング、抽出、キャラクターやペルソナの役割を演じる、オープンクエスチョンの回答、推論、書き換え、要約の12の主要なユースケースをカバーする1,800のプロンプトが含まれる
  • Llama 3ではコンテキストの長さは8,192トーク
  • Llama 3では128Kトークンの語彙を持つトークナイザーを使用
  • Llama 3は、すべて公開されているソースから収集された15T以上のトークンで事前学習されている

言語処理技術セミナー2023「ChatGPTにできること・できないこと」(坂口慶祐先生)

www.youtube.com

Meta Llama 3 models are now available in Amazon SageMaker JumpStart

aws.amazon.com

進化的アルゴリズムをもちいたChatVector加算の最適化

note.com

  • 進化的アルゴリズムをもちいて各layerの加算比率の最適化を測る際に、指標となる評価軸が必要
    • この記事では、ELYZA-tasks-100の最初の10件をGPT-4-turboで評価したものを指標としている

A Survey on Retrieval-Augmented Text Generation for Large Language Models

arxiv.org

BitNetLLMの罠(学習に失敗した話)

note.com

[04/13~04/19] 生成AI Weekly News

note.com

ChatGPT for IT Service Management (IT Pro)

speakerdeck.com

今さら聞けない!? AWSの生成AIサービス Amazon Bedrock入門!

speakerdeck.com

  • langchain-awsパッケージが登場した

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

note.com

  • 自動挿入系のタグや日付、webでやたらと多発するキーワード類を削除
    • ノイズ除去をしないデータを学習したモデルは、句点(。)のあとに、日付や[送料無料]のような、無意味な出力をする悪いクセがある

「AI事業者ガイドライン(第1.0版)」を取りまとめました

www.meti.go.jp

  • AI の安全安心な活用が促進されるよう、我が国における AI ガバナンスの統一的な指針を示すガイドライン
  • 添付資料にhowが記載されている

LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告 一部、直感に反する複雑な結果も

ai-data-base.com

雑に思考を整理する技術と効能

speakerdeck.com

  • 溜めると書けなくなるから小出しにする
  • 雑な思考の吐き出しは心の安定につながる
  • フィードバッグをもらえる場所に書く
  • 自分がうまくできていないことを書く
  • スマホで書くと思考のスピードを落とし、ちょうどよい
    • 思いついたワードや文章をスマホで雑に書くだけ
  • タイトルは最後に決める
  • なるべくポジティブに変換する
  • 背伸びをしすぎずに、考えを淡々と吐き出すのが大事

小さい計算コストでスマートにLLMをチューニング!-Hugging Face PEFT入門(前編)

zenn.dev

  • LoRAの問題点として、モデルが特定のパターンを学習する必要があるタスクに対して、その他のFine Tuning手法より精度が劣る場合がある

Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~

tech-blog.abeja.asia

  • istral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習するコードを紹介した記事

cl-nagoya/auto-wiki-qa

huggingface.co

llama.cpp:iMatrix量子化は日本語性能にどう影響するか?

sc-bakushu.hatenablog.com

  • 4bitの量子化では"iMatrix"による効果がはっきりあらわれる
  • 3bit以下の低bit量子化では性能が大幅に劣化する
  • 同じトークンが連続して止まらなくなったり、文章が意味もなく冗長になるのは低bit量子化でよく見る現象

Azure OpenAI Serviceのプロンプトエンジニアリング入門

speakerdeck.com

  • 異なる情報ソースの区切りに「---」を使うことができる

On Your Data を超えていく!

speakerdeck.com

  • 初心者はLogic AppsなどのiPaaSを使うとよい
  • 精度が低くても戦えるようにUXを追求する
  • LLMや検索サービスにラベルを付けさせる

生成AIなんでも展示会:全36枠パンフレット(参加前情報)

note.com

Google Colab で Llama 3 のファインチューニングを試す

note.com

kagglehub を使った大規模言語モデル gemma のファインチューニングとモデル共有

hamaruki.com

ipynb2md.ipynb

github.com

いちばんやさしいローカル LLM

note.com

  • Ollamaを用いて、ローカル環境で LLM を実行するまでを紹介する記事
  • quantkit を使って量子化モデルを作成する方法も紹介されている

サーバーレスの次はなんなんだ

zenn.dev

2024年4月8日の週に気になった記事などまとめ

Building a RAG Pattern chat bot with Azure OpenAI and LangChain.js | Azure Developers JavaScript Day

techcommunity.microsoft.com

  • Azure OpenAIとLangChain.jsを利用したRAGアーキテクチャを使用したチャットボットの作成について説明した記事

Azure 技術資料インデックス

github.com

AWS 初学者向けの勉強方法 6 ステップ!2024 年版!

aws.amazon.com

【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】

note.com

サイバーエージェントが生成AI活用で「6割の業務削減」を宣言 独自開発中の「AIナスカ」が一翼を担う

enterprisezine.jp

  • AIナスカはスケジュール調整する活用アイデア
    • 重要なアポに割く時間を増やすことを目指す

ナレッジグラフ(知識グラフ)とLLMを掛け合わせる方法のロードマップ

ai-data-base.com

Google Colab で Octopus V2 を試す

note.com

  • 「Octopus-V2-2B」は、Gemma-2Bを追加学習した2BのオープンLLM
  • 「Function Calling」において「GPT-4」に匹敵する性能を達成したとのこと

Feature Engineering A-Z

feaz-book.com

  • 特徴エンジニアリングに特化した本

【速報】Agents for Amazon BedrockがCloudFormationに対応しました(ほぼ一撃)

qiita.com

Azure-Samples/serverless-chat-langchainjs

github.com

  • LangChain.jsとAzureを利用してサーバーレスのRAGアプリを作成するリポジトリ
  • WebアプリをAzure Static WebAppsにデプロイし、APIをAzure Fucntionにデプロイし、チャンク済みデータをAzure CosmosDBのMogoDB vCoreに保存する

RAGの性能を高める「Self-RAG」を3分で理解する

zenn.dev

  • Self-RAGには文書検索が必要かや取得してきた文書からの生成品質をチェックする
  • 生成モデルはファインチューニングしたモデルを使う
    • reflection tokenを混ぜ込めるようにする

普段有償でサポート業務をしているCSAが技術知見を無料で公開する理由

speakerdeck.com

  • 後半に掲載されている表現力を使うための書籍が参考になる

Announcing App Service Multi-plan subnet join

techcommunity.microsoft.com

  • 複数のAppServive プランのVNET統合を1つのサブネットでできるようになった
  • GA時にはサブネットサイズの最小要件が/26になる

マルチモーダルLLMの活用方法と技術解説

zenn.dev

OpenAIのSoraに対抗しているOpen Sora Planを使ってみた

note.com

  • A100で3秒ほどの動画が1分で作られる

⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について

speakerdeck.com

【まとめ】ChatGPTのパフォーマンスを上げて、出力をスムーズにする

qiita.com

  • ChatGPTのパフォーマンスを上げたり、少しでもユーザーの待機感を減らす方法をまとめた記事

Gemini 1.5 Proの新機能 - Native Audio Understanding、System Instructions、JSON Mode、新Embeddingモデル

note.com

  • 音声を入力できるようになった
  • 新EmbeddingモデルはMTEBベンチマークでより強力な検索パフォーマンスを実現した

gpt-4-turbo-2024-04-09がリリースされた

https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4

In-context Learningの性能調査の論文紹介

note.com

  • 長いIn-context Learningの性能についてベンチマークを作成して調査した論文の紹介

Llama.cpp で Command R+ を試す

note.com

  • 「Command R+」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化された104BのLLM
  • CohereのEmbeddingおよびRerankと連携して動作するように設計されている

Weights & BiasesがLLM評価のベストプラクティスをまとめたホワイトペーパーを発表

prtimes.jp

LLM評価ツールpromptfooとアサーションの解説

tech.algomatic.jp

  • 文字列一致やしきい値との比較、LLMを利用した判断など様々な方法でプロンプトを評価できる
  • 複数のモデルでプロンプトを実行した結果は一度に評価できる

AIで画像からショート動画を作ろう

note.com

  • SadTalkerという画像1枚から用意した音声をベースに動く動画を作成してくれるGitHubのプロジェクトを紹介した記事

Google Colab で CodeGemma を試す

note.com

  • タスクによって3種類のモデルがある
  • プロンプトにコードの補完の生成場所などのスペシャトークンを利用する

AWS Cloud Practitioner(クラウドラクティショナー) 勉強方法【2024年最新版】

zenn.dev

Google Colab で RecurrentGemma を試す

note.com - 新しいアーキテクチャにより、「Gemma」よりも必要なメモリが少なく、長いシーケンスを生成する際に高速な推論を実現

LLMを活用した大規模商品カテゴリ分類への取り組み

engineering.mercari.com

  • ChatGPT 3.5 Turboで一部の過去商品のカテゴリ付けして、機械学習モデルを作成し、大量商品のカテゴリ分類した紹介の記事

Gemini API でラジオ番組の音声からの文字起こしを試す

note.com

  • Gemini APIで音声データの要約や音声文字おこしした記事
  • 文字お越しでは話者分類される

Gemini 1.5 Proで文字起こしを試してみた

note.com

  • Whisperと比較すると処理時間がかかる
  • プロンプトで操作できるため出力結果も不安定

日本語版:AutoCodeRover: 自律的なプログラム改善 (AutoCodeRover: Autonomous Program Improvement)

hamaruki.com

  • LLMとコード検索機能を組み合わせ、プログラムの修正やパッチを生成する

Introducing Rerank 3: A New Foundation Model for Efficient Enterprise Search & Retrieval

txt.cohere.com

  • メタデータフィールドに基づいてランク付けできる
  • 多言語データソースにも対応している
  • 4Kサイズのコンテキストもリランクできる

書評「実践 生成AIの教科書」は企業と組織における生成AIの指針でした

note.com

LLMによる視覚読解技術を確立~グラフィカルな文書を理解する「tsuzumi」実現に向けて~

group.ntt

  • 文書を視覚情報も含めて理解する視覚読解技術を実現したリリース

[04/06~04/12] 生成AI Weekly News

note.com

Gemini API で 動画の質問応答 を試す

note.com

  • 動画を静止画フレームと音声ファイルに分割して使用
  • 1秒あたりのフレーム数でデータ量と詳細レベルを調整
  • 静止画フレームと音声は個別プロンプトとみなされる

Tool Calling with LangChain

blog.langchain.dev

  • 日本語訳の記事
  • LLMプロバイダーにより、「Tool Calling」のインターフェースが微妙に異なるが、LangChainでは簡単に切り替えできるように標準インタフェースを実装した

GradioのChatInterfaceこと始め その6:Llama-cpp-python

note.com

  • llama_cpp_pythonでc4ai-command-r-plus-104bを動かす方法を紹介した記事

進化する生成AIを使いこなせ! エンジニアの生産性を爆上げするChatGPT活用術

codezine.jp

  • 仕事でChatGPTを使う際にポイントとなるのは以下の3つ
    • 変換
    • 抽出
    • 追加データ(RAG)

YC W24に採択された生成AI/AIスタートアップ90社

media.deskrex.ai

2024年4月1日の週に気になった記事などまとめ

10bクラスの大規模言語モデルが、ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ

note.com

XZ Utilsの脆弱性 CVE-2024-3094 についてまとめてみた

piyolog.hatenadiary.jp

Google Colab で BAAI/bge-reranker-v2-m3 を試す

note.com

ローカルLLM : 最近作成したデータセットについての記録

note.com

日本語最高性能のRerankerをリリース / そもそも Reranker とは?

secon.dev

Megatron-LMとGKEで作るMixtral 8x7Bの継続事前学習

drive.google.com

Advanced RAG Techniques

www.pinecone.io

【LLMの研究者向け】400本を超えるLLMに関する論文のリストを公開・更新しています

qiita.com

(10b程度の)大規模言語モデルが「種々のスキル」を身につけるために必要な要素や学習量を考えるメモ

note.com

言語処理学会第30回年次大会(NLP2024) チュートリアル3「作って学ぶ日本語大規模言語モデル」松田寛先生(株式会社リクルート Megagon Labs)

www.youtube.com

Many-shot jailbreaking

www.anthropic.com

  • 多ショット有害なアシスタントの回答を入力することでジェイルブレイクを実現する方法を解説するブログ

Release of Pre-Trained Models for the Japanese Language

arxiv.org

  • rinnaが公開した日本語事前学習モデルをまとめた論文

Semantic Routerを試す

zenn.dev

ChatGPT - LLMシステム開発大全

speakerdeck.com

React フレームワークの 動向と選定基準

speakerdeck.com

LLMアプリケーションの実験管理の運用まとめてみた〜PromptLayerを使った本番運用〜

zenn.dev

インターンでRAGシステムの検索エンジンの改善をおこないました

tech.uzabase.com

エンジニア生存戦略2024

qiita.com

画像生成AIの誕生と変遷(4) 画像生成AIの2014-2024におきたパラダイムシフト

note.com

GitHub Copilotを使いこなすためのコツを解説してみた

www.youtube.com

社内のクリエイターに向けて発表した「画像生成AIガイドライン」策定の裏側

www.cyberagent.co.jp

Chat Vectorを使って日本語LLMをチャットモデルに改造する

qiita.com

Hugging FaceのAI系Cookbook

note.com

Google Colab で japanese-reranker-cross-encoder-large-v1 を試す

note.com

生成AIによる「ブログの原稿作り」手順やプロンプトを公開

blog.soracom.com

LangChain Evaluations【生成物の評価方法】

zenn.dev

Devin を含むAIソフトウェアエンジニアと周辺技術のざっくり紹介

tech.algomatic.jp

Comparison of Models: Quality, Performance & Price Analysis

artificialanalysis.ai

  • 商用LLMが比較されているサイト

Command R の 概要

note.com

techcommunity.microsoft.com

  • Azure AI Searchが安くなった

今、知っておきたい! 生成AIエージェントの世界

speakerdeck.com

[04/01~04/05] 生成AI Weekly News

note.com

llama.cpp: CPU+GPUのプロンプト処理が高速化される(#6083)

sc-bakushu.hatenablog.com

LLMアプリケーションの評価の運用についてまとめてみた

zenn.dev

LLMの検索結果をさらに正確にする手法『CRAG』(Corrective Retrieval Augmented Generation:修正型の検索拡張生成)

ai-data-base.com

Chat VectorにならぬCode Vectorは作れるのか

note.com

マルチモーダルなAIの活用@Next_in_LLM

www.docswell.com

Djangoとハギングフェイスライブラリを用いてローカルLLMで動くLINE_botを作る。

qiita.com

ChatGPTのログをexportしてjsonlにするメモ (指示データセットに使いたい)

note.com

【エンジニアの日常】エンジニア達の自慢の作業環境を大公開 Part1

tech.findy.co.jp

Command-R 35B × memGPT インテグレーションレポート

ykrv.net

Chat VectorとMath Vectorは併用できるのか

note.com

LLM同士をストリートファイター3で戦わせる方法

note.com

LLMに敢えて間違わせてルールを覚えさせるプロンプト手法 Google DeepMindなどが考案

ai-data-base.com

LLMアプリ開発の必須ツール?!Langfuseがすごい!

qiita.com

Claude3にプロジェクト全体をぶち込むためのプロジェクトの構造とファイル内容を自動でまとめるPythonスクリプト

zenn.dev

C4AI Command-R Google Colab L4で動かしてみた

hamaruki.com

Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能

note.com

大和セキュリティ勉強会: AWSインシデント対応入門

chocopurin.hatenablog.com

2024年3月25日の週に気になった記事などまとめ

退屈な論文調査はAIにやらせよう ― arXivとChemRxivからの論文自動抽出&要約LLM: PaperBot君の紹介

note.com

  • 著者・雑誌名・公開年・論文名・論文名(日本語)・キーワード・PDFへのリンク・SciRateを出力する

NLP2024に参加してきました!

moneyforward-dev.jp

  • GPT-4は数値情報・固有名詞が含まれていると内容の妥当性にかかわらず高評価を与える傾向がある

Google Colab で EvoLLM-JP を試す

note.com

Google Colab で RakutenAI-7B を試す

note.com

MetaGPTを動かしてみた

zenn.dev

Generative AI for Beginners (Version 2) - A Course

microsoft.github.io

  • Microsoftが公開している生成AIアプリ開発用教材

#24 JAWS-UG主催 週刊AWSキャッチアップ(2024/03/18週)

speakerdeck.com

LangChainを使って自然言語RDBからデータを取得する

note.com

動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)

www.techno-edge.net

HuggingFaceとDeepSpeedで実践継続事前学習

zenn.dev

Azureコストは水道代/The_47th_Tokyo_Jazug

speakerdeck.com

Evolutionary Optimization of Model Merging Recipes

speakerdeck.com

  • 進化的モデルマージの紹介スライド

事例から見るプロダクトでの生成 AI 活用のポイント

speakerdeck.com

  • 売上拡大のほうがコスト削減の3倍効率が良い
  • 使用頻度が高く効果が高いユースケースに注目する

RAGの新しい手法「CRAG」を3分で理解する

zenn.dev

  • CRAGw使うとハルシネーションを減らすことができる
  • RAGで取得したドキュメントをLLMに渡す前にドキュメントの内容が正しいものかを自動でチェックする機能を持つ
  • 検索評価モデルで検索品質の判定する

Rakuten/RakutenAI-7B-chat を試してみる ~ Gradioつかって

note.com

  • Hugging Facebに書いてあるサンプルコードを無視したChatTemplaeteでうまくいった

Gemini for Google Workspace の使い方

note.com

AIOS: LLM Agent Operating System

arxiv.org

コミュニティと共に生きる - キャリアの螺旋 / live with community

speakerdeck.com

  • 自ら接触機会を増やし、チャンスの機会を増やす

OpenAI Sora に使われる技術

zenn.dev

ローカルLLMでAlpacaデータのようなインストラクションデータを自動生成してみた

qiita.com

  • gemma-7b-itを用いてデータ生成した記事
  • 生成したデータで学習したモデルとStanford AlpacaとAlpaca-LoRAを比較したところ、プログラムを作成するタスクはうまく学習できなかった

10b程度のモデルをファインチューニングする日記 (逐次更新)

note.com

  • jasterデータセットでファインチューニングしたモデルがベンチマーク上の性能が良かった
  • データ量は1万件ぐらいあったほうがよい
  • 学習率は1e-5あたりに最適値がありそう

複数の LLM モデルを扱う上で直面した辛みまとめ

speakerdeck.com

Open Interpreter Dockerで手軽に Claude 3 Haiku を使おう

hamaruki.com

大規模言語モデルはエリート就活生を超えるか

zenn.dev

  • 学習データに含まれていないと思われる論理問題をClaude3とGPT-4に出して、回答を比較した問題

7-methods-to-secure-llm-apps-from-prompt-injections-and-jailbreaks

mlops.community

  • プロンプトインジェクションや脱獄からLLMを守る7つの方法

AWSのLambdaってなんやねん

zenn.dev

ろんJ 実況~論文をなんJ風に解説&実況~

hamaruki.com

  • アップロードした論文の内容を、あの有名な2ちゃんねるの「なんでも実況J」(通称:なんJ)のスレッド風に解説・実況してくれるサービスを紹介した記事
  • ツールのGitHubリポジトリ

クレディセゾンでDXを進めてきた5年間を振り返る

note.com

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis / Stable Diffusion 3

speakerdeck.com

Optimizing database performance: Changing partition keys of a container in Azure Cosmos DB for NoSQL API (preview)

devblogs.microsoft.com

データ品質をコード化! LINEヤフーのMLOpsを最適化する "ACP Data Quality" の紹介

speakerdeck.com

みなさん、データのメタデータ管理ってどうやってますか? #datatech-jp レポート

note.com

LoRAよりいいらしいLISA

note.com

LMFlowによる日本語LISAトレーニング#1

www.free-ai.ltd

  • LISAはメモリ消費がLoRAと同等に低く、なおかつパフォーマンスはフルパラメータのファインチューニングに匹敵もしくは上回る効果を持つ

[03/23~03/29] LLM Weekly News

note.com

技術ブログを書く理由と、書き方を考える

www.wantedly.com

  • ブログ執筆で業務の一石二鳥や三鳥を狙う

中学生でもわかる深層学習

speakerdeck.com

「AIが仕事を奪う」は人を過小評価している。芥川賞作家・九段理江と東大AI研究者が語る、人類の未来

www.cinra.net

大規模言語モデルの出力を技術的観点から考える

speakerdeck.com

LLMの現在

speakerdeck.com

  • 深層学習時代から学習に使う計算量が2年ごとに100倍になっている
  • AI関連資金調達の半分近くが生成AIに
  • 高品質なデータセットは100倍以上の価値
  • Chinchilla則
    • 計算資源が限られている場合は、パラメータ数の20倍のデータを用意するのが最適
  • 温度を下げると人間が書く文章と乖離する

大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

speakerdeck.com

放射線分野の問題をLLMに解かせてみた

speakerdeck.com

”わからない”との向き合い方

tech.nri-net.com

事業貢献のために情シスがやった業務改善の取り組み

note.com

HIKAKINやかまいたちも絶賛、おしゃべりAI「Cotomo」 自然な会話はどう実現? 創業者に聞く

www.itmedia.co.jp

LLMに医療知識をつけるには

speakerdeck.com

商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開 【代表的な日本語ベンチマークで世界6位: オープンモデルで1位相当、GPT3.5やClaude v2を一部凌駕, 23/3/30時点】

note.com

いま必要なのは「ゆるやかな組織変革」?「もったいない」から始める、前向きなカルチャー変革のアプローチ

note.com

AI × 図書館ハッカソン@長岡 ScanSnapを活用し蔵書データから「知能」を創る、“世界初”のAIハッカソン

www.pfu.ricoh.com

Voice Engine の概要

note.com

LangChainとは?各モジュールの機能と活用事例まとめ

book.st-hakky.com

Markdown ファイルをレベル別にチャンキングしてトークン数を確認するスクリプト

zenn.dev

BitNetにおけるSTE(Straight-Through Estimator)の実装

note.com

DBRXのご紹介: 新たなSOTAオープンLLM

qiita.com

マルチモーダルLLMがもたらすビジネス革新と技術解説

speakerdeck.com

  • トレンド
    • コネクタの簡素化

2024年3月18日の週に気になった記事などまとめ

Evaluating Large Language Model (LLM) systems: Metrics, challenges, and best practices

medium.com

  • LLMシステムの評価方法についてまとめた記事

Grok-1

github.com

Advanced RAG Series: Retrieval

div.beehiiv.com

  • Retrievalのテクニックについて紹介した記事

An End-to-End Framework for Production-Ready LLM Systems by Building Your LLM Twin

medium.com

  • データ収集からLLMOpsのグッドプラクティスを使用したLLMシステムのためのフレームワーク紹介の初回記事

RAFT: Adapting Language Model to Domain Specific RAG

arxiv.org

  • 質問に答えるのに役に立たない文書を無視するようにモデルをトレーニングする手法の紹介
  • これにCoTスタイルの応答を組み合わせることで、推論能力が高まる

Android端末でOpen Interpreterを使用する方法

hamaruki.com

ChatGPTを活用してサーキュレーターの異常検知をやってみた!

qiita.com

クラウドサーバーでのAI学習手順【AWS編2024年版】

zenn.dev

どのような場面で多重比較補正が必要なのか

tjo.hatenablog.com

RAGの実装戦略まとめ

qiita.com

  • ベクター計算は固有名詞を含む単語の影響が薄くなる

LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説

tech.algomatic.jp

  • LangChainに基づいたエージェント作成方法を紹介する記事

作って学ぶ日本語大規模言語モデル

docs.google.com

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

arxiv.org

  • タスクの精度を維持したまま、プロンプトを2~5倍圧縮する手法の提案

くふうカンパニーグループの "AX" は 1 年でどこまで進んだか

note.com

Swallow-MX 8x7b NVE v0.1 を ELYZA-tasks-100 で評価してみた

qiita.com

  • k-quant 量子化モデル (GGUFフォーマット、q4_K_M)をllama.cppで評価した

Evolving New Foundation Models: Unleashing the Power of Automating Model Development

sakana.ai

他人がGPT-4とやりとりしたテキストを盗む攻撃 成功率50%以上 イスラエルの研究者らが発表

www.itmedia.co.jp

RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

arxiv.org

  • LLM自身によって、回答を再ランクづけさせることで、推論タスク能力を向上させるプロンプト手法が提案された論文

aws.amazon.com

  • DynamoDBがPrivate Linkに対応した

Azure OpenAI Developers セミナー第 3 回

www.youtube.com

コスト最適化by オーナーシップ ~俺たちはQuick Winで満足しない~

speakerdeck.com

  • 予約割引を実施すると、リソース最適化しない場合があるので、注意
  • コスト最適化に貢献したことを評価する

ao-Karasu:最先端の72B日本語LLM開発

note.com

  • Qwen 1.5 72B ChatモデルをベースにLoRAで学習した
  • 独自に構築した大規模データセットをつかった

LLM開発のための環境構築

zenn.dev

SakanaAI EvoLLM-JP-v1-7Bを試した。これからのマルチモーダルAIに必要なデータについて

note.com

ChromeDBとBeluuuuuuga/Japanese-Instruction-Linux-Command-169を使って質問に対する適切なLinuxコマンドを探すRAGを構築する

ayousanz.hatenadiary.jp

2024年3月11日の週に気になった記事などまとめ

0.1-1B程度の日本語・大規模言語モデルを作る練習日記

note.com

Swallow on mistral

tokyotech-llm.github.io

Swallow-MX: Mixtral日本語継続事前学習MoEモデル

zenn.dev

  • Mixtralの継続事前学習に独自ライブラリを開発した

Azure AI Searchを使ったマルチモーダルRAGの実現

aitc.dentsusoken.com

LLMOpsを推進!Azure Log Analyticsを活用したLLMの継続的な監視と改善

aitc.dentsusoken.com

  • コンソールログにあらかじめ分析用の情報を出力しておくことでAzure Log Analyticsで分析できる

Retrieval-Augmented Generation for AI-Generated Content: A Survey

arxiv.org

NLP2024 チュートリアル3 作って学ぶ日本語大規模言語モデル - 環境構築手順と実験ソースコード

github.com

izumi-lab/llm-japanese-dataset

huggingface.co

  • LLM構築用の日本語インストラクション(チャット)データセット
  • 英語で構築されたLLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できる

Google Colab で Swallow MS 7B を試す

note.com

大規模言語モデルフルスクラッチ作成の予習〜データセット取得、クリーニングまで〜

note.com

ML 駆動の検索エンジンで企業の情報管理を革新 !Amazon Kendra をグラレコで解説

aws.amazon.com

  • Kendra は、30 種類以上のネイティブコネクタにより、データベースや各種クラウドストレージ、SaaS アプリケーションなど、様々な情報管理サービスとシームレスに接続できる

Microsoft Fabric 開発ガイド

speakerdeck.com

SharePoint の共有リンクの仕組み

shanqiai.lekumo.biz

  • 共有リンクを作成すると、サイトからの権限の継承を中止し、固有の権限を作成する
    • ファイルの上位コンテナである「ライブラリ」自体も固有の権限となる
  • 共有リンクを作成すると、自動的に特殊なSharePointグループが複数、自動作成される

Table TransformerとGPT-4Vを用いたPDF内の表の解析

note.com

  • 表の部分の画像だけを抽出してから解析する方法の紹介
  • Table Transformerを使うと、画像から表の部分だけを抜きだすことができる

Stealing Part of a Production Language Model

arxiv.org

Chain-of-table: Evolving tables in the reasoning chain for table understanding

blog.research.google

  • Chain-of-Tableでは、コンテキスト内学習で表を更新して、表形式データ上の推論チェーンを表すようにガイドする
    • 指示への回答促す中間ステップとなるように列を追加するなどを行う

JLR2024 プログラム 日本語言語資源の構築と利用性の向上

jedworkshop.github.io

LLM学習用QAデータセットの自動構築手法の提案

jedworkshop.github.io

RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

arxiv.org

  • CoTをしてからRAGをすることでスコアが改善したという論文

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました

note.com

  • 追加事前学習には、約100Bトークンの日本語コーパスを用いている
  • 「ELYZA-japanese-Llama-2-70b」は「Claude Instant」や「GPT-3.5 Turbo (1106)」を上回り、その他のグローバルモデルとも遜色ないスコアを獲得

Llama.cpp で Swallow MX 8x7B を試す

note.com

OWASP Top 10 for LLM を活用した生成 AI アプリケーションの多層防御セキュリティ設計

aws.amazon.com

今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集

tech.layerx.co.jp

  • ChatGPTを用いて、自分の興味に合致しているかのフィルターをかける
  • 興味がある記事の場合は、ChatGPTに日本語要約に変換させている

LangGraphのグラフ可視化機能で複雑なタスクの流れを一目で把握

note.com

  • ASCII形式でもPNG形式でも可視化できる

世界初?Claude3を使った動画解析 - claude3-video-analyzer

zenn.dev

  • Claude-3モデルのマルチモーダル機能を使って、動画を解析するプロジェクトを紹介した記事

RealPersonaChat

github.com

  • 話者本人のペルソナと性格特性を含む,約14,000件の日本語雑談対話からなるコーパス

Claude 3 Haiku の概要

note.com

  • 「Claude 3 Haiku」 は、32,000トークン未満のプロンプトに対して1秒あたり 21,000 トークン (約 30 ページ) を処理する

Artificial Intelligence Controller Interface (AICI)

github.com

  • 人工知能コントローラー インターフェイス (AICI) を使用すると、大規模言語モデル (LLM) の出力をリアルタイムで制約および指示するコントローラーを構築するライブラリが発表された
  • トークンの生成中にカスタムロジックを含めて、出力形式の制御などができる?

LLM

llm.datasette.io

  • CLIでLLMを呼べるツール

Access to the most powerful Anthropic AI models begins today on Amazon Bedrock

www.aboutamazon.com

  • Claude 3 HaikuAWSで既に利用できる

GPT4を使用したVision&Languageモデルの評価手法LLaVA-Benchを試す

qiita.com

  • LLaVA-BenchはVisual Instruction Tuningで提案された画像理解と会話能力をGPT4を利用して定量的に図るために提案されたベンチマーク
  • このベンチマークを使用することで会話、詳細な説明、複雑な推論の3つの能力をモデルが持っているか測定することができる
  • データセットには画像と質問とGPT4の回答が含まれる
  • GPT4の回答と性能を測定したいモデルの出力をGPT4に入力することでスコアを算出できる

Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs

arxiv.org

  • 表とテキストを両方含むドキュメントからLLMで情報抽出する方法が提案された

Prompt Tuning から Fine Tuning への移行時期推定

speakerdeck.com

  • APIは2件 Few-Shotまで、コスト効率や安定性に不満ならば30~200件用意して公開モデルのファインチューニングがおすすめされている

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

arxiv.org

  • AppleがマルチモーダルLLMの構築について論文を出した

「生成AI」(3) 松尾豊・東京大学大学院教授 2024.3.15

www.youtube.com

データ分析基盤まとめ(随時更新)

zenn.dev

2024年3月4日の週に気になった記事などまとめ

Awesome-Graph-LLM

github.com

先日リリースされたGitHub Copilot Enterprise の最速レビュー!〜進化したGitHub Copilotを使ってみた〜

developers.cyberagent.co.jp

あなたのRAGは、回答型?それとも検索型?

qiita.com

  • 回答型RAG
    • 情報を参照して要約した回答を求める
  • 検索型RAG
    • 検索結果そのものを求める
    • 情報の正確性が特に重要視される場面

webbigdata/C3TR-Adapter

huggingface.co

  • gemma-7bの日英・英日翻訳性能を向上させるQLoRA Adapter

Introducing the next generation of Claude

www.anthropic.com

[TU-B-1] LLMと音声理解・生成の最新動向

https://deim2024-tutorial-public.s3.ap-northeast-1.amazonaws.com/TU-B-1_LLM%E3%81%A8%E9%9F%B3%E5%A3%B0.pdf

  • 大規模言語モデル(Large Language Model; LLM)および、LLMのマルチモーダル拡張における音声の理解と生成の分野に着目した資料

[TU-C-2] 大規模言語モデルに基づく検索モデル

https://deim2024-tutorial-public.s3.ap-northeast-1.amazonaws.com/TU-C-2_%E6%A4%9C%E7%B4%A2%E3%83%A2%E3%83%86%E3%82%99%E3%83%AB.pdf

  • 大規模言語モデルを利用した検索モデルを、Linが提案する概念フレームワークに従って整理し、代表的な検索モデルについて紹介した資料

[TU-D-2] LLMの嘘:ハルシネーション解説

https://deim2024-tutorial-public.s3.ap-northeast-1.amazonaws.com/TU-D-2_LLM%E3%81%AE%E5%98%98.pdf[

  • LLMの構築方法からハルシネーション解消に向けたアプローチまでを解説した資料

hotchpotch/JQaRA

huggingface.co

  • 検索拡張(RAG)評価のための日本語 Q&A データセット

KaggleのNLPコンペで初手に使える可視化 〜BERTopicを用いた文書クラスタリングと可視化〜

zenn.dev

  • BERTopicを使って可視化する方法をまとめた記事

RAGでの回答精度向上のためのテクニック集(応用編-A)

zenn.dev

Collect User Feedback in Streamlit

docs.smith.langchain.com

大規模言語モデルを用いたゼロショットテキスト分類によるTCFD推奨開示項目の自動判定

https://www.jpx.co.jp/corporate/research-study/working-paper/JPXWP_Vol43.pdf

  • LLMsを用いたゼロショットテキスト分類でTFCD推奨開示項目の充足状況を機械的に分類する手法を提案した

Google Colab で Claude 3 の テキスト生成 を試す

note.com

alfredplpl/wikipedia-qa-ja-500k

huggingface.co

『技術書を書く技術』というテーマで、JAWS DAYS 2024に登壇しました

tech.nri-net.com

プライベートの時間は極力削らない。Kubernetesエキスパート青山真也氏のコスパ最高な情報収集術

levtech.jp

  • 毎日のルーティンの中で、QiitaやZennを含む技術記事を読むときも、Twitter上で注目を集めている記事から辿る
  • ルーティンでの情報収集の目的は業界のトレンドを掴むこと
  • 専門性を高めるための情報収集のために、国内外のカンファレンスやMeetup、勉強会に積極的に参加する
    • 専門領域の具体的なプラクティスを最小限の労力で一気にキャッチアップできる
  • 各プロダクトの概要だけ掴んでおけば、全ての最新情報を逐一キャッチし続ける必要はない

ゼロから作る Deep Learning

github.com

Azure OpenAI コンテンツフィルターのススメ

speakerdeck.com

マルチモーダルなAIの活用@LLMProducion

www.docswell.com

  • VLMを活用して各フレームに対するテキストの存在確率を出力
  • その出力を活用して時系列解析モデルが行動を検出

GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみた

qiita.com

日本語Vision Languageモデル heron-blip-v1の公開

zenn.dev

  • LLM部分をフルパラ学習
  • 指示チューニング用学習データをllava-1.5の学習に用いられているllava-620kの日本語翻訳モデルを利用
  • 最初からLLaVAのデータで学習

Design2Code: How Far Are We From Automating Front-End Engineering?

arxiv.org

大規模言語モデルフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)

note.com

データマネジメント入門 - DX推進を支えるデータ基盤の重要性 / 20240125

speakerdeck.com

rinna、日本語音声処理に適した事前学習モデルを公開

rinna.co.jp

  • 日本語の音声処理に適した事前学習モデルdata2vec 2.0・HuBERT・data2vecを開発し、商用利用可能なApache-2.0ライセンスで公開

Google Colab で heron-blip-v1 を試す

note.com

GPT開発の悩みの種「速度」「精度」「評価」の壁をどう超えるか

speakerdeck.com

  • GPTモデルが混んでいると、リクエストのキューイングにより、速度が遅い場合がある
  • RAGの精度を高める対策
    • ドキュメントをQA化するなどの加工をする
  • 対話履歴をGPTによるシミュレーションで増やすこともできる

Power CAT によるMicrosoft Copilot Studio の実装ガイドが公開されました

www.geekfujiwara.com

  • 個人的に気になった箇所
    • 生成型の回答 (Generative Answers) にはAzure OpenAI のモデル GPT-3.5 Turbo を利用
    • 会話履歴10ターンはコンテキスト化に利用されている
    • すべてのデータソースのTop 3 を検索し検証、要約した結果を返す
  • SharePoint をデータソースとして回答する場合の1ファイルの容量は最大3MB

ABEMAの効果検証事例〜効果の異質性を考える〜

speakerdeck.com

A Survey on LLM-based Autonomous Agents

github.com

Docker ハンズオン

speakerdeck.com

Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey

arxiv.org

  • 表形式のデータに対し、LLMを活用するための課題やアプローチをまとめたサーベイ論文

深層学習VS決定木:テーブルデータ分析の未来

voice.pkshatech.com

  • テーブルデータにおける従来手法と深層学習の比較論文を紹介した記事
  • 決定木ベースモデルの性能がハイパーバラメータチューニングの回数によらず全面的に深層学習モデルを上回っている
  • 深層学習ベースのモデルは決定木ベースよりも性能が劣っている3つの理由も説明されている

GPT-4とClaude3(Opus)で特許の請求項を比較

note.com

  • 特許比較タスクに特化したシステムプロンプトで、提案内容と既存特許の情報を与えると、類似性と侵害の可能性について考察するよう指示した

Claude 3 vs GPT 早見表[料金・トークン・性能]

note.com

Google Colab で Claude 3 の Vision を試す

note.com

【OpenAI本出版記念】npakaによるOpenAI最新技術情報と技術情報キャッチアップ術

speakerdeck.com

エンジニアの強力な付加価値スキルとしての発信力

blog.song.mu

  • あまり打算的にならずに楽しむことが逆に継続するコツ
  • 変に注目を集めようとしすぎると炎上リスクは高まる

「GPT-4超え」とうわさのAI「Claude 3」を試す 仕事は任せられる? 若手記者の所感

www.itmedia.co.jp

GPT4を使用したVision&Languageモデルの評価手法LLaVA-Benchを試す

qiita.com

  • LLaVA-BenchとはVisual Instruction Tuningで提案された画像理解と会話能力をGPT4を利用して定量的に図るために提案されたベンチマーク

プロンプトライブラリ

docs.anthropic.com

  • Claude用のプロンプトライブラリ

Enabling and Analyzing How to Efficiently Extract Information from Hybrid Long Documents with LLMs

arxiv.org

  • テキストと表形式のデータを含むテキストから情報を理解し、抽出する能力を強化するフレームワークを提案した論文