2024年4月8日の週に気になった記事などまとめ - SEが最近起こったことを書くブログ

Building a RAG Pattern chat bot with Azure OpenAI and LangChain.js | Azure Developers JavaScript Day
Azure 技術資料インデックス
AWS 初学者向けの勉強方法 6 ステップ！2024 年版！
【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】
サイバーエージェントが生成AI活用で「6割の業務削減」を宣言　独自開発中の「AIナスカ」が一翼を担う
ナレッジグラフ（知識グラフ）とLLMを掛け合わせる方法のロードマップ
Google Colab で Octopus V2 を試す
Feature Engineering A-Z
【速報】Agents for Amazon BedrockがCloudFormationに対応しました（ほぼ一撃）
Azure-Samples/serverless-chat-langchainjs
RAGの性能を高める「Self-RAG」を3分で理解する
普段有償でサポート業務をしているCSAが技術知見を無料で公開する理由
Announcing App Service Multi-plan subnet join
マルチモーダルLLMの活用方法と技術解説
OpenAIのSoraに対抗しているOpen Sora Planを使ってみた
⼤規模⾔語モデルの拡張（RAG）が終わったかも知れない件について
【まとめ】ChatGPTのパフォーマンスを上げて、出力をスムーズにする
Gemini 1.5 Proの新機能 - Native Audio Understanding、System Instructions、JSON Mode、新Embeddingモデル
gpt-4-turbo-2024-04-09がリリースされた
In-context Learningの性能調査の論文紹介
Llama.cpp で Command R+ を試す
Weights & BiasesがLLM評価のベストプラクティスをまとめたホワイトペーパーを発表
LLM評価ツールpromptfooとアサーションの解説
AIで画像からショート動画を作ろう
Google Colab で CodeGemma を試す
AWS Cloud Practitioner（クラウドプラクティショナー）勉強方法【2024年最新版】
Google Colab で RecurrentGemma を試す
LLMを活用した大規模商品カテゴリ分類への取り組み
Gemini API でラジオ番組の音声からの文字起こしを試す
Gemini 1.5 Proで文字起こしを試してみた
日本語版：AutoCodeRover: 自律的なプログラム改善 (AutoCodeRover: Autonomous Program Improvement)
Introducing Rerank 3: A New Foundation Model for Efficient Enterprise Search & Retrieval
書評「実践生成AIの教科書」は企業と組織における生成AIの指針でした
LLMによる視覚読解技術を確立～グラフィカルな文書を理解する「tsuzumi」実現に向けて～
[04/06~04/12] 生成AI Weekly News
Gemini API で動画の質問応答を試す
Tool Calling with LangChain
GradioのChatInterfaceこと始め　その６:Llama-cpp-python編
進化する生成AIを使いこなせ！エンジニアの生産性を爆上げするChatGPT活用術
YC W24に採択された生成AI/AIスタートアップ90社

Building a RAG Pattern chat bot with Azure OpenAI and LangChain.js | Azure Developers JavaScript Day

techcommunity.microsoft.com

Azure OpenAIとLangChain.jsを利用したRAGアーキテクチャを使用したチャットボットの作成について説明した記事

AIナスカはスケジュール調整する活用アイデア
- 重要なアポに割く時間を増やすことを目指す

ナレッジグラフ（知識グラフ）とLLMを掛け合わせる方法のロードマップ

ai-data-base.com

Google Colab で Octopus V2 を試す

note.com

「Octopus-V2-2B」は、Gemma-2Bを追加学習した2BのオープンLLM
「Function Calling」において「GPT-4」に匹敵する性能を達成したとのこと

Feature Engineering A-Z

feaz-book.com

特徴エンジニアリングに特化した本

【速報】Agents for Amazon BedrockがCloudFormationに対応しました（ほぼ一撃）

qiita.com

Azure-Samples/serverless-chat-langchainjs

github.com

LangChain.jsとAzureを利用してサーバーレスのRAGアプリを作成するリポジトリ
WebアプリをAzure Static WebAppsにデプロイし、APIをAzure Fucntionにデプロイし、チャンク済みデータをAzure CosmosDBのMogoDB vCoreに保存する

RAGの性能を高める「Self-RAG」を3分で理解する

zenn.dev

Self-RAGには文書検索が必要かや取得してきた文書からの生成品質をチェックする
生成モデルはファインチューニングしたモデルを使う
- reflection tokenを混ぜ込めるようにする

普段有償でサポート業務をしているCSAが技術知見を無料で公開する理由

speakerdeck.com

後半に掲載されている表現力を使うための書籍が参考になる

Announcing App Service Multi-plan subnet join

techcommunity.microsoft.com

複数のAppServive プランのVNET統合を1つのサブネットでできるようになった
GA時にはサブネットサイズの最小要件が/26になる

マルチモーダルLLMの活用方法と技術解説

zenn.dev

OpenAIのSoraに対抗しているOpen Sora Planを使ってみた

note.com

A100で3秒ほどの動画が1分で作られる

⼤規模⾔語モデルの拡張（RAG）が終わったかも知れない件について

speakerdeck.com

【まとめ】ChatGPTのパフォーマンスを上げて、出力をスムーズにする

qiita.com

ChatGPTのパフォーマンスを上げたり、少しでもユーザーの待機感を減らす方法をまとめた記事

Gemini 1.5 Proの新機能 - Native Audio Understanding、System Instructions、JSON Mode、新Embeddingモデル

note.com

音声を入力できるようになった
新EmbeddingモデルはMTEBベンチマークでより強力な検索パフォーマンスを実現した

gpt-4-turbo-2024-04-09がリリースされた

https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4

In-context Learningの性能調査の論文紹介

note.com

長いIn-context Learningの性能についてベンチマークを作成して調査した論文の紹介

Llama.cpp で Command R+ を試す

note.com

「Command R+」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化された104BのLLM
CohereのEmbeddingおよびRerankと連携して動作するように設計されている

Weights & BiasesがLLM評価のベストプラクティスをまとめたホワイトペーパーを発表

prtimes.jp

LLM評価ツールpromptfooとアサーションの解説

tech.algomatic.jp

文字列一致やしきい値との比較、LLMを利用した判断など様々な方法でプロンプトを評価できる
複数のモデルでプロンプトを実行した結果は一度に評価できる

AIで画像からショート動画を作ろう

note.com

SadTalkerという画像1枚から用意した音声をベースに動く動画を作成してくれるGitHubのプロジェクトを紹介した記事

Google Colab で CodeGemma を試す

note.com

タスクによって3種類のモデルがある
プロンプトにコードの補完の生成場所などのスペシャルトークンを利用する

AWS Cloud Practitioner（クラウドプラクティショナー）勉強方法【2024年最新版】

zenn.dev

Google Colab で RecurrentGemma を試す

note.com - 新しいアーキテクチャにより、「Gemma」よりも必要なメモリが少なく、長いシーケンスを生成する際に高速な推論を実現

LLMを活用した大規模商品カテゴリ分類への取り組み

engineering.mercari.com

ChatGPT 3.5 Turboで一部の過去商品のカテゴリ付けして、機械学習モデルを作成し、大量商品のカテゴリ分類した紹介の記事

Gemini API でラジオ番組の音声からの文字起こしを試す

note.com

Gemini APIで音声データの要約や音声文字おこしした記事
文字お越しでは話者分類される

Gemini 1.5 Proで文字起こしを試してみた

note.com

Whisperと比較すると処理時間がかかる
プロンプトで操作できるため出力結果も不安定

日本語版：AutoCodeRover: 自律的なプログラム改善 (AutoCodeRover: Autonomous Program Improvement)

hamaruki.com

LLMとコード検索機能を組み合わせ、プログラムの修正やパッチを生成する

Introducing Rerank 3: A New Foundation Model for Efficient Enterprise Search & Retrieval

txt.cohere.com

メタデータフィールドに基づいてランク付けできる
多言語データソースにも対応している
4Kサイズのコンテキストもリランクできる

書評「実践生成AIの教科書」は企業と組織における生成AIの指針でした

note.com

ユースケースごとに難易度と削減効果でマッピングされている

LLMによる視覚読解技術を確立～グラフィカルな文書を理解する「tsuzumi」実現に向けて～

group.ntt

文書を視覚情報も含めて理解する視覚読解技術を実現したリリース

[04/06~04/12] 生成AI Weekly News

note.com

Gemini API で動画の質問応答を試す

note.com

動画を静止画フレームと音声ファイルに分割して使用
1秒あたりのフレーム数でデータ量と詳細レベルを調整
静止画フレームと音声は個別プロンプトとみなされる

Tool Calling with LangChain

blog.langchain.dev

日本語訳の記事
- note.com
LLMプロバイダーにより、「Tool Calling」のインターフェースが微妙に異なるが、LangChainでは簡単に切り替えできるように標準インタフェースを実装した

Gradioの`ChatInterface`こと始め　その６:Llama-cpp-python編

note.com

llama_cpp_pythonでc4ai-command-r-plus-104bを動かす方法を紹介した記事

進化する生成AIを使いこなせ！エンジニアの生産性を爆上げするChatGPT活用術

codezine.jp

仕事でChatGPTを使う際にポイントとなるのは以下の3つ
- 変換
- 抽出
- 追加データ（RAG）

YC W24に採択された生成AI/AIスタートアップ90社

media.deskrex.ai

Building a RAG Pattern chat bot with Azure OpenAI and LangChain.js | Azure Developers JavaScript Day

Azure 技術資料インデックス

AWS 初学者向けの勉強方法 6 ステップ！2024 年版！

【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】

サイバーエージェントが生成AI活用で「6割の業務削減」を宣言 独自開発中の「AIナスカ」が一翼を担う

ナレッジグラフ（知識グラフ）とLLMを掛け合わせる方法のロードマップ

Google Colab で Octopus V2 を試す

Feature Engineering A-Z

【速報】Agents for Amazon BedrockがCloudFormationに対応しました（ほぼ一撃）

Azure-Samples/serverless-chat-langchainjs

RAGの性能を高める「Self-RAG」を3分で理解する

普段有償でサポート業務をしているCSAが技術知見を無料で公開する理由

Announcing App Service Multi-plan subnet join

マルチモーダルLLMの活用方法と技術解説

OpenAIのSoraに対抗しているOpen Sora Planを使ってみた

⼤規模⾔語モデルの拡張（RAG）が 終わったかも知れない件について

【まとめ】ChatGPTのパフォーマンスを上げて、出力をスムーズにする

Gemini 1.5 Proの新機能 - Native Audio Understanding、System Instructions、JSON Mode、新Embeddingモデル

gpt-4-turbo-2024-04-09がリリースされた

In-context Learningの性能調査の論文紹介

Llama.cpp で Command R+ を試す

Weights & BiasesがLLM評価のベストプラクティスをまとめたホワイトペーパーを発表

LLM評価ツールpromptfooとアサーションの解説

AIで画像からショート動画を作ろう

Google Colab で CodeGemma を試す

AWS Cloud Practitioner（クラウドプラクティショナー） 勉強方法【2024年最新版】

Google Colab で RecurrentGemma を試す

LLMを活用した大規模商品カテゴリ分類への取り組み

Gemini API でラジオ番組の音声からの文字起こしを試す

Gemini 1.5 Proで文字起こしを試してみた

日本語版：AutoCodeRover: 自律的なプログラム改善 (AutoCodeRover: Autonomous Program Improvement)

Introducing Rerank 3: A New Foundation Model for Efficient Enterprise Search & Retrieval

書評「実践 生成AIの教科書」は企業と組織における生成AIの指針でした

LLMによる視覚読解技術を確立～グラフィカルな文書を理解する「tsuzumi」実現に向けて～

[04/06~04/12] 生成AI Weekly News

Gemini API で 動画の質問応答 を試す

Tool Calling with LangChain

GradioのChatInterfaceこと始め その６:Llama-cpp-python編

進化する生成AIを使いこなせ！ エンジニアの生産性を爆上げするChatGPT活用術

YC W24に採択された生成AI/AIスタートアップ90社

サイバーエージェントが生成AI活用で「6割の業務削減」を宣言　独自開発中の「AIナスカ」が一翼を担う

⼤規模⾔語モデルの拡張（RAG）が終わったかも知れない件について

AWS Cloud Practitioner（クラウドプラクティショナー）勉強方法【2024年最新版】

書評「実践生成AIの教科書」は企業と組織における生成AIの指針でした

Gemini API で動画の質問応答を試す

Gradioの`ChatInterface`こと始め　その６:Llama-cpp-python編

進化する生成AIを使いこなせ！エンジニアの生産性を爆上げするChatGPT活用術