SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年11月13日の週に気になった記事などまとめ

気になったものまとめ

1行から始めるプロンプトインジェクション対策
OpenAI Python API ライブラリ 1.x への移行
GPTs のプロンプトリーキング対策
20231112_ChatGPTの活用によるデータサイエンス人材の育成
Assistants APIでretrievalをStreamlitで使ってみる
ALMA_7B_Ja_V2_gguf_Free_Colab_sample.ipynb
クロードを始めよう
商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました
ユーザープロンプトをLLMが言い換えて、LLM自身が理解しやすくする手法『RaR』
Assistant API Code InterpreterをStreamlitで実装してみた
Assistant APIの概要 - OpenAI Cookbook
これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
LINEとSlackとBedrock
Amazon Kendra を利用した Retrieval Augmented Generation (RAG) ハンズオン
Your guide to AWS Analytics at AWS re:Invent 2023
A Survey of Techniques for Maximizing LLM Performance
【HELP ME】Assistants APIで破産しそうになった話
OpenAI DevDay の各セッションの要約まとめ (by GPT4-Turbo)
Query Construction
最高性能の、日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました
「Code Llama」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-CodeLlama-7b」を公開しました
huggingface/TRLのSFTTrainerクラスを使えばLLMのInstruction Tuningのコードがスッキリ書けてとても便利です
Google Colab で Japanese Stable CLIP を試す
NTTの生成AI大規模言語モデル(LLM)「tsuzumi」驚きのデモ徹底公開！パワポの図表や写真、人物像まで理解するマルチモーダルLLMの実際
ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました
【専門家がみる生成AI最新動向#3】～諸外国・国際機関・日本における最新規制動向～①諸外国編
マイクロソフト・イグナイトBOOK OF NEWS
Learning to Filter Context for Retrieval-Augmented Generation
USearch
JGLUEの構築そして日本語LLM評価のこれから
オフラインで動作する様々なオープンソースLLMのインタフェース『GPT4All』が開発され公開
A Survey on Language Models for Code
The 2023 MAD (ML/AI/Data) Landscape
生成系 AI でプロダクトの価値を高めるには
LangChain の Research Assistant - チャット以外のUXの模索
Microsoftが「Bing」検索の生成AIによる要約機能「Generative AI Captions」を発表
「入力プロンプト」を最新情報で自動アップデート＆最適化する手法『FRESHPROMPT』がLLMの出力精度を飛躍的に上げる
Microsoft Copilot Studio によるカスタムCopilot の作成
GPT4-Vision APIを使ったアプリ　draw-a-uiを試す
Stability AI、日本の文化やアートを理解した画像生成AIモデルを発表
Pydanticを用いたOpenAI Assistant API内における Function Callingの型安全な利用
PartyRock : 誰でも生成系 AI のアプリケーションを作成し共有できるサービス
Japanese Stable CLIPを使って画像の感情判断ができるAPIをModalを使って実装する
Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models
LangChain への OpenAIのRAG戦略の適用
プロンプトリーキング対策されたGPTs のベースコードの提案

1行から始めるプロンプトインジェクション対策

完全な対策はないが、プロンプトの工夫である程度対策できる
詳しい対策の記事へのリンクも掲載されている
プロンプトだけでなく、前処理、後処理を加えて防ぐことも検討する

OpenAI Python API ライブラリ 1.x への移行

learn.microsoft.com

OpenAI Python APIライブラリの1.xに移行するための情報が掲載されたページ

GPTs のプロンプトリーキング対策

プロンプトリーキングへの対策と具体的対策プロンプトテンプレート例を紹介した記事

20231112_ChatGPTの活用によるデータサイエンス人材の育成

speakerdeck.com

Assistants APIでretrievalをStreamlitで使ってみる

OpenAIのAssistants APIでretrievalをStreamlitを使った記事

ALMA_7B_Ja_V2_gguf_Free_Colab_sample.ipynb

ALMA_7B_Ja_V2のgguf版を動かすGoogle Colabノートブック

クロードを始めよう

docs.anthropic.com

Anthropic Claude のプロンプトガイド

商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました

ja.stability.ai

「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデルが公開された
商用利用可能
LLaVA-1.5のモデル構造・学習手法
出力キャプションで使ってほしい単語を入力することが可能な「タグ条件付きキャプショニング」機能に対応

ユーザープロンプトをLLMが言い換えて、LLM自身が理解しやすくする手法『RaR』

RaRは、LLMがユーザーの質問を自身が理解しやすい形に自ら言い換える手法
紹介されている論文
- arxiv.org

Assistant API Code InterpreterをStreamlitで実装してみた

Assistant APIのCode InterpreterをStreamlitで実装した記事

Assistant APIの概要 - OpenAI Cookbook

「Assistant API」では、「Run」によりアシスタントが1つまたは複数のツールを使用し、スレッドに複数のメッセージを追加する可能性がある
毎回履歴全体を送信しなくても、実行のたびに会話履歴全体のトークンに対して料金が請求される

これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2

RWKVは、RNNの構造を保ちながらも並列化を実現するアルゴリズム -できあがったニューラルネットは行列とベクトルの積のみで計算可能

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

視覚を持つLLMが自動運転にどれだけ役立つかを確認する論文
GitHubに結果のデータが公開されている
- github.com

LINEとSlackとBedrock

speakerdeck.com

以下をBedrockで実装した際の実装についての発表資料
- Claudeでチャット
- Stable Diffusion XLで画像生成
GitHubにソースも公開されている

Amazon Kendra を利用した Retrieval Augmented Generation (RAG) ハンズオン

catalog.us-east-1.prod.workshops.aws

Amazon Kendra とその検索結果をもとに生成系 AI を使ってわかりやすい回答文を作成する RAGアプリケーションを構築するハンズオン

Your guide to AWS Analytics at AWS re:Invent 2023

re:Invent 2023のデータ分析のセッションをまとめた記事

A Survey of Techniques for Maximizing LLM Performance

www.youtube.com

OpenAI DevDayのファインチューニングやRAGやプロンプトエンジニアリングを活用してLLMのパフォーマンスを最大化する方法を紹介する動画

【HELP ME】Assistants APIで破産しそうになった話

Assistants APIでは128kトークンに達するまでスレッドがメッセージに蓄えられ、リクエストごとに全メッセージ分を内部的には送信しているので、利用料に気を付ける

OpenAI DevDay の各セッションの要約まとめ (by GPT4-Turbo)

OpenAI DevDayで公開されたセッション動画をGPT4-Turboで要約した内容を公開した記事

Query Construction

blog.langchain.dev

RAGにおけるクエリ構築のさまざまな戦略を紹介した記事

最高性能の、日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました

ja.stability.ai

商用利用可能な日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースした
ゼロショット画像分類（事前にクラス情報を学習せずに画像分類）や任意のテキストから画像を検索する画像検索などに用いることができる
他のモデルと組み合わせることで、text-to-image や image-to-text といった生成タスクに拡張できる

「Code Llama」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-CodeLlama-7b」を公開しました

Code Llamaに対し日本語の追加事前学習を行ったモデルを公開した

huggingface/TRLのSFTTrainerクラスを使えばLLMのInstruction Tuningのコードがスッキリ書けてとても便利です

SFTTrainerを用いてInstruction Tuningする方法を紹介した記事

Google Colab で Japanese Stable CLIP を試す

画像分類で試す場合のコード例が紹介されている

NTTの生成AI大規模言語モデル(LLM)「tsuzumi」驚きのデモ徹底公開！パワポの図表や写真、人物像まで理解するマルチモーダルLLMの実際

robotstart.info

「tsuzumi」の多彩な機能を紹介した記事
マルチモーダルモデル
- 写真、Excelなどで作成した表、ロードマップの図などを解析して理解できる
- 顔の表情や声のトーンから人の感情を解析できる
様々なデモの動画が掲載されている

ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました

tech.connehito.com

AWS上に構築した社内文書に基づいたChatGPTの仕組みについて説明した記事

【専門家がみる生成AI最新動向#3】～諸外国・国際機関・日本における最新規制動向～①諸外国編

「生成AI（AIを含む）に関する規制動向及び日本政府における生成AIの方向性」の海外動向を解説した記事

マイクロソフト・イグナイトBOOK OF NEWS

news.microsoft.com

Microsoft Igniteで発表された内容をまとめた記事

Learning to Filter Context for Retrieval-Augmented Generation

語彙的および情報理論的アプローチに基づいて有用なコンテキストを特定し、テスト時に取得したコンテキストをフィルタリングするモデルの訓練により、提供するコンテキストの質を改善する手法の提案した論文

USearch

小さくて速いベクター検索エンジン

JGLUEの構築そして日本語LLM評価のこれから

speakerdeck.com

オフラインで動作する様々なオープンソースLLMのインタフェース『GPT4All』が開発され公開

A Survey on Language Models for Code

言語モデルを用いたコード処理の最近の進歩について体系的にレビューを行った論文
GitHubリポジトリにサーベイ結果が整理されている
- github.com

The 2023 MAD (ML/AI/Data) Landscape

mad.firstmark.com

生成系 AI でプロダクトの価値を高めるには

speakerdeck.com

生成AIを価値創出に活かす3ステップ

LangChain の Research Assistant - チャット以外のUXの模索

Microsoftが「Bing」検索の生成AIによる要約機能「Generative AI Captions」を発表

news.yahoo.co.jp

「Generative AI Captions」は、GPT-4を使ってWebページの検索キーワードを分析することでそのページから適切な洞察を抽出し、検索した人にとって関連性が高く、わかりやすい概要を生成する機能
Webサイトの管理者は、メタタグの「noarchive」、「noarchive」値を使うことで、概要の生成を拒否可能
概要の最大文字数を指定する「maxsnippet」、概要とサムネイルを表示させない「nosnippet」値も尊重される

「入力プロンプト」を最新情報で自動アップデート＆最適化する手法『FRESHPROMPT』がLLMの出力精度を飛躍的に上げる

検索エンジンからの情報を効果的に組み込むことで、入力プロンプトを最新の情報で強化する新しいアプローチ

Microsoft Copilot Studio によるカスタムCopilot の作成

「Microsoft Copilot Studio」による「カスタムCopilot」の作成手順をまとめた記事

GPT4-Vision APIを使ったアプリ　draw-a-uiを試す

gpt4-vison API を使った作例として公開してされている、draw-a-uiを試した記事

Stability AI、日本の文化やアートを理解した画像生成AIモデルを発表

日本に特化した画像生成AIモデル「Japanese Stable Diffusion XL（JSDXL）」が公開された
商用利用が可能で、日本語入力の対応に加え、日本スタイルや日本を題材とした画像を生成できる

Pydanticを用いたOpenAI Assistant API内における Function Callingの型安全な利用

Assistant内の機能である「Function calling」を，型安全な関数呼び出し方法を提供するPydanticを使用して実装したコードの紹介記事

PartyRock : 誰でも生成系 AI のアプリケーションを作成し共有できるサービス

PartyRock は生成系 AI の様々なユースケースをアプリケーションとして実現し、共有を可能にする AWS の新しいサービス
テキストによる指示と画面操作のみで生成系 AI を組み込んだアプリケーションを作り、共有できる
PartyRock の背後ではAmazon Bedrock が使用されている

Japanese Stable CLIPを使って画像の感情判断ができるAPIをModalを使って実装する

「Japanese Stable CLIP」を使って、画像の内容を感情分析する方法を紹介した記事

Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models

techcommunity.microsoft.com

GPT-4 Turbo and GPT-3.5-Turbo-1106モデルがAzure OpenAI Serviceで利用可能となった

LangChain への OpenAIのRAG戦略の適用

「OpenAI Dev Day」で報告された書く手法を自分で実装する方法を示した記事

プロンプトリーキング対策されたGPTs のベースコードの提案

プロンプトリーキング対策を施したプロンプトの解説と共有された記事