SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年11月13日の週に気になった記事などまとめ

1行から始めるプロンプトインジェクション対策

zenn.dev

  • 完全な対策はないが、プロンプトの工夫である程度対策できる
  • 詳しい対策の記事へのリンクも掲載されている
  • プロンプトだけでなく、前処理、後処理を加えて防ぐことも検討する

OpenAI Python API ライブラリ 1.x への移行

learn.microsoft.com

  • OpenAI Python APIライブラリの1.xに移行するための情報が掲載されたページ

GPTs のプロンプトリーキング対策

note.com

  • プロンプトリーキングへの対策と具体的対策プロンプトテンプレート例を紹介した記事

20231112_ChatGPTの活用によるデータサイエンス人材の育成

speakerdeck.com

Assistants APIでretrievalをStreamlitで使ってみる

note.com

  • OpenAIのAssistants APIでretrievalをStreamlitを使った記事

ALMA_7B_Ja_V2_gguf_Free_Colab_sample.ipynb

github.com

  • ALMA_7B_Ja_V2のgguf版を動かすGoogle Colabノートブック

クロードを始めよう

docs.anthropic.com

  • Anthropic Claude のプロンプトガイド

商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました

ja.stability.ai

  • 「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデルが公開された
  • 商用利用可能
  • LLaVA-1.5のモデル構造・学習手法
  • 出力キャプションで使ってほしい単語を入力することが可能な「タグ条件付きキャプショニング」機能に対応

ユーザープロンプトをLLMが言い換えて、LLM自身が理解しやすくする手法『RaR』

aiboom.net

  • RaRは、LLMがユーザーの質問を自身が理解しやすい形に自ら言い換える手法
  • 紹介されている論文

Assistant API Code InterpreterをStreamlitで実装してみた

note.com

Assistant APIの概要 - OpenAI Cookbook

note.com

  • 「Assistant API」では、「Run」によりアシスタントが1つまたは複数のツールを使用し、スレッドに複数のメッセージを追加する可能性がある
  • 毎回履歴全体を送信しなくても、実行のたびに会話履歴全体のトークンに対して料金が請求される

これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2

note.com

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

arxiv.org

  • 視覚を持つLLMが自動運転にどれだけ役立つかを確認する論文
  • GitHubに結果のデータが公開されている

LINEとSlackとBedrock

speakerdeck.com

  • 以下をBedrockで実装した際の実装についての発表資料
    • Claudeでチャット
    • Stable Diffusion XLで画像生成
  • GitHubにソースも公開されている

Amazon Kendra を利用した Retrieval Augmented Generation (RAG) ハンズオン

catalog.us-east-1.prod.workshops.aws

  • Amazon Kendra とその検索結果をもとに生成系 AI を使ってわかりやすい回答文を作成する RAGアプリケーションを構築するハンズオン

Your guide to AWS Analytics at AWS re:Invent 2023

aws.amazon.com

  • re:Invent 2023のデータ分析のセッションをまとめた記事

A Survey of Techniques for Maximizing LLM Performance

www.youtube.com

  • OpenAI DevDayのファインチューニングやRAGやプロンプトエンジニアリングを活用してLLMのパフォーマンスを最大化する方法を紹介する動画

【HELP ME】Assistants APIで破産しそうになった話

note.com

  • Assistants APIでは128kトークンに達するまでスレッドがメッセージに蓄えられ、リクエストごとに全メッセージ分を内部的には送信しているので、利用料に気を付ける

OpenAI DevDay の各セッションの要約まとめ (by GPT4-Turbo)

zenn.dev

  • OpenAI DevDayで公開されたセッション動画をGPT4-Turboで要約した内容を公開した記事

Query Construction

blog.langchain.dev

  • RAGにおけるクエリ構築のさまざまな戦略を紹介した記事

最高性能の、日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースしました

ja.stability.ai

  • 商用利用可能な日本語画像言語特徴抽出モデル「Japanese Stable CLIP」をリリースした
  • ゼロショット画像分類(事前にクラス情報を学習せずに画像分類)や任意のテキストから画像を検索する画像検索などに用いることができる
  • 他のモデルと組み合わせることで、text-to-image や image-to-text といった生成タスクに拡張できる

「Code Llama」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-CodeLlama-7b」を公開しました

zenn.dev

  • Code Llamaに対し日本語の追加事前学習を行ったモデルを公開した

huggingface/TRLのSFTTrainerクラスを使えばLLMのInstruction Tuningのコードがスッキリ書けてとても便利です

qiita.com

  • SFTTrainerを用いてInstruction Tuningする方法を紹介した記事

Google Colab で Japanese Stable CLIP を試す

note.com

  • 画像分類で試す場合のコード例が紹介されている

NTTの生成AI大規模言語モデル(LLM)「tsuzumi」驚きのデモ徹底公開! パワポの図表や写真、人物像まで理解するマルチモーダルLLMの実際

robotstart.info

  • 「tsuzumi」の多彩な機能を紹介した記事
  • マルチモーダルモデル
    • 写真、Excelなどで作成した表、ロードマップの図などを解析して理解できる
    • 顔の表情や声のトーンから人の感情を解析できる
  • 様々なデモの動画が掲載されている

ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました

tech.connehito.com

  • AWS上に構築した社内文書に基づいたChatGPTの仕組みについて説明した記事

【専門家がみる生成AI最新動向#3】~諸外国・国際機関・日本における最新規制動向~①諸外国編

note.com

  • 「生成AI(AIを含む)に関する規制動向及び日本政府における生成AIの方向性」の海外動向を解説した記事

マイクロソフト・イグナイトBOOK OF NEWS

news.microsoft.com

Learning to Filter Context for Retrieval-Augmented Generation

arxiv.org

  • 語彙的および情報理論的アプローチに基づいて有用なコンテキストを特定し、テスト時に取得したコンテキストをフィルタリングするモデルの訓練により、提供するコンテキストの質を改善する手法の提案した論文

USearch

github.com

JGLUEの構築そして 日本語LLM評価のこれから

speakerdeck.com

オフラインで動作する様々なオープンソースLLMのインタフェース『GPT4All』が開発され公開

aiboom.net

A Survey on Language Models for Code

arxiv.org

The 2023 MAD (ML/AI/Data) Landscape

mad.firstmark.com

生成系 AI でプロダクトの価値を高めるには

speakerdeck.com

  • 生成AIを価値創出に活かす3ステップ

LangChain の Research Assistant - チャット以外のUXの模索

note.com

Microsoftが「Bing」検索の生成AIによる要約機能「Generative AI Captions」を発表

news.yahoo.co.jp

  • 「Generative AI Captions」は、GPT-4を使ってWebページの検索キーワードを分析することでそのページから適切な洞察を抽出し、検索した人にとって関連性が高く、わかりやすい概要を生成する機能
  • Webサイトの管理者は、メタタグの「noarchive」、「noarchive」値を使うことで、概要の生成を拒否可能
  • 概要の最大文字数を指定する「maxsnippet」、概要とサムネイルを表示させない「nosnippet」値も尊重される

「入力プロンプト」を最新情報で自動アップデート&最適化する手法『FRESHPROMPT』がLLMの出力精度を飛躍的に上げる

aiboom.net

  • 検索エンジンからの情報を効果的に組み込むことで、入力プロンプトを最新の情報で強化する新しいアプローチ

Microsoft Copilot Studio による カスタムCopilot の作成

note.com

  • Microsoft Copilot Studio」による「カスタムCopilot」の作成手順をまとめた記事

GPT4-Vision APIを使ったアプリ draw-a-uiを試す

note.com

  • gpt4-vison API を使った作例として公開してされている、draw-a-uiを試した記事

Stability AI、日本の文化やアートを理解した画像生成AIモデルを発表

news.mynavi.jp

  • 日本に特化した画像生成AIモデル「Japanese Stable Diffusion XL(JSDXL)」が公開された
  • 商用利用が可能で、日本語入力の対応に加え、日本スタイルや日本を題材とした画像を生成できる

Pydanticを用いたOpenAI Assistant API内における Function Callingの型安全な利用

note.com

  • Assistant内の機能である「Function calling」を,型安全な関数呼び出し方法を提供するPydanticを使用して実装したコードの紹介記事

PartyRock : 誰でも生成系 AI のアプリケーションを作成し共有できるサービス

aws.amazon.com

  • PartyRock は生成系 AI の様々なユースケースをアプリケーションとして実現し、共有を可能にする AWS の新しいサービス
  • テキストによる指示と画面操作のみで生成系 AI を組み込んだアプリケーションを作り、共有できる
  • PartyRock の背後ではAmazon Bedrock が使用されている

Japanese Stable CLIPを使って画像の感情判断ができるAPIをModalを使って実装する

zenn.dev

  • 「Japanese Stable CLIP」を使って、画像の内容を感情分析する方法を紹介した記事

Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models

techcommunity.microsoft.com

  • GPT-4 Turbo and GPT-3.5-Turbo-1106モデルがAzure OpenAI Serviceで利用可能となった

LangChain への OpenAIのRAG戦略の適用

note.com

  • 「OpenAI Dev Day」で報告された書く手法を自分で実装する方法を示した記事

プロンプトリーキング対策されたGPTs のベースコードの提案

hamaruki.com

  • プロンプトリーキング対策を施したプロンプトの解説と共有された記事