SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年12月18日の週に気になった記事などまとめ

AI Lab、官公庁・自治体向けに生成AIを活用したチャットボットの実証実験を開始

www.cyberagent.co.jp

  • 官公庁・自治体向けとなる生成AIを活用したチャットボットの社会実装に向けた実証実験を2023年11月より開始
    • 子育て支援部保育幼稚園課への来訪者を対象に、子供を保育施設に入れるために保護者が行う活動(保活)の支援を目的とする、生成AIを活用したチャットボットの実証実験を実施
  • チャットボットの利用後に「有用だと思う」と回答した実験参加者は利用前と比較して約2倍に増加

わずか2行のプロンプトでも実効性のある新しいアライメント手法『URIAL』

aiboom.net

-RLHFやSFTよりも簡単な方法でアライメントを実現する方法の提案

品質要件が厳しいLLMアプリケーションのトライアル評価を通じて得た知見

engineering.mercari.com

  • LLMプロダクトの品質評価の結果とそこから得られた学びについて共有された記事
  • リスク防御
    • input
      • 入力された質問が対象スコープかをgpt-4で判定し、対象外の場合は回答しない
    • prompt
      • NG領域については回答しない指示をプロンプトに埋め込む
    • output
      • 解答にNG領域の話題を含むかをチェックし、含む場合は該当部分を削除する
  • 評価方法
    • Q&Aの形式
      • 一連の会話のやり取りではない
    • リスクと事実性は分けて評価
      • リスク防御を含めない状態で事実性を評価
  • 正解がある+複雑なコンテキストがある問題のRAG精度を高めることは難しい
  • 人手評価は大変

本編 日本はこうなる!?~2024年を生き抜くビジネス戦略~ 第3回 | BSテレ東

www.youtube.com

エージェント型AIシステム構築の7つの原則: OpenAI『Practices for Governing Agentic AI』を読み解く

note.com

  • エージェント型AIシステムの恩恵を最大化するための、システムのライフサイクルに関与する関係者が従うべき基本原則
    • タスク適合性の評価する
    • 行動範囲の制限する
    • デフォルト動作の設定する
    • 透明性の確保する
    • 自動モニタリングを行う
    • 固有の識別子を付与する
      • 各エージェントに固有の識別子を付与する
    • 人間による制御権の保持する

Swallow: LLaMA-2 日本語継続事前学習モデル

zenn.dev

  • Llama 2から日本語継続事前学習を行ったSwallow-7B, Swallow-13B, Swallow-70Bがリリースされた
  • ベースモデルと指示チューニングされたモデルが公開された
  • Llama 2 Communicty Licenseに従う限り、商業利用可能なモデル
  • 語彙拡張ありのモデルは語彙拡張なしのモデルと比べて、日本語スコアが低下する
  • 継続事前学習のベースモデルは、chatモデルではなくbaseモデルを利用した

Google Colab で Swallow-13B を試す

note.com

プロンプト設計戦略

ai.google.dev

  • GoogleのGemini APIのプロンプト設計戦略のページ
    - プロンプトの反復処理に関する戦略
       - 望ましいレスポンスを一貫して得られるために試すガイダンス
    

プロンプトエンジニアリングの基本と応用

blog.brainpad.co.jp

  • プロンプトエンジニアリングについての関連論文が紹介された記事
  • 強化学習などによる、ベストプロンプトの自動探索も行われている

Swallow

tokyotech-llm.github.io

ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた

qiita.com

  • 14個の「日本語が話せるLLM」(日本製・外国製問わず)の性能を、日本語データセット ELYZA-tasks-100 で横断評価した記事
  • 海外勢70Bモデルの性能が高い
  • 7Bでは ELYZA-japanese-llama-2 や CALM2の評価が高い
  • モデルの真の性能を評価するためには、学習データセットに含まれないデータを使ってベンチマークをとる必要がある
  • 日本語での受け答えに関していえば、現時点ではプロプライエタリモデルのほうが優位に立っている
  • Llama 2 自体は2Tトークンで学習されており、ファインチューン用のデータは少数で済むため、フルスクラッチで学習したモデルに比べて学習トークン数が少ない
  • データセットの規模よりも、むしろ学習の手法やデータセットの品質がELYZA-tasks-100 ベンチマークでの性能評価に大きく影響しているようにみえる

GPTsより精度の高いRAGシステムの構築

speakerdeck.com

  • GPTsよりもコンテキストサイズを増やす
  • GPTsより、正確なコンテキストを渡す
  • データの読み込み
    • Unstructuredを使う
  • GPT-4でデータのチャンク分けをする
  • データの保存recursiveRetriverを使う
  • GPT-4で評価する

RAGにおけるドキュメント検索精度向上について(実践編)

zenn.dev

  • RAGにおける検索モデルの改善を目的として、独自のデータを使用してfine-tune実施したことについて説明した記事
  • 検索モデルのFinetuningにより、回答スコアが向上した

rinna、Qwenの日本語継続事前学習モデル「Nekomata」シリーズを公開

rinna.co.jp

  • Qwen 7Bと14Bの日本語継続事前学習モデル「Nekomata」シリーズを開発し、Tongyi Qianwen LICENSE AGREEMENTで公開した
  • 日本語と英語の学習データを用いてそれぞれ300億と660億トークンで継続事前学習した
  • Youriシリーズは、Llama2の英語を主なターゲットとする語彙サイズ3.2万のトークナイザーを利用しており、日本語を書き表すための語彙が不足しており推論効率が悪いという欠点があった
  • 日本語テキスト1byteに対するトークン数はLlama2/Youriが0.40、Qwen/Nekomataが0.24であり、推論効率が高くなっている

ベクトル検索のみで、AI王クイズ第一回コンペに臨む - Q&Aタスクでの複数の日本語embeddingsの評価

secon.dev

  • 質問文をembeddingsを変換したものを日本語 wikipedia の passage のembeddingsから検索して、類似度が高いTop-Nのpassageとwikipedia タイトルを抜き出す。そのデータに対し、20個の候補の文字列の最初の登場位置を抽出し、最も登場位置が先頭なものを正解予想とする
  • Top-1,3,5,10,20...どのケースにおいても、multilingual-e5-largeが圧勝
  • RAG検索におけるe5でのembeddings変換は類似文章タスクでも使える、汎化性能が高いquery:の方を用いれば良い、と思えてしまう結果だった

色々な生成AIモデルをColabで動かして今年を振り返る

tech-blog.abeja.asia

  • これまでに色々と出てきた生成モデルを振り返りつつ、Colabで動かした記事

AIはどこまで無断で学習できるのか。~文化庁の生成AI論点整理(ガイドラインの素案)を読んで

fujii-yuji.net

  • 文化庁が出した生成AIと著作権保護についてのガイドラインとなる素案がどんな論点で議論されているかをまとめた記事
  • 学習データをそのまま出力させることを目的としたら、法第30条の4は適用されないから学習利用できない場合がある
  • 特定イラストレーターと同じ絵柄だけを出力するモデルやLoRAの学習をすると、法第30条の4は適用されないから学習利用できない場合が出てくる
  • 「似た画風・作風」が出てくるAIに学習されることだけでは、(少なくとも学習では)「著作権者の利益を不当に害することとなる場合」には該当しない
  • 学習用データセットからの当該著作物の除去が、将来の侵害行為の予防措置の請求として認められ得る

LangChain State of AI 2023

blog.langchain.dev

  • LangSmithのメタデータを利用し、LLMアプリケーションをどのように構築し、どのようにテストしているかをまとめた記事
  • 42%がRetrieverを含むアプリケーション
  • 利用されているLLMプロバイダーはOpenAI
  • ベクターストアは、ChromaやFAISSなどローカルのベクターストアが利用されている
  • 大部分はLLMを使用して評価している
  • 評価メトリクスとしては正確さが一番利用されている

Google の新たな生成AIモデル Gemini を技術的観点で解説

blog.brainpad.co.jp

  • Gemini のテクニカルレポートについて解説した記事
  • 学習段階からネイティブにマルチモーダルな学習が行われている
  • Gemini の評価で用いられる動画タスクでは、16フレームを等間隔にサンプルしたイメージシーケンスをトークンに変換して入力している

ChatGPTの新たな応用先が登場!LLMマルチエージェントは何ができるのか

isid-ai.jp

  • LLMマルチエージェントの面白いところ
    • シミュレーションを通じて、様々な業務が事前評価できるようになる
  • LLMマルチエージェントを俯瞰した情報

【2023/12/21】【LT大会】LLMの活用や機械学習の各種テーマでホットな話題にふれよう!

www.youtube.com

  • Azure OpenAI Serice を利用したリアルタイム文字起こし処理
  • 英会話の復習にLLMを活用しよう
  • 速習:LangChainの大きなアップデート(2023年秋〜冬) 大嶋勇樹
  • Teamsチャットボット開発:Azureを使って安全に社内文書を引用できる

DynamoDB から OpenSearch Service へテキストをベクトル化して同期する

qiita.com

  • Amazon Bedrock の Titan Embeddings というモデルを使って、DynamoDB から OpenSearch Service へと同期する過程でテキストデータをベクトル化する方法を紹介した記事
  • DynamoDB と OpenSearch Service のゼロ ETL 統合の中でテキストをベクトル化する処理を行いたい場合、OpenSearch の Neural Search Plugin という機能を利用する
    • Neural Search Plugin で、OpenSearch の内部で、ベクトル化の処理を実行することが可能
      • ベクトル化の際に外部サービスとして Amazon Bedrock と接続する

LLM in 2023 and 2024

speakerdeck.com

  • 2024年には、元データの高品質化に伴う小さく高精度のモデルがさらに市場に投入される
  • プロンプトを人が考えなくてもよくなる
  • プロンプトの入力が不要となる
  • 自動でシステム連携する

「AIと著作権に関する考え方について(素案)」の速報解説①

note.com

  • 生成AIと著作権の①学習・開発段階について紹介した記事
    • ②生成・利用段階については以下に記載されている

[12/16~12/22] LLM Weekly News by EXPLAZA

note.com

  • NEC、生成AI「cotomi(コトミ)」の強化・拡充と共に生成AI事業戦略を発表
    • cotomiは長文処理能力は30万字まで対応可能

大規模言語モデルとそのソフトウェア開発に向けた応用

speakerdeck.com

  • 開発文書をLLMへ入力するところに課題がある
    • いわゆるネ申エクセル

ChatGPTとGitHub Copilotの使い分け

speakerdeck.com

  • ChatGPT
    • ゼロからのコード生成
    • どう実装するのがいいのかわからないコード生成
  • GitHub Copilot
    • コードの微修正
    • 方向性が明確なコード生成
  • ChatGPTで生成されたコードをGitHub Copilotで微修正する
  • ChatGPTでチャットをしながらコードを編集していると話題にしていない部分のコードを省略されることがある

こんなエンジニアリングマネージャだから仕事がしやすいんだなぁと思う10個のこと

bufferings.hatenablog.com

  • 個人的に印象に残ったこと
    • ポジティブな視点で言葉を発する
    • どんな意見を伝えても否定しない
    • 急に変えない

開発生産性とどう向き合うか | DMM Meetup #39

speakerdeck.com

  • アウトプットの改善によりケイパビリティが向上したことを説明できる必要がある