- AI Lab、官公庁・自治体向けに生成AIを活用したチャットボットの実証実験を開始
- わずか2行のプロンプトでも実効性のある新しいアライメント手法『URIAL』
- 品質要件が厳しいLLMアプリケーションのトライアル評価を通じて得た知見
- 本編 日本はこうなる!?~2024年を生き抜くビジネス戦略~ 第3回 | BSテレ東
- エージェント型AIシステム構築の7つの原則: OpenAI『Practices for Governing Agentic AI』を読み解く
- Swallow: LLaMA-2 日本語継続事前学習モデル
- Google Colab で Swallow-13B を試す
- プロンプト設計戦略
- プロンプトエンジニアリングの基本と応用
- Swallow
- ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた
- GPTsより精度の高いRAGシステムの構築
- RAGにおけるドキュメント検索精度向上について(実践編)
- rinna、Qwenの日本語継続事前学習モデル「Nekomata」シリーズを公開
- ベクトル検索のみで、AI王クイズ第一回コンペに臨む - Q&Aタスクでの複数の日本語embeddingsの評価
- 色々な生成AIモデルをColabで動かして今年を振り返る
- AIはどこまで無断で学習できるのか。~文化庁の生成AI論点整理(ガイドラインの素案)を読んで
- LangChain State of AI 2023
- Google の新たな生成AIモデル Gemini を技術的観点で解説
- ChatGPTの新たな応用先が登場!LLMマルチエージェントは何ができるのか
- 【2023/12/21】【LT大会】LLMの活用や機械学習の各種テーマでホットな話題にふれよう!
- DynamoDB から OpenSearch Service へテキストをベクトル化して同期する
- LLM in 2023 and 2024
- 「AIと著作権に関する考え方について(素案)」の速報解説①
- [12/16~12/22] LLM Weekly News by EXPLAZA
- 大規模言語モデルとそのソフトウェア開発に向けた応用
- ChatGPTとGitHub Copilotの使い分け
- こんなエンジニアリングマネージャだから仕事がしやすいんだなぁと思う10個のこと
- 開発生産性とどう向き合うか | DMM Meetup #39
AI Lab、官公庁・自治体向けに生成AIを活用したチャットボットの実証実験を開始
- 官公庁・自治体向けとなる生成AIを活用したチャットボットの社会実装に向けた実証実験を2023年11月より開始
- 子育て支援部保育幼稚園課への来訪者を対象に、子供を保育施設に入れるために保護者が行う活動(保活)の支援を目的とする、生成AIを活用したチャットボットの実証実験を実施
- チャットボットの利用後に「有用だと思う」と回答した実験参加者は利用前と比較して約2倍に増加
わずか2行のプロンプトでも実効性のある新しいアライメント手法『URIAL』
-RLHFやSFTよりも簡単な方法でアライメントを実現する方法の提案
品質要件が厳しいLLMアプリケーションのトライアル評価を通じて得た知見
- LLMプロダクトの品質評価の結果とそこから得られた学びについて共有された記事
- リスク防御
- input
- 入力された質問が対象スコープかをgpt-4で判定し、対象外の場合は回答しない
- prompt
- NG領域については回答しない指示をプロンプトに埋め込む
- output
- 解答にNG領域の話題を含むかをチェックし、含む場合は該当部分を削除する
- input
- 評価方法
- Q&Aの形式
- 一連の会話のやり取りではない
- リスクと事実性は分けて評価
- リスク防御を含めない状態で事実性を評価
- Q&Aの形式
- 正解がある+複雑なコンテキストがある問題のRAG精度を高めることは難しい
- 人手評価は大変
本編 日本はこうなる!?~2024年を生き抜くビジネス戦略~ 第3回 | BSテレ東
エージェント型AIシステム構築の7つの原則: OpenAI『Practices for Governing Agentic AI』を読み解く
- エージェント型AIシステムの恩恵を最大化するための、システムのライフサイクルに関与する関係者が従うべき基本原則
- タスク適合性の評価する
- 行動範囲の制限する
- デフォルト動作の設定する
- 透明性の確保する
- 自動モニタリングを行う
- 固有の識別子を付与する
- 各エージェントに固有の識別子を付与する
- 人間による制御権の保持する
Swallow: LLaMA-2 日本語継続事前学習モデル
- Llama 2から日本語継続事前学習を行ったSwallow-7B, Swallow-13B, Swallow-70Bがリリースされた
- ベースモデルと指示チューニングされたモデルが公開された
- Llama 2 Communicty Licenseに従う限り、商業利用可能なモデル
- 語彙拡張ありのモデルは語彙拡張なしのモデルと比べて、日本語スコアが低下する
- 継続事前学習のベースモデルは、chatモデルではなくbaseモデルを利用した
Google Colab で Swallow-13B を試す
プロンプト設計戦略
プロンプトエンジニアリングの基本と応用
- プロンプトエンジニアリングについての関連論文が紹介された記事
- 強化学習などによる、ベストプロンプトの自動探索も行われている
Swallow
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた
- 14個の「日本語が話せるLLM」(日本製・外国製問わず)の性能を、日本語データセット ELYZA-tasks-100 で横断評価した記事
- 海外勢70Bモデルの性能が高い
- 7Bでは ELYZA-japanese-llama-2 や CALM2の評価が高い
- モデルの真の性能を評価するためには、学習データセットに含まれないデータを使ってベンチマークをとる必要がある
- 日本語での受け答えに関していえば、現時点ではプロプライエタリモデルのほうが優位に立っている
- Llama 2 自体は2Tトークンで学習されており、ファインチューン用のデータは少数で済むため、フルスクラッチで学習したモデルに比べて学習トークン数が少ない
- データセットの規模よりも、むしろ学習の手法やデータセットの品質がELYZA-tasks-100 ベンチマークでの性能評価に大きく影響しているようにみえる
GPTsより精度の高いRAGシステムの構築
- GPTsよりもコンテキストサイズを増やす
- GPTsより、正確なコンテキストを渡す
- データの読み込み
- Unstructuredを使う
- GPT-4でデータのチャンク分けをする
- データの保存recursiveRetriverを使う
- GPT-4で評価する
RAGにおけるドキュメント検索精度向上について(実践編)
- RAGにおける検索モデルの改善を目的として、独自のデータを使用してfine-tune実施したことについて説明した記事
- 検索モデルのFinetuningにより、回答スコアが向上した
rinna、Qwenの日本語継続事前学習モデル「Nekomata」シリーズを公開
- Qwen 7Bと14Bの日本語継続事前学習モデル「Nekomata」シリーズを開発し、Tongyi Qianwen LICENSE AGREEMENTで公開した
- 日本語と英語の学習データを用いてそれぞれ300億と660億トークンで継続事前学習した
- Youriシリーズは、Llama2の英語を主なターゲットとする語彙サイズ3.2万のトークナイザーを利用しており、日本語を書き表すための語彙が不足しており推論効率が悪いという欠点があった
- 日本語テキスト1byteに対するトークン数はLlama2/Youriが0.40、Qwen/Nekomataが0.24であり、推論効率が高くなっている
ベクトル検索のみで、AI王クイズ第一回コンペに臨む - Q&Aタスクでの複数の日本語embeddingsの評価
- 質問文をembeddingsを変換したものを日本語 wikipedia の passage のembeddingsから検索して、類似度が高いTop-Nのpassageとwikipedia タイトルを抜き出す。そのデータに対し、20個の候補の文字列の最初の登場位置を抽出し、最も登場位置が先頭なものを正解予想とする
- Top-1,3,5,10,20...どのケースにおいても、multilingual-e5-largeが圧勝
- RAG検索におけるe5でのembeddings変換は類似文章タスクでも使える、汎化性能が高いquery:の方を用いれば良い、と思えてしまう結果だった
色々な生成AIモデルをColabで動かして今年を振り返る
- これまでに色々と出てきた生成モデルを振り返りつつ、Colabで動かした記事
AIはどこまで無断で学習できるのか。~文化庁の生成AI論点整理(ガイドラインの素案)を読んで
- 文化庁が出した生成AIと著作権保護についてのガイドラインとなる素案がどんな論点で議論されているかをまとめた記事
- 学習データをそのまま出力させることを目的としたら、法第30条の4は適用されないから学習利用できない場合がある
- 特定イラストレーターと同じ絵柄だけを出力するモデルやLoRAの学習をすると、法第30条の4は適用されないから学習利用できない場合が出てくる
- 「似た画風・作風」が出てくるAIに学習されることだけでは、(少なくとも学習では)「著作権者の利益を不当に害することとなる場合」には該当しない
- 学習用データセットからの当該著作物の除去が、将来の侵害行為の予防措置の請求として認められ得る
LangChain State of AI 2023
- LangSmithのメタデータを利用し、LLMアプリケーションをどのように構築し、どのようにテストしているかをまとめた記事
- 42%がRetrieverを含むアプリケーション
- 利用されているLLMプロバイダーはOpenAI
- ベクターストアは、ChromaやFAISSなどローカルのベクターストアが利用されている
- 大部分はLLMを使用して評価している
- 評価メトリクスとしては正確さが一番利用されている
Google の新たな生成AIモデル Gemini を技術的観点で解説
- Gemini のテクニカルレポートについて解説した記事
- 学習段階からネイティブにマルチモーダルな学習が行われている
- Gemini の評価で用いられる動画タスクでは、16フレームを等間隔にサンプルしたイメージシーケンスをトークンに変換して入力している
ChatGPTの新たな応用先が登場!LLMマルチエージェントは何ができるのか
- LLMマルチエージェントの面白いところ
- シミュレーションを通じて、様々な業務が事前評価できるようになる
- LLMマルチエージェントを俯瞰した情報
【2023/12/21】【LT大会】LLMの活用や機械学習の各種テーマでホットな話題にふれよう!
- Azure OpenAI Serice を利用したリアルタイム文字起こし処理
- 英会話の復習にLLMを活用しよう
- 速習:LangChainの大きなアップデート(2023年秋〜冬) 大嶋勇樹
- Teamsチャットボット開発:Azureを使って安全に社内文書を引用できる
DynamoDB から OpenSearch Service へテキストをベクトル化して同期する
- Amazon Bedrock の Titan Embeddings というモデルを使って、DynamoDB から OpenSearch Service へと同期する過程でテキストデータをベクトル化する方法を紹介した記事
- DynamoDB と OpenSearch Service のゼロ ETL 統合の中でテキストをベクトル化する処理を行いたい場合、OpenSearch の Neural Search Plugin という機能を利用する
- Neural Search Plugin で、OpenSearch の内部で、ベクトル化の処理を実行することが可能
- ベクトル化の際に外部サービスとして Amazon Bedrock と接続する
- Neural Search Plugin で、OpenSearch の内部で、ベクトル化の処理を実行することが可能
LLM in 2023 and 2024
- 2024年には、元データの高品質化に伴う小さく高精度のモデルがさらに市場に投入される
- プロンプトを人が考えなくてもよくなる
- プロンプトの入力が不要となる
- 自動でシステム連携する
「AIと著作権に関する考え方について(素案)」の速報解説①
[12/16~12/22] LLM Weekly News by EXPLAZA
- NEC、生成AI「cotomi(コトミ)」の強化・拡充と共に生成AI事業戦略を発表
- cotomiは長文処理能力は30万字まで対応可能
大規模言語モデルとそのソフトウェア開発に向けた応用
- 開発文書をLLMへ入力するところに課題がある
- いわゆるネ申エクセル
ChatGPTとGitHub Copilotの使い分け
- ChatGPT
- ゼロからのコード生成
- どう実装するのがいいのかわからないコード生成
- GitHub Copilot
- コードの微修正
- 方向性が明確なコード生成
- ChatGPTで生成されたコードをGitHub Copilotで微修正する
- ChatGPTでチャットをしながらコードを編集していると話題にしていない部分のコードを省略されることがある
こんなエンジニアリングマネージャだから仕事がしやすいんだなぁと思う10個のこと
- 個人的に印象に残ったこと
- ポジティブな視点で言葉を発する
- どんな意見を伝えても否定しない
- 急に変えない
開発生産性とどう向き合うか | DMM Meetup #39
- アウトプットの改善によりケイパビリティが向上したことを説明できる必要がある