2023年9月25日の週に気になった記事などまとめ - SEが最近起こったことを書くブログ

JGLUEベースの評価データセットは指示に追従する能力を評価することには適していない
Rakudaは日本の地理・政治・歴史・社会の知識を問うタスクが多い
そのため、複雑な指示とユーザーの役に立つ回答からなる日本語instructionモデル評価データセット ELYZA-tasks-100を作成した
- 評価の揺らぎを抑えるため、評価観点をアノテーションしている
複数人で評価しているが、上位や下位のモデルの評価は一致するが、中間のモデルの評価はブレてしまう
GPT-4による自動評価はおおむね人で評価と相関している
- 採点基準をつけると人手の評価により近づけることができる

anthropics/anthropic-cookbook

github.com

Claudeを効果的に使用するためのレシピ

RAGを使った社内情報を回答できる生成AIボットで業務効率化してみた

dev.classmethod.jp

Google CloudのVertex AI Search（Enterprise Search）を使ってRAGシステムを3週間試用してみた結果について記載した記事
- 全社的に関係する手続きや規則に関することをまとめているページに記載されていることに回答するシステムを導入した結果
- 解決できたのは、73.9%
- 解決できなかった回答の分析がされている

アジャイルについてマネージャーが知るべき97のこと

slide.meguro.ryuzee.com

アジャイルについてマネージャーが知るべき重要なことを紹介した資料
個人的に興味があったこと
- 事業計画はその通りになるはずがない
- 事前の検討をたくさんしても不確実性は減らない
- プロダクトの成功を計測する指標を定めよう
- 機能するチームを作るコツ
- プロダクトすべてで統一の品質を求めない

AWS Certified Data Engineer - Associate

aws.amazon.com

AWS認定の新資格
コアデータ関連の AWS サービスのスキルと知識や、データパイプラインの実装、問題のモニタリングとトラブルシューティング、ベストプラクティスに従ってコストとパフォーマンスを最適化する能力を検証する

ChatGPT、プロンプト用プロンプトの書き方

note.com

プロンプトの改変や評価に関するプロンプトの書き方のコツやテクニックを紹介した記事

Open Interpreterのアップデート - 2023年9月26日

note.com

2023年9月26日の「Open Interpreter」にアップデートをまとめた記事

問い合わせメールをChatGPTで解析してSpreadsheetとNotionに転記する方法の紹介

note.com

メールの内容をChatGPTで解析してSpreadsheetとNotionに転記する方法について紹介した記事
- 問い合わせのメールから、業界、相談者の部署、相談者の役職、導入時期、会社規模、予算、対象などのいくつかの項目を取得し、その内容をSpreadsheetに転記する作業を実装
Function Callingで必要な情報を抜き出している

LLMアプリケーションの安定性を高めるための精度評価・改善

speakerdeck.com

新技術の活用をPoC・実験で終わらせないために気を付けるべきこと
LLMを評価するための評価指標
LLMで精度が出ない時の原因と改善のための心がけ

Google Colab で Preferred Networks の PLaMo-13B を試す

note.com

「Google Colab」で「Preferred Networks」の「PLaMo-13B」を試した記事

米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発

www.itmedia.co.jp

複数枚の画像とテキストを処理できる大規模言語モデル（LLM）が提案された

ビジネスパーソンのためのChatGPT API×Excel VBA超活用講座（OSS集会）

speakerdeck.com

Excel VBAからChatGPT APIを呼びだすための技術要素

How "Correct" are LLM Evaluators?

blog.langchain.dev

LLMを用いて評価することをテストした記事
以下を確認している
- モデルごとの評価の正確性
- LangChainの3つの評価プロンプトでどれだけ多様なタスクヲ正確にできるか

PDF論文やプレゼン資料から「表3を説明して」「5～7ページを要約して」などの指示に回答　米Adobeなど「PDFTriage」開発

www.itmedia.co.jp

WebページやPDF論文、プレゼンテーション資料などの複雑な構造からなる特定のドキュメントに対するテキストプロントに適切に回答する、大規模言語モデル（LLM）向けの方法が提案された
- PDFTriageの利用により、特定のページやテーブルを中心とした、文書の構造を踏まえた質問への回答が可能となる
- 文書の構造に関するメタデータへのアクセスを持つことで、構造や内容に基づいてコンテキストを取得できる

Amazon Bedrock が一般利用可能に – 基盤モデルを利用した生成系 AI アプリケーションの構築とスケール

aws.amazon.com

Amazon Bedrockが一般提供を開始した
Amazon Bedrock のワークショップも日本語化されている
- catalog.us-east-1.prod.workshops.aws

[survey] 近年のLLMに関する提案手法について

zenn.dev

LLMの学習や推論に関するさまざまな新しい手法のSurvey記事

第1回関東Kaggler会

www.youtube.com

関東Kaggler会の発表動画
イベント記事も公開されてます。
- note.com

ChatGPTの10ヶ月と開発トレンドの現在地

speakerdeck.com

Prompt Engineering開発の現在地
RAG開発の現在地
Plugin開発の現在地
GPT-Vの登場と生成AI時代のこれからについて

Azure OpenAI Serviceの日本語記事まとめ

zenn.dev

概要
リソース管理
アーキテクチャ
- LangChainでCognitive SearchのベクトルDBと連携させたRAGを構築する
  - qiita.com
SDK/ライブラリ
特定機能
プロンプトエンジニアリング
Power Platform連携
- Power Platform から VNet を使用して Azure OpenAI へ通信する
  - qiita.com
ハンズオン資料/サンプル
- Azure OpenAIのサンプルまとめ
  - zenn.dev
- Azure-Samples/jp-azureopenai-samples
  - github.com

Amazon BedrockのWorkshopをVisual Studio Codeで動かすまでの手順

qiita.com

Langchainのバージョンを上げないといけない等Bedrockを動かすための注意点をまとめた記事

日本語tokenizerを学習する

zenn.dev

tokenizerを学習させてhuggingface hubにuploadするまでを行った記事
- PreTrainedTokenizerを継承してhuggingface hubから使えるようにした記事

LLMを用いたLLMの自動評価について 〜可能性と注意点〜

llm-jp/awesome-japanese-llm

Webやアプリの日本語を読みやすく折り返す「BudouX」。GoogleがGitHubで公開

Google Colab で DeepSpeed によるLLMのフルパラメータの指示チューニングを試す

サイバーセキュリティ関係法令Q&Aハンドブック

rinna の日本語大規模言語モデルが AWS にワンクリックでデプロイできるようになりました

ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

anthropics/anthropic-cookbook

RAGを使った社内情報を回答できる生成AIボットで業務効率化してみた

アジャイルについてマネージャーが知るべき97のこと

AWS Certified Data Engineer - Associate

ChatGPT、プロンプト用プロンプトの書き方

Open Interpreterのアップデート - 2023年9月26日

問い合わせメールをChatGPTで解析してSpreadsheetとNotionに転記する方法の紹介

LLMアプリケーションの安定性を高めるための精度評価・改善

Google Colab で Preferred Networks の PLaMo-13B を試す

米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発

ビジネスパーソンのためのChatGPT API×Excel VBA超活用講座（OSS集会）

How "Correct" are LLM Evaluators?

PDF論文やプレゼン資料から「表3を説明して」「5～7ページを要約して」などの指示に回答 米Adobeなど「PDFTriage」開発

Amazon Bedrock が一般利用可能に – 基盤モデルを利用した生成系 AI アプリケーションの構築とスケール

[survey] 近年のLLMに関する提案手法について

第1回 関東Kaggler会

ChatGPTの10ヶ月と開発トレンドの現在地

Azure OpenAI Serviceの日本語記事まとめ

Amazon BedrockのWorkshopをVisual Studio Codeで動かすまでの手順

日本語tokenizerを学習する

LLMを用いたLLMの自動評価について〜可能性と注意点〜

PDF論文やプレゼン資料から「表3を説明して」「5～7ページを要約して」などの指示に回答　米Adobeなど「PDFTriage」開発

第1回関東Kaggler会