LLMを用いたLLMの自動評価について 〜可能性と注意点〜
engineers.ntt.com
- LLM に LLM の評価そのものを行わせるアプローチについて紹介した記事
- 個人的に勉強になった点
- 1番目 or 2番目にあるだけでその出力が良いとしてしまう位置バイアスが指摘されている
- そのため位置を入れ替えても同じ結論になるかを確認する必要がある
llm-jp/awesome-japanese-llm
github.com
- 一般公開されている日本語LLMに関する情報をまとめたページ
Webやアプリの日本語を読みやすく折り返す「BudouX」。GoogleがGitHubで公開
pc.watch.impress.co.jp
- 日本語などをより読みやすく適切に折り返す「BudouX」をGoogleが公開した
- マシンラーニングモデルを含めても20KB程度と軽量で、サードパーティのAPIやライブラリなどに依存しない
Google Colab で DeepSpeed によるLLMのフルパラメータの指示チューニングを試す
note.com
- 「Google Colab」で「DeepSpeed」によるLLMのフルパラメータの指示チューニング (Instruction Tuning) を試した記事
- DeepSpeedで1BのモデルをCPU42.4GB、GPU7.2GBで学習できている
サイバーセキュリティ関係法令Q&Aハンドブック
security-portal.nisc.go.jp
- 企業における平時のサイバーセキュリティ対策及びインシデント発生時の対応に関する法令上の事項に加え、情報の取扱いに関する法令や情勢の変化等に伴い生じる法的課題等を可能な限り平易な表記で記述したハンドブック
rinna の日本語大規模言語モデルが AWS にワンクリックでデプロイできるようになりました
aws.amazon.com
- 教師有り学習かつ強化学習済みである japanese-gpt-neox-3.6b-instruction-ppoをSageMaker JumpStartから簡単にデプロイできるようになった
- ファインチューニングについても近日対応予定
ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編
zenn.dev
- JGLUEベースの評価データセットは指示に追従する能力を評価することには適していない
- Rakudaは日本の地理・政治・歴史・社会の知識を問うタスクが多い
- そのため、複雑な指示とユーザーの役に立つ回答からなる日本語instructionモデル評価データセット ELYZA-tasks-100を作成した
- 複数人で評価しているが、上位や下位のモデルの評価は一致するが、中間のモデルの評価はブレてしまう
- GPT-4による自動評価はおおむね人で評価と相関している
- 採点基準をつけると人手の評価により近づけることができる
anthropics/anthropic-cookbook
github.com
RAGを使った社内情報を回答できる生成AIボットで業務効率化してみた
dev.classmethod.jp
- Google CloudのVertex AI Search(Enterprise Search)を使ってRAGシステムを3週間試用してみた結果について記載した記事
- 全社的に関係する手続きや規則に関することをまとめているページに記載されていることに回答するシステムを導入した結果
- 解決できたのは、73.9%
- 解決できなかった回答の分析がされている
アジャイルについてマネージャーが知るべき97のこと
slide.meguro.ryuzee.com
- アジャイルについてマネージャーが知るべき重要なことを紹介した資料
- 個人的に興味があったこと
- 事業計画はその通りになるはずがない
- 事前の検討をたくさんしても不確実性は減らない
- プロダクトの成功を計測する指標を定めよう
- 機能するチームを作るコツ
- プロダクトすべてで統一の品質を求めない
AWS Certified Data Engineer - Associate
aws.amazon.com
- AWS認定の新資格
- コアデータ関連の AWS サービスのスキルと知識や、データパイプラインの実装、問題のモニタリングとトラブルシューティング、ベストプラクティスに従ってコストとパフォーマンスを最適化する能力を検証する
ChatGPT、プロンプト用プロンプトの書き方
note.com
- プロンプトの改変や評価に関するプロンプトの書き方のコツやテクニックを紹介した記事
Open Interpreterのアップデート - 2023年9月26日
note.com
問い合わせメールをChatGPTで解析してSpreadsheetとNotionに転記する方法の紹介
note.com
- メールの内容をChatGPTで解析してSpreadsheetとNotionに転記する方法について紹介した記事
- 問い合わせのメールから、業界、相談者の部署、相談者の役職、導入時期、会社規模、予算、対象などのいくつかの項目を取得し、その内容をSpreadsheetに転記する作業を実装
- Function Callingで必要な情報を抜き出している
LLMアプリケーションの安定性を高めるための精度評価・改善
speakerdeck.com
- 新技術の活用をPoC・実験で終わらせないために気を付けるべきこと
- LLMを評価するための評価指標
- LLMで精度が出ない時の原因と改善のための心がけ
Google Colab で Preferred Networks の PLaMo-13B を試す
note.com
米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発
www.itmedia.co.jp
- 複数枚の画像とテキストを処理できる大規模言語モデル(LLM)が提案された
speakerdeck.com
How "Correct" are LLM Evaluators?
blog.langchain.dev
- LLMを用いて評価することをテストした記事
- 以下を確認している
- モデルごとの評価の正確性
- LangChainの3つの評価プロンプトでどれだけ多様なタスクヲ正確にできるか
PDF論文やプレゼン資料から「表3を説明して」「5~7ページを要約して」などの指示に回答 米Adobeなど「PDFTriage」開発
www.itmedia.co.jp
- WebページやPDF論文、プレゼンテーション資料などの複雑な構造からなる特定のドキュメントに対するテキストプロントに適切に回答する、大規模言語モデル(LLM)向けの方法が提案された
- PDFTriageの利用により、特定のページやテーブルを中心とした、文書の構造を踏まえた質問への回答が可能となる
- 文書の構造に関するメタデータへのアクセスを持つことで、構造や内容に基づいてコンテキストを取得できる
Amazon Bedrock が一般利用可能に – 基盤モデルを利用した生成系 AI アプリケーションの構築とスケール
aws.amazon.com
[survey] 近年のLLMに関する提案手法について
zenn.dev
- LLMの学習や推論に関するさまざまな新しい手法のSurvey記事
第1回 関東Kaggler会
www.youtube.com
- 関東Kaggler会の発表動画
- イベント記事も公開されてます。
ChatGPTの10ヶ月と開発トレンドの現在地
speakerdeck.com
- Prompt Engineering開発の現在地
- RAG開発の現在地
- Plugin開発の現在地
- GPT-Vの登場と生成AI時代のこれからについて
Azure OpenAI Serviceの日本語記事まとめ
zenn.dev
- 概要
- リソース管理
- アーキテクチャ
- LangChainでCognitive SearchのベクトルDBと連携させたRAGを構築する
- SDK/ライブラリ
- 特定機能
- プロンプトエンジニアリング
- Power Platform連携
- Power Platform から VNet を使用して Azure OpenAI へ通信する
- ハンズオン資料/サンプル
- Azure OpenAIのサンプルまとめ
- Azure-Samples/jp-azureopenai-samples
qiita.com
- Langchainのバージョンを上げないといけない等Bedrockを動かすための注意点をまとめた記事
日本語tokenizerを学習する
zenn.dev
- tokenizerを学習させてhuggingface hubにuploadするまでを行った記事
- PreTrainedTokenizerを継承してhuggingface hubから使えるようにした記事