SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年2月26日の週に気になった記事などまとめ

気になったものまとめ

Open TTS Tracker
kunishou/J-ResearchCorpus
WSL2でgpt2-large-japanese-charを試してみる
Python Risk Identification Tool for generative AI (PyRIT)
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
RAGでの回答精度向上のためのテクニック集（基礎編）
Azure OpenAI Service を使用して生成 AI ソリューションを開発する
作業を依頼→Copilotが手順を考え、Windowsデスクトップで“自動RPA”　Windows 11に新機能「Power Automate via Copilot in Windows」
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
TTS Arena: 実際の環境でテキストから音声へのモデルを評価する
年間700本ドキュメントを書く人間の技術ブログ執筆方法
大規模言語モデルは専門医の診断を超えるか
Code Interpreter 呼び出しの仕組みを理解する
Mixtral 250MのpretrainingからInstruction Tuningまで
いまこそ学ぶLLMベースのAIエージェント入門―基本的なしくみ／開発ツール／有名なOSSや論文の紹介
What Evidence Do Language Models Find Convincing?
エンジニア間でも大きく差が出る「生成AIをうまく活用できる人」と「できない人」　江草陽太氏が考える、AI時代に求められる能力
人間中心設計からAI中心設計へ～AIエージェントによって変わるソフトウェアのパラダイム
【日本語訳】OpenCodeInterpreter: コード生成、実行、および改善の統合
大規模言語モデル（LLM）における日本語評価の概観
Likelihood-based Mitigation of Evaluation Bias in Large Language Models
ChatGPT はどんな性格？PsychoBench を使った LLM の心理描写のベンチマーク
Gemini の情報源まとめ
NIST サイバーセキュリティフレームワーク 2.0を解説｜約10年ぶりの大幅改訂、押さえるべき要点とは？
Semantic Chunking
Network Troubleshooter ツールを使用したネットワーク接続のトラブルシュートについて
LangChain の Gemini統合を試す
形で考えるサーバーレス設計
Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication
FastChatでGPTQの使い方
カスタムGPTsを悪用した攻撃と対策について
frodo821/BitNet-Transformers
【論文丁寧解説】BitNet b1.58とは一体何者なのか
Datasets for Large Language Models: A Comprehensive Survey
ロングコンテキストLLMに対応したRAGの新アーキテクチャ

Open TTS Tracker

OpenなTTSが一覧となっているリポジトリ

kunishou/J-ResearchCorpus

言語処理学会誌「自然言語処理」のうち、CC-BY-4.0公開の論文から作成したデータが追加された

WSL2でgpt2-large-japanese-charを試してみる

gpt2-large-japanese-charは、日本語 Wikipedia、CC-100 の日本語部分、および OSCAR の日本語部分で事前訓練されたGPT-2 Large (7 億 1700 万パラメーター) 言語モデル

Python Risk Identification Tool for generative AI (PyRIT)

基盤モデルやモデルを利用するアプリケーションのリスクを特定するために利用できるツール

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

入力コンテキストの長さと推論パフォーマンスの関係を示した論文
入力が長くなるとパフォーマンスが低下する

RAGでの回答精度向上のためのテクニック集（基礎編）

「RAGに関するチートシート」について、翻訳し、解説した記事

Azure OpenAI Service を使用して生成 AI ソリューションを開発する

learn.microsoft.com

Azure OpenAI Serviceを使って生成AIソリューションを開発するMicrosoft Learnのコース

作業を依頼→Copilotが手順を考え、Windowsデスクトップで“自動RPA”　Windows 11に新機能「Power Automate via Copilot in Windows」

www.itmedia.co.jp

「Power Automate via Copilot in Windows」はCopilotにプロンプトで作業を依頼することで、Windows上でさまざまな操作をユーザーに代わって自動的に実行してくれる

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Soraの公開されている情報からモデルの背景や関連技術などを包括的にレビューした論文

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

1.58ビットに量子化したLLMの論文

TTS Arena: 実際の環境でテキストから音声へのモデルを評価する

TTS Arenaの紹介記事を日本語化した記事

年間700本ドキュメントを書く人間の技術ブログ執筆方法

普段からメモを書く
参考記事へのリンクが多く、参考になる

大規模言語モデルは専門医の診断を超えるか

GPT-4と医師の診断・トリアージ制度を比較研究した論文を紹介した記事
GPT-4の臨床診断・トリアージの精度は専門医資格を有する意思と比べて遜色がない可能性がある

Code Interpreter 呼び出しの仕組みを理解する

Azure OpenAI ServiceでCode Interpreterを利用方法を紹介した記事
呼び出し側の仕組みについても整理されている

Mixtral 250MのpretrainingからInstruction Tuningまで

MoEを持つMixtralがhuggingface/transformersで公開されているので、これを利用しつつ、250Mの小さいサイズとして日本語と英語でpretraining、finetuningを行った記事

いまこそ学ぶLLMベースのAIエージェント入門―基本的なしくみ／開発ツール／有名なOSSや論文の紹介

speakerdeck.com

LLMベースのAIエージェントの基本を解説したスライド
環境を「知覚」する仕組みと「アクション」をつなぐ「脳」としてLLMを使うのが、LLMベースのAIエージェント

What Evidence Do Language Models Find Convincing?

現在のLLMはクエリに対する関連性に大きく依存した文書を重視する
LLMは段落を読んで説得力を評価できない

エンジニア間でも大きく差が出る「生成AIをうまく活用できる人」と「できない人」　江草陽太氏が考える、AI時代に求められる能力

生成AIの出力をレビューできる能力がないと生成は使えない

人間中心設計からAI中心設計へ～AIエージェントによって変わるソフトウェアのパラダイム

AIが扱うソフトウェアはAIにとって取り扱いものになっている必要がある

【日本語訳】OpenCodeInterpreter: コード生成、実行、および改善の統合

大規模言語モデル（LLM）における日本語評価の概観

tech.algomatic.jp

LLM評価について網羅的な調査や各種ツールの導入に取り組んできた知見を共有する記事
LLMのコードベースの評価ツールやベンチマークについても紹介されている

Likelihood-based Mitigation of Evaluation Bias in Large Language Models

LLMを評価に利用する場合のバイアスの緩和策を紹介する論文

ChatGPT はどんな性格？PsychoBench を使った LLM の心理描写のベンチマーク

voice.pkshatech.com

LLM の評価フレームワークである PsychoBench を紹介した記事
5種類のLLMの心理学的側面を評価、様々な特性の違いなどの知見を提供している

Gemini の情報源まとめ

NIST サイバーセキュリティフレームワーク 2.0を解説｜約10年ぶりの大幅改訂、押さえるべき要点とは？

www.nri-secure.co.jp

NIST CSF 2.0における主な改訂のポイントと、特にインパクトの大きい6つ目の新機能「GV（統治）」について解説した記事
NIST CSF 2.0への改訂では、これらの幅広い利用用途を反映するために、規模や業種、対策の成熟度に関係なく、中小企業を含むあらゆる企業や組織での利用が進むように再設計された

Semantic Chunking

python.langchain.com

LangChainで意味的に似ているかどうかでテキストを分割する

Network Troubleshooter ツールを使用したネットワーク接続のトラブルシュートについて

azure.github.io

Azure Portal で使用できる診断ツール “Network Troubleshooter” について紹介した記事
App Service における外部接続のトラブルシューティングについては以下でも説明されている
- learn.microsoft.com
特定のエンドポイントへの接続テストなどができる

LangChain の Gemini統合を試す

形で考えるサーバーレス設計

AWS上のサーバレス設計パターンがユースケース主導で紹介されている

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication

LLMとコミュニケーションする方法を自然言語以外にする手法を提案した論文

FastChatでGPTQの使い方

カスタムGPTsを悪用した攻撃と対策について

対策
- 通信先の外部サーバのFQDNを確認する
- ダウンロードリンクのURLを確認する
GPTsが提案したコードを未検証で使用した場合、思わぬ攻撃を受けてしまう可能性がある

frodo821/BitNet-Transformers

BitNet b1.58を実装したリポジトリ

【論文丁寧解説】BitNet b1.58とは一体何者なのか

Datasets for Large Language Models: A Comprehensive Survey

LLMのデータセットが包括的にまとめられたサーベイ論文

ロングコンテキストLLMに対応したRAGの新アーキテクチャ

「Gemini 1.5 Pro」に対応したRAGのアーキテクチャ
埋め込みモデルはコンテキスト長が最大32Kなのが問題
1Mのコンテキストを入れると最大60秒かかる