SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年2月26日の週に気になった記事などまとめ

Open TTS Tracker

github.com

kunishou/J-ResearchCorpus

huggingface.co

WSL2でgpt2-large-japanese-charを試してみる

note.com

  • gpt2-large-japanese-charは、日本語 Wikipedia、CC-100 の日本語部分、および OSCAR の日本語部分で事前訓練されたGPT-2 Large (7 億 1700 万パラメーター) 言語モデル

Python Risk Identification Tool for generative AI (PyRIT)

github.com

  • 基盤モデルやモデルを利用するアプリケーションのリスクを特定するために利用できるツール

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

arxiv.org

  • 入力コンテキストの長さと推論パフォーマンスの関係を示した論文
  • 入力が長くなるとパフォーマンスが低下する

RAGでの回答精度向上のためのテクニック集(基礎編)

zenn.dev

Azure OpenAI Service を使用して生成 AI ソリューションを開発する

learn.microsoft.com

  • Azure OpenAI Serviceを使って生成AIソリューションを開発するMicrosoft Learnのコース

作業を依頼→Copilotが手順を考え、Windowsデスクトップで“自動RPA” Windows 11に新機能「Power Automate via Copilot in Windows

www.itmedia.co.jp

  • 「Power Automate via Copilot in Windows」はCopilotにプロンプトで作業を依頼することで、Windows上でさまざまな操作をユーザーに代わって自動的に実行してくれる

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

arxiv.org

  • Soraの公開されている情報からモデルの背景や関連技術などを包括的にレビューした論文

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

arxiv.org

  • 1.58ビットに量子化したLLMの論文

TTS Arena: 実際の環境でテキストから音声へのモデルを評価する

hamaruki.com

  • TTS Arenaの紹介記事を日本語化した記事

年間700本ドキュメントを書く人間の技術ブログ執筆方法

zenn.dev

  • 普段からメモを書く
  • 参考記事へのリンクが多く、参考になる

大規模言語モデルは専門医の診断を超えるか

zenn.dev

  • GPT-4と医師の診断・トリアージ制度を比較研究した論文を紹介した記事
  • GPT-4の臨床診断・トリアージの精度は専門医資格を有する意思と比べて遜色がない可能性がある

Code Interpreter 呼び出しの仕組みを理解する

qiita.com

  • Azure OpenAI ServiceでCode Interpreterを利用方法を紹介した記事
  • 呼び出し側の仕組みについても整理されている

Mixtral 250MのpretrainingからInstruction Tuningまで

zenn.dev

  • MoEを持つMixtralがhuggingface/transformersで公開されているので、これを利用しつつ、250Mの小さいサイズとして日本語と英語でpretraining、finetuningを行った記事

いまこそ学ぶLLMベースのAIエージェント入門―基本的なしくみ/開発ツール/有名なOSSや論文の紹介

speakerdeck.com

  • LLMベースのAIエージェントの基本を解説したスライド
  • 環境を「知覚」する仕組みと「アクション」をつなぐ「脳」としてLLMを使うのが、LLMベースのAIエージェント

What Evidence Do Language Models Find Convincing?

arxiv.org

  • 現在のLLMはクエリに対する関連性に大きく依存した文書を重視する
  • LLMは段落を読んで説得力を評価できない

エンジニア間でも大きく差が出る「生成AIをうまく活用できる人」と「できない人」 江草陽太氏が考える、AI時代に求められる能力

logmi.jp

  • 生成AIの出力をレビューできる能力がないと生成は使えない

人間中心設計からAI中心設計へ ~AIエージェントによって変わるソフトウェアのパラダイム

gihyo.jp

  • AIが扱うソフトウェアはAIにとって取り扱いものになっている必要がある

【日本語訳】OpenCodeInterpreter: コード生成、実行、および改善の統合

hamaruki.com

大規模言語モデル(LLM)における日本語評価の概観

tech.algomatic.jp

  • LLM評価について網羅的な調査や各種ツールの導入に取り組んできた知見を共有する記事
  • LLMのコードベースの評価ツールやベンチマークについても紹介されている

Likelihood-based Mitigation of Evaluation Bias in Large Language Models

arxiv.org

  • LLMを評価に利用する場合のバイアスの緩和策を紹介する論文

ChatGPT はどんな性格?PsychoBench を使った LLM の心理描写のベンチマーク

voice.pkshatech.com

  • LLM の評価フレームワークである PsychoBench を紹介した記事
  • 5種類のLLMの心理学的側面を評価、様々な特性の違いなどの知見を提供している

Gemini の情報源まとめ

note.com

NIST サイバーセキュリティフレームワーク 2.0を解説|約10年ぶりの大幅改訂、押さえるべき要点とは?

www.nri-secure.co.jp

  • NIST CSF 2.0における主な改訂のポイントと、特にインパクトの大きい6つ目の新機能「GV(統治)」について解説した記事
  • NIST CSF 2.0への改訂では、これらの幅広い利用用途を反映するために、規模や業種、対策の成熟度に関係なく、中小企業を含むあらゆる企業や組織での利用が進むように再設計された

Semantic Chunking

python.langchain.com

  • LangChainで意味的に似ているかどうかでテキストを分割する

Network Troubleshooter ツール を使用したネットワーク接続のトラブルシュートについて

azure.github.io

  • Azure Portal で使用できる診断ツール “Network Troubleshooter” について紹介した記事
  • App Service における外部接続のトラブルシューティングについては以下でも説明されている
  • 特定のエンドポイントへの接続テストなどができる

LangChain の Gemini統合 を試す

note.com

形で考えるサーバーレス設計

aws.amazon.com

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication

arxiv.org

  • LLMとコミュニケーションする方法を自然言語以外にする手法を提案した論文

FastChatでGPTQの使い方

note.com

カスタムGPTsを悪用した攻撃と対策について

www.mbsd.jp

  • 対策
    • 通信先の外部サーバのFQDNを確認する
    • ダウンロードリンクのURLを確認する
  • GPTsが提案したコードを未検証で使用した場合、思わぬ攻撃を受けてしまう可能性がある

frodo821/BitNet-Transformers

github.com

【論文丁寧解説】BitNet b1.58とは一体何者なのか

qiita.com

Datasets for Large Language Models: A Comprehensive Survey

arxiv.org

ロングコンテキストLLMに対応したRAGの新アーキテクチャ

note.com

  • 「Gemini 1.5 Pro」に対応したRAGのアーキテクチャ
  • 埋め込みモデルはコンテキスト長が最大32Kなのが問題
  • 1Mのコンテキストを入れると最大60秒かかる