SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年1月1日の週に気になった記事などまとめ

気になったものまとめ

元旦なので社長(AI)にElyza13Bを使ってクリーンで自由な会話データセットを作ってもらってみた
Large Language Models for Generative Information Extraction: A Survey
OpenAI Assistants APIを使って社内用GPTsを作った際に苦労した5つの点
Google Colab で LLaMA-Factory を試す
Google Colab で Text Generation WebUI を試す
最近の日本語特化オープンLLMをつまみ食いする
オープンソースなLLM(calm2-7b)のCPU推論エンドポイントをAzureとllama-cpp-pythonでシュッとつくる
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
Azure OpenAI よくある質問
Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか
私のセキュリティ情報収集法を整理してみた（2024年版）
【2023年総括】LLMと時々Azure OpenAI Serviceなイベント資料まとめ
DocLLM: A layout-aware generative language model for multimodal document understanding
単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ
[12/30~01/05] LLM Weekly News by EXPLAZA
LLMのRAG（外部知識検索による強化）をまとめた調査報告
bclavie/RAGatouille
外部データを利用したLLM出力精度の向上と著作権問題
LLM Augmented LLMs: Expanding Capabilities through Composition
【備忘録】llama-cpp-python+pyinstallerでexe配布するときの注意点
GoogleのVision APIをPythonから呼び出して、画像内のテキストを検出する
シュッと GPTs の Action について書いてみた
週刊AIニュース (2024年1月1週目)

元旦なので社長(AI)にElyza13Bを使ってクリーンで自由な会話データセットを作ってもらってみた

Elyza13BがWikipediaの知識からマルチターンの会話データセットを出力するプログラムを書いてみた記事

Large Language Models for Generative Information Extraction: A Survey

LLMで自然言語テキストから構造的な知識を抽出する方法の体系的なレビューを行った論文

OpenAI Assistants APIを使って社内用GPTsを作った際に苦労した5つの点

Assistants APIのほぼすべての機能を使い、OpenAIのGPTsに近いものを構築した記事
Assistants APIは多くのAPIが存在し、さらにデータの永続化もAPI側で管理されている
Code InterpreterやFunction Callingの結果はランステップにしか存在しない情報
Assistants APIを用いて作成したアシスタントやスレッドやファイルはOrganizationに対して一つの空間で管理されている
- 現在のAssistants APIのデータアクセスの仕組みでは、実際のプロダクトでの利用は現実的ではない

Google Colab で LLaMA-Factory を試す

WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワーク「LLaMA-Factory」を試した記事

Google Colab で Text Generation WebUI を試す

公式Colabノートブックをコピーするだけで簡単に使うことができる

最近の日本語特化オープンLLMをつまみ食いする

「Wikipediaの内容を要約して会話データセットを作る」タスクをいくつかのLLMで実施した記事
Qarasu-14B-chat-plus-unleashedでよい結果が得られた

オープンソースなLLM(calm2-7b)のCPU推論エンドポイントをAzureとllama-cpp-pythonでシュッとつくる

llama.cppで用いられるggufファイルをモデルとしてAzureMLにアップロードし、推論用の簡単なpythonコードをllama-cpp-pythonを使って書き、それを実行するためのミニマルなDockerfileと組み合わせることで、お手軽にggufモデルを動かしてくれるエンドポイントを作成する方法を紹介した記事
Modelにggufファイルをアップロードする
推論コードを実行するための実行環境Enviromentを作る
- Dockerfileを作成する
MLFlow互換モデルではないため、オリジナルの推論コードが必要

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

LLMのハルシネーションを軽減するための32の技術を紹介するサーベイ論文
プロンプトエンジニアリングとモデル開発による手法が記載されエチル

Azure OpenAI よくある質問

Azure OpenAI利用について、よく聞かれる質問についてまとめた記事
以下抜粋
- Azure OpenAIだけではプロンプトのログを取る機能はありません
- Azure OpenAIに対してアクセスキーを無効にする方法はある

Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか

ai-data-base.com

シーンレベルの認識ではGPT-4Vは要素が密集している環境でも優れた性能
Geminiは異なるフレームからの情報を統合する能力がある
Geminiは高レベルのアイデアを簡潔に要約する能力に長けており、GPT-4Vは詳細な説明を提供する

私のセキュリティ情報収集法を整理してみた（2024年版）

foxsecurity.hatenablog.com

世界の脅威動向を理解することが年々重要になっている
セキュリティ関連の情報源について紹介した記事

【2023年総括】LLMと時々Azure OpenAI Serviceなイベント資料まとめ

DocLLM: A layout-aware generative language model for multimodal document understanding

単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ

動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、V100 32GB一つで推論可能どころか学習も可能
- CPUのRAMは49GB以上必要
テキスト、画像、ビデオ、オーディオを入力し、テキスト・音楽を生成できる

[12/30~01/05] LLM Weekly News by EXPLAZA

LLMのRAG（外部知識検索による強化）をまとめた調査報告

ai-data-base.com

RAGを体系的に整理した論文の紹介

bclavie/RAGatouille

RAGパイプラインで最先端のメソッドを簡単に使用できるようにしたライブラリ
- 現時点ではColBERTを使いやすくしたライブラリ

外部データを利用したLLM出力精度の向上と著作権問題

speakerdeck.com

ファインチューニング・セマンティック検索・In-Context Learning・RAGを活用する際の著作権侵害について解説

LLM Augmented LLMs: Expanding Capabilities through Composition

【備忘録】llama-cpp-python+pyinstallerでexe配布するときの注意点

モデルを含めて、onefileでpyinstallerでexeを作成するとビルド時にエラーになる

GoogleのVision APIをPythonから呼び出して、画像内のテキストを検出する

nikkie-ftnext.hatenablog.com

シュッと GPTs の Action について書いてみた

週刊AIニュース (2024年1月1週目)