SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年1月1日の週に気になった記事などまとめ

元旦なので社長(AI)にElyza13Bを使ってクリーンで自由な会話データセットを作ってもらってみた

note.com

  • Elyza13BがWikipediaの知識からマルチターンの会話データセットを出力するプログラムを書いてみた記事

Large Language Models for Generative Information Extraction: A Survey

arxiv.org

  • LLMで自然言語テキストから構造的な知識を抽出する方法の体系的なレビューを行った論文

OpenAI Assistants APIを使って社内用GPTsを作った際に苦労した5つの点

note.com

  • Assistants APIのほぼすべての機能を使い、OpenAIのGPTsに近いものを構築した記事
  • Assistants APIは多くのAPIが存在し、さらにデータの永続化もAPI側で管理されている
  • Code InterpreterやFunction Callingの結果はランステップにしか存在しない情報
  • Assistants APIを用いて作成したアシスタントやスレッドやファイルはOrganizationに対して一つの空間で管理されている
    • 現在のAssistants APIのデータアクセスの仕組みでは、実際のプロダクトでの利用は現実的ではない

Google Colab で LLaMA-Factory を試す

note.com

  • WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワーク「LLaMA-Factory」を試した記事

Google Colab で Text Generation WebUI を試す

note.com

  • 公式Colabノートブックをコピーするだけで簡単に使うことができる

最近の日本語特化オープンLLMをつまみ食いする

note.com

  • Wikipediaの内容を要約して会話データセットを作る」タスクをいくつかのLLMで実施した記事
  • Qarasu-14B-chat-plus-unleashedでよい結果が得られた

オープンソースなLLM(calm2-7b)のCPU推論エンドポイントをAzureとllama-cpp-pythonでシュッとつくる

note.com

  • llama.cppで用いられるggufファイルをモデルとしてAzureMLにアップロードし、推論用の簡単なpythonコードをllama-cpp-pythonを使って書き、それを実行するためのミニマルなDockerfileと組み合わせることで、お手軽にggufモデルを動かしてくれるエンドポイントを作成する方法を紹介した記事
  • Modelにggufファイルをアップロードする
  • 推論コードを実行するための実行環境Enviromentを作る
    • Dockerfileを作成する
  • MLFlow互換モデルではないため、オリジナルの推論コードが必要

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

arxiv.org

  • LLMのハルシネーションを軽減するための32の技術を紹介するサーベイ論文
  • プロンプトエンジニアリングとモデル開発による手法が記載されエチル

Azure OpenAI よくある質問

zenn.dev

  • Azure OpenAI利用について、よく聞かれる質問についてまとめた記事
  • 以下抜粋
    • Azure OpenAIだけではプロンプトのログを取る機能はありません
    • Azure OpenAIに対してアクセスキーを無効にする方法はある

Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか

ai-data-base.com

  • シーンレベルの認識ではGPT-4Vは要素が密集している環境でも優れた性能
  • Geminiは異なるフレームからの情報を統合する能力がある
  • Geminiは高レベルのアイデアを簡潔に要約する能力に長けており、GPT-4Vは詳細な説明を提供する

私のセキュリティ情報収集法を整理してみた(2024年版)

foxsecurity.hatenablog.com

  • 世界の脅威動向を理解することが年々重要になっている
  • セキュリティ関連の情報源について紹介した記事

【2023年総括】LLMと時々Azure OpenAI Serviceなイベント資料まとめ

note.com

DocLLM: A layout-aware generative language model for multimodal document understanding

arxiv.org

単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ

note.com

  • 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、V100 32GB一つで推論可能どころか学習も可能
    • CPUのRAMは49GB以上必要
  • テキスト、画像、ビデオ、オーディオを入力し、テキスト・音楽を生成できる

[12/30~01/05] LLM Weekly News by EXPLAZA

note.com

LLMのRAG(外部知識検索による強化)をまとめた調査報告

ai-data-base.com

  • RAGを体系的に整理した論文の紹介

bclavie/RAGatouille

github.com

  • RAGパイプラインで最先端のメソッドを簡単に使用できるようにしたライブラリ
    • 現時点ではColBERTを使いやすくしたライブラリ

外部データを利用したLLM出力精度の向上と著作権問題

speakerdeck.com

  • ファインチューニング・セマンティック検索・In-Context Learning・RAGを活用する際の著作権侵害について解説

LLM Augmented LLMs: Expanding Capabilities through Composition

arxiv.org

【備忘録】llama-cpp-python+pyinstallerでexe配布するときの注意点

zenn.dev

  • モデルを含めて、onefileでpyinstallerでexeを作成するとビルド時にエラーになる

GoogleVision APIPythonから呼び出して、画像内のテキストを検出する

nikkie-ftnext.hatenablog.com

シュッと GPTs の Action について書いてみた

note.com

週刊AIニュース (2024年1月1週目)

note.com