SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年1月22日の週に気になった記事などまとめ

GoogleのマルチモーダルAI「Gemini Pro Vision」は、動画についてどこまで正しく答えられるか?

internet.watch.impress.co.jp

  • Geminiは、PNGJPEGの画像に加えて、MKV、MOV、MP4、WebMの動画に対応している
  • 現状アップロードできる動画は、最大7MB(2分間)まで
  • 時系列の変化の把握はまだ難しい

NTT、少ないデータから特定個人の声や口調を再現する技術を開発。大規模言語モデル「tsuzumi」に搭載

internet.watch.impress.co.jp

  • 個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」を開発したと発表
  • 個人性再現対話技術は、LLMの学習方法である「アダプタ技術」と「ペルソナ対話技術」を組み合わせて、個人性を再現するためのLLMのファインチューニングにあたる調整・追加学習を行うもの

A Cheat Sheet and Some Recipes For Building Advanced RAG

blog.llamaindex.ai

学習済みの LLM を束ねて Mixture of Experts を作るテク

zenn.dev

  • Phixtral で使われている、LLMs を Sparse MoE としてマージする際に Gating のパラメータを決める手法について調べた記事

エンジニアやデザイナーがやっているポッドキャスト更新まとめ

engineer-designer-podcast-rss.it-trio-no.com

Google Colab で StripedHyena-7B を試す

note.com

  • 「TripedHyena-7B」は、短期および長期コンテキストの評価において最高のオープンソース「Transformers」と競合する代替モデル

Leveraging Large Language Models for NLG Evaluation: A Survey

arxiv.org

明治安田生命の実業務における生成AI導入をELYZAが支援

prtimes.jp

  • お客さま応対メモの作成業務を自動化する生成AIサービスを提供
  • 応対メモ作成業務にかかる時間を約30%削減できる見込みのほか、作成者によって微妙に異なる表現が統一化され、わかりやすさが向上することも期待できる

Word で mp3 などの音声ファイルから、文字起こしをさせる方法

qiita.com

  • Microsoft Wordにディクテーション機能がある
  • 動画や音声ファイルから文字起こしできる

日本語LLMの学習に向けたデータ前処理

zenn.dev

  • 言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングのデータ前処理によりノイズを取り除く方法を解説した記事
  • linguaを使って言語検出
  • neologdnを使ってテキスト正規化
  • langchainでテキストチャンキング
  • LLMを用いてperplexityを計算することで品質フィルタリング

Azure Container Service をスケールする

learn.microsoft.com

  • ワークロードシナリオごとの最適なAzure Container Serviceを理解するのに役立つ記事

AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介

levtech.jp

  • 2つの主要な機能を持つモデル
    • 与えられたプロンプトに対して良い応答を生成する能力である
    • 新しい問題(プロンプト)をつくり、それに対する答えを生成し、その品質を評価して(報酬を割り当て)、自分の学習データに加える能力
  • 訓練を1回から3回反復することで、モデルの性能が回数を増すごとに向上すると示された

大規模言語モデルの「幻覚」を軽減する32の最新テクニック バングラデシュなどの研究者らが発表

www.itmedia.co.jp

  • 生成前や生成中、生成後のさまざまな段階で外部情報を取り入れることでより正確な回答を引き出すもの、言語モデル自体を改良して誤った情報の生成を減らすものなど、異なるアプローチに分類されている

Googleなどが開発、LLMに表データ(.csvなど)の情報を深く理解させるためのフレームワーク『Chain of Table』

ai-data-base.com

  • 表形式(.csvなど)のデータを通してLLMが「連鎖的な推論」を行うためのフレームワークが考案された
    • 表データの操作を通してLLMにステップバイステップの推論を行わせデータに対する深い理解を促すChain of Tableを考案

airllmを使ってT4で70B LLMの推論を実行してみる

www.ai-shift.co.jp

  • LLMの層ごとに推論処理を行うアプローチをシンプルなインターフェースで使えるようにしてくれたライブラリがairllm
    • 理論上GPUのメモリは4GBでよい
  • airllmを使ってT4上でmeta-llama/Llama-2-70b-chat-hfの推論を試した記事
  • Llamaベースのモデルしかサポートしていない
  • 1層ずつ処理を行っていくので推論速度はとても遅い

DPO によるLLMのPreferenceチューニング

note.com

  • 「DPO」はLLMを人間またはAIの好みに合わせるための有望な代替手段として浮上している
  • 「DPO」はアライメントの定式化を、嗜好のデータセット上で直接最適化できる単純な損失関数として再構成する

第7回 LLM 勉強会

llm-jp.nii.ac.jp

  • 大規模言語モデルSwallowについての発表資料などが公開されている

Regional Scrum Gathering Tokyo 2024のスライドまとめ #RSGT2024

scrummasudar.hatenablog.com

GoogleColobで小規模言語モデル(0.15B)の事前学習モデルを作ってみる

ayousanz.hatenadiary.jp

Google Colab で Orion-14B を試す

note.com

Mobile Top 10 2024: Final Release Updates

owasp.org

  • OWASP Mobile Top10がリリースされた

Nejumi LLMリーダーボード Neo の LLMベンチマークの使い方

note.com

AWSでCIDR重複したVPC間の通信方法4選を比較してみた

www.lac.co.jp

  • CIDR重複したVPC間の通信方法の代表的な解決ソリューション4選を比較した記事
    • アドレス再設計
    • AWS PrivateLink
    • バックエンドサブネット
    • プライベートNAT Gateway

Streaming With LangChain

python.langchain.com

  • LangChainで Stream出力する方法を記載したページ

ChatGPT で仕事の生産性と質を10倍向上させる方法 -2024年1月バージョン-

speakerdeck.com

New embedding models and API updates

openai.com

  • OpenAIから新しいEmbeddingモデルが公開された
    • text-embedding-3-small
      • text-embedding-ada-002の1/5の価格
      • 英語タスクも多言語タスクもtext-embedding-ada-002から改善
    • text-embedding-3-large
      • 最大 3072 次元のEmbeddingを作成する
      • text-embedding-ada-002より少し高い
  • gpt-3.5-turbo-0125が公開された
    • GPT-3.5 Turboの価格が引き下げられた
    • 英語以外の言語のFunction Callingのテキストエンコーディングのバグが修正された
  • gpt-4-0125-previewが公開された
    • UTF-8を利用した際のバグが修正された
  • 日本語での解説記事

Llama.cppのOpenAI互換モードを使って、OpenAIから少ない手間でローカルLLMに乗り換える

note.com

  • Llama.cppのserverはOpenAI互換モードでリクエストを受け付けている

API を用いた App Service のネットワークトラブルシューティング

jpazpaas.github.io

  • 指定したポートへTCP接続を試みた結果を出力する方法と、指定したhostnameのDNS名前解決を試みた結果を出力する方法が記載されている

Amazon Bedrock でチャットボットを作ってみた!

aws.amazon.com

  • Bedrock Claude Chatを使うと社内専用の生成AIチャットツールを数コマンドで簡単医デプロイできる
  • IPアドレス制限がデフォルトで用意されている
  • Github上のソースコードの場所は以下

LangChain の Tavily Serch API を試す

note.com

Japanese Formal Logic Deduction

github.com

Stability AI Japan の Japanese Stable LM Instruct Alpha 7B v2 が Amazon SageMaker JumpStart で使えるようになりました

aws.amazon.com

  • Amazon SageMaker JumpStart において、Stability AI 社が開発した日本語 LLM である Japanese Stable LM Instruct Alpha 7B v2 が利用可能になった

XWin 70B で LLM 出力日本語文章の自動評価を行う試み

zenn.dev

  • 量子化版Xwin 70Bを使って、LLM 出力日本語文章の自動評価を試した記事

最高水準のオープンソースLLM『Mixtral 8x7B』は内部で専門家が切り替わる高効率モデル

ai-data-base.com

  • タスクに応じて専門家を選ぶ仕組みによって、大きなパラメータでも計算コストを効率よくするのが特徴の「Mixtral 8x7B」の論文について説明した記事

Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs

arxiv.org

  • RAGとFine Tuningの二つのLLMに知識を与えるアプローチを比較した論文
  • 以下のモデルで実験した
    • Llama2-7B
    • Mistral-7B
    • Orca2-7B
  • ファインチューニングで知識を与えるために、様々ないい方で繰り返し知識を与える必要がある

Google Colab で LangGraph を試す

note.com

  • 「LangGraph」は、LLMでステートフルな「マルチアクターアプリケーション」を構築するためのライブラリ
  • 複数チェーン (またはアクター) を複数ステップにわたって循環的に協調動作させることができる

パナソニックコネクトが進める機械学習ライブラリのOSS開発

speakerdeck.com

  • 高い説明性に強みを持つ機械学習モデル「Cyclic boosting」を公開した
  • 確率分布の過程なしで、確率分布を推定できる