SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年8月26日の週に気になった記事などまとめ

GraphRAG Analysis, Part 1: How Indexing Elevates Vector Database Performance in RAG When Using Neo4j

aiencoder.substack.com

  • グラフデータベースとベクターデータベースを比較した記事

Graph Retrieval-Augmented Generation: A Survey

arxiv.org

  • GraphRAGの技術を体系的にレビューした論文

Controllable Text Generation for Large Language Models: A Survey

arxiv.org

  • LLM向けの事前に定義された条件を満たすテキスト生成について体系的にレビューした論文

生成AIによるレポーティング業務の効率化:定常業務タスク自動化の実現

note.com

Meta Knowledge for Retrieval Augmented Large Language Models

arxiv.org

第16回最先端NLP勉強会

sites.google.com

  • TACL、ACL、EMNLP、NAAC、LICLR、ICML、CVPRなどの論文の中から、参加者の投票によって選ばれた論文を各参加者が分担して紹介する論文読み会の資料

LLM のニューロンを可視化し理解する Gemma Scope のススメ

note.com

  • SAEとは、LLM中間レイヤ出力をスパースオートエンコーダーに与え、特徴を取り出す手法

GraphRAGについて詳しくなれる動画【ずんだもん解説】

www.youtube.com

  • GraphRAGのサーベイ論文について解説した動画

“What Do Language Models Learn in Context?” (ACL 2024) “A Theory for Emergence of Complex Skills in Language Models” (arXiv 2023)

http://chasen.org/~daiti-m/paper/SNLP2024-Task-Emergence.pdf

  • LLMがなぜ新しいタスクを解けるかを解明する論文2本を説明したスライド

2030年までに市場はAI活用企業と倒産企業に分かれる!1,000億個のAIエージェントと10億体のロボットがすぐに現実になる時代

www.youtube.com

10X の推薦を作るチームと ML platform

product.10x.co.jp

  • 検索、推薦、UI の開発には、改善サイクルを回すことが必須
  • 10xでは検索エンジニアと推薦エンジニアを明確に分けず協力して開発を進めている

Next.jsの考え方

zenn.dev

  • Next.js App Routerにおける設計やベストプラクティスがまとまった記事

Platform Engineering on Serverless

speakerdeck.com

  • クラウドネイティブなチームでは、価値あるサービス、ユーザーストーリー設計、開発、運用を一貫して行う
  • Serverless向きなプラットフォームでは、ログ収集、ガードレース、CI/CD、Observabilityをプラットフォームチームが担当する

Amazon OpenSearch Service の内部構造 : OpenSearch Optimized Instances (OR1)

aws.amazon.com

Transfusionの詳しめの解説【ずんだもん解説】

www.youtube.com

  • テキストと画像を統合的に処理できるTransfusionを説明した動画

マルチエージェント用フレームワーク「AgentScope」を試す

zenn.dev

  • AgentScopeはマルチエージェントアプリケーション開発を支援するプラットフォーム
  • Google Colabでの環境構築方法が紹介されている

令和トラベル 生成AIサービス開発の舞台裏 生成AIのアウトプットの質をあげるための"戦略"と"実行"

www.docswell.com

  • Cursorを利用して、人間の戦略に役立てる方法を説明するスライド

Bedrock Enginner

github.com

Google Colab で CogVideoX を試す

note.com

  • 「CogVideoX」は、「Zhipu AI」が開発した動画生成AI

Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution

arxiv.org

  • 表データのための言語モデリング技術に対する体系的なレビュー論文

uv から始まる Python 開発環境構築

zenn.dev

  • uvはPythonのラインタイムパッケージングをひとつで置き換えることができる

Gemini の 新機能 - Gems と Imagen 3 の概要

note.com

  • Gemsは任意のトピックに関する独自のAIエキスパートを作成する機能
  • Imagen 3は写真のようにリアルな風景、テクスチャのある油絵、気まぐれなクレイアニメのシーンなど、さまざまなスタイルの画像を作成するよう依頼できる

kotaemon

github.com

  • カスタマイズ可能なRAGUI
  • Gradioベースで構築されている

gpt-repository-loader

github.com

  • GitリポジトリをLLMに入力する用のファイルに変換するツール

2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊

qiita.com

AWSのみで開発・運用環境を完結したい方必見。OSSドキュメンテーションツールMkDocsの紹介

serverless.co.jp

Dify - LINE Bot連携 考え方と実用テクニック

speakerdeck.com

RAGHack: Let's build RAG applications together

github.com

  • Microsoftが主催するRAG技術を活用したAIアプリケーションの構築を目的としたハッカソンを紹介するページ

【Let's ハンズオン🖐️】Next.jsとAzure AI Serviceで作る 英会話Lessonアプリ 🚀

zenn.dev

ソースコードリポジトリ丸ごとLLMに読んでもらう方法

zenn.dev

  • リポジトリ全体をテキスト形式に変換するツールを紹介する記事

Tanuki-8x8Bをダウンロードした後に推論させる方法について

zenn.dev

  • Tanuki-8x8Bの複数の推論方法を紹介する記事

東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開

weblab.t.u-tokyo.ac.jp

  • Tanuki-8×8Bは「Japanese MT-Bench」で「GPT-3.5 Turbo」と同等以上の性能を発揮
  • Apache 2,0ライセンスで研究、商業目的での利用が可能
  • 総合的な推論性能はGPT-4o、Gemini-1.5-pro、Claude-3.5-sonnetなどの海外の最先端モデルにはまだ追いついていない

Large Language Mario:VLMはやっぱり位置関係の把握が苦手🍄?

kazuhito00.hatenablog.com

  • VLMは、レトロなゲーム画像などの認識には弱い可能性がある
  • 操作のタイミングや効果を理解していない

Difyのコード実行機能で任意のPythonライブラリを使う

tmokmss.hatenablog.com

LLM を現場で評価する

speakerdeck.com

  • タスクが多様なため、正答率以外の指標が必要となる
  • ユースケース単位で品質評価する
  • ユースケースの整理を行うためには、100-1000件程度のログの目視確認が必要
  • 分類をLLMを用いて行うことも可能

Google Colab で Tanuki-8x8B を試す

note.com

Google Colab で Qwen2-VL を試す

note.com

  • 視覚理解ベンチマークで最先端のパフォーマンスを実現
  • 20分以上の動画を理解
  • 日本語をサポート

AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由

tjo.hatenablog.com

  • 統計分析やデータ可視化はエビデンスを提示して、残りは自分で考えさせる
    • ユーザーが自分自身でドメイン知識に基づき解釈して考えて意思決定するプロセスが求められる
  • 統計分析でもデータ可視化でもある程度以上踏み込んでユーザー自身が考えなければならない文量を減らす努力がデータ分析職の側に求められる

LangGraphのMermaid出力機能とその活用事例

zenn.dev

  • LangGraphは出来上がったグラフをMermaidフォーマットで出力できる

ChatbotArena的なシステムでTanuki-8x8Bを始めとする大規模言語モデルの日本語性能を評価する(2024年8月)

zenn.dev

  • Japanese MT-Benchで高スコアを出したモデルが必ずしも「ChatBot Arena」形式の対話試験でも高評価を得るわけではない

大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー

zenn.dev

  • 合成データは指示追従性や質疑応答の精度向上に効果的だった
  • 指示学習は事前学習と同じドメインで実施することが重要

フルスクラッチで開発した大規模言語モデルTanuki-8B, 8x8Bの性能についての技術的な詳細

zenn.dev

  • 2ターン目の回答精度が落ちる
  • 数学・論理推論・コード生成ではGPT=4などの最先端モデルとの性能差が依然として存在する

大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など

zenn.dev

  • 理論よりも実際のモデルの挙動を重視した
  • 指示に従う能力を最重要課題として設定した
  • 高性能なAppache2.0ライセンスのモデルで高品質な対話データを作った

生成AIは市場をどう変えたのか?

note.com

  • 汎用AIはユースケースが多いうえに学習・推論環境を自前で用意しなくてもAIを利用できるため、コストが大幅に削減される

Llama.cpp で Command-R-plus-08-2024 を試す

note.com

WSL2でTanuki-8B-dpo-v1.0をvLLMと共に試してみる

note.com

DL SEMINARS

deeplearning.jp

ローカルマシンで動いている言語モデルをWebサーバーで一般公開するメモ

note.com

  • ローカルで動いているLLMを公開するためにngrokを利用する方法が紹介された記事

【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す

note.com

Tanuki-8B-dpo-v1.0をColabで試してみる。

bwgift.hatenadiary.jp

Implementing advanced prompt engineering with Amazon Bedrock

aws.amazon.com

  • AWS Bedrockを使用した高度なプロンプトエンジニアリングについて説明した記事

生成AIの手順書作成能力の比較ChatGPT, COPILOT, Gemini, Claude, Perplexity

note.com

Ollama + Open WebUI でローカルLLMを手軽に楽しむ

zenn.dev

05 LLMでマリオをプレイ「Large Language Mario」に挑戦。Qwen2も味見。

bwgift.hatenadiary.jp

RAGにベクトルDBは必要ない!DBも不要で運用めちゃ楽な RAG Chatbot を作った話

speakerdeck.com

  • LLMで検索ワードを多重化してSlack検索し、その結果を基に回答を作成するシステムを構築した

Grounding and Evaluation for Large Language Models

sites.google.com

Kaggle LLM 20 Questionsの解説と上位ソリューションまとめ

qiita.com

  • 「LLM 20 Questions」の概要と上位ソリューションについての解説記事