SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年5月13日の週に気になった記事などまとめ

気になったものまとめ

moment-timeseries-foundation-model/moment
karaage0703/code-cooker
TSKaigi 2024 スライドまとめ【非公式】
【LLM】1B帯の日本語事前学習モデルのベンチマークを測定する
これまでの検索と生成AI時代の検索
Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説（生成AIウィークリー）
OpenAI の Model Spec の概要
最近（2024年4月）公開された LLM を ELYZA-tasks-100 で性能評価してみた
LLM評価の落とし穴~開発者目線で気をつけるポイント~
Weekly AI Agents News!
Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure
Introducing GPT-4o and more tools to ChatGPT free users
OpenAI、次世代AIモデル「GPT-4o」を発表
Hello GPT-4o
Agentic Design Patterns Part 1
OpenAI 言語モデルで日本語を扱う際のトークン数推定指標
高性能な日本語マルチモーダル基盤モデル「clip-japanese-base」を公開しました
大規模言語モデル (LLM)における低精度数値表現
GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる
Android の Google AI の新機能まとめ
圧倒的な読書量を誇るからあげ氏が実践・読書との向き合い方
Gemini 1.5 Pro のアップデート・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2
LangChainのパートナーパッケージ langchain-huggingface の概要
PaliGemma の概要
2023年度デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました
新入生向けチュートリアル：文献のサーベイv2
「情報の取捨選択をするには、自分の価値関数を磨くしかない」年間2冊ペースで執筆する、布留川氏の情報収集ルーティーン
神戸市さん、データ利活用しすぎ……またまたやってくれました！無料で誰でも使える「統計ダッシュボード」拡充
生成AIユースケースを考え倒すためのGenerative AI Use Cases JP (GenU)の魅力と使い方
ハルシネーションを大幅抑止し専門的な質問にも正確な回答が可能な生成AI　ストックマーク 1,000億パラメータ規模の独自LLMを公開
AIラジオ『zenncast』の技術構成（プロンプトつき）
【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる
OpenAI Spring Update v.s. Google I/O 2024
生成AI Topic｜OpenAI Spring Update と Google I/O 2024 に関するサマリー解説
[05/11~05/17] 生成AI Weekly News
LLM に表データを読み解かせたかったので、ちょっと試してみた
高効率のLLM学習手法ReFTを試してみる
LangChain のユースケース
【2024年版】WSL2+Ubuntu24.04+Docker＋GPUでつくる機械学習環境
LangChain v0.1 から v0.2 への移行手順
大規模言語モデル研究の最近の潮流(?)と実験研究への展開可能性について
LangChain v0.2 でエージェントを構築
LangChain v0.2 で RAGを構築
LangChain v0.2 でチャットボットを構築
LangChain v0.2 で単純なLLMアプリケーションを構築
速度・出力量・コスト効率最強の、Gemini 1.5 Flash！
【TOYOTA×NISSAN×Honda】Japan Mobility Tech Day “zero” ～ソフトウェアエンジニアにとって、自動車業界が"今"最高にアツい理由(ワケ) ～
GPT-4oを使って2Dの図面から3DのCADモデルを作る
人間とAIの協働

moment-timeseries-foundation-model/moment

汎用時系列分析のためのオープンソース基盤モデル

karaage0703/code-cooker

SimpleなCode Intepreter

TSKaigi 2024 スライドまとめ【非公式】

【LLM】1B帯の日本語事前学習モデルのベンチマークを測定する

llm-jp-evalで測定した
Japanese Stable LM 2 1.6Bが多くの1B帯の事前学習モデルと比べて性能が良かった

これまでの検索と生成AI時代の検索

LLMの登場により、自分が知りたいことにパーソナライズして回答を得ることができるようになった

Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説（生成AIウィークリー）

www.techno-edge.net

GoogleがTimeFM（Time Series Foundation Model）という時系列予測のための基盤モデルを開発した

OpenAI の Model Spec の概要

OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書]
メッセージの役割ごとの優先順位は、Platform > Developer > User > Tool
開発者は、メッセージのどの部分をユーザーと共有できるか、どの部分を非公開にしておくべきかを指定することが推奨される

最近（2024年4月）公開された LLM を ELYZA-tasks-100 で性能評価してみた

Command-R-Plus, Llama-3, Phi-3 mini を ELYZA-tasks-100 で評価した記事
Command-R-Plus と Llama-3 70B の性能は既存モデルを大きく上回る

LLM評価の落とし穴~開発者目線で気をつけるポイント~

speakerdeck.com

JP LM Evaluation Harnessの落とし穴
- プロンプトを変えるだけで正解率が変化
llm-jp-evalの落とし穴
- ゼロショット設定では正しいフォーマットで回答するのが難しい場合もある
Japanese MT-benchの落とし穴
- 冗長性や位置バイアスなど様々なバイアスが報告されている
Chatbot Arenaの落とし穴
- フォーマットを整えることでユーザーの印象が良くなる
チューニングの落とし穴
- 同じベンチマークでチューニングと評価を繰り返すと過学習が起きる

Weekly AI Agents News!

speakerdeck.com

Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure

azure.microsoft.com

Azure OpenAI ServiceのプレイグラウンドでもGPT-4oを利用できる

Introducing GPT-4o and more tools to ChatGPT free users

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

GPT-4oを無料ユーザーにも公開する

OpenAI、次世代AIモデル「GPT-4o」を発表

GPT-4oは音声・画像・テキストの統合処理ができる
20言語でのト－クン効率改善・高速化

Hello GPT-4o

https://openai.com/index/hello-gpt-4o/

GPT-4oの紹介ページ

Agentic Design Patterns Part 1

www.deeplearning.ai

GPT-4、GPT-3.5のパフォーマンスを向上させるAIエージェント戦略

OpenAI 言語モデルで日本語を扱う際のトークン数推定指標

GPT-4oでは、o200k_baseでエンコーディングされている

高性能な日本語マルチモーダル基盤モデル「clip-japanese-base」を公開しました

techblog.lycorp.co.jp

Apache-2.0ライセンスで公開された
以下でフィルタリングしたデータで学習した
- CLIP-score filtering
- SemDeDupを用いて重複除去
- HojiCharを用いて有害なテキスト（アダルトワード、暴力的表現、差別的表現）を含むサンプルを除去

大規模言語モデル (LLM)における低精度数値表現

speakerdeck.com

GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる

bboc検出はある程度できるが、座標認識は大雑把でずれるときもある

Android の Google AI の新機能まとめ

圧倒的な読書量を誇るからあげ氏が実践・読書との向き合い方

複数の人から勧められた本を選ぶと満足することが多い
読書の時間は、継続的に少しずつでも確保することが大切
イマイチだと思ったら、途中で読むのをやめても良い

Gemini 1.5 Pro のアップデート・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2

LangChainのパートナーパッケージ langchain-huggingface の概要

PaliGemma の概要

「PaliGemma」は、画像エンコーダーとしての「SigLIP-So400m」とテキストデコーダーとしての「Gemma-2B」で構成されるアーキテクチャを備えたビジョン言語モデル
画像に対してのキャプション」、画像に関する質問に答える、画像内のエンティティ検出ができる

2023年度デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました

www.digital.go.jp

生成AIの適切な利活用に向けた技術検証の全体的な内容、具体的な生成AIへの入力文のサンプル、一部検証に用いたテストケースが公開された
業務本来の目的からすると不適切である、という判断は実際に業務に携わっている担当者が注意深く判断すべき
忙しい人がすぐに助かる状態で渡すことが重要
「何を人間の代わりに読ませるか」にも注意を傾けることを推奨する
一度きりしかない業務よりも何度も発生する業務の方が、生成AI活用の品質確認の手間に見合う傾向が高い

新入生向けチュートリアル：文献のサーベイv2

speakerdeck.com

Google Scholoarの引用数でその論文のインパクトを確認する
速読の時はabstract + introduction + 図表 + conclusionをざっくり読む

「情報の取捨選択をするには、自分の価値関数を磨くしかない」年間2冊ペースで執筆する、布留川氏の情報収集ルーティーン

Xのキーワード検索を多用する
技術記事はトップダウンで読む
デモを試さないと自分の価値関数を磨けない

神戸市さん、データ利活用しすぎ……またまたやってくれました！無料で誰でも使える「統計ダッシュボード」拡充

神戸市さん、データ利活用しすぎ……またまたやってくれました！無料で誰でも使える「統計ダッシュボード」拡充【地図と位置情報】 - INTERNET Watch

「住民基本台帳人口移動報告」に基づく統計ダッシュボードを公開
神戸市だけでなく全国のデータを参照できる

生成AIユースケースを考え倒すためのGenerative AI Use Cases JP (GenU)の魅力と使い方

speakerdeck.com

Bedrockには実行ログの取得機能があり、コンソールから有効化するだけで使用開始できる
Generative AI Use Cases JP を使うと、様々なユースケースに対応したアプリを簡単にデプロイできる

ハルシネーションを大幅抑止し専門的な質問にも正確な回答が可能な生成AI　ストックマーク 1,000億パラメータ規模の独自LLMを公開

stockmark.co.jp

フルスクラッチで開発された
独自に収集したビジネスドメインの日本語データを中心に事前学習が行われた
答えることが出来ない質問に対しては、無理に回答を生成するのではなく、しっかりと「分からない」と答えることが出来る

AIラジオ『zenncast』の技術構成（プロンプトつき）

Jina Reader APIを使うとURLを入力するとLLMに最適な形で内容を取得できる
スクリプト作成時には構成、制約、今日の日付、前回紹介した記事、お便り、今回紹介する内容を渡している

【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる

cl100k_baseとo200k_baseを比較し、GPT-4oが新たに獲得した日本語語彙を確認した記事

OpenAI Spring Update v.s. Google I/O 2024

GPT-4oで発言中に割り込むことが可能になった
長い文章や動画・音声のコンテキストを要するタスクはGeminiのほうが適している

生成AI Topic｜OpenAI Spring Update と Google I/O 2024 に関するサマリー解説

[05/11~05/17] 生成AI Weekly News

LLM に表データを読み解かせたかったので、ちょっと試してみた

developers.cyberagent.co.jp

PaLM 2の場合、プロンプト内で表をPIPE形式で与えると、最も性能が良かった
元論文
- openreview.net

高効率のLLM学習手法ReFTを試してみる

www.ai-shift.co.jp

ReFTはモデルの中間層の出力に介入する

LangChain のユースケース

グラフデータベースのQAのユースケースが記載されている

【2024年版】WSL2+Ubuntu24.04+Docker＋GPUでつくる機械学習環境

CUDAは各コンテナ内のCUDA Toolkitを用いて利用する

LangChain v0.1 から v0.2 への移行手順

新しいimportへの移行ツールへの移行ツールが公開されている

大規模言語モデル研究の最近の潮流(?)と実験研究への展開可能性について

www.docswell.com

AIが得意なタスクを探して活用するべき
丁寧な実験記録と根気強い観察などに強みがある

LangChain v0.2 でエージェントを構築

LangChain v0.2 で RAGを構築

LangChain v0.2 でチャットボットを構築

RunnableWithMessageHistoryでLLMをラップすることで、モデルの入出力が追跡され、それらが会話履歴の保存場所に保存さえる
会話履歴付きLLMの場合、configurable に session_id を含める必要がある

LangChain v0.2 で単純なLLMアプリケーションを構築

速度・出力量・コスト効率最強の、Gemini 1.5 Flash！

【TOYOTA×NISSAN×Honda】Japan Mobility Tech Day “zero” ～ソフトウェアエンジニアにとって、自動車業界が"今"最高にアツい理由(ワケ) ～

www.youtube.com

GPT-4oを使って2Dの図面から3DのCADモデルを作る

人間とAIの協働

www.youtube.com