SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年5月13日の週に気になった記事などまとめ

moment-timeseries-foundation-model/moment

github.com

karaage0703/code-cooker

github.com

  • SimpleなCode Intepreter

TSKaigi 2024 スライドまとめ【非公式】

zenn.dev

【LLM】1B帯の日本語事前学習モデルのベンチマークを測定する

zenn.dev

  • llm-jp-evalで測定した
  • Japanese Stable LM 2 1.6Bが多くの1B帯の事前学習モデルと比べて性能が良かった

これまでの検索と生成AI時代の検索

note.com

  • LLMの登場により、自分が知りたいことにパーソナライズして回答を得ることができるようになった

Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説(生成AIウィークリー)

www.techno-edge.net

  • GoogleがTimeFM(Time Series Foundation Model)という時系列予測のための基盤モデルを開発した

OpenAI の Model Spec の概要

note.com

  • OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書]
  • メッセージの役割ごとの優先順位は、Platform > Developer > User > Tool
  • 開発者は、メッセージのどの部分をユーザーと共有できるか、どの部分を非公開にしておくべきかを指定することが推奨される

最近(2024年4月)公開された LLM を ELYZA-tasks-100 で性能評価してみた

qiita.com

  • Command-R-Plus, Llama-3, Phi-3 mini を ELYZA-tasks-100 で評価した記事
  • Command-R-Plus と Llama-3 70B の性能は既存モデルを大きく上回る

LLM評価の落とし穴~開発者目線で気をつけるポイント~

speakerdeck.com

  • JP LM Evaluation Harnessの落とし穴
    • プロンプトを変えるだけで正解率が変化
  • llm-jp-evalの落とし穴
    • ゼロショット設定では正しいフォーマットで回答するのが難しい場合もある
  • Japanese MT-benchの落とし穴
    • 冗長性や位置バイアスなど様々なバイアスが報告されている
  • Chatbot Arenaの落とし穴
    • フォーマットを整えることでユーザーの印象が良くなる
  • チューニングの落とし穴

Weekly AI Agents News!

speakerdeck.com

Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure

azure.microsoft.com

  • Azure OpenAI ServiceのプレイグラウンドでもGPT-4oを利用できる

Introducing GPT-4o and more tools to ChatGPT free users

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

  • GPT-4oを無料ユーザーにも公開する

OpenAI、次世代AIモデル「GPT-4o」を発表

zenn.dev

  • GPT-4oは音声・画像・テキストの統合処理ができる
  • 20言語でのト-クン効率改善・高速化

Hello GPT-4o

https://openai.com/index/hello-gpt-4o/

  • GPT-4oの紹介ページ

Agentic Design Patterns Part 1

www.deeplearning.ai

  • GPT-4、GPT-3.5のパフォーマンスを向上させるAIエージェント戦略

OpenAI 言語モデルで日本語を扱う際のトークン数推定指標

zenn.dev

高性能な日本語マルチモーダル基盤モデル「clip-japanese-base」を公開しました

techblog.lycorp.co.jp

  • Apache-2.0ライセンスで公開された
  • 以下でフィルタリングしたデータで学習した
    • CLIP-score filtering
    • SemDeDupを用いて重複除去
    • HojiCharを用いて有害なテキスト(アダルトワード、暴力的表現、差別的表現)を含むサンプルを除去

大規模言語モデル (LLM)における低精度数値表現

speakerdeck.com

GPT4oを使って、訓練無しで物体検出(BBox)ができるか試してみる

zenn.dev

  • bboc検出はある程度できるが、座標認識は大雑把でずれるときもある

AndroidGoogle AI の新機能まとめ

note.com

圧倒的な読書量を誇るからあげ氏が実践・読書との向き合い方

levtech.jp

  • 複数の人から勧められた本を選ぶと満足することが多い
  • 読書の時間は、継続的に少しずつでも確保することが大切
  • イマイチだと思ったら、途中で読むのをやめても良い

Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2

note.com

LangChainのパートナーパッケージ langchain-huggingface の概要

note.com

PaliGemma の概要

note.com

  • 「PaliGemma」は、画像エンコーダーとしての「SigLIP-So400m」とテキスト デコーダーとしての「Gemma-2B」で構成されるアーキテクチャを備えたビジョン言語モデル
  • 画像に対してのキャプション」、画像に関する質問に答える、画像内のエンティティ検出ができる

2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました

www.digital.go.jp

  • 生成AIの適切な利活用に向けた技術検証の全体的な内容、具体的な生成AIへの入力文のサンプル、一部検証に用いたテストケースが公開された
  • 業務本来の目的からすると不適切である、という判断は実際に業務に携わっている担当者が注意深く判断すべき
  • 忙しい人がすぐに助かる状態で渡すことが重要
  • 「何を人間の代わりに読ませるか」にも注意を傾けることを推奨する
  • 一度きりしかない業務よりも何度も発生する業務の方が、生成AI活用の品質確認の手間に見合う傾向が高い

新入生向けチュートリアル:文献のサーベイv2

speakerdeck.com

  • Google Scholoarの引用数でその論文のインパクトを確認する
  • 速読の時はabstract + introduction + 図表 + conclusionをざっくり読む

「情報の取捨選択をするには、自分の価値関数を磨くしかない」年間2冊ペースで執筆する、布留川氏の情報収集ルーティー

logmi.jp

  • Xのキーワード検索を多用する
  • 技術記事はトップダウンで読む
  • デモを試さないと自分の価値関数を磨けない

神戸市さん、データ利活用しすぎ……またまたやってくれました! 無料で誰でも使える「統計ダッシュボード」拡充

神戸市さん、データ利活用しすぎ……またまたやってくれました! 無料で誰でも使える「統計ダッシュボード」拡充【地図と位置情報】 - INTERNET Watch

  • 住民基本台帳人口移動報告」に基づく統計ダッシュボードを公開
  • 神戸市だけでなく全国のデータを参照できる

生成AIユースケースを考え倒すためのGenerative AI Use Cases JP (GenU)の魅力と使い方

speakerdeck.com

  • Bedrockには実行ログの取得機能があり、コンソールから有効化するだけで使用開始できる
  • Generative AI Use Cases JP を使うと、様々なユースケースに対応したアプリを簡単にデプロイできる

ハルシネーションを大幅抑止し専門的な質問にも正確な回答が可能な生成AI ストックマーク 1,000億パラメータ規模の独自LLMを公開

stockmark.co.jp

  • フルスクラッチで開発された
  • 独自に収集したビジネスドメインの日本語データを中心に事前学習が行われた
  • 答えることが出来ない質問に対しては、無理に回答を生成するのではなく、しっかりと「分からない」と答えることが出来る

AIラジオ『zenncast』の技術構成(プロンプトつき)

zenn.dev

  • Jina Reader APIを使うとURLを入力するとLLMに最適な形で内容を取得できる
  • スクリプト作成時には構成、制約、今日の日付、前回紹介した記事、お便り、今回紹介する内容を渡している

【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる

zenn.dev

  • cl100k_baseとo200k_baseを比較し、GPT-4oが新たに獲得した日本語語彙を確認した記事

OpenAI Spring Update v.s. Google I/O 2024

note.com

  • GPT-4oで発言中に割り込むことが可能になった
  • 長い文章や動画・音声のコンテキストを要するタスクはGeminiのほうが適している

生成AI Topic|OpenAI Spring Update と Google I/O 2024 に関するサマリー解説

note.com

[05/11~05/17] 生成AI Weekly News

note.com

LLM に表データを読み解かせたかったので、ちょっと試してみた

developers.cyberagent.co.jp

  • PaLM 2の場合、プロンプト内で表をPIPE形式で与えると、最も性能が良かった
  • 元論文

高効率のLLM学習手法ReFTを試してみる

www.ai-shift.co.jp

  • ReFTはモデルの中間層の出力に介入する

LangChain のユースケース

note.com

【2024年版】WSL2+Ubuntu24.04+Docker+GPUでつくる機械学習環境

zenn.dev

  • CUDAは各コンテナ内のCUDA Toolkitを用いて利用する

LangChain v0.1 から v0.2 への移行手順

note.com

  • 新しいimportへの移行ツールへの移行ツールが公開されている

大規模言語モデル研究の最近の潮流(?)と実験研究への展開可能性について

www.docswell.com

  • AIが得意なタスクを探して活用するべき
  • 丁寧な実験記録と根気強い観察などに強みがある

LangChain v0.2 で エージェントを構築

note.com

LangChain v0.2 で RAGを構築

note.com

LangChain v0.2 で チャットボットを構築

note.com

  • RunnableWithMessageHistoryでLLMをラップすることで、モデルの入出力が追跡され、それらが会話履歴の保存場所に保存さえる
  • 会話履歴付きLLMの場合、configurable に session_id を含める必要がある

LangChain v0.2 で 単純なLLMアプリケーションを構築

note.com

速度・出力量・コスト効率最強の、Gemini 1.5 Flash

zenn.dev

TOYOTA×NISSAN×Honda】Japan Mobility Tech Day “zero” ~ソフトウェアエンジニアにとって、自動車業界が"今"最高にアツい理由(ワケ) ~

www.youtube.com

GPT-4oを使って2Dの図面から3DのCADモデルを作る

zenn.dev

人間とAIの協働

www.youtube.com