2024年10月7日の週に気になった記事などまとめ - SEが最近起こったことを書くブログ

Can we make any smaller opensource LLM models smarter than human?
Pythonでクロスプラットフォームなアプリが作れる「Flet」を試す
高性能な日本語SPLADE（スパース検索）モデルを公開しました
スクラムにおける開発タスクの予実の乖離をどうするか
Open AI Realtime APIで、会話履歴を削除して高額請求を回避したい！【Pythonサンプルコード】
Amazon Bedrock Agents 自律型 AI の実現に向けて: 検討編【Amazon Bedrock Series #04a】【AWS Black Belt】
A Model for Matching Proprietary OpenAI o1's Power with Open-Source Innovation
データから最適化なRAGの設定を探してくれる「RAGBuilder」を試す
mistral-nemo-japanese-instruct-2408をColabでためす。
機械学習による言語パフォーマンスの評価
Llama 3.1 Swallow
関連ドキュメントを利用してRAGの精度を上げるCDE
[LangChain] with_structured_output を使用して、Pydanticのクラスをレスポンスとして受け取る
生成AIを活用したプロダクト・サービス PreferredAI 5製品を11月から順次提供開始
JR東が「鉄道版生成 AI」開発へ　鉄道固有の知識を学習、経験浅い社員の知識レベル底上げに
Embeddings Are Kind of Shallow
openai-gradio を動かす
ターミナルでAIエージェントが操作してくれる「gptme」を試す
Launching Long-Term Memory Support in LangGraph
moritalous/url-to-markdown-v2
AWS におけるマルチテナント SaaS の実装パターン
システム生成AIの最新動向と本質的な理解の重要性について
20241009_がっかりコパだったCopilot_in_Excel今はどうなん？
Perform data parity at scale for data modernization programs using AWS Glue Data Quality
基盤モデルがものづくり産業に及ぼしうる影響と研究開発の方向性(?) 2024年秋ver
プロダクトマネージャーのための検索推薦システム入門
MLE-bench
STATE OF AI REPORT 2024.
VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning
Amazon 流のプロダクトマネジメント
PLaMoにおけるLLMエージェント能力の分析と改善
Amazon Athena のパフォーマンスチューニング Tips トップ 10
東京メトロ、生成AIで問い合わせ対応　「100％の性能ではなく70％で実用化」を決断できたワケ
OpenAIのマルチエージェント用実験的フレームワーク「swarm」を試す
Competitionsだけじゃない！ Kaggle Notebooks Grandmasterのすすめ
とある事業会社にとっての Kaggler の魅力
The Prompt Report: A Systematic Survey of Prompting Techniques
大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
Google Colab で Pyramid Flow を試す
Google Colab で Llama-3.1-Swallow を試す
LLM×CV メタサーベイ：言語・視覚融合の応用と展開
OpenAIの新しいマルチエージェント用フレームワークSwarmを試す
whisper-webをdockerで動かす。
GPT-4oに危険物取扱者試験(甲種試験)を解かせてみる
AWS Fargate Spot が中断されにくいのはいつ？
Prompt Engineering Techniques: Comprehensive Repository for Development and Implementation
Swarm (実験的サンプル)～リポジトリの日本語化～
PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency
オープンソース住所正規化エンジンを地番住所に対応したメジャーバージョンをリリースしました！
RT-DETR(v2) を Colaboratoryでトレーニングするサンプル👻
Serverless AI Chat with RAG using LangChain.js
Graph Database と Generative AI の素敵な関係
ぼくがかんがえた最強の Visual Studio Code カスタマイズ 2024
ベクトルデータベース「Weaviate」を試す 13: Multiple target vectors
The Little Book of ML Metrics
GenAI Career Assistant: A Multi-Agent Approach
RAG 101: Chunking Strategies
#designship2024 スピーカーとして、話し方をデザインした話

Can we make any smaller opensource LLM models smarter than human?

medium.com

Claude3.5 Sonnetをo1-previewに匹敵するレベルに高める方法を述べた記事
Dynamic Chain of ThoughtやreflectionやVerbal Reinforcementを活用している

Pythonでクロスプラットフォームなアプリが作れる「Flet」を試す

zenn.dev

FletはPythonでweb、デスクトップ、モバイルアプリケーションを構築できるフレームワーク
WebSocketを使ったアプリも作れる

過去の会話履歴をクリアしないと、入力コンテキストが増えて、コストが高くなる

Amazon Bedrock Agents 自律型 AI の実現に向けて: 検討編【Amazon Bedrock Series #04a】【AWS Black Belt】

www.youtube.com

資料はこちら
- https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2024_Amazon-Bedrock-Agents_0930_v1.pdf

A Model for Matching Proprietary OpenAI o1's Power with Open-Source Innovation

opensource-o1.github.io

オープンソースでo1モデルを目指すプロジェクトのページ

データから最適化なRAGの設定を探してくれる「RAGBuilder」を試す

zenn.dev

チャンキング戦略やチャンクサイズなどを自動調整し、最適なチャンキングのパラメータをさがす
コストはかかるかも

mistral-nemo-japanese-instruct-2408をColabでためす。

bwgift.hatenadiary.jp

機械学習による言語パフォーマンスの評価

speakerdeck.com

Llama 3.1 Swallow

swallow-llm.github.io

[LangChain] with_structured_output を使用して、Pydanticのクラスをレスポンスとして受け取る

zenn.dev

生成AIを活用したプロダクト・サービス PreferredAI 5製品を11月から順次提供開始

www.preferred.jp

JR東が「鉄道版生成 AI」開発へ　鉄道固有の知識を学習、経験浅い社員の知識レベル底上げに

www.itmedia.co.jp

Embeddings Are Kind of Shallow

towardsdatascience.com

言語モデルの埋込について解説した記事

openai-gradio を動かす

note.com

動かすにはGradio v5以上が必要
OpenAI APIを用いたウェブアプリを簡単に構築するためのPythonパッケージ

ターミナルでAIエージェントが操作してくれる「gptme」を試す

zenn.dev

ターミナルでAIとチャット形式で対話しながら、シェルコマンドの実行や、Pythonの実行、ファイル操作、ブラウザ操作などが行える

Launching Long-Term Memory Support in LangGraph

blog.langchain.dev

LangGraphで長期記憶をサポートした
複数スレッド間で情報保持が可能になった

moritalous/url-to-markdown-v2

huggingface.co

URLを渡すとmarkdwonに変換するアプリケーション
markdownifyを利用している

AWS におけるマルチテナント SaaS の実装パターン

aws.amazon.com

ECSをベースとしたリファレンスアーキテクチャの紹介記事
SaaS Builder Toolkit for AWS (SBT) というSaaSコントロールプレーンのリファレンス実装がある

システム生成AIの最新動向と本質的な理解の重要性について

qiita.com

20241009_がっかりコパだったCopilot_in_Excel今はどうなん？

speakerdeck.com

Perform data parity at scale for data modernization programs using AWS Glue Data Quality

aws.amazon.com

AWS Glue Data Qualityを使用して簡単にデータの整合性を確認できることを紹介する記事

基盤モデルがものづくり産業に及ぼしうる影響と研究開発の方向性(?) 2024年秋ver

www.docswell.com

誰かに習って訓練すれば身につく程度の能力はAIで代替可能な見通しが立ちつつある

プロダクトマネージャーのための検索推薦システム入門

speakerdeck.com

ユーザーは最初から完璧なクエリを書けるわけではない
推薦システムの良さを定義するのは難しい
予測精度とカバー率・多様性はトレードオフの関係にある

MLE-bench

openai.com

o1-reviewモデルで16.9%のコンペでKaggleの銅メダルレベルのスコアが出たことを紹介する記事
GitHubリポジトリ
- github.com
論文
- arxiv.org

STATE OF AI REPORT 2024.

www.stateof.ai

VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning

arxiv.org

チャートの視覚的解釈と数値的・論理的推論を自動化するためのフレームワークを提案した論文

Amazon 流のプロダクトマネジメント

speakerdeck.com

製品、サービス、体験がお客様の手に渡った瞬間から逆算して考える

PLaMoにおけるLLMエージェント能力の分析と改善

tech.preferred.jp

PLaMoのFunction Calling機能の改善に取り組んだ方の記事
ツール選択能力とフォーマットに従う能力はトレードオフの関係にあった

Amazon Athena のパフォーマンスチューニング Tips トップ 10

aws.amazon.com

東京メトロ、生成AIで問い合わせ対応　「100％の性能ではなく70％で実用化」を決断できたワケ

www.itmedia.co.jp

問い合わせの中でも特に多い忘れ物の対応改善に注力した
内容把握、情報検索、回答案作成までを支援する

OpenAIのマルチエージェント用実験的フレームワーク「swarm」を試す

zenn.dev

他のエージェントに会話を転送できる

Competitionsだけじゃない！ Kaggle Notebooks Grandmasterのすすめ

speakerdeck.com

とある事業会社にとっての Kaggler の魅力

speakerdeck.com

The Prompt Report: A Systematic Survey of Prompting Techniques

arxiv.org

生成AIのモデルに対するプロンプト設計や使用法に対する体系的な調査をした論文

大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討

www.docswell.com

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

arxiv.org

LLMの数学的推論能力の限界に関する論文

Google Colab で Pyramid Flow を試す

note.com

Google Colab で Llama-3.1-Swallow を試す

note.com

LLM×CV メタサーベイ：言語・視覚融合の応用と展開

https://hirokatsukataoka.net/temp/presen/241011LLMxCV_MetaSurvey2024.pdf

LLMのComputer Vision分野への適用方法別にまとめた資料

OpenAIの新しいマルチエージェント用フレームワークSwarmを試す

note.com

whisper-webをdockerで動かす。

bwgift.hatenadiary.jp

GPT-4oに危険物取扱者試験(甲種試験)を解かせてみる

note.com

AWS Fargate Spot が中断されにくいのはいつ？

developer.hatenastaff.com

土日が中断回数が少なかった

Prompt Engineering Techniques: Comprehensive Repository for Development and Implementation

github.com

プロンプトエンジニアリングの技術に関する包括的なチュートリアルと実装例を提供するリポジトリ

Swarm (実験的サンプル)～リポジトリの日本語化～

hamaruki.com

PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency

arxiv.org

PLaMo-100Bを紹介する論文

オープンソース住所正規化エンジンを地番住所に対応したメジャーバージョンをリリースしました！

blog.geolonia.com

RT-DETR(v2) を Colaboratoryでトレーニングするサンプル👻

kazuhito00.hatenablog.com

Serverless AI Chat with RAG using LangChain.js

learn.microsoft.com

Static web Appsを利用して、サーバーレスのRAGアプリを紹介した記事
リポジトリはこちら
- github.com

Graph Database と Generative AI の素敵な関係

speakerdeck.com

ぼくがかんがえた最強の Visual Studio Code カスタマイズ 2024

zenn.dev

ベクトルデータベース「Weaviate」を試す 13: Multiple target vectors

zenn.dev

Multiple target vectorsを試した記事
複数の検索結果を結合する方法は複数ある

The Little Book of ML Metrics

github.com

データサイエンスや機械学習で使用される評価指標を網羅的に説明するハンドブック

GenAI Career Assistant: A Multi-Agent Approach

github.com

マルチ―エージェントアプローチでキャリアアシスタントするリポジトリの概要

RAG 101: Chunking Strategies

towardsdatascience.com

RAGを強化するためにどのようなチャンク戦略があるかを説明した記事

#designship2024 スピーカーとして、話し方をデザインした話

note.com

大きな主張の後は6秒あける
話の切り替えで大きな声を出す

Can we make any smaller opensource LLM models smarter than human?

Pythonでクロスプラットフォームなアプリが作れる「Flet」を試す

高性能な日本語SPLADE（スパース検索）モデルを公開しました

スクラムにおける開発タスクの予実の乖離をどうするか

Open AI Realtime APIで、会話履歴を削除して高額請求を回避したい！【Pythonサンプルコード】

Amazon Bedrock Agents 自律型 AI の実現に向けて: 検討編 【Amazon Bedrock Series #04a】【AWS Black Belt】

A Model for Matching Proprietary OpenAI o1's Power with Open-Source Innovation

データから最適化なRAGの設定を探してくれる「RAGBuilder」を試す

mistral-nemo-japanese-instruct-2408をColabでためす。

機械学習による言語パフォーマンスの評価

Llama 3.1 Swallow

関連ドキュメントを利用してRAGの精度を上げるCDE

[LangChain] with_structured_output を使用して、Pydanticのクラスをレスポンスとして受け取る

生成AIを活用したプロダクト・サービス PreferredAI 5製品を11月から順次提供開始

JR東が「鉄道版生成 AI」開発へ 鉄道固有の知識を学習、経験浅い社員の知識レベル底上げに

Embeddings Are Kind of Shallow

openai-gradio を動かす

ターミナルでAIエージェントが操作してくれる「gptme」を試す

Launching Long-Term Memory Support in LangGraph

moritalous/url-to-markdown-v2

AWS におけるマルチテナント SaaS の実装パターン

システム生成AIの最新動向と本質的な理解の重要性について

20241009_がっかりコパだったCopilot_in_Excel今はどうなん？

Perform data parity at scale for data modernization programs using AWS Glue Data Quality

基盤モデルがものづくり産業に及ぼしうる影響と研究開発の方向性(?) 2024年秋ver

プロダクトマネージャーのための検索推薦システム入門

MLE-bench

STATE OF AI REPORT 2024.

VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning

Amazon 流のプロダクトマネジメント

PLaMoにおけるLLMエージェント能力の分析と改善

Amazon Athena のパフォーマンスチューニング Tips トップ 10

東京メトロ、生成AIで問い合わせ対応 「100％の性能ではなく70％で実用化」を決断できたワケ

OpenAIのマルチエージェント用実験的フレームワーク「swarm」を試す

Competitionsだけじゃない！ Kaggle Notebooks Grandmasterのすすめ

とある事業会社にとっての Kaggler の魅力

The Prompt Report: A Systematic Survey of Prompting Techniques

大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

Google Colab で Pyramid Flow を試す

Google Colab で Llama-3.1-Swallow を試す

LLM×CV メタサーベイ：言語・視覚融合の応用と展開

OpenAIの新しいマルチエージェント用フレームワークSwarmを試す

whisper-webをdockerで動かす。

GPT-4oに危険物取扱者試験(甲種試験)を解かせてみる

AWS Fargate Spot が中断されにくいのはいつ？

Prompt Engineering Techniques: Comprehensive Repository for Development and Implementation

Swarm (実験的サンプル)～リポジトリの日本語化～

PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency

オープンソース住所正規化エンジンを地番住所に対応したメジャーバージョンをリリースしました！

RT-DETR(v2) を Colaboratoryでトレーニングするサンプル👻

Serverless AI Chat with RAG using LangChain.js

Graph Database と Generative AI の素敵な関係

ぼくがかんがえた最強の Visual Studio Code カスタマイズ 2024

ベクトルデータベース「Weaviate」を試す 13: Multiple target vectors

The Little Book of ML Metrics

GenAI Career Assistant: A Multi-Agent Approach

RAG 101: Chunking Strategies

#designship2024 スピーカーとして、話し方をデザインした話

Amazon Bedrock Agents 自律型 AI の実現に向けて: 検討編【Amazon Bedrock Series #04a】【AWS Black Belt】

JR東が「鉄道版生成 AI」開発へ　鉄道固有の知識を学習、経験浅い社員の知識レベル底上げに

東京メトロ、生成AIで問い合わせ対応　「100％の性能ではなく70％で実用化」を決断できたワケ