SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2025年1月20日の週に気になった記事などまとめ

気になったものまとめ

Foundations of Large Language Models
RAG Best Practices
「LangChainとLangGraphによるRAG・AIエージェント［実践］入門」でつまずいたことメモ:10章
VAEって結局何者なの？
「紙に印刷すると間違いに気づく理由」に根拠はない
【メモ】RAGシステム構築の強い味方 - Doclingによるドキュメント変換入門
AI Agents Market Landscape - Ecosystem
o1 pro + AIエンジニアにチャットで指示しながら、研究的なことをさせてみる
AI時代に重要な、やりたいことを明瞭に伝える方法。
MiniRAGでモバイル環境に適したRAGを実現する
100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開
遅ればせながらclineを試す。
コスト削減と精度維持を両立！類似画像検索システムの内製化成功事例（機械学習編）
コスト削減と精度維持を両立！類似画像検索システムの内製化成功事例（システム編）
DeepSeek-R1 / 32Bでo1並の推論能力!?ほんとかよ
Document redaction
【Roo-Cline】APIを酷使しすぎてGitHub Copilotを垢BANされかけた件
Regional Scrum Gathering Tokyo 2025 登壇・協賛レポート
AIアプリケーション開発でAzure AI Searchを使いこなすためには
llama.cppでGGUF形式のモデルファイルを読み込み、チャットする
DeepSeek-R1 の概要
One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression
Gemini 2.0 Flash API の使用方法を、実装しながら解説
Azure AI Foundry及びAI Evaluation SDKを用いたLLMの評価
Markdownでお手軽に高品質な技術同人誌を出す方法
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments
Agents
“あなた” の開発を支援する AI エージェント Bedrock Engineer
BedrockのClaude v2、Claude v2.1、Claude Instant、Claude 3 Sonnet（特定のリージョン）がレガシー扱いになりました
DeepSeek-R1をローカルで動かして小説を執筆してみた
人間によるコーディング禁止の CLINE 縛りでゲームを作らせてみた感想
Ollama Deep Researcher
How has DeepSeek improved the Transformer architecture?
Introducing the 'Session Affinity Proxy' setting in App Service Configuration.
mmnga/AXCXEPT-EZO-phi-4-v2_900-ggufをollamaとcolabで試す。
AWS Application Migration Service をグラレコで解説
Operator の概要
LangFair: Use-Case Level LLM Bias and Fairness Assessments
Introducing Citations on the Anthropic API
人間には認知できない情報を活用するAIたち
OpenAI Operator についてまとめる
Introducing the GPT-4o-Audio-Preview: A New Era of Audio-Enhanced AI Interaction
機械学習を「社会実装」するということ 2025年版
ai-gradio
Computer-Using Agent の概要
Multimodal Live API - Web console
高級ホテルの客室タブレットに潜む危険：他客室も操作、盗聴可能だった脆弱性を発見するまで
材料開発における回帰モデルの選び方
複雑なタスクをブラウザでこなすOpenAIのAIエージェント「Operator」を使ってみてわかった限界点（CloseBox）
Amazon Bedrock を用いた掲示板投稿監視システムの実現
最適化と機械学習を用いた動的価格設定
Weekly AI Agents News!
LLMが流行った理由と、その仕組みを初心者向けに解説
【緊急収録】OpenAIがエージェント発表！「Operator」詳細使用レビュー＆解説
I benchmarked (almost) every model that can fit in 24GB VRAM (Qwens, R1 distils, Mistrals, even Llama 70b gguf)
日本語Full-duplex音声対話システムの試作
Chain of Agents: Large language models collaborating on long-context tasks
知られざるDMMデータエンジニアの生態〜かつてツチノコと呼ばれし者〜
Hacker News 日本語まとめ
生成AIのお陰で必要とされる判断量が激増して死ぬほど忙しくなった話
AIエージェントとは？Anthropicが公開しているAIエージェントのパターンを解説してみた
製造現場を変える「考えるAI」、エージェント型AIシステムの実力とは？
Azure AI Languageの抽象的要約機能がPhi-3.5-miniでパワーアップ
ローカルLLMを手のひらサイズで動かしてみよう！ M5 Cardputer + ModuleLLM
Introducing AgentWorkflow: A Powerful System for Building AI Agent Systems
mmnga/cyberagent-Mistral-Nemo-Japanese-Instruct-2408-ggufをollamaとcolabで試す。
松田語録：NVIDIAのProjects Digitsについて再び
DeepSeek-R1 の technical report を読んでみた
Open R1
2,500万ユーザーを支えるSREチームの6年間のスクラムのカイゼン
Cline＋ローカル版DeepSeek R1でAIコーディングを使い放題にする（高スペックマシン向け）
[AWS] S3 セキュリティ対策

Foundations of Large Language Models

大規模言語モデルの基礎概念に焦点を当てた本
事前学習モデル、生成モデル、プロンプト手法、アラインメント方法を取り上げている

RAG Best Practices

様々なRAGコンポーネントと構成の影響を個別に評価するためのRAGシステムを実装しエチルリポジトリ
クエリ拡張、検索、生成に分かれている

「LangChainとLangGraphによるRAG・AIエージェント［実践］入門」でつまずいたことメモ:10章

VAEって結局何者なの？

「紙に印刷すると間違いに気づく理由」に根拠はない

izumino.hatenablog.com

【メモ】RAGシステム構築の強い味方 - Doclingによるドキュメント変換入門

uepon.hatenadiary.com

Doclingは様々なドキュメントをHTML、Markdown、JSONへコンバートするツール

AI Agents Market Landscape - Ecosystem

aiagentsdirectory.com

自律型エージェントとAIアシスタントのランドスケープマップ

o1 pro + AIエンジニアにチャットで指示しながら、研究的なことをさせてみる

ChatGPT+devinで研究的なことを試したブログ
人間の入門者だと1週間から１か月ぐらいかかりそうなタスクをo1 Pro + devinは一晩で仕上げた
簡単なPoCはAIがやってくれる

AI時代に重要な、やりたいことを明瞭に伝える方法。

目的を明確にする
- 手段と目的を混ぜない
必要最低限の機能を考える
求めることを具体的に書く

MiniRAGでモバイル環境に適したRAGを実現する

SLMの利用とストレージの利用量を抑えることを意識した手法
データ保管にGraphRAGを利用する

100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開

遅ればせながらclineを試す。

コスト削減と精度維持を両立！類似画像検索システムの内製化成功事例（機械学習編）

tech.enigmo.co.jp

コスト削減と精度維持を両立！類似画像検索システムの内製化成功事例（システム編）

tech.enigmo.co.jp

DeepSeek-R1 / 32Bでo1並の推論能力!?ほんとかよ

Document redaction

PDF、画像、テキスト、表形式データに含まれる個人情報を自動的に編集するアプリケーション
Textract、Comprehendを利用している

【Roo-Cline】APIを酷使しすぎてGitHub Copilotを垢BANされかけた件

Roo-Clineで、GitHub CopilotでCode Language Model API経由で使いすぎて、アカウントをBANされかけた

Regional Scrum Gathering Tokyo 2025 登壇・協賛レポート

kakehashi-dev.hatenablog.com

AIアプリケーション開発でAzure AI Searchを使いこなすためには

speakerdeck.com

Azure AI Searchについて体系的に説明された資料

llama.cppでGGUF形式のモデルファイルを読み込み、チャットする

DeepSeek-R1 の概要

QwenやLlamaをベースに推論パターンを学習させた蒸留モデルも存在する

One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression

turingmotors.github.io

画像を効率的に圧縮しつつ、トークン数を1から２５６まで柔軟に調整可能な画像トークナイザーを提案した論文

Gemini 2.0 Flash API の使用方法を、実装しながら解説

Azure AI Foundry及びAI Evaluation SDKを用いたLLMの評価

Azure AI FoundryにはEvaluation機能やTracing機能が提供されている
Azure AI FoundryEavluation機能には、モデル及びプロンプトを活用した評価、データセットを活用した評価、プロンプトフローベースの評価の３種類がある
評価用データセットは、LLM自身に作成させることも、ユーザ自身のデータセットを追加することもできる
Azure AI Evaluation SDKは、プロンプトフローSDKに代わる、LLM評価SDKとしてリリースされた

Markdownでお手軽に高品質な技術同人誌を出す方法

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

スクリーンショットを入力とし、マウスやキーボード操作を実行するUIエージェントを提案した論文

Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments

人間によるアノテーションなしで任意の環境にLLMエージェントを適応させるデータ駆動型フレームワーク

Agents

AIエージェントの基本概念、動作原理、ツールの選定、計画立案の重要性、失敗モードの評価に焦点を当てた記事

“あなた” の開発を支援する AI エージェント Bedrock Engineer

speakerdeck.com

BedrockのClaude v2、Claude v2.1、Claude Instant、Claude 3 Sonnet（特定のリージョン）がレガシー扱いになりました

DeepSeek-R1をローカルで動かして小説を執筆してみた

人間によるコーディング禁止の CLINE 縛りでゲームを作らせてみた感想

過去に自分が実装したものを代行するのには使える

Ollama Deep Researcher

Ollamaがホストする任意のLLMを使用する完全にローカルなWebリサーチアシスタント

How has DeepSeek improved the Transformer architecture?

DeepSeek V3の革新点とそれがTransformerアーキテクチャ向上にどのように貢献しているかを示した記事

Introducing the 'Session Affinity Proxy' setting in App Service Configuration.

techcommunity.microsoft.com

AppServiceにAzure Front DoorやApplication Gatewayといったリバースプロキシを使用する際に、カスタムドメインなしでセッションの維持や認証を容易にする設定

mmnga/AXCXEPT-EZO-phi-4-v2_900-ggufをollamaとcolabで試す。

bwgift.hatenadiary.jp

AWS Application Migration Service をグラレコで解説

VM Wareの場合は、エージェントレスでレプリケーションを行うこともできる

Operator の概要

米国のProユーザー向けに公開されている
Operatorを動かすモデルをAPIで近日中に公開する予定

LangFair: Use-Case Level LLM Bias and Fairness Assessments

大規模言語モデルのバイアスと公平性を評価するためのPythonライブラリ

Introducing Citations on the Anthropic API

www.anthropic.com

Anthropicにソースドキュメントに基づいた信頼性の高い解答を生成させるためのAPI機能が追加された

人間には認知できない情報を活用するAIたち

joisino.hatenablog.com

AIに探索を任せ、人間は検証を担当する

OpenAI Operator についてまとめる

Introducing the GPT-4o-Audio-Preview: A New Era of Audio-Enhanced AI Interaction

techcommunity.microsoft.com

Azure OpenAI ServiceでGPT-4o-Audio-Previewが利用できるようになった
Chat Completions APIで音声入力・出力ができる

機械学習を「社会実装」するということ 2025年版

speakerdeck.com

ai-gradio

ai-gradioにブラウザ自動化の機能が追加された

Computer-Using Agent の概要

「CUA」は、生のピクセルデータを処理して画面上で何が起こっているかを把握し、仮想マウスとキーボードを使用してアクションを実行する

Multimodal Live API - Web console

Reactベースでのマルチモーダルインタラクションのスターターアプリケーションリポジトリ

高級ホテルの客室タブレットに潜む危険：他客室も操作、盗聴可能だった脆弱性を発見するまで

devblog.lac.co.jp

材料開発における回帰モデルの選び方

複雑なタスクをブラウザでこなすOpenAIのAIエージェント「Operator」を使ってみてわかった限界点（CloseBox）

www.techno-edge.net

Amazon Bedrock を用いた掲示板投稿監視システムの実現

Self-Consistency を用いて同一のコメントに対して複数回のラベリングを実行することで、不適切さの定量的な評価を実現した

最適化と機械学習を用いた動的価格設定

Weekly AI Agents News!

speakerdeck.com

LLMが流行った理由と、その仕組みを初心者向けに解説

【緊急収録】OpenAIがエージェント発表！「Operator」詳細使用レビュー＆解説

www.youtube.com

I benchmarked (almost) every model that can fit in 24GB VRAM (Qwens, R1 distils, Mistrals, even Llama 70b gguf)

https://www.reddit.com/r/LocalLLaMA/comments/1i8tx5z/i_benchmarked_almost_every_model_that_can_fit_in/?rdt=47192

24GBのVRAMに収まる最適なモデルを見極めるため、包括的なベンチマークを実施した記事

日本語Full-duplex音声対話システムの試作

nu-dialogue.github.io

日本語で利用可能な最初の対話における発話のオーバーラップできる音声対話システムを公開した

Chain of Agents: Large language models collaborating on long-context tasks

research.google

長文コンテキストタスクの課題を解決するため、CoAフレームワークを提案した論文
トレーニング不要で、多エージェント間のコラボレーションでRAGや長文対応LLMを大幅に上回る性能を示した

知られざるDMMデータエンジニアの生態〜かつてツチノコと呼ばれし者〜

speakerdeck.com

Hacker News 日本語まとめ

Hakker Newsのトップニュースを日本語でまとめたサイト

生成AIのお陰で必要とされる判断量が激増して死ぬほど忙しくなった話

AIエージェントとは？Anthropicが公開しているAIエージェントのパターンを解説してみた

www.youtube.com

製造現場を変える「考えるAI」、エージェント型AIシステムの実力とは？

Azure AI Languageの抽象的要約機能がPhi-3.5-miniでパワーアップ

ローカルLLMを手のひらサイズで動かしてみよう！ M5 Cardputer + ModuleLLM

Introducing AgentWorkflow: A Powerful System for Building AI Agent Systems

www.llamaindex.ai

LlamaIndexがAIエージェントシステムを簡単かつ効率t系に構築できるツールの提供を発表した

mmnga/cyberagent-Mistral-Nemo-Japanese-Instruct-2408-ggufをollamaとcolabで試す。

bwgift.hatenadiary.jp

松田語録：NVIDIAのProjects Digitsについて再び

www.youtube.com

DeepSeek-R1 の technical report を読んでみた

yoheikikuta.github.io

Open R1

DeepSeek-r1の完全なオープンリプロダクションを目指すプロジェクト

2,500万ユーザーを支えるSREチームの6年間のスクラムのカイゼン

speakerdeck.com

Cline＋ローカル版DeepSeek R1でAIコーディングを使い放題にする（高スペックマシン向け）

最低でも14Bモデルで試した方が良い
コンテキストウィンドウを16384にして動かす

[AWS] S3 セキュリティ対策