SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2025年1月20日の週に気になった記事などまとめ

Foundations of Large Language Models

arxiv.org

  • 大規模言語モデルの基礎概念に焦点を当てた本
  • 事前学習モデル、生成モデル、プロンプト手法、アラインメント方法を取り上げている

RAG Best Practices

github.com

  • 様々なRAGコンポーネントと構成の影響を個別に評価するためのRAGシステムを実装しエチルリポジトリ
  • クエリ拡張、検索、生成に分かれている

「LangChainとLangGraphによるRAG・AIエージェント[実践]入門」でつまずいたことメモ:10章

qiita.com

VAEって結局何者なの?

zenn.dev

「紙に印刷すると間違いに気づく理由」に根拠はない

izumino.hatenablog.com

【メモ】RAGシステム構築の強い味方 - Doclingによるドキュメント変換入門

uepon.hatenadiary.com

  • Doclingは様々なドキュメントをHTML、MarkdownJSONへコンバートするツール

AI Agents Market Landscape - Ecosystem

aiagentsdirectory.com

o1 pro + AIエンジニアにチャットで指示しながら、研究的なことをさせてみる

note.com

  • ChatGPT+devinで研究的なことを試したブログ
  • 人間の入門者だと1週間から1か月ぐらいかかりそうなタスクをo1 Pro + devinは一晩で仕上げた
  • 簡単なPoCはAIがやってくれる

AI時代に重要な、やりたいことを明瞭に伝える方法。

note.com

  • 目的を明確にする
    • 手段と目的を混ぜない
  • 必要最低限の機能を考える
  • 求めることを具体的に書く

MiniRAGでモバイル環境に適したRAGを実現する

zenn.dev

  • SLMの利用とストレージの利用量を抑えることを意識した手法
  • データ保管にGraphRAGを利用する

100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開

secon.dev

遅ればせながらclineを試す。

note.com

コスト削減と精度維持を両立!類似画像検索システムの内製化成功事例(機械学習編)

tech.enigmo.co.jp

コスト削減と精度維持を両立!類似画像検索システムの内製化成功事例(システム編)

tech.enigmo.co.jp

DeepSeek-R1 / 32Bでo1並の推論能力!?ほんとかよ

note.com

Document redaction

github.com

  • PDF、画像、テキスト、表形式データに含まれる個人情報を自動的に編集するアプリケーション
  • Textract、Comprehendを利用している

【Roo-Cline】APIを酷使しすぎてGitHub Copilotを垢BANされかけた件

zenn.dev

  • Roo-Clineで、GitHub CopilotでCode Language Model API経由で使いすぎて、アカウントをBANされかけた

Regional Scrum Gathering Tokyo 2025 登壇・協賛レポート

kakehashi-dev.hatenablog.com

AIアプリケーション開発でAzure AI Searchを使いこなすためには

speakerdeck.com

  • Azure AI Searchについて体系的に説明された資料

llama.cppでGGUF形式のモデルファイルを読み込み、チャットする

note.com

DeepSeek-R1 の概要

note.com

  • QwenやLlamaをベースに推論パターンを学習させた蒸留モデルも存在する

One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression

turingmotors.github.io

  • 画像を効率的に圧縮しつつ、トークン数を1から256まで柔軟に調整可能な画像トークナイザーを提案した論文

Gemini 2.0 Flash API の使用方法を、実装しながら解説

zenn.dev

Azure AI Foundry及びAI Evaluation SDKを用いたLLMの評価

qiita.com

  • Azure AI FoundryにはEvaluation機能やTracing機能が提供されている
  • Azure AI FoundryEavluation機能には、モデル及びプロンプトを活用した評価、データセットを活用した評価、プロンプトフローベースの評価の3種類がある
  • 評価用データセットは、LLM自身に作成させることも、ユーザ自身のデータセットを追加することもできる
  • Azure AI Evaluation SDKは、プロンプトフローSDKに代わる、LLM評価SDKとしてリリースされた

Markdownでお手軽に高品質な技術同人誌を出す方法

note.com

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

arxiv.org

  • スクリーンショットを入力とし、マウスやキーボード操作を実行するUIエージェントを提案した論文

Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments

arxiv.org

Agents

huyenchip.com

  • AIエージェントの基本概念、動作原理、ツールの選定、計画立案の重要性、失敗モードの評価に焦点を当てた記事

“あなた” の開発を支援する AI エージェント Bedrock Engineer

speakerdeck.com

BedrockのClaude v2、Claude v2.1、Claude Instant、Claude 3 Sonnet(特定のリージョン)がレガシー扱いになりました

qiita.com

DeepSeek-R1をローカルで動かして小説を執筆してみた

note.com

人間によるコーディング禁止の CLINE 縛りでゲームを作らせてみた感想

zenn.dev

  • 過去に自分が実装したものを代行するのには使える

Ollama Deep Researcher

github.com

How has DeepSeek improved the Transformer architecture?

epoch.ai

  • DeepSeek V3の革新点とそれがTransformerアーキテクチャ向上にどのように貢献しているかを示した記事

Introducing the 'Session Affinity Proxy' setting in App Service Configuration.

techcommunity.microsoft.com

  • AppServiceにAzure Front DoorやApplication Gatewayといったリバースプロキシを使用する際に、カスタムドメインなしでセッションの維持や認証を容易にする設定

mmnga/AXCXEPT-EZO-phi-4-v2_900-ggufをollamaとcolabで試す。

bwgift.hatenadiary.jp

AWS Application Migration Service をグラレコで解説

aws.amazon.com

Operator の概要

note.com

  • 米国のProユーザー向けに公開されている
  • Operatorを動かすモデルをAPIで近日中に公開する予定

LangFair: Use-Case Level LLM Bias and Fairness Assessments

github.com

Introducing Citations on the Anthropic API

www.anthropic.com

  • Anthropicにソースドキュメントに基づいた信頼性の高い解答を生成させるためのAPI機能が追加された

人間には認知できない情報を活用するAIたち

joisino.hatenablog.com

  • AIに探索を任せ、人間は検証を担当する

OpenAI Operator についてまとめる

note.com

Introducing the GPT-4o-Audio-Preview: A New Era of Audio-Enhanced AI Interaction

techcommunity.microsoft.com

  • Azure OpenAI ServiceでGPT-4o-Audio-Previewが利用できるようになった
  • Chat Completions APIで音声入力・出力ができる

機械学習を「社会実装」するということ 2025年版

speakerdeck.com

ai-gradio

github.com

  • ai-gradioにブラウザ自動化の機能が追加された

Computer-Using Agent の概要

note.com

  • 「CUA」は、生のピクセル データを処理して画面上で何が起こっているかを把握し、仮想マウスとキーボードを使用してアクションを実行する

Multimodal Live API - Web console

github.com

  • Reactベースでのマルチモーダルインタラクションのスターターアプリケーションリポジトリ

高級ホテルの客室タブレットに潜む危険:他客室も操作、盗聴可能だった脆弱性を発見するまで

devblog.lac.co.jp

材料開発における回帰モデルの選び方

mi-6.co.jp

複雑なタスクをブラウザでこなすOpenAIのAIエージェント「Operator」を使ってみてわかった限界点(CloseBox)

www.techno-edge.net

Amazon Bedrock を用いた掲示板投稿監視システムの実現

aws.amazon.com

  • Self-Consistency を用いて同一のコメントに対して複数回のラベリングを実行することで、不適切さの定量的な評価を実現した

最適化と機械学習を用いた動的価格設定

note.com

Weekly AI Agents News!

speakerdeck.com

LLMが流行った理由と、その仕組みを初心者向けに解説

qiita.com

【緊急収録】OpenAIがエージェント発表!「Operator」詳細使用レビュー&解説

www.youtube.com

I benchmarked (almost) every model that can fit in 24GB VRAM (Qwens, R1 distils, Mistrals, even Llama 70b gguf)

https://www.reddit.com/r/LocalLLaMA/comments/1i8tx5z/i_benchmarked_almost_every_model_that_can_fit_in/?rdt=47192

  • 24GBのVRAMに収まる最適なモデルを見極めるため、包括的なベンチマークを実施した記事

日本語Full-duplex音声対話システムの試作

nu-dialogue.github.io

  • 日本語で利用可能な最初の対話における発話のオーバーラップできる音声対話システムを公開した

Chain of Agents: Large language models collaborating on long-context tasks

research.google

  • 長文コンテキストタスクの課題を解決するため、CoAフレームワークを提案した論文
  • レーニング不要で、多エージェント間のコラボレーションでRAGや長文対応LLMを大幅に上回る性能を示した

知られざるDMMデータエンジニアの生態 〜かつてツチノコと呼ばれし者〜

speakerdeck.com

Hacker News 日本語まとめ

catnose.me

  • Hakker Newsのトップニュースを日本語でまとめたサイト

生成AIのお陰で必要とされる判断量が激増して死ぬほど忙しくなった話

note.com

AIエージェントとは?Anthropicが公開しているAIエージェントのパターンを解説してみた

www.youtube.com

製造現場を変える「考えるAI」、エージェント型AIシステムの実力とは?

ampmedia.jp

Azure AI Languageの抽象的要約機能がPhi-3.5-miniでパワーアップ

note.com

ローカルLLMを手のひらサイズで動かしてみよう! M5 Cardputer + ModuleLLM

qiita.com

Introducing AgentWorkflow: A Powerful System for Building AI Agent Systems

www.llamaindex.ai

  • LlamaIndexがAIエージェントシステムを簡単かつ効率t系に構築できるツールの提供を発表した

mmnga/cyberagent-Mistral-Nemo-Japanese-Instruct-2408-ggufをollamaとcolabで試す。

bwgift.hatenadiary.jp

松田語録:NVIDIAのProjects Digitsについて再び

www.youtube.com

DeepSeek-R1 の technical report を読んでみた

yoheikikuta.github.io

Open R1

github.com

  • DeepSeek-r1の完全なオープンリプロダクションを目指すプロジェクト

2,500万ユーザーを支えるSREチームの6年間のスクラムカイゼン

speakerdeck.com

Cline+ローカル版DeepSeek R1でAIコーディングを使い放題にする(高スペックマシン向け)

note.com

  • 最低でも14Bモデルで試した方が良い
  • コンテキストウィンドウを16384にして動かす

[AWS] S3 セキュリティ対策

qiita.com