SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2025年2月3日の週に気になった記事などまとめ

気になったものまとめ

UnslothのGoogle Colabノートブックで手軽にLLMの蒸留ができる
DeepSeekがやっていると噂の蒸留というやつを、ローカルLLMで今すぐやってみる前編
Open-R1: Update #1
DeepSeekが凄そうなのでOllamaを使ってローカルで動かして体感してみた
Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
Introducing deep research
ChatGPT の Deep Research を試す
Sarashina-Embedding-v1-1B: 日本語LLMをベースにしたテキスト埋め込み(2/2)~発展編~
Open-R1 の概要
ChatGPT の Deep Research の概要
LLMの幻覚を自己検知する「RIG」
AIエージェントについてまとめてみた
Anthropic からの挑戦状！
The AI Agent Index
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences
採点理由を出力しながらローカルLLMを評価する【Elyza Tasks 100】
Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました
Announcing new Networking Troubleshooter preview
技術者向けドキュメント、書き方のコツは？ドキュメントを書き始める際の具体的な方法を伝授
LLM-jp-3 instruct3 シリーズの公開
RAG プロジェクトを成功させる方法 #1~ あるいは早く失敗しておく方法 ~
yasu-oh/model_memory_estimator
落ちてるボールを拾う技術
LLMs for Generation of Architectural Components: An Exploratory Empirical Study in the Serverless World
llm-jp-eval-mmの紹介
Azure関連の資格の情報（2025年2月版）
実務で担当するまでに独学した、攻撃者視点のセキュリティ
ChatGPTのdeep researchが凄すぎるので、徹底的に使い方と出力結果をまとめていくよその1
Gemini 2.0 Pro ・ Gemini 2.0 Flash ・ Gemini 2.0 Flash-Lite の概要
Trellix lowers cost, increases speed, and adds delivery flexibility with cost-effective and performant Amazon Nova Micro and Amazon Nova Lite models
Devinにコンテナイメージサイズを70%削減・デプロイ時間を40%削減してもらった話
凄いやつになる方法
Active Directory の保護
Ask! NIKKEI RAG検索技術の深層
OpenAI API の Tier のあげかた
Introducing the GPT-4o-Mini Audio Models: Adding More Choice to Audio-Enhanced AI Interaction
GitHub Copilot: The agent awakens
Gemini API の Imagen 3 の使い方
Unsloth で独自の R1 Reasoningモデルを学習
Your Company Needs Small Language Models
Train your own R1 reasoning model with Unsloth
生成AI Agent研究におけるLangChain / LangGraphの有用性
Automating a Complete Software Test Process Using LLMs: An Automotive Case Study
Understanding Reasoning LLMs
大規模言語モデルの次期バージョン PLaMo 2 の事前検証: SSMの採用と合成データによる性能改善の取り組み
AWSでRAGを実現する上で感じた3つの大事なこと
【DeNA × AI Day】 LLMの事業適用を加速させるLLMOps
[2025-02-07]生成AIで変える問い合わせの未来〜チームグローバル化の香りを添えて〜
OpenAI Deep Research
AIエージェントハッカソンに向けて旅行プラン生成エージェントを開発している話
NPUで動く「DeepSeek-R1」がもう登場、ローカル環境で動かしてみた
with 生成AIで営業生産性を倍増させる、LayerXの内製プロダクト Sales Portalの現在地
GitHub Copilot の Agent Mode を試す
Fully Autonomous AI Agents Should Not be Developed

UnslothのGoogle Colabノートブックで手軽にLLMの蒸留ができる

DeepSeekがやっていると噂の蒸留というやつを、ローカルLLMで今すぐやってみる前編

Open-R1: Update #1

DeepSeek-R1のトレーニングパイプラインと合成データを再現することを目的したOpen-R1の進捗報告

DeepSeekが凄そうなのでOllamaを使ってローカルで動かして体感してみた

Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion

PDFやOffice、HTMLなどを統一的なリッチなデータ構造に変換するオープンソースライブラリ
表構造の読み取りにTableFormerを使っている
ページレイアウト分析にDocLayNetを使っている

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

LLMに対するユニバーサルジェイルブレイクの攻撃への防御策を提案する論文

Introducing deep research

DeepResearchを紹介する記事

ChatGPT の Deep Research を試す

Sarashina-Embedding-v1-1B: 日本語LLMをベースにしたテキスト埋め込み(2/2)~発展編~

www.sbintuitions.co.jp

Open-R1 の概要

ChatGPT の Deep Research の概要

LLMの幻覚を自己検知する「RIG」

LLMは検索クエリの変換のみに使う
検索結果をそのまま出す

AIエージェントについてまとめてみた

speakerdeck.com

Anthropic からの挑戦状！

The AI Agent Index

エージェントAIシステムのデータベースが公開された

Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences

質問同士を比較させることで各質問に対する一貫性のある信頼度スコアを割り当てた論文

採点理由を出力しながらローカルLLMを評価する【Elyza Tasks 100】

Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました

ClaudeにHTMLで再現してと指示することで精度の高い文字抽出ができる

Announcing new Networking Troubleshooter preview

azure.github.io

Azureポータルから「Networking」を開き「Troubleshoot」をクリックすることで問題点をスキャンできる

技術者向けドキュメント、書き方のコツは？ドキュメントを書き始める際の具体的な方法を伝授

LLM-jp-3 instruct3 シリーズの公開

llm-jp.nii.ac.jp

RAG プロジェクトを成功させる方法 #1~ あるいは早く失敗しておく方法 ~

yasu-oh/model_memory_estimator

動かしたいモデルを入力すると必要なGPUメモリの必要量を概算するサイト

落ちてるボールを拾う技術

blog.inorinrinrin.com

拾ったボールが爆発しても、自分を責める必要はない
- 失敗したらじゃあお前がやれと言えるぐらいの気持ちで挑む

LLMs for Generation of Architectural Components: An Exploratory Empirical Study in the Serverless World

サーバーレス関数のアーキテクチャコンポーネントを生成する能力を調査する論文

llm-jp-eval-mmの紹介

speed1313.github.io

Azure関連の資格の情報（2025年2月版）

実務で担当するまでに独学した、攻撃者視点のセキュリティ

ChatGPTのdeep researchが凄すぎるので、徹底的に使い方と出力結果をまとめていくよその1

Gemini 2.0 Pro ・ Gemini 2.0 Flash ・ Gemini 2.0 Flash-Lite の概要

Trellix lowers cost, increases speed, and adds delivery flexibility with cost-effective and performant Amazon Nova Micro and Amazon Nova Lite models

データ取集フェースではAmazon Nova Microを使い、最終判断フェーズのみCluade Sonnetを使うことでコストを削減した

Devinにコンテナイメージサイズを70%削減・デプロイ時間を40%削減してもらった話

tech.layerx.co.jp

Devinはファイル単位の最適化ではなく、リポジトリ全体を理解しながら調整可能

凄いやつになる方法

困難に直面してもできるまでやるマインドセット
学んだことを毎日思い出す習慣
なぜを考える

Active Directory の保護

speakerdeck.com

Ask! NIKKEI RAG検索技術の深層

speakerdeck.com

キーワード検索には、日経SPLADEモデルを利用した

OpenAI API の Tier のあげかた

Introducing the GPT-4o-Mini Audio Models: Adding More Choice to Audio-Enhanced AI Interaction

techcommunity.microsoft.com

GPT-4o-miniの音声対応をモデルがAzureで利用できるようになった

GitHub Copilot: The agent awakens

GitHub Copilotにエージェントモードが追加された

Gemini API の Imagen 3 の使い方

Unsloth で独自の R1 Reasoningモデルを学習

Your Company Needs Small Language Models

towardsdatascience.com

SLMが必要な理由をまとめた記事
特定タスク向けAIエージェントに最適
汎用的な用途には適さない
タスク確定後にSLMに切り替える

Train your own R1 reasoning model with Unsloth

Unslothが公開した独自のR1モデルを学習する方法を紹介した記事

生成AI Agent研究におけるLangChain / LangGraphの有用性

coreprice.ent.box.com

Automating a Complete Software Test Process Using LLMs: An Automotive Case Study

車両APIの自動テストシステムについての論文
LLMを活用してテストプロセスを自動化する手法を提案している

Understanding Reasoning LLMs

magazine.sebastianraschka.com

推論委特化したLLMの構築方法と最適化戦略を解説した記事

大規模言語モデルの次期バージョン PLaMo 2 の事前検証: SSMの採用と合成データによる性能改善の取り組み

tech.preferred.jp

AWSでRAGを実現する上で感じた3つの大事なこと

speakerdeck.com

【DeNA × AI Day】 LLMの事業適用を加速させるLLMOps

www.docswell.com

[2025-02-07]生成AIで変える問い合わせの未来〜チームグローバル化の香りを添えて〜

speakerdeck.com

OpenAI Deep Research

docs.google.com

OpenAI DeepResearchを使うときのガイド

AIエージェントハッカソンに向けて旅行プラン生成エージェントを開発している話

speakerdeck.com

NPUで動く「DeepSeek-R1」がもう登場、ローカル環境で動かしてみた

forest.watch.impress.co.jp

with 生成AIで営業生産性を倍増させる、LayerXの内製プロダクト Sales Portalの現在地

GitHub Copilot の Agent Mode を試す

カスタム指示を追加する機能もある

Fully Autonomous AI Agents Should Not be Developed

AIエージェンtノの自律性が高まるにつれて、人間い対するリスクが増大することを指摘した論文