2024年12月9日の週に気になった記事などまとめ - SEが最近起こったことを書くブログ

日本語reasoningモデルを作る
LLMを悩ませる"Excel文書"をうまく扱う方法
AivisSpeech を試す＆CLI から試せるスクリプトを作成した
【論文】LLM-as-a-Judgeならぬ、Agent-as-a-Judge 〜エージェントでエージェントの評価を行う〜
Engineering Manager
CNN < Transformer ?
o1 Proを使ってプロダクトのアイデア出しから実装までやってみる！
【Azure OpenAI × ゼロトラスト】あなたの生成AIアプリを鉄壁のセキュリティで守る実践ガイド
Pythonのプロジェクト管理ツール uv のv0.5.3までの便利な機能 - dependencies編
PydanticAI
5時間で38個のデモをその場で作った、デジタル庁でのAIアイデアソン・ハッカソンの新しい形式を共有します
カレンダーが細切れなので時間はあるのに仕事をする時間がない
生成AIを使ってリアルな案件対応をやってみる〜麻雀の点数計算アプリ失敗編〜
OpenAI Sora の発表まとめ
MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification
テキスト埋め込みモデル Ruri を使ってみる
「Agentless」という最新手法。LLMの新しい使い方。
Mathematics used in cryptography around us
Sarashina2.1-1B
プロダクトチームのEMが実践している3つのマネジメント（戦略・達成・組織） #LayerXテックアドカレ
UbieにおけるLLMを活用した不具合分析とテスト戦略立案プロセス
履歴テーブルから最新の1件を取ってくる方法
Japan Microsoft 365 コミュニティカンファレンス 2024 のオンラインセッションの録画
Command: A new tool for building multi-agent architectures in LangGraph
Google Colab でにじボイスAPI を試す
にじボイス API を試す
AWSセッション動画日本語記事まとめ
LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods
プロンプトエンジニアリングは必要なくなるのか？
EMとして自分の弱さと向きあい人に背中を任せられるようになった話
技術記事をどうやって書くか & アドベントカレンダーについて
遂に登場！OpenAIから動画生成AI「Sora」が登場したので解説してみた
Deep Research の概要
開発者向けの Gemini 2.0 の概要
Gemini 2.0 の概要
LongWriterのような長文出力ができる日本語LLMを作る
Deep Research を試す
Gemini 2.0 の APIのはじめ方
GoogleCloudPlatform/generative-ai
相手の行動が期待と違ったときに、勝手に悪意を想像しないで
Google最新AI！Gemini 2.0 Flashが凄かったので解説してみた
LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる
Gemini 2.0 の動画一覧
人に共感してもらって満足しない
どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する
Dify Enterprise on AWS
無自覚にメンバーの心理的安全性を奪っていた経験から得た学び
時系列基盤モデルの性能向上に向けて【2024年10月版】
Gemini advancedのDeepResearchでGoogle Willowについて調べてもらった
Gemini 2.0 Flash Experimentalはスーパーマリオの夢をみるのか？
Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning
技術者教育について
市民プールの混雑状況画像をマルチモーダルLLMを利用してログ化してみた
HR領域における生成AIの可能性
DifyでWeb上のPDFを要約してみる
Gemini Multimodal APIで画面共有しながらAIと会話をする & Gemini 2.0 の OCR 性能を測ってみる！
Gemini 2.0 の 3D Spatial Understanding を試す
Gemini 2.0 の 2D Spatial Understanding を試す
Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
開発完了からリリースまでのリードタイム改善に挑戦した話
Challenges in Human-Agent Communication
ChatGPTに『Projects』機能が登場：チャット・ファイル・指示を一箇所で整理する新ワークフロー
富士通の最先端技術を一挙に公開！富士通テクノロジー戦略説明会
OpenAI o1再現モデルまとめ（2024年12月時点）
Google、「NotebookLM」の有料プラン追加　「音声概要」での会話機能も
Google Colab で Gemini 2.0 の Multimodal Live API を試す
Introducing Command R7B: Fast and efficient generative AI
生成AIで『変える側』になる ── 技術者として社会課題に挑む決意
What is Azure AI Agent Service?
grok-2-1212 ・ grok-2-vision-beta の概要
MarkItDown
GeminiとSpeech-to-Textで実現する高精度な文字起こし
Google Agentspace の概要
NotebookLM Plus と NotebookLM の新機能
Amazon Bedrock Knowledge Bases が GraphRAG をサポート（プレビュー）！だが…それがなんだというのだ…
Making it easier to build human-in-the-loop agents with interrupt
バクラクのドキュメント解析技術と実データにおける課題
権威ドキュメントで振り返る2024 #年忘れセキュリティ2024
動画生成AIのSoraで遊ぶ
OpenAI Projects/Canvasで遊ぶ　～Claudeとも比較
ChatGPTのProject機能、GPTsとの使い分けは？
EM of EMs になって起こった変化

最終的な出力だけでなく、そこまでの過程や思考も評価する必要がある
Agent-as-a-Judgeは人間の評価との90%という高い一致率を示し、従来のLLM-as-Judge（70%）を大きく上回った

Engineering Manager

roadmap.sh

Enginnering Managerが知っておくべきことをロードマップにしたページ

CNN < Transformer ?

developers.cyberagent.co.jp

o1 Proを使ってプロダクトのアイデア出しから実装までやってみる！

qiita.com

プロダクトのアイデア検討は現在のLLMではまだ難しい問題
本当に単純なアプリならばアイデア出し～実装完了まで30分ぐらいで作れる
ただ作りこむ部分はまだコストが非常にかかる

【Azure OpenAI × ゼロトラスト】あなたの生成AIアプリを鉄壁のセキュリティで守る実践ガイド

qiita.com

Pythonのプロジェクト管理ツール uv のv0.5.3までの便利な機能 - dependencies編

zenn.dev

PydanticAI

github.com

Pydanticを活用したLLMアプリを構築するのに役立つフレームワーク

5時間で38個のデモをその場で作った、デジタル庁でのAIアイデアソン・ハッカソンの新しい形式を共有します

digital-gov.note.jp

アイデアを持った人と開発する人が分離している
開発する人が1テーマではなく複数テーマ開発することもある
どんなお題が来るかが開発者は事前に分からない
最後に序列をつけることをしない
事前に開発パターンを検討しておくこと、それぞれの開発パターンで少し手直しすれば汎用的に使えるように仕込みをしておくこと
詳細なイベントの開催報告
- www.digital.go.jp

カレンダーが細切れなので時間はあるのに仕事をする時間がない

daiksy.hatenablog.jp

自分のやりたい　仕事を宣言しておくと細切れでも時間を捻出して実行できる

生成AIを使ってリアルな案件対応をやってみる〜麻雀の点数計算アプリ失敗編〜

qiita.com

OpenAI Sora の発表まとめ

note.com

MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification

arxiv.org

最初の顧客クエリを模倣した質問のデータセットを作成し、次に応答から代替の質問をリバースエンジニアリングして軌跡を検証するマルチエージェントフレームワーク

テキスト埋め込みモデル Ruri を使ってみる

qiita.com

「Agentless」という最新手法。LLMの新しい使い方。

zenn.dev

特定の用途に特化させてLLMを使うなら、AIエージェントで実装しない方が、速度も、性能も上がるよねという考え方
「エージェント化せず、むしろ決まったフローの中にLLMを組み込む」という「Agentless」なアプローチが提案されている
Agentlessのキモは、「LLMに、次のアクションを決めさせない」

Mathematics used in cryptography around us

speakerdeck.com

Sarashina2.1-1B

huggingface.co

プロダクトチームのEMが実践している3つのマネジメント（戦略・達成・組織） #LayerXテックアドカレ

tech.layerx.co.jp

UbieにおけるLLMを活用した不具合分析とテスト戦略立案プロセス

zenn.dev

LLMと相談しながらプロンプトを作成した
Jiraからエクスポートした2か月分の不具合情報をCSV形式に整理し、作成したプロンプトとともにLLMに入力した

履歴テーブルから最新の1件を取ってくる方法

soudai.hatenablog.com

Japan Microsoft 365 コミュニティカンファレンス 2024 のオンラインセッションの録画

www.youtube.com

Command: A new tool for building multi-agent architectures in LangGraph

blog.langchain.dev

LangGraphでマルチエージェントアーキテクチャを構築するためのツールが公開された

Google Colab でにじボイスAPI を試す

note.com

にじボイス API を試す

note.com

AWSセッション動画日本語記事まとめ

docs.google.com

re:Inventセッション動画の全文書き起こし記事

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

arxiv.org

LLMを用いて評価する方法の包括的なサーベイ論文

プロンプトエンジニアリングは必要なくなるのか？

note.com

一般的なビジネスパーソンにとってのプロンプトエンジニアリングは不要になる
- ユーザーにプロンプトエンジニアリングを求めないのが、生成AIサービスでのUX上のポイントとなる
エンジニアや研究者はプロンプティング以外の広汎なプロンプトエンジニアリングを極めていくと人材価値は上がると思われる

EMとして自分の弱さと向きあい人に背中を任せられるようになった話

speakerdeck.com

EMの役割はプロダクトを成功させること

技術記事をどうやって書くか & アドベントカレンダーについて

zenn.dev

遂に登場！OpenAIから動画生成AI「Sora」が登場したので解説してみた

www.youtube.com

Deep Research の概要

note.com

検索し、興味深い情報を見つけ、学習した内容に基づいて新しい検索を開始します。このプロセスを複数回繰り返し、完了すると、主要な調査結果の包括的なレポートを生成
レポートはGoogleドキュメントにエクスポートできる

開発者向けの Gemini 2.0 の概要

note.com

マルチモーダル出力できる
ネイティブツール呼び出しできる
リアルタイムのオーディオおよびビデオストリーミングを備えた動的アプリケーションを構築するための「Multimodal Live API」も導入
「Gemini 2.0 Flash」を使用して、テキスト、音声、画像を含む統合レスポンスを生成できる
SynthIDの目に見えない透かしがすべての画像および音声出力で有効
「Function Calling」によるカスタムサードパーティ関数に加えて、Google検索やコード実行などのネイティブツール呼び出しができる
カメラや画面からのオーディオおよびビデオストリーミング入力を使用して、リアルタイムのマルチモーダルアプリケーションを構築できる

Gemini 2.0 の概要

note.com

LongWriterのような長文出力ができる日本語LLMを作る

zenn.dev

Deep Research を試す

note.com

「GoogleのDeep Research」は、「Gemini Advanced」で利用可能なAIエージェント機能
ユーザーに代わって徹底的な調査を実行し、複数のソースから包括的なレポートを数分で作成
現在の対応言語は英語のみ

Gemini 2.0 の APIのはじめ方

note.com

GoogleCloudPlatform/generative-ai

github.com

相手の行動が期待と違ったときに、勝手に悪意を想像しないで

note.com

Google最新AI！Gemini 2.0 Flashが凄かったので解説してみた

www.youtube.com

LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる

tjo.hatenablog.com

Gemini 2.0 の動画一覧

note.com

人に共感してもらって満足しない

konifar-zatsu.hatenadiary.jp

どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する

どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する #AWS - Qiita

クロスリージョンかつクロスモデルの冗長性が高い推論インフラを設計・実装する手順を解説した記事

Dify Enterprise on AWS

github.com

無自覚にメンバーの心理的安全性を奪っていた経験から得た学び

speakerdeck.com

自分のべき論をメンバーに当てはめない

時系列基盤モデルの性能向上に向けて【2024年10月版】

zenn.dev

Gemini advancedのDeepResearchでGoogle Willowについて調べてもらった

note.com

Gemini 2.0 Flash Experimentalはスーパーマリオの夢をみるのか？

bwgift.hatenadiary.jp

Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning

techcommunity.microsoft.com

Phi-4が発表された
14Bのパラメータ

技術者教育について

blog.satotaichi.info

ハイパフォーマーと中堅技術者が直近の業務を題材に面談する場を設けている

市民プールの混雑状況画像をマルチモーダルLLMを利用してログ化してみた

note.com

HR領域における生成AIの可能性

espers.co.jp

DifyでWeb上のPDFを要約してみる

zenn.dev

Gemini Multimodal APIで画面共有しながらAIと会話をする & Gemini 2.0 の OCR 性能を測ってみる！

qiita.com

Gemini 2.0 の 3D Spatial Understanding を試す

note.com

「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術

Gemini 2.0 の 2D Spatial Understanding を試す

note.com

「2D Spatial Understanding」(2次元空間認識) は、2D画像や動画から、平面上での物体の位置・形状や関係性を理解する能力や技術

Gemini 2.0 Flash から MCP を利用して BigQuery を操作する

zenn.dev

開発完了からリリースまでのリードタイム改善に挑戦した話

blog.kyash.co

Challenges in Human-Agent Communication

www.microsoft.com

システムがもたらす12の主要なコミュニケーション課題を説明する論文

ChatGPTに『Projects』機能が登場：チャット・ファイル・指示を一箇所で整理する新ワークフロー

chatgpt-lab.com

富士通の最先端技術を一挙に公開！富士通テクノロ ジー戦略説明会

blog.fltech.dev

OpenAI o1再現モデルまとめ（2024年12月時点）

note.com

Google、「NotebookLM」の有料プラン追加　「音声概要」での会話機能も

www.itmedia.co.jp

Google Colab で Gemini 2.0 の Multimodal Live API を試す

note.com

Introducing Command R7B: Fast and efficient generative AI

cohere.com

Command R7Bをリリースした
Rシリーズで最小・最速のモデル
128kのコンテキスト長

生成AIで『変える側』になる ── 技術者として社会課題に挑む決意

note.com

What is Azure AI Agent Service?

learn.microsoft.com

AI Agenet Serviceをパブリックプレビューとしてリリースした

grok-2-1212 ・ grok-2-vision-beta の概要

note.com

MarkItDown

github.com

Microsoftが公開した様々な拡張子のファイルをmarkdownに変換するライブラリ
現状は、内部的には既存ライブラリを呼び出す形で、markdown化している

GeminiとSpeech-to-Textで実現する高精度な文字起こし

techblog.enechain.com

入力データは、動画ではなく音声ファイルを採用
ドメイン固有用語の管理は、スプレッドシートによって実現

Google Agentspace の概要

note.com

NotebookLM Plus と NotebookLM の新機能

note.com

Amazon Bedrock Knowledge Bases が GraphRAG をサポート（プレビュー）！だが…それがなんだというのだ…

zenn.dev

Making it easier to build human-in-the-loop agents with interrupt

blog.langchain.dev

LangGraphエージェントに人間が簡単に関与するステップを組み込む新しい方法を発表した

バクラクのドキュメント解析技術と実データにおける課題

speakerdeck.com

間違えた際の気づきやすさ、修正のしやすさ、抽出速度などからシンプルなモデルを使用
フィードバッグサイクルの設計が重要

権威ドキュメントで振り返る2024 #年忘れセキュリティ2024

speakerdeck.com

動画生成AIのSoraで遊ぶ

note.com

OpenAI Projects/Canvasで遊ぶ　～Claudeとも比較

note.com

Canvasでコードの実行もできる

ChatGPTのProject機能、GPTsとの使い分けは？

note.com

ChatGPTは他のチャットをドラッグアンドドロップで既存のProjectに追加できる
Projectは1つのプロジェクトやタスクを深掘りする「縦の流れ」を重視する仕組み

EM of EMs になって起こった変化

note.com

日本語reasoningモデルを作る

LLMを悩ませる"Excel文書"をうまく扱う方法

AivisSpeech を試す＆CLI から試せるスクリプトを作成した

【論文】LLM-as-a-Judgeならぬ、Agent-as-a-Judge 〜エージェントでエージェントの評価を行う〜

Engineering Manager

CNN < Transformer ?

o1 Proを使ってプロダクトのアイデア出しから実装までやってみる！

【Azure OpenAI × ゼロトラスト】あなたの生成AIアプリを鉄壁のセキュリティで守る実践ガイド

Pythonのプロジェクト管理ツール uv のv0.5.3までの便利な機能 - dependencies編

PydanticAI

5時間で38個のデモをその場で作った、デジタル庁でのAIアイデアソン・ハッカソンの新しい形式を共有します

カレンダーが細切れなので時間はあるのに仕事をする時間がない

生成AIを使ってリアルな案件対応をやってみる〜麻雀の点数計算アプリ失敗編〜

OpenAI Sora の発表まとめ

MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification

テキスト埋め込みモデル Ruri を使ってみる

「Agentless」という最新手法。LLMの新しい使い方。

Mathematics used in cryptography around us

Sarashina2.1-1B

プロダクトチームのEMが実践している3つのマネジメント（戦略・達成・組織） #LayerXテックアドカレ

UbieにおけるLLMを活用した不具合分析とテスト戦略立案プロセス

履歴テーブルから最新の1件を取ってくる方法

Japan Microsoft 365 コミュニティ カンファレンス 2024 のオンラインセッションの録画

Command: A new tool for building multi-agent architectures in LangGraph

Google Colab で にじボイスAPI を試す

にじボイス API を試す

AWSセッション動画 日本語記事まとめ

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

プロンプトエンジニアリングは必要なくなるのか？

EMとして 自分の弱さと向きあい 人に背中を任せられるようになった話

技術記事をどうやって書くか & アドベントカレンダーについて

遂に登場！OpenAIから動画生成AI「Sora」が登場したので解説してみた

Deep Research の概要

開発者向けの Gemini 2.0 の概要

Gemini 2.0 の概要

LongWriterのような長文出力ができる日本語LLMを作る

Deep Research を試す

Gemini 2.0 の APIのはじめ方

GoogleCloudPlatform/generative-ai

相手の行動が期待と違ったときに、勝手に悪意を想像しないで

Google最新AI！Gemini 2.0 Flashが凄かったので解説してみた

LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる

Gemini 2.0 の動画一覧

人に共感してもらって満足しない

どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する

Dify Enterprise on AWS

無自覚にメンバーの心理的安全性を奪っていた経験から得た学び

時系列基盤モデルの性能向上に向けて【2024年10月版】

Gemini advancedのDeepResearchでGoogle Willowについて調べてもらった

Gemini 2.0 Flash Experimentalはスーパーマリオの夢をみるのか？

Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning

技術者教育について

市民プールの混雑状況画像をマルチモーダルLLMを利用してログ化してみた

HR領域における生成AIの可能性

DifyでWeb上のPDFを要約してみる

Gemini Multimodal APIで画面共有しながらAIと会話をする & Gemini 2.0 の OCR 性能を測ってみる！

Gemini 2.0 の 3D Spatial Understanding を試す

Gemini 2.0 の 2D Spatial Understanding を試す

Gemini 2.0 Flash から MCP を利用して BigQuery を操作する

開発完了からリリースまでのリードタイム改善に挑戦した話

Challenges in Human-Agent Communication

ChatGPTに『Projects』機能が登場：チャット・ファイル・指示を一箇所で整理する新ワークフロー

富士通の最先端技術を一挙に公開！富士通テクノロジー戦略説明会

OpenAI o1再現モデルまとめ（2024年12月時点）

Google、「NotebookLM」の有料プラン追加 「音声概要」での会話機能も

Google Colab で Gemini 2.0 の Multimodal Live API を試す

Introducing Command R7B: Fast and efficient generative AI

生成AIで『変える側』になる ── 技術者として社会課題に挑む決意

What is Azure AI Agent Service?

grok-2-1212 ・ grok-2-vision-beta の概要

MarkItDown

GeminiとSpeech-to-Textで実現する高精度な文字起こし

Google Agentspace の概要

NotebookLM Plus と NotebookLM の新機能

Amazon Bedrock Knowledge Bases が GraphRAG をサポート（プレビュー）！だが…それがなんだというのだ…

Making it easier to build human-in-the-loop agents with interrupt

バクラクのドキュメント解析技術と実データにおける課題

権威ドキュメントで振り返る2024 #年忘れセキュリティ2024

動画生成AIのSoraで遊ぶ

OpenAI Projects/Canvasで遊ぶ ～Claudeとも比較

Japan Microsoft 365 コミュニティカンファレンス 2024 のオンラインセッションの録画

Google Colab でにじボイスAPI を試す

AWSセッション動画日本語記事まとめ

EMとして自分の弱さと向きあい人に背中を任せられるようになった話

Google、「NotebookLM」の有料プラン追加　「音声概要」での会話機能も

OpenAI Projects/Canvasで遊ぶ　～Claudeとも比較