SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年12月9日の週に気になった記事などまとめ

日本語reasoningモデルを作る

zenn.dev

LLMを悩ませる"Excel文書"をうまく扱う方法

zenn.dev

AivisSpeech を試す&CLI から試せるスクリプトを作成した

note.com

【論文】LLM-as-a-Judgeならぬ、Agent-as-a-Judge 〜エージェントでエージェントの評価を行う〜

note.com

  • 最終的な出力だけでなく、そこまでの過程や思考も評価する必要がある
  • Agent-as-a-Judgeは人間の評価との90%という高い一致率を示し、従来のLLM-as-Judge(70%)を大きく上回った

Engineering Manager

roadmap.sh

  • Enginnering Managerが知っておくべきことをロードマップにしたページ

CNN < Transformer ?

developers.cyberagent.co.jp

o1 Proを使ってプロダクトのアイデア出しから実装までやってみる!

qiita.com

  • プロダクトのアイデア検討は現在のLLMではまだ難しい問題
  • 本当に単純なアプリならばアイデア出し~実装完了まで30分ぐらいで作れる
  • ただ作りこむ部分はまだコストが非常にかかる

【Azure OpenAI × ゼロトラスト】あなたの生成AIアプリを鉄壁のセキュリティで守る実践ガイド

qiita.com

Pythonのプロジェクト管理ツール uv のv0.5.3までの便利な機能 - dependencies編

zenn.dev

PydanticAI

github.com

5時間で38個のデモをその場で作った、デジタル庁でのAIアイデアソン・ハッカソンの新しい形式を共有します

digital-gov.note.jp

  • イデアを持った人と開発する人が分離している
  • 開発する人が1テーマではなく複数テーマ開発することもある
  • どんなお題が来るかが開発者は事前に分からない
  • 最後に序列をつけることをしない
  • 事前に開発パターンを検討しておくこと、それぞれの開発パターンで少し手直しすれば汎用的に使えるように仕込みをしておくこと
  • 詳細なイベントの開催報告

カレンダーが細切れなので時間はあるのに仕事をする時間がない

daiksy.hatenablog.jp

  • 自分のやりたい 仕事を宣言しておくと細切れでも時間を捻出して実行できる

生成AIを使ってリアルな案件対応をやってみる〜麻雀の点数計算アプリ失敗編〜

qiita.com

OpenAI Sora の発表まとめ

note.com

MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification

arxiv.org

テキスト埋め込みモデル Ruri を使ってみる

qiita.com

「Agentless」という最新手法。LLMの新しい使い方。

zenn.dev

  • 特定の用途に特化させてLLMを使うなら、AIエージェントで実装しない方が、速度も、性能も上がるよねという考え方
  • 「エージェント化せず、むしろ決まったフローの中にLLMを組み込む」という「Agentless」なアプローチが提案されている
  • Agentlessのキモは、「LLMに、次のアクションを決めさせない」

Mathematics used in cryptography around us

speakerdeck.com

Sarashina2.1-1B

huggingface.co

プロダクトチームのEMが実践している3つのマネジメント(戦略・達成・組織) #LayerXテックアドカレ

tech.layerx.co.jp

UbieにおけるLLMを活用した不具合分析とテスト戦略立案プロセス

zenn.dev

  • LLMと相談しながらプロンプトを作成した
  • Jiraからエクスポートした2か月分の不具合情報をCSV形式に整理し、作成したプロンプトとともにLLMに入力した

履歴テーブルから最新の1件を取ってくる方法

soudai.hatenablog.com

Japan Microsoft 365 コミュニティ カンファレンス 2024 のオンラインセッションの録画

www.youtube.com

Command: A new tool for building multi-agent architectures in LangGraph

blog.langchain.dev

  • LangGraphでマルチエージェントアーキテクチャを構築するためのツールが公開された

Google Colab で にじボイスAPI を試す

note.com

にじボイス API を試す

note.com

AWSセッション動画 日本語記事まとめ

docs.google.com

  • re:Inventセッション動画の全文書き起こし記事

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

arxiv.org

  • LLMを用いて評価する方法の包括的なサーベイ論文

プロンプトエンジニアリングは必要なくなるのか?

note.com

  • 一般的なビジネスパーソンにとってのプロンプトエンジニアリングは不要になる
    • ユーザーにプロンプトエンジニアリングを求めないのが、生成AIサービスでのUX上のポイントとなる
  • エンジニアや研究者はプロンプティング以外の広汎なプロンプトエンジニアリングを極めていくと人材価値は上がると思われる

EMとして 自分の弱さと向きあい 人に背中を任せられるようになった話

speakerdeck.com

  • EMの役割はプロダクトを成功させること

技術記事をどうやって書くか & アドベントカレンダーについて

zenn.dev

遂に登場!OpenAIから動画生成AI「Sora」が登場したので解説してみた

www.youtube.com

Deep Research の概要

note.com

  • 検索し、興味深い情報を見つけ、学習した内容に基づいて新しい検索を開始します。このプロセスを複数回繰り返し、完了すると、主要な調査結果の包括的なレポートを生成
  • レポートはGoogleドキュメントにエクスポートできる

開発者向けの Gemini 2.0 の概要

note.com

  • マルチモーダル出力できる
  • ネイティブツール呼び出しできる
  • リアルタイムのオーディオおよびビデオストリーミングを備えた動的アプリケーションを構築するための「Multimodal Live API」も導入
  • 「Gemini 2.0 Flash」を使用して、テキスト、音声、画像を含む統合レスポンスを生成できる
  • SynthIDの目に見えない透かしがすべての画像および音声出力で有効
  • 「Function Calling」によるカスタムサードパーティ関数に加えて、Google検索やコード実行などのネイティブツール呼び出しができる
  • カメラや画面からのオーディオおよびビデオストリーミング入力を使用して、リアルタイムのマルチモーダルアプリケーションを構築できる

Gemini 2.0 の概要

note.com

LongWriterのような長文出力ができる日本語LLMを作る

zenn.dev

Deep Research を試す

note.com

  • GoogleのDeep Research」は、「Gemini Advanced」で利用可能なAIエージェント機能
  • ユーザーに代わって徹底的な調査を実行し、複数のソースから包括的なレポートを数分で作成
  • 現在の対応言語は英語のみ

Gemini 2.0 の APIのはじめ方

note.com

GoogleCloudPlatform/generative-ai

github.com

相手の行動が期待と違ったときに、勝手に悪意を想像しないで

note.com

Google最新AI!Gemini 2.0 Flashが凄かったので解説してみた

www.youtube.com

LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる

tjo.hatenablog.com

Gemini 2.0 の動画一覧

note.com

人に共感してもらって満足しない

konifar-zatsu.hatenadiary.jp

どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する

どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する #AWS - Qiita

  • クロスリージョンかつクロスモデルの冗長性が高い推論インフラを設計・実装する手順を解説した記事

Dify Enterprise on AWS

github.com

無自覚にメンバーの心理的安全性を奪っていた経験から得た学び

speakerdeck.com

  • 自分のべき論をメンバーに当てはめない

時系列基盤モデルの性能向上に向けて【2024年10月版】

zenn.dev

Gemini advancedのDeepResearchでGoogle Willowについて調べてもらった

note.com

Gemini 2.0 Flash Experimentalはスーパーマリオの夢をみるのか?

bwgift.hatenadiary.jp

Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning

techcommunity.microsoft.com

  • Phi-4が発表された
  • 14Bのパラメータ

技術者教育について

blog.satotaichi.info

  • ハイパフォーマーと中堅技術者が直近の業務を題材に面談する場を設けている

市民プールの混雑状況画像をマルチモーダルLLMを利用してログ化してみた

note.com

HR領域における生成AIの可能性

espers.co.jp

DifyでWeb上のPDFを要約してみる

zenn.dev

Gemini Multimodal APIで画面共有しながらAIと会話をする & Gemini 2.0 の OCR 性能を測ってみる!

qiita.com

Gemini 2.0 の 3D Spatial Understanding を試す

note.com

  • 「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術

Gemini 2.0 の 2D Spatial Understanding を試す

note.com

  • 「2D Spatial Understanding」(2次元空間認識) は、2D画像や動画から、平面上での物体の位置・形状や関係性を理解する能力や技術

Gemini 2.0 Flash から MCP を利用して BigQuery を操作する

zenn.dev

開発完了からリリースまでのリードタイム改善に挑戦した話

blog.kyash.co

Challenges in Human-Agent Communication

www.microsoft.com

  • システムがもたらす12の主要なコミュニケーション課題を説明する論文

ChatGPTに『Projects』機能が登場:チャット・ファイル・指示を一箇所で整理する新ワークフロー

chatgpt-lab.com

富士通の最先端技術を一挙に公開!富士通テクノロジー戦略説明会

blog.fltech.dev

OpenAI o1再現モデルまとめ(2024年12月時点)

note.com

Google、「NotebookLM」の有料プラン追加 「音声概要」での会話機能も

www.itmedia.co.jp

Google Colab で Gemini 2.0 の Multimodal Live API を試す

note.com

Introducing Command R7B: Fast and efficient generative AI

cohere.com

  • Command R7Bをリリースした
  • Rシリーズで最小・最速のモデル
  • 128kのコンテキスト長

生成AIで『変える側』になる ── 技術者として社会課題に挑む決意

note.com

What is Azure AI Agent Service?

learn.microsoft.com

  • AI Agenet Serviceをパブリックプレビューとしてリリースした

grok-2-1212 ・ grok-2-vision-beta の概要

note.com

MarkItDown

github.com

  • Microsoftが公開した様々な拡張子のファイルをmarkdownに変換するライブラリ
  • 現状は、内部的には既存ライブラリを呼び出す形で、markdown化している

GeminiとSpeech-to-Textで実現する高精度な文字起こし

techblog.enechain.com

Google Agentspace の概要

note.com

NotebookLM Plus と NotebookLM の新機能

note.com

Amazon Bedrock Knowledge Bases が GraphRAG をサポート(プレビュー)!だが…それがなんだというのだ…

zenn.dev

Making it easier to build human-in-the-loop agents with interrupt

blog.langchain.dev

  • LangGraphエージェントに人間が簡単に関与するステップを組み込む新しい方法を発表した

バクラクのドキュメント解析技術と実データにおける課題

speakerdeck.com

  • 間違えた際の気づきやすさ、修正のしやすさ、抽出速度などからシンプルなモデルを使用
  • フィードバッグサイクルの設計が重要

権威ドキュメントで振り返る2024 #年忘れセキュリティ2024

speakerdeck.com

動画生成AIのSoraで遊ぶ

note.com

OpenAI Projects/Canvasで遊ぶ ~Claudeとも比較

note.com

  • Canvasでコードの実行もできる

ChatGPTのProject機能、GPTsとの使い分けは?

note.com

  • ChatGPTは他のチャットをドラッグアンドドロップで既存のProjectに追加できる
  • Projectは1つのプロジェクトやタスクを深掘りする「縦の流れ」を重視する仕組み

EM of EMs になって起こった変化

note.com