- 日本語reasoningモデルを作る
- LLMを悩ませる"Excel文書"をうまく扱う方法
- AivisSpeech を試す&CLI から試せるスクリプトを作成した
- 【論文】LLM-as-a-Judgeならぬ、Agent-as-a-Judge 〜エージェントでエージェントの評価を行う〜
- Engineering Manager
- CNN < Transformer ?
- o1 Proを使ってプロダクトのアイデア出しから実装までやってみる!
- 【Azure OpenAI × ゼロトラスト】あなたの生成AIアプリを鉄壁のセキュリティで守る実践ガイド
- Pythonのプロジェクト管理ツール uv のv0.5.3までの便利な機能 - dependencies編
- PydanticAI
- 5時間で38個のデモをその場で作った、デジタル庁でのAIアイデアソン・ハッカソンの新しい形式を共有します
- カレンダーが細切れなので時間はあるのに仕事をする時間がない
- 生成AIを使ってリアルな案件対応をやってみる〜麻雀の点数計算アプリ失敗編〜
- OpenAI Sora の発表まとめ
- MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification
- テキスト埋め込みモデル Ruri を使ってみる
- 「Agentless」という最新手法。LLMの新しい使い方。
- Mathematics used in cryptography around us
- Sarashina2.1-1B
- プロダクトチームのEMが実践している3つのマネジメント(戦略・達成・組織) #LayerXテックアドカレ
- UbieにおけるLLMを活用した不具合分析とテスト戦略立案プロセス
- 履歴テーブルから最新の1件を取ってくる方法
- Japan Microsoft 365 コミュニティ カンファレンス 2024 のオンラインセッションの録画
- Command: A new tool for building multi-agent architectures in LangGraph
- Google Colab で にじボイスAPI を試す
- にじボイス API を試す
- AWSセッション動画 日本語記事まとめ
- LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods
- プロンプトエンジニアリングは必要なくなるのか?
- EMとして 自分の弱さと向きあい 人に背中を任せられるようになった話
- 技術記事をどうやって書くか & アドベントカレンダーについて
- 遂に登場!OpenAIから動画生成AI「Sora」が登場したので解説してみた
- Deep Research の概要
- 開発者向けの Gemini 2.0 の概要
- Gemini 2.0 の概要
- LongWriterのような長文出力ができる日本語LLMを作る
- Deep Research を試す
- Gemini 2.0 の APIのはじめ方
- GoogleCloudPlatform/generative-ai
- 相手の行動が期待と違ったときに、勝手に悪意を想像しないで
- Google最新AI!Gemini 2.0 Flashが凄かったので解説してみた
- LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる
- Gemini 2.0 の動画一覧
- 人に共感してもらって満足しない
- どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する
- Dify Enterprise on AWS
- 無自覚にメンバーの心理的安全性を奪っていた経験から得た学び
- 時系列基盤モデルの性能向上に向けて【2024年10月版】
- Gemini advancedのDeepResearchでGoogle Willowについて調べてもらった
- Gemini 2.0 Flash Experimentalはスーパーマリオの夢をみるのか?
- Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning
- 技術者教育について
- 市民プールの混雑状況画像をマルチモーダルLLMを利用してログ化してみた
- HR領域における生成AIの可能性
- DifyでWeb上のPDFを要約してみる
- Gemini Multimodal APIで画面共有しながらAIと会話をする & Gemini 2.0 の OCR 性能を測ってみる!
- Gemini 2.0 の 3D Spatial Understanding を試す
- Gemini 2.0 の 2D Spatial Understanding を試す
- Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
- 開発完了からリリースまでのリードタイム改善に挑戦した話
- Challenges in Human-Agent Communication
- ChatGPTに『Projects』機能が登場:チャット・ファイル・指示を一箇所で整理する新ワークフロー
- 富士通の最先端技術を一挙に公開!富士通テクノロジー戦略説明会
- OpenAI o1再現モデルまとめ(2024年12月時点)
- Google、「NotebookLM」の有料プラン追加 「音声概要」での会話機能も
- Google Colab で Gemini 2.0 の Multimodal Live API を試す
- Introducing Command R7B: Fast and efficient generative AI
- 生成AIで『変える側』になる ── 技術者として社会課題に挑む決意
- What is Azure AI Agent Service?
- grok-2-1212 ・ grok-2-vision-beta の概要
- MarkItDown
- GeminiとSpeech-to-Textで実現する高精度な文字起こし
- Google Agentspace の概要
- NotebookLM Plus と NotebookLM の新機能
- Amazon Bedrock Knowledge Bases が GraphRAG をサポート(プレビュー)!だが…それがなんだというのだ…
- Making it easier to build human-in-the-loop agents with interrupt
- バクラクのドキュメント解析技術と実データにおける課題
- 権威ドキュメントで振り返る2024 #年忘れセキュリティ2024
- 動画生成AIのSoraで遊ぶ
- OpenAI Projects/Canvasで遊ぶ ~Claudeとも比較
- ChatGPTのProject機能、GPTsとの使い分けは?
- EM of EMs になって起こった変化
日本語reasoningモデルを作る
LLMを悩ませる"Excel文書"をうまく扱う方法
AivisSpeech を試す&CLI から試せるスクリプトを作成した
【論文】LLM-as-a-Judgeならぬ、Agent-as-a-Judge 〜エージェントでエージェントの評価を行う〜
- 最終的な出力だけでなく、そこまでの過程や思考も評価する必要がある
- Agent-as-a-Judgeは人間の評価との90%という高い一致率を示し、従来のLLM-as-Judge(70%)を大きく上回った
Engineering Manager
- Enginnering Managerが知っておくべきことをロードマップにしたページ
CNN < Transformer ?
o1 Proを使ってプロダクトのアイデア出しから実装までやってみる!
【Azure OpenAI × ゼロトラスト】あなたの生成AIアプリを鉄壁のセキュリティで守る実践ガイド
Pythonのプロジェクト管理ツール uv のv0.5.3までの便利な機能 - dependencies編
PydanticAI
- Pydanticを活用したLLMアプリを構築するのに役立つフレームワーク
5時間で38個のデモをその場で作った、デジタル庁でのAIアイデアソン・ハッカソンの新しい形式を共有します
- アイデアを持った人と開発する人が分離している
- 開発する人が1テーマではなく複数テーマ開発することもある
- どんなお題が来るかが開発者は事前に分からない
- 最後に序列をつけることをしない
- 事前に開発パターンを検討しておくこと、それぞれの開発パターンで少し手直しすれば汎用的に使えるように仕込みをしておくこと
- 詳細なイベントの開催報告
カレンダーが細切れなので時間はあるのに仕事をする時間がない
- 自分のやりたい 仕事を宣言しておくと細切れでも時間を捻出して実行できる
生成AIを使ってリアルな案件対応をやってみる〜麻雀の点数計算アプリ失敗編〜
OpenAI Sora の発表まとめ
MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification
- 最初の顧客クエリを模倣した質問のデータセットを作成し、次に応答から代替の質問をリバースエンジニアリングして軌跡を検証するマルチエージェントフレームワーク
テキスト埋め込みモデル Ruri を使ってみる
「Agentless」という最新手法。LLMの新しい使い方。
- 特定の用途に特化させてLLMを使うなら、AIエージェントで実装しない方が、速度も、性能も上がるよねという考え方
- 「エージェント化せず、むしろ決まったフローの中にLLMを組み込む」という「Agentless」なアプローチが提案されている
- Agentlessのキモは、「LLMに、次のアクションを決めさせない」
Mathematics used in cryptography around us
Sarashina2.1-1B
プロダクトチームのEMが実践している3つのマネジメント(戦略・達成・組織) #LayerXテックアドカレ
UbieにおけるLLMを活用した不具合分析とテスト戦略立案プロセス
- LLMと相談しながらプロンプトを作成した
- Jiraからエクスポートした2か月分の不具合情報をCSV形式に整理し、作成したプロンプトとともにLLMに入力した
履歴テーブルから最新の1件を取ってくる方法
Japan Microsoft 365 コミュニティ カンファレンス 2024 のオンラインセッションの録画
Command: A new tool for building multi-agent architectures in LangGraph
- LangGraphでマルチエージェントアーキテクチャを構築するためのツールが公開された
Google Colab で にじボイスAPI を試す
にじボイス API を試す
AWSセッション動画 日本語記事まとめ
- re:Inventセッション動画の全文書き起こし記事
LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods
- LLMを用いて評価する方法の包括的なサーベイ論文
プロンプトエンジニアリングは必要なくなるのか?
- 一般的なビジネスパーソンにとってのプロンプトエンジニアリングは不要になる
- ユーザーにプロンプトエンジニアリングを求めないのが、生成AIサービスでのUX上のポイントとなる
- エンジニアや研究者はプロンプティング以外の広汎なプロンプトエンジニアリングを極めていくと人材価値は上がると思われる
EMとして 自分の弱さと向きあい 人に背中を任せられるようになった話
- EMの役割はプロダクトを成功させること
技術記事をどうやって書くか & アドベントカレンダーについて
遂に登場!OpenAIから動画生成AI「Sora」が登場したので解説してみた
Deep Research の概要
- 検索し、興味深い情報を見つけ、学習した内容に基づいて新しい検索を開始します。このプロセスを複数回繰り返し、完了すると、主要な調査結果の包括的なレポートを生成
- レポートはGoogleドキュメントにエクスポートできる
開発者向けの Gemini 2.0 の概要
- マルチモーダル出力できる
- ネイティブツール呼び出しできる
- リアルタイムのオーディオおよびビデオストリーミングを備えた動的アプリケーションを構築するための「Multimodal Live API」も導入
- 「Gemini 2.0 Flash」を使用して、テキスト、音声、画像を含む統合レスポンスを生成できる
- SynthIDの目に見えない透かしがすべての画像および音声出力で有効
- 「Function Calling」によるカスタムサードパーティ関数に加えて、Google検索やコード実行などのネイティブツール呼び出しができる
- カメラや画面からのオーディオおよびビデオストリーミング入力を使用して、リアルタイムのマルチモーダルアプリケーションを構築できる
Gemini 2.0 の概要
LongWriterのような長文出力ができる日本語LLMを作る
Deep Research を試す
- 「GoogleのDeep Research」は、「Gemini Advanced」で利用可能なAIエージェント機能
- ユーザーに代わって徹底的な調査を実行し、複数のソースから包括的なレポートを数分で作成
- 現在の対応言語は英語のみ
Gemini 2.0 の APIのはじめ方
GoogleCloudPlatform/generative-ai
相手の行動が期待と違ったときに、勝手に悪意を想像しないで
Google最新AI!Gemini 2.0 Flashが凄かったので解説してみた
LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる
Gemini 2.0 の動画一覧
人に共感してもらって満足しない
どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する
どんどこい API 利用制限 : 生成 AI の推論を止めないインフラを設計し実装する #AWS - Qiita
- クロスリージョンかつクロスモデルの冗長性が高い推論インフラを設計・実装する手順を解説した記事
Dify Enterprise on AWS
無自覚にメンバーの心理的安全性を奪っていた経験から得た学び
- 自分のべき論をメンバーに当てはめない
時系列基盤モデルの性能向上に向けて【2024年10月版】
Gemini advancedのDeepResearchでGoogle Willowについて調べてもらった
Gemini 2.0 Flash Experimentalはスーパーマリオの夢をみるのか?
Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning
- Phi-4が発表された
- 14Bのパラメータ
技術者教育について
- ハイパフォーマーと中堅技術者が直近の業務を題材に面談する場を設けている
市民プールの混雑状況画像をマルチモーダルLLMを利用してログ化してみた
HR領域における生成AIの可能性
DifyでWeb上のPDFを要約してみる
Gemini Multimodal APIで画面共有しながらAIと会話をする & Gemini 2.0 の OCR 性能を測ってみる!
Gemini 2.0 の 3D Spatial Understanding を試す
- 「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術
Gemini 2.0 の 2D Spatial Understanding を試す
- 「2D Spatial Understanding」(2次元空間認識) は、2D画像や動画から、平面上での物体の位置・形状や関係性を理解する能力や技術
Gemini 2.0 Flash から MCP を利用して BigQuery を操作する
開発完了からリリースまでのリードタイム改善に挑戦した話
Challenges in Human-Agent Communication
- システムがもたらす12の主要なコミュニケーション課題を説明する論文
ChatGPTに『Projects』機能が登場:チャット・ファイル・指示を一箇所で整理する新ワークフロー
富士通の最先端技術を一挙に公開!富士通テクノロジー戦略説明会
OpenAI o1再現モデルまとめ(2024年12月時点)
Google、「NotebookLM」の有料プラン追加 「音声概要」での会話機能も
Google Colab で Gemini 2.0 の Multimodal Live API を試す
Introducing Command R7B: Fast and efficient generative AI
- Command R7Bをリリースした
- Rシリーズで最小・最速のモデル
- 128kのコンテキスト長
生成AIで『変える側』になる ── 技術者として社会課題に挑む決意
What is Azure AI Agent Service?
- AI Agenet Serviceをパブリックプレビューとしてリリースした
grok-2-1212 ・ grok-2-vision-beta の概要
MarkItDown
GeminiとSpeech-to-Textで実現する高精度な文字起こし
Google Agentspace の概要
NotebookLM Plus と NotebookLM の新機能
Amazon Bedrock Knowledge Bases が GraphRAG をサポート(プレビュー)!だが…それがなんだというのだ…
Making it easier to build human-in-the-loop agents with interrupt
- LangGraphエージェントに人間が簡単に関与するステップを組み込む新しい方法を発表した
バクラクのドキュメント解析技術と実データにおける課題
- 間違えた際の気づきやすさ、修正のしやすさ、抽出速度などからシンプルなモデルを使用
- フィードバッグサイクルの設計が重要
権威ドキュメントで振り返る2024 #年忘れセキュリティ2024
動画生成AIのSoraで遊ぶ
OpenAI Projects/Canvasで遊ぶ ~Claudeとも比較
- Canvasでコードの実行もできる
ChatGPTのProject機能、GPTsとの使い分けは?
- ChatGPTは他のチャットをドラッグアンドドロップで既存のProjectに追加できる
- Projectは1つのプロジェクトやタスクを深掘りする「縦の流れ」を重視する仕組み