SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2024年10月7日の週に気になった記事などまとめ

Can we make any smaller opensource LLM models smarter than human?

medium.com

  • Claude3.5 Sonnetをo1-previewに匹敵するレベルに高める方法を述べた記事
  • Dynamic Chain of ThoughtやreflectionやVerbal Reinforcementを活用している

Pythonクロスプラットフォームなアプリが作れる「Flet」を試す

zenn.dev

  • FletはPythonでweb、デスクトップ、モバイルアプリケーションを構築できるフレームワーク
  • WebSocketを使ったアプリも作れる

高性能な日本語SPLADE(スパース検索)モデルを公開しました

secon.dev

スクラムにおける開発タスクの予実の乖離をどうするか

zenn.dev

Open AI Realtime APIで、会話履歴を削除して高額請求を回避したい!【Pythonサンプルコード】

zenn.dev

  • 過去の会話履歴をクリアしないと、入力コンテキストが増えて、コストが高くなる

Amazon Bedrock Agents 自律型 AI の実現に向けて: 検討編 【Amazon Bedrock Series #04a】【AWS Black Belt】

www.youtube.com

A Model for Matching Proprietary OpenAI o1's Power with Open-Source Innovation

opensource-o1.github.io

データから最適化なRAGの設定を探してくれる「RAGBuilder」を試す

zenn.dev

  • チャンキング戦略やチャンクサイズなどを自動調整し、最適なチャンキングのパラメータをさがす
  • コストはかかるかも

mistral-nemo-japanese-instruct-2408をColabでためす。

bwgift.hatenadiary.jp

機械学習による言語パフォーマンスの評価

speakerdeck.com

Llama 3.1 Swallow

swallow-llm.github.io

関連ドキュメントを利用してRAGの精度を上げるCDE

zenn.dev

  • 対象のテキストと関連性の高い別のドキュメントの両方を用いて、ベクトルデータを生成するEmbeddingモデル

[LangChain] with_structured_output を使用して、Pydanticのクラスをレスポンスとして受け取る

zenn.dev

生成AIを活用したプロダクト・サービス PreferredAI 5製品を11月から順次提供開始

www.preferred.jp

JR東が「鉄道版生成 AI」開発へ 鉄道固有の知識を学習、経験浅い社員の知識レベル底上げに

www.itmedia.co.jp

Embeddings Are Kind of Shallow

towardsdatascience.com

openai-gradio を動かす

note.com

  • 動かすにはGradio v5以上が必要
  • OpenAI APIを用いたウェブアプリを簡単に構築するためのPythonパッケージ

ターミナルでAIエージェントが操作してくれる「gptme」を試す

zenn.dev

  • ターミナルでAIとチャット形式で対話しながら、シェルコマンドの実行や、Pythonの実行、ファイル操作、ブラウザ操作などが行える

Launching Long-Term Memory Support in LangGraph

blog.langchain.dev

  • LangGraphで長期記憶をサポートした
  • 複数スレッド間で情報保持が可能になった

moritalous/url-to-markdown-v2

huggingface.co

  • URLを渡すとmarkdwonに変換するアプリケーション
  • markdownifyを利用している

AWS におけるマルチテナント SaaS の実装パターン

aws.amazon.com

システム生成AIの最新動向と本質的な理解の重要性について

qiita.com

20241009_がっかりコパだったCopilot_in_Excel今はどうなん?

speakerdeck.com

Perform data parity at scale for data modernization programs using AWS Glue Data Quality

aws.amazon.com

  • AWS Glue Data Qualityを使用して簡単にデータの整合性を確認できることを紹介する記事

基盤モデルがものづくり産業に及ぼしうる影響と研究開発の方向性(?) 2024年秋ver

www.docswell.com

  • 誰かに習って訓練すれば身につく程度の能力はAIで代替可能な見通しが立ちつつある

プロダクトマネージャーのための検索推薦システム入門

speakerdeck.com

  • ユーザーは最初から完璧なクエリを書けるわけではない
  • 推薦システムの良さを定義するのは難しい
  • 予測精度とカバー率・多様性はトレードオフの関係にある

MLE-bench

openai.com

STATE OF AI REPORT 2024.

www.stateof.ai

VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning

arxiv.org

  • チャートの視覚的解釈と数値的・論理的推論を自動化するためのフレームワークを提案した論文

Amazon 流のプロダクトマネジメント

speakerdeck.com

  • 製品、サービス、体験がお客様の手に渡った瞬間から逆算して考える

PLaMoにおけるLLMエージェント能力の分析と改善

tech.preferred.jp

  • PLaMoのFunction Calling機能の改善に取り組んだ方の記事
  • ツール選択能力とフォーマットに従う能力はトレードオフの関係にあった

Amazon Athena のパフォーマンスチューニング Tips トップ 10

aws.amazon.com

東京メトロ、生成AIで問い合わせ対応 「100%の性能ではなく70%で実用化」を決断できたワケ

www.itmedia.co.jp

  • 問い合わせの中でも特に多い忘れ物の対応改善に注力した
  • 内容把握、情報検索、回答案作成までを支援する

OpenAIのマルチエージェント用実験的フレームワーク「swarm」を試す

zenn.dev

  • 他のエージェントに会話を転送できる

Competitionsだけじゃない! Kaggle Notebooks Grandmasterのすすめ

speakerdeck.com

とある事業会社にとっての Kaggler の魅力

speakerdeck.com

The Prompt Report: A Systematic Survey of Prompting Techniques

arxiv.org

  • 生成AIのモデルに対するプロンプト設計や使用法に対する体系的な調査をした論文

大規模言語モデルLlama-3.1に専門的な数値データを学習させる検討

www.docswell.com

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

arxiv.org

  • LLMの数学的推論能力の限界に関する論文

Google Colab で Pyramid Flow を試す

note.com

Google Colab で Llama-3.1-Swallow を試す

note.com

LLM×CV メタサーベイ:言語・視覚融合の応用と展開

https://hirokatsukataoka.net/temp/presen/241011LLMxCV_MetaSurvey2024.pdf

OpenAIの新しいマルチエージェント用フレームワークSwarmを試す

note.com

whisper-webをdockerで動かす。

bwgift.hatenadiary.jp

GPT-4oに危険物取扱者試験(甲種試験)を解かせてみる

note.com

AWS Fargate Spot が中断されにくいのはいつ?

developer.hatenastaff.com

  • 土日が中断回数が少なかった

Prompt Engineering Techniques: Comprehensive Repository for Development and Implementation

github.com

Swarm (実験的サンプル)~リポジトリの日本語化~

hamaruki.com

PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency

arxiv.org

  • PLaMo-100Bを紹介する論文

オープンソース住所正規化エンジンを地番住所に対応したメジャーバージョンをリリースしました!

blog.geolonia.com

RT-DETR(v2) を Colaboratoryでトレーニングするサンプル👻

kazuhito00.hatenablog.com

Serverless AI Chat with RAG using LangChain.js

learn.microsoft.com

  • Static web Appsを利用して、サーバーレスのRAGアプリを紹介した記事
  • リポジトリはこちら

Graph Database と Generative AI の素敵な関係

speakerdeck.com

ぼくがかんがえた最強の Visual Studio Code カスタマイズ 2024

zenn.dev

ベクトルデータベース「Weaviate」を試す 13: Multiple target vectors

zenn.dev

  • Multiple target vectorsを試した記事
  • 複数の検索結果を結合する方法は複数ある

The Little Book of ML Metrics

github.com

  • データサイエンスや機械学習で使用される評価指標を網羅的に説明するハンドブック

GenAI Career Assistant: A Multi-Agent Approach

github.com

  • マルチ―エージェントアプローチでキャリアアシスタントするリポジトリの概要

RAG 101: Chunking Strategies

towardsdatascience.com

  • RAGを強化するためにどのようなチャンク戦略があるかを説明した記事

#designship2024 スピーカーとして、話し方をデザインした話

note.com

  • 大きな主張の後は6秒あける
  • 話の切り替えで大きな声を出す