SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年10月16日の週に気になった記事などまとめ

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー)

www.techno-edge.net

  • 画像と言語を組み合わせて理解するためのMultimodal Large Language Model(MLLM)を基盤としたモデルをAppleGitHubで公開した

Diffusion modelを用いたfew-shot商品画像分類の検討

tech.preferred.jp

  • 拡散モデルを活用した商品画像のData Augmentationを行い、商品の分類精度を向上させるプロジェクトの紹介記事
    • 拡散モデルを用いて、その数枚の商品画像から、配置等に多様性のある同じ商品の大量の画像を生成し、その画像を用いて商品分類モデルを学習することを検討
    • Stable DiffusionをLoRAでfine tuningした

Kaggleコンペ(LLM Science Exam)の振り返りと上位解法まとめ

zenn.dev

  • LLM(ChatGPT)が作った科学・技術・工学・数学分野の問題をどのくらいの精度で解けますか?という自然言語処理系のコンペの解法まとめ

autowarefoundation/autoware

github.com

  • ROS上に構築された自動運転用のオープンソースソフトウェアスタック
  • 位置特定や物体検出やルート計画や制御まで自動運転車の運転に必要な機能が含まれている

慶應義塾大学 機械学習基礎02 コーディング

speakerdeck.com

  • ChatGPTを用いたコーディング習得方法が説明されたスライド

Stability-AI/stable-audio-tools

github.com

  • 音声生成モデルのトレーニング、推論に利用できるツール

OpenAIのGPTシリーズとBedrockのClaudeをコスト比較してみた

qiita.com

  • Azure OpenAI ServiceのGPTシリーズとAmazon BedrockのClaude 2の月額コスト比較した記事

Fine Tuning: now available with Azure OpenAI Service

techcommunity.microsoft.com

  • GPT-3.5-Turbo, Babbage-002, Davinci-002をAzure OpenAI Serviceでファインチューニング可能となった

完全自動運転にLLMは必要か?

zenn.dev

  • LLMを活用することで以下を実現できる -運転判断について説明できる
    • 初めて見る状況や指示に対しても一般常識を使って柔軟に対応できる
  • LLMを活用した自動運転活用研究の紹介
    • 交通状況をテキストのpromptとしてLLMに入力し、その状況分析や判断をLLMに行わせる
    • Vision Languageモデルを用いて走行画像をLLMに説明させる
  • 推論に巨大なGPUを必要とするLLMを車の上で動かすことができるのかという課題も存在する

Turingにおける自動運転モデルの開発とW&Bの活用

speakerdeck.com

  • Turingの自動運転戦略、Drive model、Navigator modelについて説明したスライド

最近話題の マルチモーダルLLM まとめ

note.com

  • 「GPT-4V」以降のマルチモーダルLLM についてまとめた記事

AWS AI Week For Developers

pages.awscloud.com

  • AWSが生成系 AI を中心とした AI 最前線を学ぶを学ぶイベントを開催

Turingと自動運転とLLM- LLM-jp 勉強会

speakerdeck.com

  • Heronの開発と自動運転とLLMの研究について説明したスライド
    • Heronの設定の説明

Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理

speakerdeck.com

  • LLMの活用プロジェクトの進め方を説明したスライド

生成AIのマルチモーダリティに関する技術調査【技術動向調査】

blog.brainpad.co.jp

  • 生成AI・基盤モデルのマルチモーダリティをテーマに4つの論文をした記事
    • 画像・動画・3D・音声に関する論文を1つずつ紹介した

MTEB English leaderboard

huggingface.co

  • Embedding Model のリーダーボード

ArXivの論文を読んだAIと会話する「ArXivChatGuru」を動かす方法

zenn.dev

注目の日本語大規模モデルLLM-JP 13Bを試す(JSON吐けた)

note.com

AWS 内で大規模言語モデルを利用できる Amazon Bedrock を使って作る RAG アプリケーション

techlife.cookpad.com

  • Amazon Bedrock を用いて作成したRAG(Retrieval-augmented generation) アプリケーションを紹介した記事
    • Amazon BedrockのClaude 2を利用
    • GPT4の出力と比較

kaggle LLMコンペ 上位解法まとめ

zenn.dev

  • Kaggle - LLM Science Examの上位解法をまとめた記事
  • すべてのチームがRAGを利用していた
  • 正解情報を含むコンテキストを持ってこれるかがスコアアップのキーとなっていた
  • LLMモデルはMistral、llama2(およびその派生)がよく使用されていた

Google Colab で LLM-jp-13B を試す

note.com

  • Google Colab」で「LLM-jp-13B」を試した記事

Gui Streamlit OpenInterpreter

github.com

  • StreamlitでOpenInterpreterを動かすライブラリ

忙しくて手を動かせない時もいい感じに進捗出してくれるAgent作りたい

speakerdeck.com

  • イデアを伝えるだけで、実装&実験をしてくれるエージェントについて紹介したスライド
  • 作成したエージェントも公開されている