アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー)
www.techno-edge.net
- 画像と言語を組み合わせて理解するためのMultimodal Large Language Model(MLLM)を基盤としたモデルをAppleがGitHubで公開した
Diffusion modelを用いたfew-shot商品画像分類の検討
tech.preferred.jp
- 拡散モデルを活用した商品画像のData Augmentationを行い、商品の分類精度を向上させるプロジェクトの紹介記事
- 拡散モデルを用いて、その数枚の商品画像から、配置等に多様性のある同じ商品の大量の画像を生成し、その画像を用いて商品分類モデルを学習することを検討
- Stable DiffusionをLoRAでfine tuningした
Kaggleコンペ(LLM Science Exam)の振り返りと上位解法まとめ
zenn.dev
- LLM(ChatGPT)が作った科学・技術・工学・数学分野の問題をどのくらいの精度で解けますか?という自然言語処理系のコンペの解法まとめ
autowarefoundation/autoware
github.com
- ROS上に構築された自動運転用のオープンソースソフトウェアスタック
- 位置特定や物体検出やルート計画や制御まで自動運転車の運転に必要な機能が含まれている
speakerdeck.com
- ChatGPTを用いたコーディング習得方法が説明されたスライド
github.com
- 音声生成モデルのトレーニング、推論に利用できるツール
OpenAIのGPTシリーズとBedrockのClaudeをコスト比較してみた
qiita.com
- Azure OpenAI ServiceのGPTシリーズとAmazon BedrockのClaude 2の月額コスト比較した記事
Fine Tuning: now available with Azure OpenAI Service
techcommunity.microsoft.com
- GPT-3.5-Turbo, Babbage-002, Davinci-002をAzure OpenAI Serviceでファインチューニング可能となった
完全自動運転にLLMは必要か?
zenn.dev
- LLMを活用することで以下を実現できる
-運転判断について説明できる
- 初めて見る状況や指示に対しても一般常識を使って柔軟に対応できる
- LLMを活用した自動運転活用研究の紹介
- 交通状況をテキストのpromptとしてLLMに入力し、その状況分析や判断をLLMに行わせる
- Vision Languageモデルを用いて走行画像をLLMに説明させる
- 推論に巨大なGPUを必要とするLLMを車の上で動かすことができるのかという課題も存在する
Turingにおける自動運転モデルの開発とW&Bの活用
speakerdeck.com
- Turingの自動運転戦略、Drive model、Navigator modelについて説明したスライド
最近話題の マルチモーダルLLM まとめ
note.com
- 「GPT-4V」以降のマルチモーダルLLM についてまとめた記事
AWS AI Week For Developers
pages.awscloud.com
- AWSが生成系 AI を中心とした AI 最前線を学ぶを学ぶイベントを開催
Turingと自動運転とLLM- LLM-jp 勉強会
speakerdeck.com
- Heronの開発と自動運転とLLMの研究について説明したスライド
Sansan LabsのLLM活⽤から考えるLLMプロジェクトの要点整理
speakerdeck.com
- LLMの活用プロジェクトの進め方を説明したスライド
生成AIのマルチモーダリティに関する技術調査【技術動向調査】
blog.brainpad.co.jp
- 生成AI・基盤モデルのマルチモーダリティをテーマに4つの論文をした記事
- 画像・動画・3D・音声に関する論文を1つずつ紹介した
MTEB English leaderboard
huggingface.co
ArXivの論文を読んだAIと会話する「ArXivChatGuru」を動かす方法
zenn.dev
注目の日本語大規模モデルLLM-JP 13Bを試す(JSON吐けた)
note.com
AWS 内で大規模言語モデルを利用できる Amazon Bedrock を使って作る RAG アプリケーション
techlife.cookpad.com
- Amazon Bedrock を用いて作成したRAG(Retrieval-augmented generation) アプリケーションを紹介した記事
- Amazon BedrockのClaude 2を利用
- GPT4の出力と比較
kaggle LLMコンペ 上位解法まとめ
zenn.dev
- Kaggle - LLM Science Examの上位解法をまとめた記事
- すべてのチームがRAGを利用していた
- 正解情報を含むコンテキストを持ってこれるかがスコアアップのキーとなっていた
- LLMモデルはMistral、llama2(およびその派生)がよく使用されていた
Google Colab で LLM-jp-13B を試す
note.com
- 「Google Colab」で「LLM-jp-13B」を試した記事
Gui Streamlit OpenInterpreter
github.com
- StreamlitでOpenInterpreterを動かすライブラリ
忙しくて手を動かせない時もいい感じに進捗出してくれるAgent作りたい
speakerdeck.com
- アイデアを伝えるだけで、実装&実験をしてくれるエージェントについて紹介したスライド
- 作成したエージェントも公開されている