- マルチモーダルLLMの応用動向の論文調査
- RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った
- 生成AIの進化に置いてかれないためにフォロー必須なアカウント47選
- 2023年12月時点で英語圏で人気のある大規模言語モデルとトレンド
- GPT-4 Turboにドキュメントのチャンク分けを任せてみる
- データ職種の課題図書リストを作りたい
- 中途入社や部署異動で来た新メンバーを活躍しづらくするアンチパターン
- 画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~
- 自動開発ツール、GPT Engineer の入門記1。動かす、ドキュメント・主要コードを読む。
- 週刊AWS – re:Invent 2023特別号 part 1 (2023/11/27週)
- 週刊AWS – re:Invent 2023特別号 part 2 (2023/11/27週)
- 君は Anthropic Tools を知っているか?
- いろんなやり方の読書会をやってみたら当日音読その場でまとめ方式が最高だった話
- Celebrating the first year of Copilot with significant new innovations
- Introducing Gemini: our largest and most capable AI model
- rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開
- アウトプットガチ勢が作った高速記事作成フレームワーク
- Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕
- カウントデータに対する分位点回帰のアプローチ
- Claude のプロンプトエンジニアリングテクニックを駆使して LangChain の ReACT Agent を構築してみた
- Anthropic Claude で文字起こしを要約する際のプロンプトエンジニアリング
- GPT4-Vision-APIのあれこれ
マルチモーダルLLMの応用動向の論文調査
RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った
- Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した記事
生成AIの進化に置いてかれないためにフォロー必須なアカウント47選
2023年12月時点で英語圏で人気のある大規模言語モデルとトレンド
GPT-4 Turboにドキュメントのチャンク分けを任せてみる
データ職種の課題図書リストを作りたい
- 「データ職種の課題図書リスト」が紹介された記事
中途入社や部署異動で来た新メンバーを活躍しづらくするアンチパターン
- 「信頼関係の構築」と「社内における人的ネットワークの構築」は、新メンバーが自分だけで解決することが難しい課題
画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~
- 画像の特徴重要度を解釈させることで、既存の特化モデルの説明可能性をLLMに任せようという取り組みを紹介した記事
- 既存の画像認識モデルから出力したピクセル単位での重要度を入力とし、それを自然言語で説明させることで、既存の画像認識モデルの説明可能性を向上させた
- GradCAMから注目オブジェクトの特徴に翻訳する部分をLLMに任せることができるかを試した
- LLMの説明文を形態素解析し、単語出現ベクトルから線形識別器で各クラスに重要な単語を抜き出した
自動開発ツール、GPT Engineer の入門記1。動かす、ドキュメント・主要コードを読む。
- GPT Engineerを使ってツールを作成し、ドキュメントを一通り読んで、内部コードを少し覗いて、GPT Engineerの情報をまとめたり、感じたこと書いた記事
週刊AWS – re:Invent 2023特別号 part 1 (2023/11/27週)
- Amazon Redshift クエリエディタでAmazon Q Generative SQLのプレビューが発表された
- Amazon Q in QuickSightのプレビューが発表された
- Amazon OpenSearch Serverless でベクトルエンジンの一般提供が開始された
- Amazon DynamoDBとAmazon OpenSearch ServiceがZero-ETLに統合された
週刊AWS – re:Invent 2023特別号 part 2 (2023/11/27週)
- Amazon Q のプレビューが開始された
- Amazon Bedrock で Claude 2.1 の提供が開始された
- Amazon Bedrock で基盤モデルを評価する機能がプレビュー提供された
- 評価のタイプは「自動評価」と「人手評価」の 2 種類がある
- テキストと画像を組み合わせてベクトル埋め込みを生成し検索に活かす Amazon Titan Multimodal Embeddings がリリースされた
- Guardrails for Amazon Bedrock の限定プレビューが開始された
- Amazon Bedrock で Knowledge Basesの一般的提供が開始された
- Bedrock の基盤モデルに組織内のデータを安全に接続し、そのデータを使ってより適切で正確な応答を生成する Retrieval Augmented Generation(RAG) を実装できる
- Amazon Bedrock で Agents for Amazon Bedrockが一般提供開始された
- ユーザーの要求したタスクを基盤モデルの推論機能を利用して、複数のステップに分割し、その後のアクションを実行する
- Amazon SageMaker Canvas で、データ調査、分析、可視化、変換といったデータの前準備を、自然言語で指示できるようになった
君は Anthropic Tools を知っているか?
- Function Calling を Claude で実現する方法を紹介した記事
いろんなやり方の読書会をやってみたら当日音読その場でまとめ方式が最高だった話
- 業務時間に業務に必要な知識をチームで得る読書会のやり方を検討した記事
Celebrating the first year of Copilot with significant new innovations
- 以下の新機能がMicrosoft Copilotに搭載される
- GPT-4 Turbo
- DALL-E3
- テキスト画像のマルチモーダル検索
- CodeInterpreter
Introducing Gemini: our largest and most capable AI model
rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開
- Nue ASRは、事前学習済みの音声基盤モデルHuBERT ( rinna/japanese-hubert-base ) とテキスト基盤モデルGPT ( rinna/japanese-gpt-neox-3.6b ) の間に畳み込み層を挟んで統合したモデル
- 音声認識モデルの学習データには、約19,000時間からなる日本語音声コーパスReazonSpeechコーパスを用いている
- Hugging Faceに商用利用可能なApache-2.0 Licenseで公開している
アウトプットガチ勢が作った高速記事作成フレームワーク
- 特定のだれかのための記事を書く
- 記事を読んですぐに解決方法がわかる、またはこの記事が自分の求めている問題の解決法でないことがすぐにわかる記事を書く
- 自分が問題にぶつかって解決に10分以上使った内容は記事にして書く
Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕
- GeminiはLLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕
- テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成
カウントデータに対する分位点回帰のアプローチ
- カウントデータに対する分位点回帰のアプローチをいくつか紹介した記事
Claude のプロンプトエンジニアリングテクニックを駆使して LangChain の ReACT Agent を構築してみた
- ReACT を Claude で実装する際のTipsを紹介した記事
- LangChainのAgentを使う
- OutputParserをLangChain向けにカスタマイズする
- プロンプトテンプレートをClaude向けにカスタマイズする
Anthropic Claude で文字起こしを要約する際のプロンプトエンジニアリング
- 英語で要点抽出し、日本語へ翻訳する
や <output-format></output-format> など XML で区切り、Claudeに指示を守らせる
GPT4-Vision-APIのあれこれ
- 音声と動画認識を両方入力できると、GPT-4は理解できる