SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年12月4日の週に気になった記事などまとめ

気になったものまとめ

マルチモーダルLLMの応用動向の論文調査
RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った
生成AIの進化に置いてかれないためにフォロー必須なアカウント47選
2023年12月時点で英語圏で人気のある大規模言語モデルとトレンド
GPT-4 Turboにドキュメントのチャンク分けを任せてみる
データ職種の課題図書リストを作りたい
中途入社や部署異動で来た新メンバーを活躍しづらくするアンチパターン
画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~
自動開発ツール、GPT Engineer の入門記1。動かす、ドキュメント・主要コードを読む。
週刊AWS – re:Invent 2023特別号 part 1 (2023/11/27週)
週刊AWS – re:Invent 2023特別号 part 2 (2023/11/27週)
君は Anthropic Tools を知っているか?
いろんなやり方の読書会をやってみたら当日音読その場でまとめ方式が最高だった話
Celebrating the first year of Copilot with significant new innovations
Introducing Gemini: our largest and most capable AI model
rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開
アウトプットガチ勢が作った高速記事作成フレームワーク
Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕
カウントデータに対する分位点回帰のアプローチ
Claude のプロンプトエンジニアリングテクニックを駆使して LangChain の ReACT Agent を構築してみた
Anthropic Claude で文字起こしを要約する際のプロンプトエンジニアリング
GPT4-Vision-APIのあれこれ

マルチモーダルLLMの応用動向の論文調査

speakerdeck.com

現状のGPT-4Vの性能と応用例を論文調査したスライド
OCRは言語で差があり、イメージサイズが小さい場合も苦手
グラフの読み取りは難しい
日本語だとフローチャートも読み取れない

RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った

Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した記事

生成AIの進化に置いてかれないためにフォロー必須なアカウント47選

2023年12月時点で英語圏で人気のある大規模言語モデルとトレンド

英語圏で最近良く見かける事がある人気の高い大規模言語モデルの直近のトレンドや方向性について2023年末時点での状況をまとめた記事

GPT-4 Turboにドキュメントのチャンク分けを任せてみる

tech.explaza.jp

JSONモードを使って出力をJSON固定
GPT-4 Turboが推定したセクションのタイトル一覧を出力し、それをコード上で扱いドキュメントをチャンクに分けている

データ職種の課題図書リストを作りたい

yuzutas0.hatenablog.com

「データ職種の課題図書リスト」が紹介された記事

中途入社や部署異動で来た新メンバーを活躍しづらくするアンチパターン

「信頼関係の構築」と「社内における人的ネットワークの構築」は、新メンバーが自分だけで解決することが難しい課題

画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~

www.m3tech.blog

画像の特徴重要度を解釈させることで、既存の特化モデルの説明可能性をLLMに任せようという取り組みを紹介した記事
既存の画像認識モデルから出力したピクセル単位での重要度を入力とし、それを自然言語で説明させることで、既存の画像認識モデルの説明可能性を向上させた
- GradCAMから注目オブジェクトの特徴に翻訳する部分をLLMに任せることができるかを試した
LLMの説明文を形態素解析し、単語出現ベクトルから線形識別器で各クラスに重要な単語を抜き出した

自動開発ツール、GPT Engineer の入門記1。動かす、ドキュメント・主要コードを読む。

GPT Engineerを使ってツールを作成し、ドキュメントを一通り読んで、内部コードを少し覗いて、GPT Engineerの情報をまとめたり、感じたこと書いた記事

週刊AWS – re:Invent 2023特別号 part 1 (2023/11/27週)

Amazon Redshift クエリエディタでAmazon Q Generative SQLのプレビューが発表された
Amazon Q in QuickSightのプレビューが発表された
Amazon OpenSearch Serverless でベクトルエンジンの一般提供が開始された
Amazon DynamoDBとAmazon OpenSearch ServiceがZero-ETLに統合された

週刊AWS – re:Invent 2023特別号 part 2 (2023/11/27週)

Amazon Q のプレビューが開始された
Amazon Bedrock で Claude 2.1 の提供が開始された
Amazon Bedrock で基盤モデルを評価する機能がプレビュー提供された
- 評価のタイプは「自動評価」と「人手評価」の 2 種類がある
テキストと画像を組み合わせてベクトル埋め込みを生成し検索に活かす Amazon Titan Multimodal Embeddings がリリースされた
Guardrails for Amazon Bedrock の限定プレビューが開始された
Amazon Bedrock で Knowledge Basesの一般的提供が開始された
- Bedrock の基盤モデルに組織内のデータを安全に接続し、そのデータを使ってより適切で正確な応答を生成する Retrieval Augmented Generation(RAG) を実装できる
Amazon Bedrock で Agents for Amazon Bedrockが一般提供開始された
- ユーザーの要求したタスクを基盤モデルの推論機能を利用して、複数のステップに分割し、その後のアクションを実行する
Amazon SageMaker Canvas で、データ調査、分析、可視化、変換といったデータの前準備を、自然言語で指示できるようになった

君は Anthropic Tools を知っているか?

Function Calling を Claude で実現する方法を紹介した記事

いろんなやり方の読書会をやってみたら当日音読その場でまとめ方式が最高だった話

業務時間に業務に必要な知識をチームで得る読書会のやり方を検討した記事

Celebrating the first year of Copilot with significant new innovations

blogs.microsoft.com

以下の新機能がMicrosoft Copilotに搭載される
- GPT-4 Turbo
- DALL-E3
- テキスト画像のマルチモーダル検索
- CodeInterpreter

Introducing Gemini: our largest and most capable AI model

rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開

Nue ASRは、事前学習済みの音声基盤モデルHuBERT ( rinna/japanese-hubert-base ) とテキスト基盤モデルGPT ( rinna/japanese-gpt-neox-3.6b ) の間に畳み込み層を挟んで統合したモデル
音声認識モデルの学習データには、約19,000時間からなる日本語音声コーパスReazonSpeechコーパスを用いている
Hugging Faceに商用利用可能なApache-2.0 Licenseで公開している

アウトプットガチ勢が作った高速記事作成フレームワーク

特定のだれかのための記事を書く
記事を読んですぐに解決方法がわかる、またはこの記事が自分の求めている問題の解決法でないことがすぐにわかる記事を書く
自分が問題にぶつかって解決に10分以上使った内容は記事にして書く

Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕

GeminiはLLMの主要なベンチマークの一つであるMMLU（多領域の学術ベンチマーク）をはじめとするほとんどのベンチマークでGPT-4を凌駕
テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成

カウントデータに対する分位点回帰のアプローチ

カウントデータに対する分位点回帰のアプローチをいくつか紹介した記事

Claude のプロンプトエンジニアリングテクニックを駆使して LangChain の ReACT Agent を構築してみた

ReACT を Claude で実装する際のTipsを紹介した記事
LangChainのAgentを使う
OutputParserをLangChain向けにカスタマイズする
プロンプトテンプレートをClaude向けにカスタマイズする

Anthropic Claude で文字起こしを要約する際のプロンプトエンジニアリング

英語で要点抽出し、日本語へ翻訳する
や <output-format></output-format> など XML で区切り、Claudeに指示を守らせる

GPT4-Vision-APIのあれこれ

音声と動画認識を両方入力できると、GPT-4は理解できる