SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年12月4日の週に気になった記事などまとめ

マルチモーダルLLMの応用動向の論文調査

speakerdeck.com

  • 現状のGPT-4Vの性能と応用例を論文調査したスライド
  • OCRは言語で差があり、イメージサイズが小さい場合も苦手
  • グラフの読み取りは難しい
  • 日本語だとフローチャートも読み取れない

RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った

secon.dev

  • Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した記事

生成AIの進化に置いてかれないためにフォロー必須なアカウント47選

qiita.com

2023年12月時点で英語圏で人気のある大規模言語モデルとトレンド

webbigdata.jp

  • 英語圏で最近良く見かける事がある人気の高い大規模言語モデルの直近のトレンドや方向性について2023年末時点での状況をまとめた記事

GPT-4 Turboにドキュメントのチャンク分けを任せてみる

tech.explaza.jp

  • JSONモードを使って出力をJSON固定
  • GPT-4 Turboが推定したセクションのタイトル一覧を出力し、それをコード上で扱いドキュメントをチャンクに分けている

データ職種の課題図書リストを作りたい

yuzutas0.hatenablog.com

  • 「データ職種の課題図書リスト」が紹介された記事

中途入社や部署異動で来た新メンバーを活躍しづらくするアンチパターン

qiita.com

  • 「信頼関係の構築」と「社内における人的ネットワークの構築」は、新メンバーが自分だけで解決することが難しい課題

画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~

www.m3tech.blog

  • 画像の特徴重要度を解釈させることで、既存の特化モデルの説明可能性をLLMに任せようという取り組みを紹介した記事
  • 既存の画像認識モデルから出力したピクセル単位での重要度を入力とし、それを自然言語で説明させることで、既存の画像認識モデルの説明可能性を向上させた
    • GradCAMから注目オブジェクトの特徴に翻訳する部分をLLMに任せることができるかを試した
  • LLMの説明文を形態素解析し、単語出現ベクトルから線形識別器で各クラスに重要な単語を抜き出した

自動開発ツール、GPT Engineer の入門記1。動かす、ドキュメント・主要コードを読む。

qiita.com

  • GPT Engineerを使ってツールを作成し、ドキュメントを一通り読んで、内部コードを少し覗いて、GPT Engineerの情報をまとめたり、感じたこと書いた記事

週刊AWS – re:Invent 2023特別号 part 1 (2023/11/27週)

aws.amazon.com

週刊AWS – re:Invent 2023特別号 part 2 (2023/11/27週)

aws.amazon.com

  • Amazon Q のプレビューが開始された
  • Amazon Bedrock で Claude 2.1 の提供が開始された
  • Amazon Bedrock で基盤モデルを評価する機能がプレビュー提供された
    • 評価のタイプは「自動評価」と「人手評価」の 2 種類がある
  • テキストと画像を組み合わせてベクトル埋め込みを生成し検索に活かす Amazon Titan Multimodal Embeddings がリリースされた
  • Guardrails for Amazon Bedrock の限定プレビューが開始された
  • Amazon Bedrock で Knowledge Basesの一般的提供が開始された
    • Bedrock の基盤モデルに組織内のデータを安全に接続し、そのデータを使ってより適切で正確な応答を生成する Retrieval Augmented Generation(RAG) を実装できる
  • Amazon Bedrock で Agents for Amazon Bedrockが一般提供開始された
    • ユーザーの要求したタスクを基盤モデルの推論機能を利用して、複数のステップに分割し、その後のアクションを実行する
  • Amazon SageMaker Canvas で、データ調査、分析、可視化、変換といったデータの前準備を、自然言語で指示できるようになった

君は Anthropic Tools を知っているか?

qiita.com

  • Function Calling を Claude で実現する方法を紹介した記事

いろんなやり方の読書会をやってみたら当日音読その場でまとめ方式が最高だった話

tech.gunosy.io

  • 業務時間に業務に必要な知識をチームで得る読書会のやり方を検討した記事

Celebrating the first year of Copilot with significant new innovations

blogs.microsoft.com

  • 以下の新機能がMicrosoft Copilotに搭載される
    • GPT-4 Turbo
    • DALL-E3
    • テキスト画像のマルチモーダル検索
    • CodeInterpreter

Introducing Gemini: our largest and most capable AI model

blog.google

rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開

rinna.co.jp

  • Nue ASRは、事前学習済みの音声基盤モデルHuBERT ( rinna/japanese-hubert-base ) とテキスト基盤モデルGPT ( rinna/japanese-gpt-neox-3.6b ) の間に畳み込み層を挟んで統合したモデル
  • 音声認識モデルの学習データには、約19,000時間からなる日本語音声コーパスReazonSpeechコーパスを用いている
  • Hugging Faceに商用利用可能なApache-2.0 Licenseで公開している

アウトプットガチ勢が作った高速記事作成フレームワーク

qiita.com

  • 特定のだれかのための記事を書く
  • 記事を読んですぐに解決方法がわかる、またはこの記事が自分の求めている問題の解決法でないことがすぐにわかる記事を書く
  • 自分が問題にぶつかって解決に10分以上使った内容は記事にして書く

Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕

aiboom.net

カウントデータに対する分位点回帰のアプローチ

qiita.com

  • カウントデータに対する分位点回帰のアプローチをいくつか紹介した記事

Claude のプロンプトエンジニアリングテクニックを駆使して LangChain の ReACT Agent を構築してみた

qiita.com

  • ReACT を Claude で実装する際のTipsを紹介した記事
  • LangChainのAgentを使う
  • OutputParserをLangChain向けにカスタマイズする
  • プロンプトテンプレートをClaude向けにカスタマイズする

Anthropic Claude で文字起こしを要約する際のプロンプトエンジニアリング

qiita.com

  • 英語で要点抽出し、日本語へ翻訳する
  • や <output-format></output-format> など XML で区切り、Claudeに指示を守らせる

GPT4-Vision-APIのあれこれ

zenn.dev

  • 音声と動画認識を両方入力できると、GPT-4は理解できる