2023年12月25日の週に気になった記事などまとめ - SEが最近起こったことを書くブログ

2023年12月20日に文化審議会著作権分科会法制度小委員会から発表された「AIと著作権に関する考え方（素案）」について解説したk辞意
「非享受目的」の該当性について、情報解析の用途と享受目的が同時に存在する場合には、法第 30 条の４は適用されない
もし学習データが著作物の内容をそのまま出力する目的で使用される場合、または特定のクリエイターの「作風」を模倣する目的で使用される場合は、享受目的が併存すると見なされ、法第30条の4の適用外となる
RAGのようなシステムが著作物を含むデータを検索し、その結果を要約して回答を生成する場合、これは非享受目的の利用行為とは見なされず、法第30条の4は適用されない。しかし、法第47条の5に基づく「軽微利用」の範囲内であれば、著作物の使用が許可される可能性がある
アイデアや作風が類似しているが、既存の著作物との類似性がない生成物は、著作権侵害にはならないことが明確に示されている
依拠性については認識説がとられており、既存著作物を認識していただけで、既存著作物をプロンプトに入力しなくても著作権侵害となり得ることが述べられている

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

arxiv.org

Google Colab で vLLM を試す

note.com

「vLLM」は、LLMの高速推論のためのライブラリ

日本語LLMをPPOでファインチューニングする

qiita.com

3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をし、LoRAを使用してProximal Policy Optimization (PPO)を行った記事
DPOはデータから直接的に価値基準をLLMに学習させる手法で、事前に報酬モデルを作成する必要がなく、強化学習を行う必要もない

日本語モデルの長文QA性能の比較

note.com

新しめの7b-13bモデルが対象
insruction tuningされたモデルのみを検証対象としている
400文字程度ずつの約1000のチャンクに分け、intfloat/multilingual-e5-largeで埋め込み
質問「飛鳥が持ってきた猫缶のキャッチフレーズは何？」を使って類似チャンクを取得
- それらのtopkのチャンクをhard negativeとして、正解のフレーズである「ネコ、猛ダッシュ」を含むチャンクを加えてshuffleし、contextを作る
この猫缶は架空の商品なのでLLMの持つ知識で答えることはできないが、正解のパラグラフを読んでこの答えを回答することは容易
- モデルが文脈を考慮する能力のみを測るのに利用する
context長と正解の位置をランダムに変えながらモデルごとに約2000回生成を行い、正解のフレーズがコンテキスト末尾から数えてどの位置にあるかによって、正解率がどの程度変化するかを計測
末尾から3000文字以上離れたところに正解の情報がある場合は、Swallow-13b-instruct-hf（緑）がもっとも良く見える
コンテキスト長が短くても構わない場合や、VRAMの都合などで7Bモデルが必要な場合はELYZA-japanese-Llama-2-7b-fast-instruct

Bard & Googleスプレッド & AI Studioでチーム「Gemini」

note.com

「Structured prompt」は、予め用意した入力と出力のテンプレートに従って回答を推論してくれるモード
「input」と「output」はそれぞれ1つだけではなく、複数用意できる

生成AIの評価手法〜LangChain, guidance, Azure AI Studioの比較・統合

note.com

100~1000以上のデータで統計的に有意な結果を得る
可能ならば参照ラベルを利用する
モデルの安定性を測定する
テストデータを分ける
Azure AI Studioの関連記事
- learn.microsoft.com

Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開

prtimes.jp

Karasuシリーズは70億パラメータのShisa（https://huggingface.co/augmxnt/shisa-7b-v1）に対して、日本語と英語の学習データを用いて70億トークンで継続事前学習とファインチューニングを実施したモデル
Qarasuシリーズは、140億パラメータのQwen-14B ( https://huggingface.co/Qwen/Qwen-14B ) に対して、Karasuシリーズで培ったノウハウを活かしファインチューニングしたモデル

[12/23~12/29] LLM Weekly News by EXPLAZA

note.com

【資料特別公開】生成AI／LLM 2023総括

note.com

ChatGPTの事業価値がの創出が見込まれる領域

Google Colab で Qarasu-14B を試す

note.com

Anthropic Claudeで英訳したプロンプトで日本語非対応のAIモデルを利用するAmazon Bedrockの試行 - 特定言語のみをサポートするAIモデルの活用

tech.nri-net.com

Amazon Bedrockで使用できるAIモデルのうち、英語には対応している一方で日本語に非対応していないものをAnthropic Claudeで翻訳して使用することを試した記事
- 日本語非対応で英語のみサポートとされているAmazon Bedrock上のMeta Llama 2を翻訳して使用することを試した

無料 GPT-4 アプリを活用した Instruction データセット作成の取り組み

機械学習におけるEDAって結局何するの？

Vertex AI Gemini ProとLangChainで実現するMultimodal RAG

23/12/25 覚醒したguidanceを使ってローカルLLMからノイズの無い生成してもらい、４択クイズとかjson生成させる

【ローカルLLM】言語モデルの知識編集を試す（Knowledge Editing）

Google Colab で ELYZA-japanese-Llama-2-13B を試す

130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました（商用利用可）

Googleが作成したマルチモーダルプロンプトエンジニアリングのまとめ

LLM 大規模言語モデル講座 2023コンテンツ 公開ページ

HuggingFace Diffusers v0.25.0の新機能

「AIと著作権に関する考え方（素案）」の解説（一般向けver）

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Google Colab で vLLM を試す

日本語LLMをPPOでファインチューニングする

日本語モデルの長文QA性能の比較

Bard & Googleスプレッド & AI Studioでチーム「Gemini」

生成AIの評価手法〜LangChain, guidance, Azure AI Studioの比較・統合

Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開

[12/23~12/29] LLM Weekly News by EXPLAZA

【資料特別公開】生成AI／LLM 2023総括

Google Colab で Qarasu-14B を試す

Anthropic Claudeで英訳したプロンプトで日本語非対応のAIモデルを利用するAmazon Bedrockの試行 - 特定言語のみをサポートするAIモデルの活用

LLM 大規模言語モデル講座 2023コンテンツ公開ページ