SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年4月24日の週に気になった記事などまとめ

気になったものまとめ

『ChatGPTによって描かれる未来とAI開発の変遷』日本マイクロソフト株式会社　蒲生弘郷氏（2023年4月21日）
大規模言語モデルのための強化学習
ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく
Brand guidelines
百花繚乱の大規模言語モデル　その現状まとめ【2023年4月末版】
LangChain Toolsの運用と改善
NOT A HOTEL AI コンシェルジュ「Kevin」とキャッシュ
LLMを活用した推薦システムの改善: 課題と初期導入のアプローチ
New ways to manage your data in ChatGPT
GPT, Langchain, Faiss, FastAPIを組み合わせた Chat検索システム開発
ポッドキャストをAIで書き起こし「LISTEN」　近藤淳也氏が立ち上げ
生成AIの利用ガイドライン作成のための手引き

『ChatGPTによって描かれる未来とAI開発の変遷』日本マイクロソフト株式会社　蒲生弘郷氏（2023年4月21日）

www.youtube.com

大規模言語モデルのための強化学習

以下の記事の要約
- gist.github.com
強化学習は否定的なフィードバックも可能
強化学習によりでたらめな回答をしないようにする

ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく

nikkie-ftnext.hatenablog.com

3の倍数の長さのbytesならば、bytesのdecodeメソッドで元の文字列の一部が得られることを利用して、どのように分割されたかを確認する
1トークン1文字以下で扱われる場合が多い

Brand guidelines

OpenAIのブランドガイドライン
OpenAIのモデルを利用して開発したサービスの名称のネーミングルールなどが掲載されている

百花繚乱の大規模言語モデル　その現状まとめ【2023年4月末版】

www.itmedia.co.jp

学習に利用したデータセット、商用利用可などの制約や規模などをまとめた表が掲載されている

LangChain Toolsの運用と改善

speakerdeck.com

LangChain Toolは外部のツールを柔軟に利用できる仕組み
Descriptionの定義がかなり難しい
- Descriptionを改善する試みを実施

NOT A HOTEL AI コンシェルジュ「Kevin」とキャッシュ

speakerdeck.com

該当するドキュメントを検索するのに時間がかかるため、質問に対するソースとドキュメントをキャッシュするように実装した

LLMを活用した推薦システムの改善: 課題と初期導入のアプローチ

speakerdeck.com

LLMを利用して、推薦の根拠を明確に伝えるようにした
自然言語でユーザがニーズを伝えることができるようにした
リスクを下げるためにLLMに解かせるタスクや入出力を限定する

New ways to manage your data in ChatGPT

ChatGPTの履歴機能をOFFにすることで会話の内容が学習に利用されないようになった
- 30日間は不正使用の監視で必要な場合のみ確認される可能性がある

GPT, Langchain, Faiss, FastAPIを組み合わせた Chat検索システム開発

speakerdeck.com

LLMを利用した機械学習システムを運用するためのアーキテクチャ案

ポッドキャストをAIで書き起こし「LISTEN」　近藤淳也氏が立ち上げ

www.itmedia.co.jp

AIを使ってポッドキャスト番組を自動で文字起こしするサービス「LISTEN」β版を、はてな創業者の近藤淳也氏が公開した。
- listen.style

生成AIの利用ガイドライン作成のための手引き

社内独自の生成AIガイドラインを作成する際の参考資料
入力行為のリスクと生成物利用のリスクに分けて説明されている
- 入力行為のリスク
  - 著作物
  - 個人情報
  - 他社の秘密情報
  - 自社の秘密情報
- 生成物利用のリスク
  - 著作権侵害
  - 知的財産権の侵害