SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年4月24日の週に気になった記事などまとめ

『ChatGPTによって描かれる未来とAI開発の変遷』日本マイクロソフト株式会社 蒲生 弘郷氏(2023年4月21日)

www.youtube.com

大規模言語モデルのための強化学習

note.com

ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく

nikkie-ftnext.hatenablog.com

  • 3の倍数の長さのbytesならば、bytesのdecodeメソッドで元の文字列の一部が得られることを利用して、どのように分割されたかを確認する
  • 1トークン1文字以下で扱われる場合が多い

Brand guidelines

openai.com

  • OpenAIのブランドガイドライン
  • OpenAIのモデルを利用して開発したサービスの名称のネーミングルールなどが掲載されている

百花繚乱の大規模言語モデル その現状まとめ【2023年4月末版】

www.itmedia.co.jp

  • 学習に利用したデータセット、商用利用可などの制約や規模などをまとめた表が掲載されている

LangChain Toolsの運用と改善

speakerdeck.com

  • LangChain Toolは外部のツールを柔軟に利用できる仕組み
  • Descriptionの定義がかなり難しい
    • Descriptionを改善する試みを実施

NOT A HOTEL
AI コンシェルジュ「Kevin」とキャッシュ

speakerdeck.com

  • 該当するドキュメントを検索するのに時間がかかるため、質問に対するソースとドキュメントをキャッシュするように実装した

LLMを活用した推薦システムの改善: 課題と初期導入のアプローチ

speakerdeck.com

  • LLMを利用して、推薦の根拠を明確に伝えるようにした
  • 自然言語でユーザがニーズを伝えることができるようにした
  • リスクを下げるためにLLMに解かせるタスクや入出力を限定する

New ways to manage your data in ChatGPT

openai.com

  • ChatGPTの履歴機能をOFFにすることで会話の内容が学習に利用されないようになった
    • 30日間は不正使用の監視で必要な場合のみ確認される可能性がある

GPT, Langchain, Faiss, FastAPIを組み合わせた Chat検索システム開発

speakerdeck.com

ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ

www.itmedia.co.jp

生成AIの利用ガイドライン作成のための手引き

storialaw.jp

  • 社内独自の生成AIガイドラインを作成する際の参考資料
  • 入力行為のリスクと生成物利用のリスクに分けて説明されている
    • 入力行為のリスク
      • 著作物
      • 個人情報
      • 他社の秘密情報
      • 自社の秘密情報
    • 生成物利用のリスク