SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年8月7日の週に気になった記事などまとめ

気になったものまとめ

最近の話題にも詳しい14億パラメータの日本語LLMの公開
日本語言語モデル「Japanese StableLM Alpha」をリリースしました
Text Split Explorer
日本語指示データ・日本語擬似レビューの公開
Parent Document Retriever
japanese-stablelm-base-alpha-7bのLoRAを試す
Network Load Balancer now supports security groups

最近の話題にも詳しい14億パラメータの日本語LLMの公開

stockmark.co.jp

最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM（大規模言語モデル）をオープンソースとして公開された
2023年6月までのデータも含めて事前学習している

日本語言語モデル「Japanese StableLM Alpha」をリリースしました

ja.stability.ai

Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」及び、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開した
学習はのべ7500億トークンで行われた

Text Split Explorer

Text Splitterがどのように分割するかをGUIで確認するアプリ

日本語指示データ・日本語擬似レビューの公開

オープンソースの日本語指示データ、日本語疑似レビューデータが公開された

Parent Document Retriever

python.langchain.com

チャンクサイズが大きすぎると、Embeddingsが元の意味を保持できず、小さすぎるとコンテキストを保持できないことを解決するRetriever
クエリとの類似度検索には小さくチャンクしたデータを使うが、Embeddingsしたドキュメントよりも大きなドキュメントを返す

japanese-stablelm-base-alpha-7bのLoRAを試す

japanese-stablelm-base-alpha-7bをLoRAでファインチューニングしている記事

Network Load Balancer now supports security groups

NLBでセキュリティグループを設定できるようになった