データ分析
日本語ローカルLLMの情報をこの記事にまとめ中です。 ※2023年10月31日現在の情報を記入したつもりですが、正確性は保証できません。 まとめ lightblue/karasu-7B-chat-plus-unleashed lightblue/qarasu-14B-chat-plus-unleashed rinna/nekomata-14b-instruct…
生成AIの利用ガイドラインで見つけたものを張っていく 東京都職員向け文章生成AIの利活用に関するガイドライン 中小企業のための「生成AI」活用入門ガイド JDLA 生成AIの利用ガイドライン 初等中等教育段階における生成AIの利用に関する暫定的なガイドライン…
ほぼ、npakaさんの記事そのままですが、誰かの役に立つかもしれないので、 line-corporation/japanese-large-lm-3.6b-instruction-sftをGoogle ColabのT4GPUで動かしたときのメモを残します # パッケージのインストール !pip install transformers accelerat…
SageMaker Canvasをインターネット接続なしのVPC専用モードで動かすときにどのサービスのVPCエンドポイントを作る必要があるか分からなかったので、やってみた結果を残す 困ったこと 以下のページを見ると、SageMaker Canvasが使用できるサービスのVPCエンド…
Permutation Imporatanceをの出力方法を以下にメモしておく 以下を事前に用意する model Premutation Importanceを計算するモデル X Permutation Importanceを計算するときに使う説明変数 Y Permutation Importanceを計算するときに使う目的変数 sklearnを使…
AWS Certified Data Analytics - Specialtyに合格したので、 勉強で利用した教材などをまとめておく 筆者の経験 AWSは業務で2年程度利用している ただし、データ分析系のサービスはあまり使っていない 業務は機械学習エンジニア その中で必要なデータ処理は…
AWSの因数分解機について理解できていないので、調べてメモを残す 分類や回帰に使用できる 線形回帰よりも疎なデータセットにおいて、計算効率がよい レコメンドに使用される 利用イメージ 密なユーザ行列と密なアイテム行列を使って、疎な評価行列(ユーザ*…
Partial Dependence Plotについて調べたので、理解できた内容を以下に記録する ターゲットと対象の入力特徴のセットとの間の依存性を示す 興味のある変数以外の影響を周辺化して消す 元の説明変数の値からある説明変数の値をすべて何かの値xに置き換えて、予…
Permutation Importanceについて調べてみたので、分かったことについて以下にまとめる 調べて理解できたこと 「ある特徴量がどれだけモデルの予測精度向上に寄与しているのか」を解釈したもの ある特徴量をランダムに並べ替えて、どの程度モデルの誤差へ影響…
まだまだ勉強中ですが、SHAPについて理解できたことをメモしておく。 ちゃんと理解できていないので、間違いがあると思いますが、 その際は優しくご指摘いただけると幸いです。 近似するモデルについて 予測結果に対する各変数の寄与を求める手法 学習したモ…
Docker上にWordCloud + MeCab +Jupyter環境を構築したがはまったので、 非常に雑だがメモしておく。 はまったこと MeCabを利用しようとしたら、以下のエラーが出る error message: [ifs] no such file or directory: /usr/local/etc/mecabrc 以下を実行して…
読もうと思った理由 データ分析プロジェクトのはまりどころを把握したかった データサイエンティストの情報収集方法を知りたかった 全体的な感想 今まで暗黙知になりがちだったノウハウが文書化されていて、プロジェクトを進めるうえで非常に参考になる 本で…
t-SNEとは?となり調べたので、理解できたことをメモしておく。 書いてみて、ちゃんと理解できてない感たっぷりですが、そのまま残しておきます。 t-SNEは高次元のデータを二次元または三次元に圧縮して可視化する 元の特徴空間上で近い点が圧縮後の次元でも…
AnacondaのPorxy周りの設定方法について、良く忘れるのでメモしておく プロキシの設定 インストールファイルに「.condarc」ファイルを作り下記を記入 proxy_servers: http: http://プロキシユーザ:プロキシパスワード@プロキシサーバ:プロキシポート https: …
Udemyの「実践データサイエンス&機械学習 with Python -統計学の基礎からビッグデータまで-」を受講したので、 ブログに記録を残す この講座で学びたかったこと 機械学習の必要最低限の知識 自分には何の知識が足りないかを理解する 講座の感想 浅く広くでは…
これも何度も調べることになりがちな、TF-IDFについて調べたので、 メモを残しておく TF-IDF いくつかの文書があるときに、ある文書にとって重要な単語が何かを数値化する手法 この後記述するTFとIDFの乗算で計算する TF ある文書における、ある単語の出現頻…
何度も調べなおしているバイアスとバリアンスについて、また調べたので 簡単ではあるが記録しておく。 バイアス 作成したモデルから得られる予測データが学習データとの差 大きいときは、モデルが硬すぎて、データにフィットできないアンダーフィッティング…
PythonでDataFrameの欠損値がどのぐらい含まれているかを気になったところ、 楽な確認方法が分かったので、メモ df.isnull().sum() これでDataFrameの各列に何個欠損値があるかを確認できる。
Microsoft Azureの「Translator Text API」を試してみた。 作業時は下記のチュートリアルを参考にした docs.microsoft.com Freeインスタンスを使えば、毎月 200 万文字は無料まで無料で利用できるようです。 今回試した条件 Pythonから利用 Freeプラン 試し…