SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

データ分析

日本語ローカルLLMまとめ※作成中

日本語ローカルLLMの情報をこの記事にまとめ中です。 ※2023年10月31日現在の情報を記入したつもりですが、正確性は保証できません。 まとめ lightblue/karasu-7B-chat-plus-unleashed lightblue/qarasu-14B-chat-plus-unleashed rinna/nekomata-14b-instruct…

生成AIの利用ガイドラインまとめ ※更新中

生成AIの利用ガイドラインで見つけたものを張っていく 東京都職員向け文章生成AIの利活用に関するガイドライン 中小企業のための「生成AI」活用入門ガイド JDLA 生成AIの利用ガイドライン 初等中等教育段階における生成AIの利用に関する暫定的なガイドライン…

line-corporation/japanese-large-lm-3.6b-instruction-sftを動かしてみた

ほぼ、npakaさんの記事そのままですが、誰かの役に立つかもしれないので、 line-corporation/japanese-large-lm-3.6b-instruction-sftをGoogle ColabのT4GPUで動かしたときのメモを残します # パッケージのインストール !pip install transformers accelerat…

SageMaker Canvasをインターネットに接続なしVPC Onlyドメインで実行するために作成したVPCエンドポイント

SageMaker Canvasをインターネット接続なしのVPC専用モードで動かすときにどのサービスのVPCエンドポイントを作る必要があるか分からなかったので、やってみた結果を残す 困ったこと 以下のページを見ると、SageMaker Canvasが使用できるサービスのVPCエンド…

PythonでPermutation Importanceの出し方メモ

Permutation Imporatanceをの出力方法を以下にメモしておく 以下を事前に用意する model Premutation Importanceを計算するモデル X Permutation Importanceを計算するときに使う説明変数 Y Permutation Importanceを計算するときに使う目的変数 sklearnを使…

AWS Certified Data Analytics - Specialtyに合格しました。

AWS Certified Data Analytics - Specialtyに合格したので、 勉強で利用した教材などをまとめておく 筆者の経験 AWSは業務で2年程度利用している ただし、データ分析系のサービスはあまり使っていない 業務は機械学習エンジニア その中で必要なデータ処理は…

AWS SageMakerの因数分解機について調べてみた

AWSの因数分解機について理解できていないので、調べてメモを残す 分類や回帰に使用できる 線形回帰よりも疎なデータセットにおいて、計算効率がよい レコメンドに使用される 利用イメージ 密なユーザ行列と密なアイテム行列を使って、疎な評価行列(ユーザ*…

Partial Dependence Plotについて調べてみた

Partial Dependence Plotについて調べたので、理解できた内容を以下に記録する ターゲットと対象の入力特徴のセットとの間の依存性を示す 興味のある変数以外の影響を周辺化して消す 元の説明変数の値からある説明変数の値をすべて何かの値xに置き換えて、予…

Permutation Importanceについて調べてみた

Permutation Importanceについて調べてみたので、分かったことについて以下にまとめる 調べて理解できたこと 「ある特徴量がどれだけモデルの予測精度向上に寄与しているのか」を解釈したもの ある特徴量をランダムに並べ替えて、どの程度モデルの誤差へ影響…

SHAP理解できたこと

まだまだ勉強中ですが、SHAPについて理解できたことをメモしておく。 ちゃんと理解できていないので、間違いがあると思いますが、 その際は優しくご指摘いただけると幸いです。 近似するモデルについて 予測結果に対する各変数の寄与を求める手法 学習したモ…

Docker上にWordCloud + MeCab +Jupyter環境構築する際にはまったこと

Docker上にWordCloud + MeCab +Jupyter環境を構築したがはまったので、 非常に雑だがメモしておく。 はまったこと MeCabを利用しようとしたら、以下のエラーが出る error message: [ifs] no such file or directory: /usr/local/etc/mecabrc 以下を実行して…

AI・データ分析プロジェクトのすべてを読みました

読もうと思った理由 データ分析プロジェクトのはまりどころを把握したかった データサイエンティストの情報収集方法を知りたかった 全体的な感想 今まで暗黙知になりがちだったノウハウが文書化されていて、プロジェクトを進めるうえで非常に参考になる 本で…

t-SNEについて調べてみた

t-SNEとは?となり調べたので、理解できたことをメモしておく。 書いてみて、ちゃんと理解できてない感たっぷりですが、そのまま残しておきます。 t-SNEは高次元のデータを二次元または三次元に圧縮して可視化する 元の特徴空間上で近い点が圧縮後の次元でも…

Anacondaのメモ(主にProxy周り)

AnacondaのPorxy周りの設定方法について、良く忘れるのでメモしておく プロキシの設定 インストールファイルに「.condarc」ファイルを作り下記を記入 proxy_servers: http: http://プロキシユーザ:プロキシパスワード@プロキシサーバ:プロキシポート https: …

Udemyの「実践データサイエンス&機械学習 with Python -統計学の基礎からビッグデータまで-」を受講しました

Udemyの「実践データサイエンス&機械学習 with Python -統計学の基礎からビッグデータまで-」を受講したので、 ブログに記録を残す この講座で学びたかったこと 機械学習の必要最低限の知識 自分には何の知識が足りないかを理解する 講座の感想 浅く広くでは…

TF-IDFについて調べたことを簡単にメモ

これも何度も調べることになりがちな、TF-IDFについて調べたので、 メモを残しておく TF-IDF いくつかの文書があるときに、ある文書にとって重要な単語が何かを数値化する手法 この後記述するTFとIDFの乗算で計算する TF ある文書における、ある単語の出現頻…

バイアスとバリアンス

何度も調べなおしているバイアスとバリアンスについて、また調べたので 簡単ではあるが記録しておく。 バイアス 作成したモデルから得られる予測データが学習データとの差 大きいときは、モデルが硬すぎて、データにフィットできないアンダーフィッティング…

DataFrameに含まれる欠損値の確認

PythonでDataFrameの欠損値がどのぐらい含まれているかを気になったところ、 楽な確認方法が分かったので、メモ df.isnull().sum() これでDataFrameの各列に何個欠損値があるかを確認できる。

AzureのTranslator Text APIを試してみた

Microsoft Azureの「Translator Text API」を試してみた。 作業時は下記のチュートリアルを参考にした docs.microsoft.com Freeインスタンスを使えば、毎月 200 万文字は無料まで無料で利用できるようです。 今回試した条件 Pythonから利用 Freeプラン 試し…