- なぜ変化を起こすのが難しいのか? - 数年以上にわたって難しさに向き合い・考え取り組んできたこと
- CircleCIへの不正アクセスについてまとめてみた
- デジタル庁が手がけるデータ標準とオープンデータ
- 研究とプロダクト開発の境界を越えたチーミングでユーザーに価値を届ける
- Kaggleで学んだBERTをfine-tuningする際のTips⑤〜ラベルなしデータ活用編〜
- 終わってる風終わってないタスクが自分の首を締めた話
- 決算短信セグメント情報のデータ抽出ハンズオン
- 超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由
- ReazonSpeech
なぜ変化を起こすのが難しいのか? - 数年以上にわたって難しさに向き合い・考え取り組んできたこと
- 日本企業のコンテキストで効果があった変化を起こすために使えるプラクティスの紹介
- 組織の変化の実例の紹介
CircleCIへの不正アクセスについてまとめてみた
- CircleCIが不正アクセスを受け、プラットフォーム上に保存された利用者のサードパーティシステムなどの環境変数、キー、トークンを含む情報を一部が流出した
- 影響を受けるのはクラウドで提供されるCircleCIでオンプレミスのCircleCI Serverは影響を受けない
- CircleCIのエンジニアのPCがマルウェアに感染しており、セッションCookieがが窃取し、本番環境へ不正アクセスされた
- 今回の件を受けて、CircleCIはパイプラインのセキュリティを向上させる推奨方法を案内している
デジタル庁が手がけるデータ標準とオープンデータ
- デジタル庁はデータの相互運用性を高めるため、政府相互運用性フレームワーク(GIF)を作成した
- データ標準により、相互運用性を高め、データ連携コストを下げることができる
- オープンデータを探すならばまずはカタログサイトから
- データカタログ横断検索システムを利用することがおすす
- search.ckan.jp
研究とプロダクト開発の境界を越えたチーミングでユーザーに価値を届ける
Kaggleで学んだBERTをfine-tuningする際のTips⑤〜ラベルなしデータ活用編〜
- ラベルなしデータを活用して、予測精度を上げる方法
- 「Pseudo Labeling」、「Masked Language Modelingで再学習」、「Meta Pseudo Labels」の3つの方法が紹介されている
終わってる風終わってないタスクが自分の首を締めた話
- 終わっていないことをスプリントレビューで提示しない
- 急ぎでやらないといけないことは結構な頻度で突然やってくる
- 優先順位は変わるもの、薄めて完了にしない
決算短信セグメント情報のデータ抽出ハンズオン
- HTMLの決算短信からセグメント情報を抽出するSageMaker Studio Labのハンズオン
超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由
- Pandasと比べたメリット
- 同じ列には特定の型しかない
- 遅延評価できる
- 列の指定が容易(何度もdataframe名を記載する必要がない)
- pandasだとapplyが必要な処理を自然に書け、処理も高速
ReazonSpeech
- 19,000事案の放送音声からなるラベル付き日本語音声コーパス
- 音声コーパスに加えて、学習済みラベルを公開している
- huggingface.co
- Whisper large-v2と同等の精度