SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

2023年1月16日の週に気になった記事まとめ

なぜ変化を起こすのが難しいのか? - 数年以上にわたって難しさに向き合い・考え取り組んできたこと

speakerdeck.com

  • 日本企業のコンテキストで効果があった変化を起こすために使えるプラクティスの紹介
  • 組織の変化の実例の紹介

CircleCIへの不正アクセスについてまとめてみた

piyolog.hatenadiary.jp

  • CircleCIが不正アクセスを受け、プラットフォーム上に保存された利用者のサードパーティシステムなどの環境変数、キー、トークンを含む情報を一部が流出した
  • 影響を受けるのはクラウドで提供されるCircleCIでオンプレミスのCircleCI Serverは影響を受けない
  • CircleCIのエンジニアのPCがマルウェアに感染しており、セッションCookieがが窃取し、本番環境へ不正アクセスされた
  • 今回の件を受けて、CircleCIはパイプラインのセキュリティを向上させる推奨方法を案内している

デジタル庁が手がけるデータ標準とオープンデータ

speakerdeck.com

  • デジタル庁はデータの相互運用性を高めるため、政府相互運用性フレームワーク(GIF)を作成した
  • データ標準により、相互運用性を高め、データ連携コストを下げることができる
  • オープンデータを探すならばまずはカタログサイトから
    • データカタログ横断検索システムを利用することがおすす
    • search.ckan.jp

研究とプロダクト開発の境界を越えたチーミングでユーザーに価値を届ける

speakerdeck.com

  • 魔法のようにユーザーの課題を解決するために、プロダクトマネージャーが機械学習を学ぶ
  • 機械学習プロジェクトは技術的な要素よりも目標設定やチーム間の連携など非技術的な要素が大きく成否を左右する

Kaggleで学んだBERTをfine-tuningする際のTips⑤〜ラベルなしデータ活用編〜

www.ai-shift.co.jp

  • ラベルなしデータを活用して、予測精度を上げる方法
  • 「Pseudo Labeling」、「Masked Language Modelingで再学習」、「Meta Pseudo Labels」の3つの方法が紹介されている

終わってる風終わってないタスクが自分の首を締めた話

speakerdeck.com

  • 終わっていないことをスプリントレビューで提示しない
  • 急ぎでやらないといけないことは結構な頻度で突然やってくる
  • 優先順位は変わるもの、薄めて完了にしない

決算短信セグメント情報のデータ抽出ハンズオン

github.com

  • HTMLの決算短信からセグメント情報を抽出するSageMaker Studio Labのハンズオン

超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由

qiita.com

  • Pandasと比べたメリット
    • 同じ列には特定の型しかない
    • 遅延評価できる
    • 列の指定が容易(何度もdataframe名を記載する必要がない)
    • pandasだとapplyが必要な処理を自然に書け、処理も高速

ReazonSpeech

research.reazon.jp

  • 19,000事案の放送音声からなるラベル付き日本語音声コーパス
  • 音声コーパスに加えて、学習済みラベルを公開している