Skip to content

CNデータのリアルタイムスクレイピングの設計・実装 #170

@yu23ki14

Description

@yu23ki14

一行説明

CNのデータをgraphql経由で取得するパイプラインをETLに追加する

詳細

CNの公開データはtsvで公開されているが3~4日ほどラグがある。リアルタイムで見れるようにしたいので、現状のAWS CDKで構築しているETLに追加する。XアカウントでログインをしてAutorizationヘッダーにBearerトークンを入れると取れそうなので、それを定期的に回す。
リアルタイムの定義はノート作成から10分以内をターゲットにする。

要件

  • CNのgraphqlの仕様を調査
  • graphqlから取得できるデータを整理
  • 現状のETLパイプラインに統合する際の設計
  • サブイシューの作成

補足

テスト用Xアカウント
アカウント名: CloudierEddie
パスワード: ask Ryoma
メールアドレス: [email protected]
メールパスワード: ask Ryoma
2FAトークン: ask Ryoma (Google Authenticatorとかでいれてつかう)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions