1000개 이상의 리포지토리로 구성된 GitHub 데이터셋 샘플입니다. 데이터셋는 Bright Data API를 사용하여 추출되었습니다.
url: 리포지토리 웹 주소id: 고유 리포지토리 IDcode_language: 주요 프로그래밍 언어code: 리포지토리 소스 코드num_lines: 총 코드 라인 수user_name: 리포지토리 소유자의 사용자 이름user_url: 소유자 프로필 URLsize: 리포지토리 크기size_unit: 리포지토리 크기 단위size_num: 리포지토리 크기 수치breadcrumbs: 리포지토리 탐색 경로num_issues: 총 이슈 수num_pull_requests: 총 pull request 수num_projects: 연관된 프로젝트 수num_fork: 포크 수num_stared: 스타 수last_feature: 최신 기능 변경latest_update: 마지막 업데이트 날짜
그 외에도 많은 항목이 포함됩니다.
이는 "GitHub Repositories (public data)" 데이터셋에서 파생된 샘플 하위 집합이며, 해당 데이터셋에는 2,200,000개 이상의 리포지토리가 포함됩니다.
사용 가능한 데이터셋 파일 형식: JSON, NDJSON, JSON Lines, CSV, or Parquet. 선택적으로 파일을 .gz로 압축할 수 있습니다.
데이터셋 전달 유형 옵션: Email, API download, Webhook, Amazon S3, Google Cloud storage, Google Cloud PubSub, Microsoft Azure, Snowflake, SFTP.
업데이트 빈도: Once, Daily, Weekly, Monthly, Quarterly, or Custom basis.
추출된 데이터 포인트에 추가로 제공 가능한 데이터 enrichment: 요청에 따라 제공됩니다.
commit histories, pull requests, issue discussions와 같은 데이터 포인트를 추적하여 오픈 소스 프로젝트의 활동 및 건강 상태에 대한 인사이트를 확보할 수 있습니다. 이 데이터는 기업이 영향력이 큰 프로젝트를 식별하고, 트렌드를 모니터링하며, 오픈 소스 커뮤니티에서 협업 기회를 발견하는 데 도움이 될 수 있습니다. star 및 fork 수와 같은 메트릭을 분석하여 오픈 소스 프로젝트의 인기도와 커뮤니티 지지도를 평가할 수 있습니다. 이 정보는 기업이 어떤 프로젝트가 주목을 받고 있는지 이해하고, 도입에 대한 정보에 기반한 의사결정을 내리며, 기술 트렌드를 식별할 수 있도록 지원합니다. 공개 GitHub 프로필 데이터를 활용하여 오픈 소스 커뮤니티 내 참여와 옹호 활동을 촉진할 수 있습니다. 귀사의 분야에서 리포지토리에 star를 누르고, fork하며, 기여하는 활동적인 사용자를 식별하여, 프로젝트를 확산시키고 협업 기반 혁신을 촉진할 수 있는 옹호자 네트워크를 구축할 수 있습니다.Bright Initiative는 다양한 환경 및 사회적 대의를 촉진하는 주요 학술 기관 및 연구자, NGO 및 NPO에 Bright Data의 Web Scraper APIs 및 즉시 사용 가능한 데이터셋에 대한 액세스를 제공합니다. 여기에서 신청서를 제출할 수 있습니다.