개발 일기

상업 사용 가능한 데이터셋(data)

어제보다보고싶어 2024. 10. 27. 12:00

1. 상업적 사용이 가능한 데이터셋

Open Images Dataset

  • 소개: Open Images Dataset은 구글에서 제공하는 대규모 이미지 데이터셋으로, 약 900만 장의 이미지와 주석(annotation)을 포함하고 있습니다.
  • 데이터 내용:
    • 이미지: 다양한 주제와 상황을 담은 고해상도 이미지.
    • 주석 정보:
      • 객체 바운딩 박스(bounding boxes).
      • 이미지 레벨 라벨(image-level labels).
      • 이미지 분할(segmentation masks).
      • 관계 관계주석(visual relationships).
      • 지역 레벨 캡션(region-level captions).
  • 라이선스:
    • 이미지 자체는 **크리에이티브 커먼즈 라이선스(CC BY 2.0)**를 따르며, 상업적 사용이 가능합니다.
    • 사용 시 **저작자 표시(Attribution)**가 필요합니다.
    • 주의사항:
      • 일부 이미지에는 추가적인 사용 제한이 있을 수 있으므로, 각 이미지의 메타데이터에서 라이선스 정보를 확인해야 합니다.
      • 데이터셋의 라이선스 페이지를 반드시 검토하시기 바랍니다. 
  • 데이터셋 링크: Open Images Dataset
  • (* 사이트 이동시 컨트롤+마우스클릭)

CC0 (Creative Commons Zero) 라이선스 데이터셋

  • 소개: CC0 라이선스는 저작권을 포기한 라이선스로, 누구나 자유롭게 사용, 수정, 배포, 상업적 이용이 가능합니다.
  • CC0 라이선스 데이터셋 예시:
    • COCO (Common Objects in Context) 2014 버전:
      • 데이터 내용: 일상 생활의 장면을 담은 이미지와 객체 주석.
      • 활용 분야: 객체 감지, 분할, 캡션 생성 등.
      • 데이터셋 링크: COCO Dataset
    • Unsplash 이미지 데이터셋:
      • 데이터 내용: 고품질의 사진 이미지.
      • 라이선스: Unsplash 라이선스로, 상업적 사용 가능하며 저작자 표시 불필요.
      • 데이터셋 링크: Unsplash
    • WikiArt 데이터셋:
      • 데이터 내용: 다양한 예술 작품 이미지.
      • 라이선스: 일부 작품은 퍼블릭 도메인(CC0)으로 상업적 사용 가능.
      • 데이터셋 링크: WikiArt

2. 상업적 사용이 가능한 데이터셋 제공 사이트 목록

1. Kaggle

  • 소개: 다양한 분야의 데이터셋을 제공하는 플랫폼입니다.
  • 상업적 사용 가능 데이터셋:
    • 각 데이터셋마다 라이선스가 다르므로, "License" 부분을 확인하여 상업적 사용이 허용된 데이터셋을 선택해야 합니다.
  • 사이트 링크: Kaggle Datasets

2. UCI Machine Learning Repository

  • 소개: 머신러닝 알고리즘 평가를 위한 다양한 데이터셋을 제공합니다.
  • 상업적 사용 가능 데이터셋:
    • 대부분의 데이터셋은 연구 목적이지만, 상업적 사용이 가능한지 개별 데이터셋의 **"Data Set Description"**을 확인해야 합니다.
  • 사이트 링크: UCI Machine Learning Repository

3. Open Data Commons

  • 소개: 다양한 분야의 공개 데이터셋을 제공합니다.
  • 라이선스: 데이터셋마다 ODbL(Open Database License) 또는 **PDDL(Public Domain Dedication and License)**를 적용받을 수 있습니다.
  • 사이트 링크: Open Data Commons

4. Data.gov

  • 소개: 미국 정부에서 제공하는 공개 데이터셋 포털입니다.
  • 데이터 내용: 정부 통계, 환경, 교육, 건강 등 다양한 분야.
  • 라이선스: 대부분 퍼블릭 도메인으로 상업적 사용 가능.
  • 사이트 링크: Data.gov

5. European Union Open Data Portal

  • 소개: 유럽 연합에서 제공하는 공개 데이터셋 포털입니다.
  • 데이터 내용: 경제, 인구, 농업, 에너지 등 다양한 분야.
  • 라이선스: 데이터셋마다 라이선스가 다르지만, 많은 경우 상업적 사용이 허용됩니다.
  • 사이트 링크: EU Open Data Portal

6. AI Dataset by Microsoft

  • 소개: 마이크로소프트에서 제공하는 AI 연구를 위한 데이터셋 모음입니다.
  • 라이선스: 각 데이터셋마다 라이선스가 다르므로 확인 필요.
  • 사이트 링크: Microsoft AI Lab

7. Wikimedia Commons

  • 소개: 자유롭게 사용 가능한 미디어 파일 저장소입니다.
  • 데이터 내용: 이미지, 음성, 동영상 등 다양한 미디어 파일.
  • 라이선스: 파일마다 라이선스가 다르므로, CC0 또는 상업적 사용이 허용된 라이선스를 가진 파일을 선택해야 합니다.
  • 사이트 링크: Wikimedia Commons

8. Flickr Creative Commons

  • 소개: 사진 공유 사이트인 Flickr에서 크리에이티브 커먼즈 라이선스로 제공되는 이미지 모음입니다.
  • 데이터 내용: 다양한 주제의 사진.
  • 라이선스: 상업적 사용이 허용된 라이선스를 선택하여 사용해야 합니다.
  • 사이트 링크: Flickr Creative Commons

9. OpenStreetMap

  • 소개: 전 세계 지리 정보를 제공하는 오픈 소스 프로젝트입니다.
  • 데이터 내용: 지도 데이터, 위치 정보 등.
  • 라이선스: **Open Data Commons Open Database License (ODbL)**로 상업적 사용 가능하나, 동일 라이선스로 공유해야 하는 조건이 있습니다.
  • 사이트 링크: OpenStreetMap

10. Awesome Public Datasets

  • 소개: GitHub에서 관리되는 공개 데이터셋의 모음 리스트입니다.
  • 데이터 내용: 머신러닝, 자연어 처리, 컴퓨터 비전 등 다양한 분야.
  • 라이선스: 각 데이터셋의 라이선스를 개별적으로 확인해야 합니다.
  • 사이트 링크: Awesome Public Datasets

3. 상업적 사용 시 유의사항

  • 라이선스 확인 필수: 각 데이터셋이나 파일의 라이선스를 반드시 확인하고, 상업적 사용이 허용되는지 확인해야 합니다.
  • 저작자 표시 요구사항 준수: 크리에이티브 커먼즈 라이선스(CC BY 등)의 경우, 저작자 표시가 요구될 수 있으므로 이를 준수해야 합니다.
  • 동일 조건 변경 허락: 일부 라이선스는 수정한 작품을 동일한 라이선스로 배포하도록 요구합니다.
  • 개인정보 보호법 준수: 개인 식별 정보가 포함된 데이터셋을 사용할 경우, 해당 국가의 개인정보 보호법을 준수해야 합니다.
  • 데이터셋 제공자에게 문의: 라이선스가 불분명하거나 추가적인 허가가 필요한 경우, 데이터셋 제공자나 저작권자에게 직접 문의하는 것이 좋습니다.

4. 결론

  • Open Images DatasetCC0 라이선스의 데이터셋은 상업적 사용이 가능한 데이터로, AI 모델 개발 및 배포에 활용할 수 있습니다.
  • 상업적 사용이 가능한 데이터셋 제공 사이트는 다양하며, 각 사이트에서 제공하는 데이터셋의 라이선스와 사용 조건을 확인하여 활용하시기 바랍니다.
  • 라이선스 조건 준수법적 요구사항을 철저히 확인하고, 안전하게 데이터를 활용하여 성공적인 프로젝트를 진행하시길 바랍니다.