개발 일기 (11) 썸네일형 리스트형 머신러닝 모듈화 코드가 필요한 이유 (현업에서는 세분화로 사용) 배추 가격 예측 같은 머신러닝 모델에서 모듈화가 안된 코드와 모듈화된 코드의 차이를 배추 가격 예측 모델을 예로 들어 설명하겠습니다.(corsor ai 툴에서 기본적으로 모듈화로 만들어줌)1. 모듈화되지 않은 코드 예시모듈화가 되지 않은 코드에서는 전체 과정을 하나의 긴 코드 블록으로 작성하여, 각 기능이 독립적으로 구분되지 않습니다. 예를 들어, 데이터 전처리, 모델 정의, 훈련, 평가 등이 모두 한 파일에 이어져 있고, 반복되는 코드도 별도로 함수로 분리되지 않습니다.import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_error# 데이터 준비 (모의 데이터)x .. 한국 공공데이터 포털의 상업적 사용 가능 여부 공공데이터 포털 (data.go.kr)소개: 공공데이터 포털은 대한민국 정부와 지자체, 공공기관에서 생성한 다양한 공공데이터를 한 곳에서 제공하는 플랫폼입니다.상업적 사용 가능 여부:대부분의 데이터는 공공데이터법에 따라 공개되어 있으며, 상업적 사용이 가능합니다.공공데이터 개방 표준 라이선스를 따르며, 이는 제1유형부터 제4유형까지 나뉩니다.제1유형: 출처 표시만 하면 자유롭게 이용 가능.제2유형: 출처 표시 및 변경 금지.제3유형: 출처 표시 및 동일조건 변경 허락.제4유형: 출처 표시 및 비영리 목적으로만 사용 가능.주의사항:데이터마다 적용되는 라이선스 유형이 다를 수 있으므로, 각 데이터의 상세 페이지에서 라이선스 유형을 반드시 확인해야 합니다.제4유형 데이터는 비영리 목적으로만 사용 가능하므로, .. 상업 사용 가능한 데이터셋(data) 1. 상업적 사용이 가능한 데이터셋Open Images Dataset소개: Open Images Dataset은 구글에서 제공하는 대규모 이미지 데이터셋으로, 약 900만 장의 이미지와 주석(annotation)을 포함하고 있습니다.데이터 내용:이미지: 다양한 주제와 상황을 담은 고해상도 이미지.주석 정보:객체 바운딩 박스(bounding boxes).이미지 레벨 라벨(image-level labels).이미지 분할(segmentation masks).관계 관계주석(visual relationships).지역 레벨 캡션(region-level captions).라이선스:이미지 자체는 **크리에이티브 커먼즈 라이선스(CC BY 2.0)**를 따르며, 상업적 사용이 가능합니다.사용 시 **저작자 표시(Att.. 실무에 사용 할 데이터와 연구목적 데이터(벤치마크)의 차이 실무에서 라이선스 문제로 인해 연구에서 사용되는 데이터셋을 사용할 수 없습니다. 연구 환경에서는 모델의 성능 평가를 위해 공개된 벤치마크 데이터셋을 자유롭게 사용할 수 있습니다. 이러한 데이터셋은 연구 목적의 사용을 허용하는 라이선스를 갖고 있는 경우가 많습니다.실무 환경에서는 제품 개발이나 상업적 목적을 위해 데이터셋을 사용할 때 라이선스 문제가 발생할 수 있습니다. 많은 연구용 데이터셋이 상업적 사용을 금지하거나 제한하는 라이선스를 갖고 있기 때문입니다.따라서 실무에서는 다음과 같은 대응이 필요합니다:자체 데이터 수집: 라이선스 문제가 없는 자체적인 데이터셋을 구축합니다.라이선스 확인: 사용하려는 데이터셋의 라이선스를 검토하여 상업적 사용이 가능한지 확인합니다.대체 데이터셋 사용: 필요한 경우, 상업.. AI 개발자 트렌드, 실무에서 중요한 점, 딥러닝 모델 발전과정 1. 딥러닝 모델의 발전과 경량화RNN의 한계와 발전RNN의 문제점: 과거 정보를 잘 기억하지 못함.LSTM의 등장: RNN의 한계를 극복하지만 모델이 무거움.GRU의 개발: LSTM보다 경량화된 모델로 성능 유지.트랜스포머와 LLM의 시대트랜스포머 논문(2017): 구글에서 번역에 초점을 맞춰 발표.GPT로의 발전: 트랜스포머 구조가 GPT 모델로 발전.LLM 시대의 도래: 대규모 언어 모델이 AI 트렌드를 주도.2. 이미지와 영상 처리의 진화이미지 처리 모델MLP-CNN의 발전: LeNet, ResNet부터 ViT(2020~)까지 발전.경량화의 필요성: 복잡한 모델보다 속도가 중요한 경우 경량화된 CNN 사용.ResNet 활용: CNN으로 검증 후 ResNet을 적용.영상 처리 모델시간적 정보의 포함.. 딥러닝에서 텐서플로우, 파이토치가 왜 유명할까? 딥러닝 텐서 프로우, 파이토치가 왜 유명할까?전문가 소스코드를 사용할 수 있기 때문에 www.tensorflow.org TensorFlow모두를 위한 엔드 투 엔드 오픈소스 머신러닝 플랫폼입니다. 도구, 라이브러리, 커뮤니티 리소스로 구성된 TensorFlow의 유연한 생태계를 만나 보세요.www.tensorflow.orghttps://ai.google/tools/ 힌턴이 제안한 모델로서 비지도 학습에 활용되며, 입력에 대한 확률 분포를 학습할 수 있는 신경망은 무엇인가?제한적 볼쯔만머신 신경망 ==== 텐서플로우보다 다소 파이토치가 코드 가 쉬움. 그러나 텐서플로우보다 많이 사용하진 않아서, 예제 코드가 없는 편 아래는 파이토치 취신 정보 사이트 및 설치 방법 https://pytorch.org/ 데이터분석에서 선형대수,미적분,통계가 왜 필요한가? 통계는 기본적인 개념을 이해해야 데이터 수집, 탐색적 데이터 분석(EDA), 모델 평가 등에 사용할 수 있다고 생각했지만, 선형대수와 미적분 개념까지 알아야 하나 싶었어요.ㅋㅋㅋ 저는 결과 위주로 접근해서, 선형대수와 미적분을 몰라도 파이토치나 텐서플로우 프레임워크로 어떤 상황에서 사용하는지 알고 코드로 구현하면 된다고 생각했어요. 코드가 알아서 계산해주는데, 어땔때 쓰면 되는것을 정확히 아는것이 중요한게 아닌가? 딥러닝에서 모델의 최적화? 중요하지만 코드로 어떨때 보통 쓰인다를 외우면 코드가 알아서 계산해 주지 않는가?미적분은 성능이 좋아지는지 왜 좋아지는지에 대해서 주안점 두면 될듯해요 선형대수 는 차원축소할 때 쓰이는것..등등 그러나 딥러닝이나 복잡한 모델을 깊이 이해하고 논문을 읽으려면 알야.. 스텍(웹크라우저 뒤로가기 버튼), 큐(프런터 대기열),덱(텍스트 편집기 양쪽) . 스택 (Stack): 웹브라우저 뒤로가기 버튼비유: 책 쌓기특징: 가장 마지막에 넣은 데이터를 가장 먼저 빼낼 수 있는 구조야. 마치 책을 쌓아 올릴 때 가장 위에 놓인 책을 먼저 빼는 것과 같아.활용 예시:웹 브라우저의 뒤로 가기 버튼: 방문한 웹 페이지를 스택에 저장해 놓고, 뒤로 가기 버튼을 누르면 스택의 가장 위에 있는 페이지를 꺼내 보여주는 거야.함수 호출: 함수를 호출할 때마다 호출된 함수의 정보를 스택에 저장해 놓고, 함수가 끝나면 스택에서 정보를 꺼내 이전 함수로 돌아가는 방식으로 프로그램이 실행돼.2. 큐 (Queue): 프린터 작업 대기열 비유: 줄 서기특징: 가장 먼저 넣은 데이터를 가장 먼저 빼낼 수 있는 구조야. 마치 줄을 설 때 가장 먼저 온 사람이 가장 먼저 나가는 것과 같.. 이전 1 2 다음