AI, DataScience
-
[PyTorch] PyTorch를 공부하는 이유AI, DataScience 2022. 2. 16. 10:00
케라스는 너무 편하다. 아래와 같이 대충 만들어도 대충 잘 돌아간다 그런데 현업에서는 PyTorch를 많이 쓴다고 한다. 대학원에 잡혀있는 동기도 keras 왜 쓰냐고하더라. # Keras_tuner 코드 def model_builder(hp): model = Sequential() hp_units = hp.Int('units', min_value = 4, max_value = EPOCH, step = 4) hp_dropout = hp.Float('dropout', min_value=0.0, max_value=0.5, default=0.05, step=0.05) model.add(Dense(units = hp_units, activation='relu')) # input_shape = 63 model.a..
-
[딥러닝] TensorFlow, Keras, PyTorch 특징 비교, 장단점AI, DataScience 2022. 2. 15. 10:00
TensorFlow 다양한 언어 지원, 오픈소스 API: High and Low Level 속도: 느림 사용성: 불편 Keras 파이썬, 오픈소스 TensorFlow와 함께 실행가능 가장 널리 사용 보통 간단한 것은 Keras로 구현 복잡한 부분은 TensorFlow를 이용할 수 있음 API: High Level 속도: 느림 사용성: 매우 편함 PyTorch 파이썬, 오픈소스 디버깅 가능 현업에서 인기 점점 상승 API: Low Level 속도: 빠름 사용성: 불편 결론 Keras 빠르게 결과물을 보고 싶을 때 데이터셋이 작을 때 PyTorch 본격적으로 쓰고 싶을 때 고성능, 로우레벨API 디버깅이 가능함! 데이터셋이 클 때 TensorFlow 고성능이 필요할 때 데이터셋이 클 때 출처: https:/..
-
[NumPy] np.where()으로 조건에 맞게 0 / 1 정하기AI, DataScience 2022. 2. 9. 10:00
어떤 사람이 당뇨병인지 아닌지 판단하는 방법은 다음과 같다. 인슐린 약을 섭취하는가 공복 혈당이 126mg/dl 이상일 때 식사 후 2시간 후 혈당이 200mg/dl 이상일 때 당화 헤모글로빈이 6.5% 이상일 때 위 4가지 조건 중 하나 이상 만족하면 당뇨병이라고 판단한다 필자는 이를 알기 위해 엑셀 함수(IF, OR 등)를 이용하려고 했으나... 조건도 복잡하고 데이터가 많고 느려서 다른 방법을 찾았다. np.where()는 numpy.where(condition,[x,y]) 이러한 형태로 쓸 수 있다. 각각의 입력에서 condition이 참이면 x, 거짓이면 y를 반환한다. 이를 이용하여 당뇨병인지 아닌지를 판단하여 변수를 부여할 수 있다. dependent['DIABETES'] = np.where..
-
-
[Pandas] 데이터를 그룹으로 나누어 각 그룹 별 평균으로 결측값 대치하기 (성별과 나이 별로 키, 몸무게 평균값 대치)AI, DataScience 2022. 1. 24. 10:00
개요 오늘은 Python, Pandas를 이용한 데이터 전처리를 해보겠습니다. 데이터 전처리는 딥러닝 모델의 정확도를 높이기 위해 꼭 거쳐야하는 과정입니다. 키와 몸무게 데이터입니다. 한눈에 봐도 결측값이 매우 많지요? DataFrame.info를 이용하여 칼럼의 정보를 봤더니 9704개 중 3597개, 5810개만 유효하군요. 이러한 데이터로 모델을 학습하면 매우 형편없는 결과가 나올 것입니다. 그러면 어떻게 해야할까요? Scikit-learn의 SimpleImputer를 불러와서 사용해도 됩니다 https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html from sklearn.impute import Simpl..
-
[Colab] Mountpoint must not already contain files 에러 해결AI, DataScience 2022. 1. 5. 10:00
어느 날 colab을 열어보니, "drive.mount('/content/drive/')"에서 "Mountpoint must not already contain files" 에러가 났다. 분명 어제까지는 사용했었는데..? https://pretagteam.com/question/google-colabvalueerror-mountpoint-must-be-in-a-directory-that-exists https://pretagteam.com/question/google-colabvalueerror-mountpoint-must-be-in-a-directory-that-exists pretagteam.com drive.mount('/content/drive') drive.mount('content/drive'..