공부기록

대출 데이터 분석에 따른 경향과 인프라 환경의 변화

ho.chacha 2023. 12. 11. 17:06

교내 수업의 기말 프로젝트가 데이터 분석 후 발표하는 것이었기에, 데이터 임의 해석을 하던 중 흥미로운 경향성을 몇 가지 발견했었다.

해당 프로젝트는 개발 공부를 하는 초심자들이 적절하게 어떤 것을 공부해야 하는가? 어떤 방향으로 공부해야 하는가를 쉽게 알려주는 AI가 있으면 좋겠다는 취지로, 대출 데이터를 기반으로 어떻게 공부하는지, 추세를 알려주면 좋을 것 같다고 생각하였다.

기반 데이터 정보

정보 제공자 : https://www.data4library.kr/userThemaCall

- 추출한 데이터 기간 : (2018.01 ~ 2023.11)

- 한 파일에 1개월 데이터가 포함됨

- 성별 : 전체 - 연령 : (청소년, 20대, 30대)

- 지역 : 전체

- 도서구분 : 전체

- ISBN 부가기호 : 전문

- 주제 : 총류

— 세부 주제 : 총류

- 결과 건수 : 1000건

 

해당 데이터에서 KDC 001에 해당하는 서적을 제거하고 나서, 데이터를 살펴보면 다음과 같이 개발 서적에 해당하지 않는 책을 발견할 수 있었다.

16 (직장인을 위한) 실무 엑셀 :실전! 비즈니스 엑셀 완전 정복 XXX 지음 XX 2016
17 (파워포인트 전문가 XXXX) SNS 콘텐츠 만들기 :with 파워포인트 윤상림 지음 XXXXX 2018
18 Why? 3D 프린팅 글: XXX ;만화: XXX XXX 2017
45 (XXX XX의) 유튜브 동영상 편집 :초보자도 쉽게! 유튜버를 위한 프리미어 프로 필수 기능과 활용법 25가지 XXX 지음 XXXXX 2018

 

따라서, 해당 데이터들을 제거하기 위해서 키워드 위주로 필터링 후, 누적 대출량을 집계한 결과 다음과 같은 도표를 얻을 수 있었다.

연도-월 별 대출 건수

해당 히트맵에서 발견할 수 있었던 사실로, 다음과 같다.

  • 통상적으로 1월과 7월에 대출 건수가 급격하게 증가하는 것을 알 수 있다.
    • 이는 20대 대학생들의 학사 일정에 따라, 방학 기간에 들어서 새로 공부를 하기 위해 개발 서적을 찾는다는 점이 해당 시기에 급격한 대출 건 수 증가의 근거가 될 수 있다.
  • 2020년도 급격하게 대출 건수가 낮아지는 케이스가 있는데, 해당 케이스는 코로나19감염병에 따른 사회적 거리두기 정책으로 도서관의 이용률이 낮아진 케이스이다.
  • 전체적으로, 코로나19 이후로 도서 대출 건수가 낮아지고 있다.
    • 주장) 이에 대한 근거는, 개발자들이 인터넷을 참고하거나, 전자책을 구매하는 수요가 증가하였기 때문이다. (추가 조사 필요)

이에, Jetbrain에서 제공한 설문(2023년)을 인용하면, 비디오와 텍스트의 전체적 비율은 50/50에 가까웠고, 연령이 높아질 수록 서면 데이터를 기반으로 컴퓨터 과학을 연구하였다는 것을 토대로, 현재 젊은층이 책 보다 점점, 비디오 및 시각 영상 자료를 많이 참고하고 있다는 것을 추론할 수 있었다.

키워드 기반 데이터 분석

여기서 본격적으로 인프라 환경에 대한 키워드만 들여다 보자면, 도커, 쿠버네티스, AWS의 경우 급격한 대출 횟수 상승을, 클라우드의 경우는 꾸준한 대출이 발생하는 것을 발견할 수 있었다. 하지만 그에 반하여 데브옵스라는 키워드는 정반대의 상황을 보여주고 있었다.

 

이에 내가 내린 결론은 바로 인프라 엔지니어링의 변화가 클라우드 환경 관리 툴인 도커, 쿠버네티스 및 AWS와 같은 키워드에 웃어주고 있었다는 것이다. 

 

기존 온프레미스 환경에서, 프로비저닝 솔루션을 제공하는 기업이 증가하였고, 18년도부터 23년도까지 꾸준한 클라우드 키워드가 포함된 책의 대출이 발생하였다. 또한, 컨테이너 기반 인프라 환경 구축하는 방법이 주목받으면서, 이에 따른 도커와 쿠버네티스와 관련된 서적이 대출 건수가 증가한 것을 볼 수 있다. 최근에는 MSA 아키텍처, 아주 작은 서비스 단위로 서버를 구성하는 마이크로 서비스를 도입하는 경우가 많아졌다. 

이러한 마이크로서비스 환경을 구성하고 관리할 수 있는 도커와 쿠버네티스가 인기가 많아진 것으로 보인다. 

하지만, 데브옵스의 상황이 정반대인 것에 대해서는 몇 가지 의문점이 남아있다.

 

내가 내린 가정은 다음과 같다.

- 당장 검색어만 따지더라도 데브옵스에 대해서는 비관적인 연관 검색어가 존재한다. 현재 개발 업계 측에서는 데브옵스에 대해서 비관적인 시선을 가지고 있는 것이 아닌가?

- 여타 다른 프론트/백엔드 개발자보다, 시스템에 대해서 높은 이해도가 요구되기 때문에, 부트캠프와 같은 곳에서 데브옵스에 대한 인력이 적게 양성되고, 그에 따라서 데브옵스에 대해서 인기가 적게 형성된 것이 아닐까?

- 클라우드 환경 도입과 인프라 변화가 데브옵스에 미친 영향이 무엇일까?

 

확실한 것은 현재까지 단순 키워드 추출을 통해서 얻을 수 있는 1차적인 정보만으로는 자세한 정보를 얻기에 어렵다는 것이다. 추가적으로 데브옵스 직군에 대해서 조사를 해야할 것 같다.

 

프로젝트 링크

https://github.com/HOchacha/AI_application_in_specific_major_Final_project?tab=readme-ov-file