목록분류 전체보기 (32)
어쩌다데싸

코딩테스트를 공부하며 그냥 문제만 풀기도 하고 개념을 보고 공부하기도 했는데, 뭔가 따로노는 느낌이 들었다.문제만 풀다보면 막혀서 답지 보고 그 때는 이해한 것 같아 넘어갔다가 나중에 까먹을 때가 많았고,개념을 공부했을 때는 그래서 어떻게 구현하는건데? 하면서 결국 문제를 풀지 않으면 개념을 익히기 어려웠다. 그래서 적어보는 나를 위한 코딩테스트 개념 & 기본코드 간단 정리집. 기본적인 개념을 익혀보고, 기본적인 코드를 익히고, 관련 문제를 정리해본다. 목차 1. 그래프 (Graph) 개념그래프는 실제 세계의 현상이나 사물을 정점(Vertext, 또는 노드(Node))과 간선(Edge)로 표현하기 위해 사용된다. 1.1 관련 용어- 노드 (Node) : 위치를 의미. 정점(Vertex)라고도 함- 간..

목차 지금까지 해왔던 분야인 추천 시스템과 LLM 중 앞으로는 추천 시스템에 집중하고 싶어 블로그 초창기에 작성했던 추천 시스템 관련 글을 다시 정리해보려 한다.본격적인 글 작성에 앞서, 왜 추천 시스템을 선택했는지를 고민해봤다. AI 시장에는 다양한 도메인과 기술이 존재하지만, 모든 분야의 전문가가 되기는 어렵다. 그래서 적어도 오랫동안 지속할 수 있는 특화 분야를 정해야겠다는 생각이 들었다. SI 회사의 특성상 프로젝트마다 도메인과 기술이 다르지만, 다행히도 투입된 프로젝트마다 '추천 시스템'이라는 공통점이 있었다.일 때문에 흥미를 갖기 시작했지만, 개인적으로도 전공인 경영학과 관련이 있으면서 현재에도, 미래에도 반드시 필요할 것 같은 분야가 추천 시스템이라 생각해 이를 집중적으로 공부해보려 한다. ..

벌써 글또가 시작하고 5개월이 지나갔다. 그 사이에 참 많은 일이 있었는데, 가장 큰 건 역시 퇴사.글또 9기 활동이 시작하던 23년 12월부터, 예전부터 막연하게 꿈꿔오던 퇴사를 진지하게 고민하기 시작하면서 많이 바빴고, 또 많이 아팠다. 고민거리가 생기면 다른 일에 소홀해지는 성격에 한동안은 글또 활동을 열심히 하지 못해 아쉬웠었는데, 퇴사를 확정하고부터는 참여할 수 있는 행사는 다 참여하며 아쉬움을 달랬다. 개인적으로 많은 생각할 거리를 주었던 글또 9기의 마지막 글은 퇴사 배경과 글또 후기, 그리고 앞으로의 나에 대해 적어보고자 한다. 1. 어쩌다 퇴사?퇴사를 고민하기 시작한 건, 일단 회사가 많이 흔들리면서 이곳에서의 미래가 불안해졌기 때문이다. 동기부여가 될 외부 조건이 상당수 사라졌고, 12..

지난 글에 이어 글또 활동에서 무료 수강 기회가 생긴 'Apache Spark와 Python으로 빅데이터 다루기' 강의 후기를 작성해보려 합니다. 1. 강의 수강 배경 & 사전 지식 많은 데이터 관련 공고에서 빅데이터 처리 경험과 스파크 이용 경험을 묻는 것을 보면서, Spark에 대한 이해는 마음에 숙제처럼 남아 있었습니다. 수강 가능 기한이 정해진 이번 기회를 통해 미루지 말고 들어보고자 해당 강의를 신청했습니다. 솔직히 다른 강의 사이트에서도 내돈내산으로 약 115시간짜리 빅데이터 처리 관련 강의를 구매했는데, 당장 일하는데 필요하지도 않고 시간도 워낙 길다보니 들을 엄두가 안 났습니다. 'Apache Spark와 Python으로 빅데이터 다루기' 강의는 7시간 반 정도로 상대적으로 짧은 강의라 해..

활동 중인 글또에서 유데미의 강의를 수강할 수 있는 좋은 기회를 받았습니다. 여러 개의 강의에서 고민하다가 'Python 부트캠프 : 100개의 프로젝트로 Python 개발 완전 정복'과 ' Apache Spark 와 Python으로 빅 데이터 다루기' 강의를 신청했습니다. 이번 글은 두 강의 중 'Python 부트캠프 : 100개의 프로젝트로 Python 개발 완전 정복'에 대한 후기입니다. 1. 강의 소개 해당 강의는 다양한 프로젝트를 통해 파이썬 언어에 대한 이해와 기술을 향상시킵니다. 초급부터 중급, 고급 과정으로 구분되어 있고 총 100개의 섹션으로 나누어져 있어 하루에 한 섹션씩 들으면 100일 완성할 수 있는 강의입니다. 데이터 사이언스, 웹개발, 크롤링, 게임, GUI 프로그래밍 등 파이썬..

지난 한 달 간 LLM 기반 QA 서비스 공모전과 회사 프로젝트를 진행하며 Fine tuning 과 Prompt Engineering, RAG에 대해 공부하는 시간을 가졌습니다. 이번 글에서는 LLM Fine Tuning에 대한 개념과 학습데이터 구성을 통해 Fine Tuning하는 몇 가지 기법들을 알아보려 합니다. 1. Fine Tuning이란? LLM 모델은 대용량 자연어 데이터를 사용하기 때문에, 라벨링을 한 지도학습(Supervised learning)을 하긴 어렵습니다. 그래서 LLM 모델은 자기지도학습(Self-supervised Learning)을 통해 학습이 되게 됩니다. 자기지도학습은 라벨이 없는 데이터에서 스스로 input 내에서 target으로 쓰일만 한 것을 정해서 모델을 학습하는..

"SI 회사는 야근 많고 월급 짜서 절대 가면 안된대" SI 회사에 대해 이야기 할 때면 빠짐없이 나오는 이야기입니다. SI 회사에 대해 검색하면 실제로 많은 사람들, 특히 신입들이 SI회사에 가도 될까요라는 걱정 어린 질문을 하는 걸 볼 수 있습니다. 그렇다면 SI 회사는 정말 절대 가면 안되는 그런 무시무시한 곳일까요? 주니어 데이터 사이언티스트로서 3년 동안 SI 회사에 다니면서 느낀 장단점을 공유해보려 합니다. 1. SI (System Integration) 란? 지금 회사에 합격 연락을 받았을 때까지도 SI 회사가 무엇인지 몰랐습니다. 취업을 하고 한참 뒤에야 제가 지금 다니고 있는 곳이 SI 회사라는 것을 알게 되었습니다. 전세계적으로 사용되는 공식적인 용어는 'IT서비스'이지만, 국내에서 더..

LLM은 놀라운 모델이지만 한계점이 있습니다. 이번 글에서는 LLM의 답변 정확도를 높이기 위해 함께 사용되는 RAG(Retriever Augmented Generation)와 LangChain이란 프레임워크로 RAG를 구현하는 법에 대해 알아보겠습니다. 1. LLM 한계 인터넷 세계의 학습 시점 과거의 데이터를 학습해 지식을 습득하는 LLM은 실제 세계에 대한 인식이 부족하고, 학습시점 이후의 데이터는 알지 못하는 등 학습 방식에 따른 근본적인 한계가 존재합니다. 아래의 4가지는 LLM의 대표적인 한계점으로 언급되는 내용입니다. - Knowledge Cutoff : 모델 학습 이후에 생성된 데이터에 대해서는 학습이 안되어 답변을 못함 - No Access to private data : 회사 내부 기밀..