본문 바로가기

Careers

(10)
서비스 평가 지표 서비스를 평가하는 데에 지표 수립은 과거부터 지속되어 왔습니다. 그리고 이러한 데이터 기반 의사결정은 서비스 기획에 있어서 매우 중요하고, 더욱 중요해지고 있습니다.  데이터를 기반으로 의사결정을 내리면 객관적인 판단이 가능합니다. 주관적인 견해나 감각에 의존하는 것보다 객관적으로 문제를 판단할 수 있습니다. 이는 오류나 편향을 줄이고 더 신속하고 효과적인 의사결정을 할 수 있도록 도와줍니다. 또한 데이터를 통해 사용자의 이해를 할 수 있는데, 이를테면 사용자의 행동이나 선호도를 분석할 수 있습니다. 이는 사용자의 니즈를 이해하고 서비스를 그에 맞게 개선할 수 있도록 도와줍니다. 데이터를 기반으로 사용자의 요구사항을 파악하여 서비스를 개선하면 사용자 만족도를 높일 수 있습니다. 데이터를 사용하여 시장분석..
머신러닝 엔지니어가 할 수 있는 Top 6 Error (출처: medium) 1. Default Loss Function을 사용하는 것Mean-squared error는 훌륭한다. 하지만 실제 비즈니스 데이터에 이 손실 함수는 적용이 잘 되지 않는다. Fraud Detection을 예로 들자면, fraud 때문에 달러 손실을 겪는 비즈니스 문제가 대두될 수 있다. mean squared error는 이것을 괜찮다고 오판할 수 있다.실제 데이터 문제에는 Custom Loss Function을 만들어서 문제 해결에 사용하는 것이 좋을 수 있다.많은 과학자들로부터 성능이 이미 입증된 훌륭한 통계적인 도구와 도메인을 반영한 custom 도구 사이에서 갈등할 수 밖에 없을 것이다. 일일히 검증 결과를 확인하는 것은 custom 도구를 사용하게 해줄 것이다. 2. 모든 문제에 대해 1가지 ..
Data & Analytics Trends to Watch in 2022 (미디엄, 번역) 2022년은 Data & Analytics 에서 주목할 만한 해가 될 것 같다. (블로그를 이전하면서 2022년 글을 가져와서 ... 2024년에 2022년 글을 올림) 1. data stack은 니치 마켓이 되고 데이터 팀은 선택지가 너무 많아서 어려움을 겪게 됩니다.The data stack goes niche and data teams burnout on choice [safe bet]Benn Stancil은 최근 게시물에서 다음과 같은 말을 했습니다. "대신 데이터 스택의 전면은 도구의 폭발로 표현되며 모두 약간 다른 방향으로 고정됩니다. 전통적인 BI 가 있습니다 . 최신 BI 가 있습니다 . 헤드리스 BI 가 있습니다 . 오픈 소스 BI 가 있습니다 . 비트코인 기반 BI 가 있습니다. 분석용..
VSCode / Python Plot 이미지 그리기, 쉬운 개발환경 설정 최근 회사에서 신규 노트북을 지급(이전에는 LG 울트라북, 이번에는 LG Gram)받으면서, 개발환경을 새로 세팅해야 했다. 사내 시스템을 개발하는 프로젝트가 있어서 VSCode를 사용하는 것이 편해서, IDE는 하나로 통일해서 쓰고 있다(현재까지는). Python Plot 이미지를 띄워보는 방법만 만족한다면, VSCode 사용을 만족하는 편이라서 향후 나를 위해 블로그에 기록해두기로 한다(물론 주말에...) 너무 쉬운 방법이라서 길지 않게 설명하겠다. 1. VSCode Extension 에서 아래 다운로드 받기JupyterJupyter KeymapPythonIpyKernel 2. 가상환경 생성하기 3. 가상환경 activate 하고 jupyter, ipykernel 다운로드, 가상환경(여기서는 deep..
Google Colab / 온라인 머신러닝, 딥러닝 구동 환경 만들기 Google Colab웹 브라우저에서 텍스트와 프로그램 코드를 자유롭게 작성할 수 있도록 해주는 클라우드 기반의 주피터 노트북 개발 환경머신러닝의 컴퓨터 사양을 구글 코랩이 CPU와 램을 제공해주기 때문에 컴퓨터 성능과 관계 없이 실습할 수 있다는 장점이 있다. 초기화 방법구글 드라이브 > 우클릭 > 더보기 > Google Colabroatory 클릭  만일 Google Colaboratory가 보이지 않는다면, 구글 드라이브 > 우클릭 > 더보기 > 연결할 앱 더보기 > MarketPlace에서 Colab을 검색한 뒤 Install 클릭하기 이후 생성된 파일에서 구글 코랩 프로젝트를 진행가능합니다.
Gitlab / Code 형상 관리 도구 Gitlab을 구글 트렌드로 확인해보았을때, Git과 Github에 비해서는 관심도가 상대적으로 적은 것으로 보인다. 하지만 최근 코드 형상관리 도구로 Github 대신 Gitlab로 대체하는 추세라고 한다(카더라).Medium에도 gitlab에 대한 게시글들이 수년전부터 꽤 있으며, 특히 UI Testing Pipeline 구축을 할 때 필요한 도구로도 많이 언급하고들 있다Catch bugs systematically: how to build a GitLab CI testing pipeline in 4 steps https://medium.com/free-code-camp/4-steps-to-build-an-automated-testing-pipeline-with-gitlab-ci-24ccab95535..
빅 오, 자료형 빅 오(Big-O)는 알고리즘을 다루는 거의 모든 책에서 상세히 다루는 주제 중 하나다. 빅오는 입력값이 커질 때 알고리즘의 실행 시간(시간 복잡도)과 함께 공간 요구사항(공간 복잡도)이 어떻게 증가하는지를 분류하는데 사용된다.빅 오는 점근적 실행 시간를 표기할 때 가장 널리 쓰이는 수학적 표기법 중 하나다. 점근적 실행시간이란 입력값 n이 커질 때 즉 입력값이 무한대를 향할때 lim(n->무한대) 함수의 실행 시간의 추이를 의미한다. 알고리즘은 궁극적으로는 컴퓨터로 구현되므로 컴퓨터의 빠른 처리 능력을 감안하면 아무리 복잡한 알고리즘도 입력의 크기가 작으면 금방 끝나버린다. 그러므로 관심의 대상이 되는 것은 입력의 크기가 충분히 클 때다. 충분히 큰 입력에서는 알고리즘의 효율성에 따라 수행 시간이 크게..
앱 로그 분석 간단하게! 앱 로그 분석하기앱 로그는 사용자에게 가장 가까이 다가가서 사용자의 행동을 지켜볼 수 있으므로, 가장 대표성이 높은 데이터 분석 방법이다. 앱 로그를 분석할 때, 가장 먼저 접근해야 할 것은 로그 데이터가 무엇으로 구성되어 있는지이다. 앱 로그 기록은 크게 서비스 로그와 행동 로그 두 가지로 나뉠 수 있다. 서비스 로그는 어플리케이션을 운영함에 있어서 필수적으로 쌓아야 하는 로그이다. 트랜젝션의 결과를 기록하는 로그로, 하나의 트랜젝션이 완료되었을 때 서비스 로그가 남는다. 모든 변경 결과를 다 쌓을지, 아니면 최종 수정된 내용만 남길지의 고려는 필요하다.행동 로그는 사용자가 어떤 페이지 정보를 보거나, 특정 버튼을 누르거나, 스크롤을 내리는 등의 행동에 대해 관련 정보를 저장한다. 이는 데이터의 양이 ..
RAG이란, RAG 성능 강화를 위한 몇가지 방법들 (이론편) RAG 이란RAG(Retrieved Augmentation Generator)는 자연어 처리 분야에서 사용되는 모델 아키텍처입니다. RAG는 대규모 언어 모델을 기반으로 하며, 검색 및 생성을 결합하여 질문 응답 시스템에서 사용됩니다.Retrieved(검색된): 이 부분은 검색된 정보를 나타냅니다. 보통 정보 검색 시스템이나 검색 엔진을 사용하여 주어진 질문과 관련된 문서를 검색합니다.Augmentation(보강): 검색된 정보를 사용하여 생성 모델을 보강합니다. 이는 생성 모델이 훈련된 데이터 이외의 외부 정보를 활용하여 보다 정확하고 다양한 답변을 생성할 수 있도록 도와줍니다.Generator(생성기): 마지막으로, 생성기는 보강된 정보를 바탕으로 실제로 답변을 생성하는 역할을 합니다. 대규모 언어 ..
LLM을 활용한 Stream Chatbot 아키텍쳐 아키텍처의 주요 구성 요소대규모 언어 모델을 활용한 스트림 챗봇 아키텍처를 설계하는 데에는 몇 가지 요소가 있습니다. 아래는 간단한 아키텍처의 개요입니다:1. 데이터 파이프라인: 먼저, 스트림 챗봇은 대규모 언어 모델을 훈련시키기 위한 데이터를 수집하고 전처리해야 합니다. 이 데이터는 배치 타입 혹은 스트리밍 플랫폼에서 수집될 수 있으며, 텍스트 데이터의 형식으로 전처리되어야 합니다.2. 대규모 언어 모델 훈련: 전처리된 데이터를 사용하여 대규모 언어 모델을 훈련합니다. 이를 위해 GPU나 TPU와 같은 고성능 컴퓨팅 자원이 필요할 수 있습니다.3. 인퍼런스 서버 구축: 훈련된 언어 모델을 활용하여 인퍼런스 서버를 구축합니다. 이 서버는 실시간으로 사용자의 입력을 처리하고 모델에 전달하여 응답을 생성합니..