본문 바로가기

Data Base/NoSQL

(3)
Elasticsearch 퍼포먼스 튜닝 방법 - 인덱스 디자인 측면에서 Elasticsearch 퍼포먼스 튜닝 방법Apach 루씬을 기반으로 한 검색, 분선엔진인 Elasticsearch는 데이터를 실시간에 가깝게 보여주고 분석해준다. Real-Time 형태의 분석과 검색을 위해 퍼포먼스를 튜닝하려면, 많은 처리량, 낮은 검색 지연시간을 요구한다. 효율적인 인덱스 디자인1. 인덱스를 설계할 때하나의 인덱스에 모든 데이터를 넣고 쿼리로 찾을 것인지여러 인덱스로 나눌 것인지쿼리에 filter가 들어가고 그 값이 Enumerable 할 때는 인덱스를 나눠서 설계해야 한다. 기간이 정해져 있는 데이터의 경우, 기간별로 인덱스를 구성하여 사용하면 좋다. 일, 주, 월별 데이터를 모을 수 있기 때문에 날짜별로 데이터를 모으면 더 빠르게 데이터에 접근할 수 있다.  2. ID 부여할 때..
Elasticsearch 기본 엘라스틱 서치란엘라스틱 서치는 NoSQL 기반의 문서 지향 데이터베이스로 RDBMS와 같은 방법론으로 설계하는 것은 옳지 않다. 엘라스틱 서치에서는 기존에 알려진 방식으로 데이터 모델링을 할 수 없다. 엘라스틱 서치의 데이터 모델링은 데이터의 유형, 검색 조건, 집계·시각화 여부 등에 따라 적절한 데이터 모델링 방법을 선택하여 적용해야 한다. NoSQL (No Structured Query Language)분산 처리를 통해 빠른 검색 가능HTTP를 통해 JSON형식의 Restful API 이용RDBMS에서 LIKE 검색할 때와 달리 검색어의 대소문자에 유연비정형 데이터도 검색 가능분석 통계 유용전문 검색(Full-text Search; 내용 전체를 색인해서 특정 단어가 포함된 문서를 검색) 가능멀티테넌시..
하둡 에코 시스템의 기본 하둡의 코어 프로젝트(Framework)는 HDFS, MapReduce이지만 그 외에도 다양한 서브 프로젝트들이 많다. 하둡 에코 시스템은 그 Framework를 이루고 있는 다양한 서브 프로젝트들의 모임이다. 하둡 코어 프로젝트: HDFS(분산데이터 저장), MapReduce(분산처리)하둡 서브 프로젝트: 나머지 프로젝트들 -> 데이터 마이닝, 수집, 분석 등을 수행  Hadoop Framework 종류Zookeeper (분산 코디네이터)분산 환경에서 서버들간의 상호 조정이 필요한 다양한 서비스 제공하나의 서버에서 처리하 결과를 다른 서버들과도 동기화 -> 데이터 안정성 보장!운영(active) 서버에서 문제가 발생하여 서비스 제공할 수 없는 경우 -> 다른 대기중인 서버를 운영 서버로 바꿔 서비스 중..