Hadoop/Nutch

Nutch Content 크기 제한

조규현15 2015. 1. 13. 09:52
반응형

Nutch에서 수집을 하는 대상(웹 페이지)의 크기가 크면 Segment에서 dump옵션으로

Content를 확인 할 때 밑 부분이 짤리는 현상이 발생한다.


이 문제는 간단히 nutch/conf 내 nutch-default.xml에서 확인 할 수 있다.


대략 file.size ~에서 value 값이 default로 64330로 되어있다면 file로 저장하는 웹 페이지의 크기가 64300byte로 제한이 된다.

또한 content.size ~에서 value 값이 file 크기와 똑같은데 이것 역시 웹 페이지에서 받아오는 content의 크기를 제한한다.


상황에 맞춰 크기를 바꿔주면 된다

> 만약 64330byte 이상의 웹 페이지를 수집한다면 실제 내용과 수집된 내용의 크기가 다르다(header에 정의된 size와 실제 content의 size를 비교)

그렇다면 내용상 누락이 되므로 parse 단계를 skip하게 된다.


크기에 제한이 없다면 value를  -1로 하면 무제한이 된다.


반응형

'Hadoop > Nutch' 카테고리의 다른 글

완전분산 Nutch Test에서 발생한 문제 해결방법  (0) 2015.01.09