반응형
Nutch에서 수집을 하는 대상(웹 페이지)의 크기가 크면 Segment에서 dump옵션으로
Content를 확인 할 때 밑 부분이 짤리는 현상이 발생한다.
이 문제는 간단히 nutch/conf 내 nutch-default.xml에서 확인 할 수 있다.
대략 file.size ~에서 value 값이 default로 64330로 되어있다면 file로 저장하는 웹 페이지의 크기가 64300byte로 제한이 된다.
또한 content.size ~에서 value 값이 file 크기와 똑같은데 이것 역시 웹 페이지에서 받아오는 content의 크기를 제한한다.
상황에 맞춰 크기를 바꿔주면 된다
> 만약 64330byte 이상의 웹 페이지를 수집한다면 실제 내용과 수집된 내용의 크기가 다르다(header에 정의된 size와 실제 content의 size를 비교)
그렇다면 내용상 누락이 되므로 parse 단계를 skip하게 된다.
크기에 제한이 없다면 value를 -1로 하면 무제한이 된다.
반응형
'Hadoop > Nutch' 카테고리의 다른 글
완전분산 Nutch Test에서 발생한 문제 해결방법 (0) | 2015.01.09 |
---|