웹서비스 이야기/뻘소리들

브레인스토밍 #1. 다음동영상, 카페검색

MIRiyA☆ 2006. 12. 20. 05:19
다음동영상의 경우 새벽을 틈타 기습적으로 야동을 올리는 경우가 종종 있음.

동영상을 올리는 과정에서 썸네일을 6장 고르는 화면이 나오는데,

그 과정에서 얻은 썸네일을 판독, 일정 부분 이상의 살색이 포함되면 야동으로 인식하고 차단.

형태 인식도 아니고 색 평균 인식인데 얼굴 인식하는 올라로그나 리야보다는 쉽지 않을까?

각 픽셀별로 RGB 샘플링하지 않고 10x10 이라던가.. 뭉뚱그려 평균내어 샘플링.

필터링 효과를 보아 더 강하게 올리고싶으면 4x4로 올리면 되겠지.

해당 색 오차가 플러스마이너스 20 이내에 수렴하고,

그 색들이 일정 군락을 이루고있으면(고로 사람 형상을 하고있으면) 야동으로 인식.


문제점? 기술적인 문제는 그렇다 치고 아기 동영상 등은 난감.

애들 벗겨놓고 찍은 동영상이 한둘인감.



그다음, 다음 검색에서 카페 순위 어뷰징 문제.

최강희로 검색했을 때 파리의 연인 카페가 나오기도 하고, 캐나다로 검색했는데 필리핀 어학연수 카페가 나오는 문제도 있다.

정확성 검색에 문제가 있다는건데, 해당 사례에 달린 리플에 보면..

키워드를 악용하는 사례는..문제가 많으나 시간과 인력이 많이 필요한 부분 같습니다.
다음에 속한 카페가 적은 것도 아니고 625만여개라 들었는데, 해당 카페에 속한 키워드와 분류, 카페가 관련있는지는.. 오직 사용하는 사용자밖에 모릅니다.
시스템상으로 일일이 다 확인하는데에도 많은 어려움이있고, 어쩌면 불가능일지도 모르겠습니다. 분류와 키워드는 검사한다쳐도.. 해당 카페가 정말 그런식으로 운영되는지는 해당 게시물에 포함된 내용까지도 모두 검사해야되며, 게시물도 스팸처럼 해당 키워드로 도배하면 사람이 아닌이상 구분한다는 것은 현재로써는 불가능해보입니다. 불편해도 개선전까지는 카페지기들이 신고하는 방향이 될 것같습니다.
저위의 카페는 최신글은 적지만, 가입 회원수와 활동회원수가 압도적/2배이상으로 차이나고, 꼭 회원만으로 랭킹을 산정하는게 아니기에..

비회원/손님(방문자)와 다른 부분에서 랭킹에 영향을 미치는 것 같습니다.
키워드가 있다고 포함되는 부분은 꼭 수정되어야할 부분이지만, 랭킹 부분은 제 추측이지만..
어느정도 가능할 것 같습니다.

보이지 않아서 그렇지 해결 방법은 분명히 있다.

인력으로 일일히 대조하고 검사하는것 이외에도 다음 검색의 능력중 해당 키워드가 포함된 게시글을 샘플링 하는게 '정보글이 많은 카페'라는 이름으로 존재하걸로 알고있다.

살짝만 생각해서 서로 걸쳐주면 정확도를 크게 높일 수 있을것 같은데..

카페에 들어있는 키워드 별 게시글을 각각 샘플링하고 해당 키워드에 대한 게시글이 카페의 전체 게시글 중 일정 비율 이상을 점유하지 못한다면 키워드 어뷰징으로 간주하고 목록에서 빼버릴 수 있을것 같음.

다시 풀어 말해, 카페마다 10개씩 설정 가능한 키워드가 있지 않은가?

이 키워드 10개 중 하나를 다음 검색에 입력하면 해당 키워드가 포함된 카페 갯수가 쭈욱 나온다.

이걸 이용해 10개 키워드를 다 샘플링해서 숫자를 추출한 후, 해당 카페의 전체글 수와 대조하여 샘플링한 숫자가 일정 비율을 점유하지 못하면 키워드 어뷰징으로 간주.

고로 걸어놓은 키워드와 카페가 별 상관 없다고 인식하고 아예 빼버리는 것이다.
(ㅎㅎ 써놓고보니 폭소노미와도 관련이 있는건가? 블로그의 태그랑도 어느정도 비슷.)

헌데.. 검색이 보통 복잡한것도 아니고..

필자처럼 미적분 빵꾸낸 사람이 근접도 못할만한 빡쎈 수학적 공식, 고려 요소가 포함되어있을것이다.

언제나 아이디어는 많은데 구현을 못해서 그렇지...