どんなサイトを作っているのか
さて、何を書こうか、と考えた結果、これから何回かは今使っている技術のことを書くことにしました。
しかし、技術云々の前にまずどんなサイトを作っているのかの説明がある程度必要な気がするので、今回はその話を先にします。
作っているのは、ネットで拾ってきた画像を紹介ブログです*1。そして今のところ仕分けの都合で二次専門にしています。
エロサイトの流行りは動画か同人誌のよう*2だけど、動画は動画サイトに誘導するだけのリンク集みたいなものなので面白くなさそうだし、同人誌は扱いがグレーというよりアウトな気がするので、じゃあ画像かな、という選択です。
あとは画像を扱う技術、
- 画像のクロール処理
- 画像の仕分け方法
- 重複画像の検出方法
などが奥が深そうで面白そうに思えたというのが決め手ですね。
実際、今クローラーは420万ファイル、1.2TBを取得していて、1日あたり平均1.2万ファイルずつ増えています。
さすがにこの量を人力で仕分けるわけにはいかないので、裏方の処理をあれこれ考えて実装しているのですが、ここら辺がかなり楽しいので、この題材で良かったと思っています。