Top Memo - データ最終更新日 2014-07-20 00:00:57 / データ件数 35587

※データ信頼性の観点や一元化を目的とし、暫くしたらこのページは閉鎖します

○これは何?
某所のデータを取得、パスして集計するページ


○memo
・日付によるフィルタが困難(コメントページの日付フォーマットが何故かバラバラ)
→多重登録防止策は現在、日付が"ある筈"の要素をstrpos('201')でチェックして通ればmd5。
→→[15:30]$s=strpos('201');$e=strpos(':',$s)+6;

・フォーマットが違うデータはどうしても手動での修正が必要

・コメントを削除して統計してあるデータの反映方法をどうするか?
→加算用のテーブルを用意 or 古いデータは不要と見て何もしない

・wikiの報告フォーマットは2個ある。「Lv/タイプ/出現した艦娘名」か「燃料/弾薬/鋼材/ボーキサイト/Lv/出現した艦娘名」である
前者はレシピの数値が分からないので、監視URLリストにパラメータとして現在持たせているが
同一ページ名のままレシピが変わるなどのイレギュラー措置が取られた場合は一気にデータが崩壊する危険性がある

・報告フォーマットが違うデータもそのままパースするので変なデータが現在含まれる。
フォーマットにそぐわない例「Lv4/駆逐艦/暁、響」「Lv8/駆逐艦/雷(*任意のコメント)」

・更新に20秒近くかかるのが難点。監視URLを1つ見る毎に1秒waitをかけてるとは言え、監視対象は現在13個なので7秒は掛かっている。


○update info
・2013-07-25
cron間隔を延長(4h→6h)。
1ページごとのwaitを延長。(cronは180s以内に終われば良い)
取得先url変更(またドメイン変わった)

・2013-07-09
日付パースチェック方式変更。
ソース取得先を変更
これ(主にチェック方式変更)により13:46現在、データ件数は1009→10933に
[14:02]
名前パース処理修正。CardNameが空白のデータはほぼ出ないようになった。
[15:30]
日付欄に「new」とか「new!」が混ざるために重複登録されるバグを確認。パース方法を変更して対応