【トップページへ飛んでみる…】
検索エンジンネタ。 /update:2004/03/22
完成予定日:全然全く未定。
というか、作る予定すら立ってない…
はじめに。
これは検索エンジンに使えるかどうか解らないネタのメモ書きです。
それ以上の意味もないし、それ以下の意味もないです。
#たまに関係ないことも書くかもね…
日付確認のため、追記のみ。書き換えなし。
date:2003/04/14
ねた1案。
- google的ページランク(1次元的評価技術)はやっぱり必要かも。
- ある特定のページをあらかじめ指定しておき(「ホーム」ページ、自作でも他作でも可)、そのページにあるコンテンツに近いモノを優先的に表示。
- 相互リンクサイトについては、各リング毎に「リング評価」を決めて、そこからの差分で評価をする。(疑似リングサイトとして扱う)
- リンク文字列やその前後の文字列に、肯定的な表記がある場合は評価を上げる。否定的な表記がある場合には評価を下げる。何も書かれていない場合には評価をいじらない。(日本語IME的発想)
- リンク切れの多いページは信用しない(そのページへ飛ぶ意味が少なくなるため)。
- 結果ページからの被クリック数については、1月ごとのユニークアドレス数で数える。(…この辺はどこも似たようなモノかもね)
- あるページから張られたリンクは、そのページを作った人にとって何らかの関連性を持つ可能性が非常に高い。そのため、ページからリンクされたページ同士の関係(結びつきの強さ)を+1とする。また、被リンクページが同類のページをさらに指定していた場合には評価を変えず、全く異なるリンクを行っていた場合にはリンク元との関係を−1とする。(※実際に統計を取ると非現実的な量のデータが必要になる可能性があるので、この手法はちょっと考え物かも)
date:2003/04/14
ねた2案。
- すべての評価をいくつかのカテゴリに分けて、「優先表示する・表示から排除する」や重み付けの順序変更(シーソーバランス)をユーザーが行えるようにする(クッキーなどを使った簡易ログイン方式を使う)。
- コマーシャルシーソー「オリジナルサイト優先(デフォルト)・ディストリビュータサイト優先・ウエブログサイト優先・レビューサイト優先・被バッドコメントサイト優先」
- コマーシャルシーソー「連鎖商業サイトをはじく(デフォルト)・商業サイトをはじく・商業サイトを優先」
- バッドコメントスイッチ「被バッドコメントが多いサイトをはじく(デフォルト)・被バッドコメントサイトも表示」
- 間に合わせ的な手動バッドサイトリストを作らない。
- ユーザーが手動でサイトを評価できるようにする。ただし「同一サイトへの一定時間内多数者評価」および「同一サイトへの定期的反復評価」は恣意的なノイズとして無視(評価者の評価点を落とすことで対応)。
- <a>要素中の表示部文字についても、前後文字とともに評価の対象とする。ただし該当コメントや文全体が単純なコピーと思われるリンクについては、すべて恣意的なノイズとして無視(サイトの評価点を落とすことで対応)。
- サイトの類似性を計る指標を作る。コピーサイト・ミラーサイトはマイナス(オリジナル側をプラス)、類似テーマのサイトは「テーマ」としてまとめて表示、一階層下げて再表示。
- 検索表示後、再検索までに掛かった時間を監視、時間が短かったモノほど評価を下げる(注:かなり常識的な手法なので、まぁどこでもやってるだろうけど…)。ただし時間が長かった場合であっても評価は上げない。
- 更新頻度表 日-1-2-4-8-16-364-128-256
- リンクに使われた文字要素をキーに。
- 英語的(言語的)リンク修飾解析→多くのサイトで悪評価ならランクは上げるがバッドマーク付ける。
date:2003/04/18
ファイル共有サービスねた。
ファイル共有サービスにおいて、いかにファイル名がアテにならないかを実感。
ファイルサイズと128bit-CRCを元に実身を特定(つまり共有時のファイル名はすべてシステム側でファイルサイズ+CRCの名前を付ける)して、ユーザーが「勝手に」付けたファイル名は全部エイリアス扱いにした方がいいと思うんですけどねぇ。
転送時のファイル名を内部的に↑に固定しておけば、異名同内容ファイルの重複も自動的になくなる&転送負荷分散も可能だと思うんだけどなぁ…
実際に尻切れが発生した場合には、ファイル名を内部名ままにしておけば再送手順も簡略化できるし…。
どうも世の中、「そこにファイルがあるから名前を付けるんだ!」的な概念が多すぎてイヤ。たまには
singler 重複ファイル削除ツール の様なツールを参考にしてみた方が良い気が。
date:2003/05/06
ファイル共有サービスねた2。
Winnyとゆーファイル共有ツールが「MD5」を利用した同一性検査手法を取り入れている模様。CRCよりは遙かに確からしい。
やっぱ頭の回転が速い人っつーのは凄いな…と思ったよ、マジで。
ついでに既出ネタで。
- ファイル数が多くなりすぎた場合にはエイリアスファイル名による管理ではかえって煩わしい場合もある。
→ディレクトリ(フォルダ)/カテゴリの概念がいつかは必要になる。ついでにリソース情報(ジャンルタグ)も。
- 各サーバントの構造が「主に巡回/手動ダウンロード、ついでにキャッシュ」という概念にとらわれすぎている。
→ある特定のカテゴリのみを収集する「停滞サーバント(長い間固定的に指示されたキーワードやジャンルの場合)」と、それらにアクセスして過渡的・部分的にデータを収集する「浮気サーバント(頻繁にキーワードやジャンルを変えている場合)」とに分け、2状態のバランスを各サーバント毎に設定しておく。それぞれの状態において、それぞれが必要としていそうなデータを提示したり、それぞれが拒否しそうなデータをあらかじめ警告する仕掛けが必要…って書いててさっぱり訳解らないな(苦笑)。
- ファイル検索手法があくまでもファイル名基本で、類似ファイルの関連性情報は「ファイル構成が似ている人の物まね」にすぎない。
→ファイル関連性情報(制作者/ファイル形式/ジャンルなど)をファイルキャッシュに付加
- ファイルの信頼性情報が「単一的な警告」か「可読テキストファイルを使った人的伝達」に限られている
→サーバントや送信者/転送者/受信者にIDを付与できない場合、手元にあるすべてのキャッシュの関連性情報を元にIDを生成するのがもっとも簡単かつ合理的。当然キャッシュ内容が大きく異なればIDも大きく狂うが、基本的に1サーバント毎に1IDを割り振る事ができる。この場合、「ある特定の傾向のファイルを収集する人にとっての、ある特定のファイルに対する評価」を収集する事になるので、人によって違う好みの問題を上手く利用して、一つのファイルに異なる評価をほぼ自動的に付与する事ができる。
- 極端にホップ数が多いサーバントのやりとりが発生してしまう
→なるべくホップ数の少ないサーバントと優先してネゴジェーションするよう調整する。また、類似傾向のキャッシュを持つサーバーが間にある場合は、一度そこにキャッシュしてから再転送する。2台以上のキャッシュサーバントを挟む場合は、なるべく起動時間が長くキャッシュ領域の大きなサーバントを選択する。
- いわゆる「捏造警報」が単独ファイルで存在していて役に立っていない
→単独ファイルではなく別途警報用のファイル…たとえば各ファイルのフルネーム後に「.faked」を付けたテキストファイルを用意するなどし、転送時には通常ファイルキャッシュとともにセットで転送する。各サーバントではこのデータを受信したらファイルとしてではなくシステム側に取り込み、ファイルを選択したときにポップアップなどで内容を表示する。コメントは警報フラグ16個程度とショートコメント(80bytes)に限定する。
date:2003/06/06 +2003/06/09
ねた3案。
- 2つ以上のサイト(URI/title)を指定して、それらに関係するURIを探す。
date:2004/03/07
URIをキーに使ったbbs。
- たぶんどこかでビジネス特許をとっていた気が。
- ブラウザの「検索」や「履歴」のように似非フレーム表示にして、機能的にはID付き1行掲示板…くらいのシンプルさが理想。
- 対象となる各URIは基本的にはすべてだが、各URIに「bbs制御タグ」を付けることで、コンテンツを作る側が「bbs上乗せ禁止」や「コメントの消滅時間」などを指定できるようにする。
- そのページへのコメント数が表示できるカウンタを、コンテンツがあるページでのみ表示できるようにする。
- 動的に生成されるページには適用しない。
date:2004/03/22
このページに関するコメント(歓迎、罵倒、疑問、質問、感想、その他もろもろ)は、メールか電子掲示板にお寄せ下さい。
トップページへ戻る場合はこちらから。