Začnime hneď s hlavným kódom skriptu:
#!/usr/bin/perl
Skript # which-forum.pl
# (c) 2010 Alexandr A Alexeev, http://site/
používať prísne;
# komentované riadky - pre presnosť
# ak je úlohou zbierať štatistiky motora, nechajte to tak
# ak vytvoríte zoznam fór - odkomentujte
moje $data ;
$data .= $_while (<>
)
;
# skontrolujte, koľko bolo Powered by phpBB bez odkazu v päte Tento a ďalšie skripty spomenuté v príspevku nájdete v tomto archíve. Skript which-forum.pl skúma kód HTML stránky, aby zistil, či obsahuje podpisy nástroja fóra. Pri definovaní WordPress a Joomla sme použili podobnú techniku, ale existuje niekoľko rozdielov. Po prvé, samotný skript nenačíta kód stránky, ale načíta ho z stdin alebo súboru odovzdaného ako argument. To vám umožní stiahnuť si stránku raz, napríklad pomocou wget, a potom ju spustiť cez niekoľko analyzátorov, ak ich máme viac. Po druhé, v tomto skripte je prítomnosť podpisu 100% znakom motora. Naposledy prítomnosť podpisu len pridala na váhe zodpovedajúcemu motoru a motor s najväčšou hmotnosťou „vyhral“. Rozhodol som sa, že v tomto prípade by takýto prístup len zbytočne skomplikoval kód. Aby som otestoval scenár, urobil som si prieskum. Zostavil som zoznam niekoľkých tisícok fór a každé z nich som spustil cez svoj skript, čím som určil percento odpovedí programu a popularitu rôznych motorov. Na získanie zoznamu fór som použil môj analyzátor Google. Vyhľadávačžiadosti ako site:forum.*.ru a tak ďalej. Úplný kód generátor dotazov nájdete v súbore gen-forumsearch-urls.pl. Okrem zone.ru sa používali aj .su, .ua, .kz a .by. Naposledy bolo ťažké vykonať takúto štúdiu, pretože stránky WordPress a Joomla takéto podpisy v adrese URL nemajú. Katalógy ako cmsmagazine.ru/catalogue/ neposkytujú dostatočnú veľkosť vzorky. Čo je 600 stránok Drupal? Musím priznať, že výsledky experimentu ma sklamali. Z 12 590 skúmaných miest bol motor úspešne identifikovaný len na 7 083, teda len v 56 % prípadov. Možno som nebral do úvahy nejaký motor? Bola naozaj pravda, že polovica fór mala nainštalovaný Bitrix? Alebo som mal stráviť viac času hľadaním podpisov? Vo všeobecnosti je tu potrebný ďalší výskum. Spomedzi 56 % úspešne identifikovaných motorov boli najpopulárnejšie, ako by sa dalo očakávať, IPB (31 %), phpBB (26,6 %) a vBulletin (26,5 %). S veľkým oneskorením ich nasledujú SMF (5,8 %) a DLEForum (5,3 %). Môj obľúbený punBB bol až na 6. mieste (1,64 %). Neodporúčam veľmi veriť týmto číslam (hovoria, že každé tretie fórum na RuNet beží na IPB), ale určité závery sa, samozrejme, dajú vyvodiť. Napríklad, ak máte v úmysle vytvoriť stránku na motore fóra a plánujete upraviť fórum, povedzme, zaplatiť používateľom 0,01 USD za každú správu s automatickým výberom prostriedkov raz týždenne, mali by ste si vybrať jeden z troch najpopulárnejších nástrojov. Čím je fórum populárnejšie, tým je väčšia šanca nájsť programátora, ktorý sa v ňom dobre vyzná. Ak sa v motore neočakávajú žiadne výrazné zmeny, môže mať zmysel vybrať si menej populárny motor, napríklad SMF alebo punBB. Tým sa zníži počet útokov hackerov na vaše fórum a množstvo automaticky odosielaného spamu. Skripty na vyhľadávanie/identifikáciu fór možno nájsť aj vo viacerých praktická aplikácia. Prvá vec, ktorá mi napadla, bolo zoradiť identifikované fóra podľa TIC a pridať na prvých sto príspevkov odkazy na jednu z mojich stránok. Avšak stovky odkazov na dofollow fóra nijako neovplyvnili TCI (prešli 2 aktualizácie), takže je lepšie nestrácať čas tu, pokiaľ vás prechody nezaujímajú. Je jasné, že spomínané využitie skriptov nie je zďaleka jediné. Myslím, že môžete ľahko zistiť, ako inak ich môžete použiť. Organizuje Botmaster Labs, nie je plánované. Nemám čas, video je potrebné na súťaž, ako nový trend, aj keď všetko sa dá ľahšie vysvetliť dobrými screenshotmi (môj IMHO) a mne sa vlastne nechce nič točiť. Tých ziskových ostalo veľmi málo, hlúpy spam už nevládne vôbec, tu treba rozmýšľať a nikto nebude natáčať témy, pokiaľ tie zastarané neskúsite dať do krásneho obalu a trochu ich prepudrovať. :) Ale toto nie je o nás. Vo všeobecnosti sa tieto 3 „nevyhovujú“ v podstate stali pre väčšinu potenciálnych účastníkov prekážkami účasti v súťaži. Je to ako oprava auta z troch: lacné, kvalitné, rýchle – služba môže spĺňať len 2 podmienky súčasne. sadnite si a vyberte si, čo je vám bližšie. :) Rovnako je to aj so súťažou: Mám čas, viem spraviť video, ale nie je téma, alebo viem urobiť video, téma je, ale nemám čas na všetko, alebo mám nejaký voľný čas a je tam malá téma, ale video je strašidelné. Ale to je dobré, ak sú splnené 2 podmienky súčasne. Dobre, nechajme texty. Budem pokračovať pre seba. Neplánoval som, čiže som sa zúčastnil súťaže, dokonca som si vyberal, za ktorý článok budem hlasovať. Čokoľvek poviete, Doz pozná softvér veľmi dobre a vie ho veľmi inteligentne používať. Ale dnes som sa dozvedel, že v súťaži sa objavili intrigy. Ukázalo sa, že nebudem môcť hlasovať a budú to môcť urobiť iba nováčikovia, ktorí si softvér zakúpili v roku 2011, a súťaž je určená pre nich. Bol som trochu prekvapený, ale majiteľ je gentleman. Súťaž je reklamná kampaň a Alexander vie lepšie, ako ju uskutočniť. Vo všeobecnosti som sa potom rozhodol uverejniť článok, je to o niečo jednoduchšie, keď je jasné, pre koho je to pre celé JZD v skutočnosti nemožné. Beží na php-Fusion Vo verzii Khroomer 7.07 je program trénovaný na niekoľkých nových motoroch: forumi.biz, forumb.biz, 1forum.biz, 7forum.biz atď. phpBB-fr.com, téma Solaris phpBB A proces učenia sa nových vecí je nepretržitý. "Poháňané SMF 1.1.2" "Poháňané SMF 1.1.3" "Poháňané SMF 1.1 RC2" "Poháňané SMF 1.1.4" "Poháňané SMF 1.1.8" "Poháňané SMF 1.1.7" "2006-2008, Simple Machines LLC" A to nie je všetko. Pri zbieraní verzií motorov na niektorých fórach SMF nájdeme v päte titulok „2001-2006, Lewis Media“. Túto požiadavku preverujeme, taktiež nám plne vyhovuje. Nájdeme podobnú požiadavku: „2001-2005, Lewis Media“. Keď sa pozrieme ďalej na päty, nájdeme nasledujúcu požiadavku: „SMFone design by A.M.A, ported to SMF 1.1“. Kontrolujeme - super. A tak ďalej. Polhodina práce a máte nádhernú databázu dopytov na engine a Google vám za tieto dopyty banuje oveľa menej často, ako keď v nich používate operátorov. A zároveň bude vaša databáza oveľa čistejšia, ako keď použijete dopyty ako "index.php?topic=", pretože tu Google dá nielen fóra, ktoré potrebujeme, ale aj veľa ľavicových zdrojov, kde to bolo možné zanechať odkaz na tému fóra. Môžete namietať, čo je na tom zlé? Iní nechali odkaz, takže môžeme aj my. Ale! Odkazy môže zanechať nielen Khrumer, ale aj iné programy. Okrem toho môžu byť špeciálne prispôsobené na zanechanie komentárov k určitému zdroju, takzvanému vysoko špecializovanému softvéru, plus takéto odkazy môžu byť zanechané ručne. Opäť opakujem, nie je pre nás dôležité množstvo odpadu, ale kvalita, ktorú budeme zhromažďovať so správnymi požiadavkami. Výhodou tejto metódy je, že prakticky nebudete musieť konfigurovať sito - filter
伟哥 - Viagra 吉他 - gitara 其他 - odpočinok 保险公司 - poistenie Vložte tieto nahradzujúce kódy do súboru Words: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 Ak propagujete webovú stránku poistenia, potom umiestnením odkazu do svojho profilu na tematické (!) dokonca aj čínske fórum nájdené na požiadanie “ Fórum SMF" 保险公司 bude to veľmi dobré.
vytlačiť "phpbb \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/i alebo
# $data =~ /viewforum\.php\?[^""]*f=\d+/i alebo
$data =~ /phpBB\-SEO/i alebo
$data =~ /)
;
vytlačiť "ipb \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
alebo
$data =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/i alebo
$data =~ /
$data =~ /index\.php\?[^""]*showforum=\d+/i)
;
vytlačiť "vbulletin \n"
if ($data =~ /Používa:?[^<]+vBulletin[^<]+(?:Version)?/i
alebo
$data =~ /)
;
vytlačiť "smf \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>Využíva SMF/i alebo
$data =~ /index\.php\?[^""]*board=\d+\.0/i)
;
vytlačiť „punbb \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i);
#alebo
# $data =~ /viewforum\.php\?[^""]*id=\d+/i); \n"
tlač "fluxbb
# if($data =~ /viewtopic\.php\?id=\d+/i alebo /if ( $data =~)
;
]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i \n"
if ($data =~ /vytlačiť "exbb]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i
);
# alebo \n"
if ($data =~ /# $data =~ /forums\.php\?[^""]*forum=\d+/i); alebo
vytlačiť "yabb
]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/i \n"
if ($data =~ $data =~ /YaBB\.pl\?[^""]*num=\d+/i );<\/title>/i alebo
$data =~ /vytlačiť „dleforum<\/a>/i)
;
/\(Používa fórum DLE\) \n"
if ($data =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">Fórum DLE alebo
$data =~ /]*>Ikonboard/i \n"
if ($data =~ /]*>ExBB/i
$data =~ /ikonboard\.cgi/i );
print "bbpress
# $data =~ /topic\.php\?id=\d+/i alebo \n"
# $data =~ /forum\.php\?id=\d+/i);
vytlačiť „flashbb
if ($data =~ /# if($data =~ /forums\.php\?fid=\d+/i alebo)
;
# $data =~ /topic\.php\?fid=\d+/i alebo \n"
]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i
if ($data =~ /vytlačiť „stokesit)
;
# if($data =~ /forum\.php\?f=\d+/i alebo \n"
]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i
if ($data =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i)
;
print "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i alebo
if ($data =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
vytlačiť "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i alebo
if ($data =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
vytlačiť „etanotherforumnet \n"
if ($data =~ /Ešte ďalšie fórum\.net/i alebo
$data =~ /default\.aspx\?g=posts&t=\d+/i)
;
site:talk.*.ru
site:board.*.ru
site:smf.*.ru
site:phpbb.*.ru
....
Dlhý úvod sa skončil, teraz k veci.
Čo potrebuje začiatočník, keď si zaobstaral takýto superkombinát, ktorým je komplex Xrumer + Hrefer? Správne, naučte sa na tom pracovať a zahoďte ilúziu, že môžete zarobiť peniaze tým, že začnete spamovať listy. Ak si to myslíte, radšej hneď darujte svoje peniaze na charitu. Musíte sa naučiť, ako používať nástroje komplexu, najlepšie na ostrenie pre seba. Čas „vezmite viac – hádžte ďalej“ je preč. Kvantita ustupuje kvalite. To znamená, že si zostavíme základňu, ak sa to nenaučíte, zaostanete za vlakom. Prirodzene, Khrefer nám s tým pomôže. Ak plánujete propagovať svoje zdroje na Googli, musíme tiež hľadať darcovské stránky cez Google. Myslím, že je to pochopiteľné a logické. Google, podobne ako pani medenej hory, však svoje bohatstvo nerozdáva každému. Potrebujete k tomu prístup. Chcel by som hneď povedať, že nedúfajte, že na základe znakov, ktoré nájdete na verejnosti, budete môcť niečo zbierať. Dôvod, prečo sú verejne dostupné, je ten, že sú bezcenné. Tému nebudem ďalej rozvíjať. Je lepšie povedať, ako to správne zostaviť, aby ste videli výsledok, zvyšok si môžete dopracovať sami, hlavnou vecou je pochopiť princíp. Musíme zbierať tie správne na základe charakteristík konkrétnych motorov, ktoré potrebujeme, a nie na základe charakteristík fór vo všeobecnosti. Toto je hlavná chyba začiatočníkov – nesústrediť sa na konkrétnu vec, ale snažiť sa obsiahnuť všetko celé. A tiež, ak chcete analyzovať viac-menej normálnu databázu, prestaňte používať operátory v dotazoch. Žiadne „inurl:“, „site:“, „title“ atď. Google okamžite zakáže vyhľadávačov, ako ste vy. Preto starostlivo študujeme motory, s ktorými Khrumer v súčasnosti pracuje:
Vo všeobecnosti musíme pripraviť správne dotazy na analýzu Hreferom. Vezmime si ako príklad fórum dizhok. Fóra SMF. A začneme ho rozoberať na časti na analýzu. Náš milovaný Google nám s tým pomôže. Zadajte dopyt do Google Fóra SMF- vo výsledkoch vyhľadávania je veľa odpadkov, pretočíme sa na nejakú 13. stranu a vyberieme ľubovoľný odkaz. Narazil som na tento: http://www.volcanohost.com/forum/index.php?topic=11.0. Otvorme to a študujme. Na stránke musíme nájsť niečo charakteristické, čo sa dá použiť na vyhľadávanie iných stránok na tomto engine. V päte si všimneme nasledujúci nápis Beží na SMF 1.1.14, citovať a zadať do Google, ukazuje nám, že podľa túto žiadosť pozná asi 59 miliónov možností. Rýchlo si prezeráme odkazy, pridávame k tomuto kľúčovému slovu niekoľko ďalších možností, napr. "Powered by SMF 1.1.14" topoľ alebo "Powered by SMF 1.1.14" viagra. Uisťujeme sa, že požiadavka je skvelá, výsledkom sú iba fóra a takmer žiadne odpadky.
Navyše nám nejde o kvantitu, ale o kvalitu, ako som povedal vyššie. Poďme ďalej. Z toho istého fóra berieme ďalšiu frázu z päty: , tiež ho citujeme a dodávame do Googlu. V odpovedi prezrádza, že pozná viac ako 13 miliónov výsledkov. Opäť rýchlo prezeráme výsledky, pridávame ďalšie slová a kontrolujeme výsledky pomocou nich. Dbáme na to, aby bola požiadavka výborná a tiež tam neboli takmer žiadne odpadky. Vo všeobecnosti už existujú 2 požiadavky na železo. Odporúčam zatiaľ nechať prvé fórum na pokoji a pokračovať v zhromažďovaní žiadostí z iných fór. Našťastie máme Google otvorený na požiadanie. 2006-2008, Jednoduché stroje LLC. Z výsledkov vyhľadávania berieme napríklad tieto fóra: http://www.snowlinks.ru/forum/index.php?topic=1062.0 a http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 v pätičkách z nich preberáme tieto dotazy: “Powered by SMF 1.1.7” a “Powered by SMF 1.1.10” (dotazy na Hrefer odporúčam vždy zadávať v úvodzovkách, pretože potrebujeme predovšetkým kvalitu všetky). Myslím, že je jasné, čo robíme, nakoniec budeme mať určitú databázu dopytov na vyhľadávanie fór na motore SMF (bolo vybrané ako príklad, rovnako ako pri iných motoroch).
Bude to vyzerať asi takto:
Myslím si, že naučiť sa správne používať Hrumer v počiatočnej fáze je veľmi dôležité, pretože keď sa to naučíte, vždy môžete nájsť využitie pre Hrumer, bez ohľadu na to, ako sa situácia zmení. Ochrany sú čoraz komplikovanejšie a ak na niektorých typoch motorov bola ochrana posilnená a nedokáže si s tým poradiť momentálne Khrumer, potom nemá zmysel míňať prostriedky na zhromažďovanie týchto odkazov a potom na nich pracovať s Khrumerom, je lepšie sústrediť energiu na to, čo prináša výsledky. A zároveň, ak tím Botmaster Labs naučil Khroomera niečo nové, môžete rýchlo vypreparovať nového pacienta a pripraviť základňu pre Khroomera, kým je pacient ešte teplý. Čas sú peniaze, zdroj už nemusí byť relevantný, keď si kúpite základňu. zhromaždené niekým. Okrem toho správna zbierka základov pre seba výrazne rozširuje „biele“ použitie Khrumeru. A presne tu sa všetko hýbe, či sa nám to páči alebo nie, a prebieha proces bielenia či šedivenia. Čierne obliečky sa vo všetkých smeroch stávajú minulosťou.
Všetky ostatné technické aspekty práce s Hreferom si môžete pozrieť v pomocníkovi a nemá zmysel sa nimi zaoberať všetky ciele, body, sekundy sú nastavené experimentálne pre každé auto individuálne.
Ako bonus tu zverejním šablónu na analýzu čínskeho vyhľadávača Baidu, nedávno sa ma na to spýtali, tak som to urobil nenútene, ospravedlňte slovnú hračku. :)
Názov hostiteľa=http://www.baidu.com
Dotaz=s?wd=
LinksMask=
Celkový počet strán=100
NextPage=
NextPage2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Skúsil som ich otestovať, nebol tam žiadny zákaz, Khrefer zbieral zdroje rýchlo, všetky dopyty na analýzu boli podobné ako od Googlu, ale bolo tam veľa čínskych zdrojov s vysokým PR a okrem toho bolo veľa miest, kde Európan niekedy vkročil. Je lepšie analyzovať čínske dopyty. S tým vám pomôže prekladač Google, zadajte zoznam kľúčových slov v ruštine a preložte ho do čínštiny. Pravda v " Slová„Hrefer slová sa v čínštine nedajú pridať, treba ich prekódovať.
Namiesto čínštiny:
Na záver by som chcel povedať, že som nikdy nerozumel ľuďom, ktorí sa sťažovali, že Khrefers boli varené zle alebo zle, vždy som chcel povedať, že ich neviete variť. Žiaden analyzátor nemôže zbierať výsledky lepšie ako referencia, požiadavky musia byť správne. Hrefer je auto: dobré, pevné, vyrobené v nemčine, ale jazdí na ňom človek a všetko závisí od toho, ako dobre sa s ním jazdí, nedá sa prinútiť, aby jazdilo súčasne vpravo aj vľavo.
Samostatnou témou je čistenie databáz, raz som to robil pred 3 rokmi na predchádzajúcej súťaži. Z väčšej časti je tam všetko stále relevantné, ale teraz môžete odmietnuť skontrolovať 200 OK, tento proces sa mi naozaj nepáčil, boli tam veľmi veľké chyby, odfiltrovalo sa veľa nepotrebných vecí. Teraz to možno urobiť takmer automaticky počas prevádzky Khroomer, hoci tento proces nie je úplným analógom kontroly „200 OK“. Každopádne k veci: nedávno sa v Khrumeri objavila úžasná príležitosť – okradnúť informácie zo zdrojov v čase, keď prebiehal projekt. Vyzerá to takto. Zadáte šablónu, ktorá sa bude spracovávať počas prevádzky, a informácie zozbierané zo šablóny sa vložia do súboru xgrabbed.txt v priečinku Logs. Túto funkciu využijete na čokoľvek, úlet fantázie je obrovský. Túto funkciu používam raz za týždeň na odstránenie odkazov z mojej fungujúcej „vypršanej“ databázy. Nie je žiadnym tajomstvom, že fóra každý deň vymierajú, aby sme mohli vyčistiť našu databázu od takýchto zdrojov, a nástroj „Autograbbing“ nám v tomto prípade pomôže.
Koniec koncov, musíte uznať, že keď často napíšeme napríklad http://www.laptopace.com/index.php, vidíme, že táto doména je už napríklad dobrák, ktorý predáva peniaze, ale neexistuje fórum tam. Aby sme teda tento šľak vyhádzali zo základne, budeme rabovať. :) Otvorte zdrojový kód stránky a pozrite si tento záznam:
Teraz nám budú všetci „mŕtvi muži“ z goudaddi známe po mene.
Tu je malý výber pre nástroj Autograbbing, ak chcete vymazať databázu rôznych domén, ktorých platnosť vypršala: