Video: Димаш - "All By Myself" / Реакция иностранцев / Взгляд (Listopad 2024)
Abych získal své zprávy, často skenuji Zprávy Google, které agregují články z celého světa na základě toho, co určil „robot“, trendy. Je to všechno o tom, co je trendy. Obvykle chybí nejnovější zprávy a naprosto ignoruje důležitý komentář, jako je můj sloupec. Místo toho se zdá, že dává přednost přechodu na mrtvé odkazy - čímž mám na mysli Wall Street Journal , který vyžaduje předplatné ke čtení.
Dnes je tomu tak. Z CES došlo k lámavému zpravodajskému příběhu o síti Dish Network, která se snažila koupit Clearwire. Společnost Google se místo toho, aby odkazovala na jakýkoli související příběh pomocí bezplatných a čitelných webů, rozhodla, že hlavní příběh by měl pocházet z Wall Street Journal .
V minulosti měla společnost Google nějakou dohodu, která uživatelům umožňovala alespoň si přečíst hlavní odstavec, nebo dokonce celý článek, předtím, než jej blokovala platební brána. Pokud nevíte trik obtoku (diskutováno níže), toto již neplatí. Nyní narazíte na paywall a máte hotovo. Domnívám se, že skuteční odběratelé to projdou, ale zajímalo by mě, jak se tím dostanou roboti Google, aby na prvním místě našli příběh. Platí Google? Pochybuji. Takže pro Google roboty musí existovat nějaký backdoor, že?
To je falešné a uživatelům služby Google je poskytována služba. Google prochází všemi těmito potížemi, aby porazil lidi, kteří se snaží hrát systém, ale umožňuje to Wall Street Journal tahat tento kousek? Jedná se v podstatě o zaplacené předplatné Wall Street Journal . Je to to, co Google chce? Dostává Google snížení?
Pro společnost Google nemůže být tak obtížné tuto obtěžování jednoduše opravit. Trvalo by to minutu - pět vrcholů. Je to příliš mnoho práce?
Pokud má společnost do své služby zabudovanou platební bránu, neměla by společnost Google tento web vůbec prohledávat. Roboti by měli vědět, že existuje paywall a jednoduše se vyhnout hledání. A ano, rád bych vysvětlil, jak přesně mohou roboti prohledat web, který je blokován výplatou. Je to záhada.
Výplata by měla být přesně stejná jako „robots.txt“, která říká robotovi prolézacího modulu, aby odešel. O vztahu WSJ- Google je ale něco zajímavého. Nejjednodušší způsob, jak zabít všechny roboty, je metaznačka v souboru robots.txt: .
WSJ místo toho konkrétně blokuje určité podadresáře, ale zjevně ne všechny. A ještě podivnější, pokud vyhledáváte přesně stejný článek ve Zprávách Google, místo toho, abyste jednoduše klikli na odkaz v přehledném článku, získáte tento článek pomocí nějakého jiného mechanismu.
Vyzývám techničtější čtenáře, aby zjistili, co se s nimi děje, prozkoumáním souboru robots.txt zaměstnaného WSJ . Veřejný dokument je k dispozici zde.
V každém případě mají weby z finančních důvodů výplaty. Pokud chtějí hrát hry s obsahem, je to jedna věc, ale mělo by být zakázáno z výsledků vyhledávání stejným způsobem, jakým se Google pokouší zmařit lidi, kteří se snaží hrát systém. Google zakáže nešťastnému bloggerovi při pádu z klobouku nějaké povrchní chování. Co takhle jednat s většími weby?
Můžete sledovat Johna C. Dvořáka na Twitteru @therealdvorak.
Více John C. Dvorak:
Jděte mimo téma s Johnem C. Dvorakem.
ZOBRAZIT VŠECHNY FOTOGRAFIE V GALÉRII