
Կրկնվող բովանդակությամբ (duplicate content) կայքէջերը կարող են բացասաբար ազդել գուգլի եւ մյուս հիմնական որոնման համակարգերի կողմից տվյալ կայքի վարկանիշավորման վրա. սա մեր ընթերցողի համար նորություն չէ, քանի որ այդ մասին խոսվել է գուգլ-չափորոշիչների վերաբերյալ հոդվածում։ Սակայն, ելնելով այն փաստից, որ ինտերնետն ընդհանուր առմամբ, այդ թվում՝ հայալեզու կայքերի մի ստվար մասը պարունակում են միօրինակ էջեր (հաճախ՝ տառացիորեն նույն տեքստով), կարծում եմ, տեղին է այս խնդրին անդրադառնալ առանձին հոդվածով։
Այն, որ բազմաթիվ կայքեր «ապրում են այլ կայքերի հաշվին» ու զբաղված են ծույլ աշակերտներին բնորոշ արտագրությամբ, ոչ մեկիս համար գաղտնիք չէ։ Երբեմն էլ, ավելի առաջ անցնելով, պարզ copy-paste «պարտականությունները» դրվում են ավտոմատ ծրագրերի վրա (ինքներդ կարող եք ինտերնետում հանդիպել որեւէ կայքի RSS-ները բլոգ-գրառումների վերածող վեբ-ծրագրեր)։
Սա կրկնվող բովանդակության ամենահաճախ հանդիպող տարբերակն է, որն այս հոդվածի շրջանակներից դուրս է։
Բովանդակության կրկնման երկրորդ, որոնողական օպտիմալացման տեսանկյունից վտանգավոր տարբերակն այն է, երբ նույն էջերը կրկնվում են նույն՝ մեկ կայքի սահմաններում։ Սա ավելի հաճախ կայքի ներքին հղումների սխալ կառուցվածքի արդյունք է (օրինակ՝ գուգլը մեկ կայքում «տեսնում է» ինչպես գրառման, այնպես էլ այդ գրառման պրինտ (printer-friendly) տարբերակները, կամ, իրականում տվյալ էջը մեկն է, սակայն կայքի տարբեր տեղամասերից նույն այդ էջին կարելի է հասցնել տարբեր URL հասցեներով)։
Նման իրավիճակները գուգլը գնահատում է որպես իր սահմանած չափորոշիչները խախտելու, իսկ վատագույն դեպքում, իրեն «կեղծելու» միջոց, ուստի եւ սկսում է տվյալ կայքին «ծուռ աչքով» նայել։
Ինչո՞ւ է կրկնվող բովանդակությունը դառնում խնդիր
Իրոք, ինչո՞ւ է գուգլը այսչափ լուրջ տեղ հատկացնում կրկնվող էջերի երեւույթին։
Սա ըմբռնելու համար, եկեք չմոռանանք, որ բոլոր որոնող համակարգերի առաջնային նպատակը իրենց այցելուներին որոնման հնարավորինս համարժեք արդյունքներով ապահովելն է։ Այլ կերպ ասած՝ իրենց այցելուների կարիքները բավարարելը. այլապես նրանք կհրաժարվեն տվյալ որոնման համակարգից եւ կօգտվեն մյուսից։
Հիմա, պատկերացրեք, որ գուգլում որոնում եք մի արտահայտություն եւ գտնում տառացիորեն նույն տեքստային բովանդակությունը պարունակող տասնյակ էջեր։ Մի կողմից ծանարաբեռնվում է գուգլի աշխատանքը (վերջինս ամեն անգամ փորձելու է որոնմամբ ստացված արդյունքները ֆիլտրել ու դասակարգել ըստ դրանց՝ որոնվող բառի համարժեքության, հայտնաբերված կայքէջերի վարկանիշի ու մեզ հայտնի ու անհայտ այլ գործոնների), մյուս կողմից էլ՝ տվյալ արտահայտությունը որոնող այցելուն է ընկնում դժվար կացության մեջ (առկա միօրինակ արդյունքներից ո՞ր մեկը բացել)։
Եկեք թողնենք գուգլի խնդիրներն իրեն ու խորհենք մեր կայքի վարկանիշի մասին։
Ինչքանո՞վ եք համոզված, որ նույնօրինակ բազմաթիվ էջերի ցանկից այցելուն կընտրի հենց Ձերը։ Գուգլը, բնականաբար, ամենաբարձր տողում ցուցադրելու է տվյալ բովանդակության բնօրինակ-կայքը (կարող ենք չկասկածել, որ տեխնիկական այդ հնարավորություննեով գուգլն օժտված է), եւ դրանից հետո միայն՝ «պատճենահանող» կայքերը։
Կա տեսակետ, թե գուգլը դժվար թե պատժի «արտագրող» կայքերը, սակայն արդյոք մեր խնդիրը պատժից խուսափե՞լն է, թե՞ որոնող համակարգերում ու դրանց արդյունքների էջերում բարձր դիրք գրավելը։
Այս հանգամանքին պետք է ուշադրության դարձնեն նաեւ այն անձինք, ովքեր ունեն մի շարք կայքեր, եւ նույն տեքստային բովանդակությունը (ասենք՝ նորությունները) միաժամանակ տեղադրում են իրենց տնօրինած բոլոր կայքերում։
Մեկ էջ՝ տարբեր բերող հղումներ
Կրկնվող բովանդակությամբ էջեր ունենալու երկրորդ տարբերակը այսպես կոչված «կեղծ» կրկնումներն են, երբ իրականում էջը մեկն է, սակայն դեպի այդ էջն ուղղված URL հղումները մի քանիսն են։
Սա, արդեն նշվեց, որ կարող է լինել տվյալ էջի տպելու համար նախատեսված օրինակի պատճառով (ունենք 1 էջ, որին գումարվում է այդ էջի printer-friendly տարբերակի 1 էջը, եւ արդյունքում ունենում ենք նույն բովանդակությունը պարունակող 2 էջեր)։
Նման դեպքերից խուսափելու տրամաբանական լուծումը գուգլին «հուշելն» է, որ նա «ուշադրություն չդարձնի» եւ չինդեքսավորի տպելու էջը։ Ամենապարզ եղանակը տպելու էջի հղման կոդում nofollow ատրիբուտ ավելացնելն է (այս հնարավորության մասին մենք հիշատակել ենք՝ սփամ մեկնաբանություններից խուսափելու վերաբերյալ հոդվածում)։
Մեկ այլ նմանատիպ, ոչ հազվադեպ հանդիպող «վտանգավոր» իրավիճակի պատճառ կարող է հանդիսանալ կայքերի՝ նույն էջի տարբեր ձեւավորումների («թեմաներ») հնարավորությունը (երբ էջի այցելուին հնարավորություն է տրվում ընտրել էջի ոճը)։
Նման հնարավորությամբ օժտված է, օրինակ, Ֆ5-բլոգը, որի այցելուները կարող են ընտրել կայքի երեք առաջարկվող ոճերից մեկնումեկը՝ բլոգին-պրո, բլոգ-ֆլյուքս եւ ի-թեմա։ Այս օրինակում ունենք երեք տարբեր էջեր՝ տարբեր URL հացեներով, սակայն նույն բովանդակությամբ։ Կայքի տնօրենը (այսինքն՝ ես) կրկնվող բովանդակությունից խուսափելու համար դարձյալ օգտվել է nofollow ատրիբուտից, որի շնորհիվ գուգլը ինդեքսավորում է միայն «բլոգին-պրո» թեմայի էջերը եւ շրջանցում մյուս երկու թեմաները։
Նույն կայքի սահմաններում կրկվող բովանդակությամբ էջերի երրորդ, ամենավտանգավոր պատճառը այդ կայքի ներքին հղումների սխալ կառուցվածքն է, երբ նույն էջը այցելուներին (եւ գուգլին) հասանելի է դառնում տարբեր URL հասցեներով։
Այս տարբերակը վտանգավոր է այնքանով, որ այն հաճախ ունենում է «թաքնված» պատճառներ եւ, որպեսզի բացահայտվի, պահանջում է կայքի HTML կառուցվածքի եւ կայքը գործարկող վեբ-ծրագրի մանրակրկիտ հետազոտում։
Այս անգամ էլ բերենք մեր կայքի օրինակը. սույն հոդվածի էջը, որի բնական հղումն է՝ http://www.e-armenians.com/seo/avoiding-duplicate-content/ , կարող է բացվել նաեւ մեկ այլ URL-ով՝ http://www.e-armenians.com/?p=776: Այս երկու հղումն էլ ուղղված են դեպի նույն էջը։
e-Armenians-ը նախագծելու եւ պատրաստելու առաջին շաբաթների ընթացքում (թող անհամեստություն չթվա) օրեր եմ լուսացրել, որպեսզի կայքի ներքին հղումները դառնան միատեսակ եւ ԲՈԼՈՐՆ իրենցից ներկայացնեն url-title-ներ։ Ինքս մեկ առ մեկ ստուգել եմ ինչպես կայքի բոլոր հիմնական էջերի HTML կառուցվածքները, այնպես էլ վեբ ծրագրի առանձին թողարկող ֆայլերը։
Սա այն հարցն է, որն ալարկոտություն չի հանդուրժում. ավելի լավ է մեկ անգամ ստուգել, քան հետո զարմանալ (նաեւ՝ զայրանալ) գուգլում տարօրինակ URL-ներով Ձեր էջերը հայտնաբերելիս։
Քայլեր՝ կրկնվող էջեր հայտնաբերելիս
Իհարկե, առաջին հարցը, որ Ձեզ մոտ կծագի, այն է, թե՝ ինչպե՞ս հայտնաբերել կրկնվող բովանդակությամբ էջեր։
Չզարմանաք, սակայն պատասխանը առավել քան պարզ է. վերցրեք Ձեր տվյալ էջից որեւէ մի յուրահատուկ հատված եւ կատարեք գուգլում որոնում՝ ըստ այդ բառերի, ու աչքի անցկացրեք որոնման արդյունքները։
Կա՞ն նույն այդ հատվածը պարունակող այլ էջեր՝ բացի Ձեր բնօրինակից։ Արդյոք դրանք Ձեր կայքի սահմաններում են, թե՞ մեկ այլ կայք վերցրել ու արտագրել է Ձեր բովանդակությունը։
Եթե ցանկանում ենք որոնում կատարել միայն Ձեր կայքի սահմաններում, ապա գուգլում որոնման ենթարկվող բառերից հետո ավելացրեք
site:your-site.com
(որտեղ՝ your-site.com-ի փոխարեն գրեք Ձեր դոմեյնը)։
Ստորեւ կներկայացվեն կրկնվող էջերը վերացնելու մի շարք պարզ եղանակներ:
- Եթե Ձեր կայքի սահմաններում գտել եք տարբեր URL-ներով նույն էջը (կամ՝ էջեր), ապա, նախ, պետք է որոշել, թե այդ հղումներից որն է դառնալու Ձեր էջի հիմնական URL հասցեն, որից հետո կայքի բոլոր հիմնական էջերի HTML կառուցվածքներում (այդ թվում՝ sitemap-ում) ներառեք հենց այդ՝ «առաջնային» URL-ը։ Բնական է, որ դուք պետք է նաեւ բոլոր «երկրորդային» հղումները խմբագրեք «առաջնայինի»։
- Վերեւի գործողությունը կատարելիս, եթե հանդիպում եք «անելանելի իրավիճակի» (չակերտները նշանակում են, որ ելք միշտ էլ կգտնվի), ապա փորձեք դիմել 301 վերաուղղման օգնությանը` Ձեր կայքի հիմնային ֆոլդերի .htaccess-ում տեղադրելով «լրացուցիչ» հղումից դեպի «հիմնական» հղումը 301 մշտական վերուղղումներ (Redirect 301 անպետք-հղում պետքական-հղում)։
- Որտեղ անհրաժեշտություն կա, օգտվեք հղումների nofollow ատրիբուտից (rel=”nofollow”)։ Սակայն սա այնքան էլ վստահելի միջոց չէ, քանի որ տարբեր ֆորումներում հանդիպել եմ վեբ-վարպետների զարմանքին, որ գուգլն ինդեքսավորել է նրանց կայքերի nofollow հղումները։
- Գուգլը, յահուն, բինգը եւ ասքը ընդունում են նաեւ այսպես կոչված հղումների canonical ատրիբուտը (rel=”canonical”)։ Այս դեպքում, ստեղծվում է դեպի «առաջնային էջը» ուղղված canonical ատրիբուտով կոդ (<link rel=”canonical” href=”հիմնական-էջի-URL-հասցեն” />), որը տեղադրվում է «երկրորդային էջերի» HTML կառուցվածքի HEAD-ում։
- Գուգլը վերջերս խորհուրդ է տալիս «երկրորդային» հղումները չարգելափակել robots.txt-ի միջոցով, այլ օգտվել 301 վերաուղղումներից կամ canonical ատրիբուտից։
Ստեղծեք յուրահատուկ բովանդակություն եւ հետեւեք, որ դրանք «շուտ հասնեն» գուգլին։ Եվ, իհարկե, հետեւեք, որ գուգլը Ձեր յուրաքանչյուր նոր հոդվածն ինդեքսավորի միայն մեկ URL-հասցեի ներքո։
Եվ մի՛ փորձեք Ձեր կայքը դարձնել «արտագրության տետր»։ Ահա, այսքանը։
Աղբյուրը. e-armenians.com
Ողջույն, ես այս բլոգի հեղինակն եմ: Ուրախ կլինեմ, եթե դուք բաժանորդագրվեք բլոգի գրառումներին և ընթերցեք իմ էլ. գրքերը:
Մեր բլոգում Artur-ը գրել է 583 հոդված:
Եթե հավանեցիր այս հոդվածը, ապա միացիր մեր 306 ընթերցողներին և ստացիր անվճար էլ. ծանուցումներ







{ 2 մեկնաբանություն… դիտիր դրանք ներքևում կամ ավելացրու նորը }
Օգտակար էր շատ, ապրես
Մի նկատառում էլ ես ունեմ, ու դա մտքումս ծագեց Ձեր հոդվածն ընթերցելիս:
Երեւի թե պետք է ուշադիր լինել նաեւ կայքի բջջային/pda տարբերակների պահով: Հիմա տարբեր վեբկայքեր, որպես մոբայլ-վերսիա բացում են մի սուբդոմեյն (ասենք՝ site.am -ի համար՝ m.site.am կամ էլ mobile.site.am) կամ էլ այդ թեթեւ վերսիան տեղադրում կայքի առանձին մի ֆոլդերում (site.am/m/ կամ site.am/mobile), ու ստացվում է, որ նույն էջն ունենում է երկու տարբերակ՝ մի հատ նորմալ, բնական չափսով եւ երկրորդը՝ մոբայլ տարբերակը: Ու եթե մտահոգ են կրկնվող բովանդակության վերաբերյալ, ուրեմն պետք է մոբայլ տարբերակը թաքցնեն գուգլից:
Ըստ իս լավագույն տարբերակն այստեղ rel=“nofollow”-ն է, երեւի կարելի է նաեւ գուգլի մուտքը դեպի մոբայլ տարբերակ փակել robot.txt-ի միջոցով:
Հա, լավ հիշեցի, իսկ գուգլն ինչո՞ւ է դեմ robot-ներին, միգուցե պարզաբանեք:
Ճիշտ չէ եզրակացնելը, որ գուգլն, ընդհանուր առմամբ, դեմ է robot.txt-ի օգտագործմանը, այս հոդվածի սահմաններում խոսքն այս տեքստային ֆայլի միջոցով որոնող համակարգերի «ռոբոտների» (կարճ ասում են նաեւ՝ բոտ) դիմաց կրկնվող էջերի մուտքը վստահելի կերպով փակելու մասին է:
Տեսեք, նույնիսկ եթե robot.txt-ի միջոցով որոնող համակարգի համար «արգելափակում» ես տվյալ էջը, սակայն այ նույն էջի URL-հասցեն առկա է կայքի ինդեքսավորվող էջերից մեկնումեկում, միեւնույն է, որոնող համակարգի բոտը կգտնի այդ էջը եւ կինդեքսավորին այն:
Գուգլն իր խորհուրդով պարզապես ցանկանում է զգուշացնել, որ մեկ կայքի սահմաններում կրկնակի բովանդակության երեւույթը բացառելու համար «հույսներս միայն robot.txt-ի վրա չդնենք», այլ՝ օգտվենք ավելի հուսալի հնարքներից: