लेटेंट सिमेंटिक इंडेक्सिंग क्या है और क्यों यह एसईओ के लिए बात नहीं करता है

SEO के लिए Latent Semantic Indexing (LSI) और “LSI Keywords” के लिए कई दावे किए जाते हैं।

कुछ लोग यह भी कहते हैं कि Google वेबपेजों को समझने के लिए “LSI कीवर्ड्स” पर निर्भर है।

इस पर लगभग बीस वर्षों तक चर्चा हुई है और पूरे समय में साक्ष्य आधारित तथ्य सामने आए हैं।

यह अव्यक्त अर्थ सूचकांक है

अव्यक्त अर्थ इंडेक्सिंग (जिसे लेंटेंट सिमेंटिक एनालिसिस भी कहा जाता है) शब्दों के सांख्यिकीय सह-घटनाओं की खोज करने के लिए दस्तावेजों के एक सेट का विश्लेषण करने का एक तरीका है जो एक साथ दिखाई देते हैं जो फिर उन शब्दों और दस्तावेजों के विषयों में अंतर्दृष्टि देते हैं।

समस्याओं में से दो (कई के बीच) जो एलएसआई को हल करने के लिए सेट करती हैं वे पर्यायवाची और पॉलिसमी के मुद्दे हैं।

पर्यायवाची एक संदर्भ है कि कितने शब्द एक ही बात का वर्णन कर सकते हैं।

“फ्लैपजैक रेसिपी” की खोज करने वाला व्यक्ति “पैनकेक रेसिपी” (यूके के बाहर) की खोज के बराबर है क्योंकि फ्लैपजैक और पेनकेक्स पर्यायवाची हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

पॉलीसिम उन शब्दों और वाक्यांशों को संदर्भित करता है जिनके एक से अधिक अर्थ होते हैं। जगुआर शब्द का अर्थ जानवर, ऑटोमोबाइल या अमेरिकी फुटबॉल टीम हो सकता है।

LSI सांख्यिकीय रूप से यह अनुमान लगाने में सक्षम है कि किसी शब्द का अर्थ सांख्यिकीय रूप से उन शब्दों का विश्लेषण करता है जो किसी दस्तावेज़ में इसके साथ होते हैं।

यदि शब्द “जगुआर” एक दस्तावेज़ में “जैक्सनविले” शब्द के साथ है, तो यह सांख्यिकीय रूप से संभावित है कि शब्द “जगुआर” एक अमेरिकी फुटबॉल टीम का संदर्भ है।

यह समझने के द्वारा कि शब्द एक साथ कैसे होते हैं, एक कंप्यूटर सही ढंग से संबद्ध होकर किसी प्रश्न का उत्तर देने में सक्षम है सही कीवर्ड खोज क्वेरी के लिए।

LSI के लिए पेटेंट 15 सितंबर, 1988 को दर्ज किया गया था। यह एक पुरानी तकनीक है जो इंटरनेट पर सालों पहले आई थी क्योंकि हम जानते हैं कि यह अस्तित्व में थी।

LSI नया नहीं है और न ही यह अत्याधुनिक है।

यह समझना महत्वपूर्ण है कि 1988 में, एलएसआई सरल पाठ मिलान की कला की स्थिति को आगे बढ़ा रहा था।

LSI ने इंटरनेट से पहले लिया और एक समय के दौरान बनाया गया जब Apple कंप्यूटर इस तरह दिखते थे:

1988 से Apple Macintosh SE कंप्यूटर की छवि

LSI तब बना था जब एक लोकप्रिय व्यवसाय कंप्यूटर (IBM AS / 400) इस तरह दिखता था:

1988 से IBM AS400 कंप्यूटर की छवि

LSI एक तकनीक है जो वापस जाती है।

विज्ञापन

नीचे पढ़ना जारी रखें

1988 से कंप्यूटर की तरह, सूचना पुनर्प्राप्ति में कला की स्थिति पिछले 30+ वर्षों में एक लंबा सफर तय कर चुकी है।

LSI वेब के लिए व्यावहारिक नहीं है

संपूर्ण वेब के लिए लेटेंट सेमेटिक इंडेक्सिंग का उपयोग करने की एक बड़ी कमी यह है कि सांख्यिकीय विश्लेषण बनाने के लिए की जाने वाली गणना को हर बार एक नए वेबपेज को प्रकाशित और अनुक्रमित करने के बाद पुनर्गणना करना पड़ता है।

यह कमी 2003 (गैर-Google) में उल्लिखित है शोध पत्र ईमेल स्पैम का पता लगाने के लिए LSI का उपयोग करने के बारे में (फ़िल्टर स्पैम के लिए अव्यक्त अर्थ इंडेक्सिंग का उपयोग करके)।

शोध पत्र नोट:

“एलएसआई के साथ एक मुद्दा यह है कि यह शब्दार्थ सेट उत्पन्न होने के बाद नए दस्तावेजों के तदर्थ जोड़ का समर्थन नहीं करता है। किसी भी सेल वैल्यू के लिए कोई भी अपडेट हर दूसरे शब्द वेक्टर में गुणांक को बदल देगा, क्योंकि एसवीडी वैक्टर को प्रेरित करने के लिए अपने असाइन किए गए आयामों में सभी रैखिक संबंधों का उपयोग करता है जो हर पाठ नमूनों की भविष्यवाणी करेगा जिसमें शब्द होता है … “

मैंने पूछ लिया बिल स्लावस्की खोज इंजन सूचना पुनर्प्राप्ति के लिए LSI की अनुपयोगिता के बारे में और उन्होंने कहा:

“LSI छोटे स्थिर डेटाबेस के लिए विकसित एक पुराना अनुक्रमण दृष्टिकोण है। नई तकनीकों के साथ समानताएं हैं जैसे शब्द वैक्टर या वर्ड 2 वीईसी का उपयोग।

एलएसआई की सीमाओं में से एक यह है कि अगर एक नई सामग्री को एक कॉर्पस में जोड़ा जाता है जो पूरे कॉर्पस के लिए अनुक्रमण की आवश्यकता होती है, जो इसे वेब जैसे जल्दी बदलते कॉर्पस के लिए सीमित उपयोगिता बनाता है। “

क्या Google LSI कीवर्ड रिसर्च पेपर है?

खोज समुदाय के कुछ लोगों का मानना ​​है कि Google अपने खोज एल्गोरिथ्म में “LSI कीवर्ड्स” का उपयोग करता है जैसे कि LSI अभी भी एक अत्याधुनिक तकनीक है।

इसे साबित करने के लिए, कुछ 2016 का संदर्भ देते हैं शोध पत्र कहा जाता है, शब्द सह-घटना और Bigraph सह-क्लस्टरिंग (पीडीएफ) के साथ खोज क्वेरी के लिए सिमेंटिक टॉपिक क्लस्टरिंग में सुधार।

वह शोध पत्र बिल्कुल लटेंट सेमेटिक इंडेक्सिंग का उदाहरण नहीं है। यह पूरी तरह से अलग तकनीक है।

वास्तव में, वह शोध पत्र LSI (उर्फ लेटेंट सेमेटिक एनालिसिस) के बारे में ऐसा नहीं है कि वह 1999 के LSI शोध पत्र का हवाला देता है ([5] टी। हॉफमैन। संभाव्य अव्यक्त अर्थ अनुक्रमण। … १ ९९९) एलएसआई जिस समस्या को हल करने की कोशिश कर रहा है, उसके लिए उपयोगी नहीं होने की व्याख्या के एक हिस्से के रूप में।

विज्ञापन

नीचे पढ़ना जारी रखें

यहां यह कहा गया है:

“अव्यक्त डाइरिलेट आवंटन (LDA) और संभाव्य अव्यक्त शब्दार्थ विश्लेषण (PLSA) पाठ डेटा में अव्यक्त विषयों का अनावरण करने के लिए व्यापक रूप से उपयोग की जाने वाली तकनीकें हैं। … ये मॉडल दस्तावेज़ स्तर शब्द सह-घटना पैटर्न का लाभ उठाकर छिपे हुए विषयों को सीखते हैं।

लघु पाठ हालांकि – जैसे खोज क्वेरी, ट्वीट या त्वरित संदेश – डेटा स्पार्सिटी से पीड़ित हैं, जो पारंपरिक विषय मॉडलिंग तकनीकों के लिए समस्याएं पैदा करता है। “

यह उपरोक्त शोध पत्र को प्रमाण के रूप में उपयोग करने के लिए एक गलती है जो Google एक महत्वपूर्ण रैंकिंग कारक के रूप में LSI का उपयोग करता है। कागज एलएसआई के बारे में नहीं है और यह वेबपेजों के विश्लेषण के बारे में भी नहीं है।

डेटा खनन लघु खोज प्रश्नों के बारे में 2016 का यह एक दिलचस्प शोध पत्र है, ताकि वे समझ सकें कि उनका क्या मतलब है।

वह शोध पत्र एक तरफ, हम जानते हैं कि Google वास्तविक दुनिया में खोज प्रश्नों को समझने के लिए BERT और तंत्रिका मिलान तकनीकों का उपयोग करता है।

लंबी कहानी छोटी: के बारे में एक निश्चित बयान करने के लिए उस शोध पत्र का उपयोग Google की रैंकिंग एल्गोरिदम चारों ओर स्केच है।

विज्ञापन

नीचे पढ़ना जारी रखें

क्या Google LSI कीवर्ड का उपयोग करता है?

खोज विपणन में, भरोसेमंद और आधिकारिक डेटा दो प्रकार के होते हैं:

  1. तथ्यात्मक विचार जो सार्वजनिक दस्तावेजों जैसे शोध पत्र और पेटेंट पर आधारित होते हैं।
  2. एसईओ विचार जो कि Googlers द्वारा प्रकट किए गए हैं, पर आधारित हैं।

बाकी सब कुछ केवल राय है।

अंतर जानना महत्वपूर्ण है।

Google का जॉन मुलर एलएसआई कीवर्ड्स की अवधारणा के बारे में स्पष्ट रूप से स्पष्ट है।

प्रसिद्ध खोज पेटेंट विशेषज्ञ बिल स्लावस्की भी अव्यक्त अर्थ इंडेक्सिंग और एसईओ की धारणा के बारे में मुखर रहे हैं।

एलएसआई पर विधेयक के विवरण एक गहन ज्ञान पर आधारित हैं Google के एल्गोरिदम, जिसे उन्होंने तथ्य-आधारित लेखों (जैसे) में साझा किया है यहां तथा यहां) का है।

विज्ञापन

नीचे पढ़ना जारी रखें

बिल स्लावस्की ने लेंटेंट सिमेंटिक इंडेक्सिंग पर अपनी सूचित राय को ट्वीट किया

क्यों Google अव्यक्त अर्थ विश्लेषण के साथ संबद्ध है

पेटेंट और अनुसंधान पत्रों के संदर्भ में कोई सबूत नहीं होने के बावजूद कि LSI / LSA रैंकिंग से संबंधित महत्वपूर्ण कारक हैं, Google अभी भी लेंटेंट सिमेंटिक इंडेक्सिंग से जुड़ा हुआ है।

इसका एक कारण Google द्वारा एप्लाइड सेमेंटिक्स नामक कंपनी का 2003 का अधिग्रहण है।

एप्लाइड सेमेंटिक्स ने एक तकनीक बनाई थी जिसे सर्का कहा जाता था। सर्का एक अर्थिक विश्लेषण एल्गोरिथ्म था जिसका उपयोग ऐडसेंस में किया गया था और इसमें भी किया गया था Google Adwords

विज्ञापन

नीचे पढ़ना जारी रखें

के अनुसार Google की प्रेस विज्ञप्ति:

“एप्लाइड शब्दार्थ विज्ञान शब्दार्थ पाठ प्रसंस्करण और ऑनलाइन विज्ञापन में एक सिद्ध प्रर्वतक है,” Google के सह-संस्थापक और प्रौद्योगिकी के अध्यक्ष सर्गेई ब्रिन ने कहा। “यह अधिग्रहण Google को नई तकनीकों को बनाने में सक्षम करेगा जो उपयोगकर्ताओं, प्रकाशकों और विज्ञापनदाताओं के लिए ऑनलाइन विज्ञापन को अधिक उपयोगी बनाते हैं।

एप्लाइड सेमिन्टिक्स के उत्पाद इसकी पेटेंट CIRCA तकनीक पर आधारित हैं, जो कि वेबसाइटों और सूचना रिपॉजिटरी से ज्ञान को समझने, व्यवस्थित करने, और निकालने के तरीके पर आधारित है जो मानव विचार की नकल करता है और अधिक प्रभावी जानकारी पुनर्प्राप्ति को सक्षम बनाता है। CIRCA तकनीक का एक महत्वपूर्ण अनुप्रयोग एप्लाइड सेमेंटिक्स ‘AdSense उत्पाद है जो वेब प्रकाशकों को अत्यधिक प्रासंगिक और लक्षित विज्ञापनों को वितरित करने के लिए वेब पेजों पर प्रमुख विषयों को समझने में सक्षम बनाता है। “

शब्दार्थ विश्लेषण और एसईओ

“सिमेंटिक एनालिसिस” वाक्यांश 2000 के दशक की शुरुआत में एक गर्म बज़ट था, जो आंशिक रूप से आस्क जीव्स की शब्दार्थ खोज तकनीक द्वारा संचालित था।

Google के एप्लाइड सेमेंटिक्स की खरीद ने Google को अव्यक्त अर्थ इंडेक्सिंग के साथ जोड़ने की प्रवृत्ति को तेज कर दिया, इसके बावजूद कोई विश्वसनीय सबूत नहीं है।

विज्ञापन

नीचे पढ़ना जारी रखें

इस प्रकार, 2005 तक खोज विपणन समुदाय बना रहा था इस तरह के बेबाक बयान:

“कई महीनों से मैंने Google पर वेबसाइट रैंकिंग में परिवर्तन देखा है और यह स्पष्ट था कि उनके एल्गोरिथ्म में कुछ बदल गया था।

सबसे महत्वपूर्ण परिवर्तनों में से एक संभावना यह है कि Google अब लेंटेंट सिमेंटिक इंडेक्सिंग (LSI) को अधिक वजन दे रहा है।

अप्रैल 2003 में Google द्वारा एप्लाइड सेमेंटिक्स को खरीदने पर विचार करने पर कोई आश्चर्य नहीं होना चाहिए और कथित तौर पर अव्यक्त अर्थ इंडेक्सिंग का उपयोग करके अपने ऐडसेंस विज्ञापनों की सेवा कर रहा है। “

SEO मिथक जो Google LSI कीवर्ड्स का उपयोग संभवतः “शब्दार्थ विश्लेषण,” “अर्थ इंडेक्सिंग” और “शब्दार्थ खोज” जैसे वाक्यांशों की लोकप्रियता से हुआ है, SEO buzzwords बन गए हैं, पूछो जीवन जी के अर्थ खोज तकनीक और Google की अर्थिक खरीद द्वारा विश्लेषण कंपनी एप्लाइड शब्दार्थ।

अव्यक्त अर्थ सूचकांक के बारे में तथ्य

एलएसआई एक दस्तावेज के बारे में समझने का एक बहुत पुराना तरीका है।

यह 1988 में पेटेंट कराया गया था, जैसा कि इंटरनेट से पहले हम जानते हैं कि यह अस्तित्व में था।

विज्ञापन

नीचे पढ़ना जारी रखें

LSI की प्रकृति सूचना पुनर्प्राप्ति के उद्देश्यों के लिए संपूर्ण इंटरनेट पर आवेदन करने के लिए अनुपयुक्त है।

ऐसे कोई शोध पत्र नहीं हैं जो स्पष्ट रूप से दिखाते हैं कि अव्यक्त अर्थ इंडेक्सिंग Google खोज रैंकिंग की एक महत्वपूर्ण विशेषता है।

इस लेख में प्रस्तुत तथ्यों से पता चलता है कि 2000 के दशक की शुरुआत से ही ऐसा है।

Google द्वारा LSI और LSA के उपयोग की अफवाहें 2003 में सामने आईं जब Google ने प्रासंगिक विज्ञापन उत्पाद AdSense का निर्माण करने वाली कंपनी एप्लाइड सेमेंटिक्स का अधिग्रहण किया।

फिर भी Googlers ने कई बार पुष्टि की है कि Google LSI कीवर्ड जैसी कोई चीज़ का उपयोग नहीं करता है।

मुझे कहना चाहिए कि यह फिर से उन लोगों के लिए जोर से है: LSI कीवर्ड जैसी कोई चीज नहीं है।

भारी मात्रा में सबूतों को देखते हुए, यह दावा करना उचित है कि यह एक तथ्य है कि LSI कीवर्ड की अवधारणा झूठी है।

तथ्य यह भी बताते हैं कि LSI Google की रैंकिंग एल्गोरिदम का एक महत्वपूर्ण हिस्सा नहीं है।

एआई, प्राकृतिक भाषा प्रसंस्करण और बीईआरटी में हालिया प्रगति के प्रकाश में, यह विचार कि Google प्रमुख रूप से एलएसआई का उपयोग एक रैंकिंग सुविधा के रूप में करेगा, सचमुच विश्वास और हास्यास्पद से परे है।

विज्ञापन

नीचे पढ़ना जारी रखें

और अधिक संसाधनों:


लेखक द्वारा चित्रित छवि

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *