वे कैसे काम करते हैं और साथ काम करते हैं

पिछले महीने यहां सर्च इंजन जर्नल पर लेखक रोजर मोंटी ने गूगल रिसर्च पेपर को कवर किया था नई प्राकृतिक भाषा प्रसंस्करण एल्गोरिथ्म का नाम SMITH है

निष्कर्ष? एसएमईटी ने लंबे दस्तावेजों के लिए बीईआरटी को आउटपरफॉर्म किया।

हम में गोता लगाने से पहले, अभी, Google के एल्गोरिदम में SMITH लाइव नहीं है। अगर मेरी स्पाइडी सेंस सही है, तो इसे पासिंग इंडेक्सिंग के साथ रोल आउट किया जाएगा, या इसे पूर्ववर्ती किया जाएगा।

नियमित पाठकों को पता होगा कि मुझे मशीन लर्निंग में रुचि है क्योंकि यह खोज से संबंधित है, और इसलिए मुझे इसमें गोता लगाना पड़ा शोध पत्र मेरे लिए।

मुझे भी करना पड़ा कुछ BERT डॉक्स को फिर से देखें वास्तव में मेरे दिमाग को लपेटने के लिए कि क्या चल रहा था।

क्या BERT को बदला जाना है?

वेब पर अधिकांश दस्तावेज़ नहीं हैं जो पतली सामग्री के लिए लंबे समय तक नहीं हैं, और इस तरह एसएमईटीटी के लिए बेहतर है?

मैं आपको पहले निष्कर्ष पर ले जा रहा हूं।

SMITH दोनों काम कर सकती है, और एक bazooka एक दरवाजा खोल सकता है। लेकिन आप अभी भी कई मामलों में अपनी कुंजी लाने से बेहतर हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

BERT या SMITH क्यों शुरू करें?

हम वास्तव में इस सवाल के साथ पूछ रहे हैं कि क्यों एक खोज इंजन प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का उपयोग करना चाहेगा।

जवाब बहुत सरल है; एनएलपी खोज इंजन से स्ट्रिंग्स (कीवर्ड) को चीजों (संस्थाओं) को समझने के लिए संक्रमण में सहायता करता है।

जहां Google को एक बार पता नहीं था कि कीवर्ड के अलावा किसी अन्य पेज पर क्या होना चाहिए, या क्या सामग्री भी समझ में आती है, एनएलपी के साथ शब्दों के संदर्भ को बेहतर ढंग से समझना सीख गया।

सुर।

वह “बैंक खाता” और “रिवरबैंक” अलग-अलग बैंकों का उल्लेख कर रहे हैं।

यह वाक्य, “डेव ने डैनी के साथ बीयर, बियर, पिंट, ग्लास, ड्रिंक, एले, काढ़ा … के लिए मुलाकात की” स्वाभाविक नहीं है।

एक एसईओ पेशेवर के रूप में, मैं पुराने दिनों को याद करता हूं।

जैसा कि किसी को इंटरनेट पर चीजों को खोजने की जरूरत है, मैं नहीं करता।

BERT दर्ज करें

BERT सबसे अच्छा वर्तमान एनएलपी मॉडल है जो हमारे पास बहुतों के लिए है, यदि अधिकांश नहीं हैं, तो जटिल भाषा संरचनाओं को समझने सहित अनुप्रयोग।

BERT के साथ सबसे बड़ी छलांग मेरी राय में पहले चरित्र में, द्विदिश था।

BERT - मशीन लर्निंग

बाएं-से-दाएं बस “पढ़ने” के बजाय, यह संदर्भ को दूसरे तरीके से जाने के बारे में भी समझ सकता है।

विज्ञापन

नीचे पढ़ना जारी रखें

एक अत्यधिक सरल उदाहरण निम्नलिखित वाक्य को समझने में हो सकता है:

एक कार में रोशनी होती है।

यदि आप केवल बाएं से दाएं समझ सकते हैं, तो जब आप “लाइट” शब्द से टकराते हैं, तो आप कार को किसी ऐसी चीज के रूप में वर्गीकृत करेंगे, जिसमें रोशनी हो, क्योंकि आप कार से पहले शब्द का सामना कर चुके हैं और एसोसिएशन बना सकते हैं।

लेकिन, अगर आप कारों पर चीजों को वर्गीकृत करना चाहते हैं, तो रोशनी को याद किया जा सकता है क्योंकि वे “कार” से पहले सामने नहीं आए थे।

केवल एक दिशा में सीखना कठिन है।

इसके अतिरिक्त, BERT का “हुड के नीचे” उल्लेखनीय है और पिछले मॉडल की तुलना में कम संसाधन लागत के साथ प्रभावी ढंग से भाषा को संसाधित करने की अनुमति देता है – एक महत्वपूर्ण विचार जब कोई इसे पूरे वेब पर लागू करना चाहता है।

BERT के साथ एक अतिरिक्त छलांग टोकनों के अपने आवेदन की थी।

बीईआरटी में, 30,000 टोकन हैं और प्रत्येक एक सामान्य शब्द का प्रतिनिधित्व करता है जिसमें कुछ बचे हुए टुकड़े और वर्ण के लिए कोई शब्द 30,000 के बाहर होता है।

टोकन प्रसंस्करण और ट्रांसफार्मर के माध्यम से, जिस तरह से बीईआरटी सामग्री को समझने में सक्षम था, उसने मुझे उस क्षमता को दिया, जो ऊपर दिए गए वाक्य में समझा गया था:

“वह आदमी बैंक गया। वह फिर नदी किनारे बैठ गया। ”

“बैंक” के पहले और अंतिम उदाहरणों को अलग-अलग मूल्यों को सौंपा जाना चाहिए क्योंकि वे विभिन्न चीजों का उल्लेख कर रहे हैं।

SMITH के बारे में क्या?

तो अब SMITH बड़े दस्तावेज़ों को संसाधित करने में बेहतर संख्याओं और संसाधन उपयोग के साथ, स्वैगर बनाता है।

BERT प्रति दस्तावेज़ 256 टोकन पर टैप करता है। उसके बाद, कार्यात्मक होने के लिए कंप्यूटिंग लागत बहुत अधिक हो जाती है, और अक्सर बस नहीं होती है।

दूसरी ओर, SMITH, 2,248 टोकन संभाल सकता है। दस्तावेज़ 8x बड़े हो सकते हैं।

यह समझने के लिए कि एक एनएलपी मॉडल में कंप्यूटिंग की लागत क्यों बढ़ जाती है, हमें बस इस पर विचार करने की जरूरत है कि एक वाक्य बनाम पैराग्राफ को समझने में क्या लगता है।

एक वाक्य के साथ, समझने के लिए आम तौर पर केवल एक मूल अवधारणा होती है, और अपेक्षाकृत कम शब्दों का अर्थ है कि स्मृति में पकड़ रखने के लिए शब्दों और विचारों के बीच कुछ कनेक्शन।

उस वाक्य को पैराग्राफ और कनेक्शन को तेजी से गुणा करें।

8x टेक्स्ट को संसाधित करने के लिए वास्तव में कई बार आवश्यकता होती है कि एक ही मॉडल का उपयोग करके गति और मेमोरी अनुकूलन क्षमता में।

विज्ञापन

नीचे पढ़ना जारी रखें

SMITH मूल रूप से बैचिंग, और बहुत से प्रसंस्करण ऑफ़लाइन करके इसके चारों ओर हो जाता है।

लेकिन दिलचस्प बात यह है कि एसएमईटी को कार्य करने के लिए, यह अभी भी बीईआरटी पर भारी पड़ता है।

इसके मूल में, SMITH निम्नलिखित प्रक्रिया के माध्यम से एक दस्तावेज लेता है:

  1. यह दस्तावेज़ों को समूहीकरण के आकारों में तोड़ता है, जो वाक्यों को संभाल सकता है (यानी, यदि दस्तावेज़ 4.5 वाक्यों को लंबाई के आधार पर एक खंड में आवंटित करेगा, तो यह चार हो जाएगा)।
  2. यह तब प्रत्येक वाक्य ब्लॉक को व्यक्तिगत रूप से संसाधित करता है।
  3. एक ट्रांसफार्मर तब प्रत्येक ब्लॉक के संदर्भ निरूपण को सीखता है और उन्हें एक दस्तावेज प्रतिनिधित्व में बदल देता है।

प्रक्रिया का आरेख की तरह लगता है:

SMITH

आप नीचे की चार पंक्तियों और ऊपर की BERT प्रक्रिया के बीच समानता देख सकते हैं। उसके बाद, हम वाक्य-स्तर के अभ्यावेदन की ओर रुख करते हैं और उसे एक दस्तावेज़ स्तर पर रूपांतरित करते हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

ए बिट ऑफ साइड टेक

दिलचस्प है, SMITH मॉडल को प्रशिक्षित करने के लिए, हम BERT से दो तरह से लेते हैं:

1. BERT को प्रशिक्षित करने के लिए वे एक वाक्य और आपूर्ति विकल्पों में से एक शब्द लेंगे।

बेहतर प्रशिक्षित BERT सही विकल्प चुनने में अधिक सफल रहा। उदाहरण के लिए, वे इसे सजा दे सकते हैं:

त्वरित भूरा _____ आलसी कुत्ते पर कूद गया।

विकल्प 1 – लेटिष
विकल्प 2 – लोमड़ी

बेहतर प्रशिक्षित, विकल्प 2 को चुनने की अधिक संभावना है।

यह प्रशिक्षण विधि SMITH के साथ ही जारी है।

2. क्योंकि वे बड़े दस्तावेज़ों के लिए प्रशिक्षण ले रहे हैं, वे मार्ग भी लेते हैं और वाक्य हटाते हैं।

जितनी अधिक संभावना प्रणाली को छोड़े गए वाक्य को पहचानने में होती है, उतना बेहतर प्रशिक्षित होता है।

एक ही विचार, अलग आवेदन।

मुझे यह एक एसईओ समर्थक के रूप में दिलचस्प लगता है, क्योंकि यह एक ऐसी दुनिया को पेंट करता है, जिसमें Google द्वारा तैयार की गई सामग्री को एक साथ दीवार-इन-सीआरपी में जोड़ा जाता है। निश्चित रूप से, उपयोगकर्ता छोड़ सकता है, लेकिन अगर Google एक ही स्थान पर सभी बेहतरीन स्रोतों से लघु और लंबी-सामग्री को एक साथ जोड़ सकता है तो वे क्यों करेंगे?

विज्ञापन

नीचे पढ़ना जारी रखें

सोचो कि ऐसा नहीं होगा? यह पहले से ही शुरू है और ऐसा दिखता है:

Google: न्यूयॉर्क SERP उदाहरण

हालांकि वे अभी भी इसे खराब तरीके से कर रहे हैं, जैसा कि रायसन साइट से इस उदाहरण से स्पष्ट है:

रायर्सन: न्यूयॉर्क

यह अगला चरण बस इसे कम प्रस्फुटित करेगा कि वे केवल सामग्री को छोड़ रहे हैं।

स्मिथ की तरह लगता है बेहतर है …

यह यकीन है कि SMITH की तरह लगता है बेहतर है, है ना?

और कई कार्यों में, यह होगा।

विज्ञापन

नीचे पढ़ना जारी रखें

लेकिन सोचिए कि आप इंटरनेट का इस्तेमाल कैसे करते हैं।

  • “मौसम कैसा है?”
  • “एक गाना बजाओ।”
  • “एक रेस्तरां के लिए दिशा-निर्देश।”

कई प्रश्न न केवल छोटे उत्तरों से संतुष्ट हैं, बल्कि सीमित और अक्सर जटिल डेटा के साथ हैं।

जहां SMITH शामिल है, वह लंबे और जटिल दस्तावेज़ों को समझने में है, और लंबे और जटिल प्रश्नों को।

इसमें अपने स्वयं के उत्तर बनाने के लिए दस्तावेजों और विषयों को एक साथ शामिल करना होगा।

इसमें यह निर्धारित करना शामिल होगा कि कैसे सामग्री को अलग किया जा सकता है (मैं कहने की हिम्मत करता हूं … पैसेज में) ताकि Google को पता हो कि सतह क्या है।

यह प्रत्येक को बेहतर ढंग से समझने में मदद करेगा कि सामग्री के पृष्ठ एक-दूसरे से कैसे संबंधित हैं, लिंक कैसे मूल्यवान हो सकते हैं, और बहुत कुछ।

तो, प्रत्येक एक उद्देश्य में कार्य करता है।

SMITH है बाज़ुका यह इस बात की समझ को चित्रित करेगा कि चीजें कैसी हैं। यह संसाधनों में अधिक महंगा है क्योंकि यह एक बड़ा काम कर रहा है, लेकिन उस काम को करने में BERT की तुलना में बहुत कम खर्चीला है।

विज्ञापन

नीचे पढ़ना जारी रखें

BERT एसएमईटी को ऐसा करने में मदद करेगा, और लघु प्रश्नों और सामग्री विखंडनों को समझने में सहायता करेगा।

यही है, जब तक दोनों को प्रतिस्थापित नहीं किया जाता है, उस समय हम एक और छलांग आगे बढ़ाएंगे और मैं शर्त लगा रहा हूं कि अगला एल्गोरिदम होगा:

बीअप्रत्यक्ष विशेषण-अज्ञेय आरegresson- आधारित ट्रांसफार्मर जीप्रायश्चित करता है।

भीड़ में मेरे जैसे स्टार ट्रेक नर्ड्स को मिलेगा। 😉

और अधिक संसाधनों:


छवि क्रेडिट

लेखक द्वारा सभी स्क्रीनशॉट, जनवरी 2020

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *