Google का स्मिथ एल्गोरिथम आउटपरफॉर्म BERT है

Google ने हाल ही में SMITH नामक एक नए एल्गोरिथ्म पर एक शोध पत्र प्रकाशित किया है जो यह दावा करता है कि यह बेहतर प्रदर्शन करता है बर्ट लंबे प्रश्नों और लंबे दस्तावेजों को समझने के लिए। विशेष रूप से, जो इस नए मॉडल को बेहतर बनाता है वह यह है कि यह सक्षम है पैसेज को समझना उसी तरह दस्तावेजों के भीतर BERT शब्दों और वाक्यों को समझता है, जो सक्षम बनाता है कलन विधि लंबे दस्तावेजों को समझने के लिए।

3 नवंबर, 2020 को मैंने स्मिथ नामक एक Google एल्गोरिथ्म के बारे में पढ़ा, जो BERT से बेहतर प्रदर्शन का दावा करता है। मैंने संक्षेप में 25 नवंबर को नवंबर के अंत में एसईओ 101 पॉडकास्ट के एपिसोड 395 में चर्चा की।

मैं इंतजार कर रहा था जब तक कि मुझे इसका सारांश लिखने के लिए कुछ समय नहीं मिला क्योंकि SMITH एक महत्वपूर्ण एल्गोरिथ्म लगता है और एक विचारशील लेखन के योग्य है, जिसका मैंने विनम्रतापूर्वक प्रयास किया।

तो यहाँ यह है, मुझे आशा है कि आप इसे पसंद करेंगे और यदि आप इस लेख को साझा करते हैं।

क्या Google SMITH एल्गोरिथम का उपयोग कर रहा है?

Google आमतौर पर यह नहीं कहता है कि यह किस विशिष्ट एल्गोरिदम का उपयोग कर रहा है। हालांकि शोधकर्ताओं का कहना है कि यह एल्गोरिथम बीईआरटी को बेहतर बनाता है, जब तक कि Google औपचारिक रूप से यह नहीं बताता कि एसएमईटी एल्गोरिथ्म वेब पेजों के भीतर अंशों को समझने के लिए उपयोग में है, यह कहना विशुद्ध रूप से सट्टा है कि यह उपयोग में है या नहीं।

विज्ञापन

नीचे पढ़ना जारी रखें

स्मिथ एल्गोरिथ्म क्या है?

SMITH पूरे दस्तावेज़ों को समझने की कोशिश करने के लिए एक नया मॉडल है। BERT जैसे मॉडलों को वाक्यों के संदर्भ में शब्दों को समझने के लिए प्रशिक्षित किया जाता है।

बहुत ही सरल वर्णन में, SMITH मॉडल को संपूर्ण दस्तावेज़ के संदर्भ में मार्ग समझने के लिए प्रशिक्षित किया जाता है।

जबकि BERT जैसे एल्गोरिदम को डेटा सेट पर प्रशिक्षित किया जाता है ताकि यह अनुमान लगाया जा सके कि बेतरतीब ढंग से छिपे हुए शब्द वाक्य के भीतर के संदर्भ से हैं, वाक्य के अगले ब्लॉक क्या हैं इसकी भविष्यवाणी करने के लिए SMITH एल्गोरिथम को प्रशिक्षित किया जाता है।

शोधकर्ताओं के अनुसार, इस तरह के प्रशिक्षण से बीईआरटी एल्गोरिदम की तुलना में एल्गोरिदम को बड़े दस्तावेजों को समझने में मदद मिलती है।

BERT एल्गोरिथम की सीमाएँ हैं

इस प्रकार वे BERT की कमियों को प्रस्तुत करते हैं:

“हाल के वर्षों में, ट्रांसफॉर्मर… और बीईआरटी जैसे स्वयं-ध्यान आधारित मॉडल ने टेक्स्ट मिलान के कार्य में अत्याधुनिक प्रदर्शन प्राप्त किया है। हालाँकि, ये मॉडल अभी भी कुछ पाठों जैसे लघु पाठ तक सीमित हैं या इनपुट टेक्स्ट लंबाई के संबंध में आत्म-ध्यान के द्विघात कम्प्यूटेशनल जटिलता के कारण एक पैराग्राफ है।

इस पत्र में, हम लंबे फॉर्म के मिलान के लिए सियामी मल्टी-डेप्थ ट्रांसफॉर्मर-आधारित पदानुक्रमित (SMITH) एनकोडर का प्रस्ताव करके मुद्दे को संबोधित करते हैं। हमारे मॉडल में लंबे समय तक पाठ इनपुट के लिए आत्म-ध्यान मॉडल को अनुकूलित करने के लिए कई नवाचार शामिल हैं। “

विज्ञापन

नीचे पढ़ना जारी रखें

शोधकर्ताओं के अनुसार, BERT एल्गोरिथ्म छोटे दस्तावेजों को समझने तक सीमित है। शोध पत्र में बताए गए विभिन्न कारणों के लिए, बीईआरटी लंबी-अवधि के दस्तावेजों को समझने के लिए उपयुक्त नहीं है।

शोधकर्ताओं ने उनके नए एल्गोरिथ्म का प्रस्ताव रखा है जो कहते हैं कि वे BERT को लंबे दस्तावेजों के साथ बताते हैं।

वे तब समझाते हैं कि क्यों लंबे दस्तावेज़ मुश्किल हैं:

“… लंबे पाठों के बीच शब्दार्थ मिलान कुछ कारणों से अधिक चुनौतीपूर्ण कार्य है:

1) जब दोनों ग्रंथ लंबे होते हैं, तो उन्हें मिलान करने से लंबी दूरी के साथ पाठ के टुकड़ों के बीच मिलान पैटर्न सहित अर्थ संबंधों की अधिक गहन समझ की आवश्यकता होती है;

2) लंबे दस्तावेजों में आंतरिक संरचना जैसे खंड, मार्ग और वाक्य शामिल हैं। मानव पाठकों के लिए, दस्तावेज़ संरचना आमतौर पर सामग्री समझ के लिए एक महत्वपूर्ण भूमिका निभाती है। इसी तरह, एक मॉडल को बेहतर दस्तावेज़ मिलान प्रदर्शन के लिए दस्तावेज़ संरचना जानकारी को भी ध्यान में रखना होगा;

3) लंबे पाठों के प्रसंस्करण में व्यावहारिक मॉडल डिजाइन के बिना टीपीयू / जीपीयू यादों से बाहर व्यावहारिक मुद्दों को ट्रिगर करने की अधिक संभावना है। “

बड़ा इनपुट पाठ

BERT सीमित है कि कितने समय तक दस्तावेज हो सकते हैं। SMITH, जैसा कि आप आगे देखेंगे, दस्तावेज़ जितना लंबा होगा उतना बेहतर प्रदर्शन करता है।

यह BERT के साथ एक ज्ञात कमी है।

इस प्रकार वे इसे समझाते हैं:

“लॉन्ग-फॉर्म टेक्स्ट मिलान के लिए कई बेंचमार्क डेटा पर प्रायोगिक परिणाम … दिखाते हैं कि हमारे प्रस्तावित एसएमईटी मॉडल पिछले अत्याधुनिक मॉडल को बेहतर बनाते हैं और बीईआरटी बेसलाइन के साथ तुलना करते हुए अधिकतम इनपुट टेक्स्ट की लंबाई 512 से 2048 तक बढ़ाते हैं।”

SMITH का यह तथ्य कुछ ऐसा करने में सक्षम है जो BERT करने में असमर्थ है, जो SMITH मॉडल को पेचीदा बनाता है।

स्मिथ मॉडल BERT को प्रतिस्थापित नहीं करता है।

एसएमईईटी मॉडल BERT को भारी भार उठाकर BERT की खुराक देता है जो BERT करने में असमर्थ है।

शोधकर्ताओं ने इसका परीक्षण किया और कहा:

“लंबे समय के दस्तावेज़ मिलान के लिए कई बेंचमार्क डेटासेट पर हमारे प्रयोगात्मक परिणाम बताते हैं कि हमारे प्रस्तावित SMITH मॉडल श्रेणीबद्ध ध्यान सहित पिछले अत्याधुनिक मॉडल को बेहतर बनाते हैं …, बहु-गहराई ध्यान-आधारित पदानुक्रमित पुनरावर्ती तंत्रिका नेटवर्क … और BERT ।

BERT आधारित बेसलाइनों की तुलना में, हमारा मॉडल 512 से 2048 तक अधिकतम इनपुट पाठ लंबाई बढ़ाने में सक्षम है। “

लॉन्ग टू लॉन्ग मैचिंग

यदि मैं शोध पत्र को सही ढंग से समझ रहा हूं, तो शोध पत्र में कहा गया है कि लंबे प्रश्नों को लंबी सामग्री से मिलान करने की समस्या का पर्याप्त रूप से पता नहीं लगाया गया है।

विज्ञापन

नीचे पढ़ना जारी रखें

शोधकर्ताओं के अनुसार:

“हमारे ज्ञान के सर्वश्रेष्ठ के लिए, लंबे दस्तावेज़ जोड़े के बीच शब्दार्थ मिलान, जिसमें समाचार सिफारिश, संबंधित लेख सिफारिश और दस्तावेज़ क्लस्टरिंग जैसे कई महत्वपूर्ण अनुप्रयोग हैं, कम खोजबीन की जाती है और अधिक शोध प्रयास की आवश्यकता होती है।”

बाद में दस्तावेज़ में उन्होंने कहा कि कुछ अध्ययन हुए हैं जो शोध कर रहे हैं, उनके करीब आते हैं।

लेकिन कुल मिलाकर लंबे दस्तावेज़ों से मिलान करने के तरीकों पर शोध करने के लिए एक अंतर प्रतीत होता है। यह समस्या एसएमईटी एल्गोरिथ्म के साथ हल कर रहे हैं।

Google के SMITH का विवरण

मैं एल्गोरिथ्म के विवरण में गहराई से नहीं जाऊंगा, लेकिन मैं कुछ सामान्य विशेषताओं को उठाऊंगा जो उच्च स्तर के दृश्य को संवाद करते हैं कि यह क्या है।

दस्तावेज़ बताता है कि वे एक पूर्व-प्रशिक्षण मॉडल का उपयोग करते हैं जो बीईआरटी और कई अन्य के समान है एल्गोरिदम

पहले थोड़ी पृष्ठभूमि की जानकारी इसलिए दस्तावेज़ अधिक समझ में आता है।

एल्गोरिथम पूर्व प्रशिक्षण

पूर्व-प्रशिक्षण वह है जहां एक एल्गोरिथ्म को डेटा सेट पर प्रशिक्षित किया जाता है। इन प्रकार के एल्गोरिदम के विशिष्ट पूर्व प्रशिक्षण के लिए, इंजीनियर वाक्यों के भीतर यादृच्छिक शब्दों को छिपाएंगे। एल्गोरिथ्म नकाबपोश शब्दों की भविष्यवाणी करने की कोशिश करता है।

विज्ञापन

नीचे पढ़ना जारी रखें

एक उदाहरण के रूप में, अगर एक वाक्य के रूप में लिखा है, “ओल्ड मैकडॉनल्ड्स में एक ____ था,“एल्गोरिथ्म जब पूरी तरह से प्रशिक्षित भविष्यवाणी कर सकते हैं,”खेत”गायब शब्द है।

जैसा कि एल्गोरिथ्म सीखता है, यह अंततः प्रशिक्षण डेटा पर कम गलतियाँ करने के लिए अनुकूलित हो जाता है।

मशीन को सटीक बनाने और कम गलतियां करने के लिए प्रशिक्षण के उद्देश्य से पूर्व प्रशिक्षण किया जाता है।

यहाँ कागज क्या कहता है:

“BERT, SMITH जैसे भाषा मॉडल पूर्व-प्रशिक्षण विधियों की हालिया सफलता से प्रेरित होकर”अप्रशिक्षित पूर्व प्रशिक्षण + ठीक-ट्यूनिंग“मॉडल प्रशिक्षण के लिए प्रतिमान।

स्मिथ मॉडल पूर्व प्रशिक्षण के लिए, हम लंबे टेक्स्ट इनपुट के लिए BERT में प्रयुक्त मूल नकाबपोश शब्द भाषा मॉडलिंग कार्य के अलावा नकाबपोश वाक्य ब्लॉक भाषा मॉडलिंग कार्य प्रस्तावित करते हैं। “

पूर्व प्रशिक्षण में वाक्यों के ब्लॉक छिपे हुए हैं

यहां वह जगह है जहां शोधकर्ता एल्गोरिथ्म के एक महत्वपूर्ण हिस्से की व्याख्या करते हैं, कि कैसे दस्तावेज़ में वाक्य ब्लॉक के बीच संबंध पूर्व-प्रशिक्षण प्रक्रिया के दौरान एक दस्तावेज़ के बारे में समझने के लिए उपयोग किए जाते हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

“जब इनपुट टेक्स्ट लंबा हो जाता है, तो वाक्य ब्लॉक में शब्दों के बीच संबंध और दस्तावेज़ के भीतर वाक्य ब्लॉक के बीच संबंध सामग्री समझ के लिए महत्वपूर्ण हो जाता है।

इसलिए, हम मॉडल पूर्व प्रशिक्षण के दौरान बेतरतीब ढंग से चयनित शब्दों और वाक्य ब्लॉकों दोनों को मुखौटा करते हैं। “

शोधकर्ता अगला और अधिक विस्तार से वर्णन करते हैं कि यह एल्गोरिदम बीईआरटी एल्गोरिदम से ऊपर और परे कैसे जाता है।

वे जो कर रहे हैं वह वाक्यों के ब्लॉक पर लेने के लिए शब्द प्रशिक्षण से परे जाने के लिए प्रशिक्षण को आगे बढ़ा रहा है।

यहां बताया गया है कि यह शोध दस्तावेज में कैसे वर्णित है:

“BERT में नकाबपोश शब्द भविष्यवाणी कार्य के अलावा, हम विभिन्न वाक्य ब्लॉकों के बीच संबंधों को जानने के लिए नकाबपोश वाक्य ब्लॉक भविष्यवाणी कार्य प्रस्तावित करते हैं।”

SMITH एल्गोरिथम को वाक्यों के ब्लॉक की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। उस बारे में मेरी व्यक्तिगत भावना … यह बहुत अच्छा है।

यह एल्गोरिदम शब्दों के बीच संबंधों को सीख रहा है और फिर वाक्यों के ब्लॉक के संदर्भ को जानने के लिए समतल कर रहा है और एक लंबे दस्तावेज़ में वे एक दूसरे से कैसे संबंधित हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

धारा 4.2.2, जिसका शीर्षक है, “नकाबपोश वाक्य ब्लॉक भविष्यवाणी” प्रक्रिया पर अधिक विवरण प्रदान करता है (नीचे दिए गए शोध पत्र)।

SMITH परीक्षण के परिणाम

शोधकर्ताओं ने कहा कि SMITH लंबे पाठ दस्तावेजों के साथ बेहतर करता है।

“SMITH मॉडल जो अन्य मानक आत्म-ध्यान मॉडल की तुलना में लंबे समय तक इनपुट पाठ लंबाई प्राप्त करता है, सीखने और मिलान के लिए लंबे दस्तावेज़ के लिए एक बेहतर विकल्प है।”

अंत में, शोधकर्ताओं ने निष्कर्ष निकाला कि SMITH एल्गोरिथ्म लंबे दस्तावेजों के लिए BERT से बेहतर है।

क्यों स्मिथ रिसर्च पेपर महत्वपूर्ण है

पेटेंट के ऊपर शोध पत्र पढ़ना मैं जिन कारणों से पसंद करता हूं उनमें से एक यह है कि शोध पत्र इस बात का विवरण साझा करते हैं कि प्रस्तावित मॉडल कला के मौजूदा और अत्याधुनिक मॉडल से बेहतर है या नहीं।

कई शोध पत्र यह कहकर निष्कर्ष निकालते हैं कि अधिक काम करने की आवश्यकता है। मेरे लिए इसका मतलब है कि एल्गोरिथम प्रयोग आशाजनक है लेकिन संभवत: एक जीवित वातावरण में डालने के लिए तैयार नहीं है।

शोध पत्रों का एक छोटा प्रतिशत कहता है कि परिणाम कला की स्थिति को बेहतर बनाते हैं। ये शोध पत्र हैं जो मेरी राय में ध्यान देने योग्य हैं क्योंकि वे इसे Google के एल्गोरिथ्म में बनाने के लिए संभावित हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

जब मैं लाइकियर कहता हूं, तो मेरा मतलब यह नहीं है कि एल्गोरिथ्म है या में होगा Google का एल्गोरिदम

मेरा मतलब है कि, अन्य एल्गोरिदम प्रयोगों के सापेक्ष, शोध पत्र जो कला की स्थिति को बेहतर बनाने का दावा करते हैं, Google के एल्गोरिथम में इसे बनाने की अधिक संभावना है।

लंबे फॉर्म दस्तावेजों के लिए एसएमईटी आउटपरफॉर्म बर्ट

शोध पत्र में पहुंचे निष्कर्षों के अनुसार, SMITH मॉडल लंबी सामग्री को समझने के लिए BERT सहित कई मॉडलों को बेहतर बनाता है।

“कई बेंचमार्क डेटासेट पर प्रायोगिक परिणाम बताते हैं कि हमारे प्रस्तावित एसएमईटीटी मॉडल ने पिछले सैंपल मिलान के लिए एचएएन, एसएमएएसएच और बीईआरटी सहित अत्याधुनिक सियामियों के मिलान मॉडल को बेहतर बनाया है।

इसके अलावा, हमारा प्रस्तावित मॉडल BERT- आधारित बेसलाइन विधियों की तुलना में अधिकतम इनपुट पाठ लंबाई को 512 से बढ़ाकर 2048 कर देता है। “

उपयोग में स्मिथ है?

जैसा कि पहले लिखा गया था, जब तक कि Google स्पष्ट रूप से यह नहीं बताता कि वे SMITH का उपयोग कर रहे हैं, तब तक यह कहने का कोई तरीका नहीं है कि SMITH मॉडल Google में उपयोग में है।

उस ने कहा, शोध पत्र जो उपयोग में होने की संभावना नहीं है, वे स्पष्ट रूप से बताते हैं कि निष्कर्ष एक नए प्रकार के एल्गोरिथ्म की ओर पहला कदम है और अधिक शोध आवश्यक है।

विज्ञापन

नीचे पढ़ना जारी रखें

इस शोध पत्र के साथ ऐसा नहीं है। शोध पत्र के लेखक आत्मविश्वास से कहते हैं कि एसएमईटीटी लंबी-फार्म सामग्री को समझने के लिए कला की स्थिति को धड़कता है।

परिणामों में यह विश्वास और एक बयान की कमी है कि अधिक शोध की आवश्यकता है, इस पेपर को दूसरों की तुलना में अधिक दिलचस्प बनाता है और इसलिए अच्छी तरह से जानने के लायक है कि यह भविष्य में या वर्तमान में Google के एल्गोरिथ्म में बदल जाता है।

उद्धरण

मूल शोध पत्र पढ़ें:

स्मिथ एल्गोरिथ्म का विवरण

स्मिथ एल्गोरिथ्म पीडीएफ शोध पत्र डाउनलोड करें:

५१२ स्तन से परे: लंबे समय के दस्तावेज़ मिलान के लिए स्याम देश की बहु-गहराई वाला ट्रांसफार्मर-आधारित श्रेणीबद्ध एनकोडर (पीडीएफ)

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *