Google रिसर्च पेपर खोज में एक आगामी खुलासा करता है

लॉन्ग फॉर्म प्रश्न का उत्तर देने वाला हालिया Google शोध पत्र बताता है कि ऐसे प्रश्नों का उत्तर देना कितना कठिन है, जिनके लिए लंबे और बारीक उत्तरों की आवश्यकता होती है। जबकि शोधकर्ता इस तरह के प्रश्न का उत्तर देने की कला की स्थिति में सुधार करने में सक्षम थे, उन्होंने यह भी स्वीकार किया कि उनके परिणामों में महत्वपूर्ण सुधार की आवश्यकता थी।

मैंने पिछले महीने इस शोध पत्र को पढ़ा था जब इसे प्रकाशित किया गया था और इसे साझा करना चाहते थे क्योंकि यह खोज में एक कमी को हल करने पर केंद्रित है जिसकी चर्चा बिल्कुल नहीं की गई है।

मुझे आशा है कि आपको यह उतना ही आकर्षक लगेगा जितना मैंने किया था!

क्या खोज इंजन सही मिलता है

यह अनुसंधान केंद्रों पर लॉन्ग फॉर्म ओपन-डोमेन क्वेश्चन आंसरिंग, एक क्षेत्र जिसे प्राकृतिक भाषा प्रसंस्करण में सुधार देखना जारी है।

खोज इंजन क्या अच्छा कहलाते हैं, फैक्टॉइड ओपन-डोमेन क्वेश्चन आंसरिंग या केवल ओपन-डोमेन क्वेश्चन आंसरिंग।

विज्ञापन

नीचे पढ़ना जारी रखें

ओपन डोमेन क्वेश्चन आंसरिंग एक ऐसा कार्य है जिसमें एक एल्गोरिथ्म प्राकृतिक भाषा में एक प्रश्न के उत्तर के साथ प्रतिक्रिया करता है।

आसमान का रंग क्या है? आसमान नीला है।

लंबे समय तक सवाल जवाब (LFQA)

शोध पत्र में कहा गया है कि लॉन्ग-फॉर्म प्रश्न उत्तर (LFQA) महत्वपूर्ण है, लेकिन एक चुनौती है और इस तरह के प्रश्न का उत्तर देने में सक्षम होने के रूप में प्रगति ओपन-डोमेन प्रश्न उत्तर के रूप में दूर नहीं है।

शोध पत्र के अनुसार:

“ओपन-डोमेन लॉन्ग-फॉर्म क्वेश्चन आंसरिंग (LFQA) नेचुरल लैंग्वेज प्रोसेसिंग (NLP) में एक मूलभूत चुनौती है, जिसमें किसी दिए गए प्रश्न से संबंधित दस्तावेज़ों को पुनः प्राप्त करना और एक विस्तृत पैराग्राफ़-लेंथ उत्तर उत्पन्न करने के लिए उनका उपयोग करना शामिल है।

हालांकि फैक्टॉइड ओपन-डोमेन प्रश्न उत्तर (क्यूए) में हाल ही में उल्लेखनीय प्रगति हुई है, जहां एक लघु वाक्यांश या इकाई प्रश्न का उत्तर देने के लिए पर्याप्त है, लंबे समय से प्रश्न उत्तर देने के क्षेत्र में बहुत कम काम किया गया है।

LFQA फिर भी एक महत्वपूर्ण कार्य है, विशेष रूप से क्योंकि यह जेनेरिक टेक्स्ट मॉडल की तथ्यात्मकता को मापने के लिए एक परीक्षण प्रदान करता है। लेकिन, क्या मौजूदा बेंचमार्क और मूल्यांकन मैट्रिक्स LFQA पर प्रगति करने के लिए वास्तव में उपयुक्त हैं? ”

विज्ञापन

नीचे पढ़ना जारी रखें

सर्च इंजन सवाल जवाब

खोज इंजन द्वारा पूछे गए प्रश्न का उत्तर आमतौर पर एक खोजकर्ता से होता है जो एक प्रश्न पूछ रहा है और खोज इंजन जानकारी का अपेक्षाकृत छोटा पाठ लौटाता है।

जैसे सवाल “XYZ स्टोर का फ़ोन नंबर क्या है?“एक विशिष्ट प्रश्न का एक उदाहरण है जो खोज इंजन उत्तर देने में अच्छा है, खासकर क्योंकि उत्तर वस्तुनिष्ठ है और व्यक्तिपरक नहीं है।

लांग फॉर्म प्रश्न उत्तर कठिन है क्योंकि प्रश्न पैराग्राफ के रूप में उत्तर की मांग करते हैं, न कि लघु ग्रंथों की।

फ़ेसबुक लॉन्ग फॉर्म क्वेश्चन आंसरिंग पर भी काम कर रहा है और दिलचस्प सॉल्यूशंस के साथ आया है जैसे कि एक्सप्लेन लाइक आई 5 (एक डेटा जिसे ELI5 कहा जाता है) का उपयोग करके एक प्रश्न और उत्तर सब्रेडिट का उपयोग किया जाता है। फेसबुक भी मानता है कि और भी काम करने हैं। ()पेश है लंबे-लंबे सवाल जवाब)

लंबे फॉर्म प्रश्नों के उदाहरण

एक बार जब आप लंबे फार्म के प्रश्नों के इन उदाहरणों को पढ़ लेते हैं, तो यह स्पष्ट हो जाएगा कि सीमित प्रश्नों को पूछने के लिए हमें खोज इंजन द्वारा कैसे प्रशिक्षित किया गया है। यहां तक ​​कि यह चौंकाने वाला भी हो सकता है कि लंबे फॉर्म के सवालों की तुलना में लगभग हमारे शिशु कैसे हैं।

Google शोध पत्र लंबे समय के प्रश्नों के इन उदाहरणों को प्रस्तुत करता है:

  • प्रमुख बैंकों के स्वामित्व वाले उन ऊंचे टॉवर भवनों में क्या होता है?
  • क्या वास्तव में आग है, विस्तार से? कैसे प्रकाश और गर्मी ऐसी चीज से आ सकते हैं जिसे हम वास्तव में छू नहीं सकते
  • ब्रिटेन और अन्य अंग्रेजी साम्राज्य देश अभी भी सम्राट को क्यों झुकाते हैं? रानी का वास्तविक उद्देश्य क्या है?

फेसबुक इन सवालों के उदाहरणों को प्रस्तुत करता है:

  • कुछ रेस्तरां दूसरों से बेहतर क्यों हैं अगर वे मूल रूप से एक ही भोजन परोसते हैं?
  • झीलों, नदियों और समुद्र जैसे पानी के निकायों के बीच अंतर क्या हैं?
  • पूर्व की यात्रा करते समय हमें अधिक जेट क्यों लगता है?

क्या खोजकर्ता कारक के लिए लघु प्रश्न पूछने के लिए प्रशिक्षित हैं?

Google (और बिंग) के पास इन लंबे प्रकार के सवालों के जवाब देने में मुश्किल समय है। यह उनकी सामग्री की सतह की क्षमता को प्रभावित कर सकता है जो जटिल प्रश्नों के लिए जटिल उत्तर प्रदान करता है।

हो सकता है कि लोग ये सवाल न पूछें क्योंकि उन्हें खराब प्रतिक्रियाओं के कारण प्रशिक्षित नहीं किया गया है। लेकिन अगर सर्च इंजन इस तरह के सवालों के जवाब देने में सक्षम होते तो लोग उनसे पूछना शुरू कर देते।

विज्ञापन

नीचे पढ़ना जारी रखें

यह प्रश्नों और उत्तरों की एक पूरी विस्तृत दुनिया है जो हमारे खोज अनुभव से गायब हैं।

अगर मैं मुहावरा छोटा करूं ”कुछ रेस्तरां दूसरों से बेहतर क्यों हैं अगर वे मूल रूप से एक ही भोजन परोसते हैं?” सेवा मेरे “कुछ रेस्तरां दूसरों की तुलना में बेहतर क्यों हैं?“Google और बिंग अभी भी पर्याप्त उत्तर देने में विफल हैं।

उस प्रश्न के लिए शीर्ष Google खोज परिणाम एक कनाडाई भारतीय के (HTTP असुरक्षित) ब्लॉग से आता है।

Google SERP में भारतीय रेस्तरां के इस भाग का हवाला देता है:

“लोग समग्र अनुभव के लिए भुगतान करते हैं न कि केवल भोजन के लिए और यही कारण है कि कुछ रेस्तरां दूसरों की तुलना में बहुत अधिक शुल्क लेते हैं। रेस्तरां के ग्राहक भोजन के प्रकार, सेवा के स्तर और रेस्तरां के समग्र वातावरण को दर्शाने की उम्मीद करते हैं। “

क्या होगा अगर उस सवाल को पूछने पर उस व्यक्ति के मन में पोपे की फ्राइड चिकन बनाम केएफसी था?

एक निश्चित मात्रा में व्यक्तिपरकता है जो इस प्रकार के प्रश्नों के उत्तर देने में रेंग सकती है जो लंबे और सुसंगत उत्तर की मांग करते हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

मैं यह सोचने में मदद नहीं कर सकता कि कहीं बेहतर जवाब है। लेकिन Google और बिंग उस तरह की सामग्री को सतह पर लाने में असमर्थ हैं।

Google उच्च गुणवत्ता की सामग्री की पहचान करने के लिए संकेतों का उपयोग करता है

Google द्वारा सितंबर 2020 में प्रकाशित एक हाउ सर्च वर्क्स व्याख्याता में, Google स्वीकार करता है कि वह सामग्री का उपयोग स्वयं की पहचान के लिए नहीं करता है यदि वह विश्वसनीय या विश्वसनीय है।

Google बताता है कि यह एक ब्लॉग पोस्ट में संकेतों का उपयोग करता है जिसका शीर्षक है,Google खोज में विश्वसनीय जानकारी कैसे प्रदान करता है

“… जब यह उच्च-गुणवत्ता, भरोसेमंद जानकारी की बात आती है … हम अक्सर शब्दों या छवियों से अकेले नहीं बता सकते हैं कि कुछ अतिरंजित, गलत, कम-गुणवत्ता या अन्यथा अनपेक्षित है।

इसके बजाय, खोज इंजन मोटे तौर पर उस सामग्री की गुणवत्ता को समझते हैं जिसे आमतौर पर “सिग्नल” कहा जाता है। आप इन्हें पृष्ठ की उन विशेषताओं के बारे में सोच सकते हैं, जो किसी ऐसे व्यक्ति के साथ संरेखित करती हैं जो मानव उच्च गुणवत्ता या विश्वसनीय के रूप में व्याख्या कर सकता है।

उदाहरण के लिए, किसी विशेष पृष्ठ से लिंक करने वाले गुणवत्ता पृष्ठों की संख्या एक संकेत है कि पृष्ठ किसी विषय पर जानकारी का एक विश्वसनीय स्रोत हो सकता है। ”

विज्ञापन

नीचे पढ़ना जारी रखें

दुर्भाग्य से, Google के एल्गोरिथ्म का वह हिस्सा इन प्रकार के लंबे फॉर्म प्रश्नों का सही उत्तर देने में असमर्थ है।

और यह समझने के लिए एक दिलचस्प और महत्वपूर्ण तथ्य है क्योंकि यह इस बात से अवगत होने में मदद करता है कि आज तकनीक खोजने के लिए क्या सीमाएँ हैं।

पैसेज रैंकिंग के बारे में क्या?

पैसेज रैंकिंग लंबे वेब पेजों की रैंकिंग के बारे में है जिनमें सामान्य लघु प्रश्नों के लिए संक्षिप्त उत्तर होते हैं, जिन्हें एक वस्तुनिष्ठ उत्तर की आवश्यकता होती है।

मार्टिन स्प्लिट ने एक वेब पेज में टमाटर के बारे में एक प्रासंगिक उत्तर खोजने के उदाहरण का उपयोग किया जो कि ज्यादातर बागवानी के बारे में है।

पैसेज रैंकिंग उन कठिन प्रश्नों को हल नहीं कर सकती है जो Google वर्तमान में उत्तर नहीं दे सकता है।

Google और बिंग दोनों आम तौर पर LFQA प्रकार के प्रश्नों का उत्तर देने में विफल रहते हैं क्योंकि यह एक ऐसा क्षेत्र है जिसे खोज इंजन को अभी भी सुधारने की आवश्यकता है।

प्रगति के लिए बाधाएं

शोध पत्र स्वयं स्वीकार करता है कि शीर्षक में कमी:

दीर्घकालीन प्रश्न उत्तर में प्रगति की बाधा

शोध पत्र यह कहकर निष्कर्ष निकालता है कि इस कार्य को हल करने के लिए इसका दृष्टिकोण “कला प्रदर्शन की स्थिति प्राप्त करता है” लेकिन यह है कि अभी भी हल करने के लिए मुद्दे हैं और अधिक शोध किए जाने की आवश्यकता है।

विज्ञापन

नीचे पढ़ना जारी रखें

इस तरह से पेपर समाप्त होता है:

“हम“ रिट्रीवल संवर्धित ”पीढ़ी प्रणाली पेश करते हैं जो कि एलआईआई 5 दीर्घावधि प्रश्न पर डेटासेट के जवाब में कला प्रदर्शन की स्थिति प्राप्त करता है। हालाँकि, एक गहन विश्लेषण में न केवल हमारे मॉडल के साथ, बल्कि ELI5 डेटासेट और मूल्यांकन मेट्रिक्स के साथ कई मुद्दों का पता चलता है। हमें उम्मीद है कि समुदाय इन मुद्दों को हल करने की दिशा में काम करता है ताकि हम सही पहाड़ियों पर चढ़ सकें और सार्थक प्रगति कर सकें। ”

प्रश्न और अटकलें

यह निश्चित उत्तर प्रदान करना संभव नहीं है, लेकिन किसी को आश्चर्य होता है कि क्या वहाँ वेब पेज हैं जो ट्रैफ़िक को याद कर रहे हैं क्योंकि Google और बिंग दोनों ही लंबे फॉर्म के सवालों के जवाब में अपनी लंबी फ़ॉर्म सामग्री को सतह पर नहीं ला पा रहे हैं।

इसके अलावा, कुछ प्रकाशक गलती से आधिकारिक होने की चाह में अपने लेखों को गलत लिख देते हैं। क्या यह संभव है कि उन प्रकाशकों ने खुद को प्रश्नों से खोज ट्रैफिक से बाहर कर दिया हो, जो छोटे उत्तरों की मांग करते हैं क्योंकि सर्च इंजन लंबे समय तक दस्तावेजों में उपलब्ध जवाब नहीं दे सकते हैं?

विज्ञापन

नीचे पढ़ना जारी रखें

इन उत्तरों को निश्चित रूप से जानने का कोई तरीका नहीं है।

लेकिन इस शोध पत्र से एक बात स्पष्ट होती है कि लंबे समय तक प्रश्न का उत्तर देना आज सर्च इंजन में कमी है।

उद्धरण

Google AI ब्लॉग पोस्ट
प्रगति और लंबी-खुली ओपन-डोमेन प्रश्न उत्तर में चुनौतियां

शोध पत्र का पीडीएफ संस्करण
दीर्घकालीन प्रश्न उत्तर में प्रगति की बाधा

फेसबुक वेब पेज LFQA के बारे में
पेश है लंबे-लंबे सवाल जवाब

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *