Google ऑडियो खोज – क्या यह कभी संभव होगा?

क्या Google के लिए ऑडियो सामग्री का एक सूचकांक बनाना संभव होगा जिसे उपयोगकर्ता वेब पृष्ठों की तरह खोज सकते हैं?

प्रारंभिक परीक्षण के परिणाम, जिसे Google ने एक ब्लॉग लेख में प्रकाशित किया, इंगित करता है कि ऑडियो खोज ध्वनि की तुलना में पूरा करना कठिन है।

इन परीक्षणों का विवरण KQED में डिजिटल रणनीतिक साझेदारी के एसवीपी टिम ओल्सन द्वारा लिखे गए एक लेख में साझा किया गया है।

Google ऑडियो को अधिक खोजने योग्य बनाने के लिए संयुक्त प्रयास में KQED के साथ साझेदारी कर रहा है।

एक AI सेवा प्रदाता, KUNGFU.AI की मदद से, Google और KQED ने यह निर्धारित करने के लिए परीक्षण चलाए कि ऑडियो को इस तरह से कैसे तेज और त्रुटि मुक्त किया जाए।

यहाँ वे क्या खोज की है।

ऑडियो सर्च की कठिनाइयाँ

ऑडियो खोज को एक संभावना बनाने के लिए सबसे बड़ी बाधा तथ्य यह है कि ऑडियो को खोज और सॉर्ट करने से पहले पाठ में परिवर्तित किया जाना चाहिए।

विज्ञापन

नीचे पढ़ना जारी रखें

वर्तमान में ऑडियो को सही तरीके से प्रसारित करने का कोई तरीका नहीं है जो इसे जल्दी से ढूंढने की अनुमति देता है।

कभी-कभी विश्वव्यापी पैमाने पर एकमात्र ऑडियो खोज स्वचालित ट्रांसक्रिप्शन के माध्यम से संभव होगी। मैनुअल ट्रांस्क्रिप्शंस प्रकाशकों से काफी समय और प्रयास दूर ले जाएगा।

KQED के ओल्सन ने नोट किया कि कैसे ऑडियो ट्रांसक्रिप्शन के लिए सटीकता के लिए बार को उच्च करने की आवश्यकता होती है, खासकर जब यह ऑडियो न्यूज को इंडेक्स करने की बात आती है। भाषण-से-पाठ में अब तक किए गए अग्रिम वर्तमान में उन मानकों को पूरा नहीं करते हैं।

वर्तमान भाषण-से-पाठ प्रौद्योगिकी की सीमाएँ

Google ने KQED और KUNGFU.AI के साथ नवीनतम भाषण-टू-टेक्स्ट टूल को ऑडियो समाचारों के संग्रह में लागू करके परीक्षण किया।

एआई को उचित संज्ञा (जिसे नामित संस्था के रूप में भी जाना जाता है) की पहचान करने की क्षमता में सीमाओं का पता चला था।

विज्ञापन

नीचे पढ़ना जारी रखें

नामित संस्थाओं को कभी-कभी संदर्भ की पहचान करने की आवश्यकता होती है जिसे सटीक रूप से पहचाना जाना चाहिए, जो एआई के पास हमेशा नहीं होता है।

ओल्सन KQED की ऑडियो समाचार का एक उदाहरण देता है जिसमें खाड़ी क्षेत्र के संदर्भ में नामित संस्थाओं से भरा भाषण है:

“KQED का स्थानीय समाचार ऑडियो विषयों, लोगों, स्थानों और संगठनों से संबंधित नामित संस्थाओं के संदर्भ में समृद्ध है जो खाड़ी क्षेत्र क्षेत्र के लिए प्रासंगिक हैं। वक्ताओं सैन फ्रांसिस्को में सैन फ्रांसिस्को के लिए फैले क्षेत्र के लिए कैलिफोर्निया राजमार्ग गश्ती और “प्रायद्वीप” के लिए “सीएचपी” जैसे शब्दकूटों का उपयोग करते हैं। आर्टिफिशियल इंटेलिजेंस की पहचान के लिए ये अधिक कठिन हैं। “

जब नामित संस्थाओं को समझा नहीं जाता है, तो एआई अपना सर्वश्रेष्ठ अनुमान लगाता है कि क्या कहा गया था। हालाँकि, यह वेब खोज के लिए एक अस्वीकार्य समाधान है, क्योंकि एक गलत प्रतिलेखन क्या कहा गया था के पूरे अर्थ को बदल सकता है।

आगे क्या होगा?

विकसित होने पर तकनीक को व्यापक रूप से सुलभ बनाने की योजनाओं के साथ ऑडियो सर्च पर काम जारी रहेगा।

डेविड स्टोलर, Google पर समाचार और प्रकाशन के पार्टनर लीड, का कहना है कि इस परियोजना पर काम पूरा होने पर तकनीक को खुले तौर पर साझा किया जाएगा।

“गूगल न्यू इनिशिएटिव के स्तंभों में से एक मुश्किल समस्याओं के लिए नए दृष्टिकोणों को जन्म दे रहा है। एक बार पूरा होने के बाद, यह तकनीक और संबंधित सर्वोत्तम प्रथाओं को खुले तौर पर साझा किया जाएगा, जो प्रत्याशित प्रभाव का विस्तार करता है। ”

आज के मशीन लर्निंग मॉडल अपनी गलतियों से नहीं सीख रहे हैं, KQED के ओल्सन कहते हैं, जो कि जहां मनुष्यों को कदम रखने की आवश्यकता हो सकती है।

अगला कदम एक फीडबैक लूप का परीक्षण करना है जहां न्यूज़ रूम सामान्य प्रतिलेखन त्रुटियों की पहचान करके मशीन लर्निंग मॉडल को बेहतर बनाने में मदद करते हैं।

विज्ञापन

नीचे पढ़ना जारी रखें

“हमें विश्वास है कि निकट भविष्य में, इन स्पीच-टू-टेक्स्ट मॉडल में सुधार ऑडियो को तेज़ी से टेक्स्ट में बदलने में मदद करेगा, अंततः लोगों को ऑडियो समाचार को अधिक प्रभावी ढंग से खोजने में मदद करेगा।”

स्रोत: गूगल

Related Posts

Leave a Reply

Your email address will not be published. Required fields are marked *