این مدل هوش مصنوعی با تماشای ویدیو صحبت کردن را یاد می‌گیرد – در اینجا نحوه صحبت کردن آمده است

پروین میرمیران18 ژوئن 2024آخرین به روز رسانی: 18 ژوئن 2024

0 2,660 خواندن این مطلب 3 دقیقه زمان میبرد

به گفته محققان، مدل هوش مصنوعی DenseAV به سادگی با تماشای ویدئوها، بدون ورودی یا متن انسان، معنای کلمات و مکان صداها را آموخت.

محققان MIT، مایکروسافت، آکسفورد و گوگل در مقاله ای توضیح دادند که DenseAV تنها با استفاده از بازرسی خود از طریق ویدئو به این مهم دست یافت.

برای یادگیری این الگوها، از یادگیری مقایسه ای صوتی و تصویری استفاده می کند تا یک صدای خاص را با دنیای قابل مشاهده مرتبط کند. این حالت یادگیری به این معنی است که بخش بصری مدل نمی تواند بینشی از سمت شنوایی به دست آورد (یا بالعکس) و الگوریتم را مجبور می کند تا اشیا را به روشی معنادار تشخیص دهد.

با مقایسه جفت سیگنال های صوتی و تصویری یاد می گیرد و تعیین می کند که کدام داده مهم است. سپس ارزیابی می کند که کدام سیگنال ها مطابقت دارند و کدام نه. به این ترتیب DenseAV می‌تواند بدون برچسب یاد بگیرد، زیرا وقتی زبان را می‌فهمید و می‌توانید صداها را تشخیص دهید، حدس زدن آنچه می‌بینید از آنچه می‌شنوید آسان‌تر است.

چگونه کار می کند؟

ایده این فرآیند به ذهن مارک همیلتون دانشجوی دکترای MIT در حین تماشای فیلم رسید. مارس پنگوئن ها. یک صحنه خاص وجود دارد که در آن یک پنگوئن سقوط می کند و ناله می کند.

«وقتی آن را تماشا می‌کنید، تقریباً واضح است که این ناله جایگزین یک کلمه چهار حرفی شده است. این لحظه ای بود که فکر کردیم شاید باید از صدا و تصویر برای یادگیری زبان استفاده کنیم.

آنها دریافتند که یک طرف مغز به طور طبیعی روی زبان تمرکز می کند، در حالی که طرف دیگر روی صداهایی مانند میو.

هدف او این بود که مدلش را قادر سازد تا با حدس زدن آنچه که از شنیده هایش می بیند، زبانی را بیاموزد. بنابراین اگر از کسی بشنوید که می گوید “ویولن را بردارید و شروع کنید به نواختن”، احتمالاً یک ویولن یا یک نوازنده خواهید دید. این بازی تطبیق صدا با ویدئو در ویدئوهای مختلف تکرار شده است.

هنگامی که این کار انجام شد، محققان بر روی پیکسل‌هایی تمرکز کردند که یک مدل در هنگام شنیدن صدای خاصی به آن‌ها نگاه می‌کرد. کسی که می‌گوید «گربه» الگوریتم را برای شروع جستجوی گربه‌ها در ویدیو فعال می‌کند. دیدن اینکه الگوریتم کدام پیکسل‌ها را انتخاب می‌کند به این معنی است که می‌توانید بفهمید که یک کلمه خاص به چه معناست.

اما فرض کنید DenseAV شنیده است که کسی می گوید “گربه” و سپس صدای میو گربه را شنید، هوش مصنوعی همچنان می تواند تصویر یک گربه را در عکس شناسایی کند. اما آیا این بدان معناست که الگوریتم فکر می کند که میو گربه همان میو گربه است؟

محققان این موضوع را با دادن یک “مغز دوطرفه” به DenseAV بررسی کردند و دریافتند که یک طرف مغز به طور طبیعی بر روی زبان تمرکز می کند، در حالی که طرف دیگر روی صداهایی مانند میو. بنابراین DenseA در واقع معانی مختلف هر دو کلمه را بدون هیچ دخالت انسانی یاد گرفت.

چرا این مفید است؟

DenseAV الگوریتمی است که می تواند معنای زبان و مکان صداها را به سادگی با تماشای ویدیوهای بدون برچسب کشف کند. DenseAV کاملاً بدون نظارت است و هرگز متنی را در طول آموزش خود نمی بیند. بیشتر بدانید: https://t.co/eG755yC9mI pic.twitter.com/3I1jJW8l0811 ژوئن 2024

حجم عظیمی از محتوای ویدیویی که در حال حاضر موجود است به این معنی است که هوش مصنوعی را می توان در مواردی مانند ویدیوهای آموزشی آموزش داد.

همیلتون گفت: «یک کاربرد هیجان‌انگیز دیگر، درک زبان‌های جدیدی است که شکل مکتوب ارتباطی ندارند، مانند ارتباط دلفین یا نهنگ».

گام بعدی این تیم ایجاد سیستم هایی است که می توانند از داده های ویدیویی یا صوتی به تنهایی یاد بگیرند. این در مناطقی که یک نوع ماده زیاد و نوع دیگر کمتر وجود دارد مفید است.