این مدل هوش مصنوعی با تماشای ویدیو صحبت کردن را یاد میگیرد – در اینجا نحوه صحبت کردن آمده است
به گفته محققان، مدل هوش مصنوعی DenseAV به سادگی با تماشای ویدئوها، بدون ورودی یا متن انسان، معنای کلمات و مکان صداها را آموخت.
محققان MIT، مایکروسافت، آکسفورد و گوگل در مقاله ای توضیح دادند که DenseAV تنها با استفاده از بازرسی خود از طریق ویدئو به این مهم دست یافت.
برای یادگیری این الگوها، از یادگیری مقایسه ای صوتی و تصویری استفاده می کند تا یک صدای خاص را با دنیای قابل مشاهده مرتبط کند. این حالت یادگیری به این معنی است که بخش بصری مدل نمی تواند بینشی از سمت شنوایی به دست آورد (یا بالعکس) و الگوریتم را مجبور می کند تا اشیا را به روشی معنادار تشخیص دهد.
با مقایسه جفت سیگنال های صوتی و تصویری یاد می گیرد و تعیین می کند که کدام داده مهم است. سپس ارزیابی می کند که کدام سیگنال ها مطابقت دارند و کدام نه. به این ترتیب DenseAV میتواند بدون برچسب یاد بگیرد، زیرا وقتی زبان را میفهمید و میتوانید صداها را تشخیص دهید، حدس زدن آنچه میبینید از آنچه میشنوید آسانتر است.
چگونه کار می کند؟
ایده این فرآیند به ذهن مارک همیلتون دانشجوی دکترای MIT در حین تماشای فیلم رسید. مارس پنگوئن ها. یک صحنه خاص وجود دارد که در آن یک پنگوئن سقوط می کند و ناله می کند.
«وقتی آن را تماشا میکنید، تقریباً واضح است که این ناله جایگزین یک کلمه چهار حرفی شده است. این لحظه ای بود که فکر کردیم شاید باید از صدا و تصویر برای یادگیری زبان استفاده کنیم.
هدف او این بود که مدلش را قادر سازد تا با حدس زدن آنچه که از شنیده هایش می بیند، زبانی را بیاموزد. بنابراین اگر از کسی بشنوید که می گوید “ویولن را بردارید و شروع کنید به نواختن”، احتمالاً یک ویولن یا یک نوازنده خواهید دید. این بازی تطبیق صدا با ویدئو در ویدئوهای مختلف تکرار شده است.
هنگامی که این کار انجام شد، محققان بر روی پیکسلهایی تمرکز کردند که یک مدل در هنگام شنیدن صدای خاصی به آنها نگاه میکرد. کسی که میگوید «گربه» الگوریتم را برای شروع جستجوی گربهها در ویدیو فعال میکند. دیدن اینکه الگوریتم کدام پیکسلها را انتخاب میکند به این معنی است که میتوانید بفهمید که یک کلمه خاص به چه معناست.
اما فرض کنید DenseAV شنیده است که کسی می گوید “گربه” و سپس صدای میو گربه را شنید، هوش مصنوعی همچنان می تواند تصویر یک گربه را در عکس شناسایی کند. اما آیا این بدان معناست که الگوریتم فکر می کند که میو گربه همان میو گربه است؟
محققان این موضوع را با دادن یک “مغز دوطرفه” به DenseAV بررسی کردند و دریافتند که یک طرف مغز به طور طبیعی بر روی زبان تمرکز می کند، در حالی که طرف دیگر روی صداهایی مانند میو. بنابراین DenseA در واقع معانی مختلف هر دو کلمه را بدون هیچ دخالت انسانی یاد گرفت.
چرا این مفید است؟
DenseAV الگوریتمی است که می تواند معنای زبان و مکان صداها را به سادگی با تماشای ویدیوهای بدون برچسب کشف کند. DenseAV کاملاً بدون نظارت است و هرگز متنی را در طول آموزش خود نمی بیند. بیشتر بدانید: https://t.co/eG755yC9mI pic.twitter.com/3I1jJW8l0811 ژوئن 2024
حجم عظیمی از محتوای ویدیویی که در حال حاضر موجود است به این معنی است که هوش مصنوعی را می توان در مواردی مانند ویدیوهای آموزشی آموزش داد.
همیلتون گفت: «یک کاربرد هیجانانگیز دیگر، درک زبانهای جدیدی است که شکل مکتوب ارتباطی ندارند، مانند ارتباط دلفین یا نهنگ».
گام بعدی این تیم ایجاد سیستم هایی است که می توانند از داده های ویدیویی یا صوتی به تنهایی یاد بگیرند. این در مناطقی که یک نوع ماده زیاد و نوع دیگر کمتر وجود دارد مفید است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide