اخبار هوش مصنوعی دکتر مریم صادقی

در این مقاله، به بررسی جدیدترین اخبار و تحولات در حوزه هوش مصنوعی در سال ۱۴۰۴ می‌پردازیم. از معرفی مدل‌های پیشرفته توسط شرکت‌ های بزرگ مانند OpenAI و Google گرفته تا نوآوری‌های جالب در زمینه تولید تصویر و ویدیو.

OPENMAI و مدل GPT-4.1

OpenAI مد ل جدید GPT-4.1 را معرفی کرده است. این مدل در مقایسه با نسخه‌های قبلی مانند GPT-4 و GPT-4.5، دقت بالاتری در حوزه‌هایی مانند ریاضیات و برنامه‌ نویسی دارد، در حالی که هزینه استفاده از آن کاهش یافته است. اما نکته اینجاست که openai تصمیم گرفته مدل ۴ را حذف کند و مدل 4o را جایگزین کند. از سوی دیگر، در API فقط مدل GPT4-1 در دسترس است، و این مدل از نظر دقت کمی بهتر از مدل GPT4-5 است، اما هزینه آن بسیار ارزان ‌تر است. بنابراین، openai به جای مدل GPT4-5 از مدل GPT4-1 استفاده می‌کند. مقایسه‌هایی که انجام شده نشان می‌دهد که مدل GPT4-1 از مدل GPT4-5 و مدل‌های قدیمی ‌تر مانند GPT 3 در حوزه‌های مختلفی مثل ریاضیات و کد نویسی بهتر عمل می‌کند، اما در بنچمارک‌ هایی مثل پیروی از دستورالعمل‌ها کمی ضعیف‌ تر از GPT4-5 عمل می‌کند. این تفاوت قیمت‌ها بسیار توجیه ‌پذیر است.

همچنین، openai مدل‌های O3 و O4 mini را ارائه داده که به نوعی مدل‌هایی هستند که از نظر تفکر و تحلیل عملکرد بهتری دارند. این مدل‌ ها می ‌توانند در مسائل پیچیده بهتر عمل کنند و نسبت به مدل‌های قبلی مثل O3 و O4 mini عملکرد بهتری دارند. به علاوه، مدل‌های جدید این امکان را دارند که به ابزارهای مختلف مثل پایتون و جستجوگر اینترنت دسترسی پیدا کنند که موجب افزایش دقت در انجام وظایف مختلف می‌شود.

علاوه بر این، این مدل‌ها قابلیت تجزیه و تحلیل تصاویر را نیز دارند. به‌ عنوان مثال، یکی از کاربران عکسی را به مدل داده و از آن خواسته که محل عکس را تشخیص دهد. مدل با توجه به جزئیات عکس مثل نوع پلاک ماشین‌ها، ساختمان‌ها و حتی زبان و نوع ماشین‌ها، توانسته بود دقیقاً مکان عکس را تشخیص دهد. این قابلیت تجزیه و تحلیل تصویر باعث شده که این مدل‌ ها حتی از نظر قدرت شناسایی اطلاعات موجود در تصاویر نیز توانایی‌های بیشتری پیدا کنند.

همچنین، openai در حال پیشرفت در زمینه‌ای است که مدل‌ها بتوانند ایده‌های جدید را خودشان ارائه دهند. این یعنی مدل‌ها دیگر تنها داده‌های موجود را تحلیل نمی‌کنند، بلکه می‌توانند خود شان روش‌ها و ایده‌های جدیدی پیشنهاد دهند. این پیشرفت یکی از گام‌های مهم در جهت رسیدن به هوش مصنوعی عمومی (AGI) است.

لینک مربوطه : https://openai.com/index/gpt-4-1/

https://openai.com/index/introducing-o3-and-o4-mini/

https://www.theinformation.com/articles/openais-latest-breakthrough-ai-comes-new-ideas

مدل Gemini 2.5

Google مدل هوش مصنوعی جدید خود به نام Gemini 2.5 را رونمایی کرده است. این مدل توانایی پردازش تا یک میلیون توکن ورودی را دارد، گوگل به رغم دیرتر وارد شدن، ابزارها و زیرساخت‌های بیشتری دارد که به آن اجازه می‌دهد تا حتی از مدل‌های پیشرفته‌ ای چون GPT 4.5 و Cloud 3.7 پیشی بگیرد. مدل Gemini 2.5 Pro و2-5 Flash برای مدت ‌هاست که در رتبه اول جدول LLM ‌ها قرار دارند و از مدل‌ های دیگر همچون GPT 4 و Grok3 بهتر عمل می‌کنند. این مدل‌ها حتی در مقایسه با GPT 4.5 نیز برتری دارند.

همچنین، Gemini 2.5 قابلیت‌های چند وجهی مانند پردازش متن، تصویر و صدا را به‌ طور همزمان داراست.

لینک مربوطه :

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

https://aistudio.google.com/prompts/new_chat

Meta و مدل LLaMA 4

شرکت Meta مدل LLaMA 4 را معرفی کرده است. این مدل اوپن سورس با ساختاری متشکل از چندین اکسپرت طراحی شده و در برخی زمینه‌ها عملکرد بهتری نسبت به مدل‌های دیگر دارد.LLaMA 4 قابلیت‌های مالتی ‌مودال دارد، به این معنی که می‌تواند تصاویر، صدا و متن را پردازش کند.

لینک مربوطه :

https://ai.meta.com/blog/llama-4-multimodal-intelligence/?utm_source=futuretools.io&utm_medium=newspage

Google و پروژه Dolphin Gemma

Google در حال کار بر روی مد لی به نام “Dolphin Gemma” است که برای تفسیر زبان دلفین‌ها طراحی شده است. این مدل می ‌تواند در برقراری ارتباط با موجودات دریایی و حتی زیر دریایی‌ها مفید باشد. این گام اولیه برای فهمیدن زبان حیوانات است و به طور بالقوه در ارتباطات زیر دریایی می‌تواند نقش مهمی داشته باشد.

لینک مربوطه :

https://blog.google/technology/ai/dolphingemma/

ایجنت ها و تعامل پذیری پروتکل MCP (Model Context Protocol)

پروتکل MCP، که توسط شرکت Anthropic معرفی شده است، یک استاندارد برای ارتباط بین مدل‌های زبانی و ابزارهای مختلف فراهم می‌کند. این پروتکل ارتباط بین LLM‌ها و ابزارهای مختلف را ساده ‌تر و استاندارد تر می‌کند. اگر بخواهیم به صورت کلی بگوییم که MCP چیست ؟ میتوانیم بگوییم

وقتی شما می‌خواهید یک ای‌آی ایجنت بسازید یا یک LLM را به ابزارهای مختلف متصل کنید، با مشکلی مواجه می‌شوید. ابزارهای مختلف نحوه خروجی دادن اطلاعات خود را به شیوه‌های مختلف انجام می‌دهند و LLM نمی‌داند که چطور باید با هر کدام از این‌ها ارتباط برقرار کند. در نتیجه، کاربرها مجبور می‌شوند برای هر کدام از این ابزارها یک API تعریف کنند.

Cloud آمده است با استفاده از MCP، یک راه استاندارد برای ارتباط بین LLM‌ها و این ابزارها ایجاد کرده است. یک مثال خوب که در این مقاله آمده، MCP را به پیش ‌خد مت رستورانی تشبیه کرده است. شما سر میز نشسته ‌اید و به عنوان LLM ، یک غذا سفارش می‌دهید. پیش‌ خدمت، که همان MCP است، سفارش شما را به آشپزخانه می‌رساند و کارهای مربوطه انجام می‌شود. شما دیگر نیازی نیست نگران این باشید که چطور با آشپزخانه ارتباط برقرار کنید، فقط منتظر غذا می‌مانید.

مزیت مهم MCP این است که اولاً استاندارد شده است، یعنی ابزارهای مختلف حالا می‌ توانند با مدل‌ های زبانی به ‌طور استاندارد ارتباط برقرار کنند. این کار ارتباط بین آنها را راحت‌ تر می‌کند. امنیت و کنترل دسترسی به داده‌ها نیز به راحتی قابل کنترل و محدود شدن است. حالا بسیاری از ابزارهای مختلف از جمله جیمیل، اسلک، گیت‌هاب، حتی OPENAI و گوگل به MCP پیوسته ‌اند و پلاگین‌های مخصوص خود را ارائه داده‌اند.

در N8N، اگر ویدیو مربوط به N8N را دیده باشید، به این صورت است که یک نود MCP سرور ایجاد می‌شود و ابزارهای مختلف به این سرور وصل می‌شوند. وقتی این سرور راه‌اندازی شد، ای ‌آی ایجنت شما به این MCP کلاینت وصل می‌شود و از آن به ‌طور استاندارد با ابزارهای مختلف ارتباط برقرار می‌کند. همه چیز به‌ طور خودکار و استاندارد انجام می‌شود.

لینک مربوطه :

https://www.anthropic.com/news/model-context-protocol

Google و پروتکل agent to agent

گوگل هم یک پروتکل جدید به نام ایجنت تو ایجنت ارائه داده که هدف آن ارتباط بین ایجنت‌های مختلف است. این پروتکل بسیار مشابه MCP است، اما از جهاتی تفاوت ‌هایی دارد. هدف این است که ایجنت‌های مختلف بتوانند با هم ارتباط برقرار کنند، حتی اگر حافظه مشترک ندارند. این شباهت به تعاملات انسان‌هاست که می‌توانند با یکدیگر ارتباط برقرار کرده و کارها را تقسیم کنند.

بسیاری از شرکت‌ها و سیستم‌ها در حال حاضر در حال آمادگی برای استفاده از این پروتکل هستند و پیش‌بینی می‌شود که استفاده از آن به زودی رایج شود.

لینک مربوطه :

https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/?utm_source=futuretools.io&utm_medium=newspage

نوآوری‌ها در تولید تصویر و ویدیو Eleven Labs

قابلیت جدیدی به نام “Actor Mode” ارائه داده است که امکان تنظیم لحن صدا را به دلخواه فراهم می‌کند. شما می‌توانید به ابزار Eleven labs آموزش دهید که چگونه لحن صدا را تغییر دهد تا به‌ طور طبیعی‌ تر و احساس ‌برانگیزتر خوانده شود. این یک ابزاریه شما متن بهش مید هید و صوت تحویل میگیرید و بین ابزار های دیگر خیلی واقعی تره و الان هم یک امکانی داره که میتونید بهش بگید که با چه لحنی اون متن رو بگه .

توئیتر : @elevenlabsio

Minimax

این شرکت نیز به تازگی مدلی برای تبدیل متن به صدا ارائه داده است که بسیار طبیعی ‌تر و روان‌ تر صحبت می ‌کند به گونه ای که انگار انسان دارد حرف میزند و دیگر شبیه به قبل رباتی حرف نمیزنند و توی تولید محتوا این ابزار بسیار میتونی کمک کنه .

توئیتر : @minimax_ai

Luma AI

ابزاری معرفی کرده است که می‌تواند نقاشی‌های دستی یچه ها و یا خودتان را به انیمیشن تبدیل کند.

توئیتر: @lumalabsai

Pika Labs

این ابزار جدید به شما این امکان را می‌دهد که یک بخش خا ص از ویدیو را تغییر دهید. به‌ عنوان مثال، می ‌توانید یک ماشین را از حرکت عادی به پرواز تغییر دهید، در حالی که بقیه وید یو ثابت می‌ماند. البته هنوز دسترسی عموم نداره و قراره کم کم دسترسی بدن اگر علاقه مند بودید ازش استفاده کنید .

توئیتر : @pika_labs

Stability AI

این شرکت هم اومده یک فیچری را داده که شما یک عکس دوبعدی بهش میدید این میتونه اون رو به عنوان یک عکس سه بعدی ببینه و شما میتونید دوربینو هر جور که میخوایید دور اون عکس دوبعدی تغییر بدید ولی خب باید دقت کرد که هنوز به طور دقیق در نمیاد تصاویر ولی خب جا برای پیشرفت زیاده داره ، نکته ای که وجود داره این مدل اوپن سورسه یعنی شما میتونید مقالش رو بخونید و توی گیت هاب به کدش دسترسی داشته باشید .

لینک مربوطه :

https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control

Kling AI:

این ابزار جدید توانسته ویدیوهای بسیار با کیفیت و طبیعی تولید کند که توجه بسیاری را جلب کرده است. و میتونیم ببینیم که حتی دیگه دوربین هم ثابت نیست و دوربین هم حرکت داره و خیلی واقعی ترش کرده.

توئیتر : @isaachorror

اخبار در زمینه رباتیک و دستگاه‌ها

BigScreen

این شرکت عینک واقعیت مجازی جدیدی را معرفی کرده است که بسیار کوچکتر و جمع و جورتر از عینک‌ های فعلی است. این عینک قابلیت‌های زیادی دارد و برای گیمینگ و کارکردن مناسب است. و از طرفی خیلی کیفیت خوبی داره 116 درجه field of viewداره .

لینک توئیتر : @BigscreenVR

Amazon

درمورد تاکسی های خودران آمازون هم تاکسی خودش رو داره تست میکنه تو لس انجلس به نام زوکس الان تو لس انجلس خیلی تاکسی های خودران مثل ویمو، اوبرو خیلی دارن آزمایش میشوند.

لینک مربوطه :

https://techcrunch.com/2025/04/08/amazons-zoox-begins-robotaxi-testing-in-los-angeles/?utm_source=futuretools.io&utm_medium=newspage

Kawasaki

یک وسیله نقلیه دیگه هم که خیلی جالبه شرکت ژاپنی به نام کاوازاکی اومده این رباتو نشون داده که یه جورایی انگار مثل یه اسپه یا موجوده چهارپاهه که آدم سوارش میشه و یه جورایی اسپ و موتوره که شخص میتونه سوارش بشه و هنوز در مرحله تست هست ولی خب اینجا نشون داده شده خیلی چیز جالبیه گفته که موتور هیدروژنی داره و مجهز به AI هستش .

لینک توئیتر : @MyLordBebo

ربات جدید گوگل

گوگل یک ربات جدید معرفی کرده که می‌ تواند تصاویر را روی دیوار یا زمین پروژکت کند و با افراد ارتباط برقرار کند. این ربات دارای میکروفن و اسپیکر است و می‌تواند در محیط‌های مختلف آموزشی یا خانگی استفاده شود.

لینک مربوطه :

https://www.theverge.com/news/645853/samsung-is-finally-releasing-ballie?utm_source=futuretools.io&utm_medium=newspage

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

اخبار هوش مصنوعی دکتر مریم صادقی

OPENMAI و مدل GPT-4.1

مدل Gemini 2.5

Meta و مدل LLaMA 4

Google و پروژه Dolphin Gemma

ایجنت ها و تعامل پذیری پروتکل MCP (Model Context Protocol)

Google و پروتکل agent to agent

نوآوری‌ها در تولید تصویر و ویدیو Eleven Labs

Minimax

Luma AI

Pika Labs

Stability AI

Kling AI:

اخبار در زمینه رباتیک و دستگاه‌ها

BigScreen

Amazon

Kawasaki

ربات جدید گوگل

دیدگاهتان را بنویسید لغو پاسخ

تماس با ما

09155233250

آدرس

دانشگاه آزاد اسلامی مشهد

ایمیل

info@karshenas-ghafoorian.ir

بازدید سایت :

لینک های سریع

پیوند

دکتر سید ایمان غفوریان

Seyed Iman GHafoorian.H(PHD)