اخبار هوش مصنوعی دکتر مریم صادقی

در این مقاله، به بررسی جدیدترین اخبار و تحولات در حوزه هوش مصنوعی در سال ۱۴۰۴ می‌پردازیم. از معرفی مدل‌های پیشرفته توسط شرکت‌ های بزرگ مانند OpenAI و Google گرفته تا نوآوری‌های جالب در زمینه تولید تصویر و ویدیو.

 

OPENMAI  و مدل GPT-4.1  

 

OpenAI مد ل جدید GPT-4.1 را معرفی کرده است. این مدل در مقایسه با نسخه‌های قبلی مانند GPT-4 و GPT-4.5، دقت بالاتری در حوزه‌هایی مانند ریاضیات و برنامه‌ نویسی دارد، در حالی که هزینه استفاده از آن کاهش یافته است.   اما نکته اینجاست که openai تصمیم گرفته مدل ۴ را حذف کند و مدل 4o را جایگزین کند. از سوی دیگر، در API فقط مدل GPT4-1 در دسترس است، و این مدل از نظر دقت کمی بهتر از مدل GPT4-5 است، اما هزینه آن بسیار ارزان ‌تر است. بنابراین، openai به جای مدل         GPT4-5 از مدل GPT4-1  استفاده می‌کند. مقایسه‌هایی که انجام شده نشان می‌دهد که مدل GPT4-1 از مدل GPT4-5 و مدل‌های قدیمی ‌تر مانند GPT 3 در حوزه‌های مختلفی مثل ریاضیات و کد نویسی بهتر عمل می‌کند، اما در بنچمارک‌ هایی مثل پیروی از دستورالعمل‌ها کمی ضعیف‌ تر از GPT4-5  عمل می‌کند. این تفاوت قیمت‌ها بسیار توجیه ‌پذیر است.

همچنین، openai مدل‌های O3  و O4 mini را ارائه داده که به نوعی مدل‌هایی هستند که از نظر تفکر و تحلیل عملکرد بهتری دارند. این مدل‌ ها می ‌توانند در مسائل پیچیده بهتر عمل کنند و نسبت به مدل‌های قبلی مثل O3  و O4 mini عملکرد بهتری دارند. به علاوه، مدل‌های جدید این امکان را دارند که به ابزارهای مختلف مثل پایتون و جستجوگر اینترنت دسترسی پیدا کنند که موجب افزایش دقت در انجام وظایف مختلف می‌شود.

علاوه بر این، این مدل‌ها قابلیت تجزیه و تحلیل تصاویر را نیز دارند. به‌ عنوان مثال، یکی از کاربران عکسی را به مدل داده و از آن خواسته که محل عکس را تشخیص دهد. مدل با توجه به جزئیات عکس مثل نوع پلاک ماشین‌ها، ساختمان‌ها و حتی زبان و نوع ماشین‌ها، توانسته بود دقیقاً مکان عکس را تشخیص دهد. این قابلیت تجزیه و تحلیل تصویر باعث شده که این مدل‌ ها حتی از نظر قدرت شناسایی اطلاعات موجود در تصاویر نیز توانایی‌های بیشتری پیدا کنند.

همچنین، openai در حال پیشرفت در زمینه‌ای است که مدل‌ها بتوانند ایده‌های جدید را خودشان ارائه دهند. این یعنی مدل‌ها دیگر تنها داده‌های موجود را تحلیل نمی‌کنند، بلکه می‌توانند خود شان روش‌ها و ایده‌های جدیدی پیشنهاد دهند. این پیشرفت یکی از گام‌های مهم در جهت رسیدن به هوش مصنوعی عمومی   (AGI) است.

 

chat gpt

لینک مربوطه : https://openai.com/index/gpt-4-1/

https://openai.com/index/introducing-o3-and-o4-mini/

https://www.theinformation.com/articles/openais-latest-breakthrough-ai-comes-new-ideas

 

 

مدل Gemini 2.5

 

Google مدل هوش مصنوعی جدید خود به نام Gemini 2.5 را رونمایی کرده است. این مدل توانایی پردازش تا یک میلیون توکن ورودی را دارد، گوگل به رغم دیرتر وارد شدن، ابزارها و زیرساخت‌های بیشتری دارد که به آن اجازه می‌دهد تا حتی از مدل‌های پیشرفته‌ ای چون GPT 4.5 و Cloud 3.7 پیشی بگیرد. مدل Gemini 2.5 Pro و2-5   Flash برای مدت ‌هاست که در رتبه اول جدول  LLM ‌ها قرار دارند و از مدل‌ های دیگر همچون GPT 4 و Grok3 بهتر عمل می‌کنند. این مدل‌ها حتی در مقایسه با  GPT 4.5  نیز برتری دارند.

همچنین،  Gemini 2.5 قابلیت‌های چند وجهی مانند پردازش متن، تصویر و صدا را به‌ طور همزمان داراست.

 

gemini gemini gemini لینک مربوطه :

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

https://aistudio.google.com/prompts/new_chat

Meta و مدل LLaMA 4

شرکت Meta مدل LLaMA 4 را معرفی کرده است. این مدل اوپن سورس با ساختاری متشکل از چندین اکسپرت طراحی شده و در برخی زمینه‌ها عملکرد بهتری نسبت به مدل‌های دیگر دارد.LLaMA 4  قابلیت‌های مالتی ‌مودال دارد، به این معنی که می‌تواند تصاویر، صدا و متن را پردازش کند.

Llama

لینک مربوطه :

https://ai.meta.com/blog/llama-4-multimodal-intelligence/?utm_source=futuretools.io&utm_medium=newspage

 

 Google  و پروژه Dolphin Gemma   

 

Google در حال کار بر روی مد لی به نام “Dolphin Gemma” است که برای تفسیر زبان دلفین‌ها طراحی شده است. این مدل می ‌تواند در برقراری ارتباط با موجودات دریایی و حتی زیر دریایی‌ها مفید باشد.  این گام اولیه برای فهمیدن زبان حیوانات است و به طور بالقوه در ارتباطات زیر دریایی می‌تواند نقش مهمی داشته باشد.

 

dolphin grama

لینک مربوطه :

https://blog.google/technology/ai/dolphingemma/

 

ایجنت ها و تعامل پذیری پروتکل  MCP (Model Context Protocol)

 

پروتکل MCP، که توسط شرکت Anthropic معرفی شده است، یک استاندارد برای ارتباط بین مدل‌های زبانی و ابزارهای مختلف فراهم می‌کند. این پروتکل ارتباط بین  LLM‌ها و ابزارهای مختلف را ساده ‌تر و استاندارد تر می‌کند. اگر بخواهیم به صورت کلی بگوییم که MCP چیست ؟ میتوانیم بگوییم

وقتی شما می‌خواهید یک ای‌آی ایجنت بسازید یا یک LLM را به ابزارهای مختلف متصل کنید، با مشکلی مواجه می‌شوید. ابزارهای مختلف نحوه خروجی دادن اطلاعات خود را به شیوه‌های مختلف انجام می‌دهند و LLM نمی‌داند که چطور باید با هر کدام از این‌ها ارتباط برقرار کند. در نتیجه، کاربرها مجبور می‌شوند برای هر کدام از این ابزارها یک API تعریف کنند.

Cloud آمده است با استفاده از MCP، یک راه استاندارد برای ارتباط بین   LLM‌ها و این ابزارها ایجاد کرده است. یک مثال خوب که در این مقاله آمده، MCP  را به پیش ‌خد مت رستورانی تشبیه کرده است. شما سر میز نشسته ‌اید و به عنوان LLM  ، یک غذا سفارش می‌دهید. پیش‌ خدمت، که همان MCP است، سفارش شما را به آشپزخانه می‌رساند و کارهای مربوطه انجام می‌شود. شما دیگر نیازی نیست نگران این باشید که چطور با آشپزخانه ارتباط برقرار کنید، فقط منتظر غذا می‌مانید.

مزیت مهم MCP این است که اولاً استاندارد شده است، یعنی ابزارهای مختلف حالا می‌ توانند با مدل‌ های زبانی به ‌طور استاندارد ارتباط برقرار کنند. این کار ارتباط بین آنها را راحت‌ تر می‌کند. امنیت و کنترل دسترسی به داده‌ها نیز به راحتی قابل کنترل و محدود شدن است. حالا بسیاری از ابزارهای مختلف از جمله جیمیل، اسلک، گیت‌هاب، حتی OPENAI و گوگل به MCP پیوسته ‌اند و پلاگین‌های مخصوص خود را ارائه داده‌اند.

در N8N، اگر ویدیو مربوط به N8N را دیده باشید، به این صورت است که یک نود MCP سرور ایجاد می‌شود و ابزارهای مختلف به این سرور وصل می‌شوند. وقتی این سرور راه‌اندازی شد، ای ‌آی ایجنت شما به این MCP کلاینت وصل می‌شود و از آن به ‌طور استاندارد با ابزارهای مختلف ارتباط برقرار می‌کند. همه چیز به‌ طور خودکار و استاندارد انجام می‌شود.

 

model context

لینک مربوطه :

https://www.anthropic.com/news/model-context-protocol

 

 Google و پروتکل agent to agent

 

گوگل هم یک پروتکل جدید به نام ایجنت تو ایجنت ارائه داده که هدف آن ارتباط بین ایجنت‌های مختلف است. این پروتکل بسیار مشابه MCP است، اما از جهاتی تفاوت ‌هایی دارد. هدف این است که ایجنت‌های مختلف بتوانند با هم ارتباط برقرار کنند، حتی اگر حافظه مشترک ندارند. این شباهت به تعاملات انسان‌هاست که می‌توانند با یکدیگر ارتباط برقرار کرده و کارها را تقسیم کنند.

بسیاری از شرکت‌ها و سیستم‌ها در حال حاضر در حال آمادگی برای استفاده از این پروتکل هستند و پیش‌بینی می‌شود که استفاده از آن به زودی رایج شود.

 

model context model context

لینک مربوطه :

https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/?utm_source=futuretools.io&utm_medium=newspage

 

نوآوری‌ها در تولید تصویر و ویدیو Eleven Labs

 

قابلیت جدیدی به نام “Actor Mode” ارائه داده است که امکان تنظیم لحن صدا را به دلخواه فراهم می‌کند.  شما می‌توانید به ابزار Eleven labs  آموزش دهید که چگونه لحن صدا را تغییر دهد تا به‌ طور طبیعی‌ تر و احساس ‌برانگیزتر خوانده شود. این یک ابزاریه شما متن بهش مید هید و صوت تحویل میگیرید و بین ابزار های دیگر خیلی واقعی تره و الان هم یک امکانی داره که میتونید بهش بگید که با چه لحنی اون متن رو بگه .

 

eleven labs

توئیتر : @elevenlabsio

 

Minimax

 

این شرکت نیز به تازگی مدلی برای تبدیل متن به صدا ارائه داده است که بسیار طبیعی ‌تر و روان‌ تر صحبت می ‌کند به گونه ای که انگار انسان دارد حرف میزند و دیگر شبیه به قبل رباتی حرف نمیزنند و توی تولید محتوا این ابزار بسیار میتونی کمک کنه .

 

eleven labs

توئیتر : @minimax_ai

Luma AI

 

ابزاری معرفی کرده است که می‌تواند نقاشی‌های دستی یچه ها و یا خودتان  را به انیمیشن تبدیل کند.

 

eleven labs

توئیتر: @lumalabsai

 

Pika Labs

 

این ابزار جدید به شما این امکان را می‌دهد که یک بخش خا ص از ویدیو را تغییر دهید. به‌ عنوان مثال، می ‌توانید یک ماشین را از حرکت عادی به پرواز تغییر دهید، در حالی که بقیه وید یو ثابت می‌ماند. البته هنوز دسترسی عموم نداره و قراره کم کم دسترسی بدن اگر علاقه مند بودید ازش استفاده کنید .

 

eleven labs

توئیتر : @pika_labs

 

Stability AI

 

این شرکت هم اومده یک فیچری را داده که شما یک عکس دوبعدی  بهش میدید این میتونه اون رو به عنوان یک عکس سه بعدی ببینه و شما میتونید دوربینو هر جور که میخوایید دور اون عکس دوبعدی تغییر بدید ولی خب باید دقت کرد که هنوز به طور دقیق در نمیاد تصاویر ولی خب جا برای پیشرفت زیاده داره ، نکته ای که وجود داره این مدل اوپن سورسه یعنی شما میتونید مقالش رو بخونید و توی گیت هاب به  کدش دسترسی داشته باشید .

 

stability ai

لینک مربوطه :

https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control

 

Kling AI:

 

این ابزار جدید توانسته ویدیوهای بسیار با کیفیت و طبیعی تولید کند که توجه بسیاری را جلب کرده است. و میتونیم ببینیم که حتی دیگه دوربین هم ثابت نیست و دوربین هم حرکت داره و خیلی واقعی ترش کرده.

 

kiling ai

توئیتر : @isaachorror

 

اخبار در زمینه رباتیک و دستگاه‌ها

 

BigScreen

 

این شرکت عینک واقعیت مجازی جدیدی را معرفی کرده است که بسیار کوچکتر و جمع و جورتر از عینک‌ های فعلی است. این عینک قابلیت‌های زیادی دارد و برای گیمینگ و کارکردن مناسب است. و از طرفی خیلی کیفیت خوبی داره 116 درجه  field of viewداره .

BigScreen

لینک توئیتر : @BigscreenVR

 

Amazon

 

درمورد تاکسی های خودران آمازون هم تاکسی خودش رو داره تست میکنه تو لس انجلس به نام زوکس الان تو لس انجلس خیلی تاکسی های خودران مثل ویمو، اوبرو خیلی دارن آزمایش میشوند.

 

amazon

لینک مربوطه :

https://techcrunch.com/2025/04/08/amazons-zoox-begins-robotaxi-testing-in-los-angeles/?utm_source=futuretools.io&utm_medium=newspage

 

Kawasaki

 

یک وسیله نقلیه دیگه هم که خیلی جالبه شرکت ژاپنی به نام کاوازاکی اومده این رباتو نشون داده که یه جورایی انگار مثل یه اسپه یا موجوده چهارپاهه که آدم سوارش میشه و یه جورایی اسپ و موتوره که شخص میتونه سوارش بشه و هنوز در مرحله تست هست ولی خب اینجا نشون داده شده خیلی چیز جالبیه گفته که موتور هیدروژنی داره و مجهز به AI هستش .

 

Kawasaki

لینک توئیتر : @MyLordBebo

 

 ربات جدید گوگل

 

گوگل یک ربات جدید معرفی کرده که می‌ تواند تصاویر را روی دیوار یا زمین پروژکت کند و با افراد ارتباط برقرار کند. این ربات دارای میکروفن و اسپیکر است و می‌تواند در محیط‌های مختلف آموزشی یا خانگی استفاده شود.

 

ربات جدید گوگل

لینک مربوطه :

https://www.theverge.com/news/645853/samsung-is-finally-releasing-ballie?utm_source=futuretools.io&utm_medium=newspage

دیدگاهتان را بنویسید

وبسایت رسمی

دکتر سید ایمان غفوریان

Seyed Iman GHafoorian.H(PHD)