【科技新聞】GitHub Copilot 調查


GitHub Copilot 調查
GitHub Copi­lot inves­ti­ga­tion

評論

如果有人因為這種版權問題成功關閉了 CoPilot,那將是可悲的。它真的很有用。我不在乎它是否複製了受版權保護的內容。你可以讓它做到這一點的唯一方法是使用已經被複製並粘貼到 GitHub 上數千次而沒有適當許可證的函數的函數名稱來誘餌它。

幸運的是,有人可能會推出一個“叛徒”版本,該版本受過任何訓練,使其成為我編碼的有用助手。我不會害怕自己不小心侵犯版權,因為我不會試圖誘使它複製大量複製和粘貼的精選示例,我也不會使用它的 20 行輸出而零修改。

一個相當大的、可能是多元化的完全成年技術人員群體足夠年輕,以至於不知道美國訴微軟公司。這可以解釋我在這個話題上看到的很多評論。

如果您不了解微軟的歷史,那麼很多知情人士所擔心的事情似乎都被誇大了。 Copilot 是微軟在收購 GitHub 後對人們信任度的首次考驗。進展非常非常非常糟糕。在獲得代碼的人和項目的同意和協作的情況下,有很多方法可以做到這一點,但他們在這裡的表現就像經典的微軟一樣。

太多人專注於什麼是合法的。想想也不錯,但法律是社會崩潰前的最後一站。微軟跳過了社會,直接引發了對版權法的不可避免的考驗和可能的重塑。


聲音
Sound

評論

這個人需要天才資助,這已經是我第六次這麼想了。

這些頁面中的任何一個都將是一項壯舉,一項值得驕傲的成就,但作為一個集合,它構成了我所知道的同類中最偉大的教育資源之一。

這些東西可以讓你在 45 分鐘內對一個主題有更多的直覺,而不是一本教科書在 3 個月內所能提供的,因為它很有趣而且不枯燥。

我希望我現在有更多的時間來抱怨這個,但我沒有,所以:Kudos。另一個了不起的工作。

Bartosz 的博客文章獨樹一幟。

他們讓他能夠通過從第一原理開始解釋複雜的主題,輕輕地添加越來越多的層次,以及美麗的、定制的人物和動畫,真的,從字面上看,真棒。

如果您喜歡他的博客文章,我強烈建議您通過他的 Patreon 支持作者。

+1 推薦 Steven W. Smith 的“數字信號處理科學家和工程師指南”。多年前,我與史蒂文談過他將所有書籍的 PDF 文件免費放到網上,從那時起,我推薦至少 5 家大學圖書館購買它,因為學生可以免費獲得一本可以在圖書館參考的好書。

FWIW The Scientist and Engineer's Guide 實際上並沒有涵蓋很多關於聲音的內容。它以特定的 DSP 方式開始,包括頻域定義和卷積——我實際上認為 Steven 的背景是內側成像,儘管我可能弄錯了。


GitHub Copilot,“公共代碼”被阻止,發出我受版權保護的代碼
GitHub Copilot, with “public code” blocked, emits my copyrighted code

評論

你好,伙計們。 Ryan 來自 GitHub Copilot 產品團隊。我不知道原始海報的機器是如何設置的,但我會拋出一些關於可能發生的事情的理論。

如果在您的 VS Code 項目中打開了類似的代碼,Copilot 可以從這些相鄰文件中繪製上下文。這可以使公共模型看起來是在您的私有代碼上訓練的,而實際上上下文是從本地文件中提取的。例如,這就是 Copilot 在建議中包含與您的項目相關的變量和方法名稱的方式。

您的代碼(或非常相似的代碼)也可能在公共存儲庫中多次出現。雖然 Copilot 不建議來自特定存儲庫的代碼,但它會重複模式。 OpenAI codex 模型(Copilot 源自該模型)的工作方式很像翻譯工具。當您使用 Google 將英語翻譯成西班牙語時,該服務以前從未見過該特定句子。相反,翻譯服務理解語言模式(即句法、語義、常用短語)。同理,Copilot 從英語翻譯成 Python、Rust、JavaScript 等。該模型基於大量公共數據學習語言模式。特別是當一個代碼片段出現數百或數千次時,模型可以將其解釋為一種模式。我們發現這種情況發生在 <1% 的建議中。為確保每個建議都是唯一的,Copilot 提供了一個過濾器來阻止與公共數據匹配的 >150 個字符的建議。如果您尚未使用過濾器,我建議您通過訪問用戶設置中的 Copilot 選項卡將其打開。

這是一個新的發展領域,我們都在學習。我個人花了很多時間與開發人員、版權專家和社區利益相關者聊天,以了解利用 LLM 最負責任的方式。我最大的收穫:LLM 維護者(如 GitHub)必須透明地討論模型的構建和實現方式。社區中發生了很多逆向工程,這導致了懷疑和偶爾的誤解。在接下來的幾個月裡,我們將通過我們的工程師和數據科學家的更多博客文章來努力改進這方面的工作。

我只是在我正在處理的一個 rust 項目中間創建的一個隨機 c 文件上自己測試了它,它從函數頭逐字複製了他的完整代碼,因此它確實像某些人所說的那樣反芻專有代碼,我沒有他的消息來源,所以副駕駛不只是使用現有的上下文。

我一直發現副駕駛真的很有用,但我現在要暫停它,我很高興我只在個人項目上使用它,而不是任何工作。這在我的腦海中越過了從法律歧義到合法的“是的,這將不得不停止”的界限。

請注意,寫這篇文章的人是蒂姆戴維斯 [0],他是傳奇 CHOLMOD 求解器 [1] 的作者,每天有數十萬人在解決常見數值環境中的稀疏對稱線性系統時使用它。

即使 CHOLMOD 很容易成為最好的稀疏對稱求解器,但眾所周知,它並沒有被 scipy.linalg.solve 使用,因為 numpy/scipy 開發人員是反版權左派的原教旨主義者,並且僅僅出於意識形態原因而選擇不使用這個優秀的代碼。 . 但這不會持續下去:多虧了這裡描述的副駕駛“過濾”,我們現在可以恢復不受作者最初分發它的許可證影響的 CHOLMOD 版本!哦,勇敢的新世界,裡面有這樣的人!

[0] https://people.engr.tamu.edu/davis/welcome.html

[1] https://github.com/DrTimothyAldenDavis


留言討論區