GitHub Copilot 調查
GitHub Copilot investigation
- 新聞連結: https://githubcopilotinvestigation.com/
- Hacker News評論連結: https://news.ycombinator.com/item?id=33240341
評論
如果您不了解微軟的歷史,那麼很多知情人士所擔心的事情似乎都被誇大了。 Copilot 是微軟在收購 GitHub 後對人們信任度的首次考驗。進展非常非常非常糟糕。在獲得代碼的人和項目的同意和協作的情況下,有很多方法可以做到這一點,但他們在這裡的表現就像經典的微軟一樣。
太多人專注於什麼是合法的。想想也不錯,但法律是社會崩潰前的最後一站。微軟跳過了社會,直接引發了對版權法的不可避免的考驗和可能的重塑。
聲音
Sound
- 新聞連結: https://ciechanow.ski/sound/
- Hacker News評論連結: https://news.ycombinator.com/item?id=33249215
評論
這些頁面中的任何一個都將是一項壯舉,一項值得驕傲的成就,但作為一個集合,它構成了我所知道的同類中最偉大的教育資源之一。
這些東西可以讓你在 45 分鐘內對一個主題有更多的直覺,而不是一本教科書在 3 個月內所能提供的,因為它很有趣而且不枯燥。
我希望我現在有更多的時間來抱怨這個,但我沒有,所以:Kudos。另一個了不起的工作。
他們讓他能夠通過從第一原理開始解釋複雜的主題,輕輕地添加越來越多的層次,以及美麗的、定制的人物和動畫,真的,從字面上看,真棒。
如果您喜歡他的博客文章,我強烈建議您通過他的 Patreon 支持作者。
FWIW The Scientist and Engineer's Guide 實際上並沒有涵蓋很多關於聲音的內容。它以特定的 DSP 方式開始,包括頻域定義和卷積——我實際上認為 Steven 的背景是內側成像,儘管我可能弄錯了。
GitHub Copilot,“公共代碼”被阻止,發出我受版權保護的代碼
GitHub Copilot, with “public code” blocked, emits my copyrighted code
評論
如果在您的 VS Code 項目中打開了類似的代碼,Copilot 可以從這些相鄰文件中繪製上下文。這可以使公共模型看起來是在您的私有代碼上訓練的,而實際上上下文是從本地文件中提取的。例如,這就是 Copilot 在建議中包含與您的項目相關的變量和方法名稱的方式。
您的代碼(或非常相似的代碼)也可能在公共存儲庫中多次出現。雖然 Copilot 不建議來自特定存儲庫的代碼,但它會重複模式。 OpenAI codex 模型(Copilot 源自該模型)的工作方式很像翻譯工具。當您使用 Google 將英語翻譯成西班牙語時,該服務以前從未見過該特定句子。相反,翻譯服務理解語言模式(即句法、語義、常用短語)。同理,Copilot 從英語翻譯成 Python、Rust、JavaScript 等。該模型基於大量公共數據學習語言模式。特別是當一個代碼片段出現數百或數千次時,模型可以將其解釋為一種模式。我們發現這種情況發生在 <1% 的建議中。為確保每個建議都是唯一的,Copilot 提供了一個過濾器來阻止與公共數據匹配的 >150 個字符的建議。如果您尚未使用過濾器,我建議您通過訪問用戶設置中的 Copilot 選項卡將其打開。
這是一個新的發展領域,我們都在學習。我個人花了很多時間與開發人員、版權專家和社區利益相關者聊天,以了解利用 LLM 最負責任的方式。我最大的收穫:LLM 維護者(如 GitHub)必須透明地討論模型的構建和實現方式。社區中發生了很多逆向工程,這導致了懷疑和偶爾的誤解。在接下來的幾個月裡,我們將通過我們的工程師和數據科學家的更多博客文章來努力改進這方面的工作。
我一直發現副駕駛真的很有用,但我現在要暫停它,我很高興我只在個人項目上使用它,而不是任何工作。這在我的腦海中越過了從法律歧義到合法的“是的,這將不得不停止”的界限。
即使 CHOLMOD 很容易成為最好的稀疏對稱求解器,但眾所周知,它並沒有被 scipy.linalg.solve 使用,因為 numpy/scipy 開發人員是反版權左派的原教旨主義者,並且僅僅出於意識形態原因而選擇不使用這個優秀的代碼。 . 但這不會持續下去:多虧了這裡描述的副駕駛“過濾”,我們現在可以恢復不受作者最初分發它的許可證影響的 CHOLMOD 版本!哦,勇敢的新世界,裡面有這樣的人!
幸運的是,有人可能會推出一個“叛徒”版本,該版本受過任何訓練,使其成為我編碼的有用助手。我不會害怕自己不小心侵犯版權,因為我不會試圖誘使它複製大量複製和粘貼的精選示例,我也不會使用它的 20 行輸出而零修改。