Merge branch 'master' into issue/10463

xnuohz · xnuohz · commit 04872a16eb7b · 2025-11-09T01:04:56.000+08:00
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -28,7 +28,7 @@ repos:
         args: [-d, '{extends: default, rules: {line-length: disable, document-start: disable, truthy: {level: error}, braces: {max-spaces-inside: 1}}}']
 
   - repo: https://github.com/asottile/pyupgrade
-    rev: v3.20.0
+    rev: v3.21.0
     hooks:
       - id: pyupgrade
         name: Upgrade Python syntax
@@ -55,7 +55,7 @@ repos:
         additional_dependencies: [toml]
 
   - repo: https://github.com/pycqa/isort
-    rev: 6.1.0
+    rev: 7.0.0
     hooks:
       - id: isort
         name: Sort imports
@@ -68,7 +68,7 @@ repos:
         additional_dependencies: [Flake8-pyproject]
 
   - repo: https://github.com/astral-sh/ruff-pre-commit
-    rev: v0.13.3
+    rev: v0.14.3
     hooks:
       - id: ruff
         name: Ruff formatting
@@ -85,7 +85,7 @@ repos:
           - mdformat_footnote
 
   - repo: https://github.com/sphinx-contrib/sphinx-lint
-    rev: v1.0.0
+    rev: v1.0.1
     hooks:
       - id: sphinx-lint
         name: Check Sphinx
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,7 +1,21 @@
 # Changelog
 
 All notable changes to this project will be documented in this file.
-The format is based on [Keep a Changelog](http://keepachangelog.com/en/1.0.0/).
+The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/).
+
+## [Unreleased] - YYYY-MM-DD
+
+### Added
+
+### Changed
+
+### Deprecated
+
+### Removed
+
+### Fixed
+
+### Security
 
 ## [2.7.0] - 2025-10-14
 
diff --git a/examples/llm/glem.py b/examples/llm/glem.py
@@ -60,7 +60,8 @@ def main(args):
     token_on_disk = args.token_on_disk
     num_em_iters = args.num_em_iters
     start_time = time.time()
-    train_without_ext_pred = args.train_without_ext_pred
+    train_with_ext_pred = not args.train_without_ext_pred and \
+        dataset_name == 'products'
     ext_pred = None
     pretrain_augmented = False
     ext_pseudo_labels = None
@@ -69,7 +70,7 @@ def main(args):
     print(f'Running on: {torch.cuda.get_device_name({gpu})}')
     torch.cuda.empty_cache()
 
-    if not train_without_ext_pred:
+    if train_with_ext_pred:
         ext_pred_path = download_google_url(
             id='15sO2m7BeW7C1Upmdw3Cx1JS__6nxTAzY',
             folder='data/ogb/ogbn_products/ext_preds',
@@ -262,7 +263,7 @@ def load_model(em_phase):
     if pretrain_phase == 'gnn':
         model.gnn = model.gnn.to(device)
         print('pretraining gnn to generate pseudo labels')
-        if not train_without_ext_pred:
+        if train_with_ext_pred:
             pretrain_loader = graph_train_loader
         preds_filename = 'gnn_pretrain'
     elif pretrain_phase == 'lm':
@@ -272,7 +273,7 @@ def load_model(em_phase):
         pretrain_loader = text_pretrain_loader
         test_loader = text_test_loader
         pretrain_opt = lm_opt
-        if not train_without_ext_pred:
+        if train_with_ext_pred:
             pretrain_loader = text_train_loader
         preds_filename = 'lm_pretrain'
 
@@ -404,10 +405,10 @@ def load_model(em_phase):
                         help='number of runs')
     parser.add_argument('--num_em_iters', type=int, default=1,
                         help='number of iterations')
-    parser.add_argument("--dataset", type=str, default='arxiv',
+    parser.add_argument("--dataset", type=str, default='products',
                         help='arxiv or products')
     parser.add_argument(
-        "--text_type", type=str, default='llm_explanation',
+        "--text_type", type=str, default='raw_text',
         help="type of text, support raw_text, llm_explanation,"
         "all for arxiv and raw_text for products")
     parser.add_argument("--pl_ratio", type=float, default=0.5,
diff --git a/examples/llm/nvtx_examples/nvtx_rag_backend_example.py b/examples/llm/nvtx_examples/nvtx_rag_backend_example.py
@@ -12,8 +12,8 @@
     preprocess_triplet,
     retrieval_via_pcst,
 )
+from torch_geometric.llm import SentenceTransformer
 from torch_geometric.loader import rag_loader
-from torch_geometric.nn.nlp import SentenceTransformer
 from torch_geometric.profile.nvtx import nvtxit
 
 sys.path.append('..')
diff --git a/pyproject.toml b/pyproject.toml
@@ -4,7 +4,7 @@ build-backend="flit_core.buildapi"
 
 [project]
 name="torch-geometric"
-version="2.7.0"
+version="2.8.0"
 authors=[
     {name="Matthias Fey", email="matthias@pyg.org"},
 ]
diff --git a/torch_geometric/__init__.py b/torch_geometric/__init__.py
@@ -31,7 +31,7 @@
 contrib = LazyLoader('contrib', globals(), 'torch_geometric.contrib')
 graphgym = LazyLoader('graphgym', globals(), 'torch_geometric.graphgym')
 
-__version__ = '2.7.0'
+__version__ = '2.8.0'
 
 __all__ = [
     'Index',
diff --git a/torch_geometric/datasets/tag_dataset.py b/torch_geometric/datasets/tag_dataset.py
@@ -137,10 +137,13 @@ def __init__(
         self.token_on_disk = token_on_disk
         self.tokenize_batch_size = tokenize_batch_size
         self._token = self.tokenize_graph(self.tokenize_batch_size)
-        self._llm_explanation_token = self.tokenize_graph(
-            self.tokenize_batch_size, text_type='llm_explanation')
-        self._all_token = self.tokenize_graph(self.tokenize_batch_size,
-                                              text_type='all')
+        self._llm_explanation_token: Dict[str, Tensor] = {}
+        self._all_token: Dict[str, Tensor] = {}
+        if self.name in self.llm_explanation_id:
+            self._llm_explanation_token = self.tokenize_graph(
+                self.tokenize_batch_size, text_type='llm_explanation')
+            self._all_token = self.tokenize_graph(self.tokenize_batch_size,
+                                                  text_type='all')
         self.__num_classes__ = dataset.num_classes
 
     @property
@@ -170,14 +173,16 @@ def token(self) -> Dict[str, Tensor]:
 
     @property
     def llm_explanation_token(self) -> Dict[str, Tensor]:
-        if self._llm_explanation_token is None:  # lazy load
+        if self._llm_explanation_token is None and \
+                self.name in self.llm_explanation_id:
             self._llm_explanation_token = self.tokenize_graph(
                 text_type='llm_explanation')
         return self._llm_explanation_token
 
     @property
     def all_token(self) -> Dict[str, Tensor]:
-        if self._all_token is None:  # lazy load
+        if self._all_token is None and \
+                self.name in self.llm_explanation_id:
             self._all_token = self.tokenize_graph(text_type='all')
         return self._all_token
 
@@ -230,13 +235,15 @@ def download(self) -> None:
                                             filename='node-text.csv.gz',
                                             log=True)
         self.text = list(read_csv(raw_text_path)['text'])
-        print('downloading llm explanations')
-        llm_explanation_path = download_google_url(
-            id=self.llm_explanation_id[self.name], folder=f'{self.root}/raw',
-            filename='node-gpt-response.csv.gz', log=True)
-        self.llm_explanation = list(read_csv(llm_explanation_path)['text'])
-        print('downloading llm predictions')
-        fs.cp(f'{self.llm_prediction_url}/{self.name}.csv', self.raw_dir)
+        if self.name in self.llm_explanation_id:
+            print('downloading llm explanations')
+            llm_explanation_path = download_google_url(
+                id=self.llm_explanation_id[self.name],
+                folder=f'{self.root}/raw', filename='node-gpt-response.csv.gz',
+                log=True)
+            self.llm_explanation = list(read_csv(llm_explanation_path)['text'])
+            print('downloading llm predictions')
+            fs.cp(f'{self.llm_prediction_url}/{self.name}.csv', self.raw_dir)
 
     def process(self) -> None:
         # process Title and Abstraction
@@ -276,20 +283,21 @@ def process(self) -> None:
             for i, pred in enumerate(preds):
                 pl[i][:len(pred)] = torch.tensor(
                     pred[:self.llm_prediction_topk], dtype=torch.long) + 1
+
+            if self.llm_explanation is None or pl is None:
+                raise ValueError(
+                    "The TAGDataset only have ogbn-arxiv LLM explanations"
+                    "and predictions in default. The llm explanation and"
+                    "prediction of each node is not specified.Please pass in"
+                    "'llm_explanation' and 'llm_prediction' when"
+                    "convert your dataset to Text Attribute Graph Dataset")
         elif self.name in self.llm_explanation_id:
             self.download()
         else:
             print(
                 'The dataset is not ogbn-arxiv,'
                 'please pass in your llm explanation list to `llm_explanation`'
                 'and llm prediction list to `llm_prediction`')
-        if self.llm_explanation is None or pl is None:
-            raise ValueError(
-                "The TAGDataset only have ogbn-arxiv LLM explanations"
-                "and predictions in default. The llm explanation and"
-                "prediction of each node is not specified."
-                "Please pass in 'llm_explanation' and 'llm_prediction' when"
-                "convert your dataset to Text Attribute Graph Dataset")
 
     def save_node_text(self, text: List[str]) -> None:
         node_text_path = osp.join(self.root, 'raw', 'node-text.csv.gz')
diff --git a/torch_geometric/nn/model_hub.py b/torch_geometric/nn/model_hub.py
@@ -144,10 +144,10 @@ def _from_pretrained(
         revision,
         cache_dir,
         force_download,
-        proxies,
-        resume_download,
         local_files_only,
         token,
+        proxies=None,
+        resume_download=False,
         dataset_name='',
         model_name='',
         map_location='cpu',
diff --git a/torch_geometric/nn/pool/cluster_pool.py b/torch_geometric/nn/pool/cluster_pool.py
@@ -20,8 +20,7 @@ class UnpoolInfo(NamedTuple):
 
 class ClusterPooling(torch.nn.Module):
     r"""The cluster pooling operator from the `"Edge-Based Graph Component
-    Pooling" <paper url>`_ paper.
-
+    Pooling" <https://arxiv.org/abs/2409.11856>`_ paper.
     :class:`ClusterPooling` computes a score for each edge.
     Based on the selected edges, graph clusters are calculated and compressed
     to one node using the injective :obj:`"sum"` aggregation function.

Original file line number	Diff line number	Diff line change
`@@ -12,8 +12,8 @@`
`12`	`12`	`preprocess_triplet,`
`13`	`13`	`retrieval_via_pcst,`
`14`	`14`	`)`
	`15`	`+from torch_geometric.llm import SentenceTransformer`
`15`	`16`	`from torch_geometric.loader import rag_loader`
`16`		`-from torch_geometric.nn.nlp import SentenceTransformer`
`17`	`17`	`from torch_geometric.profile.nvtx import nvtxit`
`18`	`18`
`19`	`19`	`sys.path.append('..')`
Original file line number	Diff line number	Diff line change
`@@ -4,7 +4,7 @@ build-backend="flit_core.buildapi"`
`4`	`4`
`5`	`5`	`[project]`
`6`	`6`	`name="torch-geometric"`
`7`		`-version="2.7.0"`
	`7`	`+version="2.8.0"`
`8`	`8`	`authors=[`
`9`	`9`	`{name="Matthias Fey", email="[email protected]"},`
`10`	`10`	`]`